更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
发布时间:2022-02-23 来源:西安鲲之鹏官微
【经验分享】miller如何按“日期时间”类型比较(过滤)某个字段的值
如下示例:
查询统计“土地市场网土地供应结果公告数据”(csv格式)中,山东省在2010年1月1日之后的数据有多少条?
mlr --c2j --from landchina-jggg_19980101_20211231_with_coordinates_UTF8.csv filter 'strptime($合同签订日期,"%Y-%m-%d") >= strptime("2010-01-01","%Y-%m-%d") && $省=~"山东"' then count
结果如附图1所示。
参考文档:https://miller.readthedocs.io/en/latest/date-time-examples/#how-can-i-filter-by-date
mlr查询的结果和如下用pandas查询的结果是一致的(如附图2所示)。注意:pandas在read_csv()的时候,要指定parse_dates=['合同签订日期'],将该字段类型转为时间日期类型。参考文档:https://www.cnblogs.com/traditional/p/12514914.html
df.query('xingzhengqu.str.contains("广东") or province.str.contains("广东")')
如下示例:
查询统计“土地市场网土地供应结果公告数据”(csv格式)中,山东省在2010年1月1日之后的数据有多少条?
mlr --c2j --from landchina-jggg_19980101_20211231_with_coordinates_UTF8.csv filter 'strptime($合同签订日期,"%Y-%m-%d") >= strptime("2010-01-01","%Y-%m-%d") && $省=~"山东"' then count
结果如附图1所示。
参考文档:https://miller.readthedocs.io/en/latest/date-time-examples/#how-can-i-filter-by-date
mlr查询的结果和如下用pandas查询的结果是一致的(如附图2所示)。注意:pandas在read_csv()的时候,要指定parse_dates=['合同签订日期'],将该字段类型转为时间日期类型。参考文档:https://www.cnblogs.com/traditional/p/12514914.html
df.query('xingzhengqu.str.contains("广东") or province.str.contains("广东")')
特别说明:该文章为鲲鹏数据原创内容 ,您除了可以发表评论外,还可以转载到别的网站,但是请保留源地址,谢谢!!(尊重他人劳动,我们共同努力)
☹ Disqus被Qiang了,之前的评论内容都没了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/