更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
百度指数2014年9月份最新采集方案(快速、准确)
发布时间:2014-10-01
本方案是2014年9月份最新的思路。在6月份方案基础上做了重大改进,大大提高的采集的效率。
综合了下面两种思路:
1)折线图偏移算法;一次查询可以获取N天的数据(6月份的方案一次查询只能获取一天的数据),减少被封(账户/IP)的概率。
2)Webkit模拟鼠标移动,OCR精确提取;当偏移算法误差较大时自动进行校正。
在加快速度的同时也保证了精确度。
该方案一次查询最多可以采集6个月(N=180天)的数据。
算法1)的精确度跟查询的间隔时间(间隔时间=终止日期-起始日期)有关,误差值跟间隔天数成正比。
具体的有一些数字供参考:
* 间隔时间1天误差: 0.1%
* 间隔时间10天误差: 0.2% 建议采用该间隔!
* 间隔时间30天误差:1%
下面是演示视频。以采集mh17关键字 2014-07-16到2014-07-28的数据为例。
如果你想了解更多,可以联系我们的在线客服。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/