更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
先说一下百度指数系统最近又做了什么升级。大概在今年3月底、4月初的时候,百度指数系统又默默的升级策略了,这次UI几乎没变化(实际上2014年6月份以来一直就没变过),用之前的思路(点击查看详情http://www.site-digger.com/html/articles/20141001/82.html)还能绕过加密正常获取到明文数据。做过百度指数系统采集的朋友应该都知道,老版本系统对账号访问频率没有限制,只对IP访问频率有限制(IP访问频繁会出验证码),通过轮换代理IP可以过该限制。本次对账号访问频率做了严格限制,通过我们多次验证,每个账号每天大概只能访问大约300次,超过就会提示“您的访问太频繁了,请稍后再试”(如下图所示)。
针对该限制,鲲之鹏的技术人员改进了爬虫的策略:
1. 采用多账号采集,控制每个账号的访问间隔(约5分钟),每天每个账号的使用次数控制在300以内。
2. 如果出现“访问过于频繁”的警告,则标记该账号今日不再使用,并将采集任务重新入队列交由其它账号采集。
3. 同时使用百度指数手机版本采集,我们测试发现两个系统的限制是独立的,不过手机版的UI和加密方式不一样。
最终爬虫得以稳定运行,运行截图如下图所示: