更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
症状:发现HTTP代理速度变慢,大量连接超时和Connection reset by peer错误。
诊断:查看代理服务器软件Squid日志sudo tail /var/log/squid/cache.log发现大量的"WARNING! Your cache is running out of filedescriptors"错误,根据描述可知是文件描述符超过最大限制了。
确认:ps aux|grep squid, cat /proc/(Squid进程ID)/limits发现Max open files值仅为1024。
解决:
1)增加系统的Max open files。
vi /etc/security/limits.conf,文末加入如下配置行:
* hard nofile 500000
* soft nofile 500000
root hard nofile 500000
root soft nofile 500000
重启系统。
2)增加Squid的maximum file descriptors(适合CentOS系统)。
vi /etc/squid/squid.conf,文末加入如下配置行:
max_filedesc 500000
重启Squid(sudo service squid restart). 可以再查看ps aux|grep squid, cat /proc/(Squid进程ID)/limits的Max open files值是否已经修改为500000。
问题解决。