更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2018-05-03 19:10:52
【经验分享】Ubuntu下如何识别无线网卡?
以普联的TL-WDN6200为例,使用的是rtl8812au(http://t.cn/RuR1Drh这个驱动):
wget http://t.cn/RuR1DrP
unzip master.zip
cd rtl8812au-master
make
sudo install
然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测)。
-
西安鲲之鹏
发布时间:2018-04-27 17:15:06
【经验分享】命令下如何优雅地展示JSON数据?
jq is a lightweight and flexible command-line JSON processor. >>> http://t.cn/Ry7MrH2
示例:curl http://t.cn/Rui9UFI |jq '.'
效果如附图所示。
-
西安鲲之鹏
发布时间:2018-04-27 13:08:00
最常见浏览器User Agent列表(Most Common User Agents) >>> http://t.cn/R5ZC20T
PS:隐约感觉某网站开始通过随机UA检测爬虫了。 -
西安鲲之鹏
发布时间:2018-04-25 18:16:40
-
西安鲲之鹏
发布时间:2018-04-24 11:05:16
-
西安鲲之鹏
发布时间:2018-04-13 14:15:02
【最新】百度指数最新采集方案演示(视频),有点如下:
1. 受限账号仍可继续采集(不会提示访问太频繁);
2. 一次可以获取近90天的数据(理论上还可以更多); 西安鲲之鹏的秒拍视频 -
西安鲲之鹏
发布时间:2018-04-02 14:16:53
【经验分享】apt-get如何使用代理?使用-o参数, e.g.
sudo apt-get -o Acquire::http::proxy="http://username:password@ip:port/" update
-
西安鲲之鹏
发布时间:2018-03-29 12:25:33
【经验分享】多IP(网络接口)环境下Python httplib如何指定出口IP(outgoing address)?
如图1所示,测试机有ppp0和ppp1两个网络出口,如下测试代码:
import httplib
HOST = 'httpbin.org'
for outgoing_ip in ['59.55.148.133', '182.84.192.255']:
conn = httplib.HTTPConnection(HOST, timeout=10, source_address=(outgoing_ip, 0))
conn.request('GET', '/ip', '', {'HOST': HOST})
res = conn.getresponse()
print 'Response through outgoing interface "{}":{}'.format(outgoing_ip, res.read())
测试结果如图2所示。