更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2018-02-01 22:16:32
【经验分享】如何用JS获取CSS :before 伪元素的content值?
e.g.某网站用CSS :before 伪元素将部分内容进行了“保护”(通过加密的JS动态生成类似如下的CSS伪元素展示信息),常规HTTP交互方法将获取不到内容(注意该CSS属性是加密的JS动态生成的)。
.anti_spider_txt:before {
content: '反采集的内容';
}
用模拟浏览器方式执行JS即可突破:
window.getComputedStyle(
document.querySelector('.anti_spider_txt'), ':before'
).getPropertyValue('content');
PS:如果网站用JS屏覆盖对象的getPropertyValue方法和其它属性,上述方法将失效。
不过可以通过中间人代理将对应JS代码屏蔽掉,该思路已通过验证。
-
西安鲲之鹏
发布时间:2018-02-01 21:47:27
【经验分享】Python如何获取字体文件内包含的所有文字编码?
from fontTools.ttLib import TTFont
font_path = './fonts/205a5cc78d8914cd4a3f65bd99ff97e0.ttf'
font = TTFont(font_path)
print font.getGlyphOrder()
输出如下:
['.notdef', 'uniEDA5', 'uniED53', 'uniEE06', 'uniEDB5', 'uniEC74', 'uniED27', 'uniECD6', 'uniED89', 'uniEC48', 'uniEDEB', 'uniECAA', 'uniEC58', 'uniED0C', 'uniEDBF', 'uniED6D', 'uniEC2D', 'uniECE0', 'uniEC8E', 'uniED42', 'uniECF0', 'uniEDA3', 'uniEC63', 'uniEE05', 'uniECC4', 'uniED78', 'uniED26', 'uniEDD9', 'uniED87', 'uniEC47', 'uniECFA', 'uniECA8', 'uniED5C', 'uniEC1B', 'uniEDBD', 'uniEC7D', 'uniEC2B', 'uniECDE', 'uniED92', 'uniED40', 'uniEDF3', 'uniECB3', 'uniEC61', 'uniED14', 'uniECC3', 'uniED76', 'uniEC35', 'uniEDD8', 'uniEC97', 'uniED4A', 'uniECF9', 'uniEDAC', 'uniED5A', 'uniEC1A', 'uniECCD', 'uniEC7B', 'uniED2F', 'uniEDE2', 'uniED90', 'uniEC50', 'uniEDF2', 'uniECB1', 'uniED65', 'uniED13', 'uniEDC6', 'uniEC86', 'uniEC34', 'uniECE7', 'uniEC95', 'uniED49', 'uniEDFC', 'uniEDAA', 'uniEC6A', 'uniED1D', 'uniECCB', 'uniED7F', 'uniED2D', 'uniEDE0', 'uniECA0', 'uniEC4E', 'uniED01', 'uniED63', 'uniEC22', 'uniEDC4', 'uniEC84', 'uniED37', 'uniECE5', 'uniED99', 'uniEDFA', 'uniECBA', 'uniEC68'
]
-
西安鲲之鹏
发布时间:2018-01-24 09:50:57
【经验分享】让curl自动解压gzip应答:curl --compressed "http://t.cn/hrfhaz" >>> http://t.cn/RQmBIJE
附图:
1)图1,未加--compressed参数,显示乱码,因为网站返回的gzip内容未被解压。
2)图2,加上显示乱码参数,显示正常。
-
西安鲲之鹏
发布时间:2018-01-22 15:43:27
【经验分享】Python读取火狐的SQLite文件,提示"sqlite3.DatabaseError: file is encrypted or is not a database"异常。用SQLite阅读器打开正常。解决方案:下载最新版的sqlite3.dll文件(http://t.cn/hj5v5)覆盖到python27/DLLs内,问题解决。 参考文章: http://t.cn/RQQApNy
-
西安鲲之鹏
发布时间:2017-12-25 08:31:00
【经验分享】设置Mac Mini加电后自启动: sudo setpci -s 0:1f.0 0xa4.b=0
实测成功。其它方法参考 >>> http://t.cn/RH2C60b -
西安鲲之鹏
发布时间:2017-12-12 19:03:00
Ubuntu14.04 64bit下Firefox试了好多版本出现“Couldn't load XPCOM”错误无法正常运行,最后发现firefox-45.0(http://t.cn/RTVXIpO)可以正常工作。 -
西安鲲之鹏
发布时间:2017-11-23 13:13:06
-
西安鲲之鹏
发布时间:2017-11-03 15:24:37
【经验分享】“selenium + phantomjs”如何正确退出phantomjs进程?
背景:程序用使用diver.quit()或driver.close()方法退出phantomjs进程偶尔会失败,出现“OSError: Bad file descriptor”异常。经测如下方法可以有效解决问题:
import signal
driver.service.process.send_signal(signal.SIGTERM) # kill the specific phantomjs child proc
driver.quit()
感谢Stackoverflow上的无私分享者 >>> http://t.cn/RlbPiCb http://t.cn/RlbPiCU
PS:如何在selinum里获取phantomjs进程的ID: driver.service.process.pid
参见 >>> http://t.cn/RlbPiC4 -
西安鲲之鹏
发布时间:2017-09-28 21:48:39
【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
点击查看详情 >>> http://t.cn/R0WMsU2
国家和IP数量如下表:
Country IP Count
Turkey 256
Canada 512
Madagascar 2560
Italy 512
Czech Republic 256
Iran (Islamic Republic of) 256
Hungary 512
Qatar 256
Luxembourg 256
France 256
Slovakia 256
Ireland 768
Hong Kong 256
Nigeria 768
Bolivia 2816
Norway 512
Bangladesh 256
Israel 512
Australia 256
Indonesia 256
Jordan 256
Germany 18688
Nicaragua 2560
Belgium 512
China 512
Iraq 256
Philippines 256
Taiwan 256
Spain 512
Ukraine 256
Netherlands 512
Denmark 512
Poland 256
Finland 768
Saudi Arabia 256
United States 83712
Sweden 768
Vietnam 256
Kenya 256
Switzerland 768
New Zealand 256
Russia 768
Brazil 512
Bulgaria 256
Romania 512
Portugal 512
Mexico 256
United Arab Emirates 256
India 50688
United Kingdom 6144
Malaysia 256
Austria 768
Congo 2560
Greece 512
Japan 512
South Korea 256
Cyprus 256