更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2020-02-21 17:44:07
-
西安鲲之鹏
发布时间:2020-02-19 17:14:47
【经验分享】Win8下安装VMware出现"error1316 指定账户已存在"问题的解决
似乎是之前的安装有注册表残留(在控制面板已安装程序列表里看不到),尝试安装了多次,持续出现"error1316 指定账户已存在"问题,网上有VMware注册表清理工具试了也不管用。
后来使用Windows Installer CleanUp Utility(Windows Installer 清理实用工具包,简称MSICUU)解决了问题。MSICUU会显示你以前没卸干净的软件列表(如附图1所示), 然后选择你想完全卸掉的项目 ,卸载了就可以了。
附MSICUU的下载链接>>> O【Windows Installer CleanUp Utility下载】2...。
-
西安鲲之鹏
发布时间:2020-02-18 15:24:40
【视频】携程酒店价格采集对比工具定制版演示
该最新定制版(2020年)使用Google Chrome Dev Protocol(非Selenium + webdirver模式)实现,不会暴露navigator.webdriver等各种特征,不容易被识别。
对比17年的版本:采用的是(Selenium + phantomjs)能够被反爬虫机制识别,返回有虚假价格情况,失败率也高。 西安鲲之鹏的微博视频 -
西安鲲之鹏
发布时间:2020-02-17 17:57:15
【经验分享】一例正则表达式效率低问题的分析
一直以来都觉得正则表达式的效率非常高,今天遇到一例正则匹配耗时特长的情况,mark一下。
目标是判断目标网页(大小约350KB)中是否有符合以下要求的子串:
"至少要有一个不为'的字符<div class="tips_unresult">"
想当然的写出了如下的代码:
re.compile(r'[^\']+<div[^<>]+class="tips_unresult">').search(html)
测试的时候发现这一步耗时特别长,记了一下时,竟然花了差不多10秒,很是诧异。
后来试着修改了下正则式,如下:
re.compile(r'[^\']<div[^<>]+class="tips_unresult">').search(html)
和第一次的相比,区别在于:这里只匹配"<div..."前面有一个非'字符即可,而第一步是匹配"<div..."前面有一个或多个非'字符。
这次只用了0.004秒,结果相差了1600多倍!
PS:第一次的那个代码在以往一个的爬虫中曾执行过70多万次,以前竟然没有发现问题,还以为时间都花在webkit加载页面上了...这样一算竟然多花了近一周的时间。
独立的测试代码和运行截图如附图所示。
-
西安鲲之鹏
发布时间:2020-02-15 23:14:20
【经验分享】“supervisor实现无限重试”中的坑
背景:Debian 10系统,Wifi联网,需要实现系统启动时自动启动autossh。
问题:如果网络未连接成功(例如,Wifi是在用户登录之后才会连接),启动autossh会失败退出。因此不能直接使用rc.local(在网络连接成功之前就执行了)。于是想到使用supervisor,让其不断的重试,当网络连接正常时就autossh就会正常被启动了,配置如附图1所示。但是发现supervisor最多只重试了3次就放弃了。
查询supervisor configuration文档(http://supervisord.org/configuration.html?highlight=startretries)得知startretries参数用于控制每次启动的重试次数,默认值是3。
另外还有一个autorestart参数,如果设置为true,则无条件重启(If true, the process will be unconditionally restarted when it exits, without regard to its exit code.)。但我设置了autorestart为true后,还是只重试了3次。
为什么呢?在autorestart参数注意事项里看到了如下说明:
autorestart controls whether supervisord will autorestart a program if it exits after it has successfully started up (the process is in the RUNNING state).
意思就是说目标program必须成功启动过一次(被标记过为RUNNING状态),autorestart机制才会起作用。
由于本案例中supervisor服务启动的时候网络连接还没建立成功,所以目标program(autossh)首次启动(3次重试)会失败,这样autorestart机制就没起作用。
怎么破?
首先我们要弄清楚supervisor是怎么判断目标程序成功启动了呢。
在startsecs参数的说明里我们可以看到:
The total number of seconds which the program needs to stay running after a startup to consider the start successful (moving the process from the STARTING state to the RUNNING state).
也就是只有目标程序启动保持运行超过startsecs秒才会被认为启动成功了(标记状态为RUNNING)。startsecs默认值是1。本例中autossh由于没有网络连接闪退了,所以supervisor认为其启动失败。
弄清原理之后,就好办了,我们实现一个这样的脚本:
(1)先判断网络连接是否正常(可以使用ping),如果不正常则等待10秒(只要超过startsecs值即可)后退出。
(2)如果网络连接正常,则启动autossh。
#!/bin/bash
# 检测网络是否通畅
ping -c 1 www.baidu.com
if [ $? -eq 0 ]
then
# 网络正常,启动autossh
echo "Network is ready"
sudo /bin/su qi -l -c "/usr/bin/autossh -M 6777 -N -D 127.0.0.1:1080 目标主机SSH参数"
else
# 网络不通,等待11秒后退出
echo "Network is not ready."
sleep 11s
exit 1
fi
实测成功。
附Supervisor Configuration File文档链接:http://supervisord.org/configuration.html
-
西安鲲之鹏
发布时间:2020-02-14 21:06:44
【免费分享】2020年春季人教版教科书PDF574本,9.2GB,拿走不谢 >>> http://www.data-shop.net/2020/02/%e5%85%8d%e8%b4%b92020%e5%b9%b4%e6%98%a5%e5%ad%a3%e4%ba%ba%e6%95%99%e7%89%88%e6%95%99%e7%a7%91%e4%b9%a6pdf574%e6%9c%ac-%e5%85%a8/
-
西安鲲之鹏
发布时间:2020-02-11 18:55:01
【经验分享】python2 pip安装frida-tools,在安装prompt-toolkit依赖时出现"No matching distribution found for prompt-toolkit<4.0.0,>=3.0.3 (from frida-tools)"问题(如附图1所示)的解决。
问题分析:需要的prompt-toolkit版本是 <4.0.0,>=3.0.3,而python 2库中prompt-toolkit的最高版本才是2.0.10。 查询得知"prompt_toolkit 3.0 requires at least Python 3.6." (来源:https://python-prompt-toolkit.readthedocs.io/en/master/),3.0以后版本需要至少python 3.6。
怎么破?
(1)下载frida-tools源码包。
(2)修改setup.py文件,如附图2所示,将prompt-toolkit的版本要求去掉。
(3)sudo python setup.py install。
-
西安鲲之鹏
发布时间:2020-02-11 15:38:51
-
西安鲲之鹏
发布时间:2020-02-08 13:32:58
【经验分享】Linux下如何查看服务器的型号,出厂日期?
可以使用dmidecode命令查看BIOS信息来实现。
e.g.
# 查看机器型号
sudo dmidecode -s system-product-name
# 查看出厂日期
sudo dmidecode -s bios-release-date
如图1所示为我最近折腾的TDE上网本的情况;
如图2所示为公司某服务器的情况;
如图3所示为阿里云服务器的情况;
关于dmidecode命令的详细说明见这里 >>> http://t.cn/A6Pemztx
-
西安鲲之鹏
发布时间:2020-02-08 11:17:45
【经验分享】这两天被冠状病毒困在家,翻出了一台10年前的上网本(TDE山寨货),配置如图1(i686 CPU 1.6GHz,1G RAM)。
折腾了一下安装各种系统,可能驱动兼容性问题,期间遇到了各种问题,总结如下:
(1)Chrome OS:
安装比较顺利,运行也比较流畅,进入系统之后就是一个谷歌浏览器。
但由于国内无法使用Google相关服务,使用起来比较麻烦,放弃。
(2)Android系列:
Bliss OS X86 32位,安装后无法进入桌面环境。
PrimeOS,没有32位的版本,无法安装。
(3)Linux发行版:
Linux Mint 19.3 cinnamon 32位,进入桌面后巨卡,无法正常使用,后来试了兼容模式启动情况好一些。
Ubuntu 16.04.6 Desktop i386,安装过程复制文件后期卡死,无后文。
Debian 10.2.0 i386,赞一个,安装过程很流畅(“配置软件包管理器”那步耗时较长),使用也很流畅。
最终选定使用Debian 10。
-
西安鲲之鹏
发布时间:2020-02-08 11:15:47
知名本地生活信息平台各品类商户数据2019年更新,本次共采集到超过5303万条(53032367条,总数统计如附图1所示)POI数据,点击这里了解详情 >>> http://www.site-digger.com/html/articles/20200207/cn-poi-data-2019.html
-
西安鲲之鹏
发布时间:2020-01-31 14:32:18
【经验分享】利用QEMU Monitor实现程序对Qemu虚拟机的控制
背景:公司用“Qemu + Android X86”跑了大量安卓APP的爬虫,但是偶尔会出现安卓虚拟机卡死的情况,需要人工干预处理(重启对应的Qemu虚拟机)。有没有什么自动化的实现方案呢?
经过查询得知QEMU提供了Monitor机制,可以通过Monitor提供的接口对虚拟机进行控制,比如重启、修改VNC密码、状态查询等等。
(1)启动Monitor。如下示例,启动虚拟机时指定127.0.0.1:40001为monitor接口:
qemu-system-x86_64 -enable-kvm -m 4096 -smp 4 -vnc :5 -monitor tcp:127.0.0.1:40001,server,nowait -net nic,model=virtio,macaddr=00:16:3E:51:CC:88 -net bridge,br=br0 bliss.img
(2)向Monitor发送控制命令。
如下示例,利用Python socket向monitor发送虚拟机重启命令:
client = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
client.connect(('127.0.0.1', 40001))
client.send('system_reset\n')
client.close()
这样,我们就能让程序自主完成虚拟机的重启,无需人工介入。
如附图所示,是通过nc远程连接monitor接口进行的一些列操作。
PS: 'system_reset'是系统重置命令,更多的命令详见QEMU Monitor Commands文档 >>> https://qemu.weilnetz.de/doc/qemu-doc.html#pcsys_005fmonitor
除了支持TCP接口作为控制端外,QEMU Monitor还支持“标准输入输出设备”, “UnixSocket”,详见这篇文章:http://t.cn/A6PKRRNa
-
西安鲲之鹏
发布时间:2020-01-19 19:35:14
【经验分享】PC通过使用“远程ADB”(ADB over network)时连接设备时出现“unauthorized”,且设备不出现授权对话框问题的解决方法:
(1)ADB客户端和服务端(安卓设备的adbd服务)之间的权鉴是通过公钥私钥对比进行的;
(2)如果安卓设备保存有ADB客户端的公钥(Linux: ~/.android/adbkey.pub, Windows: C:\Users\Administrator\.android\adbkey.pub),则直接通过验证。
(3)如果安卓设备没有ADB客户端的公钥,则弹出"Allow USB debugging?对话框",如果选择同意,则授权通过并自动保存客户端公钥到指定位置(保存于/data/misc/adb/adb_keys文件内)。
(4)"Allow USB debugging?对话框"只在通过USB连接设备的时候才会出现,“远程ADB”(ADB over network)模式不会出现,这样就无法像USB连接模式那样进行授权。
(5)只要我们事先把ADB客户端的公钥文件adbkey.pub复制到设备的/data/misc/adb/adb_keys文件内,重启ADB客户端,重连设备,将会自动通过验证。
上述步骤笔者在Bliss OS X86 系统下进行过多次实测。
-
西安鲲之鹏
发布时间:2020-01-17 14:05:28
【经验分享】Bliss OS X86系统如何开启自动开始“远程ADB”(ADB over network)?
在开发者选项中可以手动开启“ADB over network”,但是重启后会自动关闭(This setting is reset on reboot)。
解决方法:
在/etc/init.sh中加入
setprop service.adb.tcp.port 5555
stop adbd
start adbd
重启后“ADB over network”将会自动启动!
PS:原生的Android X86系统默认情况下开机“ADB over network”就是开启的,不需要像Bliss OS这样的额外设置。