更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2020-03-29 16:29:58
【经验分享】记录使用"静态分析+动态插桩"还原“永辉超市某版本APP的HTTP签名算法”过程
背景:永辉超市某版本APP的HTTP请求使用了签名参数保护机制,下面是分析该签名算法的过程:
1. Jadx反编译APK,通过Java代码可以定位到加密函数位于cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity类的signParamsNative()方法。如附图1所示。
2. signParamsNative()是一个native方法,实现过程在libYHJni.so中。根据经验,直接还原算法可能有难度。通过Frida对HttpSecurity.signParams()动态插桩,插装代码如下:
Java.perform(function() {
var HttpSecurity = Java.use('cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity');
HttpSecurity.signParams.implementation = function(arg1){
var md5 = this.signParams(arg1);
console.log("##### In HttpSecurity.signParams(): #####");
console.log('Input param:');
console.log(arg1)
console.log('Sign result:');
console.log(md5);
console.log("###########################################");
return md5;
}
}
成功拦截到某次函数调用,输出如下:
##### In HttpSecurity.signParams(): #####
Input param:
channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10
Sign result:
baec2be68929009758ed7de29c331fdf
###########################################
3. 如上输出。“channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10”参数串,经过某个算法之后得到一个的结果是一个32位的串"baec2be68929009758ed7de29c331fdf"。试了一下直接md5,结果不对。猜测可能是加salt了。
4. 用IDA静态分析libYHJni.so,很容易找到Java_cn_yonghui_hyd_lib_utils_http_httpmiddware_HttpSecurity_signParamsNative()的实现,按F5将汇编代码转换为C语言语法。如附图2所示。从代码可以看出,计算输入串MD5值之前,先在前面加上了"YONGHUI601933",也就是md5("YONGHUI601933" + 输入串)。
5. 知道算法了,我们来验证一下:
>>>import hashlib
>>>param = 'channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10'
>>>hashlib.md5('YONGHUI601933' + param).hexdigest()
'baec2be68929009758ed7de29c331fdf'
结果吻合。
-
西安鲲之鹏
发布时间:2020-03-27 23:09:52
【经验分享】
背景:
ESXi搭建的Ubuntu16.04虚拟机,添加了5块虚拟网卡,不同的网口桥接的不同的Bas。
问题是:
每次启动后某些网卡的名称(eth号)是随机变化的。
如图1和图2所示,同一块网卡"00:0c:29:b0:17:21",在第一张图中被命名为eth4,但重启后在第二张图中却被命名为eth3。
而拨号系统内不同的ADSL账号绑定着固定的网卡名称,如果eth号老是跳,就会拨到错误的Bas里,导致拨号失败。
解决方法:
给特定的MAC地址设置固定的网卡名称。
编辑/etc/udev/rules.d/70-persistent-net.rules文件:
加入:
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:2b", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:35", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:3f", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:17", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:21", ATTR{type}=="1", KERNEL=="eth*", NAME="eth4"
注意:Ubuntu 16.04默认不存在该配置文件,需要先创建。
参考:https://serverfault.com/questions/610967/network-adapter-to-eth-number-mapping-for-vmware/611040
-
西安鲲之鹏
发布时间:2020-03-18 18:48:46
【经验分享】Nox(夜神模拟器)+ Android 4.4.2版本今天出现了一个很奇怪的问题,xposed-installer-2.6版本突然无法安装了(3月18日之前没有问题),提示信息如附图1所示(Xposed目前不兼容Android SDK版本19或者您的处理器架构)。更奇怪的是,我在其它6台机器上测试都是如此,绝不是个例。
1. 首先想到的是,它偷偷更新了。于是尝试卸载重装Nox,但是问题依旧。看了下Nox安装目录下的文件和日志,也没见有更新的迹象。
2. 会不会是在启动的时候通过网络动态加载了什么策略呢?于是尝试断掉网络,重建Nox 虚拟机,xposed-installer-2.6安装成功,在多台机器上做同样尝试,问题均解决。看来就是夜神模拟器做了手脚了。
"断网"不是长久之计,于是决定深入分析下,用wireshark抓包,主要看DNS请求,发现Nox在启动的时候访问了如下的域名:
api.bignox.com
bi.yeshen.com
app.yeshen.com
launcher.yeshen.com
res06.bignox.com
res11.bignox.com
res.yeshen.com.qingcdn.com
res.yeshen.com
pubstatus.sinaapp.com
noxagile.bceapp.com
dl.xposed.info
PS:看来小动作可真不少啊。
尝试使用dnsmasq劫持这些域名,返回127.0.0.1,果然有效。
附dnsmasq address.conf文件内容(如下),直接使用泛域名干掉所有的子域名,防止过滤的不够彻底:
address=/bignox.com/127.0.0.1
address=/yeshen.com/127.0.0.1
address=/qingcdn.com/127.0.0.1
address=/duapp.com/127.0.0.1
address=/sinaapp.com/127.0.0.1
address=/bceapp.com/127.0.0.1
address=/xposed.info/127.0.0.1
address=/duba.net/127.0.0.1
address=/bsgslb.cn/127.0.0.1
address=/applinzi.com/127.0.0.1
address=/bceapp.com/127.0.0.1
PS:为什么不直接修改hosts文件呢?一方面是机器比较多,一一设置比较麻烦,直接通过dhcp分配自定义的dns更方便。另一方面一些防护软件可能会保护hosts,设置了不一定有效。
今天时间都耗在这上面,问题总算解决了。
不好做什么评论,毕竟人家产品是免费让你用的,而且做的真心不错,再说别人坏话就不地道了。
-
西安鲲之鹏
发布时间:2020-03-17 11:45:54
【经验分享】有客户反映使用我们的代理访问某个URL(www.zbfdc.com.cn:81)始终返回403错误,访问其它网站正常。我自己测了一下,的确如此(如附图1所示)。由于是动态IP代理,可以排除IP被封了的问题。
后来注意到,这个网站用了一个非常规的Web端口81,意识到了问题所在。
Squi默认定义了如下端口为安全端口,如果目标端口(例如本例中的81)不在其中将会被拒绝,返回403错误。
acl SSL_ports port 443
acl Safe_ports port 80 # http
acl Safe_ports port 21 # ftp
acl Safe_ports port 443 # https
acl Safe_ports port 70 # gopher
acl Safe_ports port 210 # wais
acl Safe_ports port 1025-65535 # unregistered ports
acl Safe_ports port 280 # http-mgmt
acl Safe_ports port 488 # gss-http
acl Safe_ports port 591 # filemaker
acl Safe_ports port 777 # multiling http
解决方法很简单,把81端口加入到安全端口列表中即可,如附图2所示。
重启Squid,测试,问题解决,如附图3所示。
-
西安鲲之鹏
发布时间:2020-03-12 14:05:49
【视频演示】受客户委托,对"采集某APP内综合商场商户楼层数据"进行可行性评估。实测可行,演示如视频所示。示例数据链接:http://db.site-digger.com/csv/6469616e70696e675f6d616c6c5f73686f70735f73616d706c655f3230323030333130/ 西安鲲之鹏的微博视频
-
西安鲲之鹏
发布时间:2020-02-24 16:23:49
【经验分享】Chrome Portable各版本下载链接:https://sourceforge.mirrorservice.org/p/po/portableapps/Google%20Chrome%20Portable/?C=M;O=D,这是Chrome便携版(支持Remote Debuging,功能和安装版没有区别),最近在某爬虫项目中集成了该版本,客户不需要额外安装浏览器,用起来很省心。
-
西安鲲之鹏
发布时间:2020-02-21 17:44:07
-
西安鲲之鹏
发布时间:2020-02-19 17:14:47
【经验分享】Win8下安装VMware出现"error1316 指定账户已存在"问题的解决
似乎是之前的安装有注册表残留(在控制面板已安装程序列表里看不到),尝试安装了多次,持续出现"error1316 指定账户已存在"问题,网上有VMware注册表清理工具试了也不管用。
后来使用Windows Installer CleanUp Utility(Windows Installer 清理实用工具包,简称MSICUU)解决了问题。MSICUU会显示你以前没卸干净的软件列表(如附图1所示), 然后选择你想完全卸掉的项目 ,卸载了就可以了。
附MSICUU的下载链接>>> O【Windows Installer CleanUp Utility下载】2...。
-
西安鲲之鹏
发布时间:2020-02-18 15:24:40
【视频】携程酒店价格采集对比工具定制版演示
该最新定制版(2020年)使用Google Chrome Dev Protocol(非Selenium + webdirver模式)实现,不会暴露navigator.webdriver等各种特征,不容易被识别。
对比17年的版本:采用的是(Selenium + phantomjs)能够被反爬虫机制识别,返回有虚假价格情况,失败率也高。 西安鲲之鹏的微博视频 -
西安鲲之鹏
发布时间:2020-02-17 17:57:15
【经验分享】一例正则表达式效率低问题的分析
一直以来都觉得正则表达式的效率非常高,今天遇到一例正则匹配耗时特长的情况,mark一下。
目标是判断目标网页(大小约350KB)中是否有符合以下要求的子串:
"至少要有一个不为'的字符<div class="tips_unresult">"
想当然的写出了如下的代码:
re.compile(r'[^\']+<div[^<>]+class="tips_unresult">').search(html)
测试的时候发现这一步耗时特别长,记了一下时,竟然花了差不多10秒,很是诧异。
后来试着修改了下正则式,如下:
re.compile(r'[^\']<div[^<>]+class="tips_unresult">').search(html)
和第一次的相比,区别在于:这里只匹配"<div..."前面有一个非'字符即可,而第一步是匹配"<div..."前面有一个或多个非'字符。
这次只用了0.004秒,结果相差了1600多倍!
PS:第一次的那个代码在以往一个的爬虫中曾执行过70多万次,以前竟然没有发现问题,还以为时间都花在webkit加载页面上了...这样一算竟然多花了近一周的时间。
独立的测试代码和运行截图如附图所示。
-
西安鲲之鹏
发布时间:2020-02-15 23:14:20
【经验分享】“supervisor实现无限重试”中的坑
背景:Debian 10系统,Wifi联网,需要实现系统启动时自动启动autossh。
问题:如果网络未连接成功(例如,Wifi是在用户登录之后才会连接),启动autossh会失败退出。因此不能直接使用rc.local(在网络连接成功之前就执行了)。于是想到使用supervisor,让其不断的重试,当网络连接正常时就autossh就会正常被启动了,配置如附图1所示。但是发现supervisor最多只重试了3次就放弃了。
查询supervisor configuration文档(http://supervisord.org/configuration.html?highlight=startretries)得知startretries参数用于控制每次启动的重试次数,默认值是3。
另外还有一个autorestart参数,如果设置为true,则无条件重启(If true, the process will be unconditionally restarted when it exits, without regard to its exit code.)。但我设置了autorestart为true后,还是只重试了3次。
为什么呢?在autorestart参数注意事项里看到了如下说明:
autorestart controls whether supervisord will autorestart a program if it exits after it has successfully started up (the process is in the RUNNING state).
意思就是说目标program必须成功启动过一次(被标记过为RUNNING状态),autorestart机制才会起作用。
由于本案例中supervisor服务启动的时候网络连接还没建立成功,所以目标program(autossh)首次启动(3次重试)会失败,这样autorestart机制就没起作用。
怎么破?
首先我们要弄清楚supervisor是怎么判断目标程序成功启动了呢。
在startsecs参数的说明里我们可以看到:
The total number of seconds which the program needs to stay running after a startup to consider the start successful (moving the process from the STARTING state to the RUNNING state).
也就是只有目标程序启动保持运行超过startsecs秒才会被认为启动成功了(标记状态为RUNNING)。startsecs默认值是1。本例中autossh由于没有网络连接闪退了,所以supervisor认为其启动失败。
弄清原理之后,就好办了,我们实现一个这样的脚本:
(1)先判断网络连接是否正常(可以使用ping),如果不正常则等待10秒(只要超过startsecs值即可)后退出。
(2)如果网络连接正常,则启动autossh。
#!/bin/bash
# 检测网络是否通畅
ping -c 1 www.baidu.com
if [ $? -eq 0 ]
then
# 网络正常,启动autossh
echo "Network is ready"
sudo /bin/su qi -l -c "/usr/bin/autossh -M 6777 -N -D 127.0.0.1:1080 目标主机SSH参数"
else
# 网络不通,等待11秒后退出
echo "Network is not ready."
sleep 11s
exit 1
fi
实测成功。
附Supervisor Configuration File文档链接:http://supervisord.org/configuration.html
-
西安鲲之鹏
发布时间:2020-02-14 21:06:44
【免费分享】2020年春季人教版教科书PDF574本,9.2GB,拿走不谢 >>> http://www.data-shop.net/2020/02/%e5%85%8d%e8%b4%b92020%e5%b9%b4%e6%98%a5%e5%ad%a3%e4%ba%ba%e6%95%99%e7%89%88%e6%95%99%e7%a7%91%e4%b9%a6pdf574%e6%9c%ac-%e5%85%a8/
-
西安鲲之鹏
发布时间:2020-02-11 18:55:01
【经验分享】python2 pip安装frida-tools,在安装prompt-toolkit依赖时出现"No matching distribution found for prompt-toolkit<4.0.0,>=3.0.3 (from frida-tools)"问题(如附图1所示)的解决。
问题分析:需要的prompt-toolkit版本是 <4.0.0,>=3.0.3,而python 2库中prompt-toolkit的最高版本才是2.0.10。 查询得知"prompt_toolkit 3.0 requires at least Python 3.6." (来源:https://python-prompt-toolkit.readthedocs.io/en/master/),3.0以后版本需要至少python 3.6。
怎么破?
(1)下载frida-tools源码包。
(2)修改setup.py文件,如附图2所示,将prompt-toolkit的版本要求去掉。
(3)sudo python setup.py install。
-
西安鲲之鹏
发布时间:2020-02-11 15:38:51