更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2020-10-16 19:57:48
【经验分享】如何查询一个代理(IP)是机房IP(Datacenter IP)还是家庭IP(Residential IP)?
这里推荐一个查询网站:IPHub,网址是http://t.cn/A6bOvWpt。
输入待查询的IP,点击“Lookup”按钮。
1. 如果查询结果Type字段中含有“Residential”字样,则说明是家用IP。如附图1、2所示。
2.如果查询结果Type中仅含有“Hosting”字样,而无“Residential”字样,则说明是机房IP。如附图3所示。
顺便说一下,如果你的业务需要使用家庭IP(使用机房IP会被风控),例如做亚马逊测评。可以戳这里购买 >>> http://t.cn/A6bOvWpq。
-
西安鲲之鹏
发布时间:2020-10-12 16:12:06
【经验分享】周边POI数据采集的时候常常会因为搜索中心点选取不足导致最终数据缺失的问题,在这里我们提出了一种利用arcpy实现的对待采集区域网格化,并导出区域内网格中心点坐标的的思路,通过这种方式可以保证对待采集区域的完整覆盖。 查看详情戳这里 >>> http://t.cn/A6ba1Kr8
-
西安鲲之鹏
发布时间:2020-09-16 17:20:51
【经验分享】百度地图APP版POI边界坐标参数采集解析方案
如附图1-3所示,是从百度地图APP采集到的POI边界GEOJSON数据,如何将其转换为有效的经纬度数据呢?详见 >>> www.site-digger.com/html/articles/20200916/816.html http://t.cn/A64HbBja
如附图4所示,是成功解析GEOJSON数据后,利用高德地图API绘制的多边形区域(图4的下半部分)和在百度地图中实际查询该POI的边界区域(图4的上半部分)的对比。可以看到是完全吻合的。
-
西安鲲之鹏
发布时间:2020-08-28 12:29:07
【经验分享】Ubuntu server下使用gcp出现“dbus.exceptions.DBusException: org.freedesktop.DBus.Error.NotSupported: Unable to autolaunch a dbus-daemon without a $DISPLAY for X11”问题的解决方法
gcp是增强版的cp实现,最大的优势在于它可以显示实时的速度和整体的进度。关于gcp的详细介绍见这里https://linux.cn/thread/11868/1/1/
在server终端下使用时会因为缺少X环境而报错。解决方法:
dbus-launch gcp --help
-
西安鲲之鹏
发布时间:2020-07-28 11:00:31
【经验分享】“debian+随身WIFI”打造网关应对突发网络故障
今天突发网络故障(市政施工挖断了联通光纤),短期内还无法恢复。局域网内有数台采集器要工作,长期断网影响较大。
手上有一个随身WIFI,每月有900GB的电信流量(很久没用了,今天该它发光发热了)。另外还有一台装有Debian系统的笔记本。决定利用这两个资源打造一个临时网关,应对燃眉之急。
实现方案:
(1)首先在Debian笔记本上连接无线网到随身WIFI,对应的无线网口wlp3s0。
(2)从交换机上拔掉连线联通路由器的网线。将Debian笔记本的有线网卡(enp0s25)的IP设置为联通路由器的网关IP192.168.1.1,并将有线网口连接到交换机下。
(3)在Debian下开启IP转发和自动SNAT,具体步骤如下:
开启IP转发:
修改/etc/sysctl.conf, 添加net.ipv4.ip_forward=1(如图2所示),然后执行 sudo sysctl -f 使其生效。
添加自动SNAT规则,将来自192.168.1.0/24的流量自动转发到wlp3s0网口:
sudo iptables -t nat -A POSTROUTING -s 192.168.1.0/24 -o wlp3s0 -j MASQUERADE
添加后sudo iptables -t nat -L查看规则列表,如图3所示。
在各机器上测试了一下,网络正常可用。大功告成!
PS:由于我们局域网的机器都配置的是固定IP,所以这里没有安装配置DHCP服务器。
-
西安鲲之鹏
发布时间:2020-06-30 12:05:51
【经验分享】logcat是分析APP的利器之一。特别是大厂的APP,往往都有详尽的debug log,甚至详细到HTTP请求的参数,应答数据。但是在生产版本中他们一般会关掉调试日志,我们直接logcat是看不到任何敏感信息的。不过,开发者可能会留下一个开关,在必要的时候能够开启debug log。
以ctrip APP为例,在ctrip.foundation.util.LogUtil中我们可以看到如下代码(如图1):
private static final String f26454d = (Environment.getExternalStorageDirectory().getPath() + "/d.x");
private static final String f26455e = (Environment.getExternalStorageDirectory().getPath() + "/d.toast.x");
分析上下文代码可知,这是通过判断/storage/emulated/0/下是否有d.x文件和d.toast.x文件来决定是否打印debug log和toast提示框。
我们手动创建这两个文件,然后重启ctrip APP,就能看到详尽的bug log了(如图2所示),根据log中记录的HTTP请求信息,我们就能分析出数据接口(如图3所示)。
-
西安鲲之鹏
发布时间:2020-06-23 10:37:14
【经验分享】接上篇。发现一款名为ADB Manager的APP能够实现开机自动启动“ADB网络调试”,不需要像上篇那么复杂了。
ADB Manager (adbm)的项目主页:https://github.com/ilijamt/android-adbm,上面附有apk文件的下载地址。注意:使用该APP的前提是你的设备先要ROOT。
安装后点击“扳手”图标进入设置,勾选“Start on boot”(开机自启动),“ADB Auto Start”(自动启动"ADB远程调试",这个必须要勾选上,否则没有都得手动点击“Start Network ADB”按钮才会启动),在“WiFi Autostart List”中选择在哪些热点名称下才自启动"ADB远程调试"。
另外,它还有个“Keep screen on”(保持屏幕常量)的功能也非常实用。
安卓7.1下实测,经过上述设置后,开机在通知栏可以看到提示“ADBservice is running”,说明"ADB远程调试"已经启动起来了如图1所示。
-
西安鲲之鹏
发布时间:2020-06-20 16:46:38
【经验分享】如何让安卓设备(非模拟器)开机自动开启“网络ADB调试”(或叫做ADB over network/ADB over WIFI)?
前面曾介绍过对于Bliss OS X86系统,可以通过修改/etc/init.sh文件,加入如下命令实现:
setprop service.adb.tcp.port 5555
stop adbd
start adbd
原理是adbd服务在启动的时候会先检查系统是否设置了service.adb.tcp.port属性,如果设置了就开启“网络ADB调试”。详见这篇文章:http://ytydyd.blog.sohu.com/146260552.html。
但对于真机设备的ROM,如何实现在开机的时候执行上述命令呢?
以下方法均无效。
(1)没有类似Bliss OS的/etc/init.sh文件。
(2)stackoverflow上有人说可以通过在/etc/init.d/目录添加可执行脚本,试了也无效。
(3)也有人说可以通过添加/data/local/userinit.sh脚本来实现(详见https://android.stackexchange.com/questions/6558/how-can-i-run-a-script-on-boot),试了也无效。
最后在XDA论坛上看到一个叫做“Boot Shell”的App解决了问题。它能实现在设备系统启动之后执行事先添加好的命令或指定的脚本。
(1)“Boot Shell”的详细介绍和下载地址见http://t.cn/A6LoSJdb,确保你的设备已经ROOT,否则无法使用。
(2)安装后启动软件,点击左侧菜单“Add command”,输入一个名称,然后在Command栏填入要执行的命令:“setprop service.adb.tcp.port 5555;stop adbd;start adbd”。如图1所示。
(3)重启设备,Boot Shell首次自启动,会提示ROOT授权,允许即可。
试下"adb connect 手机ip:5555",不出意外的话就能直接连接了。
需要注意的是,开发者选项里“网络ADB调试”此时状态可能依旧是未开启(如图2所示),但实际上我们已经通过后台命令启动了。
-
西安鲲之鹏
发布时间:2020-06-20 15:15:37
【经验分享】Ubuntu 下 Squid 基于 MySQL的用户认证配置步骤
进行如下操作之前,确保已经正确安装和配置好了Squid和MySQL。
(1)安装Perl的MySQL操作库libdbd-mysql-perl,后面Squid的认证脚本basic_db_auth中将会用到。
sudo apt-get install libdbd-mysql-perl
(2)在MySQL中创建Squid用户认证表,例如:
CREATE TABLE `passwd` (
`user` varchar(32) NOT NULL default '',
`password` varchar(35) NOT NULL default '',
`enabled` tinyint(1) NOT NULL default '1',
`fullname` varchar(60) default NULL,
`comment` varchar(60) default NULL,
PRIMARY KEY (`user`)
);
说明:Squid的代理认证协议是HTTP Basic Proxy Authentication。
这里的`user` 为代理认证使用的用户名, `password`为对应的密码, `enabled` 为1的账户才会被认为可用。
(3)编辑/etc/squid/squid.conf,在http_access deny all之前加入:
auth_param basic program /usr/lib/squid/basic_db_auth --dsn "DBI:mysql:host=MYSQL数据库IP;port=3306;database=MYSQL数据库名" --table passwd --user MYSQL用户名 --password MYSQL密码 --plaintext --persist
# 设置用户名和密码的缓存时间,减少数据库查询
auth_param basic credentialsttl 2 hours
保存并重启Squid。
(4)配置完毕。通过对passwd表的增改删操作,就能实现对Squid代理用户的权限控制。
参考:https://wiki.squid-cache.org/ConfigExamples/Authenticate/Mysql -
西安鲲之鹏
发布时间:2020-06-18 09:45:05
【经验分享】接上篇“毒(得物)APP数据采集”。上篇提到了这个APP对HTTP请求做了"手脚"无法直接抓到包。这里分析一下,它到底做的什么"手脚",以及怎么绕过。
1. 在com.shizhuang.duapp.common.helper.net.RestClient类中可要找到如下代码:
writeTimeout.proxy(Proxy.NO_PROXY);(详见图1)
这里 writeTimeout是一个OkHttpClient实例,OkHttpClient.proxy(Proxy.NO_PROXY),意思就是不使用(绕过)系统代理。
绕过这个的方法有两个:
(1) 让DuConfig.f277505a的值为true,这样就能避免执行“writeTimeout.proxy(Proxy.NO_PROXY);”,从而使用系统代理。
而DuConfig.f277505a = applicationInfo.metaData.getBoolean("debug");(详见图2)
因此我们可以通过Hook Bundle.getBoolean()让其返回true,另外一个思路是HookOkHttpClient.proxy,让其失效。
(2)使用Proxifier让安卓模拟器进程的流量(例如夜神的NoxVMHandle.exe)强制转发给Fiddler。这种方法比较通用。
2. 另外APP里还加了证书固定机制,通过代理后会报网络异常。
通过如下代码可以绕过:
var OkHostnameVerifier = Java.use('okhttp3.internal.tls.OkHostnameVerifier');
OkHostnameVerifier.verify.overload('java.lang.String', 'java.security.cert.X509Certificate').implementation = function(arg1, arg2){
console.log("OkHostnameVerifier.verify('java.lang.String', 'java.security.cert.X509Certificate') called.");
console.log(arg1);
console.log(arg2);
return true;
}
OkHostnameVerifier.verify.overload('java.lang.String', 'javax.net.ssl.SSLSession').implementation = function(arg1, arg2){
console.log("OkHostnameVerifier.verify('java.lang.String', 'javax.net.ssl.SSLSession') called.");
console.log(arg1);
console.log(arg2);
return true;
}
var CertificatePinner = Java.use('okhttp3.CertificatePinner');
CertificatePinner.check.overload('java.lang.String', 'java.util.List').implementation = function (arg1, arg2) {
console.log('CertificatePinner.check() called. ');
console.log(arg1);
console.log(arg2);
}
var OpenSSLSocketImpl = Java.use('com.android.org.conscrypt.OpenSSLSocketImpl');
OpenSSLSocketImpl.verifyCertificateChain.implementation = function (arg1, arg2) {
console.log('OpenSSLSocketImpl.verifyCertificateChain() called.');
console.log(arg1);
console.log(arg2);
}
PS:上述代码和之前我们发的“58同城APP证书固定机制绕过(ssl unpinning)方法”中的一样。
经过上述两步之后,就能顺利抓到HTTP(s)流量,如图3所示。