更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2020-01-13 10:59:56
【经验分享】“KVM(QEMU) + Bliss OS X86 + MockLocation APP"打造支持虚拟定位的Android模拟器,用于APP数据采集小试牛刀: 采集某外卖平台数据。
MockLocation APP是什么? 详见我这篇文章 >>> http://www.site-digger.com/html/articles/20200110/777.html
-
西安鲲之鹏
发布时间:2020-01-12 10:50:54
【经验分享】推荐一款开源Android x86系统Bliss OS (x86),项目主页是https://blissroms-x86.github.io/。
经过实测我觉得Bliss有如下优点:
(1) 比原生的Android x86(https://www.android-x86.org/)稳定,特别是应用兼容性较好,好多在原生Android x86下闪退的App,在Bliss下都能稳定运行。如图3和4所示,美团APP可以稳定运行,而在原生Android x86下会不停崩溃,无法正常工作。因此Bliss更适合作为安卓模拟器。
(2) 支持平板模式和桌面UI两种模式,可以在设置里自由切换。这点比Phoenix OS要好,Phoenix OS貌似只有桌面模式,不适合作为安卓模拟器。
(3) 无内置广告。吐槽一下Phoenix OS,刚开始没有广告,用一段时间就会提示让你购买会员,否则就会出现关不掉的广告。
Bliss的缺点:
(1) 启动比较慢,实测约50秒。
(2) 不要升级内置的SuperSU,我试了多次,一升级重启后就卡在系统Logo界面,无法正常进入系统。
-
西安鲲之鹏
发布时间:2020-01-12 10:05:12
-
西安鲲之鹏
发布时间:2020-01-10 15:15:48
【开源分享】发布一款Android X86虚拟定位的App,支持命令行设置经纬度参数,无需UI操作,专为安卓App自动化模拟操作设计。
用法举例:
# 切换定位到"秦始皇陵"(34.384225, 109.254423)
adb shell am start -n cn.webscraping.qi.mocklocation/cn.webscraping.qi.mocklocation.MainActivity --es lat 34.384225 --es lng 109.254423
详细介绍见 >>> http://t.cn/AisHGPoY
-
西安鲲之鹏
发布时间:2019-12-31 18:03:03
-
西安鲲之鹏
发布时间:2019-12-31 11:11:58
【Mark收藏】MurmurHash3.js - A javascript implementation of MurmurHash3's hashing algorithms. >>> http://t.cn/z8Yont3
Usage
// Return a 32bit hash as a unsigned int:
> murmurHash3.x86.hash32("I will not buy this record, it is scratched.")
2832214938
// Return a 128bit hash as a unsigned hex:
> murmurHash3.x86.hash128("I will not buy this tobacconist's, it is scratched.")
"9b5b7ba2ef3f7866889adeaf00f3f98e"
> murmurHash3.x64.hash128("I will not buy this tobacconist's, it is scratched.")
"d30654abbd8227e367d73523f0079673"
// Specify a seed (defaults to 0):
> murmurHash3.x86.hash32("My hovercraft is full of eels.", 25)
2520298415
// Rebind murmurHash3:
> somethingCompletelyDifferent = murmurHash3.noConflict()
> murmurHash3
undefined
> somethingCompletelyDifferent.version
"2.1.2" -
西安鲲之鹏
发布时间:2019-12-31 09:55:51
"浏览器指纹"之 "HTML5 Canvas指纹"
【原理】
在HTML5中可以使用JS + Canvas标签生成图片,利用"canvas.toDataURL()"可以获取到图片的Base64码。
同样的JS Canvas绘图代码,在同一个浏览器下生成的图片是相同的(字节码相同)。
但是由于系统的差别、渲染引擎的不同,同样的JS Canvas绘图代码,在不同的浏览器下得到的图片也是不同的(字节码不同。注意:也有相同的可能,但是概率较小)。
利用上述原理,同一段JS Canvas绘图代码,返回生成图片的HASH值作为“HTML5 Canvas指纹”。
【在线测试工具】
http://t.cn/R3259jj
如附图1所示,我的谷歌浏览器的“HTML5 Canvas指纹”在49w个相同UA的浏览器中,仅有1456个相同的,唯一性高达99.71%。
【"HTML5 Canvas指纹算法"示例代码】
// 计算字符串的hash值
// 摘自http://t.cn/AiFHoZGI
function hashstr(s){
var hash = 0;
if (s.length == 0) return hash;
for (i = 0; i < s.length; i++) {
char = s.charCodeAt(i);
hash = ((hash<<5)-hash)+char;
hash = hash & hash; // Convert to 32bit integer
}
return hash;
}
// 使用canvas绘图,并返回图片的Base64码对应的hash值
// 摘自http://t.cn/AiFHoZGV
function getCanvasFp() {
var result = "";
// Very simple now, need to make it more complex (geo shapes etc)
var canvas = document.createElement('canvas');
canvas.width = 2000;
canvas.height = 200;
canvas.style.display = 'inline';
var ctx = canvas.getContext('2d');
// detect browser support of canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZG5
ctx.rect(0, 0, 10, 10);
ctx.rect(2, 2, 6, 6);
result += 'canvas winding:' + ((ctx.isPointInPath(5, 5, 'evenodd') === false) ? 'yes' : 'no');
ctx.textBaseline = 'alphabetic';
ctx.fillStyle = '#f60';
ctx.fillRect(125, 1, 62, 20);
ctx.fillStyle = '#069';
// http://t.cn/AiFHoZGx
ctx.font = '11pt no-real-font-123';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 2, 15);
ctx.fillStyle = 'rgba(102, 204, 0, 0.2)';
ctx.font = '18pt Arial';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 4, 45);
// canvas blending
// http://t.cn/AiFHoZGt
// http://t.cn/AiFHoZGM
ctx.globalCompositeOperation = 'multiply';
ctx.fillStyle = 'rgb(255,0,255)';
ctx.beginPath();
ctx.arc(50, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(0,255,255)';
ctx.beginPath();
ctx.arc(100, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,255,0)';
ctx.beginPath();
ctx.arc(75, 100, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,0,255)';
// canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZGf
ctx.arc(75, 75, 75, 0, Math.PI * 2, true);
ctx.arc(75, 75, 25, 0, Math.PI * 2, true);
ctx.fill('evenodd');
if (canvas.toDataURL) {
result += ';canvas fp:' + canvas.toDataURL();
}
return hashstr(result);
}
在同一个机器上不同的Chrome和Firefox窗口测试上述代码,结果如附图2所示:
(1)Chrome窗口1、Chrome窗口2内getCanvasFp()返回的值相同;
(2)Firefox窗口getCanvasFp()返回的值不同;
-
西安鲲之鹏
发布时间:2019-12-12 12:46:58
【经验分享】Android-x86 4.4和5.1版本安装的时候卡在GRUB安装,问题解决方法:
The fix is that you should manually create partitions: create a small (100m) first primary partition for grub, and a 2nd extended partition for the rest, and install android on the 2nd, the grub will go automatically to the 1st...
>>> http://t.cn/AiDw9VwW http://t.cn/AiDw9VwC
-
西安鲲之鹏
发布时间:2019-12-05 16:07:33
【经验分享】Android x86 默认是通过DHCP获取IP的,那如何设置为静态IP参数呢?
为什么不用DHCP呢?我所在的网络环境中有三个网关,分别连接联通、电信、动态VPN三种出口,我需要让不同的模拟器使用不同的网络(根据业务情况调整)。而DHCP默认分配的网关是固定的。
以Android x86 6为例,按Alt + F1切换到控制台模式:
vi /etc/init.sh
在最后一行return 0之前,加入如下代码:
# 加下面两句的目的是放弃DHCP获取的IP
ifconfig eth0 down
ifconfig eth0 up
# 设置eth0口的静态IP为192.168.1.116
ifconfig eth0 192.168.1.116 netmask 255.255.255.0
# 设置默认网关为192.168.1.253
busybox route add default gw 192.168.1.253
# 设置DNS为 114.114.114.114 223.5.5.5
ndc resolver setnetdns 0 localdomain 114.114.114.114 223.5.5.5
保存(如图1所示),reboot后生效(如图2所示)。
-
西安鲲之鹏
发布时间:2019-12-05 10:18:57
-
西安鲲之鹏
发布时间:2019-12-05 08:53:05
【经验分享】
"adb devices"出现"unauthorized"的问题经常遇到,大多数情况,adb kill-server之后就能解决,但是今天遇到遇到一设备怎么折腾都不行。
后来按照这篇文章(http://t.cn/Aie2dMPU)介绍的方法得以解决:
QUESTION/PROBLEM
How to fix adb devices shows unauthorized device?
APPLIES TO
Android 4, Android 6, Android 7, Android 8
RESOLUTION
Possible solutions if "adb devices" shows a device as "unauthorized":
C:\Users\JohnDoo>adb devices
List of devices attached
17310D821D unauthorized
1. Disconnect USB between PC and device
2. Stop adb server by entering "adb kill-server" in command window
3. On device use "Revoke USB debugging authorizations" in "Developer Options"
4. On PC delete "adbkey" file in user directory, for example "C:\Users\JohnDoo\.android"
5. Reconnect the device to the PC
6. Open a command window and enter "adb devices". Watch the device's screen for any Authorization message and allow the connection.
The device should now show as "device":
注意:第四步"删除adbkey文件"是解决本问题的关键!
-
西安鲲之鹏
发布时间:2019-11-19 16:23:49
【经验分享】使用uiautomatorviewer一直有一个奇怪的问题,查看某些UI正常,但是某些UI却提示异常“Error obtaining UI hierarchy”(如图1所示),控制台信息“null rootnode after parsing.”(如图2所示)。
之前曾多次遇到这个情况,今天花了些时间查了下,发现stackoverflow上有人遇到类似的问题,详见http://t.cn/AidyMg3t。 原来这是Android4的一个Bug(http://t.cn/AidyMg3c),在Android L中被修复了(http://t.cn/AidyMg3f),Android 5之后的版本应该可以正常工作。
于是我试了下Android 8下的情况,同一个APP,同一个UI uiautomatorviewer工作正常。