更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2020-02-08 13:32:58
【经验分享】Linux下如何查看服务器的型号,出厂日期?
可以使用dmidecode命令查看BIOS信息来实现。
e.g.
# 查看机器型号
sudo dmidecode -s system-product-name
# 查看出厂日期
sudo dmidecode -s bios-release-date
如图1所示为我最近折腾的TDE上网本的情况;
如图2所示为公司某服务器的情况;
如图3所示为阿里云服务器的情况;
关于dmidecode命令的详细说明见这里 >>> http://t.cn/A6Pemztx
-
西安鲲之鹏
发布时间:2020-02-08 11:17:45
【经验分享】这两天被冠状病毒困在家,翻出了一台10年前的上网本(TDE山寨货),配置如图1(i686 CPU 1.6GHz,1G RAM)。
折腾了一下安装各种系统,可能驱动兼容性问题,期间遇到了各种问题,总结如下:
(1)Chrome OS:
安装比较顺利,运行也比较流畅,进入系统之后就是一个谷歌浏览器。
但由于国内无法使用Google相关服务,使用起来比较麻烦,放弃。
(2)Android系列:
Bliss OS X86 32位,安装后无法进入桌面环境。
PrimeOS,没有32位的版本,无法安装。
(3)Linux发行版:
Linux Mint 19.3 cinnamon 32位,进入桌面后巨卡,无法正常使用,后来试了兼容模式启动情况好一些。
Ubuntu 16.04.6 Desktop i386,安装过程复制文件后期卡死,无后文。
Debian 10.2.0 i386,赞一个,安装过程很流畅(“配置软件包管理器”那步耗时较长),使用也很流畅。
最终选定使用Debian 10。
-
西安鲲之鹏
发布时间:2020-02-08 11:15:47
知名本地生活信息平台各品类商户数据2019年更新,本次共采集到超过5303万条(53032367条,总数统计如附图1所示)POI数据,点击这里了解详情 >>> http://www.site-digger.com/html/articles/20200207/cn-poi-data-2019.html
-
西安鲲之鹏
发布时间:2020-01-31 14:32:18
【经验分享】利用QEMU Monitor实现程序对Qemu虚拟机的控制
背景:公司用“Qemu + Android X86”跑了大量安卓APP的爬虫,但是偶尔会出现安卓虚拟机卡死的情况,需要人工干预处理(重启对应的Qemu虚拟机)。有没有什么自动化的实现方案呢?
经过查询得知QEMU提供了Monitor机制,可以通过Monitor提供的接口对虚拟机进行控制,比如重启、修改VNC密码、状态查询等等。
(1)启动Monitor。如下示例,启动虚拟机时指定127.0.0.1:40001为monitor接口:
qemu-system-x86_64 -enable-kvm -m 4096 -smp 4 -vnc :5 -monitor tcp:127.0.0.1:40001,server,nowait -net nic,model=virtio,macaddr=00:16:3E:51:CC:88 -net bridge,br=br0 bliss.img
(2)向Monitor发送控制命令。
如下示例,利用Python socket向monitor发送虚拟机重启命令:
client = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
client.connect(('127.0.0.1', 40001))
client.send('system_reset\n')
client.close()
这样,我们就能让程序自主完成虚拟机的重启,无需人工介入。
如附图所示,是通过nc远程连接monitor接口进行的一些列操作。
PS: 'system_reset'是系统重置命令,更多的命令详见QEMU Monitor Commands文档 >>> https://qemu.weilnetz.de/doc/qemu-doc.html#pcsys_005fmonitor
除了支持TCP接口作为控制端外,QEMU Monitor还支持“标准输入输出设备”, “UnixSocket”,详见这篇文章:http://t.cn/A6PKRRNa
-
西安鲲之鹏
发布时间:2020-01-19 19:35:14
【经验分享】PC通过使用“远程ADB”(ADB over network)时连接设备时出现“unauthorized”,且设备不出现授权对话框问题的解决方法:
(1)ADB客户端和服务端(安卓设备的adbd服务)之间的权鉴是通过公钥私钥对比进行的;
(2)如果安卓设备保存有ADB客户端的公钥(Linux: ~/.android/adbkey.pub, Windows: C:\Users\Administrator\.android\adbkey.pub),则直接通过验证。
(3)如果安卓设备没有ADB客户端的公钥,则弹出"Allow USB debugging?对话框",如果选择同意,则授权通过并自动保存客户端公钥到指定位置(保存于/data/misc/adb/adb_keys文件内)。
(4)"Allow USB debugging?对话框"只在通过USB连接设备的时候才会出现,“远程ADB”(ADB over network)模式不会出现,这样就无法像USB连接模式那样进行授权。
(5)只要我们事先把ADB客户端的公钥文件adbkey.pub复制到设备的/data/misc/adb/adb_keys文件内,重启ADB客户端,重连设备,将会自动通过验证。
上述步骤笔者在Bliss OS X86 系统下进行过多次实测。
-
西安鲲之鹏
发布时间:2020-01-17 14:05:28
【经验分享】Bliss OS X86系统如何开启自动开始“远程ADB”(ADB over network)?
在开发者选项中可以手动开启“ADB over network”,但是重启后会自动关闭(This setting is reset on reboot)。
解决方法:
在/etc/init.sh中加入
setprop service.adb.tcp.port 5555
stop adbd
start adbd
重启后“ADB over network”将会自动启动!
PS:原生的Android X86系统默认情况下开机“ADB over network”就是开启的,不需要像Bliss OS这样的额外设置。
-
西安鲲之鹏
发布时间:2020-01-13 10:59:56
【经验分享】“KVM(QEMU) + Bliss OS X86 + MockLocation APP"打造支持虚拟定位的Android模拟器,用于APP数据采集小试牛刀: 采集某外卖平台数据。
MockLocation APP是什么? 详见我这篇文章 >>> http://www.site-digger.com/html/articles/20200110/777.html
-
西安鲲之鹏
发布时间:2020-01-12 10:50:54
【经验分享】推荐一款开源Android x86系统Bliss OS (x86),项目主页是https://blissroms-x86.github.io/。
经过实测我觉得Bliss有如下优点:
(1) 比原生的Android x86(https://www.android-x86.org/)稳定,特别是应用兼容性较好,好多在原生Android x86下闪退的App,在Bliss下都能稳定运行。如图3和4所示,美团APP可以稳定运行,而在原生Android x86下会不停崩溃,无法正常工作。因此Bliss更适合作为安卓模拟器。
(2) 支持平板模式和桌面UI两种模式,可以在设置里自由切换。这点比Phoenix OS要好,Phoenix OS貌似只有桌面模式,不适合作为安卓模拟器。
(3) 无内置广告。吐槽一下Phoenix OS,刚开始没有广告,用一段时间就会提示让你购买会员,否则就会出现关不掉的广告。
Bliss的缺点:
(1) 启动比较慢,实测约50秒。
(2) 不要升级内置的SuperSU,我试了多次,一升级重启后就卡在系统Logo界面,无法正常进入系统。
-
西安鲲之鹏
发布时间:2020-01-12 10:05:12
-
西安鲲之鹏
发布时间:2020-01-10 15:15:48
【开源分享】发布一款Android X86虚拟定位的App,支持命令行设置经纬度参数,无需UI操作,专为安卓App自动化模拟操作设计。
用法举例:
# 切换定位到"秦始皇陵"(34.384225, 109.254423)
adb shell am start -n cn.webscraping.qi.mocklocation/cn.webscraping.qi.mocklocation.MainActivity --es lat 34.384225 --es lng 109.254423
详细介绍见 >>> http://t.cn/AisHGPoY
-
西安鲲之鹏
发布时间:2019-12-31 18:03:03
-
西安鲲之鹏
发布时间:2019-12-31 11:11:58
【Mark收藏】MurmurHash3.js - A javascript implementation of MurmurHash3's hashing algorithms. >>> http://t.cn/z8Yont3
Usage
// Return a 32bit hash as a unsigned int:
> murmurHash3.x86.hash32("I will not buy this record, it is scratched.")
2832214938
// Return a 128bit hash as a unsigned hex:
> murmurHash3.x86.hash128("I will not buy this tobacconist's, it is scratched.")
"9b5b7ba2ef3f7866889adeaf00f3f98e"
> murmurHash3.x64.hash128("I will not buy this tobacconist's, it is scratched.")
"d30654abbd8227e367d73523f0079673"
// Specify a seed (defaults to 0):
> murmurHash3.x86.hash32("My hovercraft is full of eels.", 25)
2520298415
// Rebind murmurHash3:
> somethingCompletelyDifferent = murmurHash3.noConflict()
> murmurHash3
undefined
> somethingCompletelyDifferent.version
"2.1.2" -
西安鲲之鹏
发布时间:2019-12-31 09:55:51
"浏览器指纹"之 "HTML5 Canvas指纹"
【原理】
在HTML5中可以使用JS + Canvas标签生成图片,利用"canvas.toDataURL()"可以获取到图片的Base64码。
同样的JS Canvas绘图代码,在同一个浏览器下生成的图片是相同的(字节码相同)。
但是由于系统的差别、渲染引擎的不同,同样的JS Canvas绘图代码,在不同的浏览器下得到的图片也是不同的(字节码不同。注意:也有相同的可能,但是概率较小)。
利用上述原理,同一段JS Canvas绘图代码,返回生成图片的HASH值作为“HTML5 Canvas指纹”。
【在线测试工具】
http://t.cn/R3259jj
如附图1所示,我的谷歌浏览器的“HTML5 Canvas指纹”在49w个相同UA的浏览器中,仅有1456个相同的,唯一性高达99.71%。
【"HTML5 Canvas指纹算法"示例代码】
// 计算字符串的hash值
// 摘自http://t.cn/AiFHoZGI
function hashstr(s){
var hash = 0;
if (s.length == 0) return hash;
for (i = 0; i < s.length; i++) {
char = s.charCodeAt(i);
hash = ((hash<<5)-hash)+char;
hash = hash & hash; // Convert to 32bit integer
}
return hash;
}
// 使用canvas绘图,并返回图片的Base64码对应的hash值
// 摘自http://t.cn/AiFHoZGV
function getCanvasFp() {
var result = "";
// Very simple now, need to make it more complex (geo shapes etc)
var canvas = document.createElement('canvas');
canvas.width = 2000;
canvas.height = 200;
canvas.style.display = 'inline';
var ctx = canvas.getContext('2d');
// detect browser support of canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZG5
ctx.rect(0, 0, 10, 10);
ctx.rect(2, 2, 6, 6);
result += 'canvas winding:' + ((ctx.isPointInPath(5, 5, 'evenodd') === false) ? 'yes' : 'no');
ctx.textBaseline = 'alphabetic';
ctx.fillStyle = '#f60';
ctx.fillRect(125, 1, 62, 20);
ctx.fillStyle = '#069';
// http://t.cn/AiFHoZGx
ctx.font = '11pt no-real-font-123';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 2, 15);
ctx.fillStyle = 'rgba(102, 204, 0, 0.2)';
ctx.font = '18pt Arial';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 4, 45);
// canvas blending
// http://t.cn/AiFHoZGt
// http://t.cn/AiFHoZGM
ctx.globalCompositeOperation = 'multiply';
ctx.fillStyle = 'rgb(255,0,255)';
ctx.beginPath();
ctx.arc(50, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(0,255,255)';
ctx.beginPath();
ctx.arc(100, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,255,0)';
ctx.beginPath();
ctx.arc(75, 100, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,0,255)';
// canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZGf
ctx.arc(75, 75, 75, 0, Math.PI * 2, true);
ctx.arc(75, 75, 25, 0, Math.PI * 2, true);
ctx.fill('evenodd');
if (canvas.toDataURL) {
result += ';canvas fp:' + canvas.toDataURL();
}
return hashstr(result);
}
在同一个机器上不同的Chrome和Firefox窗口测试上述代码,结果如附图2所示:
(1)Chrome窗口1、Chrome窗口2内getCanvasFp()返回的值相同;
(2)Firefox窗口getCanvasFp()返回的值不同;