更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】VMware Workstation开机免登录自启动设置方法
    近日某拨号服务器出现故障,不定期会自动重启。每次重启之后都要手动去启动VMware虚拟机,非常麻烦。如何实现开机自启动指定的VMware虚拟机呢?

    (1)通过"vmrun.exe start 虚拟机vmx文件路径"命令可以启动指定的虚拟机。
    如果有多个虚拟机可以创建一个如下批处理:
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-1\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-2\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-3\Ubuntu 64 位.vmx"
    ...

    (2)将上述批处理文件添加到开机启动计划任务里。
    * 触发器,新建触发器,开启任务选择“启动时"。
    * 常规选项卡,安全选项选择“不管用户是否登录都要运行”。这一步很重要。

    为什么不直接放到“启动文件夹”中,而要使用计划任务呢?
    因为放到启动文件夹中必须要用户登录之后才能被执行。这样就达不到免登录自启动的效果了。
    发布时间:2020-05-26 17:33:42
  • 【经验分享】Pandas日期范围查询
    目的:查询CSV中某列值大于某个日期的记录。

    (1)使用Pandas的to_datetime()方法,将列类型从object转为datetime64。
    df[u'合同签订日期'] = pd.to_datetime(df[u'合同签订日期'], format=u'%Y年%m月%d日')
    注意要设置format参数,指定原始数据的时间日期格式。转换完成后可以查看dtypes属性确认,如附图1所示。参考:https://stackoverflow.com/questions/36848514/how-to-define-format-when-use-pandas-to-datetime
    (2)查询日期大于2018年1月1日的记录。
    df[df[u'合同签订日期'] >= pd.Timestamp(2018, 1, 1)]
    结果如附图2所示,参考:https://stackoverflow.com/questions/36104500/pandas-filtering-and-comparing-dates
    发布时间:2020-05-11 09:38:32
  • 【经验分享】Python的hash()函数产生hash碰撞的概率有这么高吗?

    昨天同事"随手"给我发了两组他在项目中遇到的例子,很是受"惊吓",HashDict用了快10年了,竟然没注意到这个Bug。

    Python 2.7.8.10 on Windows 64

    例一:
    hash(u'赤峰_1513781081_http://t.cn/A6Al6TDu)
    901186270
    hash(u'北京_1010215433_http://t.cn/A6Al6TDn)
    901186270

    例二:
    hash('B033900G0Z')
    80468932
    hash('B021307H9T')
    80468932

    注意: Linux 64 下测试上述两组值并不相同,另外Linux下hash()产生的hash串长度要比Windows下长很多,产生hash碰撞的概率应该也会小很多。
    发布时间:2020-05-08 21:05:47
  • 【经验分享】"土地市场网-土地供应-出让公告"网页字体混淆反采集的解决

    (1)如附图1所示,下载的页面中有很多字符是乱码。左边是经过浏览器正确渲染的结果,右边是下载到的有乱码的数据。
    (2)经过分析发现,网站使用了自定义的字体文件:把常用的391个汉字做成了特殊字体,使用了自定义的unicode码。如附图2所示。这种字体混淆的反采集策略现在很常见了,之前曾在猫眼电影、汽车之家、58等网站都见到过。
    (3)经过深入分析发现,网站总共使用了10个自定义的字体文件(如图3所示),每个文件内的字符是一样的(都是那391个字符),但是相同的unicode码对应的字符是不一样的。如附图4所示,uni3075在3个字体文件中对应的字符分别是“悬”、“亲”和“田”。
    (4)突破这种策略的思路很简单,就是建立一个“unicode码->字符"的映射表,然后将HTML中的这些乱码(unicode码)替换成明文即可。但是本例中有10 * 391 = 3910个字符,工作量太大了。
    (5)于是想到一个“偷懒”的方法:由于每个文件内都是那391个字符,我只手动建立一个映射表,其余的通过图片匹配自动建立。
    我把这个脚本放到了gist上“将字体文件内各字体导出图片存储,并建立一个Excel索引”(http://t.cn/A6wxdZxl)。
    如附图5所示,是上述脚本输出的每个字符对应的图片。
    如附图6所示,这个Excel文件也是上述脚本生成的,然后人工填入每个图片对应的明文字符,这样就建立好了一个字体文件的字符映射表。把这个表当做特征库表。
    (6)将其他9个字体文件中的图片也使用上述脚本导出,然后挨个和特征库对比(这里我直接通过像素值二维数组进行对比,将一致率最高的视为匹配),建立匹配关系,如图7所示。
    最终生成其它10张字符映射表,如附图8所示。
    (7)有了这10张完备的字体映射表,还原明文就so easy了,最终还原后的提取结果如附图9所示。
    发布时间:2020-04-15 10:53:11
  • 【经验分享】我查查APP防护机制分析

    1. 最明显的是URL加密了,如附图1所示。
    反编译后分析源码可知,URL加密过程如附图2所示。
    主要通过WccBarcode.getInstance().enReq(bytes, bytes.length)实现。

    2.  enReq()是一个native方法,具体实现在libgcbarcode_k.so中,如附图3所示。
    例如,原始URL:
    /ggstudy/price?city_id=1&pkid=46893149&token=eff213b02959eae34935f83ff1216a27&mac=6C%3A62%3A6D%3A27%3A4E%3A42&his=1586159685.1586183377&newudid=73288dee8365b5a2e088c6d91c4c95ad&ptoken=a94e255b4c4d444a9c66a324160bb63b&noscan=1&connectnet=wifi&lng=105.56721418292932&os=Android&v=9.3.0&originprice=4&device_model=HUAWEI+MLA-AL10&device_brand=HUAWEI&udid=863064017108624&lat=33.99952368518388
    经过加密后变成:
    /zzE06D4C3D909AE1E6261070A7B491241430713222ECA16B97C2005E0CB490484AB8713F03F811CB0A04522B2BAC2126961E31190DA820061096034A0BDC410713BC623924CC90A3C69A01182D1890......

    3. 上面有一个ptoken要特别注意,这其实是一个签名参数,具体的实现过程在com.wochacha.datacenter.es.d()方法中,如附图4所示。
    思路是先将querystring的key按从大到小排序,然后拼接成一个串,计算MD5后,再前后拼接上一个常量串(加盐),再次计算MD5。

    4. 另外,根据输入条码查询商品时,输入的barcode也被做了特殊处理。如图5所示。这里也调用了libgcbarcode_k.so中的native方法,conv()。

    了解上述过程后,我们就能自己过程出有效的HTTP请求,拿到数据。对于so中的算法,直接还原有难度,可以通过Frida RPC间接调用。最终效果如附图6所示。
    发布时间:2020-04-07 11:49:57
  • 【经验分享】终于搞定了百度指数PC版(2020最新版)加密算法,不用再模拟浏览器采集了

    之前一直是使用"phantomjs + js脚本"模拟操作,从UI上获取百度指数值。
    今天有客户让评估新的需求,之前模拟浏览器的方式不太适合了,决定试着分析下它的解密算法。
    运气不错,没花多大功夫搞定了,以后可以直接通过HTTP交互采集了。

    简单介绍下步骤:
    1. 通过/api/SearchApi/index接口获取到密文数据,以及uniqid参数。如附图1所示。
    2. 通过/Interface/ptbk接口获取解密用的密码,这里要用的上一步返回的uniqid参数。如附图2所示。
    3. 调用解密算法decrypt(password, data),根据2中获取到的password,和1中获取到的密文data,成功解出明文,如附图3所示。
    解密算法这里就不公布了,感兴趣的可以在js里找一找。

    解出的明文和浏览器显示的结果对比一下,如附图4所示,吻合。
    发布时间:2020-03-30 15:49:15
  • 【经验分享】记录使用"静态分析+动态插桩"还原“永辉超市某版本APP的HTTP签名算法”过程

    背景:永辉超市某版本APP的HTTP请求使用了签名参数保护机制,下面是分析该签名算法的过程:

    1. Jadx反编译APK,通过Java代码可以定位到加密函数位于cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity类的signParamsNative()方法。如附图1所示。

    2. signParamsNative()是一个native方法,实现过程在libYHJni.so中。根据经验,直接还原算法可能有难度。通过Frida对HttpSecurity.signParams()动态插桩,插装代码如下:
    Java.perform(function() {
        var HttpSecurity = Java.use('cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity');
        HttpSecurity.signParams.implementation = function(arg1){
            var md5 = this.signParams(arg1);
            console.log("#####  In HttpSecurity.signParams():  #####");
            console.log('Input param:');
            console.log(arg1)
            console.log('Sign result:');
            console.log(md5);
            console.log("#
    ##########################################");
            return md5;
        }
    }
    成功拦截到某次函数调用,输出如下:
    #
    ####  In HttpSecurity.signParams():  #####
    Input param:
    channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10
    Sign result:
    baec2be68929009758ed7de29c331fdf
    #
    ##########################################

    3. 如上输出。“channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10”参数串,经过某个算法之后得到一个的结果是一个32位的串"baec2be68929009758ed7de29c331fdf"。试了一下直接md5,结果不对。猜测可能是加salt了。

    4. 用IDA静态分析libYHJni.so,很容易找到Java_cn_yonghui_hyd_lib_utils_http_httpmiddware_HttpSecurity_signParamsNative()的实现,按F5将汇编代码转换为C语言语法。如附图2所示。从代码可以看出,计算输入串MD5值之前,先在前面加上了"YONGHUI601933",也就是md5("YONGHUI601933" + 输入串)。

    5. 知道算法了,我们来验证一下:
    >>>import hashlib
    >>>param = 'channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10'
    >>>hashlib.md5('YONGHUI601933' + param).hexdigest()
    'baec2be68929009758ed7de29c331fdf'
    结果吻合。
    发布时间:2020-03-29 16:29:58
  • 【经验分享】
    背景:
    ESXi搭建的Ubuntu16.04虚拟机,添加了5块虚拟网卡,不同的网口桥接的不同的Bas。

    问题是:
    每次启动后某些网卡的名称(eth号)是随机变化的。
    如图1和图2所示,同一块网卡"00:0c:29:b0:17:21",在第一张图中被命名为eth4,但重启后在第二张图中却被命名为eth3。
    而拨号系统内不同的ADSL账号绑定着固定的网卡名称,如果eth号老是跳,就会拨到错误的Bas里,导致拨号失败。

    解决方法:
    给特定的MAC地址设置固定的网卡名称。

    编辑/etc/udev/rules.d/70-persistent-net.rules文件:

    加入:
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:2b", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:35", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:3f", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:17", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:21", ATTR{type}=="1", KERNEL=="eth*", NAME="eth4"

    注意:Ubuntu 16.04默认不存在该配置文件,需要先创建。

    参考:https://serverfault.com/questions/610967/network-adapter-to-eth-number-mapping-for-vmware/611040
    发布时间:2020-03-27 23:09:52
  • 【经验分享】Nox(夜神模拟器)+ Android 4.4.2版本今天出现了一个很奇怪的问题,xposed-installer-2.6版本突然无法安装了(3月18日之前没有问题),提示信息如附图1所示(Xposed目前不兼容Android SDK版本19或者您的处理器架构)。更奇怪的是,我在其它6台机器上测试都是如此,绝不是个例。

    1. 首先想到的是,它偷偷更新了。于是尝试卸载重装Nox,但是问题依旧。看了下Nox安装目录下的文件和日志,也没见有更新的迹象。
    2. 会不会是在启动的时候通过网络动态加载了什么策略呢?于是尝试断掉网络,重建Nox 虚拟机,xposed-installer-2.6安装成功,在多台机器上做同样尝试,问题均解决。看来就是夜神模拟器做了手脚了。

    "断网"不是长久之计,于是决定深入分析下,用wireshark抓包,主要看DNS请求,发现Nox在启动的时候访问了如下的域名:

    api.bignox.com
    bi.yeshen.com
    app.yeshen.com
    launcher.yeshen.com
    res06.bignox.com
    res11.bignox.com
    res.yeshen.com.qingcdn.com
    res.yeshen.com
    pubstatus.sinaapp.com
    noxagile.bceapp.com
    dl.xposed.info

    PS:看来小动作可真不少啊。

    尝试使用dnsmasq劫持这些域名,返回127.0.0.1,果然有效。
    附dnsmasq address.conf文件内容(如下),直接使用泛域名干掉所有的子域名,防止过滤的不够彻底:
    address=/bignox.com/127.0.0.1
    address=/yeshen.com/127.0.0.1
    address=/qingcdn.com/127.0.0.1
    address=/duapp.com/127.0.0.1
    address=/sinaapp.com/127.0.0.1
    address=/bceapp.com/127.0.0.1
    address=/xposed.info/127.0.0.1
    address=/duba.net/127.0.0.1
    address=/bsgslb.cn/127.0.0.1
    address=/applinzi.com/127.0.0.1
    address=/bceapp.com/127.0.0.1
    PS:为什么不直接修改hosts文件呢?一方面是机器比较多,一一设置比较麻烦,直接通过dhcp分配自定义的dns更方便。另一方面一些防护软件可能会保护hosts,设置了不一定有效。

    今天时间都耗在这上面,问题总算解决了。
    不好做什么评论,毕竟人家产品是免费让你用的,而且做的真心不错,再说别人坏话就不地道了。
    发布时间:2020-03-18 18:48:46
  • 【经验分享】有客户反映使用我们的代理访问某个URL(www.zbfdc.com.cn:81)始终返回403错误,访问其它网站正常。我自己测了一下,的确如此(如附图1所示)。由于是动态IP代理,可以排除IP被封了的问题。

    后来注意到,这个网站用了一个非常规的Web端口81,意识到了问题所在。

    Squi默认定义了如下端口为安全端口,如果目标端口(例如本例中的81)不在其中将会被拒绝,返回403错误。
    acl SSL_ports port 443
    acl Safe_ports port 80          # http
    acl Safe_ports port 21          #
    ftp
    acl Safe_ports port 443         # https
    acl Safe_ports port 70          #
    gopher
    acl Safe_ports port 210         # wais
    acl Safe_ports port 1025-65535  #
    unregistered ports
    acl Safe_ports port 280         # http-mgmt
    acl Safe_ports port 488         #
    gss-http
    acl Safe_ports port 591         # filemaker
    acl Safe_ports port 777         #
    multiling http

    解决方法很简单,把81端口加入到安全端口列表中即可,如附图2所示。
    重启Squid,测试,问题解决,如附图3所示。
    发布时间:2020-03-17 11:45:54
当前位置: 首页 > 技术文章 >
知名本地生活信息平台5303万POI数据2019年更新
发布时间:2020-02-07

数据说明

知名本地生活信息平台各品类商户数据,本次共采集到超过5303万条(53032367条,总数统计如下图所示)。 2019年6月-2020年1月采集。
PS:仅商户基本信息数据,不含评论列表数据。

知名本地生活信息平台5303万POI数据统计截图

 

更新说明

1.本轮共采集到了5303万条不重复的POI数据。PS:使用shop_id作为主键,没有重复。

2.本轮更新开始于2019年6月中旬,完成于2020年1月中旬,耗时近7个月。

3.数据涵盖美食、休闲娱乐、丽人、酒店、亲子、景点、运动健身、购物、家装、教育培训、生活服务、医疗健康、爱车、宠物、结婚等15大类。
各分类数据量如下:
美食 15408473
丽人 3465759
酒店 1080155  
亲子 1357050
景点 250719
运动健身 300395
购物 10171669
家装 5077941
教育培训 1535670
生活服务 6691821
休闲娱乐 1750485
医疗健康 1760787
宠物 154696
爱车 2965910
结婚 755022
其它 305815

4. 数据覆盖全国约400个城市,不含境外城市。

5. 本次采集首先对2018年6月份的采集版本(4794万)做了全量完整更新。同时通过遍历POI列表又新采集到509万新增的POI。

6. 本版本5303万商户POI数据中:
■状态为"在营业"的有34076224条;
■状态为"关闭"的有18512495条;
■状态为"尚未营业"的有151144条;
■状态为"暂停营业"的有284907条;
■状态为"网友提交"的公共信息7597条。
PS:关闭的店铺在源网站上仍将可以打开,页面会有标志"商户已关"。

7. 其中有电话号码的28634002家(约占总数据量的54%)。

8. 本次采集的是APP数据源,2018年6月之前均采集的是PC版数据源。因此字段有所调整,例如少了"good_remarks"(好评数)和"bad_remarks"(差评数)字段。

 

字段说明

1. "shop_id"(商户ID,唯一、固定不变)
2. "status"(商户状态:0 - 正常营业;1 - 已关店;2 - 商户尚未营业;3 - 暂停营业;4 - 网友提交的公共信息。)
3. "name" (商户名称)
4. "city_id" (城市ID)
5. "city"(站点城市名称)
6. "real_city"(真实归属城市,点击查看城市列表
7. "province"(省份)
8. "avg_price"(均价)
9. "area_code"(电话区号)
10. "phone"(联系电话)
11. "regionname"(所属区县或商圈)
12. "address"(地址)
13. "cross_road"(所在交叉路口)
14. "big_category_id"(一级大类ID)
15. "big_category"(一级大类名称,点击查看分类列表
16. "small_category"(二级分类名称,点击查看分类列表
17. "star"(评分)
18. "longitude"(经度,腾讯地图)
19. "latitude"(纬度,腾讯地图)
20. "score1"(口味/产品评分)
21. "score2"(环境评分)
22. "score3"(服务评分)
23. "score4"(其它评分)
24. "review_count"(评论总数)
25. "bookable"(是否接受预定)
26. "default_pic"(店铺默认图片)
27. "alt_name"(商户别名)
28. "branchname"(分店名)
29. "dishtags"(推荐菜)
30. "updated"(数据采集时间)
31. "url"(源URL)

 

数据格式

数据格式:CSV和MySQL。

字符编码:UTF-8。

文件大小:RAR压缩后3.41GB,解压后约20GB。

 

示例数据

点击查看:http://db.site-digger.com/csv/6469616e70696e675f73686f70735f3230313930362d3230323030325f76335f757466385f73616d706c655f31303030/
温馨提示:为了保护个人隐私,示例数据中的手机号码隐藏了中间4位。

特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询