更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】PC通过使用“远程ADB”(ADB over network)时连接设备时出现“unauthorized”,且设备不出现授权对话框问题的解决方法:
    (1)ADB客户端和服务端(安卓设备的adbd服务)之间的权鉴是通过公钥私钥对比进行的;
    (2)如果安卓设备保存有ADB客户端的公钥(Linux:  ~/.android/adbkey.pub, Windows: C:\Users\Administrator\.android\adbkey.pub),则直接通过验证。
    (3)如果安卓设备没有ADB客户端的公钥,则弹出"Allow USB debugging?对话框",如果选择同意,则授权通过并自动保存客户端公钥到指定位置(保存于/data/misc/adb/adb_keys文件内)。
    (4)"Allow USB debugging?对话框"只在通过USB连接设备的时候才会出现,“远程ADB”(ADB over network)模式不会出现,这样就无法像USB连接模式那样进行授权。
    (5)只要我们事先把ADB客户端的公钥文件adbkey.pub复制到设备的/data/misc/adb/adb_keys文件内,重启ADB客户端,重连设备,将会自动通过验证。

    上述步骤笔者在Bliss OS X86 系统下进行过多次实测。
    发布时间:2020-01-19 19:35:14
  • 【经验分享】Bliss OS X86系统如何开启自动开始“远程ADB”(ADB over network)?
    在开发者选项中可以手动开启“ADB over network”,但是重启后会自动关闭(This setting is reset on reboot)。
    解决方法:
    在/etc/init.sh中加入
    setprop service.adb.tcp.port 5555
    stop adbd
    start adbd

    重启后“ADB over network”将会自动启动!

    PS:原生的Android X86系统默认情况下开机“ADB over network”就是开启的,不需要像Bliss OS这样的额外设置。
    发布时间:2020-01-17 14:05:28
  • 【经验分享】Android X86模拟器如何修改屏幕分辨率大小?
    目的:设置屏幕分辨率为 1080x1920
    方法:
    (1) Alt + F1,切换到终端模式;
    (2) su,获取root权限;]
    (3)执行wm size 1080x1920,再按Alt + F7返回图形界面即可;

    如果想要在启动的时候自动设置,可以把上述命令添加到/etc/init.sh中,Bliss OS中亲测有效。
    发布时间:2020-01-15 12:59:26
  • 【经验分享】“KVM(QEMU) + Bliss OS X86 + MockLocation APP"打造支持虚拟定位的Android模拟器,用于APP数据采集小试牛刀: 采集某外卖平台数据。
    MockLocation APP是什么?  详见我这篇文章 >>> http://www.site-digger.com/html/articles/20200110/777.html ​​​​
    发布时间:2020-01-13 10:59:56
  • 【经验分享】推荐一款开源Android x86系统Bliss OS (x86),项目主页是https://blissroms-x86.github.io/

    经过实测我觉得Bliss有如下优点:
    (1) 比原生的Android x86(https://www.android-x86.org/)稳定,特别是应用兼容性较好,好多在原生Android x86下闪退的App,在Bliss下都能稳定运行。如图3和4所示,美团APP可以稳定运行,而在原生Android x86下会不停崩溃,无法正常工作。因此Bliss更适合作为安卓模拟器。
    (2) 支持平板模式和桌面UI两种模式,可以在设置里自由切换。这点比Phoenix OS要好,Phoenix OS貌似只有桌面模式,不适合作为安卓模拟器。
    (3) 无内置广告。吐槽一下Phoenix OS,刚开始没有广告,用一段时间就会提示让你购买会员,否则就会出现关不掉的广告。

    Bliss的缺点:
    (1) 启动比较慢,实测约50秒。
    (2) 不要升级内置的SuperSU,我试了多次,一升级重启后就卡在系统Logo界面,无法正常进入系统。
    发布时间:2020-01-12 10:50:54
  • 【经验分享】qemu-system-x86_64使用网桥出现
    failed to parse default acl file `/etc/qemu/bridge.conf`
    qemu-system-x86_64: -net bridge,br=br0: bridge helper failed
    问题(如附图1所示)的解决方法:

    原因是缺少/etc/qemu/bridge.conf文件。

    (1) mkdir /etc/qemu
    (2) echo 'allow br0' > /etc/qemu/bridge.conf
    发布时间:2020-01-12 10:05:12
  • 【开源分享】发布一款Android X86虚拟定位的App,支持命令行设置经纬度参数,无需UI操作,专为安卓App自动化模拟操作设计。

    用法举例:

    # 切换定位到"秦始皇陵"(34.384225, 109.254423)  
    adb shell am start -n cn.webscraping.qi.mocklocation/cn.webscraping.qi.mocklocation.MainActivity --es lat 34.384225 --es lng 109.254423  

    详细介绍见 >>> http://t.cn/AisHGPoY
    发布时间:2020-01-10 15:15:48
  • 【经验分享】Chrome + Remote Debugging模式(注意:不是Selenium + Chromedriver模式)登录淘宝出现“验证码爆错”(如附图所示)。原因Chrome V79版本在Remote Debugging模式时会爆出navigator.webdriver属性,从而被风控。换用V72或V73版本可以顺利登录!(前一条微博也说得是这个事儿) ​​​​
    发布时间:2020-01-02 15:20:22
  • 【经验分享】不经意见发现Chrome v73版本在Remote Debugging模式下(注意:不是Selenium + Chromedriver模式)不会暴露出navigator.webdriver!如附图1所示。

    作为对比,我又测试了其它的版本:
    (1)如图2所示,是Chrome V63版本,在Remote Debugging模式下会暴露出navigator.webdriver;
    (2)如图3所示,是Chrome V79版本,在Remote Debugging模式下也会暴露出navigator.webdriver;
    发布时间:2019-12-31 18:03:03
  • 【Mark收藏】MurmurHash3.js - A javascript implementation of MurmurHash3's hashing algorithms.    >>>  http://t.cn/z8Yont3

    Usage
    // Return a 32bit hash as a unsigned int:
    > murmurHash3.x86.hash32("I will not buy this record, it is scratched.")
      2832214938

    // Return a 128bit hash as a unsigned hex:
    > murmurHash3.x86.hash128("I will not buy this tobacconist's, it is scratched.")
      "9b5b7ba2ef3f7866889adeaf00f3f98e"
    > murmurHash3.x64.hash128("I will not buy this tobacconist's, it is scratched.")
      "d30654abbd8227e367d73523f0079673"

    // Specify a seed (defaults to 0):
    > murmurHash3.x86.hash32("My hovercraft is full of eels.", 25)
      2520298415

    // Rebind murmurHash3:
    > somethingCompletelyDifferent = murmurHash3.noConflict()
    > murmurHash3
      undefined
    > somethingCompletelyDifferent.version
      "2.1.2"
    发布时间:2019-12-31 11:11:58
当前位置: 首页 > 技术文章 >
知名本地生活信息平台5303万POI数据2019年更新
发布时间:2020-02-07

数据说明

知名本地生活信息平台各品类商户数据,本次共采集到超过5303万条(53032367条,总数统计如下图所示)。 2019年6月-2020年1月采集。
PS:仅商户基本信息数据,不含评论列表数据。

知名本地生活信息平台5303万POI数据统计截图

 

更新说明

1.本轮共采集到了5303万条不重复的POI数据。PS:使用shop_id作为主键,没有重复。

2.本轮更新开始于2019年6月中旬,完成于2020年1月中旬,耗时近7个月。

3.数据涵盖美食、休闲娱乐、丽人、酒店、亲子、景点、运动健身、购物、家装、教育培训、生活服务、医疗健康、爱车、宠物、结婚等15大类。
各分类数据量如下:
美食 15408473
丽人 3465759
酒店 1080155  
亲子 1357050
景点 250719
运动健身 300395
购物 10171669
家装 5077941
教育培训 1535670
生活服务 6691821
休闲娱乐 1750485
医疗健康 1760787
宠物 154696
爱车 2965910
结婚 755022
其它 305815

4. 数据覆盖全国约400个城市,不含境外城市。

5. 本次采集首先对2018年6月份的采集版本(4794万)做了全量完整更新。同时通过遍历POI列表又新采集到509万新增的POI。

6. 本版本5303万商户POI数据中:
■状态为"在营业"的有34076224条;
■状态为"关闭"的有18512495条;
■状态为"尚未营业"的有151144条;
■状态为"暂停营业"的有284907条;
■状态为"网友提交"的公共信息7597条。
PS:关闭的店铺在源网站上仍将可以打开,页面会有标志"商户已关"。

7. 其中有电话号码的28634002家(约占总数据量的54%)。

8. 本次采集的是APP数据源,2018年6月之前均采集的是PC版数据源。因此字段有所调整,例如少了"good_remarks"(好评数)和"bad_remarks"(差评数)字段。

 

字段说明

1. "shop_id"(商户ID,唯一、固定不变)
2. "status"(商户状态:0 - 正常营业;1 - 已关店;2 - 商户尚未营业;3 - 暂停营业;4 - 网友提交的公共信息。)
3. "name" (商户名称)
4. "city_id" (城市ID)
5. "city"(站点城市名称)
6. "real_city"(真实归属城市,点击查看城市列表
7. "province"(省份)
8. "avg_price"(均价)
9. "area_code"(电话区号)
10. "phone"(联系电话)
11. "regionname"(所属区县或商圈)
12. "address"(地址)
13. "cross_road"(所在交叉路口)
14. "big_category_id"(一级大类ID)
15. "big_category"(一级大类名称,点击查看分类列表
16. "small_category"(二级分类名称,点击查看分类列表
17. "star"(评分)
18. "longitude"(经度,腾讯地图)
19. "latitude"(纬度,腾讯地图)
20. "score1"(口味/产品评分)
21. "score2"(环境评分)
22. "score3"(服务评分)
23. "score4"(其它评分)
24. "review_count"(评论总数)
25. "bookable"(是否接受预定)
26. "default_pic"(店铺默认图片)
27. "alt_name"(商户别名)
28. "branchname"(分店名)
29. "dishtags"(推荐菜)
30. "updated"(数据采集时间)
31. "url"(源URL)

 

数据格式

数据格式:CSV和MySQL。

字符编码:UTF-8。

文件大小:RAR压缩后3.41GB,解压后约20GB。

 

示例数据

点击查看:http://db.site-digger.com/csv/6469616e70696e675f73686f70735f3230313930362d3230323030325f76335f757466385f73616d706c655f31303030/
温馨提示:为了保护个人隐私,示例数据中的手机号码隐藏了中间4位。

特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询