更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
采集范围:
全国264城市,所有分类,本次共采集商户数据超过200万条(2064622条)。
更新说明:
修复部分商户因为缺少地标导致分类提取错误的BUG。
采集字段:
'name'(名称), 'navigation'(导航条信息), 'big_cate'(大分类), 'small_cate1'(小分类1), 'small_cate2'(小分类2), 'province'(省份), 'city'(城市), 'area'(区), 'landmark'(地标), 'address'(地址), 'phone'(电话), 'description'(简介), 'latitude'(纬度), 'longitude'(经度), 'POI'(原始坐标值), 'stars'(星级), 'avg_price'(均价), 'photos'(图片), 'is_google_maps'(是否谷歌坐标), 'tags'(标签), 'is_chains'(是否连锁店), 'all_remarks'(总评数), 'very_good_remarks'(5星数), 'good_remarks'(4星数), 'common_remarks'(3星数), 'bad_remarks'(2星数), 'very_bad_remarks'(1星数), 'business_area'(商圈), 'product_rating'(口味或产品), 'environment_rating'(环境), 'service_rating'(服务), 'alias'(别名), 'recommended_products'(推荐商品), 'recommended_dishes'(推荐菜), 'atmosphere'(氛围), 'characteristics'(特色), 'payment'(支付方式), 'hours'(营业时间), 'traffic'(交通), 'price_info'(价格信息), 'nearby_shops'(附近店铺), 'scraped_date'(采集时间), 'shop_id'(店铺ID)