更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

当前位置: 首页 > 技术文章 >
大众点评网2013年12月份数据已更新(超600万)
发布时间:2013-12-01 来源:未知 浏览:

采集范围:
大众点评全网数据(所有城市,所有分类),本次共采集商户数据超过600万条(6021328条)。

更新说明:
■ 修复部分店铺“description”字段为空的Bug。
■  移除“is_google_maps”字段。

采集字段:
 'shop_id', 'name'(名称), 'navigation'(导航条信息), 'big_cate'(大分类), 'small_cate1'(小分类1), 'small_cate2'(小分类2), 'province'(省份), 'city'(城市), 'area'(区), 'landmark'(地标), 'address'(地址), 'phone'(电话), 'description'(简介), 'latitude'(纬度), 'longitude'(经度), 'POI'(原始坐标值), 'stars'(星级), 'avg_price'(均价), 'photos'(图片), 'tags'(标签), 'is_chains'(是否连锁店), 'all_remarks'(总评数), 'very_good_remarks'(5星数), 'good_remarks'(4星数), 'common_remarks'(3星数), 'bad_remarks'(2星数), 'very_bad_remarks'(1星数), 'business_area'(商圈), 'product_rating'(口味或产品), 'environment_rating'(环境), 'service_rating'(服务), 'alias'(别名), 'recommended_products'(推荐商品), 'recommended_dishes'(推荐菜), 'atmosphere'(氛围), 'characteristics'(特色), 'payment'(支付方式), 'hours'(营业时间), 'traffic'(交通), 'price_info'(价格信息), 'nearby_shops'(附近店铺), 'updated_date'(采集/更新时间)

在线示例数据:
 
示例数据截图:
 
数据格式:
CSV(3GB)和JSON(7GB)两种可选。
特别说明:该文章为鲲鹏数据原创文章 ,您除了可以发表评论外,还可以转载到别的网站,但是请保留源地址,谢谢!!(尊重他人劳动,我们共同努力)
☹ Disqus被Qiang了,之前的评论内容都没了。现在改用国产的友言。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。