更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

当前位置: 首页 > 技术文章 >
大众点评网2013年4月份数据已更新(超200万)
发布时间:2013-05-05 来源:未知 浏览:

采集范围:
全国264城市,所有分类,本次共采集商户数据超过200万条(2064622条)。

更新说明:
修复部分商户因为缺少地标导致分类提取错误的BUG。

采集字段:
'name'(名称), 'navigation'(导航条信息), 'big_cate'(大分类), 'small_cate1'(小分类1), 'small_cate2'(小分类2), 'province'(省份), 'city'(城市), 'area'(区), 'landmark'(地标), 'address'(地址), 'phone'(电话), 'description'(简介), 'latitude'(纬度), 'longitude'(经度), 'POI'(原始坐标值), 'stars'(星级), 'avg_price'(均价), 'photos'(图片), 'is_google_maps'(是否谷歌坐标), 'tags'(标签), 'is_chains'(是否连锁店), 'all_remarks'(总评数), 'very_good_remarks'(5星数), 'good_remarks'(4星数), 'common_remarks'(3星数), 'bad_remarks'(2星数), 'very_bad_remarks'(1星数), 'business_area'(商圈), 'product_rating'(口味或产品), 'environment_rating'(环境), 'service_rating'(服务), 'alias'(别名), 'recommended_products'(推荐商品), 'recommended_dishes'(推荐菜), 'atmosphere'(氛围), 'characteristics'(特色), 'payment'(支付方式), 'hours'(营业时间), 'traffic'(交通), 'price_info'(价格信息), 'nearby_shops'(附近店铺), 'scraped_date'(采集时间), 'shop_id'(店铺ID)

在线示例数据:
 
示例数据截图:
特别说明:该文章为鲲鹏数据原创文章 ,您除了可以发表评论外,还可以转载到别的网站,但是请保留源地址,谢谢!!(尊重他人劳动,我们共同努力)
☹ Disqus被Qiang了,之前的评论内容都没了。现在改用国产的友言。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。