更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
口碑网是中国最大的生活搜索引擎,涵盖餐饮娱乐、租房、买房、工作、旅游等生活消费信息,信息遍布所有大中城市。自2004年6月成立以来,一直致力于做百姓生活的好向导,2006年10月,阿里巴巴集团正式战略投资口碑网。雅虎本地生活搜索是口碑网提供给用户的重要服务功能,口碑网两大行业频道餐饮休闲、房产交易都在同类网站中居首位。(摘自百度百科)
口碑网6月份的数据采集结果如下:
数据总量:440万。
包含的城市数:北京、上海、广州、天津、深圳等42个热门城市,以及其它257个中小城市。
提供的字段:"商户","商户URL","省","市","一级分类","二级分类","特色","人均","好评","点评数","地址","电话","手机","网友推荐","主营","主营风味","商户图片","纬度","经度","主打推荐","商户介绍"。
地理坐标:包含地理坐标参数(经纬度),口碑网采用阿里云地图。
数据格式:标准CSV文件,按城市存储。
字符编码:GBK。
示例数据:
在线示例数据:http://db.site-digger.com/csv/7777775f6b6f756265695f636f6d5f6265696a696e67/ 点击链接查看
示例截图如下
PS:可以向我们的在线客服索要CSV示例数据。