更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
数据说明:
携程网全国各城市酒店数据(含经纬度和各房型价格,详细字段见下面的说明),共计271,699条(携程官网宣称他们的入驻酒店数超过25万,看来不是骗人的)。
2016年3月份采集更新。
字段说明:
“hotel_id” – 酒店ID,与携程网一致;
“name” – 酒店中文名称;
“grade” – 酒店评级;
“city” – 所在城市;
“area” – 所在区;
“address” – 地址;
“road_cross” – 交叉路口;
“area_extra” – 地标、商圈;
“phone” – 联系电话;
“price” – 最低价;
“rating” – 综合评分;
“recommend” – 用户推荐比例;
“reviews” – 点评人数;
“lat” – 纬度(百度地图);
“lng” – 经度(百度地图);
“description” – 酒店介绍;
“main_photo” – 酒店主图;
“photos” – 酒店相册图;
“hotel_amenities” – 酒店设施;
“hotel_policy” – 酒店政策;
“nearby_amenities” – 周边设施;
“traffic” – 交通信息;
“room_types” – 房型及价格;
“name_en” – 酒店英文名称;
“url” – 酒店URL;
在线示例数据:
点击查看在线示例数据
数据格式:
CSV(UTF-8编码)。