更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
好豆网2013年3月份菜谱数据更新(含图片)
发布时间:2013-03-19
好豆网是全球中文领域最受欢迎的美食社区平台,主要提供"好豆菜谱"、"去哪吃"和“美食交流社区”三大产品与服务,目前已拥有数百万的美食爱好者注册会员、日均数百万的访问量,以及超数百万的手机应用安装量。- 摘自百度百科:http://baike.baidu.com/view/3103998.htm
更新说明:
本次更新共采集菜谱88643条,下载菜谱相关图片(主图以及步骤图)636346张(约11GB)。
采集字段:
"菜系","菜名","菜谱标签","收藏","浏览","评论","主图1","主图2","主图3","主图4","主图5","简介","食材-主料","食材-配料","制作步骤","URL"
输出格式:
CSV(UTF-8编码)
查看在线示例数据:
http://db.site-digger.com/csv/68616f646f755f636f6d5f666972737431303030/
示例数据截图:
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/