更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
说起“网页数据抓取”,可能很多人都不甚了解吧。毕竟,在国内来说,类似网页数据抓取的事情虽然早已有人在做,但总体从业人员还是较少,而受众也更是知之甚少。
其实说明白了大家一点也不陌生。所谓“网页数据抓取”,也称为网页数据采集,Web数据采集等等,就是从我们平时通过浏览器查看的web网页上来提取需要的数据信息,然后以结构化的方式存储到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的文件或数据库中的过程。当然,这里的数据提取过程,是借助于计算机软件技术来实现的,而不是通过人工的方式手动复制、粘贴来实现的。也正因为如此,才使得从大型网站上采集需要的数据成为可能。
下面,就以笔者从当当网上采集数据的过程为例,来具体说一下网页数据抓取的基本过程吧。
首先,我们要对目标网站的网页结构进行分析,以确定该网站上的数据是否可以采集以及如何采集。
当当网是一个综合性的网站,这里我们就以图书类数据为例来说明吧。经过查看,我们找到了图书信息的目录页。图书信息是以多级目录为结构来组织的,如下图所示,图片左侧的就是图书信息的一级目录:
因为很多网站出于数据保护的原因,都会限制数据显示的数目,比如数据最多显示100页之类的,超过100页的数据就不给显示出来了。这样的话,如果选择进入的目录级别越高,能够得到的数据量就越少。所以,为了能够得到尽可能多的数据,我们需要进入更底层的目录,也就是更小的分类级,才能获得更多的数据。
点开一级目录,就可以进入二级图书目录,如下图所示:
同样,依次点击各级目录,最后就能进入到最底层的目录,这里显示着该目录下的所有可显示的数据项列表,我们可以称之为底层列表页,如图所示:
当然,这个列表页很可能也是分为多页的,我们在进行数据采集时,需要遍历每一页的数据项,通过每个数据项上的链接,就可以进入到最终数据的页面,我们称之为详细页。如下图:
到这里,获取详细数据的路径已经明确了。接下来,我们就要对详细页上的有用数据项进行分析,然后针对性地编写数据采集程序,就可以抓取到我们感兴趣的数据了。
下面是笔者对当当网图书数据进行网页数据抓取时编写的程序的部分代码:
下面是笔者采集到的部分图书信息示例数据:
至此,一个完整的网页数据抓取过程就完成了。从上面的数据列表中可以看出,只要是网页上有的数据项,我们差不多都可以抓取下来。至于后续的工作,那就看您要怎么使用这些数据了。