更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
鲲鹏数据的技术人员分析发现,亚马逊(中国)的简化分类链接构造方法如下(以图书分类为例,包括无库存商品):
图书的顶级分类简化链接如下:
http://www.amazon.cn/gp/search/ref=sr_nr_p_n_availability_1?rh=n:658390051,p_n_availability:2122562051
PS:红色参数为当前分类的分类ID,蓝色参数为固定参数(如果去掉该固定参数则只显示有库存商品。注意:非图书分类下的固定参数不一样。)。
如何构造简化的子分类的链接?
小说上的链接是(URL解码后):
http://www.amazon.cn/gp/search/ref=sr_nr_n_0?rh=n:658390051,p_n_availability:2122562051,n:!658391051,n:658393051&bbn=658391051&ie=UTF8&qid=1323082345&rnid=658391051
PS:红色参数即为小说分类的分类ID。
可以据此构造出小说的分类连接是:http://www.amazon.cn/gp/search/ref=sr_nr_p_n_availability_1?rh=n:658393051,p_n_availability:2122562051
最后给出一个从分类树的链接中提取分类ID的方案:
link = 'http://www.amazon.cn/gp/search/ref=sr_nr_n_0?rh=n%3A658390051%2Cp_n_availability%3A2122562051%2Cn%3A%21658391051%2Cn%3A658393051&bbn=658391051&ie=UTF8&qid=1323082345&rnid=658391051' class_id = re.compile(r',n:(\d+)').findall(urllib.unquote(link))[-1]