更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
应客户需求,要对今日头条App内出现的广告商品进行提取,获取商品名称、价格区间、当前销量、卖家数据等信息。之前他们都是通过人工手动去提取的,效率很低,而且容易遗漏。现在需要通过程序来自动化采集以提高效率。
今日头条App内两种类型的广告:一种是外链的广告,点击后直接跳转到第三方平台(比如京东);另一种是今天头条本身的广告展示系统,域名为jinritemai.com,这类广告有统一的页面结构(如下图所示 https://haohuo.jinritemai.com/views/product/item?id=3360169876621782786),可以做到精准的内容提取。客户主要关注后者。
下面说一下实现过程:
由于今日头条系App(包括抖音)都采用了签名机制,无法自己构造有效的请求。但是应答数据没有加密,我们可以通过抓包轻易从新闻JSON列表中解析出广告数据(如下图所示)。
整体步骤如下:
1.通过adb控制手机上的今日头条App,不断刷新新闻列表,以展示出更多的广告内容。
2.给手机设置设置中间人代理(mitmproxy)。
3.在Mitmporxy脚本中截获头条APP的应答JSON数据,并提取广告跳转链接,发送到主采集进程。
4.在主采集进程中接收广告链接,提取产品属性。
由于客户不懂技术,上述操作都要做到傻瓜式操作。比如手机代理的设置,这个步骤如果要客户手动进行就比较繁琐,需要通过自动化脚本来实现(详见我们之前的文章“如何程序化设置安卓设备的HTTP代理” http://www.site-digger.com/html/articles/20190608/731.html)。
客户要做的就是把手机通过USB连接电脑,双击采集程序,等待输出即可,运行过程截图如下。
采集到的广告商品数据示例如下: