更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息
发布时间:2011-06-02
近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。
文章描述:阿姆斯特丹大学的学生 Matthijs R. Koot在一个月的时间里,用同一个连接(http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml),下载了全部 35513445 个 Google profile。
鲲鹏数据在第一时间对该消息进行了证实。
通过profiles-sitemap.xml索引文件确实可以获取到大量Google Profile的链接。
例如:
https://profiles.google.com/117135902571938793602
https://profiles.google.com/112006952710949332145
https://profiles.google.com/105382462492606983441
https://profiles.google.com/109299750146769054739
https://profiles.google.com/104555562341640123846
由于这些Profile信息本身是开放的,因此可以被任何人访问(国内被墙)。
这些Profiles真有那么大的价值?
鲲鹏数据在24小时内利用该索引下载了其中的140条数据,其中大部分Profile仅有用户名信息,邮箱数量仅有32158条(估计总共邮箱数100万)。文章中夸大了数据的价值。
附:140万数据下载(仅含用户名、邮箱、链接三字段)。
关于鲲鹏数据
鲲鹏数据从2010年开始专注于Web数据抓取领域。致力于为广大中国客户提供准确、快捷的Web数据采集相关服务。
您只需告诉我们您所要搜索的数据是什么,您要取得的是什么,你想要的数据是哪种格式,我们将为您做所有的工作,并直接把数据发送给您。数据的格式可以是CSV、JSON、XML、ACCESS、MSSQL、MySQL等等。 我们也可以定制针对您的目标网站的抽取软件,这样您就可以在您的电脑上随时运行了。
Email:service@site-digger.com
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/