更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2017-03-18 21:06:55
【一款大家都说好用的命令行带宽测速工具】
>>> http://t.cn/zRjecv4
PS:经过我在多地服务器上测试,结果还是挺准确的,特别是上传测速。speedtest.net全球众多的测速节点功不可没。
只需要两步:
1)下载这个工具
wget http://t.cn/RiU1R0b
2)启动
python speedtest.py
具体效果见下面附图。
-
西安鲲之鹏
发布时间:2017-03-15 12:58:18
【pssh实在太酷了】
图一:我通过pssh了解20台Linux服务器的负载情况,cool!
图二:我通过pssh结合pslurp完成了20台Linux服务器重要数据文件的“批量打包、批量取回、批量删除远程备份”的操作,cool!
参考资料:
http://t.cn/RidpWFN
http://t.cn/RidpWFp
-
西安鲲之鹏
发布时间:2017-03-14 17:32:29
【域名NS记录查询】
Windows:
nslookup –qt=NS 目标域名
Linux:
host -t NS 目标域名
参考文章:http://t.cn/zQJFraU http://t.cn/RGIQcyC
-
西安鲲之鹏
发布时间:2017-03-12 19:50:16
【一个cron计划任务引发的血案】近日某Ubuntu14.04服务器上mongodb老自动挂掉,观察一段发现系统内存严重不足,swap都快被用完了,如图一所示,mongodb在内存耗尽的时候就挂掉了。很奇怪,到底是什么进程占用了这么多内存呢?
参考这篇文章里的方法 Linux: Find Out What Process Are Using Swap Space > http://t.cn/RinTwWY
执行如下命令,查看哪些进程使用了swap,并按使用量大小排列:
for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | less
这一看不打紧,发现里面有大量的python进程。
再用ps aux |grep python一看,一身冷汗,有3899个python进程!如图二所示。
可以断定内存就是被这些进程给吃完了!
PS:这是一个每分钟启动一次的计划任务,功能是实现一个动态域名解析客户端。应该是脚本用的访问网络的操作卡住了(系统默认无限等待)造成进程无法退出,久而久之累积出来了几千个后台进程...
杀掉这些进程,修复Bug。现在内存使用看起来正常了,如图三所示。
-
西安鲲之鹏
发布时间:2017-03-10 22:26:15
MySQL抓包工具 - MySQL Sniffer: MySQL Sniffer 是一个基于 MySQL 协议的抓包工具,实时抓取 MySQLServer 端的请求,并格式化输出。>>> 详细介绍http://t.cn/RiQAESc
Ubuntu14.04下试了一下,效果很赞(如下截图)。
-
西安鲲之鹏
发布时间:2017-02-22 14:07:44
如何避免SSH时出现“Write failed: Broken pipe”?
ssh -o ServerAliveInterval=60 user@host
更多方法 >>> http://t.cn/zYc5wR1 -
西安鲲之鹏
发布时间:2017-02-18 16:24:05
PPPOE拨号引发“Couldn't allocate pseudo-tty”问题,表现:
1)SSH连接卡主(无法正常建立连接),提示:“request failed on channel 0”。
2)日志出现大量:“Couldn't allocate pseudo-tty”。
谷歌得知原因:pseudo-terminals数量超过系统最大限制。
临时处理方法:增加pseudo-terminals最大数量,具体步骤>>> http://t.cn/RJnUJxD
1. 如何查看系统当前pseudo-terminals数量:
ls /dev/pts|wc -l
参考文章:http://t.cn/RJnUJxk
2. 查看当前系统允许的最大pseudo-terminals数量:
cat /proc/sys/kernel/pty/max
-
西安鲲之鹏
发布时间:2017-02-16 12:34:53
【专治疑难杂症】Selenium + IEDriver出现“Internet Explorer has stopped working”或"Internet Explorer 已停止工作"对话框如何解决? >>> http://t.cn/RJjndCS
Turn Off The Error Dialog Via The Registry
Although editing the registry manually is not recommended for average users, sometimes there isn’t a choice because something like the Group policy Editor might not be available in your version of Windows or the group policy method itself doesn’t work. This works on Windows Vista and above.
Open the Registry Editor by typing regedit into the Start search box or the Win+R Run dialog.
Navigate to the following registry key:
HKEY_CURRENT_USER\Software\Microsoft\Windows\Windows Error Reporting
Double click the DontShowUI entry on the right and change its value to 1, then close the registry editor.
-
西安鲲之鹏
发布时间:2017-02-08 19:44:38
-
西安鲲之鹏
发布时间:2017-01-26 11:40:16
Google Maps Geocoding API使用限制: 2,500 free requests per day。
>>> http://t.cn/RxVL66t
使用稳定高匿名HTTP代理可以绕过该限制,例如200个IP就可以达到50万每天的查询速度。
-
西安鲲之鹏
发布时间:2017-01-20 20:55:19
完善Python版的pppoe-status,实测比原版可靠(修复rp-pppoe-3.12中的pppoe-status误判失败的问题) >>> http://t.cn/RMsiLHd