更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2016-12-17 23:12:51
【pip指定代理】
pip install --proxy=https://proxy_user:proxy_password@proxy_url:proxy_port package
PS: 从国内服务器用pip安装一个库老是timeout,指定一个香港代理后瞬间完成。 -
西安鲲之鹏
发布时间:2016-12-15 16:56:15
一块4TB的硬盘,在Ubuntu Server下使用fdisk只分一个区挂载后发现只有2TB大小。
原来“fdisk创建的传统MBR分区最大只支持2TB的分区,要想支持4TB的分区,得用GPT格式的分区”。
使用parted命令可以创建GPT格式的分区,如下:
分区:
sudo parted /dev/sdb
(parted) mklabel gpt
(parted) unit TB
(parted) mkpart primary 0.00TB 4.00TB
(parted) print
(parted) quit
格式化:
sudo mkfs.ext4 /dev/sdb1
挂载:
1)自动挂载:
编辑/etc/fstab加入:
/dev/sdb1 /home/qi/data ext4 defaults 1 1
2)或临时挂载:
sudo mount /dev/sdb1 /home/qi/data -
西安鲲之鹏
发布时间:2016-12-15 16:42:32
Ubuntu Server下如何查看磁盘的品牌和型号?例如,我想查看/dev/sdb这块硬盘的信息,命令如下:
sudo apt-get install smartmontools
sudo smartctl --all /dev/sdb
输出信息如下:
=== START OF INFORMATION SECTION ===
Model Family: Seagate Constellation ES.3
Device Model: ST4000NM0033-9ZM170
Serial Number: S1Z2NARX
LU WWN Device Id: 5 000c50 08ceeca07
Firmware Version: SN06
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
...
-
西安鲲之鹏
发布时间:2016-12-13 11:47:08
VMWare Workstation 10 & Win 7,如何移动部分vmdk文件到其它分区?
场景:vmdk快把D盘空间耗尽了,所以想迁移部分vmdk文件到其它空间较多的分区下(C盘)。
网上有人说可以通过修改vmdk描述文件中的路径来实现,测试发现修改后无法启动。
最后还是符号链接解决的问题,Win7下用mklink(注意mklink的目标和源的位置刚好和linux下的ln命令是反的)。详见stackoverflow,自问自答 >>> http://t.cn/RIUzH9Q
-
西安鲲之鹏
发布时间:2016-12-02 11:01:58
【EOF occurred in violation of protocol问题解决】Python2.7环境下用urllib2访问一个URL:”
http://t.cn/aopOIt“
会抛出异常:“urllib2.URLError: <urlopen error [Errno 8] _ssl.c:510: EOF occurred in violation of protocol>”(如下附图)
原因:“http://t.cn/a81ks4”这个网站使用了TLS 1.0(如下附图),而Python 2.6, 2.7的urllib2默认不支持TLS1.0。
解决方法:在urllib2建立SSL连接时强制使用PROTOCOL_TLSv1,示例代码 >>> http://t.cn/RfmxGUS
-
西安鲲之鹏
发布时间:2016-11-16 10:23:29
【如何避免使用MySQL缓存?】SELECT的时候加入SQL_NO_CACHE选项即可,例如: SELECT SQL_NO_CACHE id, name FROM customer;
[1]The MySQL Query Cache:http://t.cn/RftBuFm
[2]Query Cache SELECT Options: http://t.cn/RftBuFu -
西安鲲之鹏
发布时间:2016-11-13 19:10:15
【实测】JuiceSSH是安卓平台上远程SSH管理的一个超赞的工具!秒杀我之前试过的ConnectBot。是运维人员居家旅行不可或缺的神器!!!
PS:本来还考虑买个Win10平板,出门的时候可以用SecureCRT管理服务器,现在完全没必要了。
附下载地址:http://t.cn/RfbEoeK
-
西安鲲之鹏
发布时间:2016-11-11 08:10:51
【数据超市】安居客(anjuke.com)全国数据(新房楼盘+二手房小区)2016年11月份数据更新 >>> http://t.cn/RfLDYzj
二手房小区:
“城市”,”小区名”,”本月均价”,”价格变动”,”所在版块”,”地址”,”总户数”,”建造年代”,”物业类型”,”物业费用”,”开发商”,”总建面”,”容积率”,”出租率”,”停车位”,”绿化率”,”经度”,”纬度”,”简介”,”URL”
新房楼盘:
“城市”,”楼盘名称”,”楼盘单价”,”特色”,”区域位置”,”楼盘地址”,”规划总数”,”工程进度”,”开盘时间”,”交房时间”,”经度”,”纬度”,”URL”
-
西安鲲之鹏
发布时间:2016-11-03 21:15:13