更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
-
西安鲲之鹏
发布时间:2017-01-12 12:36:58
Ubuntu下7z压缩、解压文件:
sudo apt-get install p7zip-full
【压缩文件】:
7z a -t7z -r manager.7z /home/manager/*
解释:
a 代表添加文件/文件夹到压缩包;
-t 是指定压缩类型 一般我们定为7z;
-r 表示递归所有的子文件夹;
【解压文件】
7z x manager.7z -r -o/home/xx
解释如下:
x 代表解压缩文件,并且是按原始目录解压(还有个参数 e 也是解压缩文件,但其会将所有文件都解压到根下,而不是自己原有的文件夹下)manager.7z 是压缩文件,这里大家要换成自己的。如果不在当前目录下要带上完整的目录;
-r 表示递归所有的子文件夹;
-o 是指定解压到的目录,这里大家要注意-o后是没有空格的直接接目录; -
西安鲲之鹏
发布时间:2017-01-09 17:33:07
最近某机器上的Squid服务老是自动挂掉,日志也没看出问题...
只能先临时曲线救国:通过计划任务定时检测squid进程是否存在,如果不存在执行sudo service squid start来启动服务。检测脚本我是用Python写的(Shell不熟悉),分享在这里:http://t.cn/RMM2N8v
PS:我本来用supervisor实现的,结果老是提示squid进程异常退出,就放弃了。 -
西安鲲之鹏
发布时间:2016-12-27 17:04:09
curl如何访问使用TLS1.0网站(且不支持TLS重新协商修正)?
curl --tlsv1.0 "http://t.cn/RbsY6wb"
如果不加--tlsv1.0参数,会返回“curl: (35) Unknown SSL protocol error in connection to ”错误。
PS:前面发过类似的内容,主要说明如何在Python中访问使用TLS1.0的网站。
[链接] http://t.cn/RUE5b39
-
西安鲲之鹏
发布时间:2016-12-25 17:25:05
【省钱技巧】vultr.com上部署Windows示例每月需要多付16刀。测试发现使用Cusom ISO方式,安装自己上传的Windows ISO镜像就可以省掉这个16刀。
附网友共享的“集成VirtIO驱动Windows 8.1, 8, 7, XP, Server 2012, 2008, 2003的ISO镜像”: http://t.cn/RIj5Exh
-
西安鲲之鹏
发布时间:2016-12-17 23:12:51
【pip指定代理】
pip install --proxy=https://proxy_user:proxy_password@proxy_url:proxy_port package
PS: 从国内服务器用pip安装一个库老是timeout,指定一个香港代理后瞬间完成。 -
西安鲲之鹏
发布时间:2016-12-15 16:56:15
一块4TB的硬盘,在Ubuntu Server下使用fdisk只分一个区挂载后发现只有2TB大小。
原来“fdisk创建的传统MBR分区最大只支持2TB的分区,要想支持4TB的分区,得用GPT格式的分区”。
使用parted命令可以创建GPT格式的分区,如下:
分区:
sudo parted /dev/sdb
(parted) mklabel gpt
(parted) unit TB
(parted) mkpart primary 0.00TB 4.00TB
(parted) print
(parted) quit
格式化:
sudo mkfs.ext4 /dev/sdb1
挂载:
1)自动挂载:
编辑/etc/fstab加入:
/dev/sdb1 /home/qi/data ext4 defaults 1 1
2)或临时挂载:
sudo mount /dev/sdb1 /home/qi/data -
西安鲲之鹏
发布时间:2016-12-15 16:42:32
Ubuntu Server下如何查看磁盘的品牌和型号?例如,我想查看/dev/sdb这块硬盘的信息,命令如下:
sudo apt-get install smartmontools
sudo smartctl --all /dev/sdb
输出信息如下:
=== START OF INFORMATION SECTION ===
Model Family: Seagate Constellation ES.3
Device Model: ST4000NM0033-9ZM170
Serial Number: S1Z2NARX
LU WWN Device Id: 5 000c50 08ceeca07
Firmware Version: SN06
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
...
-
西安鲲之鹏
发布时间:2016-12-13 11:47:08
VMWare Workstation 10 & Win 7,如何移动部分vmdk文件到其它分区?
场景:vmdk快把D盘空间耗尽了,所以想迁移部分vmdk文件到其它空间较多的分区下(C盘)。
网上有人说可以通过修改vmdk描述文件中的路径来实现,测试发现修改后无法启动。
最后还是符号链接解决的问题,Win7下用mklink(注意mklink的目标和源的位置刚好和linux下的ln命令是反的)。详见stackoverflow,自问自答 >>> http://t.cn/RIUzH9Q
-
西安鲲之鹏
发布时间:2016-12-02 11:01:58
【EOF occurred in violation of protocol问题解决】Python2.7环境下用urllib2访问一个URL:”
http://t.cn/aopOIt“
会抛出异常:“urllib2.URLError: <urlopen error [Errno 8] _ssl.c:510: EOF occurred in violation of protocol>”(如下附图)
原因:“http://t.cn/a81ks4”这个网站使用了TLS 1.0(如下附图),而Python 2.6, 2.7的urllib2默认不支持TLS1.0。
解决方法:在urllib2建立SSL连接时强制使用PROTOCOL_TLSv1,示例代码 >>> http://t.cn/RfmxGUS