更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】QEMU/KVM如何修改开机启动顺序?
    virsh edit name-of-vm-instance
    如下示例:
     <os>
        <type arch='x86_64' machine='pc-i440fx-xenial'>hvm</type>
        <boot dev="network"></boot>
        <boot dev="cdrom"></boot>
        <boot dev="hd"></boot>
        <bootmenu enable='yes'/>
      </os>
    
    bootmenu的enable设置为yes,就可以在启动的时候按F12选择启动设备。
    •  
    发布时间:2024-03-12 11:51:28
  • 【经验分享】使用VNC远程连接KVM虚拟机,鼠标不同步而且偏移很大(想砸掉鼠标冲动的那种)问题解决:
    (1)编辑虚拟机配置文件,例如sudo virsh edit win10_1,然后将<input type="mouse" bus="ps2" />修改为<input type="tablet" bus="usb" /> 。
    (2)强制关闭虚拟机win10_1然后重启,问题解决。
    发布时间:2024-03-13 09:26:51
  • 【经验分享】Frida里Java.choose找到某个类的实例,在调用该实例方法时出现“script should be invoke on MainThread”问题的解决:

    // Assign the javascript code to a variable.
    jsCode = """
    // Create a method called Cheese that will be exported.
    function Cheese()
    {
    // Perform the code from injected context.
    Java.perform(function ()
    {
    // Variable to store the view representing the button
    // to click programmatically.
    var view;
    // Define the Runnable type javascript wrapper.
    var Runnable = Java.use("java.lang.Runnable");

    // Find the MainActivity class in myApp.
    Java.choose("com.example.myApp.MainActivity",
    {
    // Once it has been found execute the following code.
    onMatch: function(instance)
    {
    // Get the view representing button to click.
    // 2131436712 id derived from decompiling app.
    view = instance.findViewById(2131436712);
    // Define a new class that implements Runnable and provide
    // the implementation of the run() method which, will
    // execute from the Main thread.
    const MyRunnable = Java.registerClass({
    name:'com.example.MyRunnable',
    implements: [Runnable],
    methods: {
    // run executes button click.
    run(){
    instance.onClick(view);
    },
    }
    });

    // Create an instance of the class just created.
    var MyGuiUpdate = MyRunnable .$new();
    // Schedule the run method in MyGuiUpdate to
    // execute on the UI thread.
    instance.runOnUiThread(MyGuiUpdate );

    },
    onComplete:function(){}
    });
    解决方法来源:https://stackoverflow.com/questions/65790594/calling-an-api-to-modify-an-apps-gui-from-non-main-thread-in-frida
    发布时间:2024-02-23 13:00:33
  • 【经验分享】Frida script中如何给Java的Long类型变量赋值?
    例如,某Java类中有如下Long类型变量定义:
    /* renamed from: e */
    public Long f90137e;

    尝试修改e的值,依次做如下测试:
    (1)classObj.e.value = 1978705204; 会报"Error: Expected value compatible with java.lang.Long"错误。
    (2)classObj.e.value = Java.use('java.lang.Long').parseLong.overload('java.lang.String').call(Java.use('java.lang.Long'), "1978705204");依然会报上述错误。
    (3)这个方法可以成功赋值:classObj.e.value = Java.use('java.lang.Long').$new(1978705204);
    发布时间:2024-02-21 21:45:47
  • 【经验分享】miller使用filter查询条件,当遇到字段含有空格或者其它特殊字符时怎么处理?如下示例中某个字段含有点号,直接查询会报错。解决方法如下:

    示例:mlr --icsv --oxtab --from mouser_products_202312.csv filter '${Mfr.}=~"TDK" || ${Brand}=~"TDK"' then count

    使用Pandas时,也有类似问题,解决方法:
    df[df['Brand'].str.contains("TDK")|df['Mfr.'].str.contains("TDK")]
    另外,Stackoverflow(https://stackoverflow.com/questions/50697536/pandas-query-function-not-working-with-spaces-in-column-names)上有人说可以用`字段`将字段包裹起来,例如:a.query('`a b` == 5') ,但是需要Pandas是0.25版本,我机器上是0.24.2,测试没有效果。
    发布时间:2024-02-21 19:01:04
  • 【经验分享】今天本地windows系统adb shell突然报错"error: unknown host service",尝试"adb kill-server"、甚至重启PC和手机均不起作用。后来网上查了下,说是PC端adb的后台服务进程的5037端口被其它程序占用了。

    解决方法:使用netstat -ano找到并关闭占有者进程,问题解决。 ​​​
    发布时间:2024-02-21 18:55:05
  • 【经验分享】PPPOE认证返回“User Locked”,可能是因为MAC被拉黑了,换一个就好了。 ​​​
    发布时间:2024-01-16 13:00:17
  • 【经验分享】Linux如何限制一个命令的运行时长?可以使用timeout命令。
    例如,限制ping最多运行10秒,可以这样:
    timeout 10s ping www.baidu.com ​​​
    发布时间:2024-01-12 12:11:50
  • 【经验分享】Playwright库使用context.route()/page.route()过滤HTTP(S)请求时发现有Ajax漏包的情况。查官方文档,发现有云:
    browser_context.route() will not intercept requests intercepted by Service Worker. See this issue. We recommend disabling Service Workers when using request interception by setting browser.new_context.service_workers to 'block'.

    尝试:
    context = browser.new_context(service_workers='block')
    问题解决。

    参考1:https://playwright.dev/python/docs/api/class-browsercontext#browser-context-route
    参考2:https://github.com/microsoft/playwright/issues/15684
    发布时间:2024-01-10 11:56:20
  • 【经验分享】Python fontTools 获取字体文件的字形名称列表,遇到"smile", "question", "space"等AGL名称,如何将其转为Unicode代码?

    >>>import fontTools
    >>>hex(fontTools.agl.AGL2UV['smileface'])
    '0x263a'

    参考:https://fonttools.readthedocs.io/en/latest/_modules/fontTools/agl.html ​​​
    发布时间:2023-10-12 10:58:26
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-01-12 12:36:58
    Ubuntu下7z压缩、解压文件:
    sudo  apt-get install p7zip-full

    【压缩文件】:
    7z a -t7z -r manager.7z /home/manager/*
    解释:
    a 代表添加文件/文件夹到压缩包;
    -t 是指定压缩类型 一般我们定为7z;
    -r 表示递归所有的子文件夹;

    【解压文件】
    7z x manager.7z -r -o/home/xx
    解释如下:
    x 代表解压缩文件,并且是按原始目录解压(还有个参数 e 也是解压缩文件,但其会将所有文件都解压到根下,而不是自己原有的文件夹下)manager.7z 是压缩文件,这里大家要换成自己的。如果不在当前目录下要带上完整的目录;
    -r 表示递归所有的子文件夹;
    -o 是指定解压到的目录,这里大家要注意-o后是没有空格的直接接目录;

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-01-09 17:33:07
    最近某机器上的Squid服务老是自动挂掉,日志也没看出问题...
    只能先临时曲线救国:通过计划任务定时检测squid进程是否存在,如果不存在执行sudo service squid start来启动服务。检测脚本我是用Python写的(Shell不熟悉),分享在这里:http://t.cn/RMM2N8v
    PS:我本来用supervisor实现的,结果老是提示squid进程异常退出,就放弃了。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-01-06 15:14:04
    【SecureCRT自动SSH跳转配置】友商设备限制了只允许我们的特定的IP能访问,每次都要先SSH到该IP,然后再SSH跳转到目标机器。每次都要输入一遍ssh user@host 和 密码,非常麻烦。利用SecureCRT Logon Actions(登录动作)里的Automate logon(自动登录)可以自动化完成该操作(输入ssh user@host 和 密码),这里有篇图文并茂的文章介绍。 >>> OSecureCRT的logon action登录跳转设置

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-01-04 00:14:19
    修复Webscraping库Download类使用proxy重大Bug。由于之前加入了防止重复添加ProxyHandler的处理(这个处理逻辑存在Bug),导致产生如下2个Bug(均发生在带opener时。):
    1)变更代理无效。原因:后面的代理不会加入对应的ProxyHandler。
    2)变更协议丢失代理。原因:后续请求如果和第一个请求采用不同的协议会导致后续代理没有对应协议的ProxyHandler。
    修复方案:
    在每次加入ProxyHandler时先移除掉之前的ProxyHandler。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-30 22:44:31
    【ssh远程端口映射备忘】ssh -R 0.0.0.0:9000:127.0.0.1:8681 qi@221.229.204.52
    PS:将221.229.204.52上的0.0.0.0:9000端口,映射到本地的127.0.0.1:8681端口。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-27 17:04:09
    curl如何访问使用TLS1.0网站(且不支持TLS重新协商修正)?
    curl --tlsv1.0 "http://t.cn/RbsY6wb"
    如果不加--tlsv1.0参数,会返回“curl: (35) Unknown SSL protocol error in connection to ”错误。
    PS:前面发过类似的内容,主要说明如何在Python中访问使用TLS1.0的网站。
    [链接] http://t.cn/RUE5b39

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-25 17:25:05
    【省钱技巧】vultr.com上部署Windows示例每月需要多付16刀。测试发现使用Cusom ISO方式,安装自己上传的Windows ISO镜像就可以省掉这个16刀。[坏笑]
    附网友共享的“集成VirtIO驱动Windows 8.1, 8, 7, XP, Server 2012, 2008, 2003的ISO镜像”: http://t.cn/RIj5Exh ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-17 23:12:51
    【pip指定代理】
    pip install --proxy=https://proxy_user:proxy_password@proxy_url:proxy_port package
    PS: 从国内服务器用pip安装一个库老是timeout,指定一个香港代理后瞬间完成。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-15 16:56:15
    一块4TB的硬盘,在Ubuntu Server下使用fdisk只分一个区挂载后发现只有2TB大小。
    原来“fdisk创建的传统MBR分区最大只支持2TB的分区,要想支持4TB的分区,得用GPT格式的分区”。
    使用parted命令可以创建GPT格式的分区,如下:

    分区:
    sudo parted /dev/sdb
    (parted) mklabel gpt
    (parted) unit TB
    (parted) mkpart primary 0.00TB 4.00TB
    (parted) print
    (parted) quit

    格式化:
    sudo mkfs.ext4 /dev/sdb1

    挂载:
    1)自动挂载:
    编辑/etc/fstab加入:
    /dev/sdb1       /home/qi/data   ext4    defaults        1       1

    2)或临时挂载:
    sudo mount /dev/sdb1 /home/qi/data

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-15 16:42:32
    Ubuntu Server下如何查看磁盘的品牌和型号?例如,我想查看/dev/sdb这块硬盘的信息,命令如下:
    sudo apt-get install smartmontools
    sudo smartctl --all /dev/sdb
    输出信息如下:
    === START OF INFORMATION SECTION ===
    Model Family:     Seagate Constellation ES.3
    Device Model:     ST4000NM0033-9ZM170
    Serial Number:    S1Z2NARX
    LU WWN Device Id: 5 000c50 08ceeca07
    Firmware Version: SN06
    User Capacity:    4,000,787,030,016 bytes [4.00 TB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    7200 rpm
    ...

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-13 11:47:08
    VMWare Workstation 10 & Win 7,如何移动部分vmdk文件到其它分区?
    场景:vmdk快把D盘空间耗尽了,所以想迁移部分vmdk文件到其它空间较多的分区下(C盘)。
    网上有人说可以通过修改vmdk描述文件中的路径来实现,测试发现修改后无法启动。
    最后还是符号链接解决的问题,Win7下用mklink(注意mklink的目标和源的位置刚好和linux下的ln命令是反的)。详见stackoverflow,自问自答 >>> http://t.cn/RIUzH9Q

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-11 19:48:15
    Ubuntu server如何列出机器的所有网卡?
    sudo lshw -C network
    如下图所示,我测试的机器有两块网卡em1和em2,其中em2没有插网线。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-06 08:56:03
    【吐槽下阿里云】 系统强制要求迁移到香港B区,自动迁移后系统无法启动... ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-05 10:06:39
    Linux CPU温度监测命令:watch sensors ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2016-12-02 11:01:58
    【EOF occurred in violation of protocol问题解决】Python2.7环境下用urllib2访问一个URL:”
    http://t.cn/aopOIt
    会抛出异常:“urllib2.URLError: <urlopen error [Errno 8] _ssl.c:510: EOF occurred in violation of protocol>”(如下附图)
    原因:“http://t.cn/a81ks4”这个网站使用了TLS 1.0(如下附图),而Python 2.6, 2.7的urllib2默认不支持TLS1.0。
    解决方法:在urllib2建立SSL连接时强制使用PROTOCOL_TLSv1,示例代码 >>> http://t.cn/RfmxGUS

    阅读全文 + 去微博评论 +