更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】QEMU/KVM如何修改开机启动顺序?
    virsh edit name-of-vm-instance
    如下示例:
     <os>
        <type arch='x86_64' machine='pc-i440fx-xenial'>hvm</type>
        <boot dev="network"></boot>
        <boot dev="cdrom"></boot>
        <boot dev="hd"></boot>
        <bootmenu enable='yes'/>
      </os>
    
    bootmenu的enable设置为yes,就可以在启动的时候按F12选择启动设备。
    •  
    发布时间:2024-03-12 11:51:28
  • 【经验分享】使用VNC远程连接KVM虚拟机,鼠标不同步而且偏移很大(想砸掉鼠标冲动的那种)问题解决:
    (1)编辑虚拟机配置文件,例如sudo virsh edit win10_1,然后将<input type="mouse" bus="ps2" />修改为<input type="tablet" bus="usb" /> 。
    (2)强制关闭虚拟机win10_1然后重启,问题解决。
    发布时间:2024-03-13 09:26:51
  • 【经验分享】Frida里Java.choose找到某个类的实例,在调用该实例方法时出现“script should be invoke on MainThread”问题的解决:

    // Assign the javascript code to a variable.
    jsCode = """
    // Create a method called Cheese that will be exported.
    function Cheese()
    {
    // Perform the code from injected context.
    Java.perform(function ()
    {
    // Variable to store the view representing the button
    // to click programmatically.
    var view;
    // Define the Runnable type javascript wrapper.
    var Runnable = Java.use("java.lang.Runnable");

    // Find the MainActivity class in myApp.
    Java.choose("com.example.myApp.MainActivity",
    {
    // Once it has been found execute the following code.
    onMatch: function(instance)
    {
    // Get the view representing button to click.
    // 2131436712 id derived from decompiling app.
    view = instance.findViewById(2131436712);
    // Define a new class that implements Runnable and provide
    // the implementation of the run() method which, will
    // execute from the Main thread.
    const MyRunnable = Java.registerClass({
    name:'com.example.MyRunnable',
    implements: [Runnable],
    methods: {
    // run executes button click.
    run(){
    instance.onClick(view);
    },
    }
    });

    // Create an instance of the class just created.
    var MyGuiUpdate = MyRunnable .$new();
    // Schedule the run method in MyGuiUpdate to
    // execute on the UI thread.
    instance.runOnUiThread(MyGuiUpdate );

    },
    onComplete:function(){}
    });
    解决方法来源:https://stackoverflow.com/questions/65790594/calling-an-api-to-modify-an-apps-gui-from-non-main-thread-in-frida
    发布时间:2024-02-23 13:00:33
  • 【经验分享】Frida script中如何给Java的Long类型变量赋值?
    例如,某Java类中有如下Long类型变量定义:
    /* renamed from: e */
    public Long f90137e;

    尝试修改e的值,依次做如下测试:
    (1)classObj.e.value = 1978705204; 会报"Error: Expected value compatible with java.lang.Long"错误。
    (2)classObj.e.value = Java.use('java.lang.Long').parseLong.overload('java.lang.String').call(Java.use('java.lang.Long'), "1978705204");依然会报上述错误。
    (3)这个方法可以成功赋值:classObj.e.value = Java.use('java.lang.Long').$new(1978705204);
    发布时间:2024-02-21 21:45:47
  • 【经验分享】miller使用filter查询条件,当遇到字段含有空格或者其它特殊字符时怎么处理?如下示例中某个字段含有点号,直接查询会报错。解决方法如下:

    示例:mlr --icsv --oxtab --from mouser_products_202312.csv filter '${Mfr.}=~"TDK" || ${Brand}=~"TDK"' then count

    使用Pandas时,也有类似问题,解决方法:
    df[df['Brand'].str.contains("TDK")|df['Mfr.'].str.contains("TDK")]
    另外,Stackoverflow(https://stackoverflow.com/questions/50697536/pandas-query-function-not-working-with-spaces-in-column-names)上有人说可以用`字段`将字段包裹起来,例如:a.query('`a b` == 5') ,但是需要Pandas是0.25版本,我机器上是0.24.2,测试没有效果。
    发布时间:2024-02-21 19:01:04
  • 【经验分享】今天本地windows系统adb shell突然报错"error: unknown host service",尝试"adb kill-server"、甚至重启PC和手机均不起作用。后来网上查了下,说是PC端adb的后台服务进程的5037端口被其它程序占用了。

    解决方法:使用netstat -ano找到并关闭占有者进程,问题解决。 ​​​
    发布时间:2024-02-21 18:55:05
  • 【经验分享】PPPOE认证返回“User Locked”,可能是因为MAC被拉黑了,换一个就好了。 ​​​
    发布时间:2024-01-16 13:00:17
  • 【经验分享】Linux如何限制一个命令的运行时长?可以使用timeout命令。
    例如,限制ping最多运行10秒,可以这样:
    timeout 10s ping www.baidu.com ​​​
    发布时间:2024-01-12 12:11:50
  • 【经验分享】Playwright库使用context.route()/page.route()过滤HTTP(S)请求时发现有Ajax漏包的情况。查官方文档,发现有云:
    browser_context.route() will not intercept requests intercepted by Service Worker. See this issue. We recommend disabling Service Workers when using request interception by setting browser.new_context.service_workers to 'block'.

    尝试:
    context = browser.new_context(service_workers='block')
    问题解决。

    参考1:https://playwright.dev/python/docs/api/class-browsercontext#browser-context-route
    参考2:https://github.com/microsoft/playwright/issues/15684
    发布时间:2024-01-10 11:56:20
  • 【经验分享】Python fontTools 获取字体文件的字形名称列表,遇到"smile", "question", "space"等AGL名称,如何将其转为Unicode代码?

    >>>import fontTools
    >>>hex(fontTools.agl.AGL2UV['smileface'])
    '0x263a'

    参考:https://fonttools.readthedocs.io/en/latest/_modules/fontTools/agl.html ​​​
    发布时间:2023-10-12 10:58:26
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-11-23 13:13:06
    [携程网]全国所有城市酒店数据(含经纬度及各房型价格,46w条)2017年11月份更新 >>> http://t.cn/RYwuFGH ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:36:35
    4TB移动硬盘,Ubuntu下fdisk -l看不到,换用 parted -l解决。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:24:06
    基于Ubuntu 14.04版本的鲲鹏拨号服务器定期会死机,syslog日志如截图所示,不得不计划任务定期reboot。16.04版本测试了几个月还没出现死机的情况,后面计划不再使用14.04版本。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-03 15:24:37
    【经验分享】“selenium + phantomjs”如何正确退出phantomjs进程?
    背景:程序用使用diver.quit()或driver.close()方法退出phantomjs进程偶尔会失败,出现“OSError: Bad file descriptor”异常。经测如下方法可以有效解决问题:

    import signal

    driver.service.process.send_signal(signal.SIGTERM) # kill the specific phantomjs child proc
    driver.quit()      

    感谢Stackoverflow上的无私分享者 >>> http://t.cn/RlbPiCb http://t.cn/RlbPiCU
    PS:如何在selinum里获取phantomjs进程的ID: driver.service.process.pid
    参见 >>> http://t.cn/RlbPiC4

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-30 22:11:01
    谷歌DNS 8.8.8.8现在貌似故障了,在美国无法解析安居客域名,换用114.114.114.114可以:
    dig @8.8.8.8 www.anjuke.com 查询不到(图1);
    dig @114.114.114.114 www.anjuke.com 能查询到(图2); ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-29 17:49:53
    【实践出真知】山东和苏州两地总结出来的经验:pppd持续出现“No response to 3 echo-requests, Serial link appears to be disconnected"可能是宽带接入设备(Modem)负载太大了! ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-28 21:48:39
    【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
    点击查看详情 >>> http://t.cn/R0WMsU2

    国家和IP数量如下表:
    Country IP Count
    Turkey 256
    Canada 512
    Madagascar 2560
    Italy 512
    Czech Republic 256
    Iran (Islamic Republic of) 256
    Hungary 512
    Qatar 256
    Luxembourg 256
    France 256
    Slovakia 256
    Ireland 768
    Hong Kong 256
    Nigeria 768
    Bolivia 2816
    Norway 512
    Bangladesh 256
    Israel 512
    Australia 256
    Indonesia 256
    Jordan 256
    Germany 18688
    Nicaragua 2560
    Belgium 512
    China 512
    Iraq 256
    Philippines 256
    Taiwan 256
    Spain 512
    Ukraine 256
    Netherlands 512
    Denmark 512
    Poland 256
    Finland 768
    Saudi Arabia 256
    United States 83712
    Sweden 768
    Vietnam 256
    Kenya 256
    Switzerland 768
    New Zealand 256
    Russia 768
    Brazil 512
    Bulgaria 256
    Romania 512
    Portugal 512
    Mexico 256
    United Arab Emirates 256
    India 50688
    United Kingdom 6144
    Malaysia 256
    Austria 768
    Congo 2560
    Greece 512
    Japan 512
    South Korea 256
    Cyprus 256

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:56:59
    淘宝外卖(口碑外卖)全国所有城市商户数据2017年9月底更新(62.8万家)。2017年9月底更新。含店招、营业执照和餐饮服务许可证图片文件。 >>> http://t.cn/R0oybU9 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:55:35
    是谁把我的7777端口占用了? lsof  -i:7777 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-22 21:32:57
    成功绕过淘宝(口碑)外卖签名机制,顺利拿到Ajax返回数据。
    PS:常规模拟浏览器方法无效,需结合抓包。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-22 11:34:07
    Firefox历史版本下载地址:http://t.cn/Rbu2y44
    PS:slimerjs支持Firefox from 38.0 to 52.0. ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-22 10:06:04

    【无关技术】更多的时候是做一个运维,看着爬虫输出的信息越快越开心 西安鲲之鹏的微博视频 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-20 17:23:31
    【经验分享】Chrome V55以后不支持设置页面编码了(不信你试试看)。不过,这货(Set Character Encoding插件)可以帮你实现。 http://t.cn/RaIDInW ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-14 15:10:39
    【经验分享】由于项目需要在Linux Server下将近千万个word文档(*.doc)转换为文本格式(html或txt),经测试效果最好的方法是使用LibreOffice的命令行工具。

    安装:
    sudo apt-get purge libreoffice-core
    sudo add-apt-repository -y ppa:libreoffice/ppa
    sudo apt-get update
    sudo apt-get install libreoffice

    doc转txt示例:
    soffice --headless --convert-to txt test.doc

    doc转html示例:
    soffice --headless --convert-to html test.doc

    关于convert-to参数的更多说明见这里 >>> http://t.cn/RVGwrbi

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-08-17 09:55:51
    搜房网(房天下)全国新房楼盘+二手房小区数据2017年07月份更新(“小区名称”,”城市”,”小区地址”,”项目特色”,”所属区域”,”邮编”,”产权描述”,”物业类别”,”竣工时间”,”开发商”,”建筑结构”,”建筑类别”,”建筑面积”,”占地面积”,”当期户数”,”总户数”,”绿化率”,”容积率”,”物业费”,”停车位”,”开盘时间”,”交房时间”,”小区简介”,”交通状况”,”周边信息”,”经度”,”纬度”,”物业公司”,”价格”,”页面链接”,”地图链接”,”区县”,”商 圈”,”装修情况”,”物业地址”,”入住时间”,”物业类型”,”环比上月”,”详情页链接”,”新房/二手房”,”newcode”) >>> 示例数据:http://t.cn/RCZcOAe

    阅读全文 + 去微博评论 +