更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】未解锁BL的手机进9008模式(Mi6X为例)

    对于未解锁BL的手机,需要拆机,通过短接特定触点的方式进入9008模式。
    以小米Mi6X为例:
    第一步,拧掉充电口旁边的两颗螺丝。
    第二步,扣开后盖,可能不太好扣,可以借助美工刀在边缘撬一下。拧掉保护条上的3个螺丝。
    第三步,拔掉电池排线。看图,记着两个短接触点的位置。
    第四步,用镊子短接两个触点,同时插入TypeC线,2秒左右设备管理器"端口COM"里会出现9008接口,此时松开镊子。
    发布时间:2024-11-27 10:13:20
  • 【经验分享】已解锁BL的手机进9008模式

    高通9008模式全称"Qualcomm HS-USB QDLoader 9008",它相对于recovery、fastboot和Android系统是独立的。即深刷模式,也叫EDL,号称"救砖神奇"。

    对于已解锁BL的手机,进入9008相对比较简单,以小米Mi6X为例:
    1. 先确定手机是否解锁BL了。已解锁BL的手机,刚开机的时候会有"Unlocked"字样,如附图1所示。
    2. 长按“音量减键 + 开机键”进入fastboot。
    3. 执行fastboot oem edl,即可进入9008模式,进入成功后设备管理器COM端口里可以看到"Qualcomm HS-USB QDLoader 9008"。如附图2、3所示。
    发布时间:2024-11-26 12:53:03
  • 【经验分享】com.android.org.conscrypt.TrustManagerImpl证书固定检测绕过示例

    某APP使用通用的sslunpinning脚本后仍然抓不到包:
    (1)分析logcat日志,发现com.android.org.conscrypt.TrustManagerImpl类相关代码抛出java.security.cert.CertificateException异常,如图1所示。
    (2)hook 类com.android.org.conscrypt.TrustManagerImpl的checkTrusted和checkServerTrusted方法,返回空列表,成功抓到包。

    日志线索寻找关键词:CertificateException、CertificateExpiredExceptio、SSLHandshakeException
    发布时间:2024-10-24 15:36:45
  • 【经验分享】如何获取安卓手机上已安装APP的安装包(.apk)文件?

    1. 先查看已安装APP列表,确定对应APP的包名。
    adb shell pm list packages
    2. 假设包名为org.gushiwen.gushiwen。再根据包名查看APP的详细信息:
    adb shell dumpsys package org.gushiwen.gushiwen
    返回信息中的path属性,以base.apk结尾的,即就是这个APP的安装文件,如附图1所示。另外返回的信息中还有当前APP的版本(versionName属性),如附图2所示。
    3. pull下来这个文件,就可以在其它设备上安装了。
    发布时间:2024-10-22 11:27:51
  • 【经验分享】Dell R720意外断电重启之后丢失硬盘(硬盘状态变为Foreign)问题解决?

    本来有10块盘,启动的时候显示只有9块Virtual Disk。“Ctrl + R”进入RAID设置,在“VD Mgmt”标签页下也只看到了9块Virtual Disk。在“PD Mgmt”标签页下看到是有10块物理盘,不过第5块状态变成“Foreign”了(如附图1所示)。

    解决方法:在“VD Mgmt”标签页下,焦点切换到"PERC H710 Mini"上按F2,然后"Foreign Config",再然后"Import",操作完成(要等待几秒)之后就能看到全部盘了,如图2所示。

    PS:用Ctrl + N快捷键切换菜单标签。
    发布时间:2024-10-18 16:35:44
  • 【经验分享】一个游戏闯关模式学习CSS Selector的网站"CSS Diner":https://flukeout.github.io/
    Python使用BeautifulSoup实现CSS Selector解析HTML文档的示例:

    import requests
    from bs4 import BeautifulSoup

    r = requests.get('http://www.site-digger.com/html/articles/')
    r.encoding = 'UTF-8'
    html = r.text
    soup = BeautifulSoup(html)
    for a in soup.select('ul[class="arclist"] li a'):
    print(a['href'], a.text)
    发布时间:2024-09-02 19:43:03
  • 【经验分享】qemu-system-x86运行tiny11
    (1) 安装qemu-system-x86,安装完成后无需重启。
    sudo apt-get update
    sudo apt-get install qemu qemu-utils qemu-system-x86
    (2) 创建硬盘。
    qemu-img create -f qcow2 tiny11.img 50G
    (3) 创建虚拟机。
    sudo qemu-system-x86_64 --enable-kvm -m 2G -smp 4 -boot order=dc -hda /home/qi/kvm/tiny11-1/tiny11.img -cdrom /home/qi/kvm/tiny11_23H2_x64.iso -vnc :1
    (4) vnc连接 "服务器ip:5901",完成系统安装过程。设置vnc密码的方法:https://qemu-project.gitlab.io/qemu/system/vnc-security.html#with-passwords
    (5) 映射主机端口给虚拟机,使用-redir参数。如下示例,将主机的TCP/UDP4001端口映射到虚拟机的4000端口。
    -redir tcp:4001::4000 -redir udp:4001::4000
    发布时间:2024-08-10 12:13:46
  • 【经验分享】Playwright过geo.captcha-delivery.com检测

    page.add_init_script('''Object.defineProperties(navigator, {webdriver:{get:()=>undefined}}); delete navigator.__proto__.webdriver;''') ​​​
    发布时间:2024-07-31 10:41:18
  • 【经验分享】scrcpy在网络质量欠佳环境下可以通过降低码率来提高流畅度
    e.g.
    scrcpy --bit-rate 1M --max-fps 5
    注意:在新版本中--bit-rate参数更名为--video-bit-rate ​​​
    发布时间:2024-07-03 10:11:54
  • 【经验分享】scrcpy在小米手机上鼠标不起作用问题的解决

    在“开发者选项”中需要打开"USB调试(安全设置) - 允许通过USB调试修改权限或模拟点击"。要打开这个选项,手机需要先登录小米账号,另外手机必须要插有SIM卡。 ​​​
    发布时间:2024-07-03 10:09:29
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2018-02-01 22:16:32
    【经验分享】如何用JS获取CSS :before 伪元素的content值?
    e.g.某网站用CSS :before 伪元素将部分内容进行了“保护”(通过加密的JS动态生成类似如下的CSS伪元素展示信息),常规HTTP交互方法将获取不到内容(注意该CSS属性是加密的JS动态生成的)。
    .anti_spider_txt:before {
        content: '反采集的内容';
    }

    用模拟浏览器方式执行JS即可突破:
    window.getComputedStyle(
    document.querySelector('.anti_spider_txt'), ':before'
    ).getPropertyValue('content');

    PS:如果网站用JS屏覆盖对象的getPropertyValue方法和其它属性,上述方法将失效。
    不过可以通过中间人代理将对应JS代码屏蔽掉,该思路已通过验证。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2018-02-01 21:47:27
    【经验分享】Python如何获取字体文件内包含的所有文字编码?
    from fontTools.ttLib import TTFont
    font_path = './fonts/205a5cc78d8914cd4a3f65bd99ff97e0.ttf'
    font = TTFont(font_path)
    print font.getGlyphOrder()
    输出如下:
    ['.notdef', 'uniEDA5', 'uniED53', 'uniEE06', 'uniEDB5', 'uniEC74', 'uniED27', 'uniECD6', 'uniED89', 'uniEC48', 'uniEDEB', 'uniECAA', 'uniEC58', 'uniED0C', 'uniEDBF', 'uniED6D', 'uniEC2D', 'uniECE0', 'uniEC8E', 'uniED42', 'uniECF0', 'uniEDA3', 'uniEC63', 'uniEE05', 'uniECC4', 'uniED78', 'uniED26', 'uniEDD9', 'uniED87', 'uniEC47', 'uniECFA', 'uniECA8', 'uniED5C', 'uniEC1B', 'uniEDBD', 'uniEC7D', 'uniEC2B', 'uniECDE', 'uniED92', 'uniED40', 'uniEDF3', 'uniECB3', 'uniEC61', 'uniED14', 'uniECC3', 'uniED76', 'uniEC35', 'uniEDD8', 'uniEC97', 'uniED4A', 'uniECF9', 'uniEDAC', 'uniED5A', 'uniEC1A', 'uniECCD', 'uniEC7B', 'uniED2F', 'uniEDE2', 'uniED90', 'uniEC50', 'uniEDF2', 'uniECB1', 'uniED65', 'uniED13', 'uniEDC6', 'uniEC86', 'uniEC34', 'uniECE7', 'uniEC95', 'uniED49', 'uniEDFC', 'uniEDAA', 'uniEC6A', 'uniED1D', 'uniECCB', 'uniED7F', 'uniED2D', 'uniEDE0', 'uniECA0', 'uniEC4E', 'uniED01', 'uniED63', 'uniEC22', 'uniEDC4', 'uniEC84', 'uniED37', 'uniECE5', 'uniED99', 'uniEDFA', 'uniECBA', 'uniEC68'
    ]

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2018-01-24 09:50:57
    【经验分享】让curl自动解压gzip应答:curl --compressed "http://t.cn/hrfhaz"   >>> http://t.cn/RQmBIJE
    附图:
    1)图1,未加--compressed参数,显示乱码,因为网站返回的gzip内容未被解压。
    2)图2,加上显示乱码参数,显示正常。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2018-01-22 15:43:27
    【经验分享】Python读取火狐的SQLite文件,提示"sqlite3.DatabaseError: file is encrypted or is not a database"异常。用SQLite阅读器打开正常。解决方案:下载最新版的sqlite3.dll文件(http://t.cn/hj5v5)覆盖到python27/DLLs内,问题解决。 参考文章: http://t.cn/RQQApNy ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2018-01-06 13:16:42
    Ubuntu server下查看磁盘温度:  sudo hddtemp /dev/sda(具体设备),如附图所示。如果无温度传感器,会提示“it doesn't have a temperature sensor”. ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-12-25 08:31:00
    【经验分享】设置Mac Mini加电后自启动: sudo setpci -s 0:1f.0 0xa4.b=0
    实测成功。其它方法参考 >>> http://t.cn/RH2C60b ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-12-12 19:03:00
    Ubuntu14.04 64bit下Firefox试了好多版本出现“Couldn't load XPCOM”错误无法正常运行,最后发现firefox-45.0(http://t.cn/RTVXIpO)可以正常工作。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-12-06 15:44:12
    【经验分享】Win10远程桌面提示"由于安全设置错误, 客户端无法连接到远程计算机”问题(如附图1所示)解决:
    1. 运行secpol.msc打开“本地安全策略”。
    2. “本地策略 -> 安全选项 -> 系统加密:将FIPS算法用于加密 、哈希和签名”右键属性,将“本地安全设置”设置为“已禁用”,“应用”并”确定”。(如附图2所示)
    问题解决。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-23 13:13:06
    [携程网]全国所有城市酒店数据(含经纬度及各房型价格,46w条)2017年11月份更新 >>> http://t.cn/RYwuFGH ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:36:35
    4TB移动硬盘,Ubuntu下fdisk -l看不到,换用 parted -l解决。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:24:06
    基于Ubuntu 14.04版本的鲲鹏拨号服务器定期会死机,syslog日志如截图所示,不得不计划任务定期reboot。16.04版本测试了几个月还没出现死机的情况,后面计划不再使用14.04版本。 ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-11-03 15:24:37
    【经验分享】“selenium + phantomjs”如何正确退出phantomjs进程?
    背景:程序用使用diver.quit()或driver.close()方法退出phantomjs进程偶尔会失败,出现“OSError: Bad file descriptor”异常。经测如下方法可以有效解决问题:

    import signal

    driver.service.process.send_signal(signal.SIGTERM) # kill the specific phantomjs child proc
    driver.quit()      

    感谢Stackoverflow上的无私分享者 >>> http://t.cn/RlbPiCb http://t.cn/RlbPiCU
    PS:如何在selinum里获取phantomjs进程的ID: driver.service.process.pid
    参见 >>> http://t.cn/RlbPiC4

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-30 22:11:01
    谷歌DNS 8.8.8.8现在貌似故障了,在美国无法解析安居客域名,换用114.114.114.114可以:
    dig @8.8.8.8 www.anjuke.com 查询不到(图1);
    dig @114.114.114.114 www.anjuke.com 能查询到(图2); ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-29 17:49:53
    【实践出真知】山东和苏州两地总结出来的经验:pppd持续出现“No response to 3 echo-requests, Serial link appears to be disconnected"可能是宽带接入设备(Modem)负载太大了! ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2017-09-28 21:48:39
    【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
    点击查看详情 >>> http://t.cn/R0WMsU2

    国家和IP数量如下表:
    Country IP Count
    Turkey 256
    Canada 512
    Madagascar 2560
    Italy 512
    Czech Republic 256
    Iran (Islamic Republic of) 256
    Hungary 512
    Qatar 256
    Luxembourg 256
    France 256
    Slovakia 256
    Ireland 768
    Hong Kong 256
    Nigeria 768
    Bolivia 2816
    Norway 512
    Bangladesh 256
    Israel 512
    Australia 256
    Indonesia 256
    Jordan 256
    Germany 18688
    Nicaragua 2560
    Belgium 512
    China 512
    Iraq 256
    Philippines 256
    Taiwan 256
    Spain 512
    Ukraine 256
    Netherlands 512
    Denmark 512
    Poland 256
    Finland 768
    Saudi Arabia 256
    United States 83712
    Sweden 768
    Vietnam 256
    Kenya 256
    Switzerland 768
    New Zealand 256
    Russia 768
    Brazil 512
    Bulgaria 256
    Romania 512
    Portugal 512
    Mexico 256
    United Arab Emirates 256
    India 50688
    United Kingdom 6144
    Malaysia 256
    Austria 768
    Congo 2560
    Greece 512
    Japan 512
    South Korea 256
    Cyprus 256

    阅读全文 + 去微博评论 +