更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
由于CSV是一种非常通用的数据交换格式,可以导入各种常见数据库和数据处理软件,自己用程序读写也很容易实现,因此我们的数据采集脚本通常会以CSV格式输出数据。不过一些客户对CSV的操作不熟悉,在使用的过程中会遇到一些问题,最常见的就是UTF-8编码的CSV文件,在Windows上直接用Excel打开的话会乱码。为了避免这种麻烦,我们通常会将CSV先转为Excel的XLSX格式后再交付给客户。因此在日常工作中经常会进行CSV转XLSX格式的操作。
在这里我们分享一下这个工具csv2xlsx,它基于Python的xlsxwriter库实现,源码我们已经放到github上,链接是https://github.com/kunzhipeng/csv2xlsx。
用法如下:
Usage: csv2xlsx.py path-of-input-csv-file [-e <file_encoding>] [-n <max_rows_to_convert>] Options: -h, --help show this help message and exit -e FILE_ENCODING, --file_encoding=FILE_ENCODING The encoding of the input file. -n MAX_ROWS, --max_rows=MAX_ROWS The max rows to convert.
若以源码形式运行,请先安装依赖库xlsxwriter:
pip install xlsxwriter
Windows下可用直接下载release里使用pyinstaller打包好的exe文件。若github无法打开,也可以从这里下载。
将要转换的CSV文件拖拽到csv2xlsx.exe上即可自动完成转换。也可以将exe文件放到系统环境变量能覆盖到的地方,然后在命令行下使用,这样更灵活(比如,可以通过-n参数设置只转换前N条数据)。
受XLSX格式的限制,单个.xlsx格式文件最大支持104万行左右,具体可以看这里的介绍:https://support.microsoft.com/en-us/office/excel-specifications-and-limits-1672b34d-7043-467e-8e27-269d656771c3。对于超过100万行的CSV文件,csv2xlsx会输出多个.xlsx文件,每个最多100万条。
下面是一个使用示例截图: