更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
Python生成XLS文件(Excel)封装(支持多Sheet、自动分表)
发布时间:2012-12-27
在Web数据采集输出格式中XLS(Excel)是一种很常见的格式。它具有灵活、通用功能(能够方便地导入各种数据库 例如,Access、MySQL),借助Excel的强大功能可以方便地对数据进行二次统计和处理。并且它对UTF-8字符编码支持较好,用Excel查看不会出现乱码(注:Excel查看UTF-8编码的CSV文件会乱码)。
XLSWriter是由鲲鹏数据的技术人员在xlwt库的基础上进行二次封装而来,它的目的是为了写XLS文件的操作更加简单。
下面是一个示例:
from XLSWriter import XLSWriter xlswriter = XLSWriter(u'陕西.xls') xlswriter.writerow(['姓名', '年龄', '电话', 'QQ'], sheet_name=u'基本信息') xlswriter.writerow(['张三', '30', '13512345678', '123456789'], sheet_name=u'基本信息') xlswriter.writerow(['学校', '获得学位', '取得学位时间'], sheet_name=u'学习经历') xlswriter.writerow(['西安电子科技大学', '学士', '2009'], sheet_name=u'学习经历') xlswriter.writerow(['西安电子科技大学', '硕士', '2012'], sheet_name=u'学习经历') xlswriter.writerow(['王五', '30', '13512345678', '123456789'], sheet_name=u'基本信息') # don't forget to save data to disk xlswriter.save()
该项目的主页是:http://code.google.com/p/xlswriter/
它具有以下特性:
1. 支持中文。
2. 支持多Sheet写入操作(通过指定sheet_name)。
3. 具有Sheet自动分表功能:32位系统下,Excel的最大可读行数是65535,为了避免数据溢出,XLSWiter在一个Sheet内行数达到65535后自动进行分表(创建Sheet2)。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/