python爬虫第6关csv&excel

系统 1394 0

python爬虫第6关csv&excel_第1张图片
前面讲到json是特殊的字符串。其实,csv也是一种字符串文件的格式,它组织数据的语法就是在字符串之间加分隔符——行与行之间是加换行符,同列之间是加逗号分隔。
它可以用任意的文本编辑器打开(如记事本),也可以用Excel打开,还可以通过Excel把文件另存为csv格式(因为Excel支持csv格式文件)。
将我们刚刚写入的csv文件下载到本地电脑,再用记事本打开,你会看到:
python爬虫第6关csv&excel_第2张图片
用Excel打开,则是这样的:
python爬虫第6关csv&excel_第3张图片
发现了吗?csv文件里的逗号可以充当分隔同列字符串的作用。
用csv格式存储数据,读写比较方便,易于实现,文件也会比Excel文件小。但csv文件缺少Excel文件本身的很多功能,比如不能嵌入图像和图表,不能生成公式。

存储数据的基础知识
python爬虫第6关csv&excel_第4张图片
存储成csv格式文件和存储成Excel文件,这两种不同的存储方式需要引用的模块也是不同的。操作csv文件我们需要借助csv模块;操作Excel文件则需要借助openpyxl模块。

csv格式文件写入与读取。

首先,我们要引用csv模块。因为Python自带了csv模块,所以我们不需要安装就能引用它。
你是不是会困惑,明明前面csv写入我们可以直接用open函数来写,为什么现在还要先引用csv模块?答案:直接运用别人写好的模块,比我们使用open()函数来读写,语法更简洁,功能更强大,待会你就能感受到。

            
              import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#创建csv文件,我们要先调用open()函数,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。


            
          

加newline=’ '参数的原因是,可以避免csv文件出现两倍的行距(就是能避免表格的行与行之间出现空白行)。加encoding=‘utf-8’,可以避免编码问题导致的报错或乱码。
创建完csv文件后,我们要借助csv.writer()函数来建立一个writer对象。

            
              import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。

            
          

那怎么往csv文件里写入新的内容呢?答案是——调用writer对象的writerow()方法。
writer.writerow([‘电影’,‘豆瓣评分’])
#借助writerow()函数可以在csv文件里写入一行文字 "电影"和“豆瓣评分”.
提醒:writerow()函数里,需要放入列表参数,所以我们得把要写入的内容写成列表。就像[‘电影’,‘豆瓣评分’]。

            
              import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。
writer.writerow(['电影','豆瓣评分'])
#调用writer对象的writerow()方法,可以在csv文件里写入一行文字 “电影”和“豆瓣评分”。
writer.writerow(['银河护卫队','8.0'])
#在csv文件里写入一行文字 “银河护卫队”和“8.0”。
writer.writerow(['复仇者联盟','8.1'])
#在csv文件里写入一行文字 “复仇者联盟”和“8.1”。
csv_file.close()
#写入完成后,关闭文件就大功告成啦!


            
          

Mac的编码方式是‘gbk’
用csv模块写入数据这一个知识点我们已经清楚。接下来我们可以继续学习怎么读取csv文件的数据。

            
              import csv
csv_file=open('demo.csv','r',newline='',encoding='gbk')
reader=csv.reader(csv_file)
for row in reader:
    print(row)
    

            
          

第1、2行代码:导入csv模块。用open()打开“demo.csv”文件,‘r’是reader读取模式,newline=’'是避免出现两倍行距。encoding='utf-8’能避免编码问题导致的报错或乱码。
第3行代码:用csv.reader()函数创建一个reader对象。
第4、5行代码:用for循环遍历reader对象的每一行。打印row,就能读取出“demo.csv”文件里的内容。
补充一点:csv模块本身还有很多函数和方法,附上csv模块官方文档链接:
https://yiyibooks.cn/xx/python_352/library/csv.html#module-csv

Excel写入与读取

一个Excel文档也称为一个工作薄(workbook),每个工作薄里可以有多个工作表(wordsheet),当前打开的工作表又叫活动表。
每个工作表里有行和列,特定的行与列相交的方格称为单元格(cell)。比如上图第A列和第1行相交的方格我们可以直接表示为A1单元格。

            
              mport openpyxl 
#引用openpyxl 。
wb = openpyxl.Workbook()
#利用openpyxl.Workbook()函数创建新的workbook(工作薄)对象,就是创建新的空的Excel文件。

            
          

创建完新的工作薄后,还得获取工作表。不然程序会懵逼,不知道要把内容写入哪张工作表里。

            
              sheet = wb.active
#wb.active就是获取这个工作薄的活动表,通常就是第一个工作表。
sheet.title = 'new title'
#可以用.title给工作表重命名。现在第一个工作表的名称就会由原来默认的“sheet1”改为"new title"。

            
          

添加完工作表,我们就能来操作单元格,往单元格里写入内容。

            
              sheet['A1'] = '漫威宇宙' 
#把'漫威宇宙'赋值给第一个工作表的A1单元格,就是往A1的单元格中写入了'漫威宇宙'。

            
          

如果我们想往工作表里写入一行内容的话,就得用到append函数。

            
              row = ['美国队长','钢铁侠','蜘蛛侠']
#把我们想写入的一行内容写成列表,赋值给row。
sheet.append(row)
#用sheet.append()就能往表格里添加这一行文字。

            
          

如果我们想要一次性写入的不止一行,而是多行内容,又该怎么办?

            
              rows = [['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙', '经典','人物']]
#先把要写入的多行内容写成列表,再放进大列表里,赋值给rows。
for i in rows:
    sheet.append(i)
#遍历rows,同时把遍历的内容添加到表格里,这样就实现了多行写入。
print(rows)
#打印rows

            
          

成功写入后,我们千万要记得保存这个Excel文件,不然就白写啦!

            
              wb.save('Marvel.xlsx')
#保存新建的Excel文件,并命名为“Marvel.xlsx”

            
          

这样,Excel文件写入的代码我们就写好了

            
              import openpyxl

wb=openpyxl.Workbook()
sheet=wb.active
sheet.title='new title'
sheet['A1']='漫威宇宙'
rows=[['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙','经典','的','人物']]
for i in rows:
        sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')


            
          

Excel文件的读取

            
              import openpyxl 
#写入的代码:
wb = openpyxl.Workbook() 
sheet = wb.active
sheet.title = 'new title'
sheet['A1'] = '漫威宇宙'
rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

#读取的代码:
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet = wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_cell = sheet['A1']
A1_value = A1_cell.value
print(A1_value)


            
          

第14行代码:调用openpyxl.load_workbook()函数,打开“Marvel.xlsx”文件。
第15行代码:获取“Marvel.xlsx”工作薄中名为“new title”的工作表。
第16、17行代码:sheetnames是用来获取工作薄所有工作表的名字的。如果你不知道工作薄到底有几个工作表,就可以把工作表的名字都打印出来。
第18-20行代码:把“new title”工作表中A1单元格赋值给A1_cell,再利用单元格value属性,就能打印出A1单元格的值。
openpyxl模块的官方文档:
https://openpyxl.readthedocs.io/en/stable/

python爬虫第6关csv&excel_第5张图片


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论