之前想了很多种办法来解析PDF文件内容(Python 读取PDF文件),一般针对电子版word或者Excel转化为PDF的PDF文件具有不错的效果,但是依然不能解析图片(图片中文字)内容,如果PDF是扫描版呢,那种方法就不行了。
所以我又想了另一个办法,就是先把PDF文件转化为图片,然后再将图片进行OCR识别,得到最终PDF的内容。
1 把PDF转化为图片
可以参考博文:windows下用Python把pdf文件转化为图片
代码如下:
import fitz
PDF_path = "你的PDF文件路径"
imgs_save_path = "图片保存文件夹路径"
def PDF_to_imgs(PDF_path, save_path):
# 打开PDF文件,生成一个对象
doc = fitz.open(PDF_path)
# 将PDF文件的每一页都转化为图片
for pg in range(doc.pageCount):
page = doc[pg]
rotate = int(0)
# 每个尺寸的缩放系数为2,这将为我们生成分辨率提高4倍的图像。
zoom_x = 2
zoom_y = 2
trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
pm = page.getPixmap(matrix=trans, alpha=False)
pm.writePNG(save_path + '%s.png' % pg)
PDF_to_imgs(PDF_path, imgs_save_path)
2 将图片进行OCR识别
pytesseract模块的安装参考博文:基于python的OCR字符识别
代码如下:
import os
import pytesseract
from PIL import Image
imgs_save_path = "C:\\Users\\Administrator\\Desktop\\PDF\\"
txts_save_path = "C:\\Users\\Administrator\\Desktop\\TXT\\"
def img_to_txt(imgs_path, save_path):
# 将文件夹下的所有图片进行OCR识别
for files, _, file_names in os.walk(imgs_path):
for file_name in file_names:
image = Image.open(files + file_name)
# chi_sim 是中文识别包,equ 是数学公式包,eng 是英文包
content = pytesseract.image_to_string(image, lang="chi_sim")
txt_name = file_name.split(".")[0] + ".txt"
with open(save_path + txt_name, "w") as f:
f.write(content)
img_to_txt(imgs_save_path, txts_save_path)