使用Python + fitz + PIL+ pytesseract 解析

之前想了很多种办法来解析PDF文件内容（Python 读取PDF文件），一般针对电子版word或者Excel转化为PDF的PDF文件具有不错的效果，但是依然不能解析图片（图片中文字）内容，如果PDF是扫描版呢，那种方法就不行了。

所以我又想了另一个办法，就是先把PDF文件转化为图片，然后再将图片进行OCR识别，得到最终PDF的内容。

1 把PDF转化为图片

可以参考博文：windows下用Python把pdf文件转化为图片

代码如下：

            
              import fitz

PDF_path = "你的PDF文件路径"
imgs_save_path = "图片保存文件夹路径"

def PDF_to_imgs(PDF_path, save_path):
    # 打开PDF文件，生成一个对象
    doc = fitz.open(PDF_path)

    # 将PDF文件的每一页都转化为图片
    for pg in range(doc.pageCount):
        page = doc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为2，这将为我们生成分辨率提高4倍的图像。
        zoom_x = 2
        zoom_y = 2
        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pm = page.getPixmap(matrix=trans, alpha=False)
        pm.writePNG(save_path + '%s.png' % pg)
        
                
PDF_to_imgs(PDF_path, imgs_save_path)

2 将图片进行OCR识别

pytesseract模块的安装参考博文：基于python的OCR字符识别

代码如下：

            
              import os
import pytesseract
 
from PIL import Image

imgs_save_path = "C:\\Users\\Administrator\\Desktop\\PDF\\"
txts_save_path = "C:\\Users\\Administrator\\Desktop\\TXT\\"
        
def img_to_txt(imgs_path, save_path):
    # 将文件夹下的所有图片进行OCR识别
    for files, _, file_names in os.walk(imgs_path):
        for file_name in file_names:
            image = Image.open(files + file_name)
            # chi_sim 是中文识别包，equ 是数学公式包，eng 是英文包
            content = pytesseract.image_to_string(image, lang="chi_sim")
            txt_name = file_name.split(".")[0] + ".txt"
            with open(save_path + txt_name, "w") as f:
                f.write(content)


img_to_txt(imgs_save_path, txts_save_path)

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义