基于Python实现对PDF文件的OCR识别

最近在做一个项目的时候，需要将PDF文件作为输入，从中输出文本，然后将文本存入数据库中。为此，我找寻了很久的解决方案，最终才确定使用 tesseract 。所以不要浪费时间了，我们开始吧。

1.安装tesseract

在不同的系统中安装 tesseract 非常容易。为了简便，我们以 Ubuntu 为例。

在 Ubuntu 中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的 tesseract 。

2.安装PyOCR

现在我们还需要安装 tesseract 的Python接口。幸运的是，有许多出色的Python接口。

我们采用最新的一个：

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。一个是 Wand 。它是 Imagemagick 的Python接口。

我们需要使用它来将PDF文件转换成图像：

我们也需要 PIL 因为 PyOCR 需要使用它。你可以查看官方文档以确定如何将 PIL 安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先，我们需要导入一些重要的库：

注意： 我将从 PIL 导入的 Image 模块改名为PI了，因为如果不这样做的话，它将和 wand.image 模块发生重名冲突。

5.开始

现在我们需要获得 OCR库 （在本例中，即 tesseract ）的句柄以及我们在 PyOCR 中将使用的语言：

我们使用 tool.get_available_languages 里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。

接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。

下一步，我们需要采用 wand 将一个PDF文件转成jpeg文件。让我们试一试吧！

注意： 将 PDF_FILE_NAME 替换成当前路径下的一个可用的PDF文件名。

wand 已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到 req_image 序列中去。

现在，我们仅仅需要在图像对象上运行OCR即可，非常简单：

现在，所有识别出的文本已经加到了 final_text 序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容，希望这个教程能够帮助到你们！

英文原文：https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/

译者：LuCima

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义