python下wordpdf转换总结 - 军军小站|张军博客

近期涉及到了关于 doc 文档读取的处理，也查了很久，为了便于大家使用，故集大成一下。

Doc 文档读取有如下几种：

1 、从 doc 读取文本

目前没有找到直接的方式，一般是先转为 docx 文件在处理。所使用工具为 doc2doc( 批量时可用 ) ，或人工另存处理。

2 、从 docx 读取文本

一般使用 python-docx 库的方法，但只支持创建新文档和读取一些基本的文件数据，如文件大小和文件标题，不支持正文读取。

或直接从 docx 中读取 xml 的方法。

3 、从 pdf 读取文本

一般使用 pdfminer3k 库或 pyPdf 库。其中 pyPdf 用起来其实稍显麻烦，很多操作不够方便。 pdfminer 对表格不友好，也可以将 PDF 转换为 text 文本，还可以转换为 HTML 等带有标签的文本。

还有一种可以用 pdf2htmlex( 非 python) ，先把 pdf 转 html ，接下来再用 bs4 来解析处理。这样的好处是处理 html 的工具非常非常丰富，且 pdf2htmlex 对原页面的效果保持得特别好，特别是对于那些个用 word 和 latex 导出的 pdf 里，大量数据图表里的标签可以很方便地提取所需的值。

4 、把 pdf 中图存为 jpg 文件

一般可以使用 PythonMagick 库。

以上的代码处理，均在 https://github.com/renwoxing2016/ 。

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义