近期涉及到了关于 doc 文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。
Doc 文档读取有如下几种:
1 、从 doc 读取文本
目前没有找到直接的方式,一般是先转为 docx 文件在处理。所使用工具为 doc2doc( 批量时可用 ) ,或人工另存处理。
2 、从 docx 读取文本
一般使用 python-docx 库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。
或直接从 docx 中读取 xml 的方法。
3 、从 pdf 读取文本
一般使用 pdfminer3k 库或 pyPdf 库。其中 pyPdf 用起来其实稍显麻烦,很多操作不够方便。 pdfminer 对表格不友好,也可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。
还有一种可以用 pdf2htmlex( 非 python) ,先把 pdf 转 html ,接下来再用 bs4 来解析处理。这样的好处是处理 html 的工具非常非常丰富,且 pdf2htmlex 对原页面的效果保持得特别好,特别是对于那些个用 word 和 latex 导出的 pdf 里,大量数据图表里的标签可以很方便地提取所需的值。
4 、把 pdf 中图存为 jpg 文件
一般可以使用 PythonMagick 库。
以上的代码处理,均在 https://github.com/renwoxing2016/ 。