python下wordpdf转换总结

系统 1605 0


近期涉及到了关于 doc 文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。

Doc 文档读取有如下几种:

1 、从 doc 读取文本

       目前没有找到直接的方式,一般是先转为 docx 文件在处理。所使用工具为 doc2doc( 批量时可用 ) ,或人工另存处理。

 

2 、从 docx 读取文本

       一般使用 python-docx 库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

       或直接从 docx 中读取 xml 的方法。

 

3 、从 pdf 读取文本

       一般使用 pdfminer3k 库或 pyPdf 库。其中 pyPdf 用起来其实稍显麻烦,很多操作不够方便。 pdfminer 对表格不友好,也可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。

       还有一种可以用 pdf2htmlex( python) ,先把 pdf html ,接下来再用 bs4 来解析处理。这样的好处是处理 html 的工具非常非常丰富,且 pdf2htmlex 对原页面的效果保持得特别好,特别是对于那些个用 word latex 导出的 pdf 里,大量数据图表里的标签可以很方便地提取所需的值。

 

4 、把 pdf 中图存为 jpg 文件

       一般可以使用 PythonMagick 库。

 

以上的代码处理,均在 https://github.com/renwoxing2016/


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论