亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python下wordpdf轉(zhuǎn)換總結(jié)

系統(tǒng) 1750 0
??

近期涉及到了關(guān)于 doc 文檔讀取的處理,也查了很久,為了便于大家使用,故集大成一下。

Doc 文檔讀取有如下幾種:

1 、從 doc 讀取文本

?????? 目前沒有找到直接的方式,一般是先轉(zhuǎn)為 docx 文件在處理。所使用工具為 doc2doc( 批量時可用 ) ,或人工另存處理。

?

2 、從 docx 讀取文本

?????? 一般使用 python-docx 庫的方法,但只支持創(chuàng)建新文檔和讀取一些基本的文件數(shù)據(jù),如文件大小和文件標(biāo)題,不支持正文讀取。

?????? 或直接從 docx 中讀取 xml 的方法。

?

3 、從 pdf 讀取文本

?????? 一般使用 pdfminer3k 庫或 pyPdf 庫。其中 pyPdf 用起來其實稍顯麻煩,很多操作不夠方便。 pdfminer 對表格不友好,也可以將 PDF 轉(zhuǎn)換為 text 文本,還可以轉(zhuǎn)換為 HTML 等帶有標(biāo)簽的文本。

?????? 還有一種可以用 pdf2htmlex( python) ,先把 pdf 轉(zhuǎn) html ,接下來再用 bs4 來解析處理。這樣的好處是處理 html 的工具非常非常豐富,且 pdf2htmlex 對原頁面的效果保持得特別好,特別是對于那些個用 word latex 導(dǎo)出的 pdf 里,大量數(shù)據(jù)圖表里的標(biāo)簽可以很方便地提取所需的值。

?

4 、把 pdf 中圖存為 jpg 文件

?????? 一般可以使用 PythonMagick 庫。

?

以上的代碼處理,均在 https://github.com/renwoxing2016/


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产美女久久精品香蕉69 | 久久福利青草精品资源站免费 | 五月天婷婷免费视频 | 97免费在线观看 | 伊人狼人视频 | 欧美综合图区亚洲综合图区 | 欧产日产国产精品专区 | 天天做夜夜做久久做狠狠 | 免费播放欧美毛片欧美aaaaa | 天堂成人在线视频 | 亚洲欧洲国产精品你懂的 | 日本三级中文字幕 | 99热精品久久只有精品30 | 四虎在线永久免费视频网站 | 92自拍视频 | 2021国产精品自产拍在线 | 人成在线免费视频 | 欧美一级第一免费高清 | 欧美日韩国产综合一区二区三区 | 日日干狠狠干 | a一级免费视频 | 亚洲精品色一区色二区色三区 | 色sese | 欧美狠狠入鲁的视频极速 | 超碰在线小说 | 国产成人久久精品二区三区牛 | 亚洲精品国产自在久久出水 | www天天操| 亚洲已满18点击进入在线观看 | 四虎影院国产精品 | 免费观看美女光子让男人玩 | 一区二区三区在线观看免费 | 久久频| 一级欧美在线的视频 | 日韩一区二区三区在线视频 | 久久精品综合 | 亚洲欧美日本国产综合在线 | 亚洲网站免费 | 精品久久久久久久一区二区伦理 | 日本级毛片免费观看 | 在线播放免费一级毛片欧美 |