使用antiword讀取word文檔
作者: 鄭曉 分類: Linux, Python 發布于: 2017-03-07 00:08 瀏覽:59,836 評論(5)
antiword是linux及其他RISC OS下免費的ms word文檔讀取器。使用它可以很方便的在Linux中讀取word文檔并輸出為純文本字符串。
下載地址:http://www.winfield.demon.nl
下載后解壓、編譯安裝:
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install
默認安裝到當前賬戶下的bin目錄中。
使用:
終端中
/home/pi/bin/antiword antiword-test.doc
其他語言中通過各自執行系統命令的方式來執行,比如Python中:
import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content
比如我有個doc文件是這樣的:
執行結果類似這樣:
其中的非字符串部分被過濾了。
? ? ? ?
本文采用知識共享署名-非商業性使用 3.0 中國大陸許可協議進行許可,轉載時請注明出處及相應鏈接。
本文永久鏈接: http://www.hzyfsg.com/antiword-read-word-doc.html
使用antiword讀取word文檔:目前有5 條留言
unoconv-convert-document-openoffice.html 你說的這個地址不對啊
你可以看看這篇,unoconv-convert-document-openoffice.html 你說的這個地址不對啊
博主,你好!php讀取word求助,按照這個教程,讀取出來的word是純文本的,能否保留原排版格式 呢
剛測了下,這個工具貌似不能帶格式輸出。
你可以看看這篇,unoconv-convert-document-openoffice.html