91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python讀取Word(.docx)正文信息的方法

發布時間:2020-09-29 10:32:22 來源:腳本之家 閱讀:208 作者:0_蠟筆小熊_0 欄目:開發技術

本文介紹用Python簡單讀取*.docx文件信息,一些python-word庫就是對這種方法的擴展。

介紹分兩部分:

  • Word(*.docx)文件簡述
  • Python提取Word信息

Word(*.docx)文件簡述

大約在2008年以前,Office產品中Word用.doc文件格式,這種二進制格式很難與其他軟件兼容。
為了跟上時代,微軟采用類XML格式標準定義其新版Word文件.docx。
.docx實際上是一個zip的壓縮文件,比如我們有一個test.docx的文件:

Python讀取Word(.docx)正文信息的方法

其內容如下:

Python讀取Word(.docx)正文信息的方法

改變其后綴名為test.zip,然后解壓,會得到如下文件:

Python讀取Word(.docx)正文信息的方法

其中Word文件的正文內容被保持在word/document.xml中,我們可以打開查看:

Python讀取Word(.docx)正文信息的方法

Python提取Word信息

根據Word(.docx)文件格式,我們遵循如下步驟進行正文信息的提取:

1 解壓.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具體代碼如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

沽源县| 汕头市| 江津市| 驻马店市| 天全县| 普定县| 尼勒克县| 习水县| 宁海县| 乌苏市| 阳东县| 九台市| 大竹县| 资讯| 白银市| 隆回县| 乌拉特前旗| 新密市| 镇安县| 白河县| 达州市| 溆浦县| 吴川市| 安阳市| 公安县| 五大连池市| 闽侯县| 获嘉县| 高平市| 门源| 望城县| 吉安县| 哈巴河县| 宣威市| 临海市| 达日县| 闸北区| 宝兴县| 怀柔区| 成武县| 电白县|