怎么用Python對Word文件內容進行讀取

發布時間：2022-05-12 11:34:33 來源：億速云閱讀：1477 作者：iii 欄目：開發技術

今天小編給大家分享一下怎么用Python對Word文件內容進行讀取的相關知識點，內容詳細，邏輯清晰，相信大部分人都還太了解這方面的知識，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

利用 python 批量讀取文件

word利器之python-docx

python-docx 是用于創建可修改微軟 Word 的一個 python 庫，提供全套的 Word 操作，是最常用的 Word 工具。

使用前，先了解幾個概念：

Document：是一個 Word 文檔對象，不同于 VBA 中 Worksheet 的概念，Document 是獨立的，打開不同的 Word 文檔，就會有不同的 Document 對象，相互之間沒有影響
Paragraph：是段落，一個 Word 文檔由多個段落組成，當在文檔中輸入一個回車鍵，就會成為新的段落，輸入 shift + 回車，不會分段
Run 表示一個節段，每個段落由多個節段組成，一個段落中具有相同樣式的連續文本，組成一個節段，所以一個段落對象有個 Run 列表。

例如下圖的 word 文檔示意圖：

怎么用Python對Word文件內容進行讀取

word 文檔結構劃分如下：

怎么用Python對Word文件內容進行讀取

python-docx 安裝

安裝：

pip install python-docx 如果安裝速度太慢的話，可以換一個國內的源地址（如下）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

導入：

import docx
from docx import …

python-docx 之 Document

導入包與模塊：

from docx import Document

使用方法：

Document(word文件地址)

返回值：

word文件對象

python-docx 之段落內容讀取

實際上要想讀取一個 word 文檔，主要就是讀取它的段落以及它的表格。無論是段落還是表格，它的內部都是字符串，我們的目的就是讀取這些字符串的內容。

先看一下段落內容的讀取方式：

來源：

document_obj.paragraphs 通過 document 對象的 paragraphs 函數返回一個段落的列表；如果 word 文件存在多個段落，就會有多個段落對象。

使用方法：

通過循環獲取每個段落對象，并調用 text

演示案例腳本如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調試路徑

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

運行結果如下：（PS：文本只是演示，本人非培訓機構的！）

怎么用Python對Word文件內容進行讀取

python-docx 之表格內容讀取

接下來我們看一下如何讀取 word 文件中的表格內容：

來源：

document_obj.tables 通過 document 對象的 paragraphs 函數返回一個表格的列表；里面是一個一個的表格的對象。

使用方法：

同樣通過循環，獲取行與列的內容

返回值：

每個表格字段（字符串）

演示案例代碼如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調試路徑

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循環獲取表格對象
    for row in t.rows:          # 獲取每一行
        row_str = []
        for cell in row.cells:    # 獲取每一行單獨的小表格,然后將其內容拼接起來;拼接完成之后再第二個for循環中打印出來
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通過 "columns" 獲取表格中的列的內容，可以自己嘗試一下

運行結果如下：

怎么用Python對Word文件內容進行讀取

以上就是“怎么用Python對Word文件內容進行讀取”這篇文章的所有內容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會為大家更新不同的知識，如果還想學習更多的知識，請關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么用Python對Word文件內容進行讀取

利用 python 批量讀取文件

word利器之python-docx

python-docx 安裝

python-docx 之 Document

python-docx 之段落內容讀取

python-docx 之表格內容讀取

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么用Python對Word文件內容進行讀取

利用 python 批量讀取文件

word利器之python-docx

python-docx 安裝

python-docx 之 Document

python-docx 之段落內容讀取

python-docx 之表格內容讀取

猜你喜歡

最新資訊

相關推薦

相關標簽