91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

基于python的docx模塊處理word和WPS的docx格式文件方式

發布時間:2020-08-23 05:37:05 來源:腳本之家 閱讀:411 作者:江戶川柯壯 欄目:開發技術

Python docx module for Word or WPS processing

本文是通過docx把word中的表格中的某些已填好的內容提取出來,存入excel表格。

首先安裝docx的python模塊:

pip install python-docx

由于處理的為中文和符號,改成utf-8編碼格式

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from docx import Document
import pandas as pd
# 打開文件
doc = Document(ur'test_1.docx')

為了處理word中以對勾形式勾選的項目,采用下面 的方法

1、十字路口 √ 2、丁字路口 3、環形路口 4、人行立交

# 取出對號勾選的項目
print doc.tables[0].rows[3].cells[2].text
print doc.tables[0].rows[3].cells[2].text.split(u'√')[1].strip().split(' ')[0][2:]
'√' in doc.tables[0].rows[3].cells[2].text # 這個語句可以測試是否含有對勾,
# 有的話就取出對勾后面的item,否則直接返回填空的text

True

num_rows = len(doc.tables[0].rows)
print num_rows

xls = pd.read_csv(ur'output.csv')

print xls.columns[0]
diction = {}
# 找到每個excel文檔中需要被記錄的鍵值在docx文檔表格中的位置
for xlskey in xls.columns:
 for row_id in range(num_rows):
  row = doc.tables[0].rows[row_id]
  for cell_id in range(len(row.cells)):
   if row.cells[cell_id].text.strip() == xlskey.strip():
    diction[xlskey] = [row_id, cell_id]
# 查看一下獲得的鍵值位置
for key in list(diction.keys()):
 print key, diction[key]

樓層數 [21, 1]

宗地形狀 [4, 1]

使用權取得時間 [14, 1]

采光通風狀況 [19, 1]

已使用年限 [21, 4]

建筑朝向 [7, 1]

房屋結構 [17, 1]

交叉路口形式 [3, 1]

臨街狀況 [8, 1]

建筑容積率 [10, 5]

樓宇名稱 [15, 5]

質量等級 [18, 1]

周圍土地利用類型 [11, 1]

總建筑面積 [20, 1]

宗地位置 [0, 1]

所臨道路名稱 [2, 1]

裝修標準 [16, 1]

那么我們認為這些表頭鍵值對應的填入數據就在他們的右邊,也就是下一個cell,因此我們只需要將row id不變,cell+1,就能取出填表內容。

# 開始填表!!!
for each_column in xls.columns:
 pos = diction[each_column]
 textion = doc.tables[0].rows[pos[0]].cells[pos[1] + 1].text
 if u'√' in textion:
  this_text = textion.strip(' ').split(u'√')[1].split()[0][2:]
 else:
  this_text = textion
 xls.loc[0, each_column] = this_text

xls

樓宇名稱 宗地位置 所臨道路名稱 交叉路口形式 宗地形狀 建筑朝向 臨街狀況 周圍土地利用類型 裝修標準 房屋結構 質量等級 采光通風狀況 總建筑面積 樓層數 已使用年限 建筑容積率 使用權取得時間
0 百興花園 鄂州市鄂城區鳳凰路47-11號 鳳凰路 丁字路口 多邊形 離街 商業用地 豪華 1、鋼 2、鋼、鋼混 3、鋼混 4、混合 5、磚木 6、其它 完好 122.7平方米 8 13年

Succeed!!!

之后只需要用一個glob函數取出所有的文檔的path,然后依次執行上面的命令,即可完成word表格到excel(實際上是csv形式)的自動填表過程。

以上這篇基于python的docx模塊處理word和WPS的docx格式文件方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

钟山县| 申扎县| 台山市| 德江县| 常德市| 正定县| 越西县| 遂川县| 南木林县| 泸溪县| 肇州县| 册亨县| 贡山| 乌兰察布市| 永清县| 金溪县| 京山县| 竹北市| 扎兰屯市| 辽宁省| 同江市| 泰和县| 台山市| 罗城| 宜兰市| 普安县| 红安县| 黎城县| 玛曲县| 武威市| 都昌县| 中卫市| 清流县| 裕民县| 宁德市| 浮梁县| 金阳县| 万载县| 贞丰县| 隆子县| 鄂托克旗|