91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python實現從PDF中提取數據

發布時間:2020-11-02 15:39:26 來源:億速云 閱讀:174 作者:Leah 欄目:開發技術

python實現從PDF中提取數據?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

使用Python從PDF文件中提取一個表格

a)將表復制到Excel并保存為table_1_raw.csv

python實現從PDF中提取數據

數據以一維格式存儲,必須進行重塑、清理和轉換。

b)導入必要的庫

import pandas as pd
import numpy as np

c)導入原始數據,重新定義數據

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python實現從PDF中提取數據

d)使用字符串處理工具進行數據糾纏

我們從上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我們需要去掉percent(%)符號:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)將數據轉換為數字形式

我們注意到列x5、x6和x7的列值數據類型為string,因此我們需要將它們轉換為數值數據,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看轉換數據的最終形式

df4.head(n=5)

python實現從PDF中提取數據

g)導出最終數據到一個csv文件

df4.to_csv('table_1_final.csv',index=False)

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

东海县| 台南县| 台前县| 屯留县| 建瓯市| 城口县| 姚安县| 新营市| 金秀| 克拉玛依市| 报价| 富锦市| 安庆市| 雷波县| 海晏县| 孟津县| 美姑县| 达州市| 阳西县| 开封市| 黄骅市| 鹰潭市| 开江县| 磐安县| 丹阳市| 东乡| 米林县| 广宁县| 三门县| 平谷区| 小金县| 白山市| 丰原市| 南阳市| 视频| 林州市| 保定市| 通许县| 如东县| 弋阳县| 班玛县|