您好,登錄后才能下訂單哦!
本文將為大家詳細介紹“python操作excel實現數據清洗的示例”,內容步驟清晰詳細,細節處理妥當,而小編每天都會更新不同的知識點,希望這篇“python操作excel實現數據清洗的示例”能夠給你意想不到的收獲,請大家跟著小編的思路慢慢深入,具體內容如下,一起去收獲新知識吧。
Python主要應用于:1、Web開發;2、數據科學研究;3、網絡爬蟲;4、嵌入式應用開發;5、游戲開發;6、桌面應用開發。
python 在對 excel 操作的同時,前面文章中說了數據的讀取、插入、簡單分析,還有一個非常重要的點就是數據清洗。那什么叫數據清洗,說白了就是去除數據文本中的垃圾值,比如:存在的空值、多余的空格、數據格式等等的處理。
# 導入 pandas 庫import pandas as pd# read_excel() 讀取 excel 數據# DataFrame() 將讀取到的數據轉換為 DataFrame 數據df = pd.DataFrame(pd.read_excel('data.xlsx'))
# dropna() 函數去除 df 數據表中存在空值的所有行df.dropna(how='any')# mean() 函數計算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函數對存在的空值進行填充,將 age_pre 的值填充到字段為空的值內面df['age'].fillna(age_pre)
# 清除字段的空格df['name'] = df['name'].map(str.strip)
# rename() 函數對列進行重命名df.rename(columns={'name': 'name_new'})
# 從前往后查找某個列中的重復值,如果存在則清除后面所出現的重復值df['name'].drop_duplicates()# 從后往前查找某個列中的重復值,如果存在則清除前面所出現的重復值df['city'].drop_duplicates(keep='last')# 兩種正好是按照相反的清除順序
# 將某一列中的具體值進行替換df['name'].replace('laow', 'lwsbc')
如果你能讀到這里,小編希望你對“python操作excel實現數據清洗的示例”這一關鍵問題有了從實踐層面最深刻的體會,具體使用情況還需要大家自己動手實踐使用過才能領會,如果想閱讀更多相關內容的文章,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。