怎么在Python中使用Pandas進行數據清洗

發布時間：2021-04-27 16:07:17 來源：億速云閱讀：236 作者：Leah 欄目：編程語言

怎么在Python中使用Pandas進行數據清洗？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

python的五大特點是什么

python的五大特點：1.簡單易學，開發程序時，專注的是解決問題,而不是搞明白語言本身。2.面向對象，與其他主要的語言如C++和Java相比, Python以一種非常強大又簡單的方式實現面向對象編程。3.可移植性，Python程序無需修改就可以在各種平臺上運行。4.解釋性，Python語言寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序。5.開源，Python是 FLOSS(自由/開放源碼軟件)之一。

一、Python pandas數據清洗流程

1.導入方法read_excel

# 導入數據
import pandas as pda
import matplotlib.pylab as pyl

a = pda.read_excel("D:\\迅雷下載\\工具\\表格\\練習.xls")	# 路徑使用雙反斜杠，否則會報錯
print(len(a))   # 數據框的長度，是按行統計的
123456

2.發現缺失值

先打開excel表，查看下有多少缺失值，缺失值是指值為0或空統計發現有10個缺失值，同理其他列也有部分缺失值然后著手把0值置空，保證所有的缺失值都是統一形式，方便處理

怎么在Python中使用Pandas進行數據清洗

b = ["price", "trade"]
for i in b:
    a[i][(a[i] == 0)] = None
# a["price"] == 0  判斷語句，返回True或False  ,對列表的每一個值進行判斷，如果有0，該處值置為none，然后進行判斷直至完成
1234

3.缺失值處理

遍歷所有的空值，統一賦值

x = 0
for j in b:
    for k in range(len(a)):
        if (a[j].isnull())[k]:  
            a[j][k] = 36
            x += 1
print(x)

二、數據清洗是什么

數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序，包括檢查數據一致性，處理無效值和缺失值等。與問卷審核不同，錄入后的數據清理一般是由計算機而不是人工完成。

數據清洗從名字上也看的出就是把“臟”的“洗掉”，指發現并糾正數據文件中可識別的錯誤的最后一道程序，包括檢查數據一致性，處理無效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的集合，這些數據從多個業務系統中抽取而來而且包含歷史數據，這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突，這些錯誤的或有沖突的數據顯然是我們不想要的，稱為“臟數據”。我們要按照一定的規則把“臟數據”“洗掉”，這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據，將過濾的結果交給業務主管部門，確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。數據清洗是與問卷審核不同，錄入后的數據清理一般是由計算機而不是人工完成。

怎么在Python中使用Pandas進行數據清洗

三、異常數據處理

異常數據指數據庫或數據倉庫中未滿足一般規律的數據信息對象，又叫作孤立點。異常的數據信息可由執行程序出現失誤形成，也可能會因設施設備內部故障造成的。異常數據信息可能是刪去的噪聲，也可能是帶有重要信息的數據單元。異常的數據信息的監測具體有根據統計學、根據距離和根據偏離3類方法。采取數據信息審時的辦法能夠實現異常的數據信息的智能化監測，該辦法也叫作數據質量挖掘(DOQM)。DQM具體由2步組成:第1步，采取數理統計辦法對數據分布展開概化描述，自動獲得數據信息的總體分布特征；第2步針對特定的數據質量問題展開挖掘以發現數據信息異常的。

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業資訊頻道，感謝您對億速云的支持。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么在Python中使用Pandas進行數據清洗

python的五大特點是什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么在Python中使用Pandas進行數據清洗

python的五大特點是什么

猜你喜歡

最新資訊

相關推薦

相關標簽