您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“如何使用pandas解決常見的預處理任務”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“如何使用pandas解決常見的預處理任務”這篇文章吧。
數據預處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等,下面使用 pandas 解決這些最常見的預處理任務。
找出異常值常用兩種方法:
標準差法:異常值平均值上下1.96個標準差區間以外的值
分位數法:小于 1/4分位數減去 1/4和3/4分位數差的1.5倍,大于3/4減去 1/4和3/4分位數差的1.5倍,都為異常值
技能1 :標準差法
import pandas as pd df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) # 異常值平均值上下1.96個標準差區間以外的值 meangrade = df['a'].mean() stdgrade = df['a'].std() toprange = meangrade + stdgrade * 1.96 botrange = meangrade - stdgrade * 1.96 # 過濾區間外的值 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a'] > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a'] < botrange].index) copydf
技能2:分位數法
q1 = df['a'].quantile(.25) q3 = df['a'].quantile(.75) iqr = q3-q1 toprange = q3 + iqr * 1.5 botrange = q1 - iqr * 1.5 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a'] > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a'] < botrange].index) copydf
技能3:處理空值
np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan
# axis 0 表示按照行,all 此行所有值都為 nan df.dropna(axis=0, how='all')
技能4:充填空值
空值一般使用某個統計值填充,如平均數、眾數、中位數等,使用函數 fillna:
# 使用a列平均數填充列的空值,inplace true表示就地填充 df["a"].fillna(df["a"].mean(), inplace=True)
技能5:修復不合適值
假如某門課最高分100,如果出現 -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數值:
df.loc[(df['a'] < -2,'a')] = 0 df.loc[(df['a'] >= 100,'a')] = 100
技能6:過濾重復值
過濾某列重復值,使用 drop_duplicated 方法,第一個參數為列名,keep關鍵字等于last:最后一次出現此值行:
df.drop_duplicates(['Names'], keep='last')
技能7:apply 元素級:去掉特殊字符
某列單元格含有特殊字符,如標點符號,使用元素級操作方法 apply 干掉它們:
import string exclude = set(string.punctuation) def remove_punctuation(x): x = ''.join(ch for ch in x if ch not in exclude) return x # 原df Out[26]: a b 0 c,d edc.rc 1 3 3 2 d ef 4 # 過濾a列標點 In [27]: dfdf.a = df.a.apply(remove_punctuation) In [28]: df Out[28]: a b 0 cd edc.rc 1 3 3 2 d ef 4
技能8:cut 數據分箱
將百分制分數轉為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:
# 生成20個[0,100]的隨機整數 In [30]: a = np.random.randint(1,100,20) In [31]: a Out[31]: array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31, 5, 46, 98,99, 60, 43]) # cut分箱 In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A']) Out[33]: [D, D, D, B, D, ..., D, A, A, D, D] Length: 20 Categories (4, object): [D < C < B < A]
技能9:rank 排名
rank 方法,生成數值排名,ascending 為False,分值越大,排名越靠前:
In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) In [53]: df['a'].rank(ascending=False) Out[53]: 0 4.0 1 2.0 2 1.0 3 3.0 4 5.0
技能10:category列轉數值
某列取值只可能為有限個枚舉值,往往需要轉為數值,使用get_dummies,或自己定義函數:
pd.get_dummies(df['a'])
自定義函數,結合 apply:
def c2n(x): if x=='A': return 95 if x=='B': return 80 df['a'].apply(c2n)
以上結合數據預處理的十個小任務,分別找到對應pandas中的實現。
以上是“如何使用pandas解決常見的預處理任務”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。