91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

基于python的大數據分析-數據處理(代碼實戰)

發布時間:2020-06-17 20:02:00 來源:網絡 閱讀:752 作者:小強測試 欄目:軟件技術

接著上篇繼續。數據獲取之后并不能直接分析或使用,因為里面有很多無效的垃圾數據,所以必須要經過處理才可以。數據處理的主要內容包括數據清洗、數據抽取、數據交換和數據計算等。

數據清洗

數據清洗是數據價值鏈中最關鍵的一步。垃圾數據即使是通過最好的分析也可能會產生錯誤的結果,并造成較大的誤導。

數據清洗就是處理缺失數據以及清除無意義的信息,如刪除原始數據集中的無關數據、重復數據、平滑噪音數據,篩選掉與分析主題無關的數據等等。

重復值的處理

步驟如下:

1 利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示是否有重復行。沒有顯示FALSE,有則從重復的第二行起顯示為TRUE

2 在利用DataFrame中的drop_duplicates方法返回一個移除了重復行的DataFrame

duplicated的格式:

duplicated(subset=None, keep='first')

括號中的參數均為可選,不寫默認判斷全部列

subset用于識別重復的列標簽或列標簽序號,默認是所有的列標簽

keep為first表示除了第一次出現外,其余相同的數據被標記為重復;為last表示除了最后一次外,其余相同的數據被標記為重復;為false表示所有相同的數據都被標記為重復

drop_duplicates的格式:

drop_duplicates()

如果你想指定某個列就在括號里加入列名即可

from?pandas?import?DataFrame
from?pandas?import?Series

#造數據
df=DataFrame({'age':Series([26,85,85]),'name':Series(['xiaoqiang1','xiaoqiang2','xiaoqiang2'])})
df

#判斷是否有重復行
df.duplicated()

#移除重復行
df.drop_duplicates()

缺失值的處理

缺失值的處理一般包括兩個步驟,分別是缺失數據的識別和缺失數據的處理。

缺失數據的識別

pandas使用浮點值NaN表示浮點和非浮點數組里的缺失數據,并使用isnull和notnull函數來判斷缺失情況。


#缺失數據的識別
from?pandas?import?DataFrame
from?pandas?import?read_excel

#有缺失數據
df=read_excel(r'D:python_workspaceanacondarz.xlsx',?sheetname='Sheet2')
df

#識別缺失數據,NaN的就會顯示True。notnull函數正好相反
df.isnull()



rz.xlsx的內容如下

基于python的大數據分析-數據處理(代碼實戰)

缺失數據的處理

對于缺失數據的處理有數據補齊、刪除對應的行、不處理。這里直接擼代碼解釋

#接著上面的繼續,進行數據的處理
#去除數據中值為空的數據行
newdf=df.dropna()
newdf

#用其他數值代替NaN
newdf2=df.fillna('--')
newdf2

#用前一個數據值代替NaN
newdf3=df.fillna(method='pad')
newdf3

#用后一個數據值代替NaN
newdf4=df.fillna(method='bfill')
newdf4

#傳入一個字典對不同的列填充不同的值
newdf5=df.fillna({'數分':100,'高代':99})
newdf5

#用平均數來代替NaN。會自動計算有NaN兩列的數據的平均數
newdf6=df.fillna(df.mean())
newdf6

#還可以使用strip()來去除數據左右的指定字符,這個是python的基礎了,這里不做演示了


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

滦南县| 阳朔县| 大安市| 西安市| 阳曲县| 麻江县| 张家口市| 舒城县| 东莞市| 观塘区| 乌苏市| 成都市| 建德市| 布尔津县| 玉门市| 梓潼县| 晋城| 湛江市| 左权县| 广宁县| 布尔津县| 东平县| 潼南县| 东乡族自治县| 宜黄县| 兖州市| 花莲市| 大名县| 乐陵市| 佛冈县| 南召县| 益阳市| 永新县| 缙云县| 四子王旗| 樟树市| 万安县| 平邑县| 抚顺市| 长阳| 姚安县|