您好,登錄后才能下訂單哦!
本文小編為大家詳細介紹“python重復值如何處理”,內容詳細,步驟清晰,細節處理妥當,希望這篇“python重復值如何處理”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。
今天,先處理重復值,首先創建一個包含重復值的DataFrame,如下:
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b']) print(data)
我們將其打印出來,結果如下:
可以看出來第一第二行是重復的,這里的數據量比較少,可以直接肉眼觀察,但如果數據量多的時候,我們就需要用到diplicated()函數來查詢了,我們用它來查查上面data的重復值。
data[data.duplicated()]
我們可以看出,它把索引為1的行打印了出來,如果有3行一樣的呢?我們下面來試試!
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b']) data[data.duplicated()]
其結果如下:
可以看出,重復項出了第一個出現的數據外,都會顯示出來。
如果想統計出一共有多少行重復了,我們就可以用到sum()函數,代碼如下:
data.duplicated().sum()
很多情況下,我們都需要刪除掉重復的數據,這時候我們就可以用到drop_duplicated()函數,我們將data的重復行刪除掉試試!
data.drop_duplicated()
剛執行代碼時發生了錯誤,原來是duplicates而不是duplicated!
但是要注意,用drop_duplicates()刪除重復項并不會影響data的結構,如果你要把data結構改掉就要重新賦值。如果要用來刪除某列的重復值的話,直接在括號內加上列名即可。
如下:
讀到這里,這篇“python重復值如何處理”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。