91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么使用Python?pandas找出刪除重復的數據

發布時間:2022-07-12 09:57:15 來源:億速云 閱讀:207 作者:iii 欄目:開發技術

這篇文章主要介紹了怎么使用Python pandas找出刪除重復的數據的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇怎么使用Python pandas找出刪除重復的數據文章都會有所收獲,下面我們一起來看看吧。

前言

當我們使用pandas處理數據的時候,經常會遇到數據重復的問題,如何找出重復數據進而分析重復原因,或者如何直接刪除重復的數據是一個關鍵的步驟,pandas提供了很方便的方法:duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三種情況下,分別是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他們的用法都類似,前兩個會返回一個布爾值的Series,最后一個會返回一個布爾值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset:默認為None,需要標記重復的標簽或標簽序列

keep:默認為‘first’,如何標記重復標簽

  • first:將除第一次出現以外的重復數據標記為True

  • last:將除最后一次出現以外的重復數據標記為True

  • False:將所有重復的項都標記為True(不管是不是第一次出現)

Series.duplicated(keep=‘first’)

keep:與DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep:與DataFrame.duplicated的keep相同

例子:

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0 

df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(keep='last')

0     True
1    False
2    False
3    False
4    False
dtype: bool

df.duplicated(keep=False)

0     True
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

關于Index的重復標記:

df = df.set_index('brand')
df

        style  rating
brand                
Yum Yum   cup     4.0
Yum Yum   cup     4.0
Indomie   cup     3.5
Indomie  pack    15.0
Indomie  pack     5.0

df.index.duplicated()
array([False,  True, False,  True,  True])

二、drop_duplicates()

與duplicated()類似,drop_duplicates()是直接把重復值給刪掉。下面只會介紹一些含義不同的參數。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • subset:與duplicated()中相同

  • keep:與duplicated()中相同

  • inplace:與pandas其他函數的inplace相同,選擇是修改現有數據還是返回新的數據

Series.drop_duplicates()相比Series.duplicated()也是多了一個inplace參數,和上訴介紹一樣,Index.drop_duplicates()與Index.duplicated()參數相同就不做贅述。下面是例子:

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates()

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates(inplace = True)

df

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

關于“怎么使用Python pandas找出刪除重復的數據”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“怎么使用Python pandas找出刪除重復的數據”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

布拖县| 绥江县| 克什克腾旗| 蒙山县| 抚松县| 景德镇市| 永州市| 河池市| 武定县| 金昌市| 阳曲县| 宁河县| 美姑县| 咸宁市| 玉环县| 手机| 桑日县| 三原县| 怀集县| 溧水县| 左贡县| 即墨市| 静宁县| 松原市| 新邵县| 绥德县| 北辰区| 永年县| 庐江县| 湘潭市| 忻城县| 深水埗区| 阿勒泰市| 顺义区| 滁州市| 鄂托克旗| 和平区| 张掖市| 象州县| 孟州市| 阳原县|