pandas根據列去重的方法是使用drop_duplicates()
函數。該函數能夠返回一個新的DataFrame,其中的重復值已經被刪除。
具體用法如下:
df.drop_duplicates(subset=[列名], keep='first', inplace=True)
subset
參數用于指定要檢查重復的列名或列名列表。默認情況下,該參數為None
,表示檢查所有列。keep
參數用于指定保留哪一個重復值。可選值有first
、last
和False
。默認為first
,表示保留第一個出現的重復值;last
表示保留最后一個出現的重復值;False
表示刪除所有重復值。inplace
參數用于指定是否在原DataFrame上進行修改。默認為False
,表示返回刪除重復值后的新DataFrame;若設置為True
,則在原DataFrame上進行修改,并返回None
。示例:
import pandas as pd
# 創建一個包含重復值的DataFrame
data = {'A': [1, 2, 2, 3, 4, 4],
'B': ['a', 'b', 'b', 'c', 'd', 'd']}
df = pd.DataFrame(data)
# 根據列'A'去重
df.drop_duplicates(subset=['A'], keep='first', inplace=True)
print(df)
輸出結果:
A B
0 1 a
1 2 b
3 3 c
4 4 d
在上述示例中,根據列’A’去重后,保留了第一個出現的重復值。