duplicated()
函數在 Pandas 庫中用于檢查 DataFrame 或 Series 中的重復項
以下是 duplicated()
函數的基本用法:
import pandas as pd
data = pd.Series(['A', 'B', 'A', 'C', 'B'])
duplicates = data.duplicated()
print(duplicates)
輸出結果將會是:
0 False
1 False
2 True
3 False
4 True
dtype: bool
import pandas as pd
data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
'Column2': [1, 2, 1, 3, 2]}
df = pd.DataFrame(data)
duplicates = df.duplicated()
print(duplicates)
輸出結果將會是:
0 False
1 False
2 True
3 False
4 True
dtype: bool
你還可以使用 duplicated()
函數的參數來自定義重復項檢測的行為。例如,你可以設置 keep
參數來指定保留哪個重復項。默認情況下,keep
參數設置為 'first'
,表示保留第一個出現的重復項,并將其他重復項標記為 True
。你還可以將 keep
設置為 'last'
,這樣最后一個出現的重復項將被保留。此外,你還可以將 keep
設置為 False
,這樣所有重復項都將被標記為 True
。
例如:
import pandas as pd
data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
'Column2': [1, 2, 1, 3, 2]}
df = pd.DataFrame(data)
duplicates = df.duplicated(keep='last')
print(duplicates)
輸出結果將會是:
0 True
1 True
2 False
3 False
4 False
dtype: bool