您好,登錄后才能下訂單哦!
這篇文章主要介紹了pandas的get_dummies()與factorize()怎么使用的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇pandas的get_dummies()與factorize()怎么使用文章都會有所收獲,下面我們一起來看看吧。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables
>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable
Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable
Pandas有一個方法叫做factorize(),它可以創建一些數字,來表示類別變量,對每一個類別映射一個ID,這種映射最后只生成一個特征,不像dummy那樣生成多個特征。
Parameters: | sort : boolean, default False
na_sentinel: int, default -1
|
---|---|
Returns: | labels : the indexer to the original array uniques : the unique Index |
labels:對應的編碼array
uniques:需要編碼的類型
補充:pandas.get_dummies 的使用及含義
get_dummies參數如下:
pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )
data
: array-like,Series或DataFrame
prefix
:string,字符串列表或字符串dict,默認為None,
用于追加DataFrame列名的字符串。在DataFrame上調用get_dummies時,傳遞一個長度等于列數的列表。或者,前綴 可以是將列名稱映射到前綴的字典。
prefix_sep
: string,默認為'_'
如果附加前綴,分隔符/分隔符要使用。或者傳遞與前綴一樣的列表或字典。
dummy_na
: bool,默認為False
如果忽略False NaN,則添加一列以指示NaN。
columns
: 類似列表,默認為無
要編碼的DataFrame中的列名稱。如果列是None,那么所有與列 對象或類別 D型細胞將被轉換。
sparse
: bool,默認為False
偽編碼列是否應由SparseArray(True)或常規NumPy數組(False)支持。
drop_first
: bool,默認為False
是否通過刪除第一級別從k分類級別獲得k-1個假人。
版本0.18.0中的新功能。
dtype
: D型,默認np.uint8
新列的數據類型。只允許一個dtype。
版本0.23.0中的新功能。
關于“pandas的get_dummies()與factorize()怎么使用”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“pandas的get_dummies()與factorize()怎么使用”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。