Python怎么實現數據分箱技術

發布時間：2021-08-26 14:44:15 來源：億速云閱讀：165 作者：chen 欄目：大數據

本篇內容主要講解“Python怎么實現數據分箱技術”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Python怎么實現數據分箱技術”吧!

1 數據分箱

數據分箱技術在Pandas官方給出的定義：Bin values into discrete intervals，是指將值劃分到離散區間。好比不同大小的蘋果歸類到幾個事先布置的箱子中；不同年齡的人劃分到幾個年齡段中。

這種技術在數據處理時會很有用。

2 例子

我們先來看例子

import numpy as npimport pandas as pd
ages = np.array([5,10,36,12,77,89,100,30,1]) #年齡數據

現把數據劃分成 3 個區間，并打上老、中、青的標簽。Pandas提供了易用的API，很容易就可以實現。

pd.cut(ages, 3, labels=['青','中','老'])

結果如下，一行代碼便實現。

[青, 青, 中, 青, 老, 老, 老, 青, 青]

cut在操作時，統計了一維數組的最小、最大值，得到一個區間長度，因為需要劃分3個區間，所以會得到三個均勻的區間，如下。

pd.cut(ages, 3 )>>>區間如下：Categories (3, interval[float64]): [(0.901, 34.0] < (34.0, 67.0] < (67.0, 100.0]]

給定數據的最小值為1，區間默認是左開右閉，所以為了囊括1，需要將最靠左的區間向左延長0.1%（總區間長度），默認精度為小數點后3位。

3 函數原型

通過以上例子初步認識cut后，再分析cut原型就比較容易。

Python怎么實現數據分箱技術

參數含義如下：

x：被切分的類數組數據，注意必須是1維；

bins：簡單理解為分箱規則，就是桶。支持int 標量、序列；

right：表示是否包含區間的右邊界，默認包含；

labels：分割后的bins打標簽；

retbins：表示是否將分割后的bins返回，默認不返回。如為True，則：

array([   0.901,   34.   ,   67.   ,  100.   ]))

include_lowest：區間的左邊是開還是閉，默認為開；
duplicates：是否允許重復區間。raise：不允許，drop：允許。

到此，相信大家對“Python怎么實現數據分箱技術”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本