您好,登錄后才能下訂單哦!
這篇“python如何利用pd.cut()和pd.qcut()對數據進行分箱操作”文章的知識點大部分人都不太理解,所以小編給大家總結了以下內容,內容詳細,步驟清晰,具有一定的借鑒價值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“python如何利用pd.cut()和pd.qcut()對數據進行分箱操作”文章吧。
假如我們有一組學生成績,我們需要將這些成績分為不及格(0-59)、及格(60-70)、良(71-85)、優(86-100)這幾組。這時候可以用到cut()
import numpy as np import pandas as pd # 我們先給 scores傳入30個從0到100隨機的數 scores = np.random.uniform(0,100,size=30) # 然后使用 np.round()函數控制數據精度 scores = np.round(scores,1) # 指定分箱的區間 grades = [0,59,70,85,100] cuts = pd.cut(scores,grades) print('\nscores:') print(scores) print('\ncuts:') print(cuts) # 我們還可以計算出每個箱子中有多少個數據 print('\ncats.value_counts:') print(pd.value_counts(cuts)) ======output:====== scores: [ 6. 50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4 63.4 21.3 17.2 3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81. 82. 70.2 54.1] cuts: [(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]] Length: 30 Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]] cuts.value_counts: (0, 59] 17 (70, 85] 8 (59, 70] 4 (85, 100] 1 dtype: int64
默認情況下,cat()的區間劃分是左開右閉,可以傳遞right=False來改變哪一邊是封閉的
代碼示例:
cuts = pd.cut(scores,grades,right=False)
也可以通過向labels選項傳遞一個列表或數組來傳入自定義的箱名
代碼示例:
group_names = ['不及格','及格','良','優秀'] cuts = pd.cut(scores,grades,labels=group_names)
當我們不需要自定義劃分區間時,而是需要根據數據中最大值和最小值計算出等長的箱子。
代碼示例:
# 將成績均勻的分在四個箱子中,precision=2的選項將精度控制在兩位 cuts = pd.cut(scores,4,precision=2)
代碼示例:
import numpy as np import pandas as pd # 正態分布 data = np.random.randn(100) # 分四個箱子 cuts = pd.qcut(data,4) print('\ncuts:') print(cuts) print('\ncuts.value_counts:') print(pd.value_counts(cuts)) ======output:====== cuts: [(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]] Length: 100 Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] < (0.889, 2.834]] cuts.value_counts: (0.889, 2.834] 25 (-0.0723, 0.889] 25 (-0.745, -0.0723] 25 (-3.1599999999999997, -0.745] 25 dtype: int64
以上就是關于“python如何利用pd.cut()和pd.qcut()對數據進行分箱操作”這篇文章的內容,相信大家都有了一定的了解,希望小編分享的內容對大家有幫助,若想了解更多相關的知識內容,請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。