您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“Pandas數據離散化的示例分析”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“Pandas數據離散化的示例分析”這篇文章吧。
為什么要離散化
連續屬性離散化的目的是為了簡化數據結構,數據離散化技術可以用來減少給定連續屬性值的個數。離散化方法經常作為數據挖掘的工具
扔掉一些信息,可以讓模型更健壯,泛化能力更強
什么是數據的離散化
連續屬性的離散化就是在連續屬性的值域上,將值域劃分為若干個離散的區間,最后用不同的符號或整數 值代表落在每個子區間中的屬性值
分箱
案例
1.先讀取股票的數據,篩選出p_change數據
data = pd.read_csv("./data/stock_day.csv") p_change= data['p_change']
2.將股票漲跌幅數據進行分組
使用的工具:
pd.qcut(data, bins)——等深分箱:
對數據進行分組將數據分組 一般會與value_counts搭配使用,統計每組的個數
series.value_counts():統計分組次數
# 自行分組 qcut = pd.qcut(p_change, 10) # 計算分到每個組數據個數 qcut.value_counts()
自定義區間分組:
pd.cut(data, bins)——等寬分箱:
bins是整數—等寬
bins是列表--自定義分箱
# 自己指定分組區間 bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100] p_counts = pd.cut(p_change, bins)
以上是“Pandas數據離散化的示例分析”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。