您好,登錄后才能下訂單哦!
這篇文章主要介紹“梯度提升決策樹GBDT的方法是什么”,在日常操作中,相信很多人在梯度提升決策樹GBDT的方法是什么問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”梯度提升決策樹GBDT的方法是什么”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
G-B-D-T梯度提升決策樹,顧名思義,是一個與梯度有關、對決策樹進行了提升的機器學習模型。我們不妨從后往前依次聊聊GBD這幾個定語,從而理解這個模型的精髓。
DT(Decision Tree)決策樹。 T自不必多說,作為一種常見的數據結構出現在各種算法當中。DT決策樹,有分類樹與回歸樹兩種,之前文章中講到了分類樹,可參見 與 。回歸樹原理機制與分類樹相似,區別在于分類樹只有在葉子結點返回唯一分類,而回歸樹的每個節點都能返回預測值,通常為當前節點下所有樣本的均值。
B(Boosting)提升。即在原來模型的基礎之上做進一步提升,提升決策樹BDT的基本思想是采用多棵決策樹串行建模。具體過程為,對于第一棵樹之后的每一棵決策樹,都基于前一棵決策樹的輸出進行二次建模,整個串行建模過程相當于對預測結果朝目標值進行修正。
G(Gradient)梯度。梯度的大小反映了當前預測值與目標值之間的距離。因此,上面B所述的串行決策樹模型,除開第一棵決策樹使用原始預測指標建樹,之后的每一棵決策樹都用前一棵決策樹的預測值與目標值計算出來的負梯度(可以理解為殘差或者增量)來建樹。這相當于給分錯的樣本加權多次分類,使樣本最終的殘差趨近于0。除開第一棵樹的其他樹,由于都是對目標的殘差或增量進行建模預測,因此GBDT模型只需把過程中每一棵決策樹的輸出結果累加,便可得到最終的預測輸出。
這里借用網上流傳較廣的一個預測年齡的例子來描述GBDT的過程。一共4個樣本:
A(消費較高、經常被學弟問問題)27歲
B(消費較高、經常問學長問題)23歲
C(消費較低、經常被學弟問問題)17歲
D(消費較低、經常問學長問題)13歲
串行決策樹構建如下圖所示。可知模型擬合情況,A的年齡為25 + 2 = 27歲,B的年齡為25 - 2 = 23歲,C為15 +2 = 17歲,D為15 - 2 = 13歲。
綜上,一句話概括GBDT的核心思想就是:串行訓練n(n > 2)棵決策樹,其中第i(1 < i ≤ n)棵樹學習第i - 1棵樹的負梯度(可理解為殘差或增量),n棵樹的輸出結果累加作為最終輸出結果。
優點:
1.在預測階段的計算快速,樹與樹之間可以并行化計算
2.在分布稠密的數據集上,泛化能力和表達能力都很好。
3.采用決策樹作為弱分類器使得GBDT模型具有較好的解釋性和魯棒性,能夠自動發現特征間的高階關系,并且也不需要對數據進行特殊的預處理。
局限性:
1.GBDT在高維稀疏的數據集上,表現不如SVM或者神經網絡
2.GBDT在處理文本分類特征問題上,相對其他模型的優勢不如在處理數值特征時明顯。
3.訓練過程需要串行訓練,只能在決策樹內部采用一些局部并行的手段提高訓練速度。
到此,關于“梯度提升決策樹GBDT的方法是什么”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。