您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關大數據多重共線性問題該如何解決,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
在進行線性回歸分析時,容易出現自變量(解釋變量)之間彼此相關,這種情況被稱作多重共線性問題。
適度的多重共線性不成問題,但當出現嚴重共線性問題時,可能導致分析結果不穩定,出現回歸系數的符號與實際情況完全相反的情況。
本應該顯著的自變量不顯著,本不顯著的自變量卻呈現出顯著性,這種情況下就需要消除多重共線性的影響。
共線性出現的原因
多重共線性問題就是說一個解釋變量的變化引起另一個解釋變量地變化。
原本自變量應該是各自獨立的變量,這樣根據檢驗結果,就能得知哪些因素對因變量Y有顯著影響,哪些沒有影響。如果各個自變量x之間有很強的線性關系,就無法固定其他變量,也就找不到x和y之間真實的關系了。
除此以外,多重共線性的原因還可能包括:
數據不足。在某些情況下,收集更多數據可以解決問題。
錯誤地使用虛擬變量。(比如,同時將男、女兩個虛擬變量都放入模型,此時必定出現共線性,稱為完全共線性)
共線性的判別指標
1.vif值
有多種方法可以檢測多重共線性,較常使用的是回歸分析中的VIF值,VIF值越大,多重共線性越嚴重。一般認為VIF大于10時(嚴格是5),代表模型存在嚴重的共線性問題。
2.容差值
也有時候會以容差值作為標準,容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴格是大于0.2),VIF和容差值有邏輯對應關系,兩個指標任選其一即可。
3.相關系數
除此之外,直接對自變量進行相關分析,查看相關系數和顯著性也是一種判斷方法。如果一個自變量和其他自變量之間的相關系數顯著,則代表可能存在多重共線性問題。
多重共線性處理方法
多重共線性是普遍存在的,通常情況下,如果共線性情況不嚴重(VIF<5),不需要做特別的處理。如存在嚴重的多重共線性問題,可以考慮使用以下幾種方法處理:
1. 手動移除出共線性的變量
先做下相關分析,如果發現某兩個自變量X(解釋變量)的相關系數值大于0.7,則移除掉一個自變量(解釋變量),然后再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變量從模型中剔除,這樣就要考慮使用其他方法。
2. 逐步回歸法
讓軟件自動進行自變量的選擇剔除,逐步回歸會將共線性的自變量自動剔除出去。此種解決辦法有個問題是,可能算法會剔除掉本不想剔除的自變量,如果有此類情況產生,此時最好是使用嶺回歸進行分析。
使用路徑:進階方法>逐步回歸
3. 增加樣本容量
增加樣本容量是解釋共線性問題的一種辦法,但在實際操作中可能并不太適合,原因是樣本量的收集需要成本時間等。
4. 嶺回歸
上述第1和第2種解決辦法在實際研究中使用較多,但問題在于,如果實際研究中并不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時可能只有嶺回歸最為適合了。嶺回歸是當前解決共線性問題最有效的解釋辦法。
使用路徑:進階方法>嶺回歸
其他說明
1. 多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施,如果VIF值大于10說明共線性很嚴重,這種情況需要處理,如果VIF值在5以下不需要處理,如果VIF介于5~10之間視情況而定。
2. 如果模型僅用于預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用于預測時,往往不影響預測結果。
以上就是大數據多重共線性問題該如何解決,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。