您好,登錄后才能下訂單哦!
大數據中共線性的解決方法是什么,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
導語
在進行線性回歸分析時,自變量即解釋變量很容易出現共線性問題。當出現共線性問題時,可能導致回歸系數的符號與實際情況完全相反,本應該顯著的自變量不顯著,本不顯著的自變量卻呈現出顯著性;共線性問題會導致數據研究出來嚴重偏差甚至完全相反的結論,因而需要解決此問題。
多重共線性問題就是說一個解釋變量的變化引起另一個解釋變量地變化。如果各個自變量x之間有很強的線性關系,就無法固定其他變量了,就找不到x和y之間真實的關系了。
通俗地講共線性是指,自變量X(解釋變量)影響因變量Y(被解釋變量)的時候,多個X之間本身就存在很強的相關關系,即X之間有著比較強的替代性,因而導致共線性問題。
回歸分析時,直接查看VIF值,如果全部小于10(嚴格是5),則說明模型沒有多重共線性問題,模型構建良好;反之若VIF大于10說明模型構建較差。
也可以直接做相關分析,如果某兩個自變量X(解釋變量)的相關系數值大于0.7,也有可能出現很強的共線性問題。
共線性問題共有以下五種解決辦法。
1. 手動移除出共線性的自變量
先做下相關分析,如果發現某兩個自變量X(解釋變量)的相關系數值大于0.7,則移除掉一個自變量(解釋變量),然后再做回歸分析。但此種辦法有一個小問題,即有的時候根本就不希望把某個自變量從模型中剔除,如果有此類情況,可考慮使用逐步回歸讓軟件自動剔除,同時更優的辦法可能是使用嶺回歸進行分析。
2. 逐步回歸法
讓軟件自動進行自變量的選擇剔除,逐步回歸會將共線性的自變量自動剔除出去。此種解決辦法有個問題是,可能算法會剔除掉本不想剔除的自變量,如果有此類情況產生,此時最好是使用嶺回歸進行分析。
3. 增加樣本容量
增加樣本容量是解釋共線性問題的一種辦法,但在實際操作中可能并不太適合,原因是樣本量的收集需要成本時間等。
4. 嶺回歸
上述第1和第2種解決辦法在實際研究中使用較多,但問題在于,如果實際研究中并不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時可能只有嶺回歸最為適合了。嶺回歸是當前解決共線性問題最有效的解釋辦法,但是嶺回歸的分析相對較為復雜。
5. 利用因子分析合并變量
共線性問題的解釋辦法是,理論上可以考慮使用因子分析(或者主成分分析),利用數學變換,將數據降維提取成幾個成分,即把信息進行濃縮,最后以濃縮后的信息作為自變量(解釋變量)進入 模型進行分析。此種解釋辦法在理論上可行,而且有效。但實際研究中會出現一個問題,即本身研究的X1,X2,X3等,進行了因子分析(或主成分)后,變成成分1,成分2類似這樣的了,意義完全與實際研究情況不符合,這導致整個研究的思路也會變換,因而此種辦法適用于探索性研究時使用,而不適合實際驗證性研究。
1. 多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施,如果VIF值大于10說明共線性很嚴重,這種情況需要處理,如果VIF值在5以下不需要處理,如果VIF介于5~10之間視情況而定。
2. 嚴重的多重共線性問題,一般可根據經驗或通過分析回歸結果發現。如影響系數符號,重要的解釋變量t值很低。要根據不同情況采取必要措施。
3. 如果模型僅用于預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用于預測時,往往不影響預測結果。
看完上述內容,你們掌握大數據中共線性的解決方法是什么的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。