您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何理解PCA算法過程,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
前言
PCA,即主成分分析,是一種數據降維的方法,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標,降低數據維數,從而實現提升數據處理速度的目的。
流程
1.數據標準化處理。
先按列計算數據集X的均值Xmean,然后Xnew=X?XmeanXnew=X?Xmean進行歸一化處理。
2.求解矩陣Xnew的協方差矩陣。
3. 計算協方差矩陣的特征值和相應的特征向量。
4.將特征值按照從大到小的排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣。
5.計算降維后的數據集,即將歸一化的數據集投影到選取的特征向量矩陣上,這樣就得到了我們需要的已經降維的數據集。
個人理解
PCA算法的核心降維其實就是把高維的數據選取一組組基底(即協方差矩陣計算出特征向量)進行分解,這個基底要讓高維分解的數據盡量包含更多的信息(方差:數據更分散;協方差:線性無關),畢竟高維數據變成低維數據肯定要損失一些信息,我們要讓它的損失降到最小。我們選取包含更多信息的基底可得到對樣本起決定性作用最大的前K個特征(特征矩陣)。最后我們只需要把測試的樣本進行降維操作(投影)后和一個個降維后人臉樣本(投影)進行做差,若差值小于某個我們設定的數值(閾值),我們則可以認為是同一個人臉。
優缺點
1.優點
1)它是無監督學習,無參數限制的。
2)PCA對數據降維的同時也對新求出的特征值進行排序,根據所設置的閾值進行根據重要性程度的排列,可以達到在降維的同時最大程度保留原有信息。
3)各個主成分之間正交,無原始數據之間的互相影響。
2.缺點
1)貢獻率小的成分有時含有樣本的重要信息。
2)如果我們對所識別對象有一定認識,掌握了一些特征,無法通過參數的設置來干預。
3)非高斯分布的情況下,PCA方法得出的主元可能不是最優的。
關于如何理解PCA算法過程就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。