您好,登錄后才能下訂單哦!
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。
機器學習有哪些算法?本文將為大家盤點十大經典機器學習算法,其中包括了支持向量機、人工神經網絡、邏輯回歸、樸素貝葉斯、決策樹、K- 均值、K- 最近鄰算法、隨機森林、線性回歸和降維。當然盤點的目的,并不是要把這些機器學習算法進行一個排名對比,畢竟算法之間并沒有優劣之分,每個算法都有自己的使用的場景。下面我們就來具體分析一下機器學習的十大算法。
1、支持向量機
支持向量機是一種用于分類問題的監督算法。支持向量機試圖在數據點之間繪制兩條線,它們之間的邊距最大。為此,我們將數據項繪制為n維空間中的點,其中,n是輸入特征的數量。在此基礎上,支持向量機找到一個最優邊界,稱為超平面(Hyperplane),它通過類標簽將可能的輸出進行最佳分離。超平面與最近的類點之間的距離稱為邊距。最優超平面具有最大的邊界,可以對點進行分類,從而使最近的數據點與這兩個類之間的距離最大化。
2、人工神經網絡
人工神經網絡可以處理大型復雜的機器學習任務。神經網絡本質上是一組帶有權值的邊和節點組成的相互連接的層,稱為神經元。在輸入層和輸出層之間,我們可以插入多個隱藏層。人工神經網絡使用了兩個隱藏層。除此之外,還需要處理深度學習。人工神經網絡的工作原理與大腦的結構類似。一組神經元被賦予一個隨機權重,以確定神經元如何處理輸入數據。通過對輸入數據訓練神經網絡來學習輸入和輸出之間的關系。在訓練階段,系統可以訪問正確的答案。如果網絡不能準確識別輸入,系統就會調整權重。經過充分的訓練后,它將始終如一地識別出正確的模式。
3、邏輯回歸
邏輯回歸與線性回歸類似,但它是用于輸出為二進制的情況(即,當結果只能有兩個可能的值)。對最終輸出的預測是一個非線性的S型函數,稱為 logistic function, g()。這個邏輯函數將中間結果值映射到結果變量 Y,其值范圍從0到1。然后,這些值可以解釋為 Y 出現的概率。S型邏輯函數的性質使得邏輯回歸更適合用于分類任務。
4、樸素貝葉斯
樸素貝葉斯是基于貝葉斯定理,應用最為廣泛的分類算法之一。對于給定的訓練數據集,首先基于特征條件獨立假設學習輸入/輸出的聯合概率分布;然后基于此模型,對給定的輸入 xx ,利用貝葉斯定理求出后驗概率最大的輸出 yy 。
5、決策樹
決策樹可用于回歸和分類任務。在這一算法中,訓練模型通過學習樹表示(Tree representation)的決策規則來學習預測目標變量的值。樹是由具有相應屬性的節點組成的。在每個節點上,我們根據可用的特征詢問有關數據的問題。左右分支代表可能的答案。最終節點(即葉節點)對應于一個預測值。每個特征的重要性是通過自頂向下方法確定的。節點越高,其屬性就越重要。
6、K- 均值
K- 均值(K-means)是通過對數據集進行分類來聚類的。例如,這個算法可用于根據購買歷史將用戶分組。它在數據集中找到 K 個聚類。K- 均值用于無監督學習,因此,我們只需使用訓練數據 X,以及我們想要識別的聚類數量 K。該算法根據每個數據點的特征,將每個數據點迭代地分配給 K 個組中的一個組。它為每個 K- 聚類(稱為質心)選擇 K 個點。基于相似度,將新的數據點添加到具有最近質心的聚類中。這個過程一直持續到質心停止變化為止。
7、K- 最近鄰算法
K- 最近鄰算法(K-Nearest Neighbors,KNN)非常簡單。KNN 通過在整個訓練集中搜索 K 個最相似的實例,即 K 個鄰居,并為所有這些 K 個實例分配一個公共輸出變量,來對對象進行分類。K 的選擇很關鍵:較小的值可能會得到大量的噪聲和不準確的結果,而較大的值是不可行的。它最常用于分類,但也適用于回歸問題。用于評估實例之間相似性的距離可以是歐幾里得距離、曼哈頓距離或明氏距離。歐幾里得距離是兩點之間的普通直線距離。它實際上是點坐標之差平方和的平方根。
8、隨機森林
隨機森林(Random Forest)是一種非常流行的集成機器學習算法。這個算法的基本思想是,許多人的意見要比個人的意見更準確。在隨機森林中,我們使用決策樹集成。為了對新對象進行分類,我們從每個決策樹中進行投票,并結合結果,然后根據多數投票做出最終決定。
9、線性回歸
線性回歸算得上是最流行的機器學習算法,它是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,目前線性回歸的運用十分廣泛。線性回歸就是要找一條直線,并且讓這條直線盡可能地擬合散點圖中的數據點。它試圖通過將直線方程與該數據擬合來表示自變量(x 值)和數值結果(y 值)。然后就可以用這條線來預測未來的值!這種算法最常用的技術是最小二乘法。這個方法計算出最佳擬合線,以使得與直線上每個數據點的垂直距離最小。總距離是所有數據點的垂直距離(綠線)的平方和。其思想是通過最小化這個平方誤差或距離來擬合模型。
10、降維
由于我們今天能夠捕獲的數據量之大,機器學習問題變得更加復雜。這就意味著訓練極其緩慢,而且很難找到一個好的解決方案。這一問題,通常被稱為“維數災難”。降維試圖在不丟失最重要信息的情況下,通過將特定的特征組合成更高層次的特征來解決這個問題。主成分分析是最流行的降維技術。主成分分析通過將數據集壓縮到低維線或超平面 / 子空間來降低數據集的維數。這盡可能地保留了原始數據的顯著特征。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。