91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數據挖掘中的KNN

發布時間:2020-06-29 21:10:47 來源:網絡 閱讀:718 作者:1039972866 欄目:開發技術

  K最近鄰算法是分類問題中經常使用的一種非參數方法。算法的思路清晰簡潔:對于待分類的樣本,找出與其最近的K個樣本(即訓練樣本中的K個)。然后對這K個樣本進行投票,待分樣本與多數樣本的類別一致。

 在該算法中有兩個最主要的問題:1、最近怎么評價?2、到底K等于多少?

 對于第一個問題,我們分三種情況討論:

 A.標稱屬性:如果樣本的屬性值相同,則兩個樣本的距離為0,否則為1。舉例:有兩個樣本,其中有個屬性是性別,如果兩個樣本的性別都是男,則距離為0,若一個為男一個為女,則距離為1。

 B.序數屬性:如考慮學生的成績評定有如下的等級{poor,fair,ok,good,perfect}。我們可以這樣處理,將每個等級映射到從0開始的相繼整數{poor=0,fair=1,ok=2,good=3,perfect=4}。如何兩個學生的成績分別是good和fair,我們可以定義距離distance=3-1=2。

 C.連續屬性:可以用歐氏距離來衡量√∑(〔x-y〕(x-y))。如兩個點(1,2)和(3,4)之間的距離distance = √((1-3)*(1-3) + (2-4)*(2-4)) = √8 = 2√2 .

 假如一個樣本中包含以上三種屬性,我們需要對各屬性做歸一化之后再求距離。或者是選擇其他算法如決策樹、樸素貝葉斯等。

 對于第二個問題,我覺得比較好的辦法就是試探。設立一個確認樣本集,然后試探看看選定哪個K值的效果比較好。當然對于大規模數據這種方法可能不太行,這時工程師的經驗和判斷就顯得尤為重要了。很多資料建議K值在3-10之間,經驗顯示這樣的K值能較好的控制噪聲的干擾。

 K最近鄰算法的特點:a.不需要建立模型(也稱消極學習方法),但是計算開銷很大,每次判斷一個樣本都要計算該樣本到所有訓練樣本的距離。

 b.可以生成任意形狀的邊界,而像決策樹算法只能生成線性的邊界。

 c.適當的距離度量準則非常重要。

 

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

那坡县| 祥云县| 罗定市| 辉南县| 全南县| 天台县| 塔河县| 南投市| 平果县| 临朐县| 东阳市| 马尔康县| 巴东县| 中西区| 重庆市| 花垣县| 卢氏县| 丘北县| 枣强县| 施甸县| 土默特左旗| 普格县| 彩票| 保定市| 临颍县| 玉环县| 武汉市| 醴陵市| 光山县| 舞钢市| 西平县| 乐昌市| 胶州市| 丰镇市| 肃南| 绥德县| 合作市| 舒城县| 黑河市| 手机| 合川市|