您好,登錄后才能下訂單哦!
這篇文章的內容主要圍繞Apriori算法怎么理解進行講述,文章內容清晰易懂,條理清晰,非常適合新手學習,值得大家去閱讀。感興趣的朋友可以跟隨小編一起閱讀吧。希望大家通過這篇文章有所收獲!
1. Apriori算法的目的:
主要是用來挖掘關聯規則,即從一個事務數據集中發現頻繁項集并推出關聯規則,其名字是因為算法基于先驗知識(prior knowledge).根據前一次找到的頻繁項來生成本次的頻繁項。Apriori是關聯分析中核心的算法。
Apriori算法的特點:
只能處理分類變量,無法處理數值型變量;
數據存儲可以是交易數據格式(事務表),或者是事實表方式(表格數據)。
算法核心在于提升關聯規則產生的效率而設計的。
2. 新概念:
項集:(例如所有的商品)為一個項集,則每一個事務t(例如購買小票上的商品)都是一個項集。
支持度: 項集的支持度是指包含該項集的事務所占所有事務的比例。
頻繁項集:就是指滿足給定的最小支持度的項集。
關聯規則:X->Y 是指由X能推出Y
置信度: 對于X->Y的置信度表示p(X,Y)/p(X); 即項集X事務中也包含項集Y的事務所占的比例
3. Apriori的思想:
我們希望置信度和支持度要滿足我們的閾值范圍才算是有效的規則,實際過程中我們往往會面臨大量的數據,如果只是簡單的搜索,會出現很多的規則,相當大的一部分是無效的規則,效率很低,那么Apriori就是通過產生頻繁項集,然后再依據頻繁項集產生規則,進而提升效率。
以上所說的代表了Apriori算法的兩個步驟:產生頻繁項集和依據頻繁項集產生規則。
為什么確定頻繁項集?
剛才說了,必須支持度大于我們指定的支持度,這也就是說能夠確定后面生成的規則是在普遍代表性上的項目集生成的,因為支持度本身的高低就代表了我們關聯分析結果是否具有普遍性。
感謝你的閱讀,相信你對“Apriori算法怎么理解”這一問題有一定的了解,快去動手實踐吧,如果想了解更多相關知識點,可以關注億速云網站!小編會繼續為大家帶來更好的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。