您好,登錄后才能下訂單哦!
這篇文章給大家介紹大數據中的貝葉斯法則是怎樣的,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
貝葉斯法則可能是概率論中最有生命力的一個公式。它可以用來計算條件概率或者主觀概率。
貝葉斯法則的思想非常簡單:隨機事件發生的概率隨著相關條件的發生而改變,一個命題真假的信念即主觀概率隨著相關證據的發現而改變。當正相關條件發生時,條件概率上調,當負相關條件發生時,條件概率下調。當有利證據發現時,主觀概率上調,當不利證據發現時,主觀概率下調。
然而,貝葉斯法則具有非常深刻的哲學意義和廣泛的應用價值。哲學家們用它來解決休謨歸納問題;生命科學家用它來研究基因是如何被控制的;教育學家突然意識到,學生的學習過程正是貝葉斯法則的運用;基金經理用貝葉斯法則找到投資策略;Google用貝葉斯法則改進搜索功能;人工智能,機器翻譯中大量用到貝葉斯法則……
小編將通過公式推演和3個簡單的范例,帶領大家讀懂貝葉斯法則并領略其獨特的魅力。
條件概率P(A|B)表示隨機事件B發生的前提下隨機事件A發生的概率。條件概率P(A|B)也被稱為后驗概率,P(A)是其對應的先驗概率。
以下為第1個應用舉例:
HIV攜帶檢測
假設艾滋病毒HIV在人群中的攜帶比率為0.01%,目前檢測它的醫學技術非常高超,如果一個人真的攜帶有HIV,那么血液檢測有99.9%的概率為陽性,即檢測出來的概率很高。如果一個人不攜帶有HIV,那么血液檢測只有0.01%的概率為陽性,即冤枉一個正常人的概率很低。現在從街頭上隨機找個人給他做檢查,發現檢測結果不妙,是HIV陽性,那么他真的攜帶有HIV病毒的概率為多大?
從這個例子中,我們發現如果一個事件發生的先驗概率很低,那么即使出現了非常有力的證據,這個事件發生的后驗概率也不一定會很高。
在實際應用貝葉斯法則的時候,通常會存在許多的條件,而不是單個條件。此時為了簡化問題,我們有時候會做一個非常天真的假設,即這些條件事件之間是相互獨立的,這時候我們會得到樸素貝葉斯方法。
以下是第2個應用范例:
垃圾郵件識別
假設現在收到一封郵件,內容如下:
"東南亞7日游,只要6999。"
那么這封郵件是否是一封垃圾郵件呢?為了用算法對垃圾郵件進行分類,我們對100000封郵件進行了標注,其中正常郵件有80000封,垃圾郵件有20000封。我們把收到的這封郵件進行分詞處理,得到"東南亞"、"7日游","只要","6999"這4個詞。統計它們在已標注郵件中出現的次數如下。
現在利用樸素貝葉斯方法,我們可以計算這封郵件是否為垃圾郵件的概率了。
于是,這封郵件有0.96的概率是一封垃圾郵件。
在對多條件下的后驗概率進行展開時,除了運用樸素貝葉斯假設外,我們還可以使用另外一種迭代的方法。
當存在更多的條件時,可以繼續按照這個模式展開。以上展開表達式和各個條件事件的迭代順序無關。下面是一個簡單的證明。
利用這種迭代展開式,我們可以構造一種貝葉斯排序模型,對諸多信息進行加工,生成主觀概率。
以下為第3個應用范例:
貝葉斯排序模型
有兩個同類別商品A和B,A有1個五星好評,B有5個五星好評和1個四星好評,那么你覺得這兩個商品哪個更好一些呢?
有的同學會覺得商品A更好一些,因為A的平均星級就是5,而B的平均星級為4.83。
另外一些同學會覺得B更好一些,因為B有更多的五星好評,可靠性更大。
實際上我們在對商品的諸多評論信息加工出一個對商品的整體評價時,使用的就是貝葉斯公式。
在沒有任何信息的前提下,我們假設一個商品為非常棒的商品的概率為0.5。
并且我們假設,一個非常棒的商品獲得各個星級的評價的概率分別如下,即我們假設非常棒的商品傾向于獲得較高的評級。
一個不是非常棒的商品獲得各個星級的評價的概率分別如下,即我們假設不是非常棒的商品傾向于獲得較低的評級。
迭代計算如下。
于是我們得出結論:B商品更好。
關于大數據中的貝葉斯法則是怎樣的就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。