貝葉斯定理法官隨機赦免一人
A. 貝葉斯公式
最近因為聽播客,對概率學產生了極大的興趣的。
吐槽一下:沒想到我一個從高中開始就不願意學數學的人會有對概率學產生興趣的一天。不過話說回來,如果當初的數學老師把那些理論結合到生活實例上的話,我想我不會如此厭棄數學。畢竟我從高中開始不喜歡數學的原因就是「學這跟我的生活有什麼關系,我買菜需要用代數、微積分嗎」
思考題:胡潤富豪榜國內上榜人士半數沒有高學歷,所以讀書無用嗎?
你覺得這句話有道理嗎?
接下來先了解一下貝葉斯公式,然後我們再來討論這道題。
貝葉斯定理是關於 隨機 事件A和B的 條件概率 (或 邊緣概率 )的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。
再來一個比較直觀的,
經典例子:
兩個一模一樣的碗,一號碗有30顆水果糖和10顆巧克力糖,二號碗有水果糖和巧克力糖各20顆。現在隨機選擇一個碗,從中摸出一顆糖,發現是水果糖。請問這顆水果糖來自一號碗的概率有多大?
首先分清楚現象和規律。
拿出來1顆糖,可能是水果糖,也可能是巧克力糖,這是兩個現象。
這顆糖,可能是從1號碗來的,也可能是從2號碗來的,這是兩個規律。
所以組合之後,有4種情況: 1號碗水果糖0.75 ,1號碗巧克力糖0.25, 2號碗水果糖0.5 ,2號碗巧克力糖0.5。
套用公式:P(從一號碗來規律|水果糖現象)=P(水果糖現象|從一號碗來規律) P(從一號碗來規律)/P(水果糖現象)=0.75* 0.5/0.625=0.6。
最終得出:這顆水果糖來自1號碗的概率是0.6
回到上面那個思考題,首先由題目可知:無論有沒有高學歷進入胡潤富豪榜的概率都是0.5。
以上面的例子來打比方,進入富豪榜和未進入富豪榜的分別為水果糖和巧克力糖,高學歷的是1號碗,低學歷的是2號碗,這兩個碗進入富豪榜的概率都是0.5。
But,這個進入富豪榜的0.5在原先的兩個碗里所在的比例是完全不一樣的!這顆水果糖想要被選中,那它在1號碗的概率是0.75,而在2號碗的概率則只有0.5。
雖然總數不變,但是對於個體來說,這個概率上的不同所帶來的的差距卻是天翻地覆的。
題目所在的年份,整體環境,根據國家統計局頒布的《2010年第六次全國人口普查主要數據公報》,得知中國大陸:
具有大學(指大專以上)文化程度的人口為119636790人 ; 而當年中國人口是134091萬人,
計算得大專以上的人口比例為8.9%
其中本科生的比例更低,僅有2.7%
也就是說,僅占總人口2.7%的本科以上的高學歷人口,占據了進入富豪榜總人數的50%。對於個體來說,如果你想要實現進入胡潤富豪榜的目標,那麼你在高學歷碗里的成功率遠遠高於你在低學歷碗里。
具體的計算方法,可以參見知乎。類似的例子還有預測病人發病率真實性等等,有興趣的可以多搜索一些看看。
B. 神奇的貝葉斯定理
數學一直是我的弱項,從初中到大學成績都不好,於是累覺不愛,與數學從此絕緣。反而離開校園後,有時對某一方面的數學問題產生興趣,就會繼續追尋下去。就像這個神奇的貝葉斯定理,原理多看幾遍其實很簡單,但是上學那會兒怎麼總是學不會呢?大概上學的時候,只是單純的記憶公式,而數學是對現實的高度抽象,恰恰是人類大腦所不擅長的領域,而工作後帶著實際問題去學習數學,符合人類從具體走向抽象的認知規律,故而能夠理解。
貝葉斯定理正是在這個背景下,被我初步理解的。所以各位不要覺得涉及到數學就覺得畏懼,連我這個數學渣都能理解,其他人更是不在話下。後面會講到,貝葉斯定理作為一個思考的框架,一種決策的工具,具有神奇的作用。這正是我們構建多元化思維模型中數學模型的一部分。
我們將一枚硬幣拋向空中,落地時正面和反面的概率都是50%,這是常識。但如果我們拋100次,正面和反面的次數並不會都是50,有可能正面40次,反面60次。那拋1000次,10000次呢,正面反面的次數有可能還不會是五五開。只有將拋硬幣無數次,正面和反面出現的次數才會趨向於相等。也就是說,正面和反面出現的概率50%是一個極限、客觀的概率,並不會隨著拋擲次數的增減而變化。
但是貝葉斯定理與這個精確客觀的概率不同,它要求當事人估計一個主觀的先驗概率,再根據隨後觀察到的事實進行調整,隨著調整次數的增加,結果將會越來越精確。這里有一個問題,數學不是講究客觀嗎?這里怎麼冒出一個主觀概率出來?這也是當時的學者質疑貝葉斯的問題。事實上,貝葉斯定理在17世紀提出後,一直受到冷落,直到20世紀30年代電子計算機出現後才得到廣泛應用。如今我們每天都在和貝葉斯定理打交道:你上搜索引擎搜尋問題,背後的演算法中就有貝葉斯公式的身影;你郵箱里的垃圾郵件,很有可能就是運用貝葉斯定理幫你攔截的。
為什麼會出現這種情況?因為貝葉斯定理符合人類認知事物的自然規律。我們並非生而知之,大多數時候,面對的是信息不充分、情況不確定,這個時候我們只能在有限資源的情況下,作出決定,再根據後續的發展進行修正。實際上,這也是科學研究的步驟。
說了這么多,貝葉斯定理到底長什麼樣啊?圍觀群眾的小心臟可承受不起一坨擠眉弄眼的數學符號。那簡單的用中文來描述一下:
是不是也沒這么難?沒錯,就是這么簡單。翻譯成數學語言就是:
這是一一對應的,P(A丨B)是後驗概率,P(A)是先驗概率,P(B丨A)/P(B)是調整因子。P(A丨B)意思是在B發生的情況下,A發生的概率;P(B丨A)意思是在A發生的情況下,B發生的概率;P(A)是A發生的概率,P(B)是B發生的概率。P(B)=P(B丨A) P(A)+P(B丨A') P(A'),這稱為全概率公式。
看到這里,是不是有點糊塗了?其實這些公式並不難,證明過程也很簡單,自己搜一下文氏圖,一目瞭然。現在看起來,這些公式還是太抽象,別急,到後面實例的時候就派上用場了。
先來看一個非常經典的例子,幾乎是講到貝葉斯定理必提。
使用貝葉斯定理分析,假設A為得病,B為檢測呈陽性。可知P(A)=0.001,P(B丨A)=0.99,P(B)=P(B丨A) P(A)+P(B丨A')P(A')=0.99x0.001+0.05x0.999=0.05094
P(A丨B)=P(A)*P(B丨A)/P(B)=0.001x0.99/0.05094=0.019
是不是很驚訝,哪怕准確率這么高,檢測結果呈陽性的可信度只有2%。如果一種病的發病率很低,對於檢測結果呈陽性,我們不用過多擔憂。
來看看貝葉斯定理更實際的用處——幫助你量化對某些事物的態度或看法。比如說,你看到周圍很多人去廟里拜菩薩,他們跟你說很靈的,心想事成,你是否應該相信他們呢?作為一個追求獨立思考的人,肯定不能憑別人幾句話就決定皈依我佛。正確的態度是,自己去統計多少人信奉佛教,其中多少人祈福有求必應,如果比例很高的話,那我們就可以相信。但事實上,限於個人的能力和時間,這種大規模的統計我們無法做到。但是有了貝葉斯定理,我們可以試著計算一下。
A代表相信向菩薩祈福有用,假設你半信半疑,給定P(A)=0.5,B代表一個朋友向菩薩許事業的願後,果然升職加薪。假設你認為朋友對你說了實話,P(B丨A)=0.8,如果沒有菩薩保佑,你認為他憑借自己能力升職加薪的概率P(B丨A')=0.5,根據全概率公式,P(B)=0.8x0.5+0.5*0.5=0.65。可以算出,
P(A丨B)=0.5x0.8/0.65=0.615。這時,你對菩薩的信任度已經從50%上升到了61.5%,說明看到你朋友的事後,你是越來越相信菩薩的作用的。如果再多幾個同事向你訴說他們的心想事成,你的信任度越來越高,最後就會皈依我佛了。
但世上沒這么好的事,要是都心想事成,那不世界太平了。所以你接下來碰到了另外一個同事,他說他去求了菩薩愛情,至今仍是光棍一條。於是你就開始調整你的看法。注意,這時的P(A)=0.615,B代表菩薩未能保佑抱得美人歸,P(B丨A)=0.2,不變的是P(B丨A')=0.5,此時P(B)=0.2x0.615+0.5*0.385=0.3155,可以算出, P(A丨B)=0.615x0.2/0.3155=0.39。這時,你對菩薩的信任度又由61.5%下降到了39%,如果再碰到幾個這樣的同事,你就會徹底對菩薩保佑失去信心。
事實上,我們可以用貝葉斯定理來搭建一個思考的框架,不斷的動態調整我們的看法或態度,在經過一系列的事情證實後,就會形成比較穩定而正確的看法。大多數人對事物的看法是搖擺不定的,因為我們的直覺思維是粗放而快速,所以很難穩定下來。而運用貝葉斯定理以後,它能夠量化我們的看法,不致於因個人的偏好而偏差太遠,而且哪怕你給定的先驗概率是隨便寫的,也沒關系,經過幾次事實的印證後,它會越來越接近於真相。
C. 貝葉斯定理的定理定義
貝葉斯定理也稱貝葉斯推理,早在18世紀,英國學者貝葉斯(1702~1763)曾提出計算條件概率的公式用來解決如下一類問題:假設H[1],H[2]…,H[n]互斥且構成一個完全事件,已知它們的概率P(H[i]),i=1,2,…,n,現觀察到某事件A與H[,1],H[,2]…,H[,n]相伴隨機出現,且已知條件概率P(A/H[,i]),求P(H[,i]/A)。
貝葉斯公式(發表於1763年)為: P(H[i]/A)=P(H[i])*P(A│H[i])/{P(H[1])*P(A│H[1]) +P(H[2])*P(A│H[2])+…+P(H[n])*P(A│H[n])}
這就是著名的「貝葉斯定理」,一些文獻中把P(H[1])、P(H[2])稱為基礎概率,P(A│H[1])為擊中率,P(A│H[2])為誤報率[1] 。
D. 從三個例子理解貝葉斯定理
Time Flies
## 貝葉斯定理
推薦閱讀:
如何理解貝葉斯公式?
條件概率,全概率,貝葉斯公式理解
警察抓酒鬼
問題描述:酒鬼有90%概率外出喝酒,只有可能在A、B、C三個酒吧,概率相等,警察想去抓酒鬼,已知去了前兩個酒吧都沒抓到他,求去第三個酒吧抓到酒鬼的概率。
自己的解法:
用A、B代替前兩個酒吧,C代替最後一個酒吧,C=1代表在酒吧C中抓到酒鬼,C=0代表沒有在酒吧C中抓到酒鬼
在C=1發生的情況下,A=0且B=0的概率為1,P(A=0,B=0|C=1)=1
在A=0發生的情況下,B=0的概率為0.4/0.7,P(B=0|A=0)=0.4/0.7
用貝葉斯公式可以得:
李永樂老師的解法:
設事件A1為喝酒,事件A2為不喝酒,事件B1為警察在查前兩個酒吧時抓住酒鬼,事件B2為警察在查前兩個酒吧沒抓住酒鬼
酒鬼喝酒的情況下,警察在前兩個酒吧沒抓住酒鬼的概率,也就等於酒鬼喝酒在C的概率,P(B2|A1)=1/3
酒鬼不喝酒的情況下,警察在前兩個酒吧沒抓住酒鬼的概率為1,P(B2|A2)=1
用條件概率與全概率公式可得:
理解:
考慮不同的基本事件,可由不同的過程推導出同樣的答案
三門問題
問題描述:有三道關著的門,門後有不同價值的獎品,分別為車、羊、羊,玩家希望獲得車,當玩家選擇了一扇門後,主持人會打開一扇只含羊的門,然後問玩家要改變自己的選擇嗎?即改變前後,中獎的概率會變化嗎?
解法:
不改變決策:主持人打不打開只含羊的門跟你沒關系,中獎概率僅取決於第一次選擇,P=1/3
改變決策:
直觀解法:
假設1:選擇的是羊,主持人打開了羊,於是換成車,bingo!
假設2:選擇的是羊,主持人打開了羊,於是換成車,bingo!
假設3:選擇的是車,主持人打開了兩個羊中的一個,於是換成另一個羊,sad!
三個假設的事件概率相等,於是改變決策中獎的概率是P=2/3
貝葉斯公式:
玩家第一次打開的門是A,主持人打開的門是B,事件CarA定義為車在A的概率,事件OpenB定義為主持人打開B的概率
如果車在A門後,那麼主持人選擇BC中的一扇門打開,P(OpenB|CarA)=1/2
如果車在C門後,那麼主持人只會選擇把B打開,P(OpenB|CarC)=1
於是,車在A的後驗概率為:
車在C的後驗概率為:
故,玩家選擇改變策略後,中獎概率從1/3提高到2/3
知乎上的一些回答:
"If you change, you win when your original choice was wrong; if you don't change, you win when your original choice was right." — Horst Hohberger
鏈接: https://www.hu.com/question/26709273/answer/157940623
你手頭的這扇門,和另一扇門的區別是:另一扇門經過了一次考驗,它曾經可能被排除掉,然而它並沒有。你手頭的門卻一直被你保護著不被主持人排除掉,顯然經歷過考驗的那扇門會更可靠。
鏈接: https://www.hu.com/question/26709273/answer/275756035
聯想
玩家在面臨三選一的抉擇時,正確的概率為1/3,這個是事實,假設主持人排除掉錯誤答案的時機是在玩家在做選擇前,主持人排除掉的選項玩家是無論如何也不會去選的,也就是說這時變成了二選一,當然正確的概率為1/2。
玩家做出三選一的抉擇後,另外兩扇門應該是等價的,主持人排除掉一個,那麼兩扇門就變得不等價了,正如知乎上所說的,另一扇門經過了一次考驗,使得概率增強
兩個問題的聯系
錯誤的思考
酒鬼喝酒的概率是0.9,在A、B沒被抓住,那麼喝酒的事件被壓縮到C上,喝酒的概率為0.9,在C中被抓到的概率為0.9
玩家三選一,主持人去掉一個錯誤答案,只剩一個正確答案和錯誤答案,於是概率為0.5
錯在哪?
警察抓酒鬼之前,是不知道酒鬼的狀態的,酒鬼有可能在家,也有可能在A、B、C中的一個,警察跑了兩個酒吧,消除了兩種喝酒狀態,也就說降低了喝酒的概率,原來喝酒的概率是0.9,現在喝酒的概率是0.75
主持人去掉一個錯誤答案時,他是知道哪個是錯誤的,對於玩家而言,他中獎的概率提高了,原來是1/3,現在(改變決策)是2/3
擴展
如果酒鬼提前給警察打好招呼,肯定不去A和B,那如果警察先去A、B抓人,對酒鬼喝酒的概率沒有影響,原來是0.9,現在還是0.9
如果主持人不告訴玩家一個錯誤答案,那玩家改變決策會對中獎的概率有影響嗎?顯然,玩家還是在三個選擇中打轉,中獎概率還是1/3
三個囚犯
問題描述:有A、B、C三個囚犯,其中一個人被赦免,另外兩人被殺死,有一個看守知道誰被赦免了,但是他不能說誰被赦免了,他只能說兩個要被殺死的人其中一個是誰,而且還不能告訴提問者是否被殺死。A問看守,看守說B要被殺死,求這種情況下,A被赦免的概率。
解法
A沒問看守之前,A、B、C三人被赦免的概率都為1/3
設事件D為看守說出B要被殺死,事件A為A被赦免,事件B為B被赦免,事件C為C被赦免
如果A被赦免,則看守會從BC中選一個說死,則P(D|A)=1/2
如果B被赦免,看守不可能說B死,則P(D|B)=0
如果C被赦免,則看守只能說B死,則P(D|C)=1
那麼A、B被赦免的後驗概率為:
可以發現,當A問了看守後,他生存的概率還是1/3,而C的生存概率從1/3變為了2/3
理解
A問看守,看守只會說B或C會死一個,另一個相當於經過了一次考驗,於是其被赦免的概率增強
其實像這種情形,如果A不關心其他人的死活,去詢問看守是毫無意義的
從C被赦免概率增加來看,C會不會期待A去問看守呢?不會,因為看守有可能會說C死,所以C被赦免概率的增加是以經歷一次生死考驗為代價的
想利用好貝葉斯公式,關鍵是構建合理的事件,把方方面面都考慮到,計算過程是一目瞭然的
鏈接:https://www.jianshu.com/p/2509cef8d782
來源:
E. 必須學會的數學工具(三)——貝葉斯定理
如果說,世界上有什麼定理是人生來就會的,我會毫不猶豫的說,貝葉斯定理。
貝葉斯定理是一種特殊的計算概率的方法,為什麼說它特殊?
貝葉斯定理計算概率與頻率學派計算概率有本質的不同。
貝葉斯學派計算的是主觀概率,頻率學派計算的是客觀概率。
兩者對概率的定義不同。
頻率學派傾向定義為:「will it happen or not」。(發生或不發生)貝葉斯學派傾向定義為:「believe it or not」。(相信或不相信)
舉個例子,求拋硬幣、擲骰子每種可能性的概率。頻率學派認為,當數據為無窮大時,得出的概率一定會無限接近均勻分布。拋硬幣正反是50%,擲骰子是1/6,(即事件A在獨立重復試驗中發生的頻率趨於極限P,那麼這個極限就是該事件的概率。)這屬於頻率學派的思想。而貝葉斯學派的不同點在於,貝葉斯學派並不在意「事件」本身的建模,而是將自己置於觀察者的位置,不斷的通過觀察獲取「證據」。並把這些「證據」放在貝葉斯概率論的框架下,以推斷事情的結果,「證據」越多,結果越准。
如果有兩個人,使用貝葉斯定理計算相同一件事,得出的答案大概率上是有差異的,兩人中,若有一人叫「知情者」,他對本事件有非常深的洞察。另一人叫「不知情者」,他對本事件一知半解。同一件事,對知情者來說是「確定性事件」,而對不知情者而言就是「隨機事件」。
隨機性並不源於事件本身是否發生,只是描述觀察者對此事件的知識狀態。
比如拋硬幣100次,期許是正反各50次,結果正面85次,反面15次。
以貝葉斯概率論,出現了新的觀測結果,就需要依照觀測結果更新,打破之前的期許,上調得出正面的概率。
問:在生活中,貝葉斯定理哪裡看得到?真的用得著嗎?怎麼用呢?
不論是新生兒對世界的探索與了解,還是企業家對商業的洞察與試錯。都有貝葉斯定理的痕跡,它無處不在,只需有心人發現。
在回答用不用得著之前,先看下面這個問題。
請問廣大宅男/宅女。
你發給女神/男神的微信,如果只有70%收到了回復,TA對你有意思的概率是多少?
沒錯,這個問題就可以用貝葉斯定理算出來。你說有沒有用?想不想學呢?
貝葉斯定理公式
P(AIB)=P(BIA)*P(A)/P(B)
首先要弄清楚幾個概念
先驗概率:在考慮觀測數據前,能表達不確定量P的概率分布。
後驗概率:在考慮和給出相關證據或數據後所得到的條件概率。
條件概率:事件A在另外一個事件B已經發生條件下的發生概率,表示為p=(AIB)
可能性函數/似然函數:一種關於統計模型中參數的函數,用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計。
這四個抽象的表達一定讓人暈,我們先實戰一道題,從例題中學習比抽象的理解要高效的多。
貝葉斯定理有個非常經典的用法,將其用於疾病的篩查。
假設有一種病,得病的幾率為萬分之四,有一種疾病篩查技術,能檢測是否染病,准確率達到99.9%,篩查結果是陽性,得病了。那麼檢查出陽性的情況下,真正患病的概率是多少?
仔細看題目中最重要的三個變數。
我們先設檢查為陽性的概率是P(Y)。
2、得病的概率設為P(B)(先驗條件,之所以稱為「先驗」,是因為不必考慮任何B方面的因素。)
3、設檢查出陽性的情況下得病的概率為P(BIY)。(因為這是求得病的概率,所以代表得病的B在前,陽性是前提,放在後面。P(BIY)為後驗概率。)
套入貝葉斯公式,得出算式:
P(BIY)=P(YIB)*P(B)/P(Y)
P(Y)=P(YIB)*P(B)+(1-P(YIB))*(1-P(B)),(篩查的概率不是100%,所以患者在沒有得病的情況下,也可能是陽性。用1減去P,便能得出。)
萬分之四=0.0004
99.9%=0.999
P(BIY)=0.999*0.0004/((0.0004*0.999)+(0.9996*0.001))
=0.285591
在檢查結果為陽性時,患病概率是28.5%。
現在終於進入正題,如何用貝葉斯定理算男/女神對你有沒有意思。
·設P(X)=P(喜歡一個人)=男/女神喜歡一個人的概率
·設P(H)=P(回微信)=男/女神正常情況回復微信的概率
·設P(XIH)=P(喜歡一個人I回微信)=回復微信的情況下喜歡一個人的概率
·設P(HIX)=P(回微信I喜歡一個人)=喜歡一個人時回復微信的概率
這些全部都是未知的,需要靠自己收集情報、調研或臆想得出。當然,這樣准確度會很低。
我怎麼可能這么不負責。教你幾招提升准確率的方式。
鄧巴數字。
「鄧巴數字」也稱「150人數字」,人類智力所允許的社交網路,上限約為150人。就算他微信里有上千的好友,最多和150人維持親密關系。如果TA目前沒有喜歡的人.......
同性朋友佔65%以上。
你可以直接從150人裡面去掉65%的競爭對手,使數據更精確。如果他是個同志的話.......
這是個看臉的社會。
你長得帥可以給自己加權重。要是長得丑..........
P(HIX)可以以自己的標准來設定。P(HIX)設為100%,P(H)為70%。
P(XIH),先用鄧巴數字*(1-65%),假設你很漂亮,適當的給自己加點權重。比其他人高60%吧。其實還可以給特別不體面的人減一點權重。
我們將其帶入貝葉斯公式:
P=(XIH)=P(HIX)*P(X)/P(H)
P=(XIH)=1*((150*0.35)*1.6)/0.7
=0.0435
概率為4.35%
在人類的基因中,給予了我們直覺,以指導我們的生存,而涉及到科學的領域,原始的直覺便不起作用了。用數學工具和理工科思維,是這個科技騰飛的時代的生存法則。
貝葉斯定理,你學會了嗎?
F. 文藝地解讀貝葉斯定理
小李年方二八,身強力壯。參加單位組織的體檢時,被檢出 HIV 呈陽性。這驚雷轟得小李不省人事:自己明明生活檢點,從沒做過可能感染 HIV 的不良行為,這鬧的是哪出啊!
假設整個人群感染 HIV 的概率是 0.08%。這家醫院使用的檢測方法對已經確診攜帶 HIV 病毒的病人檢測出陽性的概率是 99% (true positive rate),對沒有攜帶 HIV 病毒的人檢測呈陰性的概率是 99% (true negative rate)。聰明如你,幫小李算算他確實攜帶 HIV 病毒的概率是多少?
不著急,再想 5 分鍾 ......
答案是 7.34%。
一個簡單而自然的演算法是假設總共有 10000 人,由於 HIV 發病率是 0.08%,所以總共有 8 個人攜帶 HIV 病毒。由於沒有攜帶 HIV 病毒的人檢測呈陰性的概率是 99% ,所以這家醫院使用的檢測方法有 1% 的概率會導致沒有攜帶 HIV 病毒的人被檢測呈陽性,即 10000 人中總共會有 (10000 - 8) x 1% = 99.92 人實際上沒有攜帶 HIV 病毒,但檢測出了陽性。針對己確診患病的 8 人中,會有 8 x 99% = 7.92 人檢測呈陽性。所以,小李攜帶 HIV 病毒的概率是 7.92 / (99.92 + 7.92) = 7.34%。嗯,雖如晴天驚雷,但其實概率也沒那麼高嘛,特別是小李生活檢點,不吸毒的前提下,誤診的概率極大。
wikipedia 上有個 專門的條目 討論這種忽視基礎概率問題的頁面。
貝葉斯定理是關於條件概率的定理,其公式如下:
P(A|B) = P(A) P(B|A) / P(B)
解釋一下公式:
我們用貝葉斯定理再算一下小李的患病概率,假設 A 表示攜帶 HIV 病毒事件,B 表示檢測結果呈陽性事件,那麼我們要求解的就是在檢測結果呈陽性的情況下的真實患病概率,即 P(A|B)。P(A) 表示患病概率,在我們的例子里是 0.08%。P(B|A) 表示如果一個人己確診患病,檢測呈陽性的概率是多少,從例子里知道 P(B|A) = 99%。P(B) 表示隨機一個人被檢測呈陽性的概率是多少,這包括兩部分的數據,一部分是患病且被檢測呈陽性的概率,它的數值是 0.08% x 99%,另一部分沒患病但被檢測呈陽性的概率,它的數值是 (1 - 0.08%) x (1 - 99%)。根據貝葉斯定理:
P(A|B) = P(A) P(B|A) / P(B) = 0.08% x 99% / ((0.08% x 99%) + (1 - 0.08%) x (1 - 99%)) = 7.34%
看來和我們的土辦法算出來的數值是相同的。
就象解讀這個千瘡百孔的世界一樣,很多人選擇把眼睛閉起來,選擇對它視而不見。而一些人選擇熱愛這個千瘡百孔的世界,努力前行,讓這個世界變得美好一點點。
文藝地解讀貝葉斯定理是可能的。P(A) 是基礎概率,每個人剛來到這個世界上時,對這個世界的美好感受都有一個初始值,隨著他的不斷成長,碰到了事件 B ,而 B 剛好是這個世界美好的一面,比如一個學渣被女神鼓勵,然後奮發圖強,變成學霸,那麼事件 B 的發生無疑會增加這個人對這個世界的美好程度的感知,所以 P(A|B) 增加了。身體發膚,受之父母。有些人的顏值就是比較高,高顏值的你如果是學渣的話,被女神鼓勵的概率應該也是會比較高的,不知不覺,你的先天優勢讓 P(B|A) 更高。
這是對貝葉斯定理最文藝的解讀,沒有之一。
然並卵。除了看完感覺有道理之外,你還是不理解貝葉斯定理定理的本質。一個事物的本質往往是樸素的,樸素到沒有女神,顏值也處在正態分布的正中間。
維基網路上的這張圖包含了簡易的推導貝葉斯定理的過程,簡潔,樸素。
而從事件發生頻率角度解讀貝葉斯定理的的另外一張圖片,讓我們和貝葉斯走得更近。
學點概率,用更樸素的視角去看世界。
G. 從三個例子理解貝葉斯定理
## 貝葉斯定理
問題描述:酒鬼有90%概率外出喝酒,只有可能在A、B、C三個酒吧,概率相等,警察想去抓酒鬼,已知去了前兩個酒吧都沒抓到他,求去第三個酒吧抓到酒鬼的概率。
自己的解法:
李永樂老師的解法:
理解:
問題描述:有三道關著的門,門後有不同價值的獎品,分別為車、羊、羊,玩家希望獲得車,當玩家選擇了一扇門後,主持人會打開一扇只含羊的門,然後問玩家要改變自己的選擇嗎?即改變前後,中獎的概率會變化嗎?
解法:
聯想
錯誤的思考
錯在哪?
擴展
問題描述:有A、B、C三個囚犯,其中一個人被赦免,另外兩人被殺死,有一個看守知道誰被赦免了,但是他不能說誰被赦免了,他只能說兩個要被殺死的人其中一個是誰,而且還不能告訴提問者是否被殺死。A問看守,看守說B要被殺死,求這種情況下,A被赦免的概率。
解法
理解
H. 怎麼簡單理解貝葉斯公式
貝葉斯定理是關於隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。
貝葉斯定理也稱貝葉斯推理,早在18世紀,英國學者貝葉斯(1702~1761)曾提出計算條件概率的公式用來解決如下一類問題:假設H,H…,H互斥且構成一個完全事件,已知它們的概率P(H),i=1,2,…,n,現觀察到某事件A與H,H…,H相伴隨機出現,且已知條件概率P(A|H),求P(H|A)。
按貝葉斯定理進行投資決策的基本步驟是:
1、列出在已知項目B條件下項目A的發生概率,即將P(A│B)轉換為P(B│A);
2、繪制樹型圖;
3、求各狀態結點的期望收益值,並將結果填入樹型圖;
4、根據對樹型圖的分析,進行投資項目決策。
I. 實例詳解貝葉斯推理的原理
實例詳解貝葉斯推理的原理
姓名:余玥 學號:16010188033
【嵌牛導讀】:貝葉斯推理是由英國牧師貝葉斯發現的一種歸納推理方法,後來的許多研究者對貝葉斯方法在觀點、方法和理論上不斷的進行完善,最終形成了一種有影響的統計學派,打破了經典統計學一統天下的局面。貝葉斯推理是在經典的統計歸納推理——估計和假設檢驗的基礎上發展起來的一種新的推理方法。與經典的統計歸納推理方法相比,貝葉斯推理在得出結論時不僅要根據當前所觀察到的樣本信息,而且還要根據推理者過去有關的經驗和知識。
【嵌牛鼻子】:貝葉斯推理/統計
【嵌牛提問】:貝葉斯推理的原理是什麼?如何通過實例理解貝葉斯原理?
【嵌牛正文】:
貝葉斯推理是一種精確的數據預測方式。在數據沒有期望的那麼多,但卻想毫無遺漏地,全面地獲取預測信息時非常有用。
提及貝葉斯推理時,人們時常會帶著一種敬仰的心情。其實並非想像中那麼富有魔力,或是神秘。盡管貝葉斯推理背後的數學越來越縝密和復雜,但其背後概念還是非常容易理解。簡言之,貝葉斯推理有助於大家得到更有力的結論,將其置於已知的答案中。
貝葉斯推理理念源自托馬斯貝葉斯。三百年前,他是一位從不循規蹈矩的教會長老院牧師。貝葉斯寫過兩本書,一本關於神學,一本關於概率。他的工作就包括今天著名的貝葉斯定理雛形,自此以後應用於推理問題,以及有根據猜測(ecated guessing)術語中。貝葉斯理念如此流行,得益於一位名叫理查·布萊斯牧師的大力推崇。此人意識到這份定理的重要性後,將其優化完善並發表。因此,此定理變得更加准確。也因此,歷史上將貝葉斯定理稱之為 Bayes-Price法則。
譯者註:ecated guessing 基於(或根據)經驗(或專業知識、手頭資料、事實等)所作的估計(或預測、猜測、意見等)
影院中的貝葉斯推理
試想一下,你前往影院觀影,前面觀影的小夥伴門票掉了,此時你想引起他們的注意。此圖是他們的背影圖。你無法分辨他們的性別,僅僅知道他們留了長頭發。那你是說,女士打擾一下,還是說,先生打擾一下。考慮到你對男人和女人發型的認知,或許你會認為這位是位女士。(本例很簡單,只存在兩種發長和性別)
現在將上面的情形稍加變化,此人正在排隊准備進入男士休息室。依靠這個額外的信息,或許你會認為這位是位男士。此例採用常識和背景知識即可完成判斷,無需思考。而貝葉斯推理是此方式的數學實現形式,得益於此,我們可以做出更加精確的預測。
我們為電影院遇到的困境加上數字。首先假定影院中男女各佔一半,100個人中,50個男人,50個女人。女人中,一半為長發,餘下的25人為短發。而男人中,48位為短發,兩位為長發。存在25個長發女人和2位長發男人,由此推斷,門票持有者為女士的可能性很大。
100個在男士休息室外排隊,其中98名男士,2位女士為陪同。長發女人和短發女人依舊對半分,但此處僅僅各佔一種。而男士長發和短發的比例依舊保持不變,按照98位男士算,此刻短發男士有94人,長發為4人。考慮到有一位長發女士和四位長發男士,此刻最有可能的是持票者為男士。這是貝葉斯推理原理的具體案例。事先知曉一個重要的信息線索,門票持有者在男士休息室外排隊,可以幫助我們做出更好的預測。
為了清晰地闡述貝葉斯推理,需要花些時間清晰地定義我們的理念。不幸的是,這需要用到數學知識。除非不得已,我盡量避免此過程太過深奧,緊隨我查看更多的小節,必定會從中受益。為了大家能夠建立一個基礎,我們需要快速地提及四個概念:概率、條件概率、聯合概率以及邊際概率。
概率
一件事發生的概率,等於該事件發生的數目除以所有事件發生的數目。觀影者為一個女士的概率為50位女士除以100位觀影者,即0.5 或50%。換作男士亦如此。
而在男士休息室排列此種情形下,女士概率降至0.02,男士的概率為0.98。
條件概率
條件概率回答了這樣的問題,倘若我知道此人是位女士,其為長發的概率是多少?條件概率的計算方式和直接得到的概率一樣,但它們更像所有例子中滿足某個特定條件的子集。本例中,此人為女士,擁有長發的人士的條件概率,P(long hair | woman)為擁有長發的女士數目,除以女士的總數,其結果為0.5。無論我們是否考慮男士休息室外排隊,或整個影院。
同樣的道理,此人為男士,擁有長發的條件概率,P(long hair | man)為0.4,不管其是否在隊列中。
很重要的一點,條件概率P(A | B)並不等同於P(B | A)。比如P(cute | puppy)不同於P(puppy | cute)。倘若我抱著的是小狗,可愛的概率是很高的。倘若我抱著一個可愛的東西,成為小狗的概率中等偏下。它有可能是小貓、小兔子、刺蝟,甚至一個小人。
聯合概率
聯合概率適合回答這樣的問題,此人為一個短發女人的概率為多少?找出答案需要兩步。首先,我們先看概率是女人的概率,P(woman)。接著,我們給出頭發短人士的概率,考慮到此人為女士,P(short hair | woman)。通過乘法,進行聯合,給出聯合概率,P(woman with short hair) = P(woman) * P(short hair | woman)。利用此方法,我們便可計算出我們已知的概率,所有觀影中P(woman with long hair)為0.25,而在男士休息室隊列中的P(woman with long hair)為0.1。不同是因為兩個案例中的P(woman)不同。
相似的,觀影者中P(man with long hair) 為0.02,而在男士休息室隊列中概率為0.04。
和條件概率不同,聯合概率和順序無關,P(A and B)等同於P(B and A)。比如,同時擁有牛奶和油炸圈餅的概率,等同於擁有油炸圈餅和牛奶的概率。
邊際概率
我們最後一個基礎之旅為邊際概率。特別適合回答這樣的問題,擁有長發人士的概率?為計算出結果,我們須累加此事發生的所有概率——即男士留長發的概率加女士留長發的概率。加上這兩個概率,即給出所有觀影者P(long hair)的值0.27,而男休息室隊列中的P(long hair)為0.05。
貝葉斯定理
現在到了我們真正關心的部分。我們想回答這樣的問題,倘若我們知道擁有長發的人士,那他們是位女士或男士的概率為?這是一個條件概率,P(man | long hair),為我們已知曉的P(long hair | man)逆方式。因為條件概率不可逆,因此,我們對這個新條件概率知之甚少。
幸運的是托馬斯觀察到一些很酷炫的知識可以幫到我們。
根據聯合概率計算規則,我們給出方程P(man with long hair)和P(long hair and man)。因為聯合概率可逆,因此這兩個方程等價。
藉助一點代數知識,我們就能解出P(man | long hair)。
表達式採用A和B,替換「man」和「long hair」,於是我們得到貝葉斯定理。
我們回到最初,藉助貝葉斯定理,解決電影院門票困境。
首先,需要計算邊際概率P(long hair)。
接著代入數據,計算出長發中是男士的概率。對於男士休息室隊列中的觀影者而言,P(man | long hair)微微0.8。這讓我們更加確信一直覺,掉門票的可能是一男士。貝葉斯定理抓住了在此情形下的直覺。更重要的是,更重要的是吸納了先驗知識,男士休息室外隊列中男士遠多於女士。借用此先驗知識,更新我們對一這情形的認識。
概率分布
諸如影院困境這樣的例子,很好地解釋了貝葉斯推理的由來,以及作用機制。然而,在數據科學應用領域,此推理常常用於數據解釋。有了我們測出來的先驗知識,藉助小數據集便可得出更好的結論。在開始細說之前,請先允許我先介紹點別的。就是我們需要清楚一個概率分布。
此處可以這樣考慮概率,一壺咖啡正好裝滿一個杯子。倘若用一個杯子來裝沒有問題,那不止一個杯子呢,你需考慮如何將這些咖啡分這些杯子中。當然你可以按照自己的意願,只要將所有咖啡放入某個杯子中。而在電影院,一個杯子或許代表女士或者男士。
或者我們用四個杯子代表性別和發長的所有組合分布。這兩個案例中,總咖啡數量累加起來為一杯。
通常,我們將杯子挨個擺放,看其中的咖啡量就像一個柱狀圖。咖啡就像一種信仰,此概率分布用於顯示我們相信某件事情的強烈程度。
假設我投了一塊硬幣,然後蓋住它,你會認為正面和反面朝上的幾率是一樣的。
假設我投了一個骰子,然後蓋住它,你會認為六個面中的每一個面朝上的幾率是一樣的。
假設我買了一期強力球彩票,你會認為中獎的可能性微乎其微。投硬幣、投骰子、強力球彩票的結果,都可以視為收集、測量數據的例子。
毫無意外,你也可以對其它數據持有某種看法。這里我們考慮美國成年人的身高,倘若我告訴你,我見過,並測量了某些人的身高,那你對他們身高的看法,或許如上圖所示。此觀點認為一個人的身高可能介於150和200cm之間,最有可能的是介於180和190cm之間。
此分布可以分成更多的方格,視作將有限的咖啡放入更多的杯子,以期獲得一組更加細顆粒度的觀點。
最終虛擬的杯子數量將非常大,以至於這樣的比喻變得不恰當。這樣,分布變得連續。運用的數學方法可能有點變化,但底層的理念還是很有用。此圖表明了你對某一事物認知的概率分布。
感謝你們這么有耐心!!有了對概率分布的介紹,我們便可採用貝葉斯定理進行數據解析了。為了說明這個,我以我家小狗稱重為例。
獸醫領域的貝葉斯推理
它叫雅各賓當政,每次我們去獸醫診所,它在秤上總是各種晃動,因此很難讀取一個准確的數據。得到一個准確的體重數據很重要,這是因為,倘若它的體重有所上升,那麼我們就得減少其食物的攝入量。它喜歡食物勝過它自己,所以說風險蠻大的。
最近一次,在它喪失耐心前,我們測了三次:13.9鎊,17.5鎊以及14.1鎊。這是針對其所做的標准統計分析。計算這一組數字的均值,標准偏差,標准差,便可得到小狗當政的准確體重分布。
分布展示了我們認為的小狗體重,這是一個均值15.2鎊,標准差1.2鎊的正態分布。真實得測量如白線所示。不幸的是,這個曲線並非理想的寬度。盡管這個峰值為15.2鎊,但概率分布顯示,在13鎊很容易就到達一個低值,在17鎊到達一個高值。太過寬泛以致無法做出一個確信的決策。面對如此情形,通常的策略是返回並收集更多的數據,但在一些案例中此法操作性不強,或成本高昂。本例中,小狗當政的(Reign )耐心已經耗盡,這是我們僅有的測量數據。
此時我們需要貝葉斯定理,幫助我們處理小規模數據集。在使用定理前,我們有必要重新回顧一下這個方程,查看每個術語。
我們用「w」 (weight)和 「m」 (measurements)替換「A」 and 「B」 ,以便更清晰地表示我們如何用此定理。四個術語分別代表此過程的不同部分。
先驗概率,P(w),表示已有的事物認知。本例中,表示未稱量時,我們認為的當政體重w。
似然值,P(m | w),表示針對某個具體體重w所測的值m。又叫似然數據。
後驗概率,P(w | m),表示稱量後,當政為某個體重w的概率。當然這是我們最感興趣的。
譯者註:後驗概率,通常情況下,等於似然值乘以先驗值。是我們對於世界的內在認知。
概率數據,P(m),表示某個數據點被測到的概率。本例中,我們假定它為一個常量,且測量本身沒有偏向。
對於完美的不可知論者來說,也不是什麼特別糟糕的事情,而且無需對結果做出什麼假設。例如本例中,即便假定當Reign的體重為13鎊、或1鎊,或1000000 鎊,讓數據說話。我們先假定一個均一的先驗概率,即對所有值而言,概率分布就一常量值。貝葉斯定理便可簡化為P(w | m) = P(m | w)。
此刻,藉助Reign的每個可能體重,我們計算出三個測量的似然值。比如,倘若當政的體重為1000鎊,極端的測量值是不太可能的。然而,倘若當政的體重為14鎊或16鎊。我們可以遍歷所有,利用Reign的每一個假設體重值,計算出測量的似然值。這便是P(m | w)。得益於這個均一的先驗概率,它等同於後驗概率分布 P(w | m)。
這並非偶然。通過均值、標准偏差、標准差得來的,很像答案。實際上,它們是一樣的,採用一個均一的先驗概率給出傳統的統計估測結果。峰值所在的曲線位置,均值,15.2鎊也叫體重的極大似然估計(MLE)。
即使採用了貝葉斯定理,但依舊離有用的估計很遠。為此,我們需要非均一先驗概率。先驗分布表示未測量情形下對某事物的認知。均一的先驗概率認為每個可能的結果都是均等的,通常都很罕見。在測量時,對某些量已有些認識。年齡總是大於零,溫度總是大於-276攝氏度。成年人身高罕有超過8英尺的。某些時候,我們擁有額外的領域知識,一些值很有可能出現在其它值中。
在Reign的案例中,我確實擁有其它的信息。我知道上次它在獸醫診所稱到的體重是14.2鎊。我還知道它並不是特別顯胖或顯瘦,即便我的胳膊對重量不是特別敏感。有鑒於此,它大概重14.2鎊,相差一兩鎊上下。為此,我選用峰值為14.2鎊。標准偏差為0.5鎊的正態分布。
先驗概率已經就緒,我們重復計算後驗概率。為此,我們考慮某一概率,此時Reign體重為某一特定值,比如17鎊。接著,17鎊這一似然值乘以測量值為17這一條件概率。接著,對於其它可能的體重,我們重復這一過程。先驗概率的作用是降低某些概率,擴大另一些概率。本例中,在區間13-15鎊增加更多的測量值,以外的區間則減少更多的測量值。這與均一先驗概率不同,給出一個恰當的概率,當政的真實體重為17鎊。藉助非均勻的先驗概率,17鎊掉入分布式的尾部。乘以此概率值使得體重為17鎊的似然值變低。
通過計算當政每一個可能的體重概率,我們得到一個新的後驗概率。後驗概率分布的峰值也叫最大後驗概率(MAP),本例為14.1鎊。這和均一先驗概率有明顯的不同。此峰值更窄,有助於我們做出一個更可信的估測。現在來看,小狗當政的體重變化不大,它的體型依舊如前。
通過吸收已有的測量認知,我們可以做出一個更加准確的估測,其可信度高於其他方法。這有助於我們更好地使用小量數據集。先驗概率賦予17.5鎊的測量值是一個比較低的概率。這幾乎等同於反對此偏離正常值的測量值。不同於直覺和常識的異常檢測方式,貝葉斯定理有助於我們採用數學的方式進行異常檢測。
另外,假定術語P(m)是均一的,但恰巧我們知道稱量存在某種程度的偏好,這將反映在P(m)中。若稱量僅輸出某些數字,或返回讀數2.0,占整個時間的百分之10,或第三次嘗試產生一個隨機測量值,均需要手動修改P(m)以反映這一現象,以便後驗概率更加准確。
規避貝葉斯陷阱
探究Reign的真實體重體現了貝葉斯的優勢。但這也存在某些陷阱。通過一些假設我們改進了估測,而測量某些事物的目的就是為了了解它。倘若我們假定對某一答案有所了解,我們可能會刪改此數據。馬克·吐溫對強先驗的危害做了簡明地闡述,「將你陷入困境的不是你所不知道的,而是你知道的那些看似正確的東西。」
假如採取強先驗假設,當Reign的體重在13與15鎊之間,再假如其真實體重為12.5鎊,我們將無法探測到。先驗認知認為此結果的概率為零,不論做多少次測量,低於13鎊的測量值都認為無效。
幸運的是,有一種兩面下注的辦法,可以規避這種盲目地刪除。針對對於每一個結果至少賦予一個小的概率,倘若藉助物理領域的一些奇思妙想,當政確實能稱到1000鎊,那我們收集的測量值也能反映在後驗概率中。這也是正態分布作為先驗概率的原因之一。此分布集中了我們對一小撮結果的大多數認識,不管怎麼延展,其尾部再長都不會為零。
在此,紅桃皇後是一個很好的榜樣:
愛麗絲笑道:「試了也沒用,沒人會相信那些不存在的事情。」
「我敢說你沒有太多的練習」,女王回應道,「我年輕的時候,一天中的一個半小時都在閉上眼睛,深呼吸。為何,那是因為有時在早飯前,我已經意識到存在六種不可能了。」來自劉易斯·卡羅爾的《愛麗絲漫遊奇境》