贝叶斯定理法官随机赦免一人
A. 贝叶斯公式
最近因为听播客,对概率学产生了极大的兴趣的。
吐槽一下:没想到我一个从高中开始就不愿意学数学的人会有对概率学产生兴趣的一天。不过话说回来,如果当初的数学老师把那些理论结合到生活实例上的话,我想我不会如此厌弃数学。毕竟我从高中开始不喜欢数学的原因就是“学这跟我的生活有什么关系,我买菜需要用代数、微积分吗”
思考题:胡润富豪榜国内上榜人士半数没有高学历,所以读书无用吗?
你觉得这句话有道理吗?
接下来先了解一下贝叶斯公式,然后我们再来讨论这道题。
贝叶斯定理是关于 随机 事件A和B的 条件概率 (或 边缘概率 )的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
再来一个比较直观的,
经典例子:
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
首先分清楚现象和规律。
拿出来1颗糖,可能是水果糖,也可能是巧克力糖,这是两个现象。
这颗糖,可能是从1号碗来的,也可能是从2号碗来的,这是两个规律。
所以组合之后,有4种情况: 1号碗水果糖0.75 ,1号碗巧克力糖0.25, 2号碗水果糖0.5 ,2号碗巧克力糖0.5。
套用公式:P(从一号碗来规律|水果糖现象)=P(水果糖现象|从一号碗来规律) P(从一号碗来规律)/P(水果糖现象)=0.75* 0.5/0.625=0.6。
最终得出:这颗水果糖来自1号碗的概率是0.6
回到上面那个思考题,首先由题目可知:无论有没有高学历进入胡润富豪榜的概率都是0.5。
以上面的例子来打比方,进入富豪榜和未进入富豪榜的分别为水果糖和巧克力糖,高学历的是1号碗,低学历的是2号碗,这两个碗进入富豪榜的概率都是0.5。
But,这个进入富豪榜的0.5在原先的两个碗里所在的比例是完全不一样的!这颗水果糖想要被选中,那它在1号碗的概率是0.75,而在2号碗的概率则只有0.5。
虽然总数不变,但是对于个体来说,这个概率上的不同所带来的的差距却是天翻地覆的。
题目所在的年份,整体环境,根据国家统计局颁布的《2010年第六次全国人口普查主要数据公报》,得知中国大陆:
具有大学(指大专以上)文化程度的人口为119636790人 ; 而当年中国人口是134091万人,
计算得大专以上的人口比例为8.9%
其中本科生的比例更低,仅有2.7%
也就是说,仅占总人口2.7%的本科以上的高学历人口,占据了进入富豪榜总人数的50%。对于个体来说,如果你想要实现进入胡润富豪榜的目标,那么你在高学历碗里的成功率远远高于你在低学历碗里。
具体的计算方法,可以参见知乎。类似的例子还有预测病人发病率真实性等等,有兴趣的可以多搜索一些看看。
B. 神奇的贝叶斯定理
数学一直是我的弱项,从初中到大学成绩都不好,于是累觉不爱,与数学从此绝缘。反而离开校园后,有时对某一方面的数学问题产生兴趣,就会继续追寻下去。就像这个神奇的贝叶斯定理,原理多看几遍其实很简单,但是上学那会儿怎么总是学不会呢?大概上学的时候,只是单纯的记忆公式,而数学是对现实的高度抽象,恰恰是人类大脑所不擅长的领域,而工作后带着实际问题去学习数学,符合人类从具体走向抽象的认知规律,故而能够理解。
贝叶斯定理正是在这个背景下,被我初步理解的。所以各位不要觉得涉及到数学就觉得畏惧,连我这个数学渣都能理解,其他人更是不在话下。后面会讲到,贝叶斯定理作为一个思考的框架,一种决策的工具,具有神奇的作用。这正是我们构建多元化思维模型中数学模型的一部分。
我们将一枚硬币抛向空中,落地时正面和反面的概率都是50%,这是常识。但如果我们抛100次,正面和反面的次数并不会都是50,有可能正面40次,反面60次。那抛1000次,10000次呢,正面反面的次数有可能还不会是五五开。只有将抛硬币无数次,正面和反面出现的次数才会趋向于相等。也就是说,正面和反面出现的概率50%是一个极限、客观的概率,并不会随着抛掷次数的增减而变化。
但是贝叶斯定理与这个精确客观的概率不同,它要求当事人估计一个主观的先验概率,再根据随后观察到的事实进行调整,随着调整次数的增加,结果将会越来越精确。这里有一个问题,数学不是讲究客观吗?这里怎么冒出一个主观概率出来?这也是当时的学者质疑贝叶斯的问题。事实上,贝叶斯定理在17世纪提出后,一直受到冷落,直到20世纪30年代电子计算机出现后才得到广泛应用。如今我们每天都在和贝叶斯定理打交道:你上搜索引擎搜寻问题,背后的算法中就有贝叶斯公式的身影;你邮箱里的垃圾邮件,很有可能就是运用贝叶斯定理帮你拦截的。
为什么会出现这种情况?因为贝叶斯定理符合人类认知事物的自然规律。我们并非生而知之,大多数时候,面对的是信息不充分、情况不确定,这个时候我们只能在有限资源的情况下,作出决定,再根据后续的发展进行修正。实际上,这也是科学研究的步骤。
说了这么多,贝叶斯定理到底长什么样啊?围观群众的小心脏可承受不起一坨挤眉弄眼的数学符号。那简单的用中文来描述一下:
是不是也没这么难?没错,就是这么简单。翻译成数学语言就是:
这是一一对应的,P(A丨B)是后验概率,P(A)是先验概率,P(B丨A)/P(B)是调整因子。P(A丨B)意思是在B发生的情况下,A发生的概率;P(B丨A)意思是在A发生的情况下,B发生的概率;P(A)是A发生的概率,P(B)是B发生的概率。P(B)=P(B丨A) P(A)+P(B丨A') P(A'),这称为全概率公式。
看到这里,是不是有点糊涂了?其实这些公式并不难,证明过程也很简单,自己搜一下文氏图,一目了然。现在看起来,这些公式还是太抽象,别急,到后面实例的时候就派上用场了。
先来看一个非常经典的例子,几乎是讲到贝叶斯定理必提。
使用贝叶斯定理分析,假设A为得病,B为检测呈阳性。可知P(A)=0.001,P(B丨A)=0.99,P(B)=P(B丨A) P(A)+P(B丨A')P(A')=0.99x0.001+0.05x0.999=0.05094
P(A丨B)=P(A)*P(B丨A)/P(B)=0.001x0.99/0.05094=0.019
是不是很惊讶,哪怕准确率这么高,检测结果呈阳性的可信度只有2%。如果一种病的发病率很低,对于检测结果呈阳性,我们不用过多担忧。
来看看贝叶斯定理更实际的用处——帮助你量化对某些事物的态度或看法。比如说,你看到周围很多人去庙里拜菩萨,他们跟你说很灵的,心想事成,你是否应该相信他们呢?作为一个追求独立思考的人,肯定不能凭别人几句话就决定皈依我佛。正确的态度是,自己去统计多少人信奉佛教,其中多少人祈福有求必应,如果比例很高的话,那我们就可以相信。但事实上,限于个人的能力和时间,这种大规模的统计我们无法做到。但是有了贝叶斯定理,我们可以试着计算一下。
A代表相信向菩萨祈福有用,假设你半信半疑,给定P(A)=0.5,B代表一个朋友向菩萨许事业的愿后,果然升职加薪。假设你认为朋友对你说了实话,P(B丨A)=0.8,如果没有菩萨保佑,你认为他凭借自己能力升职加薪的概率P(B丨A')=0.5,根据全概率公式,P(B)=0.8x0.5+0.5*0.5=0.65。可以算出,
P(A丨B)=0.5x0.8/0.65=0.615。这时,你对菩萨的信任度已经从50%上升到了61.5%,说明看到你朋友的事后,你是越来越相信菩萨的作用的。如果再多几个同事向你诉说他们的心想事成,你的信任度越来越高,最后就会皈依我佛了。
但世上没这么好的事,要是都心想事成,那不世界太平了。所以你接下来碰到了另外一个同事,他说他去求了菩萨爱情,至今仍是光棍一条。于是你就开始调整你的看法。注意,这时的P(A)=0.615,B代表菩萨未能保佑抱得美人归,P(B丨A)=0.2,不变的是P(B丨A')=0.5,此时P(B)=0.2x0.615+0.5*0.385=0.3155,可以算出, P(A丨B)=0.615x0.2/0.3155=0.39。这时,你对菩萨的信任度又由61.5%下降到了39%,如果再碰到几个这样的同事,你就会彻底对菩萨保佑失去信心。
事实上,我们可以用贝叶斯定理来搭建一个思考的框架,不断的动态调整我们的看法或态度,在经过一系列的事情证实后,就会形成比较稳定而正确的看法。大多数人对事物的看法是摇摆不定的,因为我们的直觉思维是粗放而快速,所以很难稳定下来。而运用贝叶斯定理以后,它能够量化我们的看法,不致于因个人的偏好而偏差太远,而且哪怕你给定的先验概率是随便写的,也没关系,经过几次事实的印证后,它会越来越接近于真相。
C. 贝叶斯定理的定理定义
贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1763)曾提出计算条件概率的公式用来解决如下一类问题:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[,1],H[,2]…,H[,n]相伴随机出现,且已知条件概率P(A/H[,i]),求P(H[,i]/A)。
贝叶斯公式(发表于1763年)为: P(H[i]/A)=P(H[i])*P(A│H[i])/{P(H[1])*P(A│H[1]) +P(H[2])*P(A│H[2])+…+P(H[n])*P(A│H[n])}
这就是著名的“贝叶斯定理”,一些文献中把P(H[1])、P(H[2])称为基础概率,P(A│H[1])为击中率,P(A│H[2])为误报率[1] 。
D. 从三个例子理解贝叶斯定理
Time Flies
## 贝叶斯定理
推荐阅读:
如何理解贝叶斯公式?
条件概率,全概率,贝叶斯公式理解
警察抓酒鬼
问题描述:酒鬼有90%概率外出喝酒,只有可能在A、B、C三个酒吧,概率相等,警察想去抓酒鬼,已知去了前两个酒吧都没抓到他,求去第三个酒吧抓到酒鬼的概率。
自己的解法:
用A、B代替前两个酒吧,C代替最后一个酒吧,C=1代表在酒吧C中抓到酒鬼,C=0代表没有在酒吧C中抓到酒鬼
在C=1发生的情况下,A=0且B=0的概率为1,P(A=0,B=0|C=1)=1
在A=0发生的情况下,B=0的概率为0.4/0.7,P(B=0|A=0)=0.4/0.7
用贝叶斯公式可以得:
李永乐老师的解法:
设事件A1为喝酒,事件A2为不喝酒,事件B1为警察在查前两个酒吧时抓住酒鬼,事件B2为警察在查前两个酒吧没抓住酒鬼
酒鬼喝酒的情况下,警察在前两个酒吧没抓住酒鬼的概率,也就等于酒鬼喝酒在C的概率,P(B2|A1)=1/3
酒鬼不喝酒的情况下,警察在前两个酒吧没抓住酒鬼的概率为1,P(B2|A2)=1
用条件概率与全概率公式可得:
理解:
考虑不同的基本事件,可由不同的过程推导出同样的答案
三门问题
问题描述:有三道关着的门,门后有不同价值的奖品,分别为车、羊、羊,玩家希望获得车,当玩家选择了一扇门后,主持人会打开一扇只含羊的门,然后问玩家要改变自己的选择吗?即改变前后,中奖的概率会变化吗?
解法:
不改变决策:主持人打不打开只含羊的门跟你没关系,中奖概率仅取决于第一次选择,P=1/3
改变决策:
直观解法:
假设1:选择的是羊,主持人打开了羊,于是换成车,bingo!
假设2:选择的是羊,主持人打开了羊,于是换成车,bingo!
假设3:选择的是车,主持人打开了两个羊中的一个,于是换成另一个羊,sad!
三个假设的事件概率相等,于是改变决策中奖的概率是P=2/3
贝叶斯公式:
玩家第一次打开的门是A,主持人打开的门是B,事件CarA定义为车在A的概率,事件OpenB定义为主持人打开B的概率
如果车在A门后,那么主持人选择BC中的一扇门打开,P(OpenB|CarA)=1/2
如果车在C门后,那么主持人只会选择把B打开,P(OpenB|CarC)=1
于是,车在A的后验概率为:
车在C的后验概率为:
故,玩家选择改变策略后,中奖概率从1/3提高到2/3
知乎上的一些回答:
"If you change, you win when your original choice was wrong; if you don't change, you win when your original choice was right." — Horst Hohberger
链接: https://www.hu.com/question/26709273/answer/157940623
你手头的这扇门,和另一扇门的区别是:另一扇门经过了一次考验,它曾经可能被排除掉,然而它并没有。你手头的门却一直被你保护着不被主持人排除掉,显然经历过考验的那扇门会更可靠。
链接: https://www.hu.com/question/26709273/answer/275756035
联想
玩家在面临三选一的抉择时,正确的概率为1/3,这个是事实,假设主持人排除掉错误答案的时机是在玩家在做选择前,主持人排除掉的选项玩家是无论如何也不会去选的,也就是说这时变成了二选一,当然正确的概率为1/2。
玩家做出三选一的抉择后,另外两扇门应该是等价的,主持人排除掉一个,那么两扇门就变得不等价了,正如知乎上所说的,另一扇门经过了一次考验,使得概率增强
两个问题的联系
错误的思考
酒鬼喝酒的概率是0.9,在A、B没被抓住,那么喝酒的事件被压缩到C上,喝酒的概率为0.9,在C中被抓到的概率为0.9
玩家三选一,主持人去掉一个错误答案,只剩一个正确答案和错误答案,于是概率为0.5
错在哪?
警察抓酒鬼之前,是不知道酒鬼的状态的,酒鬼有可能在家,也有可能在A、B、C中的一个,警察跑了两个酒吧,消除了两种喝酒状态,也就说降低了喝酒的概率,原来喝酒的概率是0.9,现在喝酒的概率是0.75
主持人去掉一个错误答案时,他是知道哪个是错误的,对于玩家而言,他中奖的概率提高了,原来是1/3,现在(改变决策)是2/3
扩展
如果酒鬼提前给警察打好招呼,肯定不去A和B,那如果警察先去A、B抓人,对酒鬼喝酒的概率没有影响,原来是0.9,现在还是0.9
如果主持人不告诉玩家一个错误答案,那玩家改变决策会对中奖的概率有影响吗?显然,玩家还是在三个选择中打转,中奖概率还是1/3
三个囚犯
问题描述:有A、B、C三个囚犯,其中一个人被赦免,另外两人被杀死,有一个看守知道谁被赦免了,但是他不能说谁被赦免了,他只能说两个要被杀死的人其中一个是谁,而且还不能告诉提问者是否被杀死。A问看守,看守说B要被杀死,求这种情况下,A被赦免的概率。
解法
A没问看守之前,A、B、C三人被赦免的概率都为1/3
设事件D为看守说出B要被杀死,事件A为A被赦免,事件B为B被赦免,事件C为C被赦免
如果A被赦免,则看守会从BC中选一个说死,则P(D|A)=1/2
如果B被赦免,看守不可能说B死,则P(D|B)=0
如果C被赦免,则看守只能说B死,则P(D|C)=1
那么A、B被赦免的后验概率为:
可以发现,当A问了看守后,他生存的概率还是1/3,而C的生存概率从1/3变为了2/3
理解
A问看守,看守只会说B或C会死一个,另一个相当于经过了一次考验,于是其被赦免的概率增强
其实像这种情形,如果A不关心其他人的死活,去询问看守是毫无意义的
从C被赦免概率增加来看,C会不会期待A去问看守呢?不会,因为看守有可能会说C死,所以C被赦免概率的增加是以经历一次生死考验为代价的
想利用好贝叶斯公式,关键是构建合理的事件,把方方面面都考虑到,计算过程是一目了然的
链接:https://www.jianshu.com/p/2509cef8d782
来源:
E. 必须学会的数学工具(三)——贝叶斯定理
如果说,世界上有什么定理是人生来就会的,我会毫不犹豫的说,贝叶斯定理。
贝叶斯定理是一种特殊的计算概率的方法,为什么说它特殊?
贝叶斯定理计算概率与频率学派计算概率有本质的不同。
贝叶斯学派计算的是主观概率,频率学派计算的是客观概率。
两者对概率的定义不同。
频率学派倾向定义为:“will it happen or not”。(发生或不发生)贝叶斯学派倾向定义为:“believe it or not”。(相信或不相信)
举个例子,求抛硬币、掷骰子每种可能性的概率。频率学派认为,当数据为无穷大时,得出的概率一定会无限接近均匀分布。抛硬币正反是50%,掷骰子是1/6,(即事件A在独立重复试验中发生的频率趋于极限P,那么这个极限就是该事件的概率。)这属于频率学派的思想。而贝叶斯学派的不同点在于,贝叶斯学派并不在意“事件”本身的建模,而是将自己置于观察者的位置,不断的通过观察获取“证据”。并把这些“证据”放在贝叶斯概率论的框架下,以推断事情的结果,“证据”越多,结果越准。
如果有两个人,使用贝叶斯定理计算相同一件事,得出的答案大概率上是有差异的,两人中,若有一人叫“知情者”,他对本事件有非常深的洞察。另一人叫“不知情者”,他对本事件一知半解。同一件事,对知情者来说是“确定性事件”,而对不知情者而言就是“随机事件”。
随机性并不源于事件本身是否发生,只是描述观察者对此事件的知识状态。
比如抛硬币100次,期许是正反各50次,结果正面85次,反面15次。
以贝叶斯概率论,出现了新的观测结果,就需要依照观测结果更新,打破之前的期许,上调得出正面的概率。
问:在生活中,贝叶斯定理哪里看得到?真的用得着吗?怎么用呢?
不论是新生儿对世界的探索与了解,还是企业家对商业的洞察与试错。都有贝叶斯定理的痕迹,它无处不在,只需有心人发现。
在回答用不用得着之前,先看下面这个问题。
请问广大宅男/宅女。
你发给女神/男神的微信,如果只有70%收到了回复,TA对你有意思的概率是多少?
没错,这个问题就可以用贝叶斯定理算出来。你说有没有用?想不想学呢?
贝叶斯定理公式
P(AIB)=P(BIA)*P(A)/P(B)
首先要弄清楚几个概念
先验概率:在考虑观测数据前,能表达不确定量P的概率分布。
后验概率:在考虑和给出相关证据或数据后所得到的条件概率。
条件概率:事件A在另外一个事件B已经发生条件下的发生概率,表示为p=(AIB)
可能性函数/似然函数:一种关于统计模型中参数的函数,用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
这四个抽象的表达一定让人晕,我们先实战一道题,从例题中学习比抽象的理解要高效的多。
贝叶斯定理有个非常经典的用法,将其用于疾病的筛查。
假设有一种病,得病的几率为万分之四,有一种疾病筛查技术,能检测是否染病,准确率达到99.9%,筛查结果是阳性,得病了。那么检查出阳性的情况下,真正患病的概率是多少?
仔细看题目中最重要的三个变量。
我们先设检查为阳性的概率是P(Y)。
2、得病的概率设为P(B)(先验条件,之所以称为“先验”,是因为不必考虑任何B方面的因素。)
3、设检查出阳性的情况下得病的概率为P(BIY)。(因为这是求得病的概率,所以代表得病的B在前,阳性是前提,放在后面。P(BIY)为后验概率。)
套入贝叶斯公式,得出算式:
P(BIY)=P(YIB)*P(B)/P(Y)
P(Y)=P(YIB)*P(B)+(1-P(YIB))*(1-P(B)),(筛查的概率不是100%,所以患者在没有得病的情况下,也可能是阳性。用1减去P,便能得出。)
万分之四=0.0004
99.9%=0.999
P(BIY)=0.999*0.0004/((0.0004*0.999)+(0.9996*0.001))
=0.285591
在检查结果为阳性时,患病概率是28.5%。
现在终于进入正题,如何用贝叶斯定理算男/女神对你有没有意思。
·设P(X)=P(喜欢一个人)=男/女神喜欢一个人的概率
·设P(H)=P(回微信)=男/女神正常情况回复微信的概率
·设P(XIH)=P(喜欢一个人I回微信)=回复微信的情况下喜欢一个人的概率
·设P(HIX)=P(回微信I喜欢一个人)=喜欢一个人时回复微信的概率
这些全部都是未知的,需要靠自己收集情报、调研或臆想得出。当然,这样准确度会很低。
我怎么可能这么不负责。教你几招提升准确率的方式。
邓巴数字。
“邓巴数字”也称“150人数字”,人类智力所允许的社交网络,上限约为150人。就算他微信里有上千的好友,最多和150人维持亲密关系。如果TA目前没有喜欢的人.......
同性朋友占65%以上。
你可以直接从150人里面去掉65%的竞争对手,使数据更精确。如果他是个同志的话.......
这是个看脸的社会。
你长得帅可以给自己加权重。要是长得丑..........
P(HIX)可以以自己的标准来设定。P(HIX)设为100%,P(H)为70%。
P(XIH),先用邓巴数字*(1-65%),假设你很漂亮,适当的给自己加点权重。比其他人高60%吧。其实还可以给特别不体面的人减一点权重。
我们将其带入贝叶斯公式:
P=(XIH)=P(HIX)*P(X)/P(H)
P=(XIH)=1*((150*0.35)*1.6)/0.7
=0.0435
概率为4.35%
在人类的基因中,给予了我们直觉,以指导我们的生存,而涉及到科学的领域,原始的直觉便不起作用了。用数学工具和理工科思维,是这个科技腾飞的时代的生存法则。
贝叶斯定理,你学会了吗?
F. 文艺地解读贝叶斯定理
小李年方二八,身强力壮。参加单位组织的体检时,被检出 HIV 呈阳性。这惊雷轰得小李不省人事:自己明明生活检点,从没做过可能感染 HIV 的不良行为,这闹的是哪出啊!
假设整个人群感染 HIV 的概率是 0.08%。这家医院使用的检测方法对已经确诊携带 HIV 病毒的病人检测出阳性的概率是 99% (true positive rate),对没有携带 HIV 病毒的人检测呈阴性的概率是 99% (true negative rate)。聪明如你,帮小李算算他确实携带 HIV 病毒的概率是多少?
不着急,再想 5 分钟 ......
答案是 7.34%。
一个简单而自然的算法是假设总共有 10000 人,由于 HIV 发病率是 0.08%,所以总共有 8 个人携带 HIV 病毒。由于没有携带 HIV 病毒的人检测呈阴性的概率是 99% ,所以这家医院使用的检测方法有 1% 的概率会导致没有携带 HIV 病毒的人被检测呈阳性,即 10000 人中总共会有 (10000 - 8) x 1% = 99.92 人实际上没有携带 HIV 病毒,但检测出了阳性。针对己确诊患病的 8 人中,会有 8 x 99% = 7.92 人检测呈阳性。所以,小李携带 HIV 病毒的概率是 7.92 / (99.92 + 7.92) = 7.34%。嗯,虽如晴天惊雷,但其实概率也没那么高嘛,特别是小李生活检点,不吸毒的前提下,误诊的概率极大。
wikipedia 上有个 专门的条目 讨论这种忽视基础概率问题的页面。
贝叶斯定理是关于条件概率的定理,其公式如下:
P(A|B) = P(A) P(B|A) / P(B)
解释一下公式:
我们用贝叶斯定理再算一下小李的患病概率,假设 A 表示携带 HIV 病毒事件,B 表示检测结果呈阳性事件,那么我们要求解的就是在检测结果呈阳性的情况下的真实患病概率,即 P(A|B)。P(A) 表示患病概率,在我们的例子里是 0.08%。P(B|A) 表示如果一个人己确诊患病,检测呈阳性的概率是多少,从例子里知道 P(B|A) = 99%。P(B) 表示随机一个人被检测呈阳性的概率是多少,这包括两部分的数据,一部分是患病且被检测呈阳性的概率,它的数值是 0.08% x 99%,另一部分没患病但被检测呈阳性的概率,它的数值是 (1 - 0.08%) x (1 - 99%)。根据贝叶斯定理:
P(A|B) = P(A) P(B|A) / P(B) = 0.08% x 99% / ((0.08% x 99%) + (1 - 0.08%) x (1 - 99%)) = 7.34%
看来和我们的土办法算出来的数值是相同的。
就象解读这个千疮百孔的世界一样,很多人选择把眼睛闭起来,选择对它视而不见。而一些人选择热爱这个千疮百孔的世界,努力前行,让这个世界变得美好一点点。
文艺地解读贝叶斯定理是可能的。P(A) 是基础概率,每个人刚来到这个世界上时,对这个世界的美好感受都有一个初始值,随着他的不断成长,碰到了事件 B ,而 B 刚好是这个世界美好的一面,比如一个学渣被女神鼓励,然后奋发图强,变成学霸,那么事件 B 的发生无疑会增加这个人对这个世界的美好程度的感知,所以 P(A|B) 增加了。身体发肤,受之父母。有些人的颜值就是比较高,高颜值的你如果是学渣的话,被女神鼓励的概率应该也是会比较高的,不知不觉,你的先天优势让 P(B|A) 更高。
这是对贝叶斯定理最文艺的解读,没有之一。
然并卵。除了看完感觉有道理之外,你还是不理解贝叶斯定理定理的本质。一个事物的本质往往是朴素的,朴素到没有女神,颜值也处在正态分布的正中间。
维基网络上的这张图包含了简易的推导贝叶斯定理的过程,简洁,朴素。
而从事件发生频率角度解读贝叶斯定理的的另外一张图片,让我们和贝叶斯走得更近。
学点概率,用更朴素的视角去看世界。
G. 从三个例子理解贝叶斯定理
## 贝叶斯定理
问题描述:酒鬼有90%概率外出喝酒,只有可能在A、B、C三个酒吧,概率相等,警察想去抓酒鬼,已知去了前两个酒吧都没抓到他,求去第三个酒吧抓到酒鬼的概率。
自己的解法:
李永乐老师的解法:
理解:
问题描述:有三道关着的门,门后有不同价值的奖品,分别为车、羊、羊,玩家希望获得车,当玩家选择了一扇门后,主持人会打开一扇只含羊的门,然后问玩家要改变自己的选择吗?即改变前后,中奖的概率会变化吗?
解法:
联想
错误的思考
错在哪?
扩展
问题描述:有A、B、C三个囚犯,其中一个人被赦免,另外两人被杀死,有一个看守知道谁被赦免了,但是他不能说谁被赦免了,他只能说两个要被杀死的人其中一个是谁,而且还不能告诉提问者是否被杀死。A问看守,看守说B要被杀死,求这种情况下,A被赦免的概率。
解法
理解
H. 怎么简单理解贝叶斯公式
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1761)曾提出计算条件概率的公式用来解决如下一类问题:假设H,H…,H互斥且构成一个完全事件,已知它们的概率P(H),i=1,2,…,n,现观察到某事件A与H,H…,H相伴随机出现,且已知条件概率P(A|H),求P(H|A)。
按贝叶斯定理进行投资决策的基本步骤是:
1、列出在已知项目B条件下项目A的发生概率,即将P(A│B)转换为P(B│A);
2、绘制树型图;
3、求各状态结点的期望收益值,并将结果填入树型图;
4、根据对树型图的分析,进行投资项目决策。
I. 实例详解贝叶斯推理的原理
实例详解贝叶斯推理的原理
姓名:余玥 学号:16010188033
【嵌牛导读】:贝叶斯推理是由英国牧师贝叶斯发现的一种归纳推理方法,后来的许多研究者对贝叶斯方法在观点、方法和理论上不断的进行完善,最终形成了一种有影响的统计学派,打破了经典统计学一统天下的局面。贝叶斯推理是在经典的统计归纳推理——估计和假设检验的基础上发展起来的一种新的推理方法。与经典的统计归纳推理方法相比,贝叶斯推理在得出结论时不仅要根据当前所观察到的样本信息,而且还要根据推理者过去有关的经验和知识。
【嵌牛鼻子】:贝叶斯推理/统计
【嵌牛提问】:贝叶斯推理的原理是什么?如何通过实例理解贝叶斯原理?
【嵌牛正文】:
贝叶斯推理是一种精确的数据预测方式。在数据没有期望的那么多,但却想毫无遗漏地,全面地获取预测信息时非常有用。
提及贝叶斯推理时,人们时常会带着一种敬仰的心情。其实并非想象中那么富有魔力,或是神秘。尽管贝叶斯推理背后的数学越来越缜密和复杂,但其背后概念还是非常容易理解。简言之,贝叶斯推理有助于大家得到更有力的结论,将其置于已知的答案中。
贝叶斯推理理念源自托马斯贝叶斯。三百年前,他是一位从不循规蹈矩的教会长老院牧师。贝叶斯写过两本书,一本关于神学,一本关于概率。他的工作就包括今天著名的贝叶斯定理雏形,自此以后应用于推理问题,以及有根据猜测(ecated guessing)术语中。贝叶斯理念如此流行,得益于一位名叫理查·布莱斯牧师的大力推崇。此人意识到这份定理的重要性后,将其优化完善并发表。因此,此定理变得更加准确。也因此,历史上将贝叶斯定理称之为 Bayes-Price法则。
译者注:ecated guessing 基于(或根据)经验(或专业知识、手头资料、事实等)所作的估计(或预测、猜测、意见等)
影院中的贝叶斯推理
试想一下,你前往影院观影,前面观影的小伙伴门票掉了,此时你想引起他们的注意。此图是他们的背影图。你无法分辨他们的性别,仅仅知道他们留了长头发。那你是说,女士打扰一下,还是说,先生打扰一下。考虑到你对男人和女人发型的认知,或许你会认为这位是位女士。(本例很简单,只存在两种发长和性别)
现在将上面的情形稍加变化,此人正在排队准备进入男士休息室。依靠这个额外的信息,或许你会认为这位是位男士。此例采用常识和背景知识即可完成判断,无需思考。而贝叶斯推理是此方式的数学实现形式,得益于此,我们可以做出更加精确的预测。
我们为电影院遇到的困境加上数字。首先假定影院中男女各占一半,100个人中,50个男人,50个女人。女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。存在25个长发女人和2位长发男人,由此推断,门票持有者为女士的可能性很大。
100个在男士休息室外排队,其中98名男士,2位女士为陪同。长发女人和短发女人依旧对半分,但此处仅仅各占一种。而男士长发和短发的比例依旧保持不变,按照98位男士算,此刻短发男士有94人,长发为4人。考虑到有一位长发女士和四位长发男士,此刻最有可能的是持票者为男士。这是贝叶斯推理原理的具体案例。事先知晓一个重要的信息线索,门票持有者在男士休息室外排队,可以帮助我们做出更好的预测。
为了清晰地阐述贝叶斯推理,需要花些时间清晰地定义我们的理念。不幸的是,这需要用到数学知识。除非不得已,我尽量避免此过程太过深奥,紧随我查看更多的小节,必定会从中受益。为了大家能够建立一个基础,我们需要快速地提及四个概念:概率、条件概率、联合概率以及边际概率。
概率
一件事发生的概率,等于该事件发生的数目除以所有事件发生的数目。观影者为一个女士的概率为50位女士除以100位观影者,即0.5 或50%。换作男士亦如此。
而在男士休息室排列此种情形下,女士概率降至0.02,男士的概率为0.98。
条件概率
条件概率回答了这样的问题,倘若我知道此人是位女士,其为长发的概率是多少?条件概率的计算方式和直接得到的概率一样,但它们更像所有例子中满足某个特定条件的子集。本例中,此人为女士,拥有长发的人士的条件概率,P(long hair | woman)为拥有长发的女士数目,除以女士的总数,其结果为0.5。无论我们是否考虑男士休息室外排队,或整个影院。
同样的道理,此人为男士,拥有长发的条件概率,P(long hair | man)为0.4,不管其是否在队列中。
很重要的一点,条件概率P(A | B)并不等同于P(B | A)。比如P(cute | puppy)不同于P(puppy | cute)。倘若我抱着的是小狗,可爱的概率是很高的。倘若我抱着一个可爱的东西,成为小狗的概率中等偏下。它有可能是小猫、小兔子、刺猬,甚至一个小人。
联合概率
联合概率适合回答这样的问题,此人为一个短发女人的概率为多少?找出答案需要两步。首先,我们先看概率是女人的概率,P(woman)。接着,我们给出头发短人士的概率,考虑到此人为女士,P(short hair | woman)。通过乘法,进行联合,给出联合概率,P(woman with short hair) = P(woman) * P(short hair | woman)。利用此方法,我们便可计算出我们已知的概率,所有观影中P(woman with long hair)为0.25,而在男士休息室队列中的P(woman with long hair)为0.1。不同是因为两个案例中的P(woman)不同。
相似的,观影者中P(man with long hair) 为0.02,而在男士休息室队列中概率为0.04。
和条件概率不同,联合概率和顺序无关,P(A and B)等同于P(B and A)。比如,同时拥有牛奶和油炸圈饼的概率,等同于拥有油炸圈饼和牛奶的概率。
边际概率
我们最后一个基础之旅为边际概率。特别适合回答这样的问题,拥有长发人士的概率?为计算出结果,我们须累加此事发生的所有概率——即男士留长发的概率加女士留长发的概率。加上这两个概率,即给出所有观影者P(long hair)的值0.27,而男休息室队列中的P(long hair)为0.05。
贝叶斯定理
现在到了我们真正关心的部分。我们想回答这样的问题,倘若我们知道拥有长发的人士,那他们是位女士或男士的概率为?这是一个条件概率,P(man | long hair),为我们已知晓的P(long hair | man)逆方式。因为条件概率不可逆,因此,我们对这个新条件概率知之甚少。
幸运的是托马斯观察到一些很酷炫的知识可以帮到我们。
根据联合概率计算规则,我们给出方程P(man with long hair)和P(long hair and man)。因为联合概率可逆,因此这两个方程等价。
借助一点代数知识,我们就能解出P(man | long hair)。
表达式采用A和B,替换“man”和“long hair”,于是我们得到贝叶斯定理。
我们回到最初,借助贝叶斯定理,解决电影院门票困境。
首先,需要计算边际概率P(long hair)。
接着代入数据,计算出长发中是男士的概率。对于男士休息室队列中的观影者而言,P(man | long hair)微微0.8。这让我们更加确信一直觉,掉门票的可能是一男士。贝叶斯定理抓住了在此情形下的直觉。更重要的是,更重要的是吸纳了先验知识,男士休息室外队列中男士远多于女士。借用此先验知识,更新我们对一这情形的认识。
概率分布
诸如影院困境这样的例子,很好地解释了贝叶斯推理的由来,以及作用机制。然而,在数据科学应用领域,此推理常常用于数据解释。有了我们测出来的先验知识,借助小数据集便可得出更好的结论。在开始细说之前,请先允许我先介绍点别的。就是我们需要清楚一个概率分布。
此处可以这样考虑概率,一壶咖啡正好装满一个杯子。倘若用一个杯子来装没有问题,那不止一个杯子呢,你需考虑如何将这些咖啡分这些杯子中。当然你可以按照自己的意愿,只要将所有咖啡放入某个杯子中。而在电影院,一个杯子或许代表女士或者男士。
或者我们用四个杯子代表性别和发长的所有组合分布。这两个案例中,总咖啡数量累加起来为一杯。
通常,我们将杯子挨个摆放,看其中的咖啡量就像一个柱状图。咖啡就像一种信仰,此概率分布用于显示我们相信某件事情的强烈程度。
假设我投了一块硬币,然后盖住它,你会认为正面和反面朝上的几率是一样的。
假设我投了一个骰子,然后盖住它,你会认为六个面中的每一个面朝上的几率是一样的。
假设我买了一期强力球彩票,你会认为中奖的可能性微乎其微。投硬币、投骰子、强力球彩票的结果,都可以视为收集、测量数据的例子。
毫无意外,你也可以对其它数据持有某种看法。这里我们考虑美国成年人的身高,倘若我告诉你,我见过,并测量了某些人的身高,那你对他们身高的看法,或许如上图所示。此观点认为一个人的身高可能介于150和200cm之间,最有可能的是介于180和190cm之间。
此分布可以分成更多的方格,视作将有限的咖啡放入更多的杯子,以期获得一组更加细颗粒度的观点。
最终虚拟的杯子数量将非常大,以至于这样的比喻变得不恰当。这样,分布变得连续。运用的数学方法可能有点变化,但底层的理念还是很有用。此图表明了你对某一事物认知的概率分布。
感谢你们这么有耐心!!有了对概率分布的介绍,我们便可采用贝叶斯定理进行数据解析了。为了说明这个,我以我家小狗称重为例。
兽医领域的贝叶斯推理
它叫雅各宾当政,每次我们去兽医诊所,它在秤上总是各种晃动,因此很难读取一个准确的数据。得到一个准确的体重数据很重要,这是因为,倘若它的体重有所上升,那么我们就得减少其食物的摄入量。它喜欢食物胜过它自己,所以说风险蛮大的。
最近一次,在它丧失耐心前,我们测了三次:13.9镑,17.5镑以及14.1镑。这是针对其所做的标准统计分析。计算这一组数字的均值,标准偏差,标准差,便可得到小狗当政的准确体重分布。
分布展示了我们认为的小狗体重,这是一个均值15.2镑,标准差1.2镑的正态分布。真实得测量如白线所示。不幸的是,这个曲线并非理想的宽度。尽管这个峰值为15.2镑,但概率分布显示,在13镑很容易就到达一个低值,在17镑到达一个高值。太过宽泛以致无法做出一个确信的决策。面对如此情形,通常的策略是返回并收集更多的数据,但在一些案例中此法操作性不强,或成本高昂。本例中,小狗当政的(Reign )耐心已经耗尽,这是我们仅有的测量数据。
此时我们需要贝叶斯定理,帮助我们处理小规模数据集。在使用定理前,我们有必要重新回顾一下这个方程,查看每个术语。
我们用“w” (weight)和 “m” (measurements)替换“A” and “B” ,以便更清晰地表示我们如何用此定理。四个术语分别代表此过程的不同部分。
先验概率,P(w),表示已有的事物认知。本例中,表示未称量时,我们认为的当政体重w。
似然值,P(m | w),表示针对某个具体体重w所测的值m。又叫似然数据。
后验概率,P(w | m),表示称量后,当政为某个体重w的概率。当然这是我们最感兴趣的。
译者注:后验概率,通常情况下,等于似然值乘以先验值。是我们对于世界的内在认知。
概率数据,P(m),表示某个数据点被测到的概率。本例中,我们假定它为一个常量,且测量本身没有偏向。
对于完美的不可知论者来说,也不是什么特别糟糕的事情,而且无需对结果做出什么假设。例如本例中,即便假定当Reign的体重为13镑、或1镑,或1000000 镑,让数据说话。我们先假定一个均一的先验概率,即对所有值而言,概率分布就一常量值。贝叶斯定理便可简化为P(w | m) = P(m | w)。
此刻,借助Reign的每个可能体重,我们计算出三个测量的似然值。比如,倘若当政的体重为1000镑,极端的测量值是不太可能的。然而,倘若当政的体重为14镑或16镑。我们可以遍历所有,利用Reign的每一个假设体重值,计算出测量的似然值。这便是P(m | w)。得益于这个均一的先验概率,它等同于后验概率分布 P(w | m)。
这并非偶然。通过均值、标准偏差、标准差得来的,很像答案。实际上,它们是一样的,采用一个均一的先验概率给出传统的统计估测结果。峰值所在的曲线位置,均值,15.2镑也叫体重的极大似然估计(MLE)。
即使采用了贝叶斯定理,但依旧离有用的估计很远。为此,我们需要非均一先验概率。先验分布表示未测量情形下对某事物的认知。均一的先验概率认为每个可能的结果都是均等的,通常都很罕见。在测量时,对某些量已有些认识。年龄总是大于零,温度总是大于-276摄氏度。成年人身高罕有超过8英尺的。某些时候,我们拥有额外的领域知识,一些值很有可能出现在其它值中。
在Reign的案例中,我确实拥有其它的信息。我知道上次它在兽医诊所称到的体重是14.2镑。我还知道它并不是特别显胖或显瘦,即便我的胳膊对重量不是特别敏感。有鉴于此,它大概重14.2镑,相差一两镑上下。为此,我选用峰值为14.2镑。标准偏差为0.5镑的正态分布。
先验概率已经就绪,我们重复计算后验概率。为此,我们考虑某一概率,此时Reign体重为某一特定值,比如17镑。接着,17镑这一似然值乘以测量值为17这一条件概率。接着,对于其它可能的体重,我们重复这一过程。先验概率的作用是降低某些概率,扩大另一些概率。本例中,在区间13-15镑增加更多的测量值,以外的区间则减少更多的测量值。这与均一先验概率不同,给出一个恰当的概率,当政的真实体重为17镑。借助非均匀的先验概率,17镑掉入分布式的尾部。乘以此概率值使得体重为17镑的似然值变低。
通过计算当政每一个可能的体重概率,我们得到一个新的后验概率。后验概率分布的峰值也叫最大后验概率(MAP),本例为14.1镑。这和均一先验概率有明显的不同。此峰值更窄,有助于我们做出一个更可信的估测。现在来看,小狗当政的体重变化不大,它的体型依旧如前。
通过吸收已有的测量认知,我们可以做出一个更加准确的估测,其可信度高于其他方法。这有助于我们更好地使用小量数据集。先验概率赋予17.5镑的测量值是一个比较低的概率。这几乎等同于反对此偏离正常值的测量值。不同于直觉和常识的异常检测方式,贝叶斯定理有助于我们采用数学的方式进行异常检测。
另外,假定术语P(m)是均一的,但恰巧我们知道称量存在某种程度的偏好,这将反映在P(m)中。若称量仅输出某些数字,或返回读数2.0,占整个时间的百分之10,或第三次尝试产生一个随机测量值,均需要手动修改P(m)以反映这一现象,以便后验概率更加准确。
规避贝叶斯陷阱
探究Reign的真实体重体现了贝叶斯的优势。但这也存在某些陷阱。通过一些假设我们改进了估测,而测量某些事物的目的就是为了了解它。倘若我们假定对某一答案有所了解,我们可能会删改此数据。马克·吐温对强先验的危害做了简明地阐述,“将你陷入困境的不是你所不知道的,而是你知道的那些看似正确的东西。”
假如采取强先验假设,当Reign的体重在13与15镑之间,再假如其真实体重为12.5镑,我们将无法探测到。先验认知认为此结果的概率为零,不论做多少次测量,低于13镑的测量值都认为无效。
幸运的是,有一种两面下注的办法,可以规避这种盲目地删除。针对对于每一个结果至少赋予一个小的概率,倘若借助物理领域的一些奇思妙想,当政确实能称到1000镑,那我们收集的测量值也能反映在后验概率中。这也是正态分布作为先验概率的原因之一。此分布集中了我们对一小撮结果的大多数认识,不管怎么延展,其尾部再长都不会为零。
在此,红桃皇后是一个很好的榜样:
爱丽丝笑道:“试了也没用,没人会相信那些不存在的事情。”
“我敢说你没有太多的练习”,女王回应道,“我年轻的时候,一天中的一个半小时都在闭上眼睛,深呼吸。为何,那是因为有时在早饭前,我已经意识到存在六种不可能了。”来自刘易斯·卡罗尔的《爱丽丝漫游奇境》