01
實際情境
實際情境摘自《思考,快與慢》第16章“ 因果關(guān)系比統(tǒng)計學(xué)信息更具說服力”。
一輛出租車在夜晚肇事后逃逸。
這座城市有兩家出租車公司,其中一家公司的出租車是綠色的,另一家是藍色的。
你知道以下數(shù)據(jù):
●這座城市85%的出租車是綠色的,15%是藍色的。
●一位目擊證人辨認出那輛肇事出租車是藍色的。當(dāng)晚,警察在出事地點對證人的證詞進行了測試,得出的結(jié)論是:目擊者在當(dāng)時能夠正確辨認出這兩種顏色的概率是80%,錯誤的概率是20%。
這場事故的出租車是藍色而不是綠色的概率是多少?
02
解題過程
貝葉斯定理是什么?
P(A|B)=P(B|A)×P(A)/P(B)
P(A)、P(B)是A、B事件的先驗概率或邊緣概率,P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗概率,P(B|A)的 含義同上。
這個情境中的A事件、B事件是什么呢?要求解的是這場事故的出租車是藍色的概率,細化下其實要求解的是證人證詞為藍色的前提下肇事車確為藍車的概率。那么A事件就可以定為肇事車為藍車,B事件為證人證詞為藍色。P(A)=15%,P(B)未知,P(B|A)是肇事車為藍車的前提下目擊證人正確分辨出藍色肇事車,其概率為80%。
接下去的重點就是P(B)的求解了,對P(B)使用全概率公式
P(B)=P(綠)P(B|綠)+P(A)P(B|A)=85%×20%+15%×80%=29%
最后得出 P(A|B)=80%×15%/29%=41%。
可以看出,最關(guān)鍵的步驟在于確定證人證詞為藍色的概率。
03
細解貝葉斯定理
貝葉斯定理求解出的貝葉斯概率與經(jīng)典概率是有區(qū)別的。
經(jīng)典概率基于概率論,在概率論中我們是基于已有的理論模型來推斷未知事件發(fā)生的概率;而貝葉斯概率則是基于統(tǒng)計學(xué)的,在統(tǒng)計學(xué)中我們觀察數(shù)據(jù),并推斷什么樣的理論模型可以解釋我們觀察到的數(shù)據(jù)。因此貝葉斯概率認為概率是我們個人的主觀概念,表明我們對某個事物是否發(fā)生的相信程度,換句話說,它解決的是來自外部的信息與我們大腦內(nèi)信念的交互關(guān)系。
上面采用了十分抽象的字母A、B表示事件,為了便于理解,我們采用另外一套字母體系:H和E(D)。其中H=hypothesis,E=evidence(或D=data)。如此一來,貝葉斯定理就可以表述為通過不斷的收集證據(jù)E(數(shù)據(jù)D)來強化對假設(shè)事件H的信心。因此,貝葉斯定理就表述為
P(H|E)=P(H)*P(E|H)/P(E)
P(H)—先驗概率,又叫基礎(chǔ)概率,是無任何條件限制下事件H發(fā)生的概率
P(H|E)—后驗概率
P(E|H)—條件似然
如果把H與~H看作兩類人,那么這兩類人針對同一件事會有不同的看法和傾
向,條件似然描述的就是這兩類不同的人針對事件E表現(xiàn)出的傾向概率。注意H
和~H兩者并不互斥,即P(E|H)+P(E|~H)≠1
P(E)—整體似然,在所有情況下證據(jù)E發(fā)生的概率,因為它起到歸一化的作用,所以又稱為歸一化常量。
具體計算過程可以解讀為后驗比(Posterior odds ratio)=先驗比(Prior odds ratio)×似然比(Likelihood ratio)1×似然比2×……,然后標(biāo)準(zhǔn)化。
采用另外一套字母體系后,最初提出的出租車問題可以簡化為
目擊證人能正確分辨出肇事車輛顏色的概率是80%,錯誤分辨出肇事車輛顏色的概率是20%,出租車輛是藍色的概率是15%,若目擊證人正確辨認出肇事車輛的前提下,肇事車輛是藍色出租車的概率是多少?(理解為通過目擊證人來校正肇事車輛是藍色出租車這個先驗事件的概率)
1. 這里的先驗事件是肇事車輛是藍色出租車,先驗概率P(A)=15%
2.“兩類人”就是能正確分辨兩種顏色和不能正確分辨兩種顏色的人,兩者是互斥的
因此,解題如下:
先驗比=15%:(1-15%)=3/17
似然比=80%:20%=4
后驗比=(3/17)×4=12/17
標(biāo)準(zhǔn)化后得后驗概率=(12/17)/(12/17+1)=41%
在這個情境里,來自外部的信息就是出租車輛是藍色的概率,而目擊證人能正確分辨出租車輛的顏色則是我們大腦內(nèi)的信念,通過貝葉斯定理解決了兩者的交互關(guān)系。
04
貝葉斯定理的實際應(yīng)用
通過上述的描述,我們知道貝葉斯定理是統(tǒng)計學(xué)知識,但其實它在心理學(xué)、經(jīng)濟學(xué)、神經(jīng)科學(xué)等領(lǐng)域都有巨大潛力。因為這類問題的研究對象往往具有極高的不確定性,是由大量較低一級單元組成的復(fù)雜系統(tǒng)。在這種情況下,我們可以采用貝葉斯建模(先驗和似然),將實驗數(shù)據(jù)和理論結(jié)合起來。
“裙子的顏色是黑色還是金色?”
和顏色相關(guān)的特征是反射率,黑色的物體代表反射率為0,白色的物體是1。反射光強既及入射光×反射率決定了我們看到的顏色,我們的眼睛只能檢測反射光強,而我們的物體識別問題實際上是想找到反射率這個特征(與顏色相關(guān))。但我們的眼睛收集到的反射光強既包含反射率,又包含入射光的信息,因此我們看到的黑白灰的色彩實際上使我們的大腦根據(jù)先驗和似然性做出的貝葉斯推斷。
這個例子中的先驗就是我們在自然界中,根據(jù)時間現(xiàn)場的光線強度等對于入射光強做出的估計數(shù)值;而似然就是不同顏色物體的反射率,兩者結(jié)合就可以推出反射光強的后驗分布,而這個分布的峰值,正是你最可能看到的顏色。
這個實驗很好的解釋了每個人看到的裙子顏色和日常經(jīng)驗里對現(xiàn)場光強的先驗有關(guān),而這也在告訴我們,我們看到的東西并非真實,因為我們接受的信息總是有限的,我們在不自覺地做大量的腦補,這些腦補組成了我們最終看到的世界。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。