真正的高手,一生都在贯彻贝叶斯定律!
丹尼尔·卡尼曼在他的《思考,快与慢》里,就特地突出了初始概率对贝叶斯方法的重要性。
如何获得相对靠谱的初始概率,是个硬功夫,它需要你的经验,人脉,平时的深度思考,有时甚至和扭曲的变形,思维方式都有关。
作者:Anglophile,原载于自私的美德(ID:Anglophiles),原标题《所谓高手,就是把自己活成了贝叶斯定理》
人生中最重要的问题,在某些情况下,真的就只是概率问题。
---皮埃尔-西蒙·拉普拉斯(1749-1827)
先讲一个真实的故事。
我的一个夫妻朋友有了二胎,由于太太年龄较长,所以医生警告说,你们的孩子有可能会得唐氏综合症。朋友很紧张,那怎么办?医生说,可以做羊水穿刺,以确诊是不是真的得了。
朋友很开心。不过呢,医生又说,羊水穿刺也有可能会失败,那样你们的孩子就没了。这下朋友纠结了,一边是唐氏综合症,而是孩子没了,这可怎么做决定?
医生后来又说,高龄产妇得唐氏综合症的概率大约是2%,羊水穿刺检测失败的概率大约是1%。这下简单了,坚决不做啊。
所以,我们发现,一旦知道了某件事情发生的准确概率,我们的决定就瞬间简单了起来。但问题是,我们怎么能知道这些概率呢?
一枚硬币,正反面各50%,一个袋子里100个球,30个黑球,70个红球,摸出一个红球的概率是70%,很多人觉得所谓的概率,都是计算出来的。 。
那,假设一个黑盒子,你事先不知道里面多少黑球,多少红球,怎么办呢?其实,现实世界里,我们面临的这种情况都没法计算,都是黑盒子却需要去判断概率的问题。
频率派和贝叶斯派
传统的方法叫频率派。关于频率和概率的区别,很多人不熟悉。简单的说,概率说的是事情未来发生的可能性,而频率说的是对某事进行观察或者实验,发生的次数和总次数的比值。
概率是事情本身的一个固有属性,是一个固定值,而频率是变化的,样本频率,频率越接近概率。根据大数定理,当样本无穷大时,频率等于概率。
你抛硬币10次,不见得会正面反面各5次,但是你抛1万次,那基本是正反各50%。那个那个黑盒子,你不断的从里面随机的拿球出来,统计黑球和红球的比例,次数“足够多”时,你得到的那个频率,就接近真实的概率。
这个方法用了上百年,现在仍然被广泛使用,某些有人疾病的发病率,飞机和火车的出事概率等等,都是利用大样本的统计,逼近真实概率。
但是,我们稍微深入的思考一下,就会发现这个方法的两个局限:
第一,你只有积累了一定数量的样本,才能有一个对概率的初步判断,你只扔5次,只取10个球,基于小样本转化的概率很可能错的离谱。
第二,如果这个黑盒子够黑,你连里面总共有多少个球都没概念,甚至里面的球的总数量都是变化的,这时你就没法判断什么叫“足够多”。
现实世界里,我们碰到的大量问题,根本就会发现这么多现成的数据。还有很多新兴事物,压根没有先例,一种新发现的疾病,一个新的产品,一种新的市场策略,那怎么判断概率呢?瞎蒙吗?
也对,也不对。
这就需要贝叶斯学派了。