Likelihood和probability区别

今天看论文的时候,正好想到这个问题,现在从统计学/机器学习的角度来强答一波。

先用一句话来总结,然后再分别用两个例子来说明,最后将给出一些有趣的问题。(由于翻译可能会有歧义,所以关键概念都会给出双语。)

1. 一句话假设对某件事情,我们有一批观察数据(Data),概率(Probability)是指:在假定这批数据服从某个分布的前提下,某件特定的事情发生的几率大小。可能性(Likelihood)是指:在某件特定的事情发生的前提下,这批数据服从某个特定分布的几率大小。(备注:几率在这里作为中性词,泛指某一类事情发生的可能性。)

Difference Between Probability and Likelihood: Probability corresponds to finding the chance of something given a sample distribution of the data, while on the other hand, Likelihood refers to finding the best distribution of the data given a particular value of some feature or some situation in the data.[1]

2. 两个例子。TJ大学有一名数学本科生叫做X,经常旷课去网吧、酒吧、KTV玩耍,我们以他为例子来进行说明。

1) 例子1:TJ大学的数学本科生参加《数学分析》期末考试,假定这门课的期末成绩服从 N(80,4^{2}) ,请回答X同学《数学分析》期末成绩超过90分的几率是多少?用公式来表示就是: P(X>90|Data \sim N(80,4^{2})) ,这个就是概率(Probability)的实际含义。当然,《数学分析》的成绩可能服从其它的分布(比如说均匀分布等),但是此处事先将其指定了。

2) 例子2:TJ大学的数学本科生参加《数学分析》期末考试,已知X同学考了90分,请回答这门课的期末成绩服从 N(80,4^{2}) 的几率是多少?用公式来表示就是: Likelihood(Data \sim N(80,4^{2})|X>90) 。从X同学的平时表现来看,就连他都能考90分,说明老师期末考试大放水,因此很这门课考试的最低分可能就是90分,期末成绩可能服从 90到100之间的均匀分布U(90,100) 。换言之 ,Likelihood(Data \sim U(90,100)|X>90) >> Likelihood(Data \sim N(80,4^{2})|X>90)

3. 高维数据下的概率(Probability)问题。在高维情况下:“概率最大的事件不一定等价于最可能发生的事件?”

图1: 高维数据下的概率问题 (Source:《High-dimensional probability》第53页插图[2])

如图所示,在超高维情况下,密度(density)最高(等价于概率最大)的区域对应的事件,并不一定是最可能发生的事件

“For (truly) high-dimensional data, the region with the highest density must not necessarily coincide with the region of highest probability mass (called the typical set), that is, the region where data points most likely occur.“[3]

具体来说,假设一个数据集有n个特征(维度),每一个特征iid(独立同分布于)均值为零的一个正态分布。在低维情况下,比如说2维(如图2左边),随机生成的绝大大多数点都集中在圆点附近(因为圆点处发生的概率最大)。不同的是,在高维情况下,比如说100000维(如图2右边),随机生成的绝大大多数点远离了圆点,大部分都集中在一个超球体的表面上(该球体以原点为中心, \sqrt{n} 为半径)。

基于上述现象,我们对概率(Probability)在高维数据下的适用性难免会产生怀疑。比如说,目前的众多异常检测算法,不管是shollow还是deep的算法,大多数都是基于Density来构造的(它们最基本的assumption: 将发生在low-density区域的点定义为异常点,high-density区域的点定义为正常点。) 换言之,当我们在高维数据下进行异常检测的时候,我们必须得考虑,基本的统计学假设还适用吗?这让我不得不想到在物理学界的对应物:在低速宏观的世界架构下,牛顿力学完全适用,可以解决大部分问题,但是到了高速微观的世界架构下,我们就不得不发展出相对论、量子力学等新理论来解决问题。同样地,在低维数据的世界架构下,现有的数学/统计学理论可以很好地解决机器学习/人工智能所遇到的问题,但是到了超高维的世界架构下,现有的数学/统计学理论还能很好地适用于机器学习/人工智能吗?

参考文献:

[1]Probability VS Likelihood

[2] Vershynin R. High-dimensional probability: An introduction with applications in data science[M]. Cambridge university press, 2018.

[3] Ruff L, Kauffmann J R, Vandermeulen R A, et al. A unifying review of deep and shallow anomaly detection[J]. Proceedings of the IEEE, 2021.

Probabiity(概率):给定某一参数值,求某一结果的可能性

Likelihood(似然):给定某一结果,求某一参数值的可能性

概率(probability)和似然(likelihood),都是指可能性,都可以被称为概率,但在统计应用中有所区别,不加以区分的话,对于之后的学习认知都会有很大的阻碍。

为了更好的帮助自己和大家理解这二者之间的区别,希望通过三种方法去阐释:

  1. 图示
  2. 类比
  3. 举例

方法1:图示

假设现在有一组小鼠体重数据。该数据服从正态分布,该分布的均值是32克,标准差为2.5。该组数据的最小值是24g,最大值是40g。

那么概率是什么呢?当我们随机选取一只小鼠,它的体重在32g-34g之间的概率是落在该区间下,概率分布曲线下的面积。具体如下图所示:

图中,箭头所指的红色区域的面积,就是任选一小鼠,体重在32g-34g之间的概率。

该区域的面积为0.29,也就是说概率为29%。从数学上来讲,就是Pr(32g<体重<34g|μ=32 & σ=2.5)=0.29

那如果随机选取一只小鼠,体重超过34g的概率是多少呢?从数学上来讲,就是Pr(体重>34g | μ=32 & σ=2.5) = 0.21。用图表示就是下面红色部分的面积:

讲完了概率,那么什么是似然呢?假设我们已经知道了一只小鼠的体重是34g。如图所示:

其中,红色的点代表的是小鼠的体重。而其likelihood则是其对应的曲线上的点,即:红色的叉,对应的值为0.12。用数学公式表示就是L(μ=32 & σ=2.5|体重34g) = 0.12。也就是说,若小鼠体重为34g,该参数的可能是0.12

如果我们换一个概率分布,使用平均值为34,方差为2.5的正态分布呢?此时的似然值是多少呢?数学公式表示就是L(μ=34 & σ=2.5|体重34g) = 0.21。用图表示,就是下图中红色点对应的红色十字的值:0.21

即:给定一个数据,不同的参数具有不同的似然概率。

方法2:类比

该方法,是quora上的一个回答。在该回答中,他将概率与似然的关系比作是2b和a2的之间的关系。

我们假设一个函数为ab,该函数包含两个变量。如果你令b=2,这样我们就得到了一个关于a的二次函数,即a2:

如果令a=2,我们就得到了一个关于b的指数函数,即2b:

我们可以看到,虽然两个函数有着不同的名字,但是它们都来源于一个函数。同样的,概率和似然,也是如此:

p(x|θ)也是一个有着两个变量的函数。如果,我们将θ设为常量,则会得到一个概率函数(关于x的函数);如果,我们x设为常量,将得到似然函数(关于θ的函数)。

方法3:举例

假设,我们抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?用公式计算的话:

其中,n=10,P=0.5,Q=0.5,计算得:0.205。该方法计算的是概率

那似然呢?似然值就是求某一参数的可能性,放在本例中就是:抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?

抛10次,结果是6次正面向上,这是一个给定的结果。问“匀质”的可能性,即求参数值P=0.5的可能性。计算公式与上面相同。结果相同,只是视角不同。

与似然相关联的概念是最大似然估计。在本例中,问题就是:“抛10次,结果是6次正面朝上,那么,参数P的最大可能值是什么?”

我们知道硬币可能是匀质的,也可能是不均匀的,甚至不均匀的程度都各有不同。但是每种情况的概率各不相同。而最大似然估计,就是求出概率最大的那一个。

如果你还记得最大似然估计的计算方法,你会发现P=0.6

Toplist

最新的帖子

標籤