多伦多华夏网 chineseintoronto.ca - 加拿大华人之网 子女教育 房地产 家居 旅游  资讯

 找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

一键登录:

图文热点
    查看: 101|回复: 0

    「生活概率论-4」Beta分布的起源——顺序统计Order Statistics

    [复制链接]

    9

    主题

    11

    帖子

    453

    积分

    版主

    Rank: 7Rank: 7Rank: 7

    积分
    453
    发表于 2018-2-20 10:27:07 | 显示全部楼层 |阅读模式

    没有应用数学,只有数学的应用。概率论作为数学的一个重要分支,成功的让许多人望而却步。其实日常生活中有很多概率论的实际应用。想不想让随机迷茫的人生变得明朗可控?带着具体问题出发,让好奇心战胜恐惧感,尽情感受数学之美吧。

    [生活概率论-3] 中只是囫囵吞枣的秀了一下Beta分布的用法,知其然也要知其所以然。其实每一个分布都有出生地,而且他们之间都是亲戚关系,有千丝万缕的联系。这次就追根溯源Beta分布的家世。

    生活中大部分场景都是无需在意随机变量的顺序的。比如连续掷10次骰子,一般只关心出现6点的次数、平均点数,而不关心每次点数的排序。但有些场景,比如统计全班同学的身高,除了关心均值、方差外,还会关心中位数、最高、最矮。这就意味着需要对一组随机变量进行排序了。

    现在把这个问题数学化。把身高看做随机变量X,全班有30个同学,就有30个随机变量{X_1,X_2,...X_30}。学生的身高服从同一个分布 D(比如正态分布)。假设每个学生的身高都是独立的(基因决定身高,而不是学校的营养加餐),那么这组随机变量就是独立同分布的,记作i.i.d。问,最高身高高过1.8米的概率是多少?身高中位数在[1.6, 1.7]米的概率是多少?以便衡量这个班的学生身高是否正常。

    下面再进行简化:

      只考虑5个随机变量{X_1, X_2, X_3, X_4, X_5},好理解一些

      X 服从连续分布。这样,就不会出现两个X的值相同的情况了。如果用离散分布就容易碰到相同值;即使是连续分布,在实际场景中,因为测量精度的关系,也可能出现相同值。但我们假设这种情况出现的概率极低,可以用值不同的模型来近似,从而避免很多技术性的细节

      限制这个连续分布为(0, 1)区间上的均匀分布Uniform(0, 1)

    每次从Uniform(0, 1)分布中抽样出一组X后,就可以对他们进行排序,获得严格从小到大排列的5个新的随机变量{Y_1, Y_2, Y_3, Y_4, Y_5},其中0 < Y_1 < Y_2 < Y_3 < Y_4 < Y_5 < 1。对排好序的随机变量进行分析的过程,就是Order Statistic。其中典型的问题是,Y_4服从什么分布呢?乍一看无从下手,其实有十分巧妙且实用的方法。

    考虑Y_4 < 0.4 的情形,如下图。要出现这种情况,有两种可能性:

      仅 Y_5 > 0.4,其他都小于0.4。即有4个点在0.4的左侧

      所有Y都小于0.4。即有5个点在0.4的左侧



    而图中任一圆点在 0.4 左侧的概率是p = 0.4。这样,原问题就转化为熟悉的掷硬币了。等价于,有一枚不均匀的硬币,出现正面的概率是p = 0.4,背面的概率是1 - p = 0.6。掷5次,其中至少出现4次正面的概率就是P(Y_4 < 0.4)。这不就是二项分布嘛,所以,



    既然找到了感觉,那就不要局限在具体问题上,而是开始研究更一般的情形。

      不限定 0.4 这个位置了,而是在 (0,1) 之间的任意值 x, P(X < x) = x = p

      不限制只有 5 个随机变量了,而是 n 个

      不只求 Y_4 了,而是任意一个 Y_k, k∈[1, n]

    于是:



    减号后面的求和就是参数为 (k - 1, n, p) 的二项分布的累计分布函数。根据维基百科词条,整套求和可以“简化”为Regularized incomplete beta function:



    其中,







    别被公式吓到,附录中会给出详细的推导过程。此处只要能注意到两个性质即可。一个是 B(x, y) = B(y, x),另一个是



    好,整理一下思路 P(Y_k < p; n) 就是 Y_k 所服从的分布的累计分布函数,要想获得PDF(概率密度函数),只需对p求导即可:



    看出Beta分布的模样来了吧,只需令 α = k,β = n - k + 1,就能得到标准的 Beta(α, β) 分布了。

    稍微梳理一下。既然这个 Y_k 服从Beta分布,那么对 p 求导之前的那个 I_p 就是Beta的CDF了,而且它跟二项分布的CDF互补(1减)。厉害了,我们把顺序统计、二项分布、Beta分布全都联系在一起

      从Uniform(0, 1)上抽样出的 n 个 X 中,第 k 小的值,即 Y_k,服从分布 Beta(k, n - k + 1)

      Y_k 的CDF就是 Beta(k, n - k + 1) 的CDF,就是P(Y_k < p; n)


      P(Y_k < p; n) 是 Uniform(0, 1) 抽样出n个数,至少 k 个数在 (0, p) 区间里的概率

      P(Y_k < p; n) 是 Uniform(0, 1) 抽样出n个数,至多 k - 1 个数在 (0, p) 区间里的概率

      P(Y_k < p; n) 是 Uniform(0, 1) 抽样出n个数,至多 k - 1 个数在 (1 - p, 1) 区间里的概率

    为了直观呈现第k小的数的分布,我们绘制出PDF函数图像。取n=11,相当于有11个数,排好序后,把(0,1)区间分成了12段。Beta(k, 11 - k + 1) 如下图:

      Y_0 是最小值,其分布在 p = 0 趋于11,因为 Y_0 越接近 0,越能确立其最小的地位

      Y_11 是最大值,其分布在 p = 1 趋于11,因为 Y_11 越接近 1,越能确立其最大的地位

      Y_2 一直到 Y_10,因为是从小到大排列的,而且采样来自均匀分布,所以直觉上应该等间距。实际也是如此。每个分布的极值点位置分别在 0.1, 0.2, ..., 0.9

      Y_2,因为是第二小的数,所以大概率的出现在[0.05, 0.15]区间里,Y_2 能在右半边出现的概率极低





    顺序统计还有很多应用,特别是在机器学习当中。比如更准确的计算百分位数,KNN算法(以后再讲)。特征提取时,经常要把一个连续的属性映射到True / False两个值上,顺序统计可以让每个值下的样本数量尽量相近。而且以后再遇到有Beta分布的问题,都可以在脑子里联想到多个随机变量排队后,在区间内互相挤占位置的情景,会让人对原问题有更深刻更全面的理解。

    p.s. 文中有一处带引号的“简化”。是因为公式看起来更复杂了,但计算上确实简单很多。以前计算二项分布的累计分布函数,需要计算非常多的阶乘,而且在电脑上特别容易溢出,往往是转化为log处理。而有了Regularized incomplete beta function,阶乘的计算少了,而且数值积分的速度也很快。C++ boost库中有函数实现了这个算法。

    【附录】



    注意到二项分布的累计分布函数中,求和有 k + 1 项,而 I_{1-p} 的第二个参数也是 k + 1,考虑能否逐步降低这个参数的值?所以先尝试推导出 I_{1-p} 的参数变化 1 的关系式。容易看出,



    进而



    同理可得,



    两式相减得到,



    所以,



    好,前面的都对应上了,就差最后一项,展开算一下,



    所以,



    证毕!



    原文地址:https://www.toutiao.com/a6474010141812326926/
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

    本版积分规则

    快速回复 返回顶部 返回列表