大数定律!

| Views: | Total Words: 20k | Reading Time: 18 mins.

简单整理一下概率论大数定律部分的内容,感觉这部分真的厉害,借用公理化把概率真正讲清楚了。

注:这部分的基础大量建立在“各种收敛”的概念上。

以及吐槽一句,这个 MathJax 难用极了,不知道为什么需要先 \begin{aligned} \end{aligned} 一下才能用 \xrightarrow,有时间考虑搬一下博客。

Motivation

实验中发现,大量重复实验的结果呈现某种规律性,即每个事件出现的频率(在实验次数很大的时候)趋近于一个定值(在没有公理化时,这个就可以作为某种概率的定义)。

伯努利实验场合下的极限定理

伯努利实验是一个很简单的模型,我们可以首先借其来研究,而后我们再研究独立同分布的情况。

假设我们记 $X_1, X_2, \dots, X_n$ 是 n 次伯努利的结果(0/1,不发生/发生),这样频率即为发生次数/总次数,也即 $\frac{\sum_{i=1}^n X_i}{n}$.
之后我们为了方便会记一个前缀和 $S_m = \sum_{i=1}^m S_i$.

注意到“概率”这个概念在每个伯努利实验中是一个常量 $p$(简单的模型就是爽),我们前面说的那种“规律性”即为

左侧是一列随机变量,收敛到右侧一个常量(可以理解为常随机变量)。既然涉及到随机变量列的收敛,当然我们要考虑是什么收敛。这里我们先研究弱大数定律:规定若其依概率收敛到 p,那么其满足 弱大数定律

当然,对于伯努利实验场景,成功率 p 是个定值。那对于一般的情况,应该收敛到什么呢?答案是

即样本均值收敛到总体均值。特别地,若 $\textbf{E}X_k = a$,那么这个式子可以写成 $\frac{S_n}{n} \rightarrow a$,即我们所熟悉的“那个常数”,那个常数即是数学期望。

注意逻辑关系:我们的数学期望是用积分定义的,但我们本能地感觉到如果我们很多次重复进行这个实验,最终我们的平均结果会趋近于期望——大数定律保证了这件事。但是大数定律需要一些条件满足,也就是说不是每列随机变量都“符合大数定律”。

总之我们有了第一个大数定律,由于是作为引入,它当然非常地弱,以至于我们后面会借助更强的大数定律直接得出它:

伯努利大数定律

对独立的 n 次伯努利实验有

我们来证的第一个定理叫切比雪夫大数定律,它可以直接由切比雪夫不等式得出,因此叫这个名字。它不限制于伯努利实验中。

切比雪夫大数定律(《概率与测度》9.1.3)

(切比雪夫)设 $X_1, X_2, \dots, X_n, \dots$ 是两两不相关的随机变量序列,且每个随机变量方差有公共上界

其中两两不相关即 $cov(X_i, X_j) = 0$, 当然在这里只需要使用到等价条件:$\textbf{D}(X_i+X_j) = \textbf{D}X_i + \textbf{D}X_j$.

那么有其满足弱大数定律。

Proof: 首先有切比雪夫不等式

这个不等式可以直接由 Markov 不等式推出来:

我们考虑证原命题。对于任意的 $\epsilon > 0$,

证毕. 我们来借其说明一下伯努利大数定律。对于每个 $X_i$,有 $\textbf{D}X_i = p(1-p)$ 有界,故切比雪夫大数定律条件满足。而

得证.

其它

(马尔可夫大数定律)注意到证明中只要

即可,把有界条件改成这一条件即为马大数。

(泊松大数定律)推广伯努利实验过程,假设这些实验的 p 不等,即设第 k 次实验成功概率为 $p_k$. 那么有

注意到虽然概率不同,但是第 k 次的方差为 $p_k(1-p_k) \le \frac{1}{4}$ 有界。

辛钦大数定律

切比雪夫的不好之处就在其用到了二阶矩,但是在独立同分布场合其实不需要这个要求,辛钦对切比雪夫的推广就是其只用到了一阶矩的信息,就可以研究独立同分布的随机变量序列情况。

(辛钦)设 $X_1, X_2, \dots, X_n, \dots$ 独立同分布,且具有有限的数学期望

那么其满足弱大数律。

Proof: 证明需要用到特征函数的工具,这里写一下大纲。

由于其独立同分布,设 $X_i$ 特征函数为 $f(t)$,那么 $\frac{S_n}{n}$ 的特征函数即为 $f(\frac{t}{n})^n$. 由于一阶矩存在,可以对特征函数进行一阶泰勒展开

两边对 $n$ 取极限,可知其特征函数收敛到 $e^{iat}$,即“恒等于 $a$ 的随机变量的特征函数”。由逆极限定理知道其依分布收敛到常数 $a$,那么知其依概率收敛到常数 $a$。

顺便把关于特征函数和依分布收敛的知识补充在这里。

特征函数

定义:对于随机变量 $X$,设其分布函数为 $F_X(x)$,则其特征函数定义为

(实变量的复值函数)

意义:特征函数包含了随机变量的所有数字信息($k$ 阶矩),特征函数和分布函数互相唯一确定,进而和随机变量的概率分布互相唯一确定。

性质1 基本特征

  • $f(0) = 1$
  • $f(-t) = \overline{f(t)}$ (共轭)
    事实上,

性质2 一致连续

先证明 $\forall h \in \mathbb{R}$,

考虑到

那么一致收敛只要求

注意到 $\cos h X \le 1$,(对于概率测度,有界函数函数都是可积的)由控制收敛定理极限可交换,故一致收敛得证。

性质3 独立随机变量之和

对于独立随机变量 $X_1, X_2$,有

(不难得到复随机变量 $e^{itX_1}, e^{itX_2}$ 也是独立的)

此外,由此很容易得到随机变量在特征函数上的线性变换

性质4 特征函数与 $k$ 阶矩)

直接求导即可得到。那么有推论:若此随机变量的 $k$ 阶矩存在,则其特征函数可作如下展开:

下面我们来考虑为什么特征函数和分布函数是互相唯一确定的。由分布函数确定特征函数是显然的(计算式),那么反过来有如下结果:

(逆转公式)设随机变量的分布函数为 $F(x)$,特征函数为 $f(t)$,那么有

Proof:

先证明被积函数的有界性。

交换积分次序有

一个很重要的结果(Dirichlet 积分),证明这里略去:

那么

特别地,对于连续点有

(唯一性定理)特征函数唯一确定分布函数。在连续点上可以令 $x_1 \rightarrow -\infty$,则连续点的值都能确定。而分布函数的不连续点至多可数(这是因为分布函数单调),那么对于任意一点,一定能(从右边)找一列连续点逼近。证毕。

(特征函数与密度函数)对于特征函数,若满足

则其相应分布函数的导数存在并连续,且有

(连续型随机变量,特征函数和密度函数差一个傅里叶变换)

Proof: 由逆转公式,对于连续点 $x$,

取极限

依分布收敛

我们很早就考察过分布函数收敛到某个值的事情,但是我们知道分布函数 $F_n$ 收敛到 $F$ 并不意味着 $F$ 也是一个分布函数。例如:

其收敛到 $y=\frac{1}{2}$,显然不是分布函数。

同时我们注意到另一点:如果要求处处收敛,那么一列分布函数可能并不会像我们想的那样收敛到某个地方。一个例子:

我们自然会想其收敛到

但是对于不连续点 $x=0$,$F_n(0)=1$,而 $F(0) = 0$. 因此我们考虑放宽条件,只对连续点收敛。

(定义)随机变量 $X_1, X_2, \dots, X_n, \dots$ 的分布函数分别为 $F_{X_1}, F_{X_2}, \dots, F_{X_n}, \dots$, 随机变量 $X$ 的分布函数为 $F_X$,且对于 $F_X$ 的所有连续点 $x$,都有

则称 $\{X_n\}$ 依分布收敛到 $X$,记作 $X_n \xrightarrow{d} X $。

对于区间 $(a, b]$,若 $a, b$ 均为 $F_X$ 连续点,称其为连续区间。对于连续区间有此性质:

(依分布收敛的等价刻画)我们知道分布函数和概率分布其实可以说是一个东西,这条等价刻画更加实用(也可以作为定义),它反映的是从概率分布这个测度的眼光来看,依分布收敛实际上是积分的等价性:

$X_n \xrightarrow{d} X$ 当且仅当对于任意的 $\mathbb{R}$ 上的有界连续函数 $f$,有

也即 $\mu_{X_n}(f) \rightarrow \mu_X(f)$ 或者 $\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]$。

(Proof Sketch)这个推原定义:考虑如果对于任意的连续区间 $(a, b]$,取 $f = 1_{(a, b]}$,有

那么再令 $a$ 趋于负无穷就结束了。问题是 $f$ 不是有界连续函数:可以用有界连续函数逼近。

原定义推这个:原定义相当于在示性函数上成立积分相等,那非常经典地可以用示性函数逼近连续函数。

关于依分布收敛,最重要的定理还是这个:

(特征函数刻画依分布收敛)设 $\{X_n\}, X$ 是随机变量,$\{f_n\}, f$ 为相应的特征函数。那么

可惜证明很繁琐。这里提一个简单的方向(左推右):考虑特征函数也是一个特殊的积分式子,因此由依分布收敛的积分相等的性质得证。左推右需要用到 Prohorov 定理,这里略去。

(概率论这个课程的本质就是,定理很优美很有用,但是超级难证,因为公理化的工作太恶心人了,所以有的就当艺术鉴赏吧)

依分布收敛和其它收敛的关系

  • 若 $ X_n \xrightarrow{P} X$,则 $X_n \xrightarrow{d} X$。
  • 设 $\{X_n\}$ 在同一个概率空间下,则 $X_n \xrightarrow{d} C \Longleftrightarrow X_n \xrightarrow{P} C$。

(1)只要证明对于任意有界连续函数 $f$,都有 $\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]$。对于任意的 $\omega$,我们记 $x_n = X_n(\omega)$,$x = X(\omega)$。由于 $f$ 一致收敛,对于任意的 $\epsilon > 0$,存在 $\delta > 0$,使得若 $x_n-x < \delta$,则 $f(x_n)-f(x) < \epsilon$。

令 $n$ 趋于 0 得第二项为 0,由于 $\epsilon$ 任意,那么有 $\textbf{E}[f(x_n)] - \textbf{E}[f(x)]$ 趋于 0,毕。

(2)只要左推右。对于任意的 $\epsilon > 0$,

毕。

中心极限定理

大数定律说明了样本均值(相当于是一堆独立同分布随机变量之和,乘个系数)在大量取样之下逼近实际均值。而中心极限定理直接给出这个“随机变量之和”在取样趋于无穷大时趋近正态分布的结果。

为什么是正态分布呢?一种解释是,正态分布的特征函数是傅里叶变换的不动点(稳定点)。后面可以从证明感受一下。

中心极限定理可以推出大数定律,这是因为大数定律只给了期望(即正态分布那个高峰)。研究中心极限定理我们要非常频繁地用到特征函数。

独立同分布的CLT

设 $\{X_n\}$ 为独立同分布随机变量,且 $\textbf{E}[X_1]=0$,$\textbf{E}[X_1^2]=1$,则 $\frac{Sn}{\sqrt{n}} \rightarrow N(0, 1)$

(Proof)只需证

那么有

可以看到和一阶矩为 0、二阶矩有限关系很大。

考虑一般的独立同分布,$\textbf{E}[X_1]=a$,$\textbf{D}[X_1]=b^2$,那么 $\frac{X_1-a}{b}$ 即为标准情况。所以我们一般不直接考虑 $\frac{S_n}{\sqrt{n}}$,而是考虑标准化和

这样我们就有独立同分布 CLT

也即 Lindeberg-Levin 定理。在分布函数上的应用即为

(注意:出现“随机变量求和”这种感觉的东西,或者参数带 n,都注意一下 CLT)

一般情况 CLT 的充要条件

现在考虑不独立同分布的情况。设 $a_k = \textbf{E}X_k$,$b_k^2 = \textbf{D}X_k$,那么 $\textbf{E}[S_n] = \sum_{k=1}^n a_k$,$\textbf{E}[S_n] = \sum_{k=1}^n a_k$,$\textbf{D}[S_n]=\sum_{k=1}^n b_k^2$ 此时标准化和数变为

令 $B_n^2 = \sum_{k=1}^n b_k^2 $,即为

我们首先希望的是上述 $\sigma$ 号中各项“均匀地小”,即对于任意的 $\tau > 0$,如下概率

故我们引出了 Lindeberg 条件:对于任意的 $\epsilon > 0$,有

其为 CLT 的充分条件。而要充要,还需要引入 Feller 条件:

我们声称 Feller + CLT 等价于 Lindeberg。由于证明比较繁琐,这里就粗浅地看一下一个方向:Lindeberg 推 Feller + CLT。这里我们令期望均为 0,方便讨论,则 Lindeberg 变为

那么

其中 L 是 Lindeberg 那一项。先由 $\epsilon$ 任意性,再令 n 趋于无穷,Feller 得证。

强大数定律

强大数定律主要借用“尾”这个概念刻画了收敛到常数的一些概念。具体来说,

相当于事件 $A$:$\{ \omega \mid \lim_{n \rightarrow +\infty} \frac{X_1 + X_2 + \dots + X_n}{n} \text{存在} \} $ 的概率为

(定义)对于一列独立的随机变量 $X_1, X_2, \dots$,令

称 $\mathcal{D}$ 为关于随机变量列 $\{X_n\}$ 的尾事件。(形象理解:改变前有限项随机变量的取值,不影响尾事件的发生概率)。

显然之前提到的 $A$ 就是尾事件。下面介绍的 Kolmogorov 0-1 律就是要说明,尾事件的概率为 0 或 1。为此我们先引出一个引理:

(Borel-Cautelli)设 $\{A_n\}$ 为一列事件。

  • 注:$\{A_k \text{i.o.}\} = \overline{\lim_{k \rightarrow +\infty}} A_k = \bigcap_{n=1}^{+\infty} \bigcup_{k=n}^{+\infty} A_k $,即为 $\{A_k\}$ 发生无穷多次。(事件列上极限:样本属于无穷多个 $A_k$;下极限:样本从某个下标开始就一直属于,即至多不属于有限个 $A_k$)。
  • 若此为独立事件列,则

(Proof)第一点,

第二点,记 $B_n = \sup_{k \ge n} A_k = \bigcup_{k=n} A_k $。注意到

因此对每个 $B_n$,

得证。

(Kolmogorov 0-1 律)尾事件 A 的概率为 0 或 1。

证明很简单,由尾事件定义可以推出 A 与 A 独立,从而就有

(竣工牌)

Author: SiriusNEO

Published on: Metric Space

All posts on this blog are licensed under the CC BY-NC-SA 4.0 license unless otherwise noted.