简单整理一下概率论大数定律部分的内容,感觉这部分真的厉害,借用公理化把概率真正讲清楚了。
注:这部分的基础大量建立在“各种收敛”的概念上。
以及吐槽一句,这个 MathJax 难用极了,不知道为什么需要先 \begin{aligned} \end{aligned}
一下才能用 \xrightarrow
,有时间考虑搬一下博客。
Motivation
实验中发现,大量重复实验的结果呈现某种规律性,即每个事件出现的频率(在实验次数很大的时候)趋近于一个定值(在没有公理化时,这个就可以作为某种概率的定义)。
伯努利实验场合下的极限定理
伯努利实验是一个很简单的模型,我们可以首先借其来研究,而后我们再研究独立同分布的情况。
假设我们记 $X_1, X_2, \dots, X_n$ 是 n 次伯努利的结果(0/1,不发生/发生),这样频率即为发生次数/总次数,也即 $\frac{\sum_{i=1}^n X_i}{n}$.
之后我们为了方便会记一个前缀和 $S_m = \sum_{i=1}^m S_i$.
注意到“概率”这个概念在每个伯努利实验中是一个常量 $p$(简单的模型就是爽),我们前面说的那种“规律性”即为
左侧是一列随机变量,收敛到右侧一个常量(可以理解为常随机变量)。既然涉及到随机变量列的收敛,当然我们要考虑是什么收敛。这里我们先研究弱大数定律:规定若其依概率收敛到 p,那么其满足 弱大数定律。
当然,对于伯努利实验场景,成功率 p 是个定值。那对于一般的情况,应该收敛到什么呢?答案是
即样本均值收敛到总体均值。特别地,若 $\textbf{E}X_k = a$,那么这个式子可以写成 $\frac{S_n}{n} \rightarrow a$,即我们所熟悉的“那个常数”,那个常数即是数学期望。
注意逻辑关系:我们的数学期望是用积分定义的,但我们本能地感觉到如果我们很多次重复进行这个实验,最终我们的平均结果会趋近于期望——大数定律保证了这件事。但是大数定律需要一些条件满足,也就是说不是每列随机变量都“符合大数定律”。
总之我们有了第一个大数定律,由于是作为引入,它当然非常地弱,以至于我们后面会借助更强的大数定律直接得出它:
伯努利大数定律
对独立的 n 次伯努利实验有
我们来证的第一个定理叫切比雪夫大数定律,它可以直接由切比雪夫不等式得出,因此叫这个名字。它不限制于伯努利实验中。
切比雪夫大数定律(《概率与测度》9.1.3)
(切比雪夫)设 $X_1, X_2, \dots, X_n, \dots$ 是两两不相关的随机变量序列,且每个随机变量方差有公共上界:
其中两两不相关即 $cov(X_i, X_j) = 0$, 当然在这里只需要使用到等价条件:$\textbf{D}(X_i+X_j) = \textbf{D}X_i + \textbf{D}X_j$.
那么有其满足弱大数定律。
Proof: 首先有切比雪夫不等式
这个不等式可以直接由 Markov 不等式推出来:
即
我们考虑证原命题。对于任意的 $\epsilon > 0$,
证毕. 我们来借其说明一下伯努利大数定律。对于每个 $X_i$,有 $\textbf{D}X_i = p(1-p)$ 有界,故切比雪夫大数定律条件满足。而
得证.
其它
(马尔可夫大数定律)注意到证明中只要
即可,把有界条件改成这一条件即为马大数。
(泊松大数定律)推广伯努利实验过程,假设这些实验的 p 不等,即设第 k 次实验成功概率为 $p_k$. 那么有
注意到虽然概率不同,但是第 k 次的方差为 $p_k(1-p_k) \le \frac{1}{4}$ 有界。
辛钦大数定律
切比雪夫的不好之处就在其用到了二阶矩,但是在独立同分布场合其实不需要这个要求,辛钦对切比雪夫的推广就是其只用到了一阶矩的信息,就可以研究独立同分布的随机变量序列情况。
(辛钦)设 $X_1, X_2, \dots, X_n, \dots$ 独立同分布,且具有有限的数学期望
那么其满足弱大数律。
Proof: 证明需要用到特征函数的工具,这里写一下大纲。
由于其独立同分布,设 $X_i$ 特征函数为 $f(t)$,那么 $\frac{S_n}{n}$ 的特征函数即为 $f(\frac{t}{n})^n$. 由于一阶矩存在,可以对特征函数进行一阶泰勒展开
两边对 $n$ 取极限,可知其特征函数收敛到 $e^{iat}$,即“恒等于 $a$ 的随机变量的特征函数”。由逆极限定理知道其依分布收敛到常数 $a$,那么知其依概率收敛到常数 $a$。
顺便把关于特征函数和依分布收敛的知识补充在这里。
特征函数
定义:对于随机变量 $X$,设其分布函数为 $F_X(x)$,则其特征函数定义为
(实变量的复值函数)
意义:特征函数包含了随机变量的所有数字信息($k$ 阶矩),特征函数和分布函数互相唯一确定,进而和随机变量的概率分布互相唯一确定。
(性质1 基本特征)
- $f(0) = 1$
- $f(-t) = \overline{f(t)}$ (共轭)
事实上,
(性质2 一致连续)
先证明 $\forall h \in \mathbb{R}$,
考虑到
那么一致收敛只要求
注意到 $\cos h X \le 1$,(对于概率测度,有界函数函数都是可积的)由控制收敛定理极限可交换,故一致收敛得证。
(性质3 独立随机变量之和)
对于独立随机变量 $X_1, X_2$,有
(不难得到复随机变量 $e^{itX_1}, e^{itX_2}$ 也是独立的)
此外,由此很容易得到随机变量在特征函数上的线性变换
(性质4 特征函数与 $k$ 阶矩)
直接求导即可得到。那么有推论:若此随机变量的 $k$ 阶矩存在,则其特征函数可作如下展开:
下面我们来考虑为什么特征函数和分布函数是互相唯一确定的。由分布函数确定特征函数是显然的(计算式),那么反过来有如下结果:
(逆转公式)设随机变量的分布函数为 $F(x)$,特征函数为 $f(t)$,那么有
Proof: 记
先证明被积函数的有界性。
交换积分次序有
一个很重要的结果(Dirichlet 积分),证明这里略去:
那么
特别地,对于连续点有
(唯一性定理)特征函数唯一确定分布函数。在连续点上可以令 $x_1 \rightarrow -\infty$,则连续点的值都能确定。而分布函数的不连续点至多可数(这是因为分布函数单调),那么对于任意一点,一定能(从右边)找一列连续点逼近。证毕。
(特征函数与密度函数)对于特征函数,若满足
则其相应分布函数的导数存在并连续,且有
(连续型随机变量,特征函数和密度函数差一个傅里叶变换)
Proof: 由逆转公式,对于连续点 $x$,
取极限
依分布收敛
我们很早就考察过分布函数收敛到某个值的事情,但是我们知道分布函数 $F_n$ 收敛到 $F$ 并不意味着 $F$ 也是一个分布函数。例如:
其收敛到 $y=\frac{1}{2}$,显然不是分布函数。
同时我们注意到另一点:如果要求处处收敛,那么一列分布函数可能并不会像我们想的那样收敛到某个地方。一个例子:
我们自然会想其收敛到
但是对于不连续点 $x=0$,$F_n(0)=1$,而 $F(0) = 0$. 因此我们考虑放宽条件,只对连续点收敛。
(定义)随机变量 $X_1, X_2, \dots, X_n, \dots$ 的分布函数分别为 $F_{X_1}, F_{X_2}, \dots, F_{X_n}, \dots$, 随机变量 $X$ 的分布函数为 $F_X$,且对于 $F_X$ 的所有连续点 $x$,都有
则称 $\{X_n\}$ 依分布收敛到 $X$,记作 $X_n \xrightarrow{d} X $。
对于区间 $(a, b]$,若 $a, b$ 均为 $F_X$ 连续点,称其为连续区间。对于连续区间有此性质:
(依分布收敛的等价刻画)我们知道分布函数和概率分布其实可以说是一个东西,这条等价刻画更加实用(也可以作为定义),它反映的是从概率分布这个测度的眼光来看,依分布收敛实际上是积分的等价性:
$X_n \xrightarrow{d} X$ 当且仅当对于任意的 $\mathbb{R}$ 上的有界连续函数 $f$,有
也即 $\mu_{X_n}(f) \rightarrow \mu_X(f)$ 或者 $\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]$。
(Proof Sketch)这个推原定义:考虑如果对于任意的连续区间 $(a, b]$,取 $f = 1_{(a, b]}$,有
即
那么再令 $a$ 趋于负无穷就结束了。问题是 $f$ 不是有界连续函数:可以用有界连续函数逼近。
原定义推这个:原定义相当于在示性函数上成立积分相等,那非常经典地可以用示性函数逼近连续函数。
关于依分布收敛,最重要的定理还是这个:
(特征函数刻画依分布收敛)设 $\{X_n\}, X$ 是随机变量,$\{f_n\}, f$ 为相应的特征函数。那么
可惜证明很繁琐。这里提一个简单的方向(左推右):考虑特征函数也是一个特殊的积分式子,因此由依分布收敛的积分相等的性质得证。左推右需要用到 Prohorov 定理,这里略去。
(概率论这个课程的本质就是,定理很优美很有用,但是超级难证,因为公理化的工作太恶心人了,所以有的就当艺术鉴赏吧)
依分布收敛和其它收敛的关系
- 若 $ X_n \xrightarrow{P} X$,则 $X_n \xrightarrow{d} X$。
- 设 $\{X_n\}$ 在同一个概率空间下,则 $X_n \xrightarrow{d} C \Longleftrightarrow X_n \xrightarrow{P} C$。
(1)只要证明对于任意有界连续函数 $f$,都有 $\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]$。对于任意的 $\omega$,我们记 $x_n = X_n(\omega)$,$x = X(\omega)$。由于 $f$ 一致收敛,对于任意的 $\epsilon > 0$,存在 $\delta > 0$,使得若 $x_n-x < \delta$,则 $f(x_n)-f(x) < \epsilon$。
令 $n$ 趋于 0 得第二项为 0,由于 $\epsilon$ 任意,那么有 $\textbf{E}[f(x_n)] - \textbf{E}[f(x)]$ 趋于 0,毕。
(2)只要左推右。对于任意的 $\epsilon > 0$,
毕。
中心极限定理
大数定律说明了样本均值(相当于是一堆独立同分布随机变量之和,乘个系数)在大量取样之下逼近实际均值。而中心极限定理直接给出这个“随机变量之和”在取样趋于无穷大时趋近正态分布的结果。
为什么是正态分布呢?一种解释是,正态分布的特征函数是傅里叶变换的不动点(稳定点)。后面可以从证明感受一下。
中心极限定理可以推出大数定律,这是因为大数定律只给了期望(即正态分布那个高峰)。研究中心极限定理我们要非常频繁地用到特征函数。
独立同分布的CLT
设 $\{X_n\}$ 为独立同分布随机变量,且 $\textbf{E}[X_1]=0$,$\textbf{E}[X_1^2]=1$,则 $\frac{Sn}{\sqrt{n}} \rightarrow N(0, 1)$
(Proof)只需证
那么有
可以看到和一阶矩为 0、二阶矩有限关系很大。
考虑一般的独立同分布,$\textbf{E}[X_1]=a$,$\textbf{D}[X_1]=b^2$,那么 $\frac{X_1-a}{b}$ 即为标准情况。所以我们一般不直接考虑 $\frac{S_n}{\sqrt{n}}$,而是考虑标准化和
这样我们就有独立同分布 CLT
也即 Lindeberg-Levin 定理。在分布函数上的应用即为
(注意:出现“随机变量求和”这种感觉的东西,或者参数带 n,都注意一下 CLT)
一般情况 CLT 的充要条件
现在考虑不独立同分布的情况。设 $a_k = \textbf{E}X_k$,$b_k^2 = \textbf{D}X_k$,那么 $\textbf{E}[S_n] = \sum_{k=1}^n a_k$,$\textbf{E}[S_n] = \sum_{k=1}^n a_k$,$\textbf{D}[S_n]=\sum_{k=1}^n b_k^2$ 此时标准化和数变为
令 $B_n^2 = \sum_{k=1}^n b_k^2 $,即为
我们首先希望的是上述 $\sigma$ 号中各项“均匀地小”,即对于任意的 $\tau > 0$,如下概率
而
故我们引出了 Lindeberg 条件:对于任意的 $\epsilon > 0$,有
其为 CLT 的充分条件。而要充要,还需要引入 Feller 条件:
我们声称 Feller + CLT 等价于 Lindeberg。由于证明比较繁琐,这里就粗浅地看一下一个方向:Lindeberg 推 Feller + CLT。这里我们令期望均为 0,方便讨论,则 Lindeberg 变为
那么
其中 L 是 Lindeberg 那一项。先由 $\epsilon$ 任意性,再令 n 趋于无穷,Feller 得证。
强大数定律
强大数定律主要借用“尾”这个概念刻画了收敛到常数的一些概念。具体来说,
相当于事件 $A$:$\{ \omega \mid \lim_{n \rightarrow +\infty} \frac{X_1 + X_2 + \dots + X_n}{n} \text{存在} \} $ 的概率为
(定义)对于一列独立的随机变量 $X_1, X_2, \dots$,令
称 $\mathcal{D}$ 为关于随机变量列 $\{X_n\}$ 的尾事件。(形象理解:改变前有限项随机变量的取值,不影响尾事件的发生概率)。
显然之前提到的 $A$ 就是尾事件。下面介绍的 Kolmogorov 0-1 律就是要说明,尾事件的概率为 0 或 1。为此我们先引出一个引理:
(Borel-Cautelli)设 $\{A_n\}$ 为一列事件。
- 注:$\{A_k \text{i.o.}\} = \overline{\lim_{k \rightarrow +\infty}} A_k = \bigcap_{n=1}^{+\infty} \bigcup_{k=n}^{+\infty} A_k $,即为 $\{A_k\}$ 发生无穷多次。(事件列上极限:样本属于无穷多个 $A_k$;下极限:样本从某个下标开始就一直属于,即至多不属于有限个 $A_k$)。
- 若此为独立事件列,则
(Proof)第一点,
第二点,记 $B_n = \sup_{k \ge n} A_k = \bigcup_{k=n} A_k $。注意到
因此对每个 $B_n$,
得证。
(Kolmogorov 0-1 律)尾事件 A 的概率为 0 或 1。
证明很简单,由尾事件定义可以推出 A 与 A 独立,从而就有
(竣工牌)