收敛性

    设 `{xi_n}` 是随机变量序列, `xi` 是随机变量,
  1. 几乎处处收敛 (强度: ★★★) 如果 `P{lim_(n to oo) xi_n = xi} = 1`, 则称 `{xi_n}` 以概率 1 收敛 (convergence in probability 1) 或几乎处处收敛于 `xi`, 记为 `xi_n overset "a.s." to xi`. 上式涉及的集合 `{omega: lim_(n to oo) xi_n(omega) = xi(omega)}` 上是否一定有概率定义, 我们稍后讨论.
  2. 依概率收敛 (强度: ★★) 如果对任意 `epsi gt 0` 成立 `lim_(n to oo) P{|xi_n - xi| lt epsi} = 1`, 即 `lim_(n to oo) P{|xi_n - xi| ge epsi} = 0`, 则称 `{xi_n}` 依概率收敛 (convergence in probability) 于 `xi`, 记为 `xi_n overset P to xi`.
  3. 依分布收敛 (强度: ★) 设 `xi_n, xi` 的分布函数分别为 `F_n(x), F(x)`, `n = 1, 2, cdots`, 如果在 `F(x)` 的每个连续点 `x` 处都成立 `lim_(n to oo) F_n(x) = F(x)`, 则称 `F_n(x)` 弱收敛于 `F(x)`, 记为 `F_n(x) overset W to F(x)`; 此时称 `{xi_n}` 依分布收敛 (convergence in distribution) 于 `xi`, 记为 `xi_n overset L to xi`.
  4. 积分平均收敛 (强度: ★★☆) 设 `p gt 1`, 如果 `{xi_n}` 与 `xi` 是 `L^p` 可积的, 且 `lim_(n to oo) E[(xi_n - xi)^p] = 0`, 则称 `{xi_n}` `L^p` 收敛到 `xi`, 记为 `xi_n overset (L^p) rarr xi`. 特别 `p = 2` 时, 我们称它是平方平均收敛的. `L^2` 空间是完备的, 因此从 `{xi_n} in L^2` 就能推出 `xi in L^2`.

分布函数列逐点收敛的极限函数未必是分布函数, 如 `F_n(x) = { 1, x ge n; 0, x lt n :}` 弱收敛于 0, 但 0 不是分布函数.

依分布收敛是几种收敛方式中最弱的一个. 直觉上, 它没有对随机变量逐点的性质作要求, 而只要求 `P(xi_n le a) to P(xi le a)`.

弱收敛极限的唯一性 分布函数列 `{F_n}` 弱收敛于 `F, G`, 则 `F = G`.

    几种收敛方式强度的比较
  1. 几乎处处收敛 `rArr` 依概率收敛; 反之, 依概率收敛 `rArr` 存在几乎处处收敛的子列;
  2. 依概率收敛 `rArr` 依分布收敛; 反之, 若 `{xi_n}` 依分布收敛到常数 `c`, 它也依概率收敛到常数 `c`;
  3. `r gt s gt 1` 时, `L^r` 收敛 `rArr` `L^s` 收敛 `rArr` 依概率收敛.

逆极限定理

大数定律

设 `{xi_n}` 是随机变量序列, `bar xi_n = 1/n sum_(i=1)^n xi_i`, 如果随机变量序列 `{bar xi_n - E bar xi_n}` 依概率收敛到零, 即对任意 `epsi gt 0`, 满足 `lim_(n to oo) P{ |bar xi_n - E bar xi_n| lt epsi } = 1`, 即 `lim_(n to oo) P{ |bar xi_n - E bar xi_n| ge epsi } = 0`, 则称序列 `{xi_n}` 满足大数定律.

个人理解, 大数定律是指大量的随机变量取平均值后, 其值能被常数数列刻画, 也就是说大量随机现象中存在着规律.

Bernoulli 试验情形*

Bernoulli 大数定律 设 `{xi_n}` 是独立同分布随机变量序列 (任意有限个变量都是独立的), `xi_n ~ B(1, p)`, 则 `{xi_n}` 满足大数定律.

利用收敛性的语言, Bernoulli 大数定律重新叙述为: `n` 次独立试验中, 事件发生的频率 `bar xi_n` 依概率收敛于概率 `p`.

方差存在的情形

  1. Markov (Марков) 大数定律 设 `{xi_n}` 是随机变量序列, 其方差存在且满足 Markov 条件 `lim_(n to oo) D bar xi_n = 0`, 则 `{xi_n}` 满足大数定律.
  2. Chebyshev (Чебышев) 大数定律 设 `{xi_n}` 是两两不相关的随机变量序列, 其方差存在且有共同的上界: `D xi_n le C`, `n = 1, 2, cdots`, 则 `{xi_n}` 满足大数定律.
  3. Poisson 大数定律 设 `{xi_n}` 是独立随机变量序列, `xi_n ~ B(1,p_n)`, 则 `{xi_n}` 满足大数定律.
  1. 对任意 `epsi gt 0`, 利用 Chebyshev 不等式, `0 le P{|bar xi_n - E bar xi_n| ge epsi}` `le (D bar xi_n)/epsi^2`. 两边令 `n to oo`, 由两边夹法则即得 `lim_(n to oo) P{bar xi_n - E bar xi_n| ge epsi} = 0`.
  2. 因为 `{xi_n}` 两两不相关, 有 `D bar xi_n = D(1/n sum_(i=1)^n xi_i)` `= 1/n^2 sum_(i=1)^n D xi_i le C/n`, 故 Markov 条件成立.
  3. 显然 `{xi_n}` 两两不相关. 由均值不等式 `D xi_n = p_n(1-p_n) le ((p_n+1-p_n)/2)^2 = 1/4`, 满足 Chebyshev 大数定律的条件.

由 Poisson 大数定律立即推出 Bernoulli 大数定律.

独立同分布情形

Khinchin (Хинчин) 大数定律 设 `{xi_n}` 是独立同分布随机变量序列, 其期望为 `mu`, 则 `{xi_n}` 服从大数定律, 即 `bar xi_n overset P to mu`.

将 `xi_n` 的特征函数 `f(t)` 展开 `f(t) = f(0) + f'(0) t + o(t)` `= 1 + "i"mu t + o(t)`. 由独立性, `bar xi_n` 的特征函数为 `[f(t/n)]^n = [1 + ("i"mu t + o(t))/n]^n` 对固定的 `t`, 令 `n to oo`, 上式趋于 `"e"^("i"mu t)` (o(t) 哪去了??), 即 `bar xi_n` 的特征函数趋于退化分布 `I_mu(x)` 的特征函数. 由逆极限定理, `bar xi_n overset L to mu`. 但 `mu` 为一常数, 所以 `bar xi_n overset P to mu`.

  1. Bernoulli 大数定律是 Khinchin 大数定律的特殊情形.
  2. Khinchin 大数定律已经去掉了方差存在的假定.
  3. 在数理统计中, 假定总体 `xi` 的均值 `mu` 未知, 通常的做法是对 `xi` 进行 `n` 次独立重复观察, 得到样本 `xi_1, xi_2, cdots, xi_n`. 由 Khinchin 大数定律, 样本均值 `bar xi_n` 依概率收敛于 `mu`, 这一性质称为相合性. 进一步若总体的 `k` 阶矩存在, 有 `1/n sum_(i=1)^n xi_i^k overset P to E xi^k`,
    `1/n sum_(i=1)^n (xi_i-bar xi_n)^k overset P to E(xi-mu)^k`.
    因此 Khinchin 大数定律保证了矩估计的相合性.

强大数定律

中心极限定理

设 `{xi_n}` 是独立随机变量序列, `bar xi_n = 1/n sum_(i=1)^n xi_i`, 假定 `E xi_i`, `D xi_i` 存在, 将 `bar xi_n` 标准化, 得到 `zeta_n = (bar xi_n - E bar xi_n)/sqrt(D bar xi_n)` `= (sum_(i=1)^n xi_i - sum_(i=1)^n E xi_i)/ sqrt(sum_(i=1)^n D xi_i)`. 设随机变量 `zeta_n` 的分布函数为 `F_n(x)`, 如果 `lim_(n to oo) F_n(x) = Phi(x)` (标准正态分布函数), 即 `lim_(n to oo) P{zeta_n lt x} = 1/sqrt(2 pi) int_-oo^x "e"^(-t^2/2) dt`, 则称 `{xi_n}` 服从中心极限定理 (central limit theorem).

Bernoulli 试验情形*

    De Moivre-Laplace 中心极限定理 设 `{xi_n}` 是独立同分布随机变量序列, `xi_n ~ B(1,p)`, `n = 1, 2, cdots`, `0 lt p lt 1`, `q = 1-p`, 则对任意有限区间 `[a,b]`, 当 `n to oo` 时有
  1. 局部极限定理: 对任意 `x_k := (k-n p)/sqrt(n p q) in [a,b]`, 一致地 (所取的 `N` 与 `k` 的选取无关) 有 `P{sum_(i=1)^n xi_n = k} ~ 1/sqrt(n p q) varphi(x_k)`, 其中 `varphi(x)` 是标准正态密度函数.
  2. `P{a le zeta_n lt b} to int_a^b varphi(x) dx`.

独立同分布情形

Lindeberg-Lévy 中心极限定理 设 `{xi_n}` 是独立同分布随机变量序列, 其方差满足 `0 lt sigma^2 lt oo`, 则 `{xi_n}` 满足中心极限定理.

将 `xi_n-mu` 的特征函数 `f(t)` 展开 `f(t) = f(0) + f'(0) t + (f''(0))/2 t^2 + o(t^2)` `= 1 - sigma^2/2 t^2 + o(t^2)`. 由独立性, `zeta_n` 的特征函数为 `[f(t/(sqrt n sigma))]^n` `= [1 - t^2/(2n) + o(t^2/n)]^n` `to "e"^(-t^2/2)` 即 `zeta_n` 的特征函数趋于标准正态分布的特征函数. 由逆极限定理, `zeta_n overset L to N(0,1)`.

  1. 由 Lindeberg-Lévy 中心极限定理立即得到 De Moivre-Laplace 中心极限定理.
  2. 在数理统计中, 假定样本 `xi_1, xi_2, cdots, xi_n` 独立同分布, 由 Lindeberg-Lévy 中心极限定理, 若总体的二阶矩存在, 则样本均值 `bar xi_i` 的分布渐近于 `N(mu, sigma^2/n)`, 进一步若总体的 `2k` 阶矩存在, 有 `1/n sum_(i=1)^n xi_i^k` 的分布渐近于 `N(E xi^k, 1/n D xi^k)`.
  3. Khinchin 大数定律和 Lindeberg-Lévy 中心极限定理适用于独立同分布情形, 这也是我们研究问题时最常见的假定, 是学习的重点.