总体与样本

简单随机样本

通常用一个随机变量 `X` 来描述总体, 把该随机变量服从的分布 `F` 称为总体分布. 从总体中抽取的样本 `X_1, X_2, cdots, X_n` 常被假定为简单随机样本, 即要求它们是独立同分布 (independent and identically distributed, i.i.d.)的, 记为 `X_1, X_2, cdots, X_n "i.i.d"~ F`, 若 `F` 有密度 `f`, 也记为 `X_1, X_2, cdots, X_n "i.i.d"~ f`, 我们常对总体和总体分布不加以区分, 因此也记 `X_1, X_2, cdots, X_n "i.i.d"~ X`. 产生简单随机样本的过程称为简单随机抽样. 简单随机抽样可以视为 `n` 次重复独立试验.

  1. 服从正态分布的总体称为正态总体, 服从 Bernoulli 分布的总体称为 Bernoulli 总体, 等等.
  2. 在独立同分布的假定下, 概率论中的许多结论便有用武之地了. 今后在无特别说明的情况下, 样本都指简单随机样本.

统计量

为了对总体作出统计推断, 常常基于已知的样本, 构造样本的函数. 如果这个函数不含未知参数, 则称它为一个统计量 (statistic).

矩统计量

    设 `X_1, X_2, cdots, X_n` 为总体 `X` 的一个样本. 常用的矩统计量有:
  1. 样本均值 (sample mean): `bar X = 1/n sum_(i=1)^n X_i`.
  2. 样本方差 (sample variance): `S^2 = 1/(n-1) sum_(i=1)^n (X_i-bar X)^2`. `S = sqrt(S^2)` 称为样本标准差. `S^2` 又称为修正样本方差. 使用修正样本方差, 最大的好处是 `E(S^2) = D X`, 即用修正样本方差来估计总体方差 `D X` 时没有系统的偏差, 属于无偏估计.
  3. 样本 `k` 阶原点矩: `a_k = 1/n sum_(i=1)^n X_i^k`, `quad k = 1, 2, cdots`. 1 阶原点矩就是样本均值.
  4. 样本 `k` 阶中心矩: `m_k = 1/n sum_(i=1)^n (X_i-bar X)^k`, `quad k = 2, 3, cdots`. `k = 1` 时, 上式恒为零, 是平凡的情形. `k = 2` 时, 上式表示未修正的样本方差.
  5. 最后, 设 `(X_1, Y_1), cdots, (X_n, Y_n)` 是二维总体 `(X, Y)` 的一个样本, 则 `X` 和 `Y` 的样本协方差 (sample covariance) 定义为 `S_(X Y) = 1/n sum_(i=1)^n (X_i-bar X)(Y_i-bar Y)`.

验证 `bar X` 和 `S^2` 是无偏估计.

设 `E X = mu`, `D X = sigma^2`, 计算: `E(bar X) = 1/n sum_(i=1)^n E X_i = E X = mu`. `(n-1) E(S^2)`
`= E sum_(i=1)^n (X_i^2 - 2 X_i bar X + {:bar X:}^2)`
`= E( sum_(i=1)^n X_i^2 - n {:bar X:}^2)`
`= n[ E(X^2) - E({:bar X:}^2) ]`
`= n( D X - D bar X )`
`= n(sigma^2 - sigma^2/n)`
`= (n-1) sigma^2`.

次序统计量

    设 `X_1, X_2, cdots, X_n` 是总体 `X` 的一个样本, 将其按大小次序排列为 `X_((1)) le X_((2)) le cdots le X_((n))`, 我们定义如下几种次序统计量 (顺序统计量, order statistics):
  1. 样本极值 (extremum of sample): 样本的极小值 `X_((1))` 和极大值 `X_((n))` 的统称. `X_((n))-X_((1))` 称为样本极差 (sample range).
  2. 样本中位数 (sample median): `m_(1/2) = { X_(((n+1)//2)), if n" is odd"; 1/2[ X_((n//2)) + X_((n//2+1)) ], if n" is even"; :}`
  3. 样本 `p` 分位数 (sample `p`-quantile): `X_((|__(n+1)p__|))`, `quad 0 lt p lt 1`. `p = 1/2` 时, 即为样本中位数.

枢轴量

如果一个样本的函数仅含有一个未知参数, 且这个函数服从的分布已知, 则称它为一个枢轴量.

总体分位数 (分布的分位数)

设 `F(x)` 是随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt 1`, 称 `F_alpha` 是 `F(x)` 的水平 `alpha` 的上侧分位数, 如果 `P{X gt F_alpha} = alpha`, 即 `F(F_alpha) = 1-alpha`. 特别当 `F(x)` 严格单调时, `F_alpha` 由 `alpha` 唯一确定.

  1. `P{X le F_(1-alpha)} = 1 - P{X gt F_(1-alpha)}` `= 1-(1-alpha) = alpha`;
  2. `P{F_(1-alpha/2) lt X le F_(alpha/2)}` `= P{X gt F_(1-alpha/2)} - P{X gt F_(alpha/2)}` `= 1-alpha/2 - alpha/2 = 1-alpha`.

设 `F(x)` 是对称分布的随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt 1`, 称 `T_alpha` 是 `F(x)` 的水平 `alpha` 的双侧分位数, 如果 `P{|X| gt T_alpha} = alpha`, 即 `F(T_alpha) = 1-alpha/2`. 假设 `F(x)` 严格单调, 有 `T_alpha = F_(alpha/2)`, `F(alpha) + F(1-alpha) = 0`.

抽样分布

统计量或枢轴量的分布统称为抽样分布.

    Fisher 引理 设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本, `bar X` 和 `S^2` 分别为样本均值和样本方差, 则
  1. `bar X ~ N(mu, sigma^2/n)`;
  2. `bar X` 与 `S^2` 相互独立;
  3. `(n-1)/sigma^2 S^2 ~ chi_(n-1)^2`.
  1. 由 `X_1, X_2, cdots, X_n` 的独立性知, 它们的联合密度为 `(2pi sigma^2)^(-n/2) exp sum_(i=1)^n -(x_i-mu)^2/(2sigma^2)`. 取正交变换 `bm Y = bm(A X)`, 其中矩阵 `bm A` 的第一行全为 `1//sqrt n`: `bm A = [1/sqrt n, 1/sqrt n, 1/sqrt n, cdots, 1/sqrt n; 1/sqrt(1 * 2), 1/sqrt(1 * 2), 0, cdots, 0; 1/sqrt(2*3), 1/sqrt(2*3), 2/sqrt(2*3), cdots, 0; vdots, vdots, vdots, , vdots; 1/sqrt(n(n-1)), 1/sqrt(n(n-1)), 1/sqrt(n(n-1)), cdots, (n-1)/sqrt(n(n-1)) ]`. 因此 `Y_1 = 1/sqrt n sum_(i=1)^n X_i = sqrt n * bar X`,
    `sum_(i=1)^n Y_i^2 = |bm Y|^2 = |bm X|^2 = sum_(i=1)^n X_i^2`.
    在正交变换下, Jacobi 行列式为 1, 因此 `Y_1, cdots, Y_n` 的联合密度为 `(2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) sum_(i=1)^n (x_i^2-2 x_i mu + mu^2))` `= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=1)^n y_i^2-2 mu sqrt n y_1 + n mu^2))` `= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=2)^n y_i^2 + (y_1-sqrt n mu)^2))`. 因此 `Y_1, cdots, Y_n` 相互独立且都服从正态分布, 它们的方差均为 `sigma^2`, 其中 `Y_1` 的均值为 `sqrt n mu`, 其它 `Y_2, cdots, Y_n` 的均值为 `0`. 故结论 1. 成立.
  2. `(n-1)S^2 = sum_(i=1)^n (X_i^2 - bar X)` `sum_(i=1)^n X_i^2 - n bar X^2` `= sum_(i=1)^n Y_i^2 - Y_1^2` `= sum_(i=2)^n Y_i^2`. 因为 `Y_1, cdots, Y_n` 相互独立, 所以 `S^2` 与 `bar X` 独立.
  3. 最后由于 `Y_2, cdots, Y_n overset "iid"~ N(0, sigma^2)`, 因此 `((n-1)S^2)/sigma^2` `= sum_(i=2)^n (Y_i/sigma)^2` `~ chi^2(n-1)`.
    事实上, 我们有:
  1. 一组独立同分布的样本, 其均值和方差独立的充要条件是总体服从正态分布.
  2. Basu 定理: 设 `cc F = {f(x, theta), theta in Theta}` 为一分布族, `Theta` 为参数空间. `X_1, cdots, X_n` 是来自 `cc F` 的简单样本. 当 `T` 是一有界的充分完全统计量 (特别, 指数族在参数空间有内点时都是充分完全统计量) 时, 构作辅助统计量 `V`, 使 `V` 与 `theta` 无关. 则对任意 `theta in Theta`, `T, V` 相互独立.
    正态总体的抽样分布 设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本, `bar X` 和 `S^2` 分别为样本均值和样本方差, 则
  1. `U := (bar X - mu)/(sigma//sqrt n) ~ N(0,1)`;
  2. `chi^2 := (n-1)/sigma^2 S^2 ~ chi_(n-1)^2`; (记忆: `S^2/sigma^2 ~ (chi_(n-1)^2)/(n-1) = Gamma((n-1)/2, (n-1)/2)`)
  3. `T := (bar X-mu)/(S//sqrt n) ~ t_(n-1)`.

结论 1. 由 Fisher 引理的 1. 得到. 结论 2. 即为 Fisher 引理的结论 2. 现在证 3. 由于 `T = sigma/S U = U/sqrt((n-1)/sigma^2 S^2//(n-1))` 且由 Fisher 引理, `U` 与 `(n-1)/sigma^2 S^2` 相互独立. 所以由 t 分布的定义知 `T ~ t_(n-1)`.

枢轴量 `(n-1)/sigma^2 S^2` 可用于估计 `sigma^2` 而无需了解 `mu`, `T` 可用于估计 `mu` 而无需了解 `sigma^2`.

设总体服从标准正态分布, `T_1` 是样本二阶原点矩的 `n` 倍, `T_2` 是样本方差的 `n-1` 倍: `T_1 = sum_(i=1)^n X_i^2`,
`T_2 = sum_(i=1)^n (X_i-bar X)^2 = sum_(i=1)^n X_i^2 - n bar X^2`.
则 `T_1` 与 `T_2/T_1` 独立, 且 `T_2/T_1 ~ "Beta"((n-1)/2, 1/2)`.

正态总体的样本均值 `bar X` 与样本方差 `S^2` 独立, 所以它们各自的函数 `T_2 = (n-1)S^2`, `T_1-T_2 = n bar X^2` 之间是独立的. 又 `T_2 ~ chi_(n-1)^2`, `T_1-T_2 ~ chi_1^2`, 由 Beta 分布的相关定理知, `T_1` 与 `T_2/T_1` 独立, 且 `T_2/T_1 ~ "Beta"((n-1)/2, 1/2)`.

    双正态总体的抽样分布 设 `X ~ N(mu_1, sigma_1^2)`, `Y ~ N(mu_2, sigma_2^2)`, 分别从总体 `X, Y` 中抽取容量为 `m, n` 的样本, 设样本均值分别为 `bar X, bar Y`, 样本方差分别为 `S_1^2, S_2^2`. 则
  1. `U := ((bar X-bar Y)-(mu_1-mu_2))/sqrt(sigma_1^2/m + sigma_2^2/n) ~ N(0,1)`;
  2. `F := ((S_1//sigma_1)/(S_2//sigma_2))^2 ~ F_(m-1, n-1)`;
  3. 当 `sigma_1 = sigma_2 = sigma` 时, `T := ((bar X-bar Y)-(mu_1-mu_2))/(S sqrt(1/m+1/n)) ~ t_(m+n-2)`, 其中 `S^2` 是样本方差的加权平均: `S^2 := (m-1)/(m+n-2) S_1^2 + (n-1)/(m+n-2) S_2^2`.
    极限分布与大样本性质 设总体 `X` 的均值与方差分别为 `mu, sigma^2`, 样本均值与样本方差分别为 `bar X, S^2`, 则当样本容量 `n to oo` 时
  1. `U_n := (bar X-mu)/(sigma//sqrt n) overset L to N(0,1)`;
  2. `T_n := (bar X-mu)/(S//sqrt n) overset L to N(0,1)`.

结论 1. 由 Lindeberg-Lévy 中心极限定理得到.