总体与样本
- 总体 (population): 一个统计问题所研究的对象的全体.
- 个体 (individual): 总体的元素. 总体是由个体组成的.
- 总体容量: 总体中个体的数目. 容量为有限的总体称为有限总体,
否则称为无限总体.
- 样本 (sample): 总体中的选出的一部分个体, 用来代表总体.
从总体中选出样本这一行为称为抽样 (sampling).
- 样本容量 (sample size): 样本中个体的数目.
- 样本的两重性: 在得到抽样结果前, 视样本为随机向量
`(X_1, cdots, X_n)`; 观察到抽样结果后, 视样本为具体的数字 (观察值)
`(x_1, cdots, x_n)`.
- 样本空间 (sample space): 样本 `(x_1, cdots, x_n)`
可能取值的全体.
数理统计的任务正是统计推断: 已知总体的有限样本,
对总体分布作出推断.
简单随机样本
通常用一个随机变量 `X` 来描述总体,
把该随机变量服从的分布 `F` 称为总体分布.
从总体中抽取的样本 `X_1, X_2, cdots, X_n`
常被假定为简单随机样本,
即要求它们是独立同分布 (independent and identically
distributed, i.i.d.)的, 记为
`X_1, X_2, cdots, X_n "i.i.d"~ F`,
若 `F` 有密度 `f`, 也记为
`X_1, X_2, cdots, X_n "i.i.d"~ f`,
我们常对总体和总体分布不加以区分, 因此也记
`X_1, X_2, cdots, X_n "i.i.d"~ X`.
产生简单随机样本的过程称为简单随机抽样.
简单随机抽样可以视为 `n` 次重复独立试验.
统计量
为了对总体作出统计推断, 常常基于已知的样本, 构造样本的函数.
如果这个函数不含未知参数, 则称它为一个统计量 (statistic).
矩统计量
设 `X_1, X_2, cdots, X_n` 为总体 `X` 的一个样本.
常用的矩统计量有:
- 样本均值 (sample mean):
`bar X = 1/n sum_(i=1)^n X_i`.
- 样本方差 (sample variance):
`S^2 = 1/(n-1) sum_(i=1)^n (X_i-bar X)^2`.
`S = sqrt(S^2)` 称为样本标准差.
`S^2` 又称为修正样本方差. 使用修正样本方差, 最大的好处是
`E(S^2) = D X`, 即用修正样本方差来估计总体方差 `D X`
时没有系统的偏差, 属于无偏估计.
- 样本 `k` 阶原点矩:
`a_k = 1/n sum_(i=1)^n X_i^k`, `quad k = 1, 2, cdots`.
1 阶原点矩就是样本均值.
- 样本 `k` 阶中心矩:
`m_k = 1/n sum_(i=1)^n (X_i-bar X)^k`, `quad k = 2, 3, cdots`.
`k = 1` 时, 上式恒为零, 是平凡的情形.
`k = 2` 时, 上式表示未修正的样本方差.
- 最后, 设 `(X_1, Y_1), cdots, (X_n, Y_n)` 是二维总体 `(X, Y)`
的一个样本, 则 `X` 和 `Y` 的样本协方差 (sample covariance)
定义为
`S_(X Y) = 1/n sum_(i=1)^n (X_i-bar X)(Y_i-bar Y)`.
验证 `bar X` 和 `S^2` 是无偏估计.
设 `E X = mu`, `D X = sigma^2`, 计算:
`E(bar X) = 1/n sum_(i=1)^n E X_i = E X = mu`.
`(n-1) E(S^2)`
`= E sum_(i=1)^n (X_i^2 - 2 X_i bar X + {:bar X:}^2)`
`= E( sum_(i=1)^n X_i^2 - n {:bar X:}^2)`
`= n[ E(X^2) - E({:bar X:}^2) ]`
`= n( D X - D bar X )`
`= n(sigma^2 - sigma^2/n)`
`= (n-1) sigma^2`.
次序统计量
设 `X_1, X_2, cdots, X_n` 是总体 `X` 的一个样本, 将其按大小次序排列为
`X_((1)) le X_((2)) le cdots le X_((n))`,
我们定义如下几种次序统计量 (顺序统计量, order statistics):
- 样本极值 (extremum of sample): 样本的极小值 `X_((1))`
和极大值 `X_((n))` 的统称. `X_((n))-X_((1))` 称为样本极差
(sample range).
- 样本中位数 (sample median):
`m_(1/2) = {
X_(((n+1)//2)), if n" is odd";
1/2[ X_((n//2)) + X_((n//2+1)) ], if n" is even";
:}`
- 样本 `p` 分位数 (sample `p`-quantile):
`X_((|__(n+1)p__|))`, `quad 0 lt p lt 1`.
`p = 1/2` 时, 即为样本中位数.
枢轴量
如果一个样本的函数仅含有一个未知参数, 且这个函数服从的分布已知,
则称它为一个枢轴量.
总体分位数 (分布的分位数)
设 `F(x)` 是随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt 1`, 称
`F_alpha` 是 `F(x)` 的水平 `alpha` 的上侧分位数, 如果
`P{X gt F_alpha} = alpha`, 即 `F(F_alpha) = 1-alpha`.
特别当 `F(x)` 严格单调时, `F_alpha` 由 `alpha` 唯一确定.
- `P{X le F_(1-alpha)} = 1 - P{X gt F_(1-alpha)}`
`= 1-(1-alpha) = alpha`;
- `P{F_(1-alpha/2) lt X le F_(alpha/2)}`
`= P{X gt F_(1-alpha/2)} - P{X gt F_(alpha/2)}`
`= 1-alpha/2 - alpha/2 = 1-alpha`.
设 `F(x)` 是对称分布的随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt
1`, 称 `T_alpha` 是 `F(x)` 的水平 `alpha` 的双侧分位数, 如果
`P{|X| gt T_alpha} = alpha`, 即 `F(T_alpha) = 1-alpha/2`.
假设 `F(x)` 严格单调, 有 `T_alpha = F_(alpha/2)`, `F(alpha) +
F(1-alpha) = 0`.
抽样分布
统计量或枢轴量的分布统称为抽样分布.
Fisher 引理
设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本,
`bar X` 和 `S^2` 分别为样本均值和样本方差, 则
- `bar X ~ N(mu, sigma^2/n)`;
- `bar X` 与 `S^2` 相互独立;
- `(n-1)/sigma^2 S^2 ~ chi_(n-1)^2`.
- 由 `X_1, X_2, cdots, X_n` 的独立性知, 它们的联合密度为
`(2pi sigma^2)^(-n/2) exp sum_(i=1)^n -(x_i-mu)^2/(2sigma^2)`.
取正交变换 `bm Y = bm(A X)`, 其中矩阵 `bm A` 的第一行全为 `1//sqrt n`:
`bm A = [1/sqrt n, 1/sqrt n, 1/sqrt n, cdots, 1/sqrt n;
1/sqrt(1 * 2), 1/sqrt(1 * 2), 0, cdots, 0;
1/sqrt(2*3), 1/sqrt(2*3), 2/sqrt(2*3), cdots, 0;
vdots, vdots, vdots, , vdots;
1/sqrt(n(n-1)), 1/sqrt(n(n-1)), 1/sqrt(n(n-1)), cdots, (n-1)/sqrt(n(n-1))
]`.
因此
`Y_1 = 1/sqrt n sum_(i=1)^n X_i = sqrt n * bar X`,
`sum_(i=1)^n Y_i^2 = |bm Y|^2 = |bm X|^2 = sum_(i=1)^n X_i^2`.
在正交变换下, Jacobi 行列式为 1, 因此 `Y_1, cdots, Y_n` 的联合密度为
`(2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) sum_(i=1)^n (x_i^2-2 x_i mu + mu^2))`
`= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=1)^n y_i^2-2 mu sqrt n y_1 + n mu^2))`
`= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=2)^n y_i^2 + (y_1-sqrt n mu)^2))`.
因此 `Y_1, cdots, Y_n` 相互独立且都服从正态分布, 它们的方差均为
`sigma^2`, 其中 `Y_1` 的均值为 `sqrt n mu`, 其它 `Y_2, cdots, Y_n`
的均值为 `0`. 故结论 1. 成立.
-
`(n-1)S^2 = sum_(i=1)^n (X_i^2 - bar X)`
`sum_(i=1)^n X_i^2 - n bar X^2`
`= sum_(i=1)^n Y_i^2 - Y_1^2`
`= sum_(i=2)^n Y_i^2`.
因为 `Y_1, cdots, Y_n` 相互独立, 所以 `S^2` 与 `bar X` 独立.
- 最后由于 `Y_2, cdots, Y_n overset "iid"~ N(0, sigma^2)`, 因此
`((n-1)S^2)/sigma^2`
`= sum_(i=2)^n (Y_i/sigma)^2`
`~ chi^2(n-1)`.
正态总体的抽样分布
设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本,
`bar X` 和 `S^2` 分别为样本均值和样本方差, 则
- `U := (bar X - mu)/(sigma//sqrt n) ~ N(0,1)`;
- `chi^2 := (n-1)/sigma^2 S^2 ~ chi_(n-1)^2`;
(记忆: `S^2/sigma^2 ~ (chi_(n-1)^2)/(n-1) = Gamma((n-1)/2,
(n-1)/2)`)
- `T := (bar X-mu)/(S//sqrt n) ~ t_(n-1)`.
结论 1. 由 Fisher 引理的 1. 得到.
结论 2. 即为 Fisher 引理的结论 2.
现在证 3. 由于
`T = sigma/S U = U/sqrt((n-1)/sigma^2 S^2//(n-1))`
且由 Fisher 引理, `U` 与 `(n-1)/sigma^2 S^2` 相互独立.
所以由 t 分布的定义知 `T ~ t_(n-1)`.
设总体服从标准正态分布, `T_1` 是样本二阶原点矩的 `n` 倍,
`T_2` 是样本方差的 `n-1` 倍:
`T_1 = sum_(i=1)^n X_i^2`,
`T_2 = sum_(i=1)^n (X_i-bar X)^2 = sum_(i=1)^n X_i^2 - n bar X^2`.
则 `T_1` 与 `T_2/T_1` 独立, 且
`T_2/T_1 ~ "Beta"((n-1)/2, 1/2)`.
正态总体的样本均值 `bar X` 与样本方差 `S^2` 独立, 所以它们各自的函数
`T_2 = (n-1)S^2`, `T_1-T_2 = n bar X^2` 之间是独立的.
又 `T_2 ~ chi_(n-1)^2`, `T_1-T_2 ~ chi_1^2`,
由 Beta
分布的相关定理知, `T_1` 与 `T_2/T_1` 独立, 且 `T_2/T_1
~ "Beta"((n-1)/2, 1/2)`.
双正态总体的抽样分布
设 `X ~ N(mu_1, sigma_1^2)`, `Y ~ N(mu_2, sigma_2^2)`, 分别从总体 `X,
Y` 中抽取容量为 `m, n` 的样本, 设样本均值分别为 `bar X, bar Y`,
样本方差分别为 `S_1^2, S_2^2`.
则
- `U := ((bar X-bar Y)-(mu_1-mu_2))/sqrt(sigma_1^2/m + sigma_2^2/n) ~ N(0,1)`;
- `F := ((S_1//sigma_1)/(S_2//sigma_2))^2 ~ F_(m-1, n-1)`;
- 当 `sigma_1 = sigma_2 = sigma` 时,
`T := ((bar X-bar Y)-(mu_1-mu_2))/(S sqrt(1/m+1/n)) ~
t_(m+n-2)`,
其中 `S^2` 是样本方差的加权平均:
`S^2 := (m-1)/(m+n-2) S_1^2 + (n-1)/(m+n-2) S_2^2`.
极限分布与大样本性质
设总体 `X` 的均值与方差分别为 `mu, sigma^2`,
样本均值与样本方差分别为 `bar X, S^2`, 则当样本容量 `n to oo` 时
- `U_n := (bar X-mu)/(sigma//sqrt n) overset L to N(0,1)`;
- `T_n := (bar X-mu)/(S//sqrt n) overset L to N(0,1)`.
结论 1. 由 Lindeberg-Lévy 中心极限定理得到.