常用离散型分布

常用离散型分布
名称 概率分布 `p_k`, `k in ZZ`, 未定义处概率视为 0 备注 数学期望 `sum_(k=1)^n p_k x_k` 方差 `E(xi-E xi)^2` 特征函数 `E "e"^("i"t xi)`
退化分布 `I_c(x)` `P{xi=c} = 1` `c` `0` `"e"^("i"t c)`
两点分布 (Bernoulli 分布) `p^k(1-p)^(1-k)` `k = 0,1`, `0 lt p lt 1` `p` `p(1-p)` `1 + p("e"^("i"t)-1)`
二项分布 `B(n, p)` `(n;k) p^k (1-p)^(n-k)` `0 le k le n`, `0 lt p lt 1` `np` `np(1-p)` `(1 + p("e"^("i"t)-1))^n`
Poisson 分布 `P(lambda)` `lambda^k/(k!) "e"^-lambda` `k ge 0`, `lambda gt 0` `lambda` `lambda` `"e"^(lambda("e"^("i"t)-1)) = lim_(n to oo)(1+lambda/n("e"^("i"t)-1))^n`
几何分布 `p (1-p)^(k-1)` `k ge 1`, `0 lt p lt 1` `p^-1` `p^-1(p^-1 - 1)` `(1 + p^-1("e"^(-"i"t)-1))^-1`
Pascal 分布 `(k-1;n-1) p^n (1-p)^(k-n)` `k ge n`, `0 lt p lt 1` `n p^-1` `n p^-1(p^-1 - 1)` `(1 + p^-1("e"^(-"i"t)-1))^-n`
负二项分布 `(-r;k) p^r (p-1)^k` `r gt 0`, `k ge 0`, `0 lt p lt 1` `r (p^-1 - 1)` `r p^-1 (p^-1 - 1)` `("e"^("i"t) (1 + p^-1("e"^(-"i"t)-1)))^-r`
超几何分布 `[(M;k) (N-M;n-k)]/{:(N;n):}` `0 le k le min{M,n}` `(nM)/N` `(nM)/N (1-M/N) * (N-n)/(N-1)` `sum_(k=0)^n p_k "e"^("i"t k)`
    超几何分布 得名于特殊函数中常用的超几何级数, 可以用来刻画不放回摸球试验、抽签等实际场景.
  1. 求超几何分布的数学期望和方差.
  2. 不放回摸球试验 设有红球 `M` 个, 黑球 `N-M` 个, 做 `n` 次不放回摸球试验. 则恰好一共摸出 `k` 个红球的概率为 `((M;k)(N-M;n-k))/((N;n))`.
  3. 抽签概率与顺序无关 在 `n` 次不放回摸球试验中, 每次摸出红球的概率都是 `M//N`.
  1. 利用等式 `k (M;k) = M (M-1; k-1)` `(k gt 0)` 和 Vandermonde 恒等式 有: `E X = sum_(k=0)^n k((M;k) (N-M;n-k))/((N;n))` `= (N;n)^-1 sum_(k=1)^n M (M-1; k-1) (N-M; n-k)` `= (N;n)^-1 M (N-1;n-1)` `= (n M)/N`. 类似由 `k(k-1) (M;k) = M(M-1) (M-2;k-2)` `(k gt 1)` 有 `E(X(X-1)) = (n(n-1)M(M-1))/(N(N-1))`. 于是 `D X = E(X^2) - (E X)^2` `= E(X(X-1)) + E X - (E X)^2` `= (n M)/N (((n-1)(M-1))/(N-1) + 1 - (n M)/N)` `= (n M)/N (1-M/N) * (N-n)/(N-1)`.
  2. 记 `n` 次不放回摸球试验中, 恰好摸出 `k` 个红球的概率为 `p_(n,k)`, 可得递推关系: `p_(n,k) = p_(n-1,k) (N-M-(n-1-k))/(N-n+1) + p_(n-1,k-1) (M-k+1)/(N-n+1)`. 和边界条件: `p_(n,0) = (N-M)^(ul n)/N^(ul n)`, `quad p_(n,n) = M^(ul n)/N^(ul n)`. 其中 `x^(ul n) = x(x-1)cdots(x-n+1)` 为 `x` 的 `n` 次下降幂. 可以验证答案适合上面的递推关系.
    直观地看, 恰好摸出 `k` 个红球的概率, 相当于所有的 `(N;n)` 种取法中, 先摸 `k` 个红球 (有 `(M;k)` 种取法), 再摸 `n-k` 个黑球 (有 `(N-M;n-k)` 种取法) 的取法所占的比例. 不过, 我们还没有证明摸球的概率与顺序无关. 这是 3. 的内容.
  3. `X_i = {1, if "第 "i" 次摸出红球"; 0, otherwise :}`,
    由 2, `sum_(i=1)^n X_i` 满足超几何分布, 由 1, `E(sum_(i=1)^n X_i) = (n M)/N`. 于是 `E(X_n) = E(sum_(i=1)^n X_i) - E(sum_(i=1)^(n-1) X_i)` `= M/N`, 即 `P{X_n=1} = M/N`.

常用连续型分布

常用连续型分布
名称 概率密度函数 `p(x)`, `x in RR`, 未定义处概率密度视为 0 备注 数学期望 `int_-oo^oo x "d"F(x)` 方差 `E(xi-E xi)^2` 特征函数 `E "e"^(it xi)`
正态分布 (Gauss 分布) `N(mu, sigma^2)` `1/(sqrt(2 pi) sigma) "e"^(-(x-mu)^2/(2sigma^2))` `sigma gt 0` `mu` `sigma^2` `exp("i" mu t - 1/2 sigma^2 t^2)`
`n` 元正态分布 `1/sqrt((2 pi)^n |bm Sigma|) "e"^[-1/2(bm x-bm mu)' bm Sigma^-1 (bm x-bm mu)]` `bm x, bm mu in RR^n`, `bm Sigma in RR^(n xx n)` 对称正定 `bm mu` `bm Sigma` (协方差矩阵) `exp("i" bm(mu' t) - 1/2 bm(t' Sigma t))`
均匀分布 `U[a, b]` `1/(b-a)` `a le x le b` `(a+b)/2` `(b-a)^2/12` `("e"^("i"t b)-"e"^("i"t a))/("i"t(b-a))`
指数分布 `"Exp"(lambda) = Gamma(1, lambda)` `lambda "e"^(-lambda x)` `x ge 0`, `lambda gt 0` `lambda^-1` `lambda^-2` `(1-("i"t)/lambda)^-1`
`chi^2` 分布 `= Gamma(n/2, 1/2)` `(x^(n/2-1) "e"^(-x/2))/(2^(n/2) Gamma(n/2))` `x ge 0`, `n in ZZ^+` `n` `2n` `(1-2"i"t)^(-n/2)`
`Gamma` 分布 `Gamma(r, lambda)` `lambda^r/(Gamma(r)) x^(r-1) "e"^(-lambda x)` `x ge 0`, `r gt 0`, `lambda gt 0` `r lambda^-1` `r lambda^-2` `(1-("i"t)/lambda)^-r`
F 分布 `(m^(m/2) n^(n/2))/(B(m/2, n/2)) * x^(m/2-1)/(n+mx)^((m+n)/2)` `x ge 0`, `m, n in ZZ^+` `n/(n-2)` (`n gt 2`) `(2n^2(m+n-2))/(m(n-2)^2(n-4))` (`n gt 4`)
t 分布 (Student 分布) `1/(sqrt n B(1/2, n/2)) (1+x^2/n)^(-(n+1)/2)` `n in ZZ^+` `0` (`n gt 1`) `n/(n-2)` (`n gt 2`)
Cauchy 分布 `1/pi * lambda/(lambda^2 + (x-mu)^2)` `lambda gt 0` 不存在 不存在 `exp("i" mu t - lambda|t|)`
Pareto 分布 `(r A^r)/x^(r+1)` `x ge A`, `r, A gt 0` `r gt 1` 时存在 `r gt 2` 时存在
Beta 分布 `(x^(p-1) (1-x)^(q-1))/(B(p, q))` `0 lt x lt 1`, `p, q gt 0` `p/(p+q)` `(pq)/((p+q)^2 (p+q+1))` `sum_(k=0)^oo (B(p+q, p+k))/(B(p, p+q+k)) ("i"t)^k/(k!)`
对数正态分布 `1/(sigma x sqrt(2 pi)) "e"^(-(ln x-alpha)^2/(2 sigma^2))` `x gt 0`, `alpha, sigma gt 0` `"e"^(alpha + sigma^2/2)` `"e"^(2 alpha + sigma^2) ("e"^(sigma^2) - 1)`
Weibull 分布 `alpha lambda x^(alpha-1) "e"^(-lambda x^alpha)` `x gt 0`, `alpha, lambda gt 0` `(Gamma(1/alpha + 1))/lambda^(1/alpha)` `[Gamma(2/alpha+1) - (Gamma(1/alpha+1))^2]/lambda^(2/alpha)`

数理统计三大分布

  1. `chi^2` 分布 由 Gamma 函数 (`t = lambda x`) `Gamma(r) = int_0^oo t^(r-1) "e"^-t dt` `= int_0^oo lambda^r x^(r-1) "e"^(-lambda x) dx`, 可定义密度函数为 `lambda^r/(Gamma(r)) x^(r-1) "e"^(-lambda x)`, `quad x gt 0` 的分布为 Gamma 分布 `Gamma(r, lambda)`, 其中 `r gt 0` 称为形状参数, `lambda gt 0` 称为尺度参数. 特别 `Gamma(lambda, 1)` 称为指数分布, `Gamma(n/2, 1/2)` 称为自由度为 `n` 的 `chi^2` 分布 (卡方分布) `chi_n^2` (`n in ZZ^+`). `n ge 3` 时, 此密度函数在 `n-2` 处取得极大值. 特别 `chi_2^2` 是一指数分布.
  2. F 分布 由 Beta 函数 (`u = m/n x`) `B(m/2, n/2) = int_0^oo u^(m/2-1)/(1+u)^((m+n)/2) "d"u` `= int_0^oo (m/n)^(m/2) x^(m/2-1)/(1+m/n x)^((m+n)/2) dx`, 可定义密度函数为 `(m/n)^(m/2)/(B(m/2, n/2)) x^(m/2-1)/(1+m/n x)^((m+n)/2)`, `quad x gt 0` 的分布为 F 分布 `F_(m, n)`, 其中 `m, n in ZZ^+` 分别称为第一, 第二自由度. `m ge 3` 时, 此密度函数在 `(m-2)/m n/(n+2)` 处取得极大值, 此极值点落在 `(0, 1)` 内.
  3. t 分布 (Student 分布) 由 Beta 函数 (`u = x^2/n`) `B(1/2, n/2) = int_0^oo u^(1/2-1)/(1+u)^((1+n)/2) "d"u` `= int_0^oo (sqrt n)/x (1+x^2/n)^(-(n+1)/2) (2x)/n dx`, 可定义密度函数为 `1/(sqrt n B(1/2, n/2)) (1+x^2/n)^(-(n+1)/2)`, `quad x in RR` 的分布为 t 分布 `t_n` (`n in ZZ^+`). 此密度函数是偶函数.

设 `X_1, X_2, cdots, X_n "i.i.d."~ N(0,1)`, 则 `X = sum_(i=1)^n X_i^2 ~ chi_n^2`.

    设 `X` 的分布函数为 `F(x)`, 密度函数为 `f(x)`, 则 `x le 0` 时 `F(x) = 0`; `x gt 0` 时, 对 `n` 进行归纳证明.
  1. `n=1` 时, `F(x) = P{X lt x}` `= int_(t^2 lt x) 1/sqrt(2pi) "e"^(-t^2/2) dt` `= int_0^(sqrt x) 2/sqrt(2pi) "e"^(-t^2/2) dt`. 求导得 `f(x) = 1/(2sqrt x) 2/sqrt(2pi) "e"^(-x/2)` `= 1/sqrt(2 pi x) "e"^(-x/2)`. 因此 `X ~ chi_1^2`.
  2. 假设命题对正整数 `n` 成立, 考察 `n+1` 的情形. 令 `xi = sum_(i=1)^n X_i^2`, `eta = X_(n+1)^2`, `X = xi + eta`, 则由卷积公式, `f(x) = int_(-oo)^oo f_xi(x-t) f_eta(t) dt` `= int_0^x f_xi(x-t) f_eta(t)` `= int_0^x 1/(2^((n+1)/2) Gamma(n/2)Gamma(1/2)) (x-t)^(n/2-1) t^(-1/2) "e"^(-x/2) dt` `= 1/(2^((n+1)/2) Gamma((n+1)/2) B(n/2, 1/2)) "e"^(-x/2) int_0^x (x-t)^(n/2-1) t^(-1/2) dt` `= 1/(2^((n+1)/2) Gamma((n+1)/2) B(n/2, 1/2)) "e"^(-x/2) x^((n-1)/2) int_0^1 (1-u)^(n/2-1) u^(1/2-1) "d"u` `= 1/(2^((n+1)/2) Gamma((n+1)/2)) x^((n+1)/2-1) "e"^(-x/2)`. 因此 `X ~ chi_(n+1)^2`.

首先有 `int_0^pi sin^k x dx = B((k+1)/2, 1/2) = (sqrt pi Gamma((k+1)/2)) /(Gamma((k+2)/2))`,
`prod_(i=1)^(n-2) int_0^pi sin^(n-1-i) theta_i "d"theta_i` `= pi^(n/2-1) (Gamma((n-1)/2))/(Gamma(n/2)) (Gamma((n-2)/2))/(Gamma((n-1)/2)) cdots (Gamma(1))/(Gamma(3/2))` `= pi^(n/2-1)/(Gamma(n/2))`.
`x gt 0` 时, 应用 `n` 维球坐标变换, 直接计算 `F(x) = int_(sum_(i=1)^n t_i^2 lt x) (1/sqrt(2pi))^n exp(-1/2 sum_(i=1)^n t_i^2) dt` `= (2pi)^(-n/2) int_0^(2pi) "d"theta_(n-1) int_0^pi "d"theta_(n-2) cdots` `int_0^pi "d"theta_1 int_0^(sqrt x) r^(n-1) "e"^(-r^2/2) prod_(i=1)^(n-2) sin^(n-1-i) theta_i "d"r` `= (2pi)^(1-n/2) prod_(i=1)^(n-2) int_0^pi sin^(n-1-i) theta_i "d"theta_i int_0^(sqrt x) r^(n-1) "e"^(-r^2/2) "d"r` `= (2pi)^(1-n/2) pi^(n/2-1)/(Gamma(n/2)) int_0^(sqrt x) r^(n-1) "e"^(-r^2/2) "d"r`. 求导, `f(x) = 1/(2^(n/2-1) Gamma(n/2)) 1/(2sqrt x) x^((n-1)/2) "e"^(-x/2)` `= 1/(2^(n/2) Gamma(n/2)) x^(n/2-1) "e"^(-x/2)`. 因此 `X ~ chi_n^2`.

`n to oo` 时, 由中心极限定理知 `chi_n^2` 分布趋于正态分布 `N(n, 2n)`.

  1. 设 `X ~ Gamma(r, lambda)`, 则 `k X ~ Gamma(r, lambda/k)`;
  2. 设 `X ~ chi_n^2`, 则 `X//n ~ Gamma(n/2, n/2)`.

只证 1. 设 `X` 的分布函数为 `F(x)`, 密度函数为 `f(x)`, 则 `k X` 的分布函数为 `P{k X lt x} = P{X lt x/k} = F(x/k)`. 密度函数为 `"d"/dx F(x/k) = 1/k f(x/k)` `1/k lambda^r/(Gamma(r)) (x/k)^(r-1) "e"^(-lambda x/k)`, 于是 `k X ~ Gamma(r, lambda/k)`;

设 `X ~ chi_m^2`, `Y ~ chi_n^2` 且独立, 则 `Z = (X//m)/(Y//n) ~ F_(m,n)`.

由引理知 `X//m` 和 `Y//n` 分别服从 `Gamma(m/2, m/2)` 和 `Gamma(n/2, n/2)` 且独立. 由随机变量商的分布公式, `f_Z(x) = int_0^oo f_(X//m)(x t) f_(Y//n)(t) t dt` `= int_0^oo ((m/2)^(m/2) (n/2)^(n/2))/(Gamma(m/2) Gamma(n/2)) (x t)^(m/2-1) t^(n/2-1) t "e"^(-(m x+n)/2 t) dt` `= ((m/2)^(m/2) (n/2)^(n/2))/(Gamma(m/2) Gamma(n/2)) x^(m/2-1)` `((m x+n)/2)^(-(m+n)/2) int_0^oo u^((m+n)/2-1) "e"^-u "d"u` `= ((m/2)^(m/2) (n/2)^(n/2))/(B(m/2, n/2)) x^(m/2-1) ((m x+n)/2)^(-(m+n)/2)`. 于是 `Z ~ F_(m, n)`.

若 `X ~ F_(m, n)`, 则 `X^-1 ~ F_(n, m)`.

若 `X, Y` 是独立的连续型随机变量, 且 `X` 具有对称的密度函数 (偶函数), 则 `Z = X//Y` 也具有对称的密度函数.

设 `X ~ N(0,1)`, `Y ~ chi_n^2` 且独立, 则 `T = X/sqrt(Y//n) ~ t_n`. 特别地, 若 `Z ~ N(0,1)` 且与 `X` 独立, 则 `X/|Z| ~ t_1`.

易知 `T^2 = X^2/(Y//n) ~ F_(1, n)`. 从而 `x gt 0` 时, `|T|` 的分布函数为 `P{|T| lt x} = P{T^2 lt x^2} = F_(T^2)(x^2)`, `|T|` 的密度函数为 `f_|T|(x)` `= 2x f_(T^2)(x^2)` `= 2x ((1/n)^(1/2) (x^2)^(-1/2))/(B(1/2, n/2) (1+x^2/n)^((n+1)/2))` `= 2/(sqrt n B(1/2, n/2)) (1+x^2/n)^(-(n+1)/2)` 由引理, `T` 具有对称的密度函数, 所以不难得到 `f_T(x) = 1/2 f_|T|(|x|)`. 于是 `T ~ t_n`.

`n to oo` 时, `t_n` 趋于标准正态分布.

首先 `lim_(n to oo) (1+x^2/n)^(-(n+1)/2) = "e"^(-x^2/2)`, 利用 Euler 公式 `Gamma(x) = lim_(n to oo) n^x B(x, n+1)` `lim_(n to oo) sqrt n B(1/2, n/2)` `= lim_(m to oo) sqrt(2m+2) B(1/2, m+1)` `= sqrt 2 lim_(m to oo) sqrt m B(1/2, m+1)` `= sqrt 2 Gamma(1/2)` `= sqrt(2pi)`. 总之, t 分布的密度函数趋于标准正态分布密度函数.

其它

Beta 分布 由 Beta 函数 `B(p, q) = int_0^1 x^(p-1) (1-x)^(q-1) dx`, 可定义密度函数为 `(x^(p-1) (1-x)^(q-1))/(B(p, q))`, `quad x in (0,1)` 的分布为 Beta 分布 `"Beta"(p,q)`.

设 `X ~ Gamma(p, lambda)`, `Y ~ Gamma(q, lambda)` 且独立, 则 `X+Y` 与 `X/(X+Y)` 独立, 且 `X/(X+Y) ~ "Beta"(p,q)`.

考虑 `X, Y` 的联合分布密度 `p(x, y) = (x^(p-1) y^(q-1))/(Gamma(p) Gamma(q)) lambda^(p+q) "e"^(-lambda (x+y))`, `quad x, y gt 0`, 作变元替换 `u = x+y`, `v = x/(x+y)`, 于是 `x = u v`, `y = u(1-v)`, Jacobi 行列式为 `J = (del(x,y))/(del(u,v))` `= |v, u; 1-v, -u|` `= -u`. 新变元下的密度函数为 `p(x(u,v), y(u,v)) |J|` `= u^(p+q-1)/(Gamma(p+q)) lambda^(p+q) "e"^(-lambda u)` `(v^(p-1) (1-v)^(q-1))/(B(p,q))`. 此密度函数可以分离变量, 因此 `X+Y` 与 `X/(X+Y)` 独立, 且 `X+Y ~ Gamma(p+q, lambda)`, `X/(X+Y) ~ Be ta(p,q)`.