概率公理化

`sigma` 域

设 `Omega` 为一集合, `cc P(Omega)` 为 `Omega` 的全体子集构成的集合, 称为 `Omega` 的幂集. `cc P(Omega)` 的子集称为 `Omega` 的一个子集族. 子集族是集合的集合.

    设 `Omega != O/`, 称子集族 `cc F sube cc P(Omega)` 为集合 `Omega` 上的 `bm sigma` 域 (或 `bm sigma` 代数), 如果
  1. `Omega in cc F`;
  2. `A in cc F rArr A^c in cc F`;
  3. `A_i in cc F`, `i = 1, 2, cdots` `rArr uuu_(i=1)^oo A_i in cc F`.
    若 `cc F` 是 `Omega` 上的 `sigma` 域, `A_i in cc F`, `i = 1, 2, cdots`. 又设 `n in ZZ^+`, 则
  1. `O/ in cc F`;
  2. `nnn_(i=1)^oo A_i, uuu_(i=1)^n A_i, nnn_(i=1)^n A_i in cc F`, 从而 `sigma` 域对其中集合的补运算与可列次的并, 交运算封闭.

设 `Omega != O/`, `cc G sube cc P(Omega)`, `Omega` 上包含 `cc G` 的 `sigma` 域显然是存在的, 如 `cc P(Omega)`. 取一切这样的 `sigma` 域之交, 记为 `m(cc G)`. 可以验证, 任意多 `sigma` 域的交仍是 `sigma` 域, 于是 `m(cc G)` 是 `Omega` 上包含 `cc G` 的最小 `sigma` 域, 称为由 `cc G` 生成的 `bm sigma` 域.

由一切形如 `[a, b)` 的有界左闭右开区间生成的 `RR` 上的 `sigma` 域称为一维 Borel `bm sigma` 域 `cc B_1`. 类似地, 由一切 `RR^n` 中的半开闭矩体 `prod_(i=1)^n [a_i, b_i)` 生成的 `sigma` 域称为`bm n` 维 Borel `bm sigma` 域 `cc B_n`. 可以验证, `cc B_1` 也可以由形如 `(a,b)` 或 `[a,b]` 或 `(-oo, x)` 这样的子集族来生成.

概率的定义

1933 年, Колмогоров А. Н. 总结前人成果, 提出如下的概率公理化结构:

设 `Omega != O/`, `cc F` 为 `Omega` 上的一个 `sigma` 域, 则称 `Omega` 为样本空间, `omega in Omega` 为样本点. 称 `cc F` 为事件域 (event field), `A in cc F` 为事件. 特别 `Omega, O/ in cc F` 分别称为必然事件和不可能事件.

    事件运算的几个记号
  1. `bar A := A^c = Omega-A`;
  2. `A B := A nn B`, `prod_(i=1)^oo A_i := nnn_(i=1)^oo A_i`
  3. 称事件 `A` 与 `B` 不相容互斥, 如果 `A nn B = O/`. 此时 `A + B := A uu B`. 称事件 `A_1, A_2, cdots` 为互斥事件组, 如果它们两两互斥, 即 `A_i nn A_j = O/`, `i != j`. 此时 `sum_(i=1)^oo A_i := uuu_(i=1)^oo A_i`. 以后凡是使用 `+` 或 `sum` 的地方, 都假定参与运算的事件是互斥的.
  4. 约定 `uuu_(i=k)^(k-1) = O/`, `nnn_(i=k)^(k-1) = Omega`.
概率的定义 设 `Omega != O/`, `cc F` 为 `Omega` 上的一个 `sigma` 域, 若集合函数 `P: cc F to RR` 满足
  1. (规范性) `P(Omega) = 1`;
  2. (非负性) `(AA A in cc F)` `P(A) ge 0`;
  3. (互斥事件的可列可加性) 若 `A_i in cc F`, `i = 1, 2, cdots` 互斥, 则下式左端级数收敛, 且等于右端: `sum_(i=1)^oo P(A_i) = P(sum_(i=1)^oo A_i)`.
则称 `P` 为概率, `(Omega, cc F, P)` 为概率空间.

这一定义可以类比于一般 `sigma` 域上的测度定义. 事实上概率就是一种测度.

    概率的现实解释 [来自 深度学习 花书]
  1. 频率派概率 概率论最初的发展是为了分析事件发生的频率. 比如从扑克牌中抽取特定一手牌这样的事件, 它往往是可以重复的. 在大量重复实验中, 事件发生的频率将趋于一个确定的数值, 即它的概率.
  2. 贝叶斯概率 有的事件并不可重复, 或是缺乏对它进行大量重复的实验条件: 比如医生的诊断称, 病人患流感的概率为 40%, 又比如明天下雨的概率是 70%. 无论是病人的身体状态, 还是明天的到来, 都是不可重复再现的. 这时的概率表示一种确信的程度, 或称信任度 (degree of belief).
    概率的基本性质 本质上, 这些性质只涉及概率的规范性, 非负性和有限可加性, 我们将在下一节讨论概率的可列可加性.
  1. 不可能事件的概率. `P(O/) = 0`.
  2. 互斥事件的有限可加性. `P(sum_(i=1)^n A_i) = sum_(i=1)^n P(A_i)`.
  3. 补事件的概率. `P(bar A) = 1-P(A)`.
  4. 差事件的概率. 如果 `B sube A`, 那么 `P(A - B) = P(A) - P(B)`.
  5. 单调性. `B sube A rArr P(B) le P(A)`. 因此, 必然事件 `Omega` 的概率最大, 不可能事件 `O/` 的概率最小. 任意事件 `A`, 其概率满足 `0 le P(A) le 1`.
  6. 加法公式. `P(A uu B) = P(A) + P(B) - P(A nn B)`. 加法公式同有限集的基数运算公式 `|A uu B| = |A| + |B| - |A nn B|` 完全类似. 如果记 `[n] = {1, 2, cdots, n}`, 则 ` P(uuu_(i=1)^n A_i) = sum_(S in [n]) (-1)^(|S|-1) P(prod_(i in S) A_i)`.
  7. Boolean 不等式: `P(A uu B) le P(A) + P(B)`. Bonferroni 不等式: `P(A nn B) ge P(A) + P(B) - 1`. 这两个不等式容易推广到 `n` 个事件的情形.

Boolean 不等式与 Bonferroni 不等式形似线性代数中的秩不等式.

概率的连续性

本节讨论概率的可列可加性带来的性质.

递增集合列 `S_1 sube S_2 sube cdots` 和递减集合列 `T_1 supe T_2 supe cdots`, 分别定义 `lim_(n to oo) S_n = uuu_(n=1)^oo S_n`, `quad lim_(n to oo) T_n = nnn_(n=1)^oo T_n`.

称一个定义在 `sigma` 域 `cc F` 上的集合函数 `P` 为下连续 (上连续)的, 如果对 `cc F` 中任意递增 (递减) 集合列 `{S_n}` 有 ` lim_(n to oo) P(S_n) = P(lim_(n to oo) S_n)`.

设 `{A_i}` 是互斥事件组, 则 `lim_(n to oo) sum_(i=1)^n A_i` `= uuu_(n=1)^oo sum_(i=1)^n A_i` `= sum_(i=1)^oo A_i`.

设 `cc F` 是 `Omega` 上的 `sigma` 域, `P` 是 `cc F` 上的集合函数, 满足概率定义的规范性与非负性. 则 `P` 具有可列可加性当且仅当它有限可加且下连续. 这个定理给出了概率的一个等价定义.

  1. 先设 `P` 有限可加且下连续. 于是对任意互斥的 `A_1, A_2, cdots in cc F`, `sum_(i=1)^n P(A_i) = P(sum_(i=1)^n A_n)`. 上式右边单调有界, 必有极限. 于是由下连续性 `sum_(i=1)^oo P(A_i)` `= lim_(n to oo) P(sum_(i=1)^n A_n)` `= P(lim_(n to oo) sum_(i=1)^n A_n)` `= P(sum_(i=1)^oo A_i)`.
  2. 反之设 `P` 可列可加. 显然 `P` 有限可加, 下证 `P` 下连续. 设 `{S_n}_(n=1)^oo` 是 `cc F` 中的递增集合列, 定义 `S_0 = O/`, `E_i = S_i-S_(i-1)`, `i = 1, 2, cdots`. 由 `S_i` 的单调性知 `E_i` 两两互斥, 且 `S_n = sum_(i=1)^n E_i`. 于是由可列可加性与有限可加性, `P(lim_(n to oo) S_n)` `= P(lim_(n to oo) sum_(i=1)^n E_i)` `= P(sum_(i=1)^oo E_i)` `= sum_(i=1)^oo P(E_i)` `= lim_(n to oo) sum_(i=1)^n P(E_i)` `= lim_(n to oo) P(sum_(i=1)^n E_i)` `= lim_(n to oo) P(S_n)`.

概率是下连续的, 也是上连续的.

下连续已在定理中证明. 现在对 `cc F` 中任意递减集合列 `{T_n}`, 取 `S_i = bar T_i`, 则 `S_i` 为递增集合列, 有 `lim_(n to oo) P(T_n)` `= lim_(n to oo) P(bar S_n)` `= 1 - lim_(n to oo) P(S_n)` `= 1 - P(uuu_(n=1)^oo S_n)` `= P(bar(uuu_(n=1)^oo S_n))` `= P(nnn_(n=1)^oo T_n)` `= P(lim_(n to oo) T_n)`, 所以 `P` 上连续.

概率的次可加性 `P(uuu_(i=1)^oo A_i) le sum_(i=1)^oo P(A_i)`. 这是 Boolean 不等式的推广.

不妨设不等式右端 `lt +oo`. 取 `E_1 = A_1`, `E_i = A_i - uuu_(j=1)^(i-1) A_j`, `i = 2, 3, cdots`. 于是 `E_i` 两两互斥, `E_i sube A_i`, `i = 1, 2, cdots`, 且 `sum_(i=1)^n E_i = uuu_(i=1)^n A_i`. 令 `n to oo` 有 `sum_(i=1)^oo E_i = uuu_(i=1)^oo A_i`. 从而 `P(uuu_(i=1)^oo A_i)` `= P(sum_(i=1)^oo E_i)` `= sum_(i=1)^oo P(E_i)` `le sum_(i=1)^oo P(A_i)`.

条件概率

设 `(Omega, cc F, P)` 为一概率空间, `A in cc F`, `P(A) gt 0`, 则对任意 `B in cc F`, 称 `P(B | A) = (P(A B))/(P(A))` 为事件 `A` 发生的条件下事件 `B` 发生的条件概率. 相对应地, 一般的概率称为无条件概率. 我们有 `P(A) = P(A | Omega)`.

`B | A` 可以理解为 "B over A". 注意事件 `A` 已经发生, 是一事实, 我们要以事实为分母.

如没有特别指出, 今后出现 `P(B | A)` 时都假定 `P(A) gt 0`. 不过即使 `P(A) = 0`, 显然此时 `P(A B) le P(A) = 0`, 所以 `P(B | A)` 是 `0/0` 型的未定式, 可以通过极限来研究它的值.

条件概率满足概率的 3 条基本性质: `P(Omega | B) = 1`, `quad P(A | B) ge 0`,
`P(sum_(i=1)^oo A_i | B) = sum_(i=1)^oo P(A_i | B)`.

乘法公式 `P(A B) = P(A) P(B | A)`, `quad P(A) gt 0`;
`P(nnn_(i=1)^n A_i) = prod_(i=1)^n P(A_i | nnn_(j=1)^(i-1) A_j)`, `quad P(A_1 A_2 cdots A_(n-1)) gt 0`.
乘法公式可以直观地解释为: 事件 `A, B` 同时发生, 相当于令 `A` 发生, 再在 `A` 发生的条件下, 令 `B` 发生.

如果互斥事件组 `A_1, A_2, cdots` 满足 `sum_(i=1)^oo A_i = Omega`, 则称它们为样本空间 `Omega` 的一个分割完备事件组.

全概率公式 `P(B) = P(A) P(B | A) + P(bar A) P(B | bar A)`. 一般地, 如果 `A_1, A_2, cdots` 是 `Omega` 的一个分割, 则 `P(B) = sum_(i=1)^oo P(A_i) P(B | A_i)`. 在多数问题中, 上式只有有限项. 当 `P(A_i) = 0` 时, 把相应的项当作 `0` 即可.

这个公式形似微积分中求导的链锁法则. 要点是将样本空间分为不相交的情况.

Bayes 公式 结合乘法公式以及全概率公式, 有 ` P(A | B)` `= (P(A B))/(P(B))` `= (P(A) P(B | A)) / (P(A) P(B | A) + P(bar A) P(B | bar A))`. 一般地, 如果 `A_1, A_2, cdots` 是 `Omega` 的一个分割, 则 ` P(A_i | B) = (P(A_i) P(B | A_i)) / (sum_(i=1)^oo P(A_i) P(B | A_i))`. Bayes 公式中, `P(A_i)` 通常由经验提供, 称为先验概率; `P(B | A_i)` 由实验测定; `P(A_i | B)` 是我们想要计算的, 称为后验概率. 有时, 先验概率由某一种主观方式给定, 如对未来的预期等, 称为主观概率.

独立性

若事件 `A, B` 满足 `P(A B) = P(A) P(B)`, 则称它们是统计独立的, 简称独立的. 从上式的对称性知道, 独立的概念是相互的, 因此也称 `A, B` 相互独立.

必然事件 `Omega` 与不可能事件 `O/` 与任何事件独立.

由条件概率的定义, 若事件 `A, B` 独立, 且 `P(B) gt 0`, 则 `P(A | B) = P(A)`. 这正说明事件 `A` 发生的概率与事件 `B` 发生与否无关.

若事件 `A, B` 独立, 则 `bar A` 与 `B`, `A` 与 `bar B`, `bar A` 与 `bar B` 也相互独立.

`P(bar A B) = P(B - A B)` `= P(B) - P(A B)` `= P(B) - P(A) P(B)` `= (1-P(A)) P(B)` `= P(bar A) P(B)`. 所以 `bar A` 与 `B` 相互独立; 由它立即推出 `bar A`, `bar B` 相互独立. 同理 `A`, `bar B` 相互独立.

    平凡地, 规定一个事件总是独立的. 称 `n` 个事件 `A_1, A_2, cdots, A_n` 相互独立, 如果
  1. 其中任意 `n-1` 个事件都独立;
  2. `P(prod_(i=1)^n A_i) = prod_(i=1)^n P(A_i)`.
  3. 称无穷多个事件相互独立, 如果其中任意有限个事件相互独立. 从而无穷多个事件相互独立当且仅当它们是有限可乘的, 换言之, 对任意 `n` 个事件 `A_(i_1), A_(i_2), cdots, A_(i_n)`, `P(prod_(j=1)^n A_(i_j)) = prod_(j=1)^n P(A_(i_j))`.

条件 1. 和 2. 互相不能推出. 另外, `P(prod_(i=1)^k A_i) = prod_(i=1)^k P(A_i)`, `quad k = 1, 2, cdots, n` 也不能推出 `A_1, A_2, cdots, A_n` 相互独立.