本章总假定 `V` 是数域 `bbb P` 上的线性空间.
令 `V, W` 为 `bbb P` 上的线性空间, `V` 到 `W` 的全体线性映射记为 `L(V, W)`. 特别视 `bbb P` 为一维线性空间, 线性映射 `f: V to bbb P` 称为 `V` 上的线性函数. `V` 上全体线性函数记为 `L(V, bbb P)`.
`V` 的基底 `bm epsi_1, cdots, bm epsi_n` 在线性函数 `f` 下的像称为 `f` 在该基底下的表示向量: `bm epsi = (f(bm epsi_1), cdots, f(bm epsi_n))`. 任取 `bm alpha = sum_(i=1)^n x_i bm epsi_i = (bm epsi_1, cdots, bm epsi_n) bm X in V`, `f(bm alpha)` 用表示向量写为: `f(bm alpha) = sum_(i=1)^n x_i f(bm epsi_i)` `= bm(epsi X)`.
令 `bm A in bbb P^(n xx n)`, `bm X = (x_1, x_2, cdots, x_n)^T`, `bm Y = (y_1, y_2, cdots, y_n)^T`, 则 `f(bm X, bm Y) = bm X^T bm A bm Y = sum_(i,j=1)^n a_(i j) x_i y_j` 为 `bbb P^n` 上一双线性函数. 当 `bm A` 分别为对称的, 非奇异的和正定的时候, `f` 也分别为对称的, 非奇异的和正定的.
`V` 的基底 `bm epsi_1, cdots, bm epsi_n` 在双线性函数 `f` 下的像
称为 `f` 在该基底下的表示矩阵或度量矩阵:
`bm A = (f(bm epsi_i, bm epsi_j))_(n xx n)`.
任取
`bm alpha = sum_(i=1)^n x_i bm epsi_i`
`= (bm epsi_1, cdots, bm epsi_n) bm X in V`,
`bm beta = sum_(i=1)^n y_i bm epsi_i`
`= (bm epsi_1, cdots, bm epsi_n) bm Y in V`,
`f(bm alpha, bm beta)` 用表示矩阵写为:
`f(bm alpha, bm beta)
= sum_(i,j=1)^n f(bm epsi_i,bm epsi_j) x_i y_j`
`= bm X^T bm (A Y)`.
我们只证 2.
度量矩阵非奇异与基底选取无关, 我们任取基底
`bm epsi_1, cdots, bm epsi_n`,
设 `f` 在该基底下的度量矩阵为 `bm A`, 则
`quad f` 非奇异
`iff AA bm alpha in V\\{bb 0}`, 关于 `bm x` 的方程
`f(bm alpha, bm x) = 0` 只有零解
`iff` 关于 `bm x` 的方程组
`f(bm epsi_i, bm x) = 0`, `i = 1, cdots, n` 只有零解
`iff` 关于 `bm X` 的方程组 `bm (A X) = bb 0` 只有零解
`iff bm A` 非奇异.
设 `f` 为 `V` 上的对称双线性函数, 如果 `f(bm alpha, bm beta) = 0`, 则称 `bm alpha, bm beta` 正交. 如果 `V` 的一个基底 `bm epsi_1, bm epsi_n` 中的不同向量两两正交: `f(bm epsi_i, bm epsi_j) = 0`, `quad i != j`, 则称为正交基底. 正交基底下的度量矩阵为对角阵, 对角线上非零元的个数恰为 `f` 的秩.
设 `f` 是秩为 `r` 的对称双线性函数, 它在正交基底 `bm epsi_1, cdots, bm epsi_n` 下的度量矩阵为 `"diag"(d_1, cdots, d_n)`, 不妨设度量矩阵的前 `r` 个对角元非零, 取 `bm alpha = sum_(i=1)^n x_i bm epsi_i`, `bm beta = sum_(i=1)^n y_i bm epsi_i`, 我们有 `f(bm alpha, bm beta) = sum_(i=1)^r d_i x_i y_i`. 在复线性空间中, 若 `f(bm epsi_i, bm epsi_i) = d_i != 0`, 则 `f(bm epsi_i/sqrt(d_i), bm epsi_i/sqrt(d_i)) = 1`, 从而在适当的基底下有 `f(bm alpha, bm beta) = sum_(i=1)^r x_i' y_i'`. 在实线性空间中, 若 `d_i != 0`, 则 `f(bm epsi_i/sqrt(|d_i|), bm epsi_i/sqrt(|d_i|)) = sgn(d_i)`, 从而在适当的基底下有 `f(bm alpha, bm beta) = sum_(i=1)^p x_i'' y_i'' - sum_(i=p+1)^r x_i'' y_i''`.
正交基底的存在性 设 `f` 为 `n` 维线性空间 `V` 上的对称双线性函数, 则存在 `V` 的正交基底. 换言之, 任意对称矩阵合同于对角形矩阵.
若 `f` 为零函数, 则 `V` 的任何基底都是正交基底. 现在设 `f` 是非零函数,
则 `EE bm alpha, bm beta in V`,
`0 != f(bm alpha, bm beta)`
`= 1/2 [ f(bm(alpha+beta), bm(alpha+beta)) - f(bm alpha, bm alpha)
- f(bm beta, bm beta) ]`.
从而 `bm(alpha+beta)`, `bm alpha`, `bm beta` 三者不全为零, 即
`(EE bm epsi_1 in V)` `f(bm epsi_1, bm epsi_1) != 0`.
对 `n` 作归纳, 当 `n = 1` 时, 任何基底都是正交基底.
假定结论对所有维数小于 `n` 的线性空间都成立, 我们将 `bm epsi_1` 扩充为
`V` 的基底 `(bm epsi_1, bm eta_2, cdots, bm eta_n)`, 令
`bm epsi_i' = bm eta_i - (f(bm epsi_1, bm eta_i))/
(f(bm epsi_1, bm epsi_1)) bm epsi_1`, `quad i = 2, 3, cdots, n`.
设
`bb 0 = k_1 bm epsi_1 + sum_(i=2)^n k_i bm epsi_i'`
`= (k_1-c) bm epsi_1 + sum_(i=2)^n k_i bm eta_i`,
容易推出 `bm epsi_1, bm epsi_2', cdots, bm epsi_n'` 线性无关. 又
`f(bm epsi_1, bm epsi_i')`
`= f(bm epsi_1, bm eta_i - (f(bm epsi_1, bm eta_i))/
(f(bm epsi_1, bm epsi_1)) bm epsi_1)`
`= 0`,
`i = 2, 3, cdots, n`.
因此对任意 `bm alpha in W := "span"(bm epsi_2', cdots, bm epsi_n')`,
`f(bm epsi_1, bm alpha) = 0`.
由归纳假设, `W` 中存在正交基底 `(bm epsi_2, cdots, bm epsi_n)`
但 `bm epsi_1` 与 `W` 中任意向量都正交, 因此
`(bm epsi_1, bm epsi_2, cdots, bm epsi_n)` 是 `V` 的一个正交基底.
Schmidt 正交化 设 `f` 是 `V` 上的对称双线性函数, `bm eta_1, cdots, bm eta_n` 是 `V` 的基底. 令 `bm epsi_1 = bm eta_1`; `bm epsi_i` 等于 `bm eta_i` 减去它在各个 `bm epsi_j` 上的投影, 即 `bm epsi_i = bm eta_i - sum_(j=1)^(i-1) (f(bm eta_i, bm epsi_j))/(f(bm epsi_j, bm epsi_j)) bm epsi_j`, `quad i = 2, cdots, n`. 则 `bm epsi_1, cdots, bm epsi_n` 是 `V` 的一组正交基底.
对 `n` 作归纳. `n = 1` 时, `bm epsi = bm eta_1` 显然是正交基底. 假设 `bm epsi_1, cdots, bm epsi_(n-1)` 两两正交, 则对任意 `k lt n` 有 `f(bm epsi_n, bm epsi_k)` `= f(bm eta_n, bm epsi_k) - sum_(j=1)^(n-1) (f(bm eta_n, bm epsi_j))/(f(bm epsi_j, bm epsi_j)) f(bm epsi_j, bm epsi_k)` `= f(eta_n, bm epsi_k) - (f(eta_n, bm epsi_k))/(f(bm epsi_k, bm epsi_k)) f(bm epsi_k, bm epsi_k)` `= 0`. 因此 `bm epsi_1, cdots, bm epsi_n` 是一组正交基底.
正交三角分解 (QR 分解) [来自 知乎@Iterator] 设 `bm A` 是 `m xx n` 实矩阵, 且 `bm A` 的各列向量线性无关, 则存在唯一分解 `bm A_(m xx n) = bm Q_(m xx n) bm R_(n xx n)`. 其中 `bm Q` 满足各列向量单位正交, `bm R` 是主对角线全为正数的上三角矩阵. QR 分解以矩阵的形式, 编码了 Schmidt 正交化的计算过程.
QR 分解的 Q 源于 orthogonal 的 O, 为避免混淆而写作 Q; 而 R 源于 right triangular matrices.
# sympy A.QRdecomposition()
令 `f` 为线性空间 `V` 上的非奇异对称双线性函数. 则 `(V, f)` 称为一个对称双线性度量空间, 仍简记为 `V`. 特别 `V` 为一实线性空间时, 称为伪 Euclid 空间.
本节总假定 `(V, f)` 是一个对称双线性度量空间.
根据 Schmidt 正交化, `(V, f)` 存在正交基底 `(bm epsi_1, bm epsi_2, cdots, bm epsi_n)`. 因为 `f` 非奇异, 有 `f(bm epsi_i,bm epsi_j) { = 0, if i != j; != 0, if i = j; :}`
`(V, f)` 中垂直于子空间 `W` 的向量全体构成 `V` 的子空间: `W^_|_ := {bm alpha in V | (AA bm w in W) f(bm alpha, bm w) = 0}`, 称为 `W` 在 `V` 中的正交补空间.
取定 `W` 的基底 `bm alpha_1, cdots, bm alpha_r`, 则 `W^_|_` 是关于 `bm x` 的方程组 `f(bm alpha_i, bm x) = 0`, `quad i = 1, cdots r` 的解空间, 即 `W^_|_ = {bm x | f(bm alpha_i, bm x) = 0, i = 1, cdots, r}`. 取定 `V` 的基底, 设 `bm alpha_i` 的坐标为 `bm A_i`, `bm x` 的坐标为 `bm X`, `f` 的度量矩阵为 `bm T`, 则上述方程组可以写为 `bm(A^T T X) = bb 0`, 其中 `bm A = (bm A_1, cdots, bm A_n)`.
方程组 `bm (A^T Y) = bb 0` 的解空间 `W^_|_ := "span"(bm A_1, cdots, bm A_n)^_|_` 是方程组 `bm (A X) = bm B` 的列空间 (系数矩阵各列张成的空间) `W := "span"(bm A_1, cdots, bm A_n)` 的正交补. (这里取定的双线性函数是 `f_(bm I)(bm x, bm y) = sum x_i y_i`). 下面将证明对任意子空间成立 `(W^_|_)^_|_ = W`, 因此 `bm (A X) = bm B` 有解 `iff bm B in W = (W^_|_)^_|_` `iff bm B` 垂直于 `bm (A^T Y) = bb 0` 的解空间. 我们称 `bm (A^T Y) = bb 0` 为 `bm (A X) = bm B` 的转置线性方程组.
尽管有维数公式 `"dim"W + "dim"W^_|_ = "dim"V`, 但未必有 `V = W o+ W^_|_`. 如 `CC^2` 上的非奇异对称双线性函数 `f((x_1","y_1)","(x_2","y_2)) = x_1 x_2 + y_1 y_2`, 取 `W = "span"((1","i))`, 则 `W^_|_ = W`. 这暗示我们, `f(bm X, bm Y) = sum_(i=1)^n x_i y_i` 不是复线性空间中合适的双线性函数, 而 `f(bm X, bm Y) = sum_(i=1)^n bar x_i y_i` 更合适一些. 事实上, 后者是一个内积.
复线性空间中内积关于第二变元的共轭线性性可以由其它性质推出.
令 `V` 为 `bbb P` 上一内积空间 (`bbb P = CC` 或 `RR`), 则 `|(bm x","bm y)|^2 le (bm x, bm x)(bm y, bm y)`, `quad AA bm x, bm y in V`. 等号成立当且仅当 `bm x, bm y` 线性相关.
当 `bm y = bb 0` 时, 不等式取得等号, 显然成立;
否则取 `t = -((bm x","bm y))/((bm y","bm y))`,
考虑向量 `bm x + t bm y`, 由正定性有
`0 le (bm x + t bm y, bm x + t bm y)`
`= (bm x, bm x) + bar t(bm x, bm y) + t bar((bm x","bm y))
+ t bar t(bm y, bm y)`
`= (bm x, bm x) + 2 "Re"(bar t (bm x","bm y)) + |t|^2(bm y, bm y)`
`= (bm x, bm x) -2 |(bm x","bm y)|^2/((bm y","bm y)) + |(bm x","bm
y)|^2/((bm y","bm y))`
`= (bm x, bm x) - |(bm x","bm y)|^2/((bm y","bm y))`.
变形得
`|(bm x","bm y)|^2 le (bm x, bm x)(bm y, bm y)`.
现在考虑等号成立的条件. 不妨设 `bm y != bb 0`, 则 Cauchy-Schwarz
不等式中等号成立等价于 `(bm x + t bm y, bm x + t bm y) = 0`.
由内积的正定性, 这等价于 `bm x + t bm y = bb 0`,
即 `bm x, bm y` 线性相关.
我们将在内积空间中引入向量的长度, 距离, 夹角的概念.
内积诱导的范数 在内积空间 `V` 中引入 `|bm x| = sqrt((bm x","bm x))`, 则 `|*|` 为一范数.
范数诱导的度量 在线性赋范空间中, 规定 `d(x,y) = ||x-y||`, 可以验证 `d` 是一个距离函数.
令 `V` 为内积空间, 规定两个非零向量 `bm x, bm y` 的夹角为 `(:bm x, bm y:) = arccos{:((bm x","bm y))/(|bm x| |bm y|):}`. 由 Cauchy-Schwarz 不等式知, 上述定义有意义, 且夹角的可能范围是 `[0, pi]`.
勾股定理 令 `V` 为内积空间, `bm x, bm y` 正交, 则 `|bm x+bm y|^2 = |bm x|^2 + |bm y|^2`. 勾股定理可以推广到多个两两正交的向量.
由 `(bm x, bm y) = 0` 有 `|bm x+bm y|^2 = (bm x+bm y,bm x+bm y)` `= (bm x,bm x) + 2 "Re"(bm x, bm y) + (bm y, bm y)` `= |bm x|^2 + |bm y|^2`.
最小二乘法, 好比在平面上找一点, 使它到空间中一点距离最小. 只不过这里的 "平面", "空间" 都指线性空间.
设有内积空间 `V` 和它的子空间 `W`. 给定向量 `bm y in V`, 寻找一向量 `bm x in W`, 使其到 `bm y` 的距离最小.
线性回归 假设有数据点 `(x_1, y_1), (x_2, y_2), cdots, (x_n, y_n)`. 在平面上用一直线 `y = a x + b` 拟合这些数据, 使得每个点处误差的平方和 `L(a, b) = sum_(i=1)^n (y_i - a x_i - b)^2` 最小.
令偏导数等于零,
`0 = (del L)/(del b) = -2 sum_(i=1)^n (y_i - a x_i - b)`,
`0 = (del L)/(del a) = -2 sum_(i=1)^n x_i (y_i - a x_i - b)`.
即
`sum y_i = a sum x_i + n b`,
`sum x_i y_i = a sum x_i^2 + b sum x_i`
于是
`b = bar y - a bar x`,
`quad a = (sum x_i y_i - n bar x bar y)/(sum x_i^2 - n {:bar x:}^2)`.
用线性代数的语言, 这个问题就是: 设 `bm 1 = (1, 1, cdots, 1) in RR^n`, `bm x = (x_1, x_2, cdots, x_n) in RR^n`, `bm y = (y_1, y_2, cdots, y_n) in RR^n`, 内积定义为 `(bm x, bm y) = sum_(i=1)^n x_i y_i`. 在 `RR^n` 的子空间 `"span"(1, bm x)` 中寻找一向量, 使其到向量 `bm y` 的距离最小. 这一向量的坐标 `(b, a)` 满足 `[(bm 1, bm 1), (bm 1, bm x); (bm x, bm 1), (bm x, bm x)] [b;a] = [(bm 1, bm y); (bm x, bm y)]`, 即 `[sum 1, sum x_i; sum x_i, sum x_i^2] [b;a] = [sum y_i; sum x_i y_i]`. 解得 `b = bar y - a bar x`, `quad a = (sum x_i y_i - n bar x bar y)/(sum x_i^2 - n {:bar x:}^2)`.