[来自 机器学习花书、李宏毅机器学习课]
最邻近回归 典型的非参数模型. 对于输入 `bm x`, 该模型取训练集中最接近的一点 `bm x^0` 所对应的 `y^0` 作为输出. 最邻近回归在训练集上的误差总是最小的.
线性回归 典型的参数模型. 函数空间形如 `hat y = b + bm x^T bm w`. 其中 `bm w` 称为 weight, `b` 称为 bias. 线性回归的目标是寻求一个函数, 使下面的均方误差 (mean squared error, MSE)最小: `"MSE" := 1/n sum_i (hat y^i - y^i)^2`. 其中 `n` 是数据集的大小, `y^i` 是真实值, `hat y^i` 是模型输出的预测值. 令 `hat bm y = (hat y^1, cdots, hat y^n)^T`, `bm y = (y^1, cdots, y^n)^T`, 上式用向量写成 `"MSE" := 1/n |hat bm y - bm y|^2`.
不妨令 `bm x` 的最后一个分量固定为 1, 再把 `b` 加到向量 `bm w` 中作为最后一个分量, 模型化为更简单的
`hat y = bm x^T bm w`.
令 `bm X = (bm x^1, cdots, bm x^n)^T`, 则
`hat bm y = bm(X w)`,
`n "MSE" = |hat bm y - bm y|^2`
`= (bm (X w - y))^T (bm (X w - y))`
`= bm w^T bm X^T bm(X w) - 2 bm w^T bm X^T bm y + bm y^T bm y`.
为求 `"MSE"` 为最小值, 将它看作参数 `bm w` 的函数, 令梯度等于零得
`0 = n grad_(bm w) "MSE"`
`= 2 bm X^T bm X bm w - 2 bm X^T bm y`,
于是学习得到最优参数
`bm w = (bm X^T bm X)^-1 bm X^T bm y`.
此公式称为正规方程, 可以这样记忆: 解方程组 `bm(X w) = bm y`,
此方程组可能无解, 改为求解 `bm X^T bm (X w) = bm X^T bm y`, 这样就得到上式.
Logistic 回归 考虑二分类问题. 已知训练集为 `(bm x^i, y^i)`, 令 `h^i = sigma(bm w^T bm x^i + b)`, 其中 `bm w, b` 是待优化的参数, `sigma` 是 sigmoid 函数. 损失函数 (loss) 定义为 (??) `L(bm w, b) = -1/n sum_(i=1)^n (y^i ln h^i + (1-y^i) ln(1-h^i))`. 目标: 寻找最优参数使 loss 最小: `bm w^**, b^** = underset (bm w, b) "argmin" L(bm w, b)`.
Bayes 公式 假设我们要分类的事物有两种类别 `C_1`, `C_2`, 其先验概率是 `P(C_1)`, `P(C_2)`. 现在 `x` 是一个随机抽取的样本. 已知 `x` 在 `C_1` 和 `C_2` 中出现的概率 `P(x|C_1)` 和 `P(x|C_2)`, 问 `x` 是来自 `C_1` 的概率是多少? 这个概率可以用 Bayes 公式计算: `P(C_1|x) = (P(x|C_1) P(C_1))/(P(x|C_1) P(C_1) + P(x|C_2) P(C_2))`. 其中分母可以记为 `P(x)`, 表示样本 `x` 总的出现概率.