1. 单一变量线性回归

假设:

则 cost function 为:

目标是:

同时更新

即:

其中 为学习速率:

  • 过小,梯度下降缓慢
  • 过大,则可能跳过最小值,导致收敛失败,甚至发散

2. 多变量线性回归

假设:

则 cost function 为:

目标是:

更新

即对于

假设有 m 个样本,每个样本有 n 个特征,即:

则每次梯度下降运行后:

3. 特征标准化

其中 为标准差:

4. Normal Equation

可以简单理解为,理想情况下:

因此:

对比梯度下降和 Normal Equation:

  梯度下降 Normal Equation
选择 需要 不需要
多次迭代 需要 不需要
n 比较大 良好运行 复杂度高,效率低