1. Gradient descent (梯度下降)

ml311.png

  • 不止针对于J(w,b)代价函数

  • 不止针对于 linear regression 线性回归

  • 可能造成走错了“山谷”后出不来的问题

2. Gradient descent algorithm(梯度下降算法)

mk321.png

  • α :Learning rate (学习率),下降的”步子“。

  • 过小导致convergence(收敛)太慢,太大容易overshoot

  • w,b一定要Simultaneous update(同步更新)

3. Local minimum(局部最小值)

ml33.png

当到达局部最小值后,由于derivative(导数,实际为偏导)为0,w不再更新,梯度下降停止。

4. 线性回归的梯度下降

ml34.png

由于线性回归的代价函数J(w,b)呈现为bowl shape,所以又称其为convex function(凸函数),在J(w,b)上实现梯度下降时选择适当的学习率,它总是可以收敛到全局最小值。

5. 执行梯度下降

ml35.png