随机梯度下降法？

“`” 最小化每个样本的损失函数，迭代更新更快，但总体上是朝着整体最优前进的，与批量梯度下降的关系：

牛顿法
利用损失函数的二阶导数，收敛更快，不再是限于当前歩最优，有了往后看的整体概念，不过也没有整体的概念，只是在局部上更加细致，不过计算比较复杂，因为需要求解海森矩阵的逆矩阵比较复杂

<pre><code> "“`

Was this helpful?

0 / 0