反向传播公式推导和理解
更新:矩阵形式的反向传播可以看 这里
引言
在深度学习中,模型的优化是通过采用梯度下降法不断更新权重和偏置项,让损失越来越小。其中的核心就是反向传播算法。回忆梯度下降的公式,用 $\theta$ 表示模型所有可学习的参数,$J$ 表示损失函数,$\alpha$ 表示学习率,那么有
$$ \theta \leftarrow \theta - \alpha * \frac{\partial J}{\partial \theta} $$
反向传播要求解的就是上面式子中 $\frac{\partial J}{\partial \theta}$ 这一项。只有正确高效计算出梯度,模型才可以沿着梯度的负方向更新不断优化。