# 反向传导算法

(Difference between revisions)
 Revision as of 15:49, 7 March 2013 (view source)Kandeng (Talk | contribs)← Older edit Latest revision as of 01:30, 2 December 2016 (view source)Kandeng (Talk | contribs) (48 intermediate revisions not shown) Line 1: Line 1: - :【原文】： + 假设我们有一个固定样本集 $\textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}$，它包含 $\textstyle m$ 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例 $\textstyle (x,y)$，其代价函数为： - Suppose we have a fixed training set $\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}$ of $m$ training examples. We can train our neural network using batch gradient descent.  In detail, for a single training example $(x,y)$, we define the cost function with respect to that single example to be: + - :【初译】： + - :【一校】： + - 待补 + ::[itex] \begin{align} \begin{align} Line 9: Line 6: \end{align} \end{align} [/itex] - :【原文】： + - :【初译】： + 这是一个（二分之一的）方差代价函数。给定一个包含 $\textstyle m$ 个样例的数据集，我们可以定义整体代价函数为： - :【一校】： + - 待补 + :$- This is a (one-half) squared-error cost function. Given a training set of [itex]m$ examples, we then define the overall cost function to be: + - :+ \begin{align} \begin{align} J(W,b) J(W,b) Line 25: Line 20: [/itex] - :【原文】： + 以上关于$\textstyle J(W,b)$定义中的第一项是一个均方差项。第二项是一个规则化项（也叫'''权重衰减项'''），其目的是减小权重的幅度，防止过度拟合。 - :【初译】： + - :【一校】： + - 待补 + - The first term in the definition of $J(W,b)$ is an average sum-of-squares error term. The second term is a regularization term (also called a '''weight decay''' term) that tends to decrease the magnitude of the weights, and helps prevent overfitting. + - :【原文】： - :【初译】： - :【一校】： - 待补 - [Note: Usually weight decay is not applied to the bias terms $b^{(l)}_i$, as reflected in our definition for $J(W, b)$.  Applying weight decay to the bias units usually makes only a small difference to the final network, however.  If you've taken CS229 (Machine Learning) at Stanford or watched the course's videos on YouTube, you may also recognize this weight decay as essentially a variant of the Bayesian regularization method you saw there, where we placed a Gaussian prior on the parameters and did MAP (instead of maximum likelihood) estimation.] - :【原文】： + [注：通常权重衰减的计算并不使用偏置项 $\textstyle b^{(l)}_i$，比如我们在 $\textstyle J(W, b)$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229（机器学习）课程，或者在YouTube上看过课程视频，你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。] - :【初译】： + - :【一校】： + - 待补 + - The '''weight decay parameter''' $\lambda$ controls the relative importance of the two terms. Note also the slightly overloaded notation: $J(W,b;x,y)$ is the squared error cost with respect to a single example; $J(W,b)$ is the overall cost function, which includes the weight decay term. + - :【原文】： - :【初译】： - :【一校】： - 待补 - This cost function above is often used both for classification and for regression problems. For classification, we let $y = 0$ or $1$ represent the two class labels (recall that the sigmoid activation function outputs values in $[0,1]$; if we were using a tanh activation function, we would instead use -1 and +1 to denote the labels).  For regression problems, we first scale our outputs to ensure that they lie in the $[0,1]$ range (or if we were using a tanh activation function, then the $[-1,1]$ range). - :【原文】： + '''权重衰减参数''' $\textstyle \lambda$ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义：$\textstyle J(W,b;x,y)$ 是针对单个样例计算得到的方差代价函数；$\textstyle J(W,b)$ 是整体样本代价函数，它包含权重衰减项。 - :【初译】： + - :【一校】： + - 待补 + 以上的代价函数经常被用于分类和回归问题。在分类问题中，我们用 $\textstyle y = 0$ 或 $\textstyle 1$，来代表两种类型的标签（回想一下，这是因为 sigmoid激活函数的值域为 $\textstyle [0,1]$；如果我们使用双曲正切型激活函数，那么应该选用 $\textstyle -1$ 和 $\textstyle +1$ 作为标签）。对于回归问题，我们首先要变换输出值域（译者注：也就是 $\textstyle y$），以保证其范围为 $\textstyle [0,1]$ （同样地，如果我们使用双曲正切型激活函数，要使输出值域为 $\textstyle [-1,1]$）。 - Our goal is to minimize $J(W,b)$ as a function of $W$ and $b$. To train our neural network, we will initialize each parameter $W^{(l)}_{ij}$ and each $b^{(l)}_i$ to a small random value near zero (say according to a ${Normal}(0,\epsilon^2)$ distribution for some small $\epsilon$, say $0.01$), and then apply an optimization algorithm such as batch gradient descent. Since $J(W, b)$ is a non-convex function, + - gradient descent is susceptible to local optima; however, in practice gradient descent + - usually works fairly well. Finally, note that it is important to initialize + 我们的目标是针对参数 $\textstyle W$ 和 $\textstyle b$ 来求其函数 $\textstyle J(W,b) 的最小值。为了求解神经网络，我们需要将每一个参数 [itex]\textstyle W^{(l)}_{ij}$ 和 $\textstyle b^{(l)}_i$ 初始化为一个很小的、接近零的随机值（比如说，使用正态分布 $\textstyle {Normal}(0,\epsilon^2)$ 生成的随机值，其中 $\textstyle \epsilon$ 设置为 $\textstyle 0.01$ ），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 $\textstyle J(W, b)$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为 $\textstyle 0。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有 [itex]\textstyle i$，$\textstyle W^{(1)}_{ij}$都会取相同的值，那么对于任何输入 $\textstyle x$ 都会有：$\textstyle a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ ）。随机初始化的目的是使'''对称失效'''。 - the parameters randomly, rather than to all 0's.  If all the parameters start off + - at identical values, then all the hidden layer units will end up learning the same + - function of the input (more formally, $W^{(1)}_{ij}$ will be the same for all values of $i$, so that $a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ for any input $x$). The random initialization serves the purpose of '''symmetry breaking'''. + 梯度下降法中每一次迭代都按照如下公式对参数 $\textstyle W$ 和$\textstyle b$ 进行更新： - :【原文】： - :【初译】： - :【一校】： - 待补 - One iteration of gradient descent updates the parameters $W,b$ as follows: ::[itex] \begin{align} \begin{align} Line 70: Line 42: b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align} \end{align} - + [/itex] - :【原文】： + - :【初译】： + 其中 $\textstyle \alpha$ 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下'''反向传播'''算法，它是计算偏导数的一种有效方法。 - :【一校】： + - 待补 + - where $\alpha$ is the learning rate.  The key step is computing the partial derivatives above. We will now describe the '''backpropagation''' algorithm, which gives an + 我们首先来讲一下如何使用反向传播算法来计算 $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$，这两项是单个样例 $\textstyle (x,y)$ 的代价函数 $\textstyle J(W,b;x,y)$ 的偏导数。一旦我们求出该偏导数，就可以推导出整体代价函数 $\textstyle J(W,b)$ 的偏导数： - efficient way to compute these partial derivatives. + - :【原文】： - :【初译】： - :【一校】： - 待补 - We will first describe how backpropagation can be used to compute $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ and $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$, the partial derivatives of the cost function $J(W,b;x,y)$ defined with respect to a single example $(x,y)$. Once we can compute these, we see that the derivative of the overall cost function $J(W,b)$ can be computed as: - :【原文】： - :【初译】： - :【一校】： - 待补 ::[itex] \begin{align} \begin{align} Line 94: Line 57: \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align} \end{align} - + [/itex] - :【原文】： + - :【初译】： + 以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于 $\textstyle W$ 而不是 $\textstyle b$。 - :【一校】： + - 待补 + - The two lines above differ slightly because weight decay is applied to $W$ but not $b$. + 反向传播算法的思路如下：给定一个样例 $\textstyle (x,y)$，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $\textstyle h_{W,b}(x)$ 的输出值。之后，针对第 $\textstyle l$ 层的每一个节点 $\textstyle i$，我们计算出其“残差” $\textstyle \delta^{(l)}_i$，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $\textstyle \delta^{(n_l)}_i$  （第 $\textstyle n_l$ 层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（译者注：第 $\textstyle l+1$ 层节点）残差的加权平均值计算 $\textstyle \delta^{(l)}_i$，这些节点以 $\textstyle a^{(l)}_i$ 作为输入。下面将给出反向传导算法的细节： - :【原文】： - :【初译】： - :【一校】： - 待补 - The intuition behind the backpropagation algorithm is as follows. Given a training example $(x,y)$, we will first run a "forward pass" to compute all the activations throughout the network, including the output value of the hypothesis $h_{W,b}(x)$.  Then, for each node $i$ in layer $l$, we would like to compute an "error term" $\delta^{(l)}_i$ that measures how much that node was "responsible" for any errors in our output. For an output node, we can directly measure the difference between the network's activation and the true target value, and use that to define $\delta^{(n_l)}_i$ (where layer $n_l$ is the output layer).  How about hidden units?  For those, we will compute $\delta^{(l)}_i$ based on a weighted average of the error terms of the nodes that uses $a^{(l)}_i$ as an input.  In detail, here is the backpropagation algorithm: - :【原文】： - :【初译】： - :【一校】： - 待补
-
1. Perform a feedforward pass, computing the activations for layers $L_2$, $L_3$, and so on up to the output layer $L_{n_l}$. +
2. 进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$ 直到输出层 $\textstyle L_{n_l}$ 的激活值。 -
3. For each output unit $i$ in layer $n_l$ (the output layer), set +
4. 对于第 $\textstyle n_l$ 层（输出层）的每个输出单元 $\textstyle i$，我们根据以下公式计算残差： + + ::[itex] \begin{align} \begin{align} Line 121: Line 77: \end{align} \end{align} [/itex] -
5. For $l = n_l-1, n_l-2, n_l-3, \ldots, 2$ + - :For each node $i$ in layer $l$, set + [译者注： - ::+ :[itex] - \delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i) + \begin{align} - + \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) -
6. Compute the desired partial derivatives, which are given as: + = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ - :+ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 + = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ + &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) + = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) + \end{align} + + ] + +
7. 对 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各个层，第 $\textstyle l$ 层的第 $\textstyle i$ 个节点的残差计算方法如下： + : $+ \delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i) +$ + + {译者注： + :+ \begin{align} + \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) + = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 + = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ + &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 + = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ + &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) + = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ + &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} + = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ + &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) + = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) + \end{align} + + + 将上式中的$\textstyle n_l-1$与$\textstyle n_l$的关系替换为$\textstyle l$与$\textstyle l+1$的关系，就可以得到： + : $+ \delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i) +$ + 以上逐次从后向前求导的过程即为“反向传导”的本意所在。 + + ] + + + +
8. 计算我们需要的偏导数，计算方法如下： + :\begin{align} \begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align} \end{align} - + [/itex]
- :【原文】： - :【初译】： - :【一校】： - 待补 - Finally, we can also re-write the algorithm using matrix-vectorial notation. We will use "$\textstyle \bullet$" to denote the element-wise product operator (denoted ".*" in Matlab or Octave, and also called the Hadamard product), so that if $\textstyle a = b \bullet c$, then $\textstyle a_i = b_ic_i$. Similar to how we extended the definition of $\textstyle f(\cdot)$ to apply element-wise to vectors, we also do the same for $\textstyle f'(\cdot)$ (so that $\textstyle f'([z_1, z_2, z_3]) = - [f'(z_1), - f'(z_2), - f'(z_3)]$). - The algorithm can then be written: + 最后，我们用矩阵-向量表示法重写以上算法。我们使用“$\textstyle \bullet$” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若 $\textstyle a = b \bullet c$，则 $\textstyle a_i = b_ic_i$。在上一个教程中我们扩展了 $\textstyle f(\cdot)$ 的定义，使其包含向量运算，这里我们也对偏导数 $\textstyle f'(\cdot)$ 也做了同样的处理（于是又有 $\textstyle f'([z_1, z_2, z_3]) = [f'(z_1), f'(z_2), f'(z_3)]$ ）。 + + + 那么，反向传播算法可表示为以下几个步骤：
-
1. Perform a feedforward pass, computing the activations for layers $\textstyle L_2$, $\textstyle L_3$, up to the output layer $\textstyle L_{n_l}$, using the equations defining the forward propagation steps +
2. 进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$直到输出层 $\textstyle L_{n_l}$ 的激活值。 -
3. For the output layer (layer $\textstyle n_l$), set + - :\begin{align} + 4. 对输出层（第 [itex]\textstyle n_l 层），计算： + + :\begin{align} \delta^{(n_l)} \delta^{(n_l)} = - (y - a^{(n_l)}) \bullet f'(z^{(n_l)}) = - (y - a^{(n_l)}) \bullet f'(z^{(n_l)}) - \end{align} + \end{align}[/itex] -
5. For $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ + - :Set +
6. 对于 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各层，计算： - ::\begin{align} + :[itex] \begin{align} - \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)}) + \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)}) - \end{align} + \end{align}[/itex] -
7. Compute the desired partial derivatives: + - :\begin{align} + 8. 计算最终需要的偏导数值： + :[itex] \begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. - \end{align} + \end{align}[/itex]
- :【原文】： + '''实现中应注意：'''在以上的第2步和第3步中，我们需要为每一个 $\textstyle i$ 值计算其 $\textstyle f'(z^{(l)}_i)$。假设 $\textstyle f(z)$ 是sigmoid函数，并且我们已经在前向传导运算中得到了 $\textstyle a^{(l)}_i$。那么，使用我们早先推导出的 $\textstyle f'(z)$表达式，就可以计算得到 $\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$。 - :【初译】： + - :【一校】： + - 待补 + 最后，我们将对梯度下降算法做个全面总结。在下面的伪代码中，$\textstyle \Delta W^{(l)}$ 是一个与矩阵 $\textstyle W^{(l)}$ 维度相同的矩阵，$\textstyle \Delta b^{(l)}$ 是一个与 $\textstyle b^{(l)}$ 维度相同的向量。注意这里“$\textstyle \Delta W^{(l)}$”是一个矩阵，而不是“$\textstyle \Delta$ 与 $\textstyle W^{(l)}$ 相乘”。下面，我们实现批量梯度下降法中的一次迭代： - '''Implementation note:''' In steps 2 and 3 above, we need to compute $\textstyle f'(z^{(l)}_i)$ for each value of $\textstyle i$. Assuming $\textstyle f(z)$ is the sigmoid activation function, we would already have $\textstyle a^{(l)}_i$ stored away from the forward pass through the network.  Thus, using the expression that we worked out earlier for $\textstyle f'(z)$, + - we can compute this as $\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$. + - Finally, we are ready to describe the full gradient descent algorithm.  In the pseudo-code - below, $\textstyle \Delta W^{(l)}$ is a matrix (of the same dimension as $\textstyle W^{(l)}$), and $\textstyle \Delta b^{(l)}$ is a vector (of the same dimension as $\textstyle b^{(l)}$). Note that in this notation, - "$\textstyle \Delta W^{(l)}$" is a matrix, and in particular it isn't "$\textstyle \Delta$ times $\textstyle W^{(l)}$." We implement one iteration of batch gradient descent as follows:
-
1. Set $\textstyle \Delta W^{(l)} := 0$, $\textstyle \Delta b^{(l)} := 0$ (matrix/vector of zeros) for all $\textstyle l$. +
2. 对于所有 $\textstyle l$，令 $\textstyle \Delta W^{(l)} := 0$ , $\textstyle \Delta b^{(l)} := 0$ （设置为全零矩阵或全零向量） -
3. For $\textstyle i = 1$ to $\textstyle m$, + +
4. 对于 $\textstyle i = 1$ 到 $\textstyle m$， +
-
1. Use backpropagation to compute $\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$ and +
2. 使用反向传播算法计算 $\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$ 和 $\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$。 - $\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$. +
3. 计算 $\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$。 -
4. Set $\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$. +
5. 计算 $\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$。 -
6. Set $\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$. +
-
5. Update the parameters: +
6. 更新权重参数： - :\begin{align} + :[itex] \begin{align} W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\ W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\ b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right] b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right] - \end{align} + \end{align}[/itex]
- :【原文】： + 现在，我们可以重复梯度下降法的迭代步骤来减小代价函数 $\textstyle J(W,b)$ 的值，进而求解我们的神经网络。 - :【初译】： + - :【一校】： + - 待补 + ==中英文对照== - To train our neural network, we can now repeatedly take steps of gradient descent to reduce our cost function $\textstyle J(W,b)$. + + :反向传播算法 Backpropagation Algorithm + :（批量）梯度下降法 (batch) gradient descent + :（整体）代价函数 (overall) cost function + :方差 squared-error + :均方差 average sum-of-squares error + :规则化项 regularization term + :权重衰减 weight decay + :偏置项 bias terms + :贝叶斯规则化方法 Bayesian regularization method + :高斯先验概率 Gaussian prior + :极大后验估计 MAP + :极大似然估计 maximum likelihood estimation + :激活函数 activation function + :双曲正切函数 tanh function + :非凸函数 non-convex function + :隐藏层单元 hidden (layer) units + :对称失效 symmetry breaking + :学习速率 learning rate + :前向传导 forward pass + :假设值 hypothesis + :残差 error term + :加权平均值 weighted average + :前馈传导 feedforward pass + :阿达马乘积 Hadamard product + :前向传播 forward propagation + + + ==中文译者== + + 王方（fangkey@gmail.com），林锋（xlfg@yeah.net），许利杰（csxulijie@gmail.com） + + + {{稀疏自编码器}} + - {{Sparse_Autoencoder}} + {{Languages|Backpropagation_Algorithm|English}}

## Latest revision as of 01:30, 2 December 2016

\begin{align} J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2. \end{align}

\begin{align} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\ &= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align}

[注：通常权重衰减的计算并不使用偏置项 $\textstyle b^{(l)}_i$，比如我们在 $\textstyle J(W, b)$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229（机器学习）课程，或者在YouTube上看过课程视频，你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。]

\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align}

\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}

1. 进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$ 直到输出层 $\textstyle L_{n_l}$ 的激活值。
2. 对于第 $\textstyle n_l$ 层（输出层）的每个输出单元 $\textstyle i$，我们根据以下公式计算残差：
\begin{align} \delta^{(n_l)}_i = \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}
[译者注：
\begin{align} \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}
]
3. $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各个层，第 $\textstyle l$ 层的第 $\textstyle i$ 个节点的残差计算方法如下：
$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
{译者注：
\begin{align} \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) \end{align}
将上式中的$\textstyle n_l-1$$\textstyle n_l$的关系替换为$\textstyle l$$\textstyle l+1$的关系，就可以得到：
$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]
4. 计算我们需要的偏导数，计算方法如下：
\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align}

1. 进行前馈传导计算，利用前向传导公式，得到 $\textstyle L_2, L_3, \ldots$直到输出层 $\textstyle L_{n_l}$ 的激活值。
2. 对输出层（第 $\textstyle n_l$ 层），计算：
\begin{align} \delta^{(n_l)} = - (y - a^{(n_l)}) \bullet f'(z^{(n_l)}) \end{align}
3. 对于 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各层，计算：
\begin{align} \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)}) \end{align}
4. 计算最终需要的偏导数值：
\begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \end{align}

1. 对于所有 $\textstyle l$，令 $\textstyle \Delta W^{(l)} := 0$ , $\textstyle \Delta b^{(l)} := 0$ （设置为全零矩阵或全零向量）
2. 对于 $\textstyle i = 1$$\textstyle m$
1. 使用反向传播算法计算 $\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$$\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$
2. 计算 $\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$
3. 计算 $\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$
3. 更新权重参数：
\begin{align} W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\ b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right] \end{align}

## 中英文对照

（整体）代价函数 (overall) cost function

## 中文译者

Language : English