梯度检验与高级优化

From Ufldl

Jump to: navigation, search
 
Line 1: Line 1:
-
 
-
 
众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。
众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。
 +
缺位错误(Off-by-one error)举例说明:比如 <math>\textstyle for </math>循环中循环 <math>\textstyle m</math>次,正确应该是 <math>\textstyle for (i=1;~i<=m;~i++)</math>,但有时程序员疏忽,会写成 <math>\textstyle for (i=1;~i<m;~i++)</math>,这就是缺位错误。
缺位错误(Off-by-one error)举例说明:比如 <math>\textstyle for </math>循环中循环 <math>\textstyle m</math>次,正确应该是 <math>\textstyle for (i=1;~i<=m;~i++)</math>,但有时程序员疏忽,会写成 <math>\textstyle for (i=1;~i<m;~i++)</math>,这就是缺位错误。
Line 7: Line 6:
假设我们想要最小化以 <math>\textstyle \theta</math> 为自变量的目标函数<math>\textstyle J(\theta)</math>。假设 <math>\textstyle J : \Re \mapsto \Re</math>,则 <math>\textstyle \theta \in \Re</math>。在一维的情况下,一次迭代的梯度下降公式是
假设我们想要最小化以 <math>\textstyle \theta</math> 为自变量的目标函数<math>\textstyle J(\theta)</math>。假设 <math>\textstyle J : \Re \mapsto \Re</math>,则 <math>\textstyle \theta \in \Re</math>。在一维的情况下,一次迭代的梯度下降公式是
 +
:<math>\begin{align}
:<math>\begin{align}
\theta := \theta - \alpha \frac{d}{d\theta}J(\theta).
\theta := \theta - \alpha \frac{d}{d\theta}J(\theta).
Line 15: Line 15:
回忆导数的数学定义:
回忆导数的数学定义:
 +
:<math>\begin{align}
:<math>\begin{align}
\frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0}
\frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0}
Line 30: Line 31:
给定一个被认为能计算 <math>\textstyle \frac{d}{d\theta}J(\theta)</math> 的函数<math>\textstyle g(\theta)</math>,我们可以用下面的数值检验公式
给定一个被认为能计算 <math>\textstyle \frac{d}{d\theta}J(\theta)</math> 的函数<math>\textstyle g(\theta)</math>,我们可以用下面的数值检验公式
 +
:<math>\begin{align}
:<math>\begin{align}
g(\theta) \approx
g(\theta) \approx
Line 44: Line 46:
假设我们有一个用于计算 <math>\textstyle \frac{\partial}{\partial \theta_i} J(\theta)</math>的函数 <math>\textstyle g_i(\theta)</math>;我们想要检验 <math>\textstyle g_i</math> 是否输出正确的求导结果。我们定义 <math>\textstyle \theta^{(i+)} = \theta +
假设我们有一个用于计算 <math>\textstyle \frac{\partial}{\partial \theta_i} J(\theta)</math>的函数 <math>\textstyle g_i(\theta)</math>;我们想要检验 <math>\textstyle g_i</math> 是否输出正确的求导结果。我们定义 <math>\textstyle \theta^{(i+)} = \theta +
{\rm EPSILON} \times \vec{e}_i</math>,其中
{\rm EPSILON} \times \vec{e}_i</math>,其中
 +
:<math>\begin{align}
:<math>\begin{align}
\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}
\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}
\end{align}</math>
\end{align}</math>
是第 <math>\textstyle i</math> 个基向量(维度和 <math>\textstyle \theta</math> 相同,在第 <math>\textstyle i</math> 行是“<math>\textstyle 1</math>”而其他行是“<math>\textstyle 0</math>”)。所以,<math>\textstyle \theta^{(i+)}</math> 和 <math>\textstyle \theta</math> 几乎相同,除了第 <math>\textstyle i</math> 行元素增加了 <math>\textstyle EPSILON</math>。类似地,<math>\textstyle \theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i</math> 得到的第 <math>\textstyle i</math> 行减小了 <math>\textstyle EPSILON</math>。然后我们可以对每个 <math>\textstyle i</math> 检查下式是否成立,进而验证 <math>\textstyle g_i(\theta)</math> 的正确性:
是第 <math>\textstyle i</math> 个基向量(维度和 <math>\textstyle \theta</math> 相同,在第 <math>\textstyle i</math> 行是“<math>\textstyle 1</math>”而其他行是“<math>\textstyle 0</math>”)。所以,<math>\textstyle \theta^{(i+)}</math> 和 <math>\textstyle \theta</math> 几乎相同,除了第 <math>\textstyle i</math> 行元素增加了 <math>\textstyle EPSILON</math>。类似地,<math>\textstyle \theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i</math> 得到的第 <math>\textstyle i</math> 行减小了 <math>\textstyle EPSILON</math>。然后我们可以对每个 <math>\textstyle i</math> 检查下式是否成立,进而验证 <math>\textstyle g_i(\theta)</math> 的正确性:
 +
:<math>\begin{align}
:<math>\begin{align}
g_i(\theta) \approx
g_i(\theta) \approx
Line 55: Line 59:
当用反射传播算法求解神经网络时,正确算法实现会得到:
当用反射传播算法求解神经网络时,正确算法实现会得到:
 +
:<math>\begin{align}
:<math>\begin{align}
\nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\
\nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\
Line 64: Line 69:
-
迄今为止,我们的讨论都集中在使用梯度下降法来最小化 <math>\textstyle J(\theta)</math>。如果你已经实现了一个计算 <math>\textstyle J(\theta)</math> 和 <math>\textstyle \nabla_\theta J(\theta)</math> 的函数,那么其实还有更精妙的算法来最小化 <math>\textstyle J(\theta)</math>。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率 <math>\textstyle \alpha</math>,以得到合适的步长值,最终使 <math>\textstyle \theta</math> 能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿方法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个 <math>\textstyle \theta</math>,需要你计算出 <math>\textstyle J(\theta)</math> 和 <math>\textstyle \nabla_\theta J(\theta)</math>。之后,这些优化算法会自动调整学习速率/步长值  <math>\textstyle \alpha</math> 的大小(并计算Hessian近似矩阵等等)来自动寻找 <math>\textstyle J(\theta)</math> 最小化时<math>\textstyle \theta</math> 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。
+
迄今为止,我们的讨论都集中在使用梯度下降法来最小化 <math>\textstyle J(\theta)</math>。如果你已经实现了一个计算 <math>\textstyle J(\theta)</math> 和 <math>\textstyle \nabla_\theta J(\theta)</math> 的函数,那么其实还有更精妙的算法来最小化 <math>\textstyle J(\theta)</math>。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率 <math>\textstyle \alpha</math>,以得到合适的步长值,最终使 <math>\textstyle \theta</math> 能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个 <math>\textstyle \theta</math>,需要你计算出 <math>\textstyle J(\theta)</math> 和 <math>\textstyle \nabla_\theta J(\theta)</math>。之后,这些优化算法会自动调整学习速率/步长值  <math>\textstyle \alpha</math> 的大小(并计算Hessian近似矩阵等等)来自动寻找 <math>\textstyle J(\theta)</math> 最小化时<math>\textstyle \theta</math> 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。
-
{{Sparse_Autoencoder}}
+
==中英文对照==
 +
off-by-one error 缺位错误
 +
 +
bias term 偏置项
 +
 +
numerically checking 数值检验
 +
 +
numerical roundoff errors 数值舍入误差
 +
 +
significant digits 有效数字
 +
 +
unrolling 组合扩展
 +
 +
learning rate 学习速率
 +
 +
Hessian matrix Hessian矩阵
 +
 +
Newton's method 牛顿法
 +
 +
conjugate gradient 共轭梯度
 +
 +
step-size 步长值
==中文译者==
==中文译者==
-
@pocketwalker,王方(fangkey@gmail.com),林锋(xlfg@yeah.net),@JerryLead
+
袁晓丹(shadowwalker1991@gmail.com),王方(fangkey@gmail.com),林锋(xlfg@yeah.net),许利杰(csxulijie@gmail.com)
 +
 
 +
 
 +
{{稀疏自编码器}}
 +
 
 +
 
 +
{{languages|Gradient_checking_and_advanced_optimization|English}}

Latest revision as of 05:33, 8 April 2013

Personal tools