深度网络概览

@@ Line 32: / Line 32: @@
 使用上面提到的方法，我们需要依赖于有标签的数据进行训练。然而有标签的数据通常是稀缺的，因此对于许多问题，我们很难获得足够多的样本来拟合一个复杂模型的参数。例如，考虑到深度网络具有强大的表达能力，在不充足的数据上进行训练将会导致过拟合。
-==局部极值问题==
+===局部极值问题===
 使用监督学习方法来对浅层网络（有一个隐藏层）进行训练通常能够使参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候，并不能取得很好的效果。特别的，使用监督学习方法训练神经网络时，通常会涉及到求解一个高度非凸的优化问题（例如最小化训练误差 <math>\textstyle \sum\nolimits_{i}{||{{h}_{W}}\left( {{x}^{\left( i \right)}}-{{y}^{\left( i \right)}} \right)|{{|}^{2}}}</math>，其中参数 <math>\textstyle W</math>是要优化的参数。对深度网络而言，这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值，因而使用梯度下降法（或者像共轭梯度下降法，L-BFGS等方法）效果并不好。
 ==梯度弥散问题==

Revision as of 14:59, 29 March 2013