深度网络概览

From Ufldl

Jump to: navigation, search
(数据获取问题)
(局部极值问题)
Line 32: Line 32:
使用上面提到的方法,我们需要依赖于有标签的数据进行训练。然而有标签的数据通常是稀缺的,因此对于许多问题,我们很难获得足够多的样本来拟合一个复杂模型的参数。例如,考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合。
使用上面提到的方法,我们需要依赖于有标签的数据进行训练。然而有标签的数据通常是稀缺的,因此对于许多问题,我们很难获得足够多的样本来拟合一个复杂模型的参数。例如,考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合。
-
==局部极值问题==
+
===局部极值问题===
使用监督学习方法来对浅层网络(有一个隐藏层)进行训练通常能够使参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。特别的,使用监督学习方法训练神经网络时,通常会涉及到求解一个高度非凸的优化问题(例如最小化训练误差 <math>\textstyle \sum\nolimits_{i}{||{{h}_{W}}\left( {{x}^{\left( i \right)}}-{{y}^{\left( i \right)}} \right)|{{|}^{2}}}</math>,其中参数 <math>\textstyle W</math>是要优化的参数。对深度网络而言,这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值,因而使用梯度下降法(或者像共轭梯度下降法,L-BFGS等方法)效果并不好。
使用监督学习方法来对浅层网络(有一个隐藏层)进行训练通常能够使参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。特别的,使用监督学习方法训练神经网络时,通常会涉及到求解一个高度非凸的优化问题(例如最小化训练误差 <math>\textstyle \sum\nolimits_{i}{||{{h}_{W}}\left( {{x}^{\left( i \right)}}-{{y}^{\left( i \right)}} \right)|{{|}^{2}}}</math>,其中参数 <math>\textstyle W</math>是要优化的参数。对深度网络而言,这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值,因而使用梯度下降法(或者像共轭梯度下降法,L-BFGS等方法)效果并不好。
-
 
==梯度弥散问题==
==梯度弥散问题==

Revision as of 14:59, 29 March 2013

Personal tools