深度网络概览
From Ufldl
(→深度网络的优势) |
(→训练深度网络的困难) |
||
Line 25: | Line 25: | ||
虽然几十年前人们就发现了深度网络在理论上的简洁性和较强的表达能力,但是直到最近,研究者们也没有在训练深度网络方面取得多少进步。 | 虽然几十年前人们就发现了深度网络在理论上的简洁性和较强的表达能力,但是直到最近,研究者们也没有在训练深度网络方面取得多少进步。 | ||
- | 问题原因在于研究者们主要使用的学习算法是:首先随机初始化深度网络的权重,然后使用有监督的目标函数在有标签的训练集 <math>\textstyle \left\{ \left( x_{l}^{\left( 1 \right)},{{y}^{\left( 1 \right)}} \right),...,\left( x_{l}^{\left( {{m}_{l}} \right)},{{y}^{\left( {{m}_{l}} \right)}} \right) \right\}</math> | + | 问题原因在于研究者们主要使用的学习算法是:首先随机初始化深度网络的权重,然后使用有监督的目标函数在有标签的训练集 <math>\textstyle \left\{ \left( x_{l}^{\left( 1 \right)},{{y}^{\left( 1 \right)}} \right),...,\left( x_{l}^{\left( {{m}_{l}} \right)},{{y}^{\left( {{m}_{l}} \right)}} \right) \right\}</math> 上进行训练。例如通过使用梯度下降法来降低训练误差。然而,这种方法通常不是十分奏效。这其中有如下几方面原因: |
- | + | ||
- | + | ||
===数据获取问题=== | ===数据获取问题=== | ||
Line 45: | Line 43: | ||
与梯度弥散问题紧密相关的问题是:当神经网络中的最后几层含有足够数量神经元的时候,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,用随机初始化的方式来训练整个网络所能得到的性能,就和用一些被损坏的输入(这是最初几层干的好事)来训练一个仅由最后几层构成的浅层网络差不多。 | 与梯度弥散问题紧密相关的问题是:当神经网络中的最后几层含有足够数量神经元的时候,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,用随机初始化的方式来训练整个网络所能得到的性能,就和用一些被损坏的输入(这是最初几层干的好事)来训练一个仅由最后几层构成的浅层网络差不多。 | ||
- | |||
- | |||
==逐层贪婪训练方法== | ==逐层贪婪训练方法== |