神经网络

From Ufldl

Jump to: navigation, search
Line 6: Line 6:
【二审】举一个监督学习的例子,我们有样本集(x(i),y(i))。神经网络算法提供了一种复杂又非线性的假设模型hW,b(x),它具有参数W,b,可以以此参数来拟合我们的数据。
【二审】举一个监督学习的例子,我们有样本集(x(i),y(i))。神经网络算法提供了一种复杂又非线性的假设模型hW,b(x),它具有参数W,b,可以以此参数来拟合我们的数据。
 +
【原文】To describe neural networks, we will begin by describing the simplest possible neural network, one which comprises a single "neuron." We will use the following diagram to denote a single neuron:  
【原文】To describe neural networks, we will begin by describing the simplest possible neural network, one which comprises a single "neuron." We will use the following diagram to denote a single neuron:  
 +
【初译】为了描述神经网络,我们先从最简单的神经网络讲起,它是一个单一的“神经元”。我们用下面的图来表示单一神经元:
【初译】为了描述神经网络,我们先从最简单的神经网络讲起,它是一个单一的“神经元”。我们用下面的图来表示单一神经元:
 +
【一审】为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是单“神经元”图示:
【一审】为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是单“神经元”图示:
 +
【二审】为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是单个“神经元”图示:
【二审】为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是单个“神经元”图示:
【原文】This "neuron" is a computational unit that takes as input x1,x2,x3 (and a +1 intercept term), and outputs , where is called the activation function. In these notes, we will choose to be the sigmoid function:  
【原文】This "neuron" is a computational unit that takes as input x1,x2,x3 (and a +1 intercept term), and outputs , where is called the activation function. In these notes, we will choose to be the sigmoid function:  
-
【初译】神经元是一个计算单元,输入为x1,x2,x3  (a +1为截距项,注这里a为多余?校对者注:这里a是“一个”的意思,不是变量) ,输出为,其中为激活函数。在这里,我们选择为S型函数,
+
 
 +
【初译】神经元是一个计算单元,输入为x1,x2,x3  (a +1为截距项,注这里a为多余?校对者注:这里a是“一个”的意思,不是变量) ,输出为,其中为激活函数。在这里,我们选择为S型函数。
 +
 
【一审】这个“神经元”是一个以x1,x2,x3及截距+1为输入值的运算单元,并输出,其中函数称为“激活函数”。在本课程中,我们的激活函数将选用Sigmoid函数。(一审注:因为tanh也是S型函数,所以以下函数不知如何命名)
【一审】这个“神经元”是一个以x1,x2,x3及截距+1为输入值的运算单元,并输出,其中函数称为“激活函数”。在本课程中,我们的激活函数将选用Sigmoid函数。(一审注:因为tanh也是S型函数,所以以下函数不知如何命名)
Line 18: Line 24:
【原文】Thus, our single neuron corresponds exactly to the input-output mapping defined by logistic regression.  
【原文】Thus, our single neuron corresponds exactly to the input-output mapping defined by logistic regression.  
 +
【初译】这样单一神经元就可以与输入输出之间的逻辑回归映射关系相对应。
【初译】这样单一神经元就可以与输入输出之间的逻辑回归映射关系相对应。
 +
【一审】因此,这个单一“神经元”的输入-输出映射关系就是一个逻辑回归。
【一审】因此,这个单一“神经元”的输入-输出映射关系就是一个逻辑回归。
 +
【二审】因此,这个单一“神经元”的输入输出的映射关系其实就是一个逻辑回归。
【二审】因此,这个单一“神经元”的输入输出的映射关系其实就是一个逻辑回归。
【原文】Although these notes will use the sigmoid function, it is worth noting that another common choice for f is the hyperbolic tangent, or tanh, function:  
【原文】Although these notes will use the sigmoid function, it is worth noting that another common choice for f is the hyperbolic tangent, or tanh, function:  
-
【初译】尽管我们在这里使用了S型函数,也可以使用双曲正切函数,用tanh表示。
+
 
 +
【初译】尽管我们在这里使用了S型函数,也可以使用双曲正切函数,用tanh表示:
 +
 
【一审】虽然本系列教程将采用Sigmoid函数,但其它的选择还有双曲正切函数:
【一审】虽然本系列教程将采用Sigmoid函数,但其它的选择还有双曲正切函数:
 +
【二审】虽然本系列教程将采用Sigmoid函数,但你还可以选择双曲正切函数(tanh)
【二审】虽然本系列教程将采用Sigmoid函数,但你还可以选择双曲正切函数(tanh)
【原文】Here are plots of the sigmoid and tanh functions:(一审注:这里sigmoid与tanh是区分开来的,所以sigmoid不是S型函数的总称)  
【原文】Here are plots of the sigmoid and tanh functions:(一审注:这里sigmoid与tanh是区分开来的,所以sigmoid不是S型函数的总称)  
-
【初译】下面为S型函数图和双曲正切函数图。
+
【初译】下面为S型函数图和双曲正切函数图:
 +
 
【一审】以下是Sigmoid函数及双曲正切函数的图形:
【一审】以下是Sigmoid函数及双曲正切函数的图形:
 +
【二审】以下是Sigmoid函数及tanh函数的图形:(二审注:在翻译中,既然可以用Sigmoid表示一种函数,就可以用tanh表示双曲正切函数,毕竟它们都是很特殊的函数,并且被广泛使用的)
【二审】以下是Sigmoid函数及tanh函数的图形:(二审注:在翻译中,既然可以用Sigmoid表示一种函数,就可以用tanh表示双曲正切函数,毕竟它们都是很特殊的函数,并且被广泛使用的)
-
 
【原文】The tanh(z) function is a rescaled version of the sigmoid, and its output range is [ − 1,1] instead of [0,1].  
【原文】The tanh(z) function is a rescaled version of the sigmoid, and its output range is [ − 1,1] instead of [0,1].  
-
【初译】tanh(z) 是S型函数的变形,输出范围为 [ − 1,1] ,而不是[0,1].
+
 
-
【一审】tanh(z) 函数是sigmoid函数的一种变体,它的取值范围为[-1,1],而不是[0,1]
+
【初译】tanh(z) 是S型函数的变形,输出范围为 [ − 1,1] ,而不是[0,1]
-
【二审】tanh(z) 函数是sigmoid函数的一种变体,它的取值范围为[-1,1],而不是sigmoid函数的[0,1]
+
 
 +
【一审】tanh(z) 函数是sigmoid函数的一种变体,它的取值范围为[-1,1],而不是[0,1]
 +
 
 +
【二审】tanh(z) 函数是sigmoid函数的一种变体,它的取值范围为[-1,1],而不是sigmoid函数的[0,1]
 +
 
【原文】Note that unlike some other venues (including the OpenClassroom videos, and parts of CS229), we are not using the convention here of x0 = 1. Instead, the intercept term is handled separately by the parameter b.  
【原文】Note that unlike some other venues (including the OpenClassroom videos, and parts of CS229), we are not using the convention here of x0 = 1. Instead, the intercept term is handled separately by the parameter b.  
 +
【初译】不同于其他的情况(在开放性课程视频CS229中),我们不再令x0 = 1。截距项通过参数b来单独处理。
【初译】不同于其他的情况(在开放性课程视频CS229中),我们不再令x0 = 1。截距项通过参数b来单独处理。
 +
【一审】注意,与其它地方(包括公开课程视频及教学讲义CS229)不同的是,这里我们并不令x0 = 1,而是通过一个单独的参数b来表示截距。
【一审】注意,与其它地方(包括公开课程视频及教学讲义CS229)不同的是,这里我们并不令x0 = 1,而是通过一个单独的参数b来表示截距。
 +
【二审】注意,与其它地方(包括一些公开课以及斯坦福大学CS229课程)不同的是,这里我们不再令x0 = 1,而是通过一个单独的参数b来表示。
【二审】注意,与其它地方(包括一些公开课以及斯坦福大学CS229课程)不同的是,这里我们不再令x0 = 1,而是通过一个单独的参数b来表示。
-
【原文】Finally, one identity that'll be useful later: If f(z) = 1 / (1 + exp( − z)) is the sigmoid function, then its derivative is given by f'(z) = f(z)(1 − f(z)). (If f is the tanh function, then its derivative is given by f'(z) = 1 − (f(z))2.) You can derive this yourself using the definition of the sigmoid (or tanh) function.  
+
 
 +
【原文】Finally, one identity that'll be useful later: If f(z) = 1 / (1 + exp( − z)) is the sigmoid function, then its derivative is given by f'(z) = f(z)(1 − f(z)). (If f is the tanh function, then its derivative is given by f'(z) = 1 − (f(z))2.) You can derive this yourself using the definition of the sigmoid (or tanh) function.
 +
【初译】最后,有一个恒等式很有用:如果f(z) = 1 / (1 + exp( − z))为S型函数,那么它的导数为f'(z) = f(z)(1 − f(z))。(如果f为双曲正切函数,那么导数为f'(z) = 1 − (f(z))2))。上式可以通过S型(双曲正切)函数的定义自行推导。
【初译】最后,有一个恒等式很有用:如果f(z) = 1 / (1 + exp( − z))为S型函数,那么它的导数为f'(z) = f(z)(1 − f(z))。(如果f为双曲正切函数,那么导数为f'(z) = 1 − (f(z))2))。上式可以通过S型(双曲正切)函数的定义自行推导。
 +
【一审】最后,有一个等式之后会经常用到:如果sigmoid函数是f(z) = 1 / (1 + exp( − z)),那么它的导数就是f'(z) = f(z)(1 − f(z))(如果f是双曲正切函数,那它的导数就是f'(z) = 1 − (f(z))2),你可以根据sigmoid(或双曲正切)函数的定义自行推导这个等式。
【一审】最后,有一个等式之后会经常用到:如果sigmoid函数是f(z) = 1 / (1 + exp( − z)),那么它的导数就是f'(z) = f(z)(1 − f(z))(如果f是双曲正切函数,那它的导数就是f'(z) = 1 − (f(z))2),你可以根据sigmoid(或双曲正切)函数的定义自行推导这个等式。
 +
【二审】最后,有一个等式之后会经常用到:如果选择f(z) = 1 / (1 + exp( − z)),也就是sigmoid函数,那么它的导数就是f'(z) = f(z)(1 − f(z))(如果选择tanh函数,那它的导数就是f'(z) = 1 − (f(z))2),你可以根据sigmoid(或tanh)函数的定义自行推导这个等式。
【二审】最后,有一个等式之后会经常用到:如果选择f(z) = 1 / (1 + exp( − z)),也就是sigmoid函数,那么它的导数就是f'(z) = f(z)(1 − f(z))(如果选择tanh函数,那它的导数就是f'(z) = 1 − (f(z))2),你可以根据sigmoid(或tanh)函数的定义自行推导这个等式。
Neural Network model  
Neural Network model  
神经网络模型
神经网络模型
 +
【原文】A neural network is put together by hooking together many of our simple "neurons," so that the output of a neuron can be the input of another. For example, here is a small neural network:  
【原文】A neural network is put together by hooking together many of our simple "neurons," so that the output of a neuron can be the input of another. For example, here is a small neural network:  
 +
【初译】神经网络就是很多个简单神经元的连接,一个神经元的输出可以是另一个神经元的输入。例如,下面是一个小的神经网络:
【初译】神经网络就是很多个简单神经元的连接,一个神经元的输出可以是另一个神经元的输入。例如,下面是一个小的神经网络:
 +
【一审】神经网络就是将林林总总的单一“神经元”互相联结在一起,因此,一个“神经元”的输出就可能是另一个“神经元”的输入。例如,下图是一个简单的神经网络:
【一审】神经网络就是将林林总总的单一“神经元”互相联结在一起,因此,一个“神经元”的输出就可能是另一个“神经元”的输入。例如,下图是一个简单的神经网络:
 +
【二审】神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可能是另一个“神经元”的输入。例如,下图是一个简单的神经网络:
【二审】神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可能是另一个“神经元”的输入。例如,下图是一个简单的神经网络:
【原文】In this figure, we have used circles to also denote the inputs to the network. The circles labeled "+1" are called bias units, and correspond to the intercept term. The leftmost layer of the network is called the input layer, and the rightmost layer the output layer (which, in this example, has only one node). The middle layer of nodes is called the hidden layer, because its values are not observed in the training set. We also say that our example neural network has 3 input units (not counting the bias unit), 3 hidden units, and 1 output unit.  
【原文】In this figure, we have used circles to also denote the inputs to the network. The circles labeled "+1" are called bias units, and correspond to the intercept term. The leftmost layer of the network is called the input layer, and the rightmost layer the output layer (which, in this example, has only one node). The middle layer of nodes is called the hidden layer, because its values are not observed in the training set. We also say that our example neural network has 3 input units (not counting the bias unit), 3 hidden units, and 1 output unit.  
 +
【初译】在这个图中,我们用圆圈表示神经网络的输入。带有"+1"被称为偏置节点,对应着截距项。神经网络最左边的层被称为输入层,最右边的层被称为输出层(在这个例子中,只有一个节点)。中间层也称为隐层,因为它的值不能在训练样本中看到。我们的神经网络例子有3个输出节点(不包含偏置节点),3个隐层节点和1个输出节点。
【初译】在这个图中,我们用圆圈表示神经网络的输入。带有"+1"被称为偏置节点,对应着截距项。神经网络最左边的层被称为输入层,最右边的层被称为输出层(在这个例子中,只有一个节点)。中间层也称为隐层,因为它的值不能在训练样本中看到。我们的神经网络例子有3个输出节点(不包含偏置节点),3个隐层节点和1个输出节点。
【一审】如图,我们使用圆圈来表示神经网络的输入,被标上“+1”的圆圈称为“偏置单元”,也就是截距项。神经网络最左边的一层叫做“输入层”,最右的一层叫做“输出层”(本例中,这层只有一个节点)。中间所有节点组成的一层叫做“隐藏层”,因为在样本集中并没有它的值。也可以说,以上神经网络的例子有3个“输入单元”(偏置单元不计在内),3个“隐藏单元”以及一个“输出单元”。
【一审】如图,我们使用圆圈来表示神经网络的输入,被标上“+1”的圆圈称为“偏置单元”,也就是截距项。神经网络最左边的一层叫做“输入层”,最右的一层叫做“输出层”(本例中,这层只有一个节点)。中间所有节点组成的一层叫做“隐藏层”,因为在样本集中并没有它的值。也可以说,以上神经网络的例子有3个“输入单元”(偏置单元不计在内),3个“隐藏单元”以及一个“输出单元”。

Revision as of 09:12, 8 March 2013

Personal tools