池化

From Ufldl

Jump to: navigation, search
(Created page with "池化")
Line 1: Line 1:
-
池化
+
Pooling
 +
Pooling: Overview
 +
-----------------------------------------------------------------------------
 +
After obtaining features using convolution, we would next like to use them for classification. In theory, one could use all the extracted features with a classifier such as a softmax classifier, but this can be computationally challenging. Consider for instance images of size 96x96 pixels, and suppose we have learned 400 features over 8x8 inputs. Each convolution results in an output of size (96 − 8 + 1) * (96 − 8 + 1) = 7921, and since we have 400 features, this results in a vector of 892 * 400 = 3,168,400 features per example. Learning a classifier with inputs having 3+ million features can be unwieldy, and can also be prone to over-fitting.
 +
 
 +
【初译】:
 +
Pooling: 概述
 +
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以把所有解析出来的特征关联到一个分类方法,例如softmax分类方法,但计算起来仍然是极富挑战性的。例如:对于一个96X96像素的图像,假设我们已经通过8X8个输入学习得到了400个特征。而每一个卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921的结果集,由于已经得到了400个features,所以对于每个样例(example)结果集的大小就将达到892 * 400 = 3,168,400 个特征。学习一个拥有超过3百万特征的输入的分类方法将会是相当不便的,并且极易出现过度匹配(over-fitting).
 +
 
 +
【一审】:
 +
池化: 概述
 +
-----------------------------------------------------------------------------
 +
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以把所有解析出来的特征关联到一个分类器,例如softmax分类器,但计算量非常大。例如:对于一个96X96像素的图像,假设我们已经通过8X8个输入学习得到了400个特征。而每一个卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921的结果集,由于已经得到了400个特征,所以对于每个样例(example)结果集的大小就将达到892 * 400 = 3,168,400 个特征。这样学习一个拥有超过3百万特征的输入的分类器是相当不明智的,并且极易出现过度拟合(over-fitting).
 +
 
 +
【二审】:
 +
池化: 概述
 +
-----------------------------------------------------------------------------
 +
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以用所有提取得到的特征去训练分类器,例如softmax分类器,但这样做面临计算量的挑战。例如:对于一个96X96像素的图像,假设我们已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921维的卷积特征,由于有400个特征,所以每个样例(example)都会得到一个892 * 400 = 3,168,400维的卷积特征向量。学习一个拥有超过3百万特征输入的分类器十分不便,并且容易出现过拟合(over-fitting)。
 +
 
 +
 
 +
-----------------------------------------------------------------------------
 +
To address this, first recall that we decided to obtain convolved features because images have the "stationarity" property, which implies that features that are useful in one region are also likely to be useful for other regions. Thus, to describe a large image, one natural approach is to aggregate statistics of these features at various locations. For example, one could compute the mean (or max) value of a particular feature over a region of the image. These summary statistics are much lower in dimension (compared to using all of the extracted features) and can also improve results (less over-fitting). We aggregation operation is called this operation pooling, or sometimes mean pooling or max pooling (depending on the pooling operation applied).
 +
 
 +
 
 +
【初译】:
 +
为了解决这个问题,首先回忆一下,我们之所以决定获取卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述一个大的图像,一个很自然的想法就是把在多个位置都适用的特征做一次聚合统计。例如,人们可以计算图像的一个区域上某个特定特征的平均值(或最大值),这些总结性的统计的就会使特征的数目大大降低(对比于适用所有的导出特征)。这种聚合的操作就叫做汇聚(pooling),有时也成为平均汇聚或者最大汇聚(取决于计算汇聚的方法)
 +
 
 +
【一审】:
 +
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对在多个位置都适用的特征做一次聚合统计。例如,人们可以计算图像一个区域上的某个特定特征的平均值(或最大值),这些总结性的统计数据的维度相对较低(比之于使用所有的导出特征)。这种聚合的操作就叫做池化(pooling),有时也称为平均池化或者最大池化(取决于计算池化的方法)
 +
 
 +
【二审】:
 +
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(对比于使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling),有时也称为平均池化或者最大池化(取决于计算池化的方法)。
 +
 
 +
The following image shows how pooling is done over 4 non-overlapping regions of the image.
 +
 
 +
【初译】:
 +
下图显示汇聚如何应用于一个图像的四块不重合区域
 +
 
 +
【一审】:
 +
下图显示池化如何应用于一个图像的四块不重合区域
 +
 
 +
【二审】:
 +
下图显示池化如何应用于一个图像的四块不重合区域。
 +
(图片地址:是动态图http://deeplearning.stanford.edu/wiki/images/0/08/Pooling_schematic.gif)

Revision as of 11:31, 7 March 2013

Personal tools