数据预处理

From Ufldl

Jump to: navigation, search
Line 23: Line 23:
=== 逐样本均值消减 ===
=== 逐样本均值消减 ===
-
【原文】
+
如果你的数据是''平稳''的(即数据每一个维度的统计都服从相同分布),那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)
-
If your data is ''stationary'' (i.e., the statistics for each data dimension follow the same distribution), then you might want to consider subtracting the mean-value for each example (computed per-example).
+
-
'''Example:''' In images, this normalization has the property of removing the average brightness (intensity) of the data point. In many cases, we are not interested in the illumination conditions of the image, but more so in the content; removing the average pixel value per data point makes sense here. '''Note:''' While this method is generally used for images, one might want to take more care when applying this to color images. In particular, the stationarity property does not generally apply across pixels in different color channels.
+
'''例子:'''对于图像,这种归一化可以移除图像的平均亮度值(intensity)。很多情况下我们对图像的照度并不感兴趣,而更多地关注其内容,这时对每个数据点移除像素的均值是有意义的。'''注意:'''虽然该方法广泛地应用于图像,但在处理彩色图像时需要格外小心,具体来说,是因为不同色彩通道中的像素并不都存在平稳特性。
-
 
+
-
【初译】
+
-
如果数据是''平稳''的(数据的每一维都服从相同分布)可以考虑在每个样本上减去均值(每个样本逐一计算)。
+
-
 
+
-
'''例子''':对于图像,归一化具有移除数据平均亮度值(密度值)的特性。很多情况下我们对亮度情况并不感兴趣,而是关注其内容,这样去减去像素均值是合理的。值得'''注意'''的是虽然该方法广泛地应用于图像,但在处理彩色图像时需要更加小心,特别是平稳性在不同色彩通道间并不存在。
+
-
 
+
-
【一审】
+
-
如果数据是''平稳''的(即数据每一个维度的统计量都服从相同分布),可以考虑在每个样本上减去该样本的均值(每个样本分别计算)。
+
-
 
+
-
'''例子''':对于图像,归一化可以移除图像的平均亮度值。很多情况下我们对光照情况不感兴趣,而是更关注图像内容,这样减去像素均值是合理的。值得'''注意'''的是虽然该方法广泛地应用于图像,但在处理彩色图像时需要小心,平稳性在不同色彩通道间并不存在(译注:即不同颜色通道具有不同的统计特性)。
+
=== Feature Standardization/特征标准化 ===
=== Feature Standardization/特征标准化 ===

Revision as of 18:00, 13 March 2013

Personal tools