主成分分析
From Ufldl
(→Rotating the Data 旋转数据) |
(→Recovering an Approximation of the Data 数据还原) |
||
Line 465: | Line 465: | ||
【二审】:上面的等式来源于先前对<math>\textstyle U</math>的定义,(在实际应用时,我们不倾向于先给<math>\textstyle \tilde{x}</math>填0然后再左乘<math>\textstyle U</math>,因为这意味着大量的乘0运算,相反我们选择用<math>\textstyle \tilde{x} \in \Re^k</math>的前<math>\textstyle k</math>列来乘<math>\textstyle U</math>,即上式中最右项。)将该算法应用于本例中的数据集,我们可得如下关于 <math>\textstyle \hat{x}</math>的图示: | 【二审】:上面的等式来源于先前对<math>\textstyle U</math>的定义,(在实际应用时,我们不倾向于先给<math>\textstyle \tilde{x}</math>填0然后再左乘<math>\textstyle U</math>,因为这意味着大量的乘0运算,相反我们选择用<math>\textstyle \tilde{x} \in \Re^k</math>的前<math>\textstyle k</math>列来乘<math>\textstyle U</math>,即上式中最右项。)将该算法应用于本例中的数据集,我们可得如下关于 <math>\textstyle \hat{x}</math>的图示: | ||
- | |||
[[File:PCA-xhat.png | 600px]] | [[File:PCA-xhat.png | 600px]] | ||
Line 491: | Line 490: | ||
如果要训练一个自动编码器或其它无监督特征学习算法,算法运行时间将依赖于输入数据的维数。若用<math>\textstyle \tilde{x} \in \Re^k</math>取代<math>\textstyle x</math>作为输入数据,那么算法将使用低维数据进行训练,运行速度将显著加快。对于很多数据集来说,低维表征量<math>\textstyle \tilde{x}</math>即为原数据集的极佳近似,如此使用PCA算法可在只产生极小近似误差的同时,显著地提高运行速度。 | 如果要训练一个自动编码器或其它无监督特征学习算法,算法运行时间将依赖于输入数据的维数。若用<math>\textstyle \tilde{x} \in \Re^k</math>取代<math>\textstyle x</math>作为输入数据,那么算法将使用低维数据进行训练,运行速度将显著加快。对于很多数据集来说,低维表征量<math>\textstyle \tilde{x}</math>即为原数据集的极佳近似,如此使用PCA算法可在只产生极小近似误差的同时,显著地提高运行速度。 | ||
- | |||
== Number of components to retain 选择主成分个数 == | == Number of components to retain 选择主成分个数 == |