# 可视化自编码器训练结果

 Revision as of 11:53, 7 March 2013 (view source)Kandeng (Talk | contribs)← Older edit Revision as of 11:56, 7 March 2013 (view source)Kandeng (Talk | contribs) Newer edit → Line 16: Line 16: :We will visualize the function computed by hidden unit  ---which depends on the parameters $\textstyle W^{(1)}_{ij}$ (ignoring the bias term for now)---using a 2D image. In particular, we think of $\textstyle a^{(2)}_i$ as some non-linear feature of the input $\textstyle x$. We ask: What input image $\textstyle x$ would cause $\textstyle a^{(2)}_i$ to be maximally activated? (Less formally, what is the feature that hidden unit $\textstyle i$ is looking for?) For this question to have a non-trivial answer, we must impose some constraints on $\textstyle x$. If we suppose that the input is norm constrained by $\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$, then one can show (try doing this yourself) that the input which maximally activates hidden unit $\textstyle i$ is given by setting pixel $\textstyle x_j$ (for all 100 pixels, $\textstyle j=1,\ldots, 100$) to :We will visualize the function computed by hidden unit  ---which depends on the parameters $\textstyle W^{(1)}_{ij}$ (ignoring the bias term for now)---using a 2D image. In particular, we think of $\textstyle a^{(2)}_i$ as some non-linear feature of the input $\textstyle x$. We ask: What input image $\textstyle x$ would cause $\textstyle a^{(2)}_i$ to be maximally activated? (Less formally, what is the feature that hidden unit $\textstyle i$ is looking for?) For this question to have a non-trivial answer, we must impose some constraints on $\textstyle x$. If we suppose that the input is norm constrained by $\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$, then one can show (try doing this yourself) that the input which maximally activates hidden unit $\textstyle i$ is given by setting pixel $\textstyle x_j$ (for all 100 pixels, $\textstyle j=1,\ldots, 100$) to :【初译】： :【初译】： - 我们将用2D图像对这个由隐藏单元i计算出的函数进行可视化，这个函数依赖于参数$\textstyle W^{(1)}_{ij}$（忽略掉偏置项$b_i\right$）。此时，如果我们将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征值，我们需要思考：什么样的输入图像$\textstyle x$会使得激励$\textstyle a^{(2)}_i$取得最大值？（也就是说，隐藏单元$\textstyle i$找到的是一个什么样的特征值？）。因为这个问题需要有一个有实际意义的解，所以我们必须对$\textstyle x$加以限制。我们采用输入向量长度的平方$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$进行归一化限制，于是可以得到（请读者尝试自行推导。），当输入对隐藏单元$\textstyle i$产生最大的激励时，其输入像素$\textstyle x_j$（对所有100个输入像素，j=1,…,100）所取的值应为： + 我们将用2D图像对这个由隐藏单元i计算出的函数进行可视化，这个函数依赖于参数$\textstyle W^{(1)}_{ij}$（忽略掉偏置项$b_i$）。此时，如果我们将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征值，我们需要思考：什么样的输入图像$\textstyle x$会使得激励$\textstyle a^{(2)}_i$取得最大值？（也就是说，隐藏单元$\textstyle i$找到的是一个什么样的特征值？）。因为这个问题需要有一个有实际意义的解，所以我们必须对$\textstyle x$加以限制。我们采用输入向量长度的平方$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$进行归一化限制，于是可以得到（请读者尝试自行推导。），当输入对隐藏单元$\textstyle i$产生最大的激励时，其输入像素$\textstyle x_j$（对所有100个输入像素，j=1,…,100）所取的值应为： :【一校】： :【一校】： - 接着我们将使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，注意该函数依赖于参数集$\textstyle W^{(1)}_{ij}$（暂时忽略偏差项$b_i\right$）。如果再具体一些，我们可以将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征。然后我们便想问：什么样的输入图像$\textstyle x$会最大程度上激励$\textstyle a^{(2)}_i$？（通俗一点的说法是隐藏单元$\textstyle i$需要找到的是一个什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对$\textstyle x$加以限制。如果假设输入向量符合$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$的范式限制，那么我们可以知道（请读者尝试自行推导。），当输入向量 对隐藏单元$\textstyle i$产生最大程度的激励时， 在2D图像中所对应的像素$\textstyle x_j$（对应的像素总共有100个，j=1,…,100）所取的值应为： + 接着我们将使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，注意该函数依赖于参数集$\textstyle W^{(1)}_{ij}$（暂时忽略偏差项$b_i$）。如果再具体一些，我们可以将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征。然后我们便想问：什么样的输入图像$\textstyle x$会最大程度上激励$\textstyle a^{(2)}_i$？（通俗一点的说法是隐藏单元$\textstyle i$需要找到的是一个什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对$\textstyle x$加以限制。如果假设输入向量符合$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$的范式限制，那么我们可以知道（请读者尝试自行推导。），当输入向量 对隐藏单元$\textstyle i$产生最大程度的激励时， 在2D图像中所对应的像素$\textstyle x_j$（对应的像素总共有100个，j=1,…,100）所取的值应为： :【二校】： :【二校】： - 接着我们使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，该函数依赖于参数集$\textstyle W^{(1)}_{ij}$（暂时忽略偏差项$b_i\right$）。更具体些，我们可以将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征。然后我们便想问：什么样的输入图像$\textstyle a^{(2)}_i$会使$\textstyle a^{(2)}_i$得到最大程度的激励？（说通俗点，隐藏单元$\textstyle i$需要找到的是一个什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对$\textstyle x$加以限制。如果假设输入向量符合$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$的范式限制，那么我们可以知道（请读者尝试自行推导。），当输入向量 对隐藏单元$\textstyle i$产生最大程度的激励时， 在2D图像中所对应的像素$\textstyle x_j$（对应的像素总共有100个，j=1,…,100）所取的值应为： + 接着我们使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，该函数依赖于参数集$\textstyle W^{(1)}_{ij}$（暂时忽略偏差项$b_i$）。更具体些，我们可以将$\textstyle a^{(2)}_i$理解为输入向量$\textstyle x$的某个非线性特征。然后我们便想问：什么样的输入图像$\textstyle a^{(2)}_i$会使$\textstyle a^{(2)}_i$得到最大程度的激励？（说通俗点，隐藏单元$\textstyle i$需要找到的是一个什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对$\textstyle x$加以限制。如果假设输入向量符合$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$的范式限制，那么我们可以知道（请读者尝试自行推导。），当输入向量 对隐藏单元$\textstyle i$产生最大程度的激励时， 在2D图像中所对应的像素$\textstyle x_j$（对应的像素总共有100个，j=1,…,100）所取的值应为： :【三校】： :【三校】： - 我们将要可视化的函数，就是上面这个以2D图像为输入、并由隐藏单元i计算出来的函数。它是依赖于参数$\textstyle W^{(1)}_{ij}$的（暂时忽略偏置项$b_i\right$）。需要注意的是，$\textstyle a^{(2)}_i$可看作输入$\textstyle x$的非线性特征。不过还有个问题：什么样的输入图像$\textstyle x$可让$\textstyle a^{(2)}_i$得到最大程度的激励？（通俗一点说，隐藏单元$\textstyle i$要找个什么样的特征？）。这里我们必须给$\textstyle x$加约束，否则会得到平凡解。若假设输入有范数约束$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$，则可证（请读者自行推导）令隐藏单元$\textstyle i$得到最大激励的输入应由下面公式计算的像素$\textstyle x_j$给出（共需计算100个像素，j=1,…,100）： + 我们将要可视化的函数，就是上面这个以2D图像为输入、并由隐藏单元i计算出来的函数。它是依赖于参数$\textstyle W^{(1)}_{ij}$的（暂时忽略偏置项$b_i$）。需要注意的是，$\textstyle a^{(2)}_i$可看作输入$\textstyle x$的非线性特征。不过还有个问题：什么样的输入图像$\textstyle x$可让$\textstyle a^{(2)}_i$得到最大程度的激励？（通俗一点说，隐藏单元$\textstyle i$要找个什么样的特征？）。这里我们必须给$\textstyle x$加约束，否则会得到平凡解。若假设输入有范数约束$\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1$，则可证（请读者自行推导）令隐藏单元$\textstyle i$得到最大激励的输入应由下面公式计算的像素$\textstyle x_j$给出（共需计算100个像素，j=1,…,100）： :[itex]\begin{align} :[itex]\begin{align} x_j = \frac{W^{(1)}_{ij}}{\sqrt{\sum_{j=1}^{100} (W^{(1)}_{ij})^2}}. x_j = \frac{W^{(1)}_{ij}}{\sqrt{\sum_{j=1}^{100} (W^{(1)}_{ij})^2}}.