machine_learningヘッダファイルパッケージで用いている計算式

3. モデルパラメータ\(W_{j,i}^{(m)}\)に対する制約条件

3.2. 3クラス以上の分類の場合

(Formula used in machine_learning header file package; 3. Constraints on model parameters \(W_{j,i}^{(m)}\); 3.2. In case of more than or equal to 3-class grouping)



3クラス以上の分類の場合は\(x_j^{(M+1,n)}\)にソフトマックス関数が用いられる。 これを式で書くと \[\begin{equation} x_j^{(M+1,n)}=\frac{\exp\left(y_j^{(M,n)}\right)}{\mu} \hspace{2em} \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.x} \end{equation}\] \[\begin{equation} \mu=\sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right) \label{eq.3classes.mu} \end{equation}\] と書ける。このように置いてしまえば自動的に \[\begin{equation} \sum_{j=0}^{J^{(M+1)}-1}x_j^{(M+1,n)}=1 \hspace{2em} (n=0,\cdots,N-1) \label{eq.3classes.x.sum} \end{equation}\] が満たされるので\(x_j^{(M+1,n)}\)は確率を表すことになるわけであるが、 何の制約条件も置かないまま独立な変数を1つ減らしたように見え、トリッキーである。
In more than 3-class grouping, the softmax function is used for \(x_j^{(M+1,n)}\), written as Eqs. (\ref{eq.3classes.x}) and (\ref{eq.3classes.mu}). Using this formula, Eq. (\ref{eq.3classes.x.sum}) is automatically satisfied, indicating that \(x_j^{(M+1,n)}\) is a probability. However, it should be examined why the number of independent variables apparently reduced without introducing constraints.

実は3クラス以上の分類の場合にも\(W_{j,i}^{(M)}\)の中に独立でないものが存在する。 このことは次のようにして分かる。関係式 \[\begin{eqnarray} y_j^{(M,n)} &=& \sum_{i=0}^{J^{(M)}-1}W_{j,i}^{(M)}x_i^{(M,n)}+W_{j,J^{(M)}}^{(M)} \nonumber \\ & & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.y} \end{eqnarray}\] において、\(W_{j,i}^{(M)}\)を \[\begin{equation} {W’}_{j,i}^{(M)}\equiv W_{j,i}^{(M)}+V_i \hspace{2em} \left(j=0,\cdots,J^{(M+1)}-1; i=0,\cdots,J^{(M)}\right) \label{eq.3classes.Wdash} \end{equation}\] で置き換えた量 \[\begin{eqnarray} {y’}_j^{(M,n)} &\equiv& \sum_{i=0}^{J^{(M)}-1} {W’}_{j,i}^{(M)}x_i^{(M,n)}+{W’}_{j,J^{(M)}}^{(M)} \nonumber \\ & & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.ydash} \end{eqnarray}\] を考える。ここで\(V_i\)は\(i\)のみに依存した定数とする。 (\ref{eq.3classes.Wdash})を(\ref{eq.3classes.ydash})に代入すると \[\begin{eqnarray} {y’}_j^{(M,n)} &=& \sum_{i=0}^{J^{(M)}-1}\left[W_{j,i}^{(M)}+V_i\right]x_i^{(M,n)} +\left[W_{j,J^{(M)}}^{(M)}+V_{J^{(M)}}\right] \nonumber \\ &=& \sum_{i=0}^{J^{(M)}-1}W_{j,i}^{(M)}x_i^{(M,n)}+W_{j,J^{(M)}}^{(M)} +\sum_{i=0}^{J^{(M)}-1}V_ix_i^{(M,n)}+V_{J^{(M)}} \nonumber \\ &=& y_j^{(M,n)}+C_n \nonumber \\ & & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.ydash.arranged} \end{eqnarray}\] となる。ここで \[\begin{equation} C_n\equiv \sum_{i=0}^{J^{(M)}-1}V_ix_i^{(M,n)}+V_{J^{(M)}} \label{eq.Cn} \end{equation}\] とおいた。\(C_n\)は\(j\)によらない定数であるので ソフトマックス関数の\(y_j^{(M,n)}\)を\({y’}_j^{(M,n)}\)で置き換えた量は \[\begin{eqnarray} {x’}_j^{(M+1,n)} &\equiv& \frac{\exp\left({y’}_j^{(M,n)}\right)}{{\mu}’} \nonumber \\ &=& \frac{\exp\left(y_j^{(M,n)}+C_n\right)}{{\mu}’} \nonumber \\ &=& \frac{\exp\left(y_j^{(M,n)}\right)\exp(C_n)}{{\mu}’} \nonumber \\ & & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.xdash} \end{eqnarray}\] \[\begin{eqnarray} {\mu}’ &\equiv& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left({y’}_{j’}^{(M,n)}\right) \nonumber \\ &=& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}+C_n\right) \nonumber \\ &=& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right)\exp(C_n) \nonumber \\ &=& \exp(C_n)\sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right) \nonumber \\ &=& \exp(C_n)\mu \label{eq.3classes.mudash} \end{eqnarray}\] より \[\begin{eqnarray} {x’}_j^{(M+1,n)} &=& \frac{\exp\left(y_j^{(M,n)}\right)\exp(C_n)}{\exp(C_n)\mu} \nonumber \\ &=& \frac{\exp\left(y_j^{(M,n)}\right)}{\mu} \nonumber \\ &=& x_j^{(M+1,n)} \nonumber \\ & & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right) \label{eq.3classes.xdash.arranged} \end{eqnarray}\] と計算できる。この結果から、\(W_{j,i}^{(M)}\)に\(j\)によらない定数\(V_i\)を加えても 理論確率\(x_j^{(M+1,n)}\)に全く影響を与えないことが分かる。 言い換えれば\(x_j^{(M+1,n)}\)と\(t_j^{(n)}\)の比較を元にした\(W_{j,i}^{(M)}\)の推定値には 定数\(V_i\)の分の不確定があると言える。
In fact, some of the \(W_{j,i}^{(M)}\) values are not independent with each other in the more than 3-class grouping problem also, as is shown below. Let us consider the relation of Eq. (\ref{eq.3classes.y}) for \(y_j^{(M,n)}\) and replace \(W_{j,i}^{(M)}\) with \({W’}_{j,i}^{(M)}\) defined by Eq. (\ref{eq.3classes.Wdash}). The result is \({y’}_j^{(M,n)}\) defined by Eq. (\ref{eq.3classes.ydash}). Here, \(V_i\) is a constant which depends only on \(i\). Inserting Eq. (\ref{eq.3classes.Wdash}) into (\ref{eq.3classes.ydash}) results in (\ref{eq.3classes.ydash.arranged}), where \(C_n\) is defined by (\ref{eq.Cn}). Since \(C_n\) is independent of \(j\), replacing \(y_j^{(M,n)}\) with \({y’}_j^{(M,n)}\) in the softmax functions gives Eqs. (\ref{eq.3classes.xdash}) and (\ref{eq.3classes.mudash}), and thus (\ref{eq.3classes.xdash.arranged}). This result indicates that adding a constant \(V_i\) that is independent of \(j\) does not change the theoretical probability \(x_j^{(M+1,n)}\). Therefore the values of \(W_{j,i}^{(M)}\) estimated from the comparison of \(x_j^{(M+1,n)}\) and \(t_j^{(n)}\) have uncertainties of the constants \(V_i\).

この不確定を除くために\(W_{j,i}^{(M)}\)に対して制約条件をかけることを考える。 ここでは一番簡単な \[\begin{equation} \sum_{j=0}^{J^{(M+1)}-1}W_{j,i}^{(M)}=0 \hspace{2em} (i=0,\cdots,J^{(M)}) \label{eq.3classes.W.constraint} \end{equation}\] という条件を考えよう。このようにすれば\(V_i\)に関する不確定は除かれる。すなわち \[\begin{eqnarray} \sum_{j=0}^{J^{(M+1)}-1}{W’}_{j,i}^{(M)} &=& \sum_{j=0}^{J^{(M+1)}-1}\left[W_{j,i}^{(M)}+V_i\right] \nonumber \\ &=& \sum_{j=0}^{J^{(M+1)}-1}W_{j,i}^{(M)}+\sum_{j=0}^{J^{(M+1)}-1}V_i \nonumber \\ &=& \sum_{j=0}^{J^{(M+1)}-1}V_i \nonumber \\ &=& V_i\sum_{j=0}^{J^{(M+1)}-1}1 \nonumber \\ &=& V_iJ^{(M+1)} \nonumber \\ & & (i=0,\cdots,J^{(M)}) \label{eq.3classes.Wdash.sum} \end{eqnarray}\] であるので、(\ref{eq.3classes.W.constraint})を満たす\(W_{j,i}^{(M)}\)に ノンゼロの\(V_i\)を加えれば条件は満たされなくなる。
This uncertainty is removed by setting a constraint on \(W_{j,i}^{(M)}\). As the simplest constraint, we here consider Eq. (\ref{eq.3classes.W.constraint}). Then the uncertainty for \(V_i\) is removed; since Eq. (\ref{eq.3classes.Wdash.sum}) holds, adding a non-zero \(V_i\) to \(W_{j,i}^{(M)}\) which satisfies Eq. (\ref{eq.3classes.W.constraint}) results in a failor of this equation.