machine_learningヘッダファイルパッケージで用いている計算式
3. モデルパラメータ\(W_{j,i}^{(m)}\)に対する制約条件
3.2. 3クラス以上の分類の場合
(Formula used in machine_learning header file package;
3. Constraints on model parameters \(W_{j,i}^{(m)}\);
3.2. In case of more than or equal to 3-class grouping)
3クラス以上の分類の場合は\(x_j^{(M+1,n)}\)にソフトマックス関数が用いられる。
これを式で書くと
\[\begin{equation}
x_j^{(M+1,n)}=\frac{\exp\left(y_j^{(M,n)}\right)}{\mu}
\hspace{2em}
\left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.x}
\end{equation}\]
\[\begin{equation}
\mu=\sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right)
\label{eq.3classes.mu}
\end{equation}\]
と書ける。このように置いてしまえば自動的に
\[\begin{equation}
\sum_{j=0}^{J^{(M+1)}-1}x_j^{(M+1,n)}=1
\hspace{2em} (n=0,\cdots,N-1)
\label{eq.3classes.x.sum}
\end{equation}\]
が満たされるので\(x_j^{(M+1,n)}\)は確率を表すことになるわけであるが、
何の制約条件も置かないまま独立な変数を1つ減らしたように見え、トリッキーである。
In more than 3-class grouping,
the softmax function is used for \(x_j^{(M+1,n)}\),
written as Eqs. (\ref{eq.3classes.x}) and (\ref{eq.3classes.mu}).
Using this formula, Eq. (\ref{eq.3classes.x.sum}) is automatically satisfied,
indicating that \(x_j^{(M+1,n)}\) is a probability.
However, it should be examined why the number of independent variables
apparently reduced without introducing constraints.
実は3クラス以上の分類の場合にも\(W_{j,i}^{(M)}\)の中に独立でないものが存在する。
このことは次のようにして分かる。関係式
\[\begin{eqnarray}
y_j^{(M,n)}
&=& \sum_{i=0}^{J^{(M)}-1}W_{j,i}^{(M)}x_i^{(M,n)}+W_{j,J^{(M)}}^{(M)}
\nonumber \\
& & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.y}
\end{eqnarray}\]
において、\(W_{j,i}^{(M)}\)を
\[\begin{equation}
{W’}_{j,i}^{(M)}\equiv W_{j,i}^{(M)}+V_i
\hspace{2em} \left(j=0,\cdots,J^{(M+1)}-1; i=0,\cdots,J^{(M)}\right)
\label{eq.3classes.Wdash}
\end{equation}\]
で置き換えた量
\[\begin{eqnarray}
{y’}_j^{(M,n)}
&\equiv& \sum_{i=0}^{J^{(M)}-1}
{W’}_{j,i}^{(M)}x_i^{(M,n)}+{W’}_{j,J^{(M)}}^{(M)}
\nonumber \\
& & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.ydash}
\end{eqnarray}\]
を考える。ここで\(V_i\)は\(i\)のみに依存した定数とする。
(\ref{eq.3classes.Wdash})を(\ref{eq.3classes.ydash})に代入すると
\[\begin{eqnarray}
{y’}_j^{(M,n)}
&=& \sum_{i=0}^{J^{(M)}-1}\left[W_{j,i}^{(M)}+V_i\right]x_i^{(M,n)}
+\left[W_{j,J^{(M)}}^{(M)}+V_{J^{(M)}}\right]
\nonumber \\
&=& \sum_{i=0}^{J^{(M)}-1}W_{j,i}^{(M)}x_i^{(M,n)}+W_{j,J^{(M)}}^{(M)}
+\sum_{i=0}^{J^{(M)}-1}V_ix_i^{(M,n)}+V_{J^{(M)}}
\nonumber \\
&=& y_j^{(M,n)}+C_n
\nonumber \\
& & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.ydash.arranged}
\end{eqnarray}\]
となる。ここで
\[\begin{equation}
C_n\equiv \sum_{i=0}^{J^{(M)}-1}V_ix_i^{(M,n)}+V_{J^{(M)}}
\label{eq.Cn}
\end{equation}\]
とおいた。\(C_n\)は\(j\)によらない定数であるので
ソフトマックス関数の\(y_j^{(M,n)}\)を\({y’}_j^{(M,n)}\)で置き換えた量は
\[\begin{eqnarray}
{x’}_j^{(M+1,n)}
&\equiv& \frac{\exp\left({y’}_j^{(M,n)}\right)}{{\mu}’}
\nonumber \\
&=& \frac{\exp\left(y_j^{(M,n)}+C_n\right)}{{\mu}’}
\nonumber \\
&=& \frac{\exp\left(y_j^{(M,n)}\right)\exp(C_n)}{{\mu}’}
\nonumber \\
& & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.xdash}
\end{eqnarray}\]
\[\begin{eqnarray}
{\mu}’
&\equiv& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left({y’}_{j’}^{(M,n)}\right)
\nonumber \\
&=& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}+C_n\right)
\nonumber \\
&=& \sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right)\exp(C_n)
\nonumber \\
&=& \exp(C_n)\sum_{j’=0}^{J^{(M+1)}-1}\exp\left(y_{j’}^{(M,n)}\right)
\nonumber \\
&=& \exp(C_n)\mu
\label{eq.3classes.mudash}
\end{eqnarray}\]
より
\[\begin{eqnarray}
{x’}_j^{(M+1,n)}
&=& \frac{\exp\left(y_j^{(M,n)}\right)\exp(C_n)}{\exp(C_n)\mu}
\nonumber \\
&=& \frac{\exp\left(y_j^{(M,n)}\right)}{\mu}
\nonumber \\
&=& x_j^{(M+1,n)}
\nonumber \\
& & \left(n=0,\cdots,N-1;j=0,\cdots,J^{(M+1)}-1\right)
\label{eq.3classes.xdash.arranged}
\end{eqnarray}\]
と計算できる。この結果から、\(W_{j,i}^{(M)}\)に\(j\)によらない定数\(V_i\)を加えても
理論確率\(x_j^{(M+1,n)}\)に全く影響を与えないことが分かる。
言い換えれば\(x_j^{(M+1,n)}\)と\(t_j^{(n)}\)の比較を元にした\(W_{j,i}^{(M)}\)の推定値には
定数\(V_i\)の分の不確定があると言える。
In fact, some of the \(W_{j,i}^{(M)}\) values are not independent
with each other in the more than 3-class grouping problem also,
as is shown below.
Let us consider the relation of Eq. (\ref{eq.3classes.y}) for \(y_j^{(M,n)}\)
and replace \(W_{j,i}^{(M)}\) with \({W’}_{j,i}^{(M)}\)
defined by Eq. (\ref{eq.3classes.Wdash}).
The result is \({y’}_j^{(M,n)}\) defined by Eq. (\ref{eq.3classes.ydash}).
Here, \(V_i\) is a constant which depends only on \(i\).
Inserting Eq. (\ref{eq.3classes.Wdash}) into (\ref{eq.3classes.ydash})
results in (\ref{eq.3classes.ydash.arranged}),
where \(C_n\) is defined by (\ref{eq.Cn}).
Since \(C_n\) is independent of \(j\),
replacing \(y_j^{(M,n)}\) with \({y’}_j^{(M,n)}\) in the softmax functions gives
Eqs. (\ref{eq.3classes.xdash}) and (\ref{eq.3classes.mudash}),
and thus (\ref{eq.3classes.xdash.arranged}).
This result indicates that adding a constant \(V_i\) that is independent of \(j\)
does not change the theoretical probability \(x_j^{(M+1,n)}\).
Therefore the values of \(W_{j,i}^{(M)}\)
estimated from the comparison of \(x_j^{(M+1,n)}\) and \(t_j^{(n)}\)
have uncertainties of the constants \(V_i\).
この不確定を除くために\(W_{j,i}^{(M)}\)に対して制約条件をかけることを考える。
ここでは一番簡単な
\[\begin{equation}
\sum_{j=0}^{J^{(M+1)}-1}W_{j,i}^{(M)}=0
\hspace{2em} (i=0,\cdots,J^{(M)})
\label{eq.3classes.W.constraint}
\end{equation}\]
という条件を考えよう。このようにすれば\(V_i\)に関する不確定は除かれる。すなわち
\[\begin{eqnarray}
\sum_{j=0}^{J^{(M+1)}-1}{W’}_{j,i}^{(M)}
&=& \sum_{j=0}^{J^{(M+1)}-1}\left[W_{j,i}^{(M)}+V_i\right]
\nonumber \\
&=& \sum_{j=0}^{J^{(M+1)}-1}W_{j,i}^{(M)}+\sum_{j=0}^{J^{(M+1)}-1}V_i
\nonumber \\
&=& \sum_{j=0}^{J^{(M+1)}-1}V_i
\nonumber \\
&=& V_i\sum_{j=0}^{J^{(M+1)}-1}1
\nonumber \\
&=& V_iJ^{(M+1)}
\nonumber \\
& & (i=0,\cdots,J^{(M)})
\label{eq.3classes.Wdash.sum}
\end{eqnarray}\]
であるので、(\ref{eq.3classes.W.constraint})を満たす\(W_{j,i}^{(M)}\)に
ノンゼロの\(V_i\)を加えれば条件は満たされなくなる。
This uncertainty is removed by setting a constraint on \(W_{j,i}^{(M)}\).
As the simplest constraint,
we here consider Eq. (\ref{eq.3classes.W.constraint}).
Then the uncertainty for \(V_i\) is removed;
since Eq. (\ref{eq.3classes.Wdash.sum}) holds,
adding a non-zero \(V_i\) to \(W_{j,i}^{(M)}\)
which satisfies Eq. (\ref{eq.3classes.W.constraint})
results in a failor of this equation.