machine_learningヘッダファイルパッケージで用いている計算式

4. 交差エントロピー誤差\(E\)のモデルパラメータ\(W_{j,i}^{(m)}\)による微分

(Formula used in machine_learning header file package; 4. Derivative of the cross entropy error \(E\) with respect to model parameters \(W_{j,i}^{(m)}\))



前節までで以下の式が得られた。
The formula below were obtained in the previous sections.




交差エントロピー誤差の定義式(\ref{eq.E})において、 \(t_i^{(n)}\)は与える教師データそのものであるので モデルパラメータに依存しない。 一方、\(x_{i}^{(M+1,n)}\)は (\ref{eq.x2y})(\ref{eq.y2x})式を繰り返し用いて計算される値であり、 モデルパラメータ\(W_{j,i}^{(m)}\) (\(m=0,\cdots,M\); \(i=0,\cdots,J^{(m)}\); \(j=0,\cdots,J^{(m+1)}-1\)) に依存する。 ある特定の\(m\)に注目したとき、 \(x_{i}^{(0,n)}\)から出発して(\ref{eq.x2y})(\ref{eq.y2x})式を繰り返し用いて \(y_{i}^{(0,n)}\), \(x_{i}^{(1,n)}\), \(y_{i}^{(1,n)}\), \(x_{i}^{(2,n)}\), \(\cdots\), と順に計算する一連の過程の中で 最初に\(W_{j,i}^{(m)}\)が現れるのが \(x_i^{(m,n)}\)から\(y_i^{(m,n)}\)への変換時であり、 (\ref{eq.x2y})式より \[\begin{eqnarray} y_{j’}^{(m,n)} &=& \sum_{i’=0}^{J^{(m)}-1} W_{j’,i’}^{(m)}x_{i’}^{(m,n)} +W_{j’,J^{(m)}}^{(m)} \nonumber \\ & & \left(m=0,\cdots,M; n=0,\cdots,N-1; j’=0,\cdots,J^{(m+1)}-1\right) \label{eq.x2y.dash} \end{eqnarray}\] と書ける。以下では(\ref{eq.x2y.dash})式を出発点として 交差エントロピー誤差の微分を考えるが、 \(W_{J^{(M+1)}-1,i}^{(M)}\)が(\ref{eq.W.constraint})式を通じて \(W_{j,i}^{(M)}\) \((j=0,\cdots,J^{(M+1)}-2)\)に依存するので \(m<M\)の場合と\(m=M\)の場合とで異なる扱いが必要になる。
In the definition of the cross entropy error (Eq. \ref{eq.E}), \(t_i^{(n)}\) is independent of the model parameters because it is the teaching data ifself. In contrast, \(x_{i}^{(M+1,n)}\) depends on the model parameters \(W_{j,i}^{(m)}\) (\(m=0,\cdots,M\); \(i=0,\cdots,J^{(m)}\); \(j=0,\cdots,J^{(m+1)}-1\)) as it is calculated by repeatedly using Eqs. (\ref{eq.x2y}) and (\ref{eq.y2x}). For a given \(m\), the parameters \(W_{j,i}^{(m)}\) first appear during the conversion from \(x_i^{(m,n)}\) to \(y_i^{(m,n)}\) in the sequence of computing \(y_{i}^{(0,n)}\), \(x_{i}^{(1,n)}\), \(y_{i}^{(1,n)}\), \(x_{i}^{(2,n)}\), \(\cdots\), by Eqs. (\ref{eq.x2y}) and (\ref{eq.y2x}) starting from \(x_{i}^{(0,n)}\). We start with Eq. (\ref{eq.x2y.dash}), obtained by (\ref{eq.x2y}), to consider the derivatives of the cross entropy error. Since \(W_{J^{(M+1)}-1,i}^{(M)}\) is dependent on \(W_{j,i}^{(M)}\) \((j=0,\cdots,J^{(M+1)}-2)\) through Eq. (\ref{eq.W.constraint}), treatments are different between the cases for \(m<M\) and \(m=M\).