DNNバックプロパゲーションの「アルゴリズム」と「数式」の間のちょっとしたギャップ

ディープラーニングに限ったことではないと思いますが、

「理論と実際の間には、何らかの落差がある」

というのが普通なのではないでしょうか。

このDNNのコードの「アルゴリズム」と「数式」との間にも、ちょっとしたギャップを感じていて、ほんとにちょっとしたことなんだと思うのですが、それが原因でいまいち理解できない人もいるんじゃないかと思っています。

どういうことかというと、

ディープラーニングは、「入力層」、「中間（隠れ）層」、「出力層」などがあって、この層を「登ったり」「下ったり」して学習を進めるわけですね。

で、「DNNバックプロパゲーション」では、自分が注目している層を（ｌ）層とすると、

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

「アルゴリズム」の方では

「（ｌ）層と（ｌ－１）層」

との関係を示している。

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

一方

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

「数式」の方では

「（ｌ）層と（ｌ+１）層」

との関係を示している。

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

ざっくり、こういう「違い（ギャップ）」があると思っています。

もうちょっと詳しくいうと、

「アルゴリズム」では、「（ｌ）層」で計算した結果を「（ｌ－１）層」へ渡すという構造になっていますよね。つまりコードをみていると「（ｌ－１）層」を意識することになります。

一方

「数式」では、「（ｌ）層」は、「（ｌ+１）層」から作られていることが分かります。

まあ、分かっている人は、「当然じゃん！」ということなんでしょうが、どんなことであっても初心者は、「当たり前」を知りません、こういうことを教えてくれないとどんなことでも入門段階で無駄な苦労をするんですよねー。

以上です。

一応DNN（基本のニューラルネットワーク）はここまでにして、つぎは本題のRNN（リカレントニューラルネットワーク）に移りたいと思います。

リカレントニューラルネットワーク（RNN　LSTM　GRU）のバックプロパゲーション（BPTT）を数式で理解したい！