Deep Learning(An MIT Press book) 6.5.6

Deep Learning(An MIT Press book) の要点メモシリーズ。

やっぱりDPなんだよな(適当)。

Chapter 6 Deep Feedforward Networks

6.5 Back-Propagation and Other Differentiation Algorithms

6.5.6 General Back-Propagation

  • 計算グラフの各変数(ノード)を tensor とする
  • 各 operation は対応する back-propagation を知っている必要がある
    • C = BA で  \nabla_C z = G のとき、行列の積を表す operation は  \nabla_A z = GB^{\mathrm{T}},  \nabla_B z = A^{\mathrm{T}}G であることを知っている必要がある
  • back-propagation の計算量は高々 O(n2)
    • DAG(directed acyclic graph)のエッジ数はノード数 n のとき高々 O(n2) で、back-propagation の計算量はエッジ数に線形なので
    • 多くの neural network は chain-structured なので O(n)
  • back-propagation はDP(dynamic programming, 動的計画法