Chapter 6 Deep Feedforward Networks

6.2 Gradient-Based Learning

n個の離散値変数の分布を表現するときは softmax 関数（ $softmax(z)_i={exp(z_i)}{\sum_j exp(z_j)}$ ）を使う
2変数に対する Bernoulli 分布をn変数に一般化して multinoulli 分布を得る
log softmax 関数（）
- 第1項は saturate しない
- 第2項はを近似したものになっている
  - 最も大きい $z_j$ にペナルティがかかる
  - 正解（第1項）と一致している場合は互いに打ち消しあうのでペナルティがかからない
正則化していない場合は softmax 関数は頻度カウントによる確率と同じ
対数尤度以外の目的関数は softmax 関数にはうまく働かない
- 特に squared error
softmax 関数は入力値同士の差が極端なときに saturate する
softmax 関数の入力に同じスカラー c を足しても結果は同じになる
- c として $max_i z_i$ をとることで numerically stable になる
softmax の入力としてn個のパラメータをとる方法とn-1個のパラメータをとる方法がある
- n個の確率値を足すと1になる制約があるのでn-1個で十分
- n個でもn-1個でも大きな差はないので実用上実装のシンプルなn個を使う
softmax って実は softargmax だよね