昨晩は早寝をしましたが、今日もたいへんな眠さがありました。
MLP「バンディット問題の理論とアルゴリズム」の続きを読みました。
前回は確率的バンディット問題のregretの下限について、まで読みました。今日はe-貪欲法のregretの上限についてです。
e-貪欲法は最初のe回で均等にスロットを回し、あとは最適と推定されたスロットを回し続ける方法です。eを適切に決めるとregretの上限がO(log T)になるようです(Tは試行回数)。
しかしeを適切に決めるのが難しく、スロットのパラメータによってはどうやっても適切なeを決められない場合があるようです。その場合O(T)となりますが、これだと試行回数を増やしてもregretが減らないのでダメダメです。
なのでUCB法というもっと良い手法を紹介するよ、というところまで読みました(つまりあんまり読めてない)。
今日の労は、来期は何をやろうかといった夢のある話で盛り上がりました。
しかし夢が広がりすぎるのもよろしくないので、着実に筋のよい試みをやっていきたいですね。
今日は労の場の飲み会でした。様々な有益情報を得ました。ありがたいことです。
人類が勤怠管理の呪縛から解き放たれる日は遠いようです・・・
半年ぶりにアルコールを摂取したので理性の力が弱まり、人の本質(死にたさ)が表に出てきました。
ネット通販大手のA社で注文した商品が配送途中で行方不明になるトラブルがあり、大幅にCP(コミュニケーション・ポイント)を消失しました。
社会は厳しい。
様々な失われがあったので明日は休みます(有給の失われ)。