強化学習から信頼できる意思決定へ

内容詳細

強化学習はその定式化を用いることで幅広い実問題を表現できる一方,信頼性の不足が一因となり,実世界では応用がなされているとは言いがたい.本書は,標準的な定式化と実問題との橋渡しとなるような定式化を体系的にまとめることで,実世界での応用を促進することを目指した.

目次

第1章 強化学習の基礎
  1.1 逐次的意思決定問題
  1.2 プランニング
  1.3 価値関数を用いた強化学習手法
  1.4 方策勾配定理に基づく強化学習手法
  1.5 環境モデルを推定する強化学習手法
  1.6 発展的な強化学習手法

第2章 オフライン強化学習と資源割当問題への応用
  2.1 オフライン強化学習の動機と困難
  2.2 オフライン強化学習の問題設定
  2.3 オフライン強化学習の困難とその数理
  2.4 直接法に基づく方策評価
  2.5 重点サンプリング法に基づく方策評価
  2.6 2重ロバスト法に基づく方策評価
  2.7 行動模倣に基づく方策正則化
  2.8 悲観的評価に基づく方策正則化
  2.9 応用例

第3章 リスク考慮型強化学習と金融への応用
  3.1 リスクを考慮した逐次的意思決定と応用例
  3.2 リスク指標とその性質
  3.3 時間的整合性が成り立つ場合
  3.4 時間的整合性が成り立たない場合
  3.5 分布強化学習によるリスクの考慮
  3.6 応用例

第4章 安全性制約考慮型強化学習と制御系への応用
  4.1 安全性制約考慮型強化学習とは
  4.2 制約付きマルコフ決定過程
  4.3 期待累積コスト制約下における強化学習
  4.4 累積コスト制約下における強化学習
  4.5 即時制約下における強化学習
  4.6 その他安全性制約
  4.7 オフライン強化学習における安全性制約
  4.8 応用例

参考文献
索引

サポート情報