BOOK SEARCH
意思決定のためのアルゴリズム II ―モデル・状態の不確実性とマルチエージェント―
Mikel J. Kochenderfer・Tim A. Wheeler・Kyle H. Wray(著)/林田 智弘・西﨑 一郎(訳)
Mikel J. Kochenderfer・Tim A. Wheeler・Kyle H. Wray(著)/林田 智弘・西﨑 一郎(訳)
定価 7,920 円(本体 7,200 円+税)
B5判/304ページ
刊行日:2025年11月10日
ISBN:978-4-254-12310-4 C3004
ネット書店で購入する amazon e-hon 紀伊國屋書店 丸善ジュンク堂書店 Honya Club Rakutenブックス くまざわ書店
書店の店頭在庫を確認する 紀伊國屋書店
内容紹介
遷移と報酬のモデルが既知であると仮定してきたI巻につづき,II巻では,強化学習の主題であるモデルが不確実な問題や,状態の不確実性への拡張へと進む.さらに,マルチエージェントシステムを取り上げ,相互作用の不確実性を論じる.豊富な例と演習,Juliaによる実装.オールカラー.
編集部から
目次
第 III 部モデルの不確実性
15 探索と活用
15.1 バンディット問題
15.2 ベイズモデル推定
15.3 無指向性探索戦略
15.4 指向性探索戦略
15.5 最適探索戦略
15.6 複数の状態に対する探索
15.7 要約
15.8 演習
16 モデルベース法
16.1 最尤推定法
16.2 更新手順
16.2.1 全更新
16.2.2 ランダム更新
16.2.3 優先度更新
16.3 探索
16.4 ベイズ法
16.5 ベイズ適応型マルコフ決定過程
16.6 事後サンプリング
16.7 要約
16.8 演習
17 モデルフリー法
17.1 平均の増分推定
17.2 Q 学習
17.3 Sarsa
17.4 適格トレース
17.5 報酬設計
17.6 行動価値関数近似
17.7 経験再生
17.8 要約
17.9 演習
18 模 倣 学 習
18.1 行動クローニング
18.2 データ集合集約
18.3 確率的混合反復学習
18.4 最大マージン逆強化学習
18.5 エントロピー最大化逆強化学習
18.6 生成的敵対的模倣学習
18.7 要約
18.8 演習
第 IV 部状態の不確実性
19 信念
19.1 信念の初期化
19.2 離散状態フィルタ
19.3 カルマンフィルタ
19.4 拡張カルマンフィルタ
19.5 アンセンテッドカルマンフィルタ
19.6 粒子フィルタ
19.7 粒子注入
19.8 要約
19.9 演習
20 正確な信念状態プランニング
20.1 信念状態マルコフ決定過程
20.2 条件付きプラン
20.3 アルファベクトル
20.4 枝刈り
20.5 価値反復
20.6 線形方策
20.7 要約
20.8 演習
21 オフライン信念状態プランニング
21.1 完全観測価値近似
21.2 高速情報限度
21.3 高速下限
21.4 点ベース価値反復
21.5 ランダム化点ベース価値反復
21.6 のこぎり歯上限
21.7 点選択
21.8 のこぎり歯ヒューリスティック探索
21.9 三角形化価値関数
21.10 要約
21.11 演習
22 オンライン信念状態計画
22.1 ロールアウトに基づく先読み
22.2 前方探索
22.3 分枝限定法
22.4 スパースサンプリング
22.5 モンテカルロツリー探索
22.6 決定化スパースツリー探索
22.7 ギャップヒューリスティック探索
22.8 要約
22.9 演習
23 コントローラ抽象化
23.1 コントローラ
23.2 方策反復
23.3 非線形計画
23.4 勾配上昇
23.5 要約
23.6 演習
第 V 部マルチエージェントシステム
24 マルチエージェント推論
24.1 単純ゲーム
24.2 応答モデル
24.2.1 最良応答
24.2.2 ソフトマックス応答
24.3 支配戦略均衡
24.4 ナッシュ均衡
24.5 関連均衡
24.6 繰返し最良応答
24.7 階層的ソフトマックス
24.8 架空プレイ
24.9 勾配上昇
24.10 要約
24.11 演習
25 逐 次 問 題
25.1 マルコフゲーム
25.2 応答モデル
25.2.1 最良応答
25.2.2 ソフトマックス応答
25.3 ナッシュ均衡
25.4 架空プレイ
25.5 勾配上昇
25.6 ナッシュ Q 学習
25.7 要約
25.8 演習
26 状態の不確実性
26.1 部分観測マルコフゲーム
26.2 方策評価
26.2.1 条件付きプランの評価
26.2.2 確率論的コントローラの評価
26.3 ナッシュ均衡
26.4 動的計画法
26.5 要約
26.6 演習
27 協調的エージェント
27.1 分権的部分観測マルコフ決定過程
27.2 サブクラス
27.3 動的計画法
27.4 反復最良応答
27.5 発見的探索
27.6 非線形計画法
27.7 要約
27.8 演習
付 録
A 数学的概念
A.1 測度空間
A.2 確率空間
A.3 距離空間
A.4 ノルム付きベクトル空間
A.5 正定性
A.6 凸性
A.7 情報量
A.8 エントロピー
A.9 交差エントロピー
A.10 相対エントロピー
A.11 勾配上昇
A.12 テイラー展開
A.13 モンテカルロ推定
A.14 重点サンプリング
A.15 収縮写像
A.16 グラフ
B 確 率 分 布
C 計算量
C.1 漸近表記
C.2 時間計算量に基づくクラス
C.3 空間計算量に基づくクラス
C.4 決定可能性
D ニューラル表現
D.1 ニューラルネットワーク
D.2 フィードフォワードネットワーク
D.3 パラメータ正則化
D.4 畳み込みニューラルネットワーク
D.5 リカレントネットワーク
D.6 オートエンコーダネットワーク
D.7 対立的ネットワーク
E 探索アルゴリズム
E.1 探索問題
E.2 探索グラフ
E.3 前方探索
E.4 分枝限定法
E.5 動的計画法
E.6 ヒューリスティック探索
F 問題
F.1 六角世界
F.2 2048
F.3 カート・ポール
F.4 マウンテンカー
F.5 単純レギュレータ
F.6 航空機の衝突回避
F.7 泣いている赤ちゃん
F.8 機械の交換
F.9 キャッチボール
F.10 囚人のジレンマ
F.11 じゃんけん
F.12 旅行者のジレンマ
F.13 捕食者と被食者の六角世界
F.14 複数世話人の泣いている赤ちゃん
F.15 協調的な捕食者と被食者の六角世界
G Julia
G.1 型
G.1.1 ブール
G.1.2 数値
G.1.3 文字列
G.1.4 シンボル
G.1.5 ベクトル
G.1.6 行列
G.1.7 タプル
G.1.8 名前付きタプル
G.1.9 ディクショナリ
G.1.10 複合型
G.1.11 抽象型
G.1.12 パラメトリック型
G.2 関数
G.2.1 名前付き関数
G.2.2 無名関数
G.2.3 呼び出し可能オブジェクト
G.2.4 オプショナル引数
G.2.5 キーワード引数
G.2.6 ディスパッチ
G.2.7 スプラッティング
G.3 制御フロー
G.3.1 条件評価
G.3.2 ループ
G.3.3 イテレータ
G.4 パッケージ
G.4.1 Graphs.jl
G.4.2 Distributions.jl
G.4.3 JuMP.jl
G.5 便利な関数
訳者あとがき
文献
索引























