確率的機械学習:入門編 I ―基礎と線形モデル―

ケヴィン P. マーフィー(著)/持橋 大地鈴木 大慈(監訳)

ケヴィン P. マーフィー(著)/持橋 大地鈴木 大慈(監訳)

定価 8,250 円(本体 7,500 円+税)

B5判/456ページ
刊行日:2025年11月01日
ISBN:978-4-254-12303-6 C3004

ネット書店で購入する amazon e-hon 紀伊國屋書店 丸善ジュンク堂書店 Honya Club Rakutenブックス くまざわ書店

書店の店頭在庫を確認する 紀伊國屋書店

コンテンツダウンロード

内容紹介

Kevin P. Murphy “Probabilistic Machine Learning: An Introduction“ (MIT Press, 2022) の全訳(2分冊)。基礎の数学からスタートし、機械学習の考え方をじっくり理解することができる決定版テキスト。I巻では基礎の数理と線形モデルを扱う。

編集部から

目次

【I巻略目次】

1 はじめに


I 基礎

2 単変量の確率モデル
3 多変量の確率モデル
4 統計学
5 決定理論
6 情報理論
7 線形代数
8 最適化


II 線形モデル

9 線形判別分析
10 ロジスティック回帰
11 線形回帰
12 一般化線形モデル


【II巻略目次】

III 深層ニューラルネットワーク

13 構造化データのためのニューラルネットワーク
14 画像のためのニューラルネットワーク
15 系列データのためのニューラルネットワーク


IV ノンパラメトリックモデル

16 事例ベースモデル
17 カーネル法
18 木,森,バギング,ブースティング


V 教師あり学習を超えて

19 より少ないラベルありデータからの学習
20 次元削減
21 クラスタリング
22 推薦システム
23 グラフ埋め込み



【I巻詳細目次】


1 はじめに
 1.1 機械学習とは?
 1.2 教師あり学習
  1.2.1 分類問題
  1.2.2 回帰
  1.2.3 過剰適合と汎化
  1.2.4 ノーフリーランチ定理
 1.3 教師なし学習
  1.3.1 クラスタリング
  1.3.2 潜在的な「変動要因」の発見
  1.3.3 自己教師あり学習
  1.3.4 教師なし学習手法の評価
 1.4 強化学習
 1.5 データ
  1.5.1 よく使われる画像のデータセット
  1.5.2 よく使われるテキストのデータセット
  1.5.3 離散的な入力データの前処理
  1.5.4 テキストデータの前処理
  1.5.5 欠損データの取り扱い
 1.6 議論
  1.6.1 機械学習と他の分野との関係
  1.6.2 本書の構成
  1.6.3 注意事項


I 基礎

2 単変量の確率モデル
 2.1 はじめに
  2.1.1 確率とは?
  2.1.2 不確実性の種類
  2.1.3 論理の拡張としての確率
 2.2 確率変数
  2.2.1 離散型確率変数
  2.2.2 連続型確率変数
  2.2.3 互いに関連のある確率変数の集合
  2.2.4 独立と条件付き独立
  2.2.5 分布のモーメント
  2.2.6 要約統計量の限界
 2.3 ベイズの法則
  2.3.1 例:COVID-19の検査
  2.3.2 例:モンティーホール問題
  2.3.3 逆問題
 2.4 ベルヌーイ分布と二項分布
  2.4.1 定義
  2.4.2 シグモイド関数(ロジスティック関数)
  2.4.3 二値ロジスティック回帰
 2.5 カテゴリカル分布と多項分布
  2.5.1 定義
  2.5.2 ソフトマックス関数
  2.5.3 多クラスロジスティック回帰
  2.5.4 log-sum-exp トリック
 2.6 単変量ガウス分布
  2.6.1 累積分布関数
  2.6.2 確率密度関数
  2.6.3 回帰
  2.6.4 なぜガウス分布は広く用いられるのか?
  2.6.5 極限としてのディラックのデルタ関数
 2.7 その他の頻出する単変量分布
  2.7.1 スチューデントのt 分布
  2.7.2 コーシー分布
  2.7.3 ラプラス分布
  2.7.4 ベータ分布
  2.7.5 ガンマ分布
  2.7.6 経験分布
 2.8 確率変数の変換
  2.8.1 離散型確率変数の場合
  2.8.2 連続型確率変数の場合
  2.8.3 可逆変換(全単射写像)の場合
  2.8.4 線形変換のモーメント
  2.8.5 畳み込み定理
  2.8.6 中心極限定理
  2.8.7 モンテカルロ近似
 2.9 演習
 
3 多変量の確率モデル
 3.1 複数の確率変数の同時分布
  3.1.1 共分散
  3.1.2 相関
  3.1.3 無相関と独立性
  3.1.4 相関と因果
  3.1.5 シンプソンのパラドックス
 3.2 多変量ガウス分布
  3.2.1 定義
  3.2.2 マハラノビス距離
  3.2.3 多変量ガウス分布の周辺分布と条件付き分布
  3.2.4 例:二変量ガウス分布の条件付き分布
  3.2.5 例:欠損値の補完
 3.3 線形ガウスシステム
  3.3.1 ガウス分布に対するベイズ則
  3.3.2 導出
  3.3.3 例:未知のスカラー値の推定
  3.3.4 例:未知のベクトルの推定
  3.3.5 例:センサー統合
 3.4 指数型分布族
  3.4.1 定義
  3.4.2 具体例
  3.4.3 対数分配関数とキュムラント母関数
  3.4.4 最大エントロピー基準による指数型分布族の導出
 3.5 混合モデル
  3.5.1 ガウス混合モデル
  3.5.2 ベルヌーイ混合モデル
 3.6 確率的グラフィカルモデル
  3.6.1 表現
  3.6.2 推論
  3.6.3 学習
 3.7 演習

4 統計学
 4.1 はじめに
 4.2 最尤推定(MLE)
  4.2.1 定義
  4.2.2 MLE の正当化
  4.2.3 例:ベルヌーイ分布のMLE
  4.2.4 例:カテゴリカル分布のMLE
  4.2.5 例:単変量ガウス分布のMLE
  4.2.6 例:多変量ガウス分布のMLE
  4.2.7 例:線形回帰のMLE
 4.3 経験リスク最小化(ERM)
  4.3.1 例:誤分類率の最小化
  4.3.2 代理損失
 4.4 その他の推定手法
  4.4.1 モーメント法
  4.4.2 オンライン(再帰的)推定
 4.5 正則化
  4.5.1 例:ベルヌーイ分布のMAP 推定
  4.5.2 例:多変量ガウス分布のMAP 推定
  4.5.3 例:重み減衰
  4.5.4 検証セットを用いた正則化パラメーターの選択
  4.5.5 交差検証
  4.5.6 早期停止
  4.5.7 データの増加
 4.6 ベイズ統計学
  4.6.1 共役事前分布
  4.6.2 ベータ・二項モデル
  4.6.3 ディリクレ・多項モデル
  4.6.4 ガウス・ガウスモデル
  4.6.5 共役ではない事前分布
  4.6.6 信用区間
  4.6.7 ベイズ的機械学習
  4.6.8 計算上の問題
 4.7 頻度論的統計学
  4.7.1 標本分布
  4.7.2 MLE の標本分布のガウス近似
  4.7.3 推定量の標本分布のブートストラップ近似
  4.7.4 信頼区間
  4.7.5 信頼区間に関する注意
  4.7.6 バイアス?バリアンストレードオフ
 4.8 演習

5 決定理論
 5.1 ベイズ決定理論
  5.1.1 基礎
  5.1.2 分類問題
  5.1.3 ROC 曲線
  5.1.4 PR 曲線
  5.1.5 回帰問題
  5.1.6 確率的予測問題
 5.2 モデル選択
  5.2.1 ベイズ仮説検定
  5.2.2 ベイズモデル選択
  5.2.3 オッカムの剃刀
  5.2.4 交差検証と周辺尤度の関係
  5.2.5 情報量規準
  5.2.6 効果量の事後分布とベイズ的有意差検定
 5.3 頻度論的決定理論
  5.3.1 推定量のリスクの計算
  5.3.2 一致推定量
  5.3.3 許容的な推定量
 5.4 経験リスク最小化
  5.4.1 経験リスク
  5.4.2 構造的リスク
  5.4.3 交差検証
  5.4.4 統計的学習理論
 5.5 頻度論的仮説検定
  5.5.1 尤度比検定
  5.5.2 帰無仮説有意性検定(NHST)
  5.5.3 P値
  5.5.4 有害とされるP値の用法
  5.5.5 皆がベイジアンではないのはどうしてか?
 5.6 演習

6 情報理論
 6.1 エントロピー
  6.1.1 離散型確率変数のエントロピー
  6.1.2 交差エントロピー
  6.1.3 結合エントロピー
  6.1.4 条件付きエントロピー
  6.1.5 パープレキシティー
  6.1.6 連続型確率変数に対する微分エントロピー
 6.2 相対エントロピー
  6.2.1 定義
  6.2.2 解釈
  6.2.3 例:2つの正規分布間のKLダイバージェンス
  6.2.4 KLダイバージェンスの非負性
  6.2.5 KLダイバージェンスと最尤推定
  6.2.6 前向きKLと後ろ向きKL
 6.3 相互情報量
  6.3.1 定義
  6.3.2 解釈
  6.3.3 具体例
  6.3.4 条件付き相互情報量
  6.3.5 「一般化された相関係数」としての相互情報量
  6.3.6 正規化相互情報量
  6.3.7 最大情報係数
  6.3.8 データ処理不等式
  6.3.9 十分統計量
  6.3.10 ファノの不等式
 6.4 演習

7 線形代数
 7.1 はじめに
  7.1.1 記法
  7.1.2 ベクトル空間
  7.1.3 ベクトルと行列のノルム
  7.1.4 行列の特性値
  7.1.5 特殊な行列
 7.2 行列積
  7.2.1 ベクトルとベクトルの積
  7.2.2 行列とベクトルの積
  7.2.3 行列と行列の積
  7.2.4 応用:データ行列の操作
  7.2.5 クロネッカー積
  7.2.6 アインシュタイン和
 7.3 逆行列
  7.3.1 正方行列の逆行列
  7.3.2 シューア補行列
  7.3.3 逆行列補題
  7.3.4 行列式補題
  7.3.5 応用:多変量ガウス分布の条件付き確率の導出
 7.4 固有値分解
  7.4.1 基本
  7.4.2 対角化
  7.4.3 対称行列の固有値と固有ベクトル
  7.4.4 二次形式の幾何
  7.4.5 データの標準化と白色化
  7.4.6 べき乗法
  7.4.7 デフレーション
  7.4.8 二次形式を最大化・最小化する固有ベクトル
 7.5 特異値分解(SVD)
  7.5.1 基本
  7.5.2 特異値分解と固有値分解の関係
  7.5.3 擬似逆行列
  7.5.4 行列の特異値分解と列空間・零空間
  7.5.5 打ち切り特異値分解
 7.6 その他の行列分解
  7.6.1 LU分解
  7.6.2 QR分解
  7.6.3 コレスキー分解
 7.7 線形方程式の求解
  7.7.1 正方行列の線形方程式系の求解
  7.7.2 劣決定系の求解(最小ノルム解)
  7.7.3 過剰決定系の求解(最小二乗解)
 7.8 行列の微分
  7.8.1 微分
  7.8.2 勾配
  7.8.3 方向微分
  7.8.4 全微分
  7.8.5 ヤコビアン
  7.8.6 ヘシアン
  7.8.7 よく使われる関数の勾配
 7.9 演習

8 最適化
 8.1 はじめに
  8.1.1 局所最適化と大域的最適化
  8.1.2 制約付き最適化と無制約最適化
  8.1.3 凸最適化と非凸最適化
  8.1.4 平滑最適化と非平滑最適化
 8.2 一次法
  8.2.1 降下方向
  8.2.2 ステップ幅(学習率)
  8.2.3 収束率
  8.2.4 モーメンタム法
 8.3 二次法
  8.3.1 ニュートン法
  8.3.2 BFGS などの準ニュートン法
  8.3.3 信頼領域法
 8.4 確率的勾配降下法
  8.4.1 有限和の問題への適用
  8.4.2 例:線形回帰問題に対する確率的勾配降下法
  8.4.3 ステップ幅(学習率)の選択
  8.4.4 反復的平均化
  8.4.5 分散縮小法
  8.4.6 前処理付きSGD
 8.5 制約付き最適化
  8.5.1 ラグランジュ乗数
  8.5.2 KKT条件
  8.5.3 線形計画
  8.5.4 二次計画
  8.5.5 混合整数計画
 8.6 近接勾配法
  8.6.1 射影勾配降下
  8.6.2 L1 ノルム正則化に対する近接写像
  8.6.3 量子化のための近接写像
  8.6.4 逐次的(オンライン)近接法
 8.7 バウンド最適化
  8.7.1 一般のMM アルゴリズム
  8.7.2 EM アルゴリズム
  8.7.3 例:GMM に対するEM アルゴリズム
 8.8 ブラックボックス最適化と微分フリー最適化
 8.9 演習


II 線形モデル

9 線形判別分析
 9.1 はじめに
 9.2 ガウス判別分析
  9.2.1 2次の決定境界
  9.2.2 線形決定境界
  9.2.3 LDAとロジスティック回帰の関係
  9.2.4 モデルの当てはめ
  9.2.5 最近接重心分類器
  9.2.6 フィッシャーの線形判別分析
 9.3 単純ベイズ分類器
  9.3.1 モデルの例
  9.3.2 モデルの当てはめ
  9.3.3 ベイズ的単純ベイズ
  9.3.4 単純ベイズとロジスティック回帰の関係
 9.4 生成モデルと識別モデル
  9.4.1 識別モデルの利点
  9.4.2 生成モデルの利点
  9.4.3 欠損した特徴量の扱い方
 9.5 演習
10 ロジスティック回帰
 10.1 はじめに
 10.2 二値ロジスティック回帰
  10.2.1 線形分類器
  10.2.2 非線形分類器
  10.2.3 最尤推定法
  10.2.4 確率的勾配降下法
  10.2.5 パーセプトロンアルゴリズム
  10.2.6 反復再重み付け最小二乗法
  10.2.7 MAP推定
  10.2.8 標準化
 10.3 多項ロジスティック回帰
  10.3.1 線形・非線形分類器
  10.3.2 最尤推定法
  10.3.3 勾配に基づく最適化
  10.3.4 バウンド最適化
  10.3.5 MAP 推定
  10.3.6 最大エントロピー分類器
  10.3.7 階層的分類
  10.3.8 膨大な数のクラスの処理
 10.4 頑健なロジスティック回帰
  10.4.1 尤度の混合分布モデル
  10.4.2 二重温度付き損失
 10.5 ベイズ的ロジスティック回帰
  10.5.1 ラプラス近似
  10.5.2 予測事後分布の近似
 10.6 演習

11 線形回帰
 11.1 はじめに
 11.2 最小二乗法による線形回帰
  11.2.1 用語
  11.2.2 最小二乗推定
  11.2.3 最尤推定値を計算する他の手法
  11.2.4 適合度の指標
 11.3 リッジ回帰
  11.3.1 MAP推定値の計算
  11.3.2 リッジ回帰とPCAの関連
  11.3.3 正則化の強さの選び方
 11.4 ラッソ回帰
  11.4.1 ラプラス事前分布を用いたMAP 推定(L1正則化)
  11.4.2 なぜL1 正則化は疎な解を生成するのだろうか?
  11.4.3 ハードしきい値処理とソフトしきい値処理
  11.4.4 正則化パス
  11.4.5 最小二乗法,ラッソ,リッジ回帰,部分集合選択の比較
  11.4.6 変数選択の一致性
  11.4.7 グループラッソ
  11.4.8 エラスティックネット(リッジ回帰とラッソの組合せ)
  11.4.9 最適化アルゴリズム
 11.5 スプライン回帰
  11.5.1 Bスプライン基底関数
  11.5.2 スプライン基底を用いた線形モデルの当てはめ
  11.5.3 平滑化スプライン
  11.5.4 一般化加法モデル
 11.6 ロバスト線形回帰
  11.6.1 ラプラス分布を用いた尤度
  11.6.2 スチューデントのt分布
  11.6.3 フーバー損失
  11.6.4 RANSAC
 11.7 ベイズ線形回帰
  11.7.1 事前分布
  11.7.2 事後分布
  11.7.3 具体例
  11.7.4 事後予測分布の計算
  11.7.5 中心化の利点
  11.7.6 多重共線性の扱い
  11.7.7 関連度自動決定(ARD)
 11.8 演習
 
12 一般化線形モデル
 12.1 はじめに
 12.2 具体例
  12.2.1 線形回帰
  12.2.2 二項回帰
  12.2.3 ポアソン回帰
 12.3 非正準リンク関数を用いた一般化線形モデル
 12.4 最尤推定法
 12.5 例:保険金請求率の予測

A 記 号

索 引

執筆者紹介

原著者
ケヴィン・P・マーフィー Kevin P. Murphy
Google

監訳者
持橋大地(もちはしだいち)
統計数理研究所統計基盤数理研究系 教授

鈴木大慈(すずきたいじ)
東京大学大学院情報理工学系研究科 教授

訳者
石黒勝彦/伊藤伸志/梶野洸/黒木祐子/小宮山純平/佐藤竜馬/鈴木大慈/包含/手嶋毅志/幡谷龍一郎/二見太/南賢太郎/持橋大地/横井祥

関連情報

ジャンル一覧

ジャンル一覧

  • Facebook
  • X
  • 「愛読者の声」 ご投稿はこちら 「愛読者の声」 ご投稿はこちら
  • EBSCO eBooks
  • eBook Library