2012年初版刊行。読んだのは第3章の途中までだが、この先、特に第4章は自分に理解できる内容ではない。ただし、2018年に六本木ニコファーレにて開催されたMATH POWERでの著者の講演(ニコニコ動画にて閲覧可能)では、本書の第3章及び第4章の内容が扱われており、その意図が伝わるものとなっている。
本書が志向するのは、現実世界の「真の確率分布」と確率モデルにより推測された予測分布との「近さ」に関係する自由エネルギー、汎化損失、経験損失の挙動を知ることにより、ベイズ推測に関する「一般理論」を確立することである。これを踏まえて上記の講演を聴くと、事後分布が正規分布で近似できる場合*1を扱う「正則理論」(第3章)から、さらに「一般理論」(第4章)へと進む際、ベルンシュタイン・佐藤のb関数、(統計的推測の)ゼータ関数とその解析接続、広中の特異点解消定理といった高度な数学を経由しなければならず、その過程における著者の苦闘が実感を持って理解できるようになる。
基礎概念
本書の扱う対象は、昨年読んで感銘を受けた浜田宏、石田淳、清水祐士『社会科学のためのベイズ統計モデリング』と概ね同一である。
ただし、同書は分析者のための実践的な記述をとっているのに対し、本書は理論的な記述をとっている。
現実世界にある「真の分布」について、パラメータを持つ確率モデルを用い推測したい。ここでいう確率モデルとは(一般にいう)尤度のことであり、プロビット・モデルやロジスティック・モデルなどがよく使われる。
ベイズ推測では、まずパラメータの事後分布が、をサンプルサイズとし、事前分布を用いて
と表される。このは、本書では逆温度とよばれ、ベイズ統計に関する他書ではとして扱うのが一般的である。また、事後分布により確率モデルを平均した
が予測分布となる。
「ペイズ統計の理論」では、上述の真の分布、確率モデル、事前分布の組が与えられたときの、以下に述べる自由エネルギー、汎化損失、経験損失の挙動を解明する。
なお、本書ではパラメータの空間が慎重に扱われ、前述の浜田他書のエントリーでも取り上げた確率モデルの「実現可能性」の他、(対数尤度の平均である)平均対数損失関数
が最小となるパラメータの集合(最適なパラメータの集合)、平均対数損失関数のヘッセ行列の正則性、任意のの要素に対しが一意に定まる「実質的ユニーク」性、対数尤度比関数*2が相対的に有限な分散を持つケースなど、基礎概念が整理される。
実現可能なパラメータの集合は、最適なパラメータの集合はと表されるが、いずれもその要素が1つであるとは限らず、空集合となる場合もある。実際、「真の確率分布」が、例えば確率モデルをプロビット・モデルとしたとき、それによって正確に実現できるケースなどは稀であろう。
このように、あるの要素について、が「真の確率分布」となるわけではないが、これと(一般の)確率モデルとの「近さ」を示すカルバック・ライブラー情報量(擬距離)
は本書の中で特に重視され、実際、この情報量は何度も現れる。
パラメータの空間は、本書ではコンパクト*3であるとされ、最適なパラメータを持つ確率分布との間のカルバック・ライブラー情報量(擬距離)を考える作法は、何処となく、この「ベイズ統計の理論」と情報幾何との関係性を感じさせる。
自由エネルギー、汎化損失(誤差)および経験損失は、
と定義される。
著者の「ベイズ統計の理論」の枠組みでは、逆温度の場合の予測分布を最大化する(分布の)パラメータが最尤推定量と一致するため、最尤法とその他のベイズ推測(例えば事後確率最大化推定量)との関係が接続する。これは、事後分布の分子を対数変換しで割った
から、
として最尤推定量が求められるのに対し、とすれば、は事後確率最大化推定量になることからわかる。
このように、本書では最尤推定量は絶対視されていない。実務的には、最尤推定量(あるいは線型モデルにおける最小自乗推定量)は絶対視されがちだが、本書は「尤度を大きくするパラメータに必然性はない」と指摘する。(加えて、「真の確率分布」がある確率モデルによって実現可能であるといえる保証もない。)
キュムラント母関数とは、一般には、モーメント母関数の対数値を示す一般的な用語であるが、ここで定義されるキュムラント母関数
からは、モーメント法的に自由エネルギー、汎化損失、経験損失が導出される。
前に記述された内容が後で定義されていたり、類似した内容が、後に違う表現で説明されたりする。「もう少しわかりやすく書けるのでは」と思ってしまうが、それはたぶん自分の理解が浅はかだからなのだろう、と思われる。
サンプルからの計算
「正則理論」では、「真の確率分布」が確率モデルで実現可能である場合、予測分布の汎化損失は、をパラメータの次元とした場合の赤池情報量基準(AIC)
によって評価される。ここでは漸近的にに一致し、
が成立することから、AICは汎化損失に漸近的に一致する。
「一般理論」では、これを拡張したWAIC(Widely Applicable Information Criterion)が用いられる。WAICは、第4章で定義する汎関数分散
を用いて
と定義されるが、
が成り立つので、やはり汎化損失に漸近的に一致する。このように、「真の確率分布」がわからないとき汎化損失は計算することができないが、WAICによって、それを漸近的に評価することができる。
現在では、WAICは概ね社会実装されつつあり、RやPython等の計量ソフトを利用して行うベイズ推測の実務において、著者が苦闘した高度な数学を経由せずとも利用できるようになっている。