ラスカルの備忘録

ー 経済概観、読書記録等 ー

渡辺澄夫『ベイズ統計の理論と方法』

 2012年初版刊行。読んだのは第3章の途中までだが、この先、特に第4章は自分に理解できる内容ではない。ただし、2018年に六本木ニコファーレにて開催されたMATH POWERでの著者の講演(ニコニコ動画にて閲覧可能)では、本書の第3章及び第4章の内容が扱われており、その意図が伝わるものとなっている。

live.nicovideo.jp

 本書が志向するのは、現実世界の「真の確率分布」と確率モデルにより推測された予測分布との「近さ」に関係する自由エネルギー、汎化損失、経験損失の挙動を知ることにより、ベイズ推測に関する「一般理論」を確立することである。これを踏まえて上記の講演を聴くと、事後分布が正規分布で近似できる場合*1を扱う「正則理論」(第3章)から、さらに「一般理論」(第4章)へと進む際、ベルンシュタイン・佐藤のb関数、(統計的推測の)ゼータ関数とその解析接続、広中の特異点解消定理といった高度な数学を経由しなければならず、その過程における著者の苦闘が実感を持って理解できるようになる。

基礎概念

 本書の扱う対象は、昨年読んで感銘を受けた浜田宏、石田淳、清水祐士『社会科学のためのベイズ統計モデリング』と概ね同一である。

traindusoir.hatenablog.jp

ただし、同書は分析者のための実践的な記述をとっているのに対し、本書は理論的な記述をとっている。

 現実世界にある「真の分布」 q(x)について、パラメータ wを持つ確率モデル p(x|w)を用い推測したい。ここでいう確率モデルとは(一般にいう)尤度のことであり、プロビット・モデルやロジスティック・モデルなどがよく使われる。

 ベイズ推測では、まずパラメータの事後分布が、 nをサンプルサイズとし、事前分布 \varphi (w)を用いて

 
\begin{align*}
p(w|X) &= \frac{1}{Z_n(\beta)}\varphi (w) \prod_{i=1}^{n} p(X_i|w)^\beta \\
Z_n(\beta) &= \int_W \varphi (w) \prod_{i=1}^{n} p(X_i|w)^\beta dw
\end{align*}

と表される。この \betaは、本書では逆温度とよばれ、ベイズ統計に関する他書では \beta =1として扱うのが一般的である。また、事後分布により確率モデルを平均した

 
\begin{align*}
p^*(x) = \mathbb{E}_w[p(x|w)] = \int p(x|w)p(w|X)dw
\end{align*}

が予測分布となる。
 「ペイズ統計の理論」では、上述の真の分布、確率モデル、事前分布の組が与えられたときの、以下に述べる自由エネルギー、汎化損失、経験損失の挙動を解明する。

 なお、本書ではパラメータの空間 W\ni wが慎重に扱われ、前述の浜田他書のエントリーでも取り上げた確率モデルの「実現可能性」の他、(対数尤度の平均である)平均対数損失関数

 
\begin{align*}
L(w) = -\mathbb{E}_X[\log p(X|w)] = -\int q(x)\log p(x|w)dx
\end{align*}

が最小となるパラメータの集合(最適なパラメータの集合 W_0)、平均対数損失関数のヘッセ行列の正則性、任意の Wの要素 wに対し p(X|w)が一意に定まる「実質的ユニーク」性、対数尤度比関数*2が相対的に有限な分散を持つケースなど、基礎概念が整理される。
 実現可能なパラメータの集合は W_{00}、最適なパラメータの集合は W_0と表されるが、いずれもその要素が1つであるとは限らず、空集合となる場合もある。実際、「真の確率分布」が、例えば確率モデルをプロビット・モデルとしたとき、それによって正確に実現できるケースなどは稀であろう。
 このように、ある W_0の要素 w_0について、 p(X|w_0)が「真の確率分布」となるわけではないが、これと(一般の)確率モデルとの「近さ」を示すカルバック・ライブラー情報量(擬距離)

 
\begin{align*}
K(w) = \mathbb{E}_X[\log \frac{p(X|w_0)}{p(X|w)}] = \int q(x)\log \frac{p(x|w_0)}{p(x|w)}dx
\end{align*}

は本書の中で特に重視され、実際、この情報量は何度も現れる。

 パラメータの空間 Wは、本書ではコンパクト*3であるとされ、最適なパラメータを持つ確率分布との間のカルバック・ライブラー情報量(擬距離)を考える作法は、何処となく、この「ベイズ統計の理論」と情報幾何との関係性を感じさせる。

 自由エネルギー、汎化損失(誤差)および経験損失は、

 
\begin{align*}
F_n(\beta) &= -\frac{1}{\beta}\log Z_n(\beta) 
\end{align*}
 
\begin{align*}
G_n &= -\int q(x)\log p^*(x)dx = -\mathbb{E}_X[\log \mathbb{E}_w[p(X|w)] ] 
\end{align*}
 
\begin{align*}
T_n &= -\frac{1}{n}\sum_{i=1}^n \log p^*(X_i) = -\frac{1}{n}\sum_{i=1}^n \log \mathbb{E}_w[p(X_i|w)]
\end{align*}

と定義される。

 著者の「ベイズ統計の理論」の枠組みでは、逆温度 \beta =\inftyの場合の予測分布を最大化する(分布の)パラメータが最尤推定量と一致するため、最尤法とその他のベイズ推測(例えば事後確率最大化推定量)との関係が接続する。これは、事後分布の分子を対数変換し n\betaで割った

 
\begin{align*}
\mathcal{L}(w) = -\frac{1}{n}\sum_{i=1}^n \log p(X_i|w)-\frac{1}{n\beta}\log \varphi (w)
\end{align*}

から、

 
\begin{align*}
\hat{w} = arg\max_w \mathcal{L}(w) 	|_{\beta = \infty}
\end{align*}

として最尤推定 \hat{w}が求められるのに対し、 \beta =1とすれば、 \hat{w}は事後確率最大化推定量になることからわかる。
 このように、本書では最尤推定量は絶対視されていない。実務的には、最尤推定量(あるいは線型モデルにおける最小自乗推定量)は絶対視されがちだが、本書は「尤度を大きくするパラメータに必然性はない」と指摘する。(加えて、「真の確率分布」がある確率モデルによって実現可能であるといえる保証もない。)

 キュムラント母関数とは、一般には、モーメント母関数 \mathbb{E}[e^{\theta X}] の対数値を示す一般的な用語であるが、ここで定義されるキュムラント母関数

 
\begin{align*}
\mathcal{G}_n(\alpha) &= \mathbb{E}_X[\log \mathbb{E}_w[p(X|w)^\alpha ] ]\\
\mathcal{T}_n(\alpha) &= \frac{1}{n}\sum_{i=1}^n \log \mathbb{E}_w [p(X_i|w)^\alpha ]
\end{align*}

からは、モーメント法的に自由エネルギー、汎化損失、経験損失が導出される。

 
\begin{align*}
G_n &= -\mathcal{G}_n(1) = -\mathcal{G}_n'(0)-\frac{1}{2}\mathcal{G}_n''(0)+o_p(\frac{1}{n}) \\
T_n &= -\mathcal{T}_n(1) = -\mathcal{T}_n'(0)+o_p(\frac{1}{n})
\end{align*}

 前に記述された内容が後で定義されていたり、類似した内容が、後に違う表現で説明されたりする。「もう少しわかりやすく書けるのでは」と思ってしまうが、それはたぶん自分の理解が浅はかだからなのだろう、と思われる。

サンプルからの計算

 「正則理論」では、「真の確率分布」が確率モデルで実現可能である場合、予測分布の汎化損失は、 dをパラメータの次元とした場合の赤池情報量基準(AIC

 
\begin{align*}
AIC &= L_n(\hat{w})+\frac{d}{n} \\
&= -\frac{1}{n}\sum_{i=1}^n \log p(X_i|\hat{w})+\frac{d}{n}
\end{align*}

によって評価される。ここで L_n(\hat{w})は漸近的に L(\hat{w})に一致し、

 
\begin{align*}
\mathbb{E}(G_n) = L(w_0)+\frac{d}{2n}+o(\frac{1}{n})
\end{align*}

が成立することから、AICは汎化損失に漸近的に一致する。

 「一般理論」では、これを拡張したWAIC(Widely Applicable Information Criterion)が用いられる。WAICは、第4章で定義する汎関数分散

 
\begin{align*}
V_n = \sum_{i=1}^n \{ \mathbb{E}_w[(\log p(X_i|w))^2] -\mathbb{E}_w[\log p(X_i|w)] ^2 \}
\end{align*}

を用いて

 
\begin{align*}
W_n = T_n + \frac{\beta V_n}{n}
\end{align*}

と定義されるが、

 
\begin{align*}
\mathbb{E}(G_n) = \mathbb{E}(W_n) +o(\frac{1}{n})
\end{align*}

が成り立つので、やはり汎化損失に漸近的に一致する。このように、「真の確率分布」がわからないとき汎化損失は計算することができないが、WAICによって、それを漸近的に評価することができる。

 現在では、WAICは概ね社会実装されつつあり、RやPython等の計量ソフトを利用して行うベイズ推測の実務において、著者が苦闘した高度な数学を経由せずとも利用できるようになっている。

*1:すなわちサンプルサイズが十分に大きく、事後確率、すなわち平均値や分散等のパラメータの分布が正規分布で近似できる場合。

*2:対数尤度比関数の確率変数 Xによる平均がカルバック・ライブラー情報量となる。

*3:すなわち、(2次元球面のように)有限個の開集合の族で覆われる空間。