渡辺澄夫『ベイズ統計の理論と方法』

作者:渡辺澄夫
コロナ社

　2012年初版刊行。読んだのは第３章の途中までだが、この先、特に第４章は自分に理解できる内容ではない。ただし、2018年に六本木ニコファーレにて開催されたMATH POWERでの著者の講演（ニコニコ動画にて閲覧可能）では、本書の第３章及び第４章の内容が扱われており、その意図が伝わるものとなっている。

live.nicovideo.jp

　本書が志向するのは、現実世界の「真の確率分布」と確率モデルにより推測された予測分布との「近さ」に関係する自由エネルギー、汎化損失、経験損失の挙動を知ることにより、ベイズ推測に関する「一般理論」を確立することである。これを踏まえて上記の講演を聴くと、事後分布が正規分布で近似できる場合*1を扱う「正則理論」（第３章）から、さらに「一般理論」（第４章）へと進む際、ベルンシュタイン・佐藤のｂ関数、（統計的推測の）ゼータ関数とその解析接続、広中の特異点解消定理といった高度な数学を経由しなければならず、その過程における著者の苦闘が実感を持って理解できるようになる。

基礎概念

　本書の扱う対象は、昨年読んで感銘を受けた浜田宏、石田淳、清水祐士『社会科学のためのベイズ統計モデリング』と概ね同一である。

traindusoir.hatenablog.jp

ただし、同書は分析者のための実践的な記述をとっているのに対し、本書は理論的な記述をとっている。

　現実世界にある「真の分布」 $q(x)$ について、パラメータ $w$ を持つ確率モデル $p(x|w)$ を用い推測したい。ここでいう確率モデルとは（一般にいう）尤度のことであり、プロビット・モデルやロジスティック・モデルなどがよく使われる。

　ベイズ推測では、まずパラメータの事後分布が、 $n$ をサンプルサイズとし、事前分布 $\varphi (w)$ を用いて

$\begin{align*} p(w|X) &= \frac{1}{Z_n(\beta)}\varphi (w) \prod_{i=1}^{n} p(X_i|w)^\beta \\ Z_n(\beta) &= \int_W \varphi (w) \prod_{i=1}^{n} p(X_i|w)^\beta dw \end{align*}$

と表される。この $\beta$ は、本書では逆温度とよばれ、ベイズ統計に関する他書では $\beta =1$ として扱うのが一般的である。また、事後分布により確率モデルを平均した

$\begin{align*} p^*(x) = \mathbb{E}_w[p(x|w)] = \int p(x|w)p(w|X)dw \end{align*}$

が予測分布となる。
　「ペイズ統計の理論」では、上述の真の分布、確率モデル、事前分布の組が与えられたときの、以下に述べる自由エネルギー、汎化損失、経験損失の挙動を解明する。

　なお、本書ではパラメータの空間 $W\ni w$ が慎重に扱われ、前述の浜田他書のエントリーでも取り上げた確率モデルの「実現可能性」の他、（対数尤度の平均である）平均対数損失関数

$\begin{align*} L(w) = -\mathbb{E}_X[\log p(X|w)] = -\int q(x)\log p(x|w)dx \end{align*}$

が最小となるパラメータの集合（最適なパラメータの集合 $W_0$ ）、平均対数損失関数のヘッセ行列の正則性、任意の $W$ の要素 $w$ に対し $p(X|w)$ が一意に定まる「実質的ユニーク」性、対数尤度比関数*2が相対的に有限な分散を持つケースなど、基礎概念が整理される。
　実現可能なパラメータの集合は $W_{00}$ 、最適なパラメータの集合は $W_0$ と表されるが、いずれもその要素が１つであるとは限らず、空集合となる場合もある。実際、「真の確率分布」が、例えば確率モデルをプロビット・モデルとしたとき、それによって正確に実現できるケースなどは稀であろう。
　このように、ある $W_0$ の要素 $w_0$ について、 $p(X|w_0)$ が「真の確率分布」となるわけではないが、これと（一般の）確率モデルとの「近さ」を示すカルバック・ライブラー情報量（擬距離）

$\begin{align*} K(w) = \mathbb{E}_X[\log \frac{p(X|w_0)}{p(X|w)}] = \int q(x)\log \frac{p(x|w_0)}{p(x|w)}dx \end{align*}$

は本書の中で特に重視され、実際、この情報量は何度も現れる。

　パラメータの空間 $W$ は、本書ではコンパクト*3であるとされ、最適なパラメータを持つ確率分布との間のカルバック・ライブラー情報量（擬距離）を考える作法は、何処となく、この「ベイズ統計の理論」と情報幾何との関係性を感じさせる。

　自由エネルギー、汎化損失（誤差）および経験損失は、

$\begin{align*} F_n(\beta) &= -\frac{1}{\beta}\log Z_n(\beta) \end{align*}$
$\begin{align*} G_n &= -\int q(x)\log p^*(x)dx = -\mathbb{E}_X[\log \mathbb{E}_w[p(X|w)] ] \end{align*}$
$\begin{align*} T_n &= -\frac{1}{n}\sum_{i=1}^n \log p^*(X_i) = -\frac{1}{n}\sum_{i=1}^n \log \mathbb{E}_w[p(X_i|w)] \end{align*}$

と定義される。

　著者の「ベイズ統計の理論」の枠組みでは、逆温度 $\beta =\infty$ の場合の予測分布を最大化する（分布の）パラメータが最尤推定量と一致するため、最尤法とその他のベイズ推測（例えば事後確率最大化推定量）との関係が接続する。これは、事後分布の分子を対数変換し $n\beta$ で割った

$\begin{align*} \mathcal{L}(w) = -\frac{1}{n}\sum_{i=1}^n \log p(X_i|w)-\frac{1}{n\beta}\log \varphi (w) \end{align*}$

から、

$\begin{align*} \hat{w} = arg\max_w \mathcal{L}(w) |_{\beta = \infty} \end{align*}$

として最尤推定量 $\hat{w}$ が求められるのに対し、 $\beta =1$ とすれば、 $\hat{w}$ は事後確率最大化推定量になることからわかる。
　このように、本書では最尤推定量は絶対視されていない。実務的には、最尤推定量（あるいは線型モデルにおける最小自乗推定量）は絶対視されがちだが、本書は「尤度を大きくするパラメータに必然性はない」と指摘する。（加えて、「真の確率分布」がある確率モデルによって実現可能であるといえる保証もない。）

　キュムラント母関数とは、一般には、モーメント母関数 $\mathbb{E}[e^{\theta X}]$ の対数値を示す一般的な用語であるが、ここで定義されるキュムラント母関数

$\begin{align*} \mathcal{G}_n(\alpha) &= \mathbb{E}_X[\log \mathbb{E}_w[p(X|w)^\alpha ] ]\\ \mathcal{T}_n(\alpha) &= \frac{1}{n}\sum_{i=1}^n \log \mathbb{E}_w [p(X_i|w)^\alpha ] \end{align*}$

からは、モーメント法的に自由エネルギー、汎化損失、経験損失が導出される。

$\begin{align*} G_n &= -\mathcal{G}_n(1) = -\mathcal{G}_n'(0)-\frac{1}{2}\mathcal{G}_n''(0)+o_p(\frac{1}{n}) \\ T_n &= -\mathcal{T}_n(1) = -\mathcal{T}_n'(0)+o_p(\frac{1}{n}) \end{align*}$