ラスカルの備忘録

ー 経済概観、読書記録等 ー

浜田宏、石田淳、清水裕士『社会科学のためのベイズ統計モデリング』

 「社会科学のための」と謳われているように具体的な政策分析事例を取り上げ、加えて「文系人間」でも数式展開を追えるよう丁寧に説明される。統計モデリングに関しては、いまも一般化線型モデル(GLM)を最尤法で推定するのが一般的かつ説明も容易であると思われるが、本書をひと通り読むと、(GLMでは得られない)ベイズ統計モデリングの「威力」を徐々に垣間見ることができるようになる。(各種の記述統計から回帰分析、P値へと進む)一般的な頻度主義統計学に係る記述はなく、情報量、エントロピー(平均情報量)、カルバック=ライブラー情報量(擬距離)、汎化損失、自由エネルギー等の情報理論に関係する概念が最初の段階で取り上げられ、これらが統計モデルの推定と評価において重要な役割を果たす。

 「自分でモデルをつくるという作業は知的で楽しい経験」[p.8]であるが、客観的に妥当なモデルを「一から」構築するのは容易ではない。GLMの場合、既に活用されているモデルがあれば、それを使うのが(恣意性が低く)説明も容易になりがちである。
 一方、そのモデルの実証可能性が高いのは何故か、そのメカニズムを明らかにするのは容易ではない。ベイズ統計モデリングでは、データ生成メカニズムを「トイモデル」により明確化することで、統計モデルの「ミクロ的基礎付け」が可能になる。

「実現可能」性

 (何らかの)確率をロジスティック・モデル

 
\begin{align*}
P(Y=1) &= logistic(\alpha + \beta X) \\
&= \frac{1}{1+e^{-(\alpha + \beta X)}} \hspace{10mm} (Y\in\{1,0\})
\end{align*}

で表現し、パラメータ \alpha, \beta最尤推定する場合を考える。その際の尤度関数(確率モデル)は、観測データを (x,y)=\{(x_i,y_i)| i=1,\dots ,n\}とした場合、

 
\begin{align*}
p(x,y|\alpha,\beta) &= \prod_{i=1}^n p(x_i,y_i|\alpha,\beta) \\
&= \prod_{i=1}^n logistic(\alpha + \beta x_i)^{y_i} (1-logistic(\alpha + \beta x_i))^{1-y_i}
\end{align*}
 
\begin{align*}
\Leftrightarrow \hspace{2mm} y_i \sim Binomial(n,logistic(\alpha + \beta x_i))
\end{align*}

のように表される。本書は、最尤推定を行う際に仮定される「実現可能」性について明示的に言及する。

定義8(実現可能)  S\subset\mathbb{R}^dをパラメータがとりうる値の集合とする。ある \theta\in Sにより q(x)=p(x|\theta)となるとき、真の分布 q(x)は確率モデル p(x|\theta)により実現可能(realizable)であるという。[p.30]

 最尤法では、(観測データを生成した真の分布の)予測分布 p^*(X,Y)を、最尤推定されたパラメータ \hat{\alpha}, \hat{\beta}をもとに、

 
\begin{align*}
p^*(X,Y) &= p(X,Y|\hat{\alpha}, \hat{\beta}) \hspace{10mm} (\hat{\alpha}, \hat{\beta}) = arg\max_{(\alpha,\beta)} p(x,y|\alpha,\beta)
\end{align*}

とするが、モデルによって真の分布が「実現可能」であることが仮定されている。ただしその場合であっても、最尤法で真の分布が実現できるとは限らない。

 ところで、実際の分析の場面でロジスティック・モデルの推定等を行う際は、「実現可能」性の仮定はやや強く、あまり意識せずに行うことの方が多いと思われる。

 本書では、その上で真の分布と予測分布との「近さ」を汎化損失*1によって評価する。赤池情報量 AIC T_nを経験損失、 dを自由パラメータ数として、

 
\begin{align*}
AIC &= T_n + \frac{d}{n} \\
&= -\frac{1}{n} \sum_{i=1}^n \log{p(x_i,y_i|\hat{\alpha}, \hat{\beta})} + \frac{d}{n}
\end{align*}

と定義すると、 AICは漸近的、平均的に汎化損失に一致することから、(真の分布が分からないと計算することができない汎化損失の代わりに) AICによって予測分布の真の分布との「近さ」を評価することができる。

 なお、 AICの定義式には対数尤度が含まれる。ロジスティック・モデルとプロビット・モデルの比較のように、対数尤度が異なるモデルの間でのAICの比較可能性について、本書の中では明確に言及されていない。個人的には、こうした場合は AICの比較はできない(たぶん)と認識している。→赤字はペンディング

 つぎにベイズ統計モデリングを(特に、最尤法との違いという観点から)考える。まずパラメータの事後分布が、尤度と事前分布をもとに、

 
\begin{align*}
p(\alpha,\beta|x,y) = \frac{\prod_{i=1}^{n}p(x_i,y_i|\alpha,\beta)\cdot\phi(\alpha,\beta)}{\int\!\!\!\int\prod_{i=1}^{n}p(x_i,y_i|\alpha,\beta)\phi(\alpha,\beta) d\alpha d\beta}
\end{align*}

と定義される*2。この段階ではパラメータは点推定されず、分布として推定されている。その上で予測分布は、

\begin{align*}
p^*(X,Y) &= \mathbb{E}_{p(\alpha,\beta|x,y)} \hspace{2mm} [p(X,Y|\alpha,\beta)] \\
&= \int\!\!\!\int p(X,Y|\alpha,\beta)p(\alpha,\beta|x,y) d\alpha d\beta
\end{align*}

と定義される。

 ベイズ統計モデリングにより推定された予測分布も、真の分布との「近さ」を汎化損失によって評価するが、(最尤法で用いた) AICではなく WAICを用いる。WAICもまた漸近的、平均的に汎化損失に一致する。加えて、このことは「実現可能」性等を満たすかどうかに拘らず、より一般的に成立する。

生成モデル

 賃金関数を推定する場合、人的資本論に基づくミンサー型賃金関数が一般的に用いられる。その際、賃金 Yの対数値を被説明変数とし、年齢、学歴、勤続年数等の人的資本「量」に関係し得る情報を説明変数 Xとする線型回帰モデル

 
\log{Y} = \alpha + \beta X \\

y_i \sim Lognomal(\alpha + \beta x_i, \sigma)

とする*3GLMの場合は、賃金の対数値が用いられる、すなわち賃金が対数正規分布に従うメカニズムは必ずしも明確にされないが、ベイズ統計モデリングでは、「トイモデル」(データ生成モデル)を明示することで、この部分を明確にすることができる

 本書のモデルでは、人的資本は、成功すると前期の人的資本の 1+b倍となり、失敗すると 1-b倍となる( (0,1)\ni b:利益率)。このとき、 n期後の人的資本の分布は対数正規分布で近似できることが証明されている[pp.169-171]*4

 このようにデータ生成モデルから確率モデルを考えることで、GLMからは得られない政策含意を得ることができる。例えば、上述のモデルを用いた推定結果とジニ係数から、人的資本獲得確率(成功確率)が上昇すると不平等度は減少し、利益率が上昇すると不平等度は悪化することが示される。人的資本獲得確率だけを上昇させることができれば、経済発展と不平等改善を同時に成功させることができる。

 このように、理論モデルを使って分析すると、線形回帰モデルでは得られないインプリケーションを導出することができます。そしてこのことは、現象の理解に新しい光をもたらします。トイモデル(理論モデル)と統計モデルの接続は、数理社会学者にとって長い間の理論的な課題でした。ベイズモデリングとその実装環境の発展により、近年になってその接続がようやく実現可能となったことは、強調しておくべきことでしょう。[p.178]

*1:真の分布と予測分布の交差エントロピーであり、真の分布のエントロピー(平均情報量)に真の分布と予測分布のカルバック=ライブラー情報量(擬距離)を加えたものに一致する。すなわち、汎化損失が相対的に小さいことは、カルバック=ライブラー擬距離で評価した場合、真の分布により近い予測分布であることを示す。

*2:事後分布の分母は、一般に多重積分が必要となり解析的に解くことが困難である。ただし分母は定数となるため、尤度と事前分布の積は事後分布に比例する。この関係をもとにパラメータを逐次的に推定するのがマルコフ連鎖モンテカルロ法(MCMC)である。

*3:川口大司『ミンサー型賃金関数の日本の労働市場への適用』(https://www.rieti.go.jp/jp/publications/dp/11j026.pdf)など。

*4:二項分布は nが十分大きいとき正規分布で近似できることを利用。