ラスカルの備忘録

ー 経済概観、読書記録等 ー

久保拓弥『データ解析のための統計モデリング入門 一般化線形モデル・階層ベイズモデル・MCMC』

データサイエンスと言わずとも、いまやビジネスの世界でも、回帰分析を用いデータの動きの背景にある各種属性の影響を分析したり、モデルにより予測を行ったりすることは、もはや「基本動作」となりつつある。とはいえ、こうした際に一般にみられるのは、筆者が本書を世に出すこととなった問題意識の一つでもある「ブラックボックスな統計解析」や、「何でも正規分布」「何でも直線」な統計モデリングである。これらは、ビジネスの世界どころかアカデミックな議論の場においても皆無と言い切れるものではない。前者に関し、筆者がみた「ブラックボックスな人たちの誤用あるいはおかしな作法」について、つぎのような記載がある。

  • 「ゆーい差」が出るまで検定手法をひたすらとりかえる
  • データの中の観測値どうしの割算によって新しい「指標」をでっちあげる…「ゆーい差」が出るまで新発明をくりかえす
  •  \mathbf{R}^2値は「説明力」なので、ひたすら1に近ければよい
  • 「等分散じゃない」とか文句をつけられたら、データを変数変換して回帰・ANOVAすればよい
  • あるいはめんどうになったら観測値どうしで割算値を作って、「ノンパラメトリック検定」をやればよい
  • 「検定を何度もやっているので多重比較だ」と文句をつけられれば、なんでもかんでも多重検定法による補正をやればよい
  • 論文中でデータを示すときには何でも検定してP値をつける。P値が小さいほど自分の主張は正しい

我々は、かなり注意していても、こうした「ブラックボックス統計学」、つまり一種の自己欺瞞に容易く陥る。さらには、こうして生み出された手法が、細分化された領域の中での「秘儀」として継承されたりもする。これらを避けるためには、アナリストは、データの性格やその振る舞いをよく確認し、解析の目的に沿った統計モデルを構築しなければならない。

「何でも正規分布」「何でも直線」な回帰分析ということに関しては、一部のケースを除き*1、(自分を含め、)自分の周囲でも通常みられる事実と言い得るように思う。本書では、統計モデリングにおいてまず考えるべきは、「この現象がどのような確率分布で説明されそうか」という点であると指摘し、その選び方としては、

  • 説明したい量は離散か連続か?
  • 説明したい量の範囲は?
  • 説明したい量の標本分散と標本平均の関係は?

といったことが注意点となるとしている。その上で、統計モデルを実際に推定するために必要となる手法・ツールが、一般化線形モデル(GLM)や、これを個体差が反映できるよう拡張した一般化線形混合モデル(GLMM)である。GLMを使用すれば、(応答変数の)確率分布、リンク関数、線形予測子を指定することで、様々な振る舞い方をするデータに対応した統計モデリングを行うことが可能になる。またその際、線形予測子の切片や係数等を決めるために用いられる推定方法が最尤推定法である*2

本書が取り上げる分析事例

本書では、まず、架空植物の種子数という離散的なデータ(カウントデータ)に関する統計モデリングを取り上げる。カウントデータの場合、例えば種子数が説明変数である体サイズごとに等分散な正規分布に従うとし、線形回帰モデル(GLMのオプション項目で確率分布をガウシアン、リンク関数を恒等関数に指定)で推定すると、①離散的な値に正規分布に従う連続的な値を当てはめている、②カウントデータであるのに予測がマイナスとなる場合がある、③図でみる限り等分散とはならない、といったおかしな結果となる。応答変数がカウントデータの場合は、ポワソン分布や二項分布を用いた統計モデルにする必要がある。本書では、種子数 \{ y_i \}がポワソン分布
 p(y_i|\lambda_i)=\frac{\lambda_i^{y_i}\cdot\mathrm{e}^{-\lambda_i}}{y_i !}
に従うとし、分布の平均(分散)*3は対数リンク関数を用いて
 \lambda_i=\mathrm{e}^{\beta_1 + \beta_2 x_i}
のように表されるとして、 \beta_1 , \beta_2の値を最尤推定する。本書では、推定の結果出てくるワルド統計量などの検定値の解釈の仕方、線形回帰の場合のP値との違いなども丁寧に説明している。また、観測値が非線形の場合、応答変数の対数変換値を用い通常の線形回帰を適用することは、一般的に行われる手法であるが、ポワソン分布、対数リンク関数、線形予測子を用いたGLMによる推定は、これとは異なるものである点が繰り返し指摘される。

さらに、ガンマ分布
 p(y_i|s,r)=\frac{r^s}{\Gamma(s)}y^{s-1}\mathrm{e}^{-ry_i}, ただし  \Gamma(s)=\int_0^\infty t^{s-1} \mathrm{e}^{-t} dt
を用い、花の重量を応答変数、葉重量を説明変数とする統計モデルの推定も行っている。ここでは、花の重量は連続値であるが、正の値しかとらないことから、そのバラツキは正規分布よりもガンマ分布で表現した方がよいとしている。ガンマ分布では、平均は \frac{s}{r}、分散は \frac{s}{r^2}となり、正規分布のように、平均と分散が独立になるわけではない。
本書の分析に使用されているデータは、著者のサイト*4よりダウンすることが可能であるので、同じデータを用いて散布図と回帰式及び残差の分散をみると、以下のようになる。




一方、同じデータについて、正規分布、恒等リンク関数を適用した線形回帰モデルを推定すると、つぎのようになる。


残差の分散は、説明変数が大きくなるほど広がっており、不均一な分散となっている。この問題は、最初に掲げた「ブラックボックスな人たちの誤用あるいはおかしな作法」にも関係するが、応答変数が正規分布に従うことが自然に認められるケースでは、ロバスト標準偏差で対応したりする。一方、本書が扱うのは、もっと一般に、応答変数が正規分布に従うことが疑われる場合にも適用できる統計モデルの拡張である。
ここまではGLMによる推定に限定した話を紹介したが、本書はさらに、個体差が無視できない場合(過分散)に用いるGLMM、さらには、マルコフ連鎖モンテカルロ法(MCMC)によるベイズ統計モデルや、その拡張である階層ベイズモデルへと話が進む。取りあえずのゴールである階層ベイズモデルについては、『データ中の説明変数と応答変数を対応づける「回帰」を目的とした統計モデルとしては、「今どきのデータ解析なら、少なくともここまでは考慮しよう」といった標準になりうる考え方』だとしている。

今では「緑本」ともよばれ、データサイエンスの世界を目指す人にとって「最低限のライン」と言われたりすることもある書籍であり、将来、この世界に進みたい若い人や、かつての計量経済学的なスキルが朽ちかけている中高年世代など、多くの人に読まれるべきと思われる。

*1:さすがに応答変数(被説明変数)が二値を取るケースで直線回帰を行うようなことは、行われていない。

*2:通常の線形回帰では、最尤推定法の結果は最小二乗法の結果と一致する。本書では、対数尤度の式中に残差平方和が表れる点を含め、このことが丁寧に説明されている。

*3:ポワソン分布では、平均と分散の値は一致する。

*4:http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html