データサイエンスと言わずとも、いまやビジネスの世界でも、回帰分析を用いデータの動きの背景にある各種属性の影響を分析したり、モデルにより予測を行ったりすることは、もはや「基本動作」となりつつある。とはいえ、こうした際に一般にみられるのは、筆者が本書を世に出すこととなった問題意識の一つでもある「ブラックボックスな統計解析」や、「何でも正規分布」「何でも直線」な統計モデリングである。これらは、ビジネスの世界どころかアカデミックな議論の場においても皆無と言い切れるものではない。前者に関し、筆者がみた「ブラックボックスな人たちの誤用あるいはおかしな作法」について、つぎのような記載がある。
- 「ゆーい差」が出るまで検定手法をひたすらとりかえる
- データの中の観測値どうしの割算によって新しい「指標」をでっちあげる…「ゆーい差」が出るまで新発明をくりかえす
- 値は「説明力」なので、ひたすら1に近ければよい
- 「等分散じゃない」とか文句をつけられたら、データを変数変換して回帰・ANOVAすればよい
- あるいはめんどうになったら観測値どうしで割算値を作って、「ノンパラメトリック検定」をやればよい
- 「検定を何度もやっているので多重比較だ」と文句をつけられれば、なんでもかんでも多重検定法による補正をやればよい
- 論文中でデータを示すときには何でも検定してP値をつける。P値が小さいほど自分の主張は正しい
我々は、かなり注意していても、こうした「ブラックボックス統計学」、つまり一種の自己欺瞞に容易く陥る。さらには、こうして生み出された手法が、細分化された領域の中での「秘儀」として継承されたりもする。これらを避けるためには、アナリストは、データの性格やその振る舞いをよく確認し、解析の目的に沿った統計モデルを構築しなければならない。
「何でも正規分布」「何でも直線」な回帰分析ということに関しては、一部のケースを除き*1、(自分を含め、)自分の周囲でも通常みられる事実と言い得るように思う。本書では、統計モデリングにおいてまず考えるべきは、「この現象がどのような確率分布で説明されそうか」という点であると指摘し、その選び方としては、
- 説明したい量は離散か連続か?
- 説明したい量の範囲は?
- 説明したい量の標本分散と標本平均の関係は?
といったことが注意点となるとしている。その上で、統計モデルを実際に推定するために必要となる手法・ツールが、一般化線形モデル(GLM)や、これを個体差が反映できるよう拡張した一般化線形混合モデル(GLMM)である。GLMを使用すれば、(応答変数の)確率分布、リンク関数、線形予測子を指定することで、様々な振る舞い方をするデータに対応した統計モデリングを行うことが可能になる。またその際、線形予測子の切片や係数等を決めるために用いられる推定方法が最尤推定法である*2。