安井翔太『効果検証入門 正しい比較のための因果推論/計量経済学の基礎』
観測データから因果関係を特定することが困難であることは、よく知られた事実である。与えられたデータを用いて因果推論を行う場合、必ずしもオーソドックスな分析手法があるわけでなく、かつて定型的事実とされていた結果であっても、最新の分析で覆るケースもあり得る。いずれにしても、因果推論に関する分析手法は現在進行形で進展しており、それ故に「難しい」ものだといえる。
一方、最近はその重要性が認識されるにつれ、因果推論についてわかりやすく解説する準・専門書的な書籍が見られるようになり、当ブログで以前取り上げた伊藤公一朗『データ分析の力 因果関係に迫る思考法』はその代表である。ランダム化比較試験、差の差分析(DID)、回帰不連続デザイン、傾向スコアマッチング、操作変数法等、(少なくとも言葉だけは)人口に膾炙しつつある。
本書も、全体構成は上述の伊藤書と概ね重なり、Rのコードを記載することで、実務家が手早く分析できるよう配慮している。本書で取り上げる分析手法は、傾向スコアマッチング/逆重み付き推定、差の差分析、回帰不連続デザインで、それぞれについて実際の論文で用いられたサンプルデータを付し、これらの手法に関しては、概ね誰もが取り掛かれるよう配慮が講じられている。実務家にとっては極めて「優れもの」である。
数式とグラフ
本書は実務家向きで読むと直ぐにでも手を動かしたくなる一方、数式展開についてはかなり端折られている。また、因果推論では確率変数間の関係をグラフ(頂点と辺)で表すことで、変数の関係が明示され、その位置関係から、共変量(回帰モデルの説明変数)としてどの変数を選択すべきかが明確になる。こうした見方からすると、本書は必ずしも「わかりやすい」わけではない。
例えば、脱落変数バイアスを除去するためにモデルに含める共変量を選択する際、処理変数と反応変数(回帰モデルの被説明変数)が条件付き独立になるという条件(CIA):
が重要であると指摘されるが、数式やグラフを使用せず言葉による説明であるため、やや散漫な印象を残す*1。
また、傾向スコアマッチングの説明の中では、「傾向スコアが同一となるようなサンプルの中では、介入がとは独立に振り分けられている」と、ややそっけなく書かれていて、傾向スコアマッチングの持つ「意味合い」よりも分析の技術面に偏った説明振りとなっている。
因果推論では、反応変数と処理変数の双方に(上流から)相関する変数は、共変量として制御すべき変数であるとされる。
一方、(グラフにおいて)反応変数と処理変数の間にある変数や、反応変数と処理変数からの合流点となる変数は、共変量として制御すべきではないとされる。
このことはグラフを使った説明で理解することができるが、数式やグラフを使わない言葉だけの説明では難しい。この辺りは、(自分レヴェルからしてやや難しい部類の本にはなるが、)宮川雅己『統計的因果推論 回帰分析の新しい枠組み』などを読むことで補うことができる。
実務面からみた場合
上記、伊藤書や本書は、専門書というより実務家向けのアプローチをとるが、一方で実務面からすると、(因果推論の手法より)その前処理段階、例えば、効果検証の対象となる施策(処理変数)とその目的(反応変数)、現状(共変量)及び最終目標との関係を明らかにし、検証に要するデータを予め用意する、といった一連のモデリングが最も重要で、効果検証自体は「外注」することも可能である。本書は、専門書と比較して実務面に近く、実務面と比較して理論に近い。一方、実務面に即したモデリングを丁寧に解説する本は(私見の限り)みたことがない。モデリングと効果検証の「間」にある問題設定のロジックというのは、正に、コンサル的素養に該当するものだといえる。