安井翔太『効果検証入門　正しい比較のための因果推論／計量経済学の基礎』

　観測データから因果関係を特定することが困難であることは、よく知られた事実である。与えられたデータを用いて因果推論を行う場合、必ずしもオーソドックスな分析手法があるわけでなく、かつて定型的事実とされていた結果であっても、最新の分析で覆るケースもあり得る。いずれにしても、因果推論に関する分析手法は現在進行形で進展しており、それ故に「難しい」ものだといえる。
　一方、最近はその重要性が認識されるにつれ、因果推論についてわかりやすく解説する準・専門書的な書籍が見られるようになり、当ブログで以前取り上げた伊藤公一朗『データ分析の力　因果関係に迫る思考法』はその代表である。ランダム化比較試験、差の差分析(DID)、回帰不連続デザイン、傾向スコアマッチング、操作変数法等、（少なくとも言葉だけは）人口に膾炙しつつある。

traindusoir.hatenablog.jp

　本書も、全体構成は上述の伊藤書と概ね重なり、Rのコードを記載することで、実務家が手早く分析できるよう配慮している。本書で取り上げる分析手法は、傾向スコアマッチング／逆重み付き推定、差の差分析、回帰不連続デザインで、それぞれについて実際の論文で用いられたサンプルデータを付し、これらの手法に関しては、概ね誰もが取り掛かれるよう配慮が講じられている。実務家にとっては極めて「優れもの」である。

数式とグラフ

　本書は実務家向きで読むと直ぐにでも手を動かしたくなる一方、数式展開についてはかなり端折られている。また、因果推論では確率変数間の関係をグラフ（頂点と辺）で表すことで、変数の関係が明示され、その位置関係から、共変量（回帰モデルの説明変数）としてどの変数を選択すべきかが明確になる。こうした見方からすると、本書は必ずしも「わかりやすい」わけではない。
　例えば、脱落変数バイアスを除去するためにモデルに含める共変量 $X_i$ を選択する際、処理変数 $Z_i$ と反応変数（回帰モデルの被説明変数） $Y_i^{(1)}, Y_i^{(0)}$ が条件付き独立になるという条件(CIA)：

$\{ Y_i^{(1)}, Y_i^{(0)} \} \bot Z_i | X_i$

が重要であると指摘されるが、数式やグラフを使用せず言葉による説明であるため、やや散漫な印象を残す*1。

　また、傾向スコアマッチングの説明の中では、「傾向スコアが同一となるようなサンプルの中では、介入が $Y^{(0)}$ とは独立に振り分けられている」と、ややそっけなく書かれていて、傾向スコアマッチングの持つ「意味合い」よりも分析の技術面に偏った説明振りとなっている。

　因果推論では、反応変数 $Y_1$ と処理変数 $Z_1$ の双方に（上流から）相関する変数 $X_1$ は、共変量として制御すべき変数であるとされる。

　一方、（グラフにおいて）反応変数 $Y_2$ と処理変数 $Z_2$ の間にある変数 $X_2$ や、反応変数 $Y_3$ と処理変数 $Z_3$ からの合流点となる変数 $X_3$ は、共変量として制御すべきではないとされる。

　このことはグラフを使った説明で理解することができるが、数式やグラフを使わない言葉だけの説明では難しい。この辺りは、（自分レヴェルからしてやや難しい部類の本にはなるが、）宮川雅己『統計的因果推論　回帰分析の新しい枠組み』などを読むことで補うことができる。

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

作者:宮川雅巳
朝倉書店

Amazon

実務面からみた場合

　上記、伊藤書や本書は、専門書というより実務家向けのアプローチをとるが、一方で実務面からすると、（因果推論の手法より）その前処理段階、例えば、効果検証の対象となる施策（処理変数）とその目的（反応変数）、現状（共変量）及び最終目標との関係を明らかにし、検証に要するデータを予め用意する、といった一連のモデリングが最も重要で、効果検証自体は「外注」することも可能である。本書は、専門書と比較して実務面に近く、実務面と比較して理論に近い。一方、実務面に即したモデリングを丁寧に解説する本は（私見の限り）みたことがない。モデリングと効果検証の「間」にある問題設定のロジックというのは、正に、コンサル的素養に該当するものだといえる。

*1:本書からは離れ一般に因果推論に関する説明をみると、全ての変数が多変量正規分布に従うことやグラフが（大域的）マルコフ性を持つことを条件としつつ、その説明が省略されているようなケースはあるようである。