ラスカルの備忘録

ー 経済概観、読書記録等 ー

安井翔太『効果検証入門 正しい比較のための因果推論/計量経済学の基礎』

 観測データから因果関係を特定することが困難であることは、よく知られた事実である。与えられたデータを用いて因果推論を行う場合、必ずしもオーソドックスな分析手法があるわけでなく、かつて定型的事実とされていた結果であっても、最新の分析で覆るケースもあり得る。いずれにしても、因果推論に関する分析手法は現在進行形で進展しており、それ故に「難しい」ものだといえる。
 一方、最近はその重要性が認識されるにつれ、因果推論についてわかりやすく解説する準・専門書的な書籍が見られるようになり、当ブログで以前取り上げた伊藤公一朗『データ分析の力 因果関係に迫る思考法』はその代表である。ランダム化比較試験、差の差分析(DID)、回帰不連続デザイン、傾向スコアマッチング、操作変数法等、(少なくとも言葉だけは)人口に膾炙しつつある。

traindusoir.hatenablog.jp

 本書も、全体構成は上述の伊藤書と概ね重なり、Rのコードを記載することで、実務家が手早く分析できるよう配慮している。本書で取り上げる分析手法は、傾向スコアマッチング/逆重み付き推定、差の差分析、回帰不連続デザインで、それぞれについて実際の論文で用いられたサンプルデータを付し、これらの手法に関しては、概ね誰もが取り掛かれるよう配慮が講じられている。実務家にとっては極めて「優れもの」である。

数式とグラフ

 本書は実務家向きで読むと直ぐにでも手を動かしたくなる一方、数式展開についてはかなり端折られている。また、因果推論では確率変数間の関係をグラフ(頂点と辺)で表すことで、変数の関係が明示され、その位置関係から、共変量(回帰モデルの説明変数)としてどの変数を選択すべきかが明確になる。こうした見方からすると、本書は必ずしも「わかりやすい」わけではない。
 例えば、脱落変数バイアスを除去するためにモデルに含める共変量X_iを選択する際、処理変数Z_iと反応変数(回帰モデルの被説明変数)Y_i^{(1)}, Y_i^{(0)}が条件付き独立になるという条件(CIA):


\{ Y_i^{(1)}, Y_i^{(0)} \} \bot Z_i | X_i

が重要であると指摘されるが、数式やグラフを使用せず言葉による説明であるため、やや散漫な印象を残す*1

 また、傾向スコアマッチングの説明の中では、「傾向スコアが同一となるようなサンプルの中では、介入がY^{(0)}とは独立に振り分けられている」と、ややそっけなく書かれていて、傾向スコアマッチングの持つ「意味合い」よりも分析の技術面に偏った説明振りとなっている。

 因果推論では、反応変数Y_1と処理変数Z_1の双方に(上流から)相関する変数X_1は、共変量として制御すべき変数であるとされる。

 一方、(グラフにおいて)反応変数Y_2と処理変数Z_2の間にある変数X_2や、反応変数Y_3と処理変数Z_3からの合流点となる変数X_3は、共変量として制御すべきではないとされる。

 このことはグラフを使った説明で理解することができるが、数式やグラフを使わない言葉だけの説明では難しい。この辺りは、(自分レヴェルからしてやや難しい部類の本にはなるが、)宮川雅己『統計的因果推論 回帰分析の新しい枠組み』などを読むことで補うことができる。

実務面からみた場合

 上記、伊藤書や本書は、専門書というより実務家向けのアプローチをとるが、一方で実務面からすると、(因果推論の手法より)その前処理段階、例えば、効果検証の対象となる施策(処理変数)とその目的(反応変数)、現状(共変量)及び最終目標との関係を明らかにし、検証に要するデータを予め用意する、といった一連のモデリングが最も重要で、効果検証自体は「外注」することも可能である。本書は、専門書と比較して実務面に近く、実務面と比較して理論に近い。一方、実務面に即したモデリングを丁寧に解説する本は(私見の限り)みたことがない。モデリングと効果検証の「間」にある問題設定のロジックというのは、正に、コンサル的素養に該当するものだといえる。

*1:本書からは離れ一般に因果推論に関する説明をみると、全ての変数が多変量正規分布に従うことやグラフが(大域的)マルコフ性を持つことを条件としつつ、その説明が省略されているようなケースはあるようである。