備忘録

ー 経済概観、読書記録等 ー

真の失業率──2018年7月までのデータによる更新

※前回のエントリーでは、「中間改訂を7月結果公表時に行うことを検討する」と書きましたが、今回の推計では、中間改訂は行っていません。

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

7月の結果をみると、完全失業率(季節調整値)は2.5%と前月から0.1ポイント上昇したが、真の失業率は1.7%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。

所定内給与と消費者物価の相関に関する6月までの結果は以下のようになる。物価および賃金はともに上昇基調である。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

久保拓弥『データ解析のための統計モデリング入門 一般化線形モデル・階層ベイズモデル・MCMC』

データサイエンスと言わずとも、いまやビジネスの世界でも、回帰分析を用いデータの動きの背景にある各種属性の影響を分析したり、モデルにより予測を行ったりすることは、もはや「基本動作」となりつつある。とはいえ、こうした際に一般にみられるのは、筆者が本書を世に出すこととなった問題意識の一つでもある「ブラックボックスな統計解析」や、「何でも正規分布」「何でも直線」な統計モデリングである。これらは、ビジネスの世界どころかアカデミックな議論の場においても皆無と言い切れるものではない。前者に関し、筆者がみた「ブラックボックスな人たちの誤用あるいはおかしな作法」について、つぎのような記載がある。

  • 「ゆーい差」が出るまで検定手法をひたすらとりかえる
  • データの中の観測値どうしの割算によって新しい「指標」をでっちあげる…「ゆーい差」が出るまで新発明をくりかえす
  •  \mathbf{R}^2値は「説明力」なので、ひたすら1に近ければよい
  • 「等分散じゃない」とか文句をつけられたら、データを変数変換して回帰・ANOVAすればよい
  • あるいはめんどうになったら観測値どうしで割算値を作って、「ノンパラメトリック検定」をやればよい
  • 「検定を何度もやっているので多重比較だ」と文句をつけられれば、なんでもかんでも多重検定法による補正をやればよい
  • 論文中でデータを示すときには何でも検定してP値をつける。P値が小さいほど自分の主張は正しい

我々は、かなり注意していても、こうした「ブラックボックス統計学」、つまり一種の自己欺瞞に容易く陥る。さらには、こうして生み出された手法が、細分化された領域の中での「秘儀」として継承されたりもする。これらを避けるためには、アナリストは、データの性格やその振る舞いをよく確認し、解析の目的に沿った統計モデルを構築しなければならない。

「何でも正規分布」「何でも直線」な回帰分析ということに関しては、一部のケースを除き*1、(自分を含め、)自分の周囲でも通常みられる事実と言い得るように思う。本書では、統計モデリングにおいてまず考えるべきは、「この現象がどのような確率分布で説明されそうか」という点であると指摘し、その選び方としては、

  • 説明したい量は離散か連続か?
  • 説明したい量の範囲は?
  • 説明したい量の標本分散と標本平均の関係は?

といったことが注意点となるとしている。その上で、統計モデルを実際に推定するために必要となる手法・ツールが、一般化線形モデル(GLM)や、これを個体差が反映できるよう拡張した一般化線形混合モデル(GLMM)である。GLMを使用すれば、(応答変数の)確率分布、リンク関数、線形予測子を指定することで、様々な振る舞い方をするデータに対応した統計モデリングを行うことが可能になる。またその際、線形予測子の切片や係数等を決めるために用いられる推定方法が最尤推定法である*2

本書が取り上げる分析事例

本書では、まず、架空植物の種子数という離散的なデータ(カウントデータ)に関する統計モデリングを取り上げる。カウントデータの場合、例えば種子数が説明変数である体サイズごとに等分散な正規分布に従うとし、線形回帰モデル(GLMのオプション項目で確率分布をガウシアン、リンク関数を恒等関数に指定)で推定すると、①離散的な値に正規分布に従う連続的な値を当てはめている、②カウントデータであるのに予測がマイナスとなる場合がある、③図でみる限り等分散とはならない、といったおかしな結果となる。応答変数がカウントデータの場合は、ポワソン分布や二項分布を用いた統計モデルにする必要がある。本書では、種子数 \{ y_i \}がポワソン分布
 p(y_i|\lambda_i)=\frac{\lambda_i^{y_i}\cdot\mathrm{e}^{-\lambda_i}}{y_i !}
に従うとし、分布の平均(分散)*3は対数リンク関数を用いて
 \lambda_i=\mathrm{e}^{\beta_1 + \beta_2 x_i}
のように表されるとして、 \beta_1 , \beta_2の値を最尤推定する。本書では、推定の結果出てくるワルド統計量などの検定値の解釈の仕方、線形回帰の場合のP値との違いなども丁寧に説明している。また、観測値が非線形の場合、応答変数の対数変換値を用い通常の線形回帰を適用することは、一般的に行われる手法であるが、ポワソン分布、対数リンク関数、線形予測子を用いたGLMによる推定は、これとは異なるものである点が繰り返し指摘される。

さらに、ガンマ分布
 p(y_i|s,r)=\frac{r^s}{\Gamma(s)}y^{s-1}\mathrm{e}^{-ry_i}, ただし  \Gamma(s)=\int_0^\infty t^{s-1} \mathrm{e}^{-t} dt
を用い、花の重量を応答変数、葉重量を説明変数とする統計モデルの推定も行っている。ここでは、花の重量は連続値であるが、正の値しかとらないことから、そのバラツキは正規分布よりもガンマ分布で表現した方がよいとしている。ガンマ分布では、平均は \frac{s}{r}、分散は \frac{s}{r^2}となり、正規分布のように、平均と分散が独立になるわけではない。
本書の分析に使用されているデータは、著者のサイト*4よりダウンすることが可能であるので、同じデータを用いて散布図と回帰式及び残差の分散をみると、以下のようになる。




一方、同じデータについて、正規分布、恒等リンク関数を適用した線形回帰モデルを推定すると、つぎのようになる。


残差の分散は、説明変数が大きくなるほど広がっており、不均一な分散となっている。この問題は、最初に掲げた「ブラックボックスな人たちの誤用あるいはおかしな作法」にも関係するが、応答変数が正規分布に従うことが自然に認められるケースでは、ロバスト標準偏差で対応したりする。一方、本書が扱うのは、もっと一般に、応答変数が正規分布に従うことが疑われる場合にも適用できる統計モデルの拡張である。
ここまではGLMによる推定に限定した話を紹介したが、本書はさらに、個体差が無視できない場合(過分散)に用いるGLMM、さらには、マルコフ連鎖モンテカルロ法(MCMC)によるベイズ統計モデルや、その拡張である階層ベイズモデルへと話が進む。取りあえずのゴールである階層ベイズモデルについては、『データ中の説明変数と応答変数を対応づける「回帰」を目的とした統計モデルとしては、「今どきのデータ解析なら、少なくともここまでは考慮しよう」といった標準になりうる考え方』だとしている。

今では「緑本」ともよばれ、データサイエンスの世界を目指す人にとって「最低限のライン」と言われたりすることもある書籍であり、将来、この世界に進みたい若い人や、かつての計量経済学的なスキルが朽ちかけている中高年世代など、多くの人に読まれるべきと思われる。

*1:さすがに応答変数(被説明変数)が二値を取るケースで直線回帰を行うようなことは、行われていない。

*2:通常の線形回帰では、最尤推定法の結果は最小二乗法の結果と一致する。本書では、対数尤度の式中に残差平方和が表れる点を含め、このことが丁寧に説明されている。

*3:ポワソン分布では、平均と分散の値は一致する。

*4:http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html

真の失業率──2018年6月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

6月の結果をみると、完全失業率(季節調整値)は2.4%と前月から0.2ポイント上昇したが、真の失業率は1.9%と前月から0.1ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。
なお、年齢階級別均衡労働力率を年1回改訂する現在の推計方法は、このところ、その上昇傾向に追いついていない。このため、中間改訂を7月結果公表時に行うことを検討する。

所定内給与と消費者物価の相関に関する5月までの結果は以下のようになる。物価および賃金はともに上昇基調である。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

真の失業率──2018年5月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

5月の結果をみると、完全失業率(季節調整値)は2.2%と前月から0.3ポイント低下、真の失業率も2.0%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。
なお、年齢階級別均衡労働力率を年1回改訂する現在の推計方法は、このところ、その上昇傾向に追いついていない。このため、中間改訂を7月結果公表時に行うことを検討する。それにしても、以前、NAIRU(インフレ率を加速させない失業率)を3.5%とする推計*2を行ったところ、「高すぎる、実際は2.8%程度」といった批判が聞かれたが、いまや完全失業率は2.2%。日本の自然失業率をめぐる議論は、最早「後出しじゃんけん」の様相である。

所定内給与と消費者物価の相関に関する4月までの結果は以下のようになる。物価および賃金はともに上昇基調である。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

*2:http://traindusoir.hatenablog.jp/entry/20130811/1376226968

真の失業率──2018年4月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

4月の結果をみると、完全失業率(季節調整値)は2.5%と前月と同水準、真の失業率は2.2%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。

所定内給与と消費者物価の相関に関する3月までの結果は以下のようになる。物価および賃金はともに上昇基調で、2月は給与が減少したものの、3月は元のトレンドに復帰した。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

伊藤公一朗『データ分析の力 因果関係に迫る思考法』

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

因果性と相関性を区別することの重要性は、近年、様々な書籍等で指摘されているが、本書もその一つ。著者はシカゴ大学助教授で、専門は計量経済学、特に環境政策・エネルギー政策の実証分析を行っているが、大学院生向けにデータ分析の理論と応用の講義も行う。

エビデンスの「質」が高い、すなわち因果性をより正確に捉えることができるデータ分析の手法として、ランダム化比較実験(RCT)が注目されているが(バナジー、デュフロ『貧乏人の経済学』、内閣府『経済財政白書におけるEBPMの手法』等)、本書の中心を占めるのも、RCTの手法と考え方、実際の分析事例などである*1。この他、RDデザイン(自然実験)、集積分析、パネル・データ分析についても取り上げるが、操作変数法、マッチング推定法等、数学的に高度な知識が要求される分析手法の説明は割愛されている。また、結果の有意性を判断するためには、統計的推定に関する一定の理解が必要であるが、この点に関する記述も割愛され、視覚的な結果の表現に留められている。

ビジネスや政策上の「介入」が意図した成果をもたらしているのか、データ分析をもとに判断する際、サンプルが持つ「介入」以外の他の属性の影響を除去することは、今や基本的な作法というに等しい*2。このため一般に行われるのが回帰分析である。ただし、回帰分析でできるのは、データから把握できる属性の影響を除去することであり、データから把握できない未知の属性の影響は、除去することができない。また、一般的に指摘されていることであるが、回帰分析からわかるのは、あくまでデータ間の相関性であり、因果性を捉えることはできない。

本書は、因果性を立証することが困難な理由として、①(「介入」以外の)他の属性の要因が影響していた可能性、②逆の因果関係だった可能性、の2つを指摘するが、この指摘は類書とも共通する。これらの問題を可能な限り除去し、「介入」の効果を判断可能にしてくれる分析手法として真っ先に紹介されるのがRCTである。

RCTでは、サンプルを「介入グループ」と「比較グループ」にランダムに振り分け、グループ間の平均値の差を取り、これを平均介入効果として測定する。この分析が意味を持つ上で前提となるのは、介入がなかった場合は介入グループと比較グループの平均値は等しくなるという仮定である。もし対象の振り分けがランダムではなく、例えば希望に応じて介入を与える場合、「自己選抜バイアス」が生じ、この仮定は成立しない。一方、ランダムに振り分けを行えば、(多数のサンプルを確保することで)大数の法則が働き、「自己選抜バイアス」に相当する部分のグループ間の平均値の差はゼロに収束する。

本書で紹介されるRCTの事例は米国のものが多いが、オバマ前大統領の選挙運営がウェブサイトの画面を決定する際、RCTを先行実施し、効果が大きかった組合せに決定したことなど興味を引くものが多い。RCTの実施には費用や労力、関係機関の協力など高いハードルがある。一方、本書の最後に紹介されるパネル・データ分析は、一部の分野ではデータの蓄積も進んでおり、RCTと比較すればハードルは小さい。ただしこの場合、介入がなかった場合は介入グループと比較グループの平均値は平行に推移する(平行トレンドの仮定)というより強い仮定が置かれる*3。また、本書では紹介されない操作変数法等の手法は、実施することのハードルは、さらに小さくなるものの、エビデンスの「質」は低下する。類書にない本書の優位性を一つあげるとすれば、米国の豊富なRCT実施事例を取り上げ、日本において同様の立場にある人に対して示唆を与えることで、実施の可能性を高めてくれることにあるだろう。

最後に上級編として、①データ自体に問題がある場合はすぐれた分析手法でも解決は難しい*4、②分析結果の「外的妥当性」という問題、③「出版バイアス」と「パートナーシップ・バイアス」という問題、④介入に「波及効果」がある場合の問題点、というデータ分析に関わる4つの問題が論じられる。RCTは、「介入」が持つサンプルに対する因果性という意味での「内的妥当性」については、非常に強く確保されていると言えるが、一方で、分析で使われたサンプル以外にも適用できるのか、という「外的妥当性」については、必ずしも十分に確保されるものではない。また、「パートナーシップ・バイアス」は、河本『会社を変える分析の力』を取り上げた際に触れた「間違った動機」に共通する問題である。

traindusoir.hatenablog.jp

ビジネス課題を解くことの正しい動機付けは、意思決定を支援することであり、一方で例えば「特定の意見を支持すること」は、間違った動機である。そうした場合、分析者は正に前述の「便利屋」に陥ることとなるだろう。

*1:巻末には、数学的な補足として、①RCTでは観測対象を「介入グループ」と「比較グループ」にランダムに振り分けることで、自己選抜バイアスをゼロに収束させること、②ランダム化は観測できない(実際には起こらなかった)属性にも同じ効果をもたらすこと、③ランダム化は平均値のみならず分布特性値にも同じ効果をもたらすこと、の証明が掲載されている。

*2:これ以外に、属性間の平均値の差が小さい場合、統計的推定の知識に則り、その差の有意性を確認すること(カイ二乗検定)等も、今や基本的な作法と言うに近いものがある。

*3:ここに紹介されているパネル・データ分析は、一般に固定効果モデルとよばれるもので、時点間の差をとることで固定効果(未知の属性を含む「介入」以外の他の属性による効果)を除去し、回帰分析を行う。この場合、固定効果は時間とともに変化しないことが前提となる。

*4:「ゴミデータ」問題。「ゴミ」を渡されて「何とかしろ」と言われても何ともならない、という問題か。

真の失業率──2018年3月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

3月の結果をみると、完全失業率(季節調整値)は2.5%と前月と同水準、真の失業率は2.4%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。

所定内給与と消費者物価の相関に関する2月までの結果は以下のようになる。物価および賃金はともに上昇基調であるものの、2月は給与が減少した。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。