ラスカルの備忘録

ー 経済概観、読書記録等 ー

真の失業率──2018年4月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

4月の結果をみると、完全失業率(季節調整値)は2.5%と前月と同水準、真の失業率は2.2%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。

所定内給与と消費者物価の相関に関する3月までの結果は以下のようになる。物価および賃金はともに上昇基調で、2月は給与が減少したものの、3月は元のトレンドに復帰した。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

伊藤公一朗『データ分析の力 因果関係に迫る思考法』

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

因果性と相関性を区別することの重要性は、近年、様々な書籍等で指摘されているが、本書もその一つ。著者はシカゴ大学助教授で、専門は計量経済学、特に環境政策・エネルギー政策の実証分析を行っているが、大学院生向けにデータ分析の理論と応用の講義も行う。

エビデンスの「質」が高い、すなわち因果性をより正確に捉えることができるデータ分析の手法として、ランダム化比較実験(RCT)が注目されているが(バナジー、デュフロ『貧乏人の経済学』、内閣府『経済財政白書におけるEBPMの手法』等)、本書の中心を占めるのも、RCTの手法と考え方、実際の分析事例などである*1。この他、RDデザイン(自然実験)、集積分析、パネル・データ分析についても取り上げるが、操作変数法、マッチング推定法等、数学的に高度な知識が要求される分析手法の説明は割愛されている。また、結果の有意性を判断するためには、統計的推定に関する一定の理解が必要であるが、この点に関する記述も割愛され、視覚的な結果の表現に留められている。

ビジネスや政策上の「介入」が意図した成果をもたらしているのか、データ分析をもとに判断する際、サンプルが持つ「介入」以外の他の属性の影響を除去することは、今や基本的な作法というに等しい*2。このため一般に行われるのが回帰分析である。ただし、回帰分析でできるのは、データから把握できる属性の影響を除去することであり、データから把握できない未知の属性の影響は、除去することができない。また、一般的に指摘されていることであるが、回帰分析からわかるのは、あくまでデータ間の相関性であり、因果性を捉えることはできない。

本書は、因果性を立証することが困難な理由として、①(「介入」以外の)他の属性の要因が影響していた可能性、②逆の因果関係だった可能性、の2つを指摘するが、この指摘は類書とも共通する。これらの問題を可能な限り除去し、「介入」の効果を判断可能にしてくれる分析手法として真っ先に紹介されるのがRCTである。

RCTでは、サンプルを「介入グループ」と「比較グループ」にランダムに振り分け、グループ間の平均値の差を取り、これを平均介入効果として測定する。この分析が意味を持つ上で前提となるのは、介入がなかった場合は介入グループと比較グループの平均値は等しくなるという仮定である。もし対象の振り分けがランダムではなく、例えば希望に応じて介入を与える場合、「自己選抜バイアス」が生じ、この仮定は成立しない。一方、ランダムに振り分けを行えば、(多数のサンプルを確保することで)大数の法則が働き、「自己選抜バイアス」に相当する部分のグループ間の平均値の差はゼロに収束する。

本書で紹介されるRCTの事例は米国のものが多いが、オバマ前大統領の選挙運営がウェブサイトの画面を決定する際、RCTを先行実施し、効果が大きかった組合せに決定したことなど興味を引くものが多い。RCTの実施には費用や労力、関係機関の協力など高いハードルがある。一方、本書の最後に紹介されるパネル・データ分析は、一部の分野ではデータの蓄積も進んでおり、RCTと比較すればハードルは小さい。ただしこの場合、介入がなかった場合は介入グループと比較グループの平均値は平行に推移する(平行トレンドの仮定)というより強い仮定が置かれる*3。また、本書では紹介されない操作変数法等の手法は、実施することのハードルは、さらに小さくなるものの、エビデンスの「質」は低下する。類書にない本書の優位性を一つあげるとすれば、米国の豊富なRCT実施事例を取り上げ、日本において同様の立場にある人に対して示唆を与えることで、実施の可能性を高めてくれることにあるだろう。

最後に上級編として、①データ自体に問題がある場合はすぐれた分析手法でも解決は難しい*4、②分析結果の「外的妥当性」という問題、③「出版バイアス」と「パートナーシップ・バイアス」という問題、④介入に「波及効果」がある場合の問題点、というデータ分析に関わる4つの問題が論じられる。RCTは、「介入」が持つサンプルに対する因果性という意味での「内的妥当性」については、非常に強く確保されていると言えるが、一方で、分析で使われたサンプル以外にも適用できるのか、という「外的妥当性」については、必ずしも十分に確保されるものではない。また、「パートナーシップ・バイアス」は、河本『会社を変える分析の力』を取り上げた際に触れた「間違った動機」に共通する問題である。

traindusoir.hatenablog.jp

ビジネス課題を解くことの正しい動機付けは、意思決定を支援することであり、一方で例えば「特定の意見を支持すること」は、間違った動機である。そうした場合、分析者は正に前述の「便利屋」に陥ることとなるだろう。

*1:巻末には、数学的な補足として、①RCTでは観測対象を「介入グループ」と「比較グループ」にランダムに振り分けることで、自己選抜バイアスをゼロに収束させること、②ランダム化は観測できない(実際には起こらなかった)属性にも同じ効果をもたらすこと、③ランダム化は平均値のみならず分布特性値にも同じ効果をもたらすこと、の証明が掲載されている。

*2:これ以外に、属性間の平均値の差が小さい場合、統計的推定の知識に則り、その差の有意性を確認すること(カイ二乗検定)等も、今や基本的な作法と言うに近いものがある。

*3:ここに紹介されているパネル・データ分析は、一般に固定効果モデルとよばれるもので、時点間の差をとることで固定効果(未知の属性を含む「介入」以外の他の属性による効果)を除去し、回帰分析を行う。この場合、固定効果は時間とともに変化しないことが前提となる。

*4:「ゴミデータ」問題。「ゴミ」を渡されて「何とかしろ」と言われても何ともならない、という問題か。

真の失業率──2018年3月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

3月の結果をみると、完全失業率(季節調整値)は2.5%と前月と同水準、真の失業率は2.4%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。現推計時点において、真の失業率は基準年*1である1992年より改善していることとなる。

所定内給与と消費者物価の相関に関する2月までの結果は以下のようになる。物価および賃金はともに上昇基調であるものの、2月は給与が減少した。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

*1:本推計において完全雇用が達成しているとみなす年。

野崎昭弘『「P≠NP」問題 現代数学の超難問』

 

「P≠NP」問題 現代数学の超難問 (ブルーバックス)

「P≠NP」問題 現代数学の超難問 (ブルーバックス)

 
  • チューリングは、人間が客観的な手順で行う情報処理は、チューリング機械により代行できると主張。また、ヒルベルトのいう決定問題には、一般的な解法が存在しないことがあり得ることを証明。例えば、不定方程式の解の存在を判定する一般的な方法は存在しない(第10問題)、②ある言語で書かれたプログラムに、あるデータを与えたとき、そのプログラムが有限時間内に停止するか否かを判定するプログラムは、その言語で書くことはできない(停止問題)。
  • ある特定のチューリング機械で、どんなチューリング機械の動作をも忠実に再現できるものがある(万能チューリング機械)。
  • 線形計画法は、古くからEXPに属することは知られていたが、1979年にカチアンが新しいアルゴリズムを発表し、Pに属することが判明。
  • 非決定性アルゴリズムでは、決定問題に対し、非決定論的(Non-deterministic)な選択を許す、つまり、幾つかの操作から一つを選ぶところで、どんな条件でどれを選ぶかを指定せず、ランダムに選ばせる、②計算量は、最も運がよい場合で数える、③答えがNOの場合は無視してよい。(一定回数の試行で終了)
  • NPクラスの問題は、非決定性アルゴリズムで、多項式時間(Polynomial time)で解ける。PがNPに含まれるのは確実。NPでかつPではない問題は、一つも見つかっていない。
  • ある問題QがNP完全であるとは、QはクラスNPに属している、②クラスNPに属しているどんな問題Xのどんな具体例αも、ある一般的な手順で問題Qのある具体例βに翻訳でき、その翻訳の手順はαのサイズの多項式時間で抑えられ、しかもαに対する答えがYESかNOかは、βに対する答えがYESかNOかに必ず一致する。
  • P=NPであるための必要十分条件は、あるNP完全な問題Qが、クラスPに属していることである。

河本薫『会社を変える分析の力』

会社を変える分析の力 (講談社現代新書)

会社を変える分析の力 (講談社現代新書)

 

著者は、大阪ガスで各種課題解決支援を手がける分析専門組織ビジネスアナリシスセンターの所長で、日経情報ストラテジー「データサイエンティスト・オブ・ザ・イヤー」の初代受賞者(2013年)。米国の研究所でデータ分析に従事した経験があり、2005年には大阪大学で博士号(工学)を取得、神戸大学経済学部の講師も務める。
本書で著者が一貫して主張するのは、ビジネスデータ分析を行う上で分析者が持つべきマインドであるが、分析者に限らず、むしろビジネスに携わる者すべてが参考とすべきものであるとの印象を受けた。「はじめに」で、著者はその経験をつぎのように述べる。

じつは私も、10年前まではデータ分析=数値計算ぐらいに思っていました。社内ではデータ分析のエキスパートのようにみなされ、「彼に頼めばどんなデータ分析もやってくれる」と重宝がられました。
しかし、あるときに「お前はまるでデータ分析の便利屋だな」と言われてから、自分の存在意義について疑問を持つようになりました。そんなとき、米国ローレンスバークレー研究所で仕事をする機会に恵まれました。黙々とデータ分析をこなす私に対して、米国人上司から「私はあなたに数値計算を期待しているのではない。分析を期待しているのだ」と諭されました。それを機会に、データ分析に関する考え方が大きく変わりました。それまで、データ分析の主役は高度な数値計算と思っていたのですが、それらは手段に過ぎない、単純な集計で十分ならばそれでいい。大切なのは、意思決定に役立つことなのです。それまで、周囲から便利屋扱いされていた理由もわかりました。私は、データ分析の仕事をしていたのではなく、データ分析に必要な行為(数値計算)を得意としているに過ぎなかったのです。

前述のマインドが生まれた背景には、こうした異文化との接触があったことがわかる。この後、一貫して主張するのは、いずれも「市場」というか、そうした場での他者との接触において生じ得るマインド・セットであり、(日本的な)組織の内部からは、(それ自体、単純なものであっても)なかなか見えてこないもののように思える。

分析の「価値」とは?

著者はまず、分析の「価値」をつぎのように整理する。

「分析の価値」=「意思決定への寄与度」×「意思決定の重要性」

意思決定とは、「経営、投資、営業、調達、オペレーションなどあらゆる局面における意思決定」を指す。高度な分析手法や大規模なデータを扱うことは、それ自体、価値を持つわけではない。投資額が巨大であるなど重要な意思決定において、分析結果が重要な材料とされることで、始めて価値を持つことになる。価値ある分析結果を作り出す上で分析者に必要なことは、①ビジネス課題を見つけ、②データ分析で分析課題を解き、③数値解をビジネスの意思決定において使わせることである。本書の第2章では、そのために必要な能力について具体的に論じられ、さらに第3章では、正しい心構えや習慣付けが論じられる。
ビジネス課題を解くことの正しい動機付けは、意思決定を支援することであり、一方で例えば「特定の意見を支持すること」は、間違った動機である。そうした場合、分析者は正に前述の「便利屋」に陥ることとなるだろう。

たとえば、投資判断のためのデータ分析において、あらかじめ投資することは決めており、それを正当化するために分析をする。たとえば、販売量予測において、増加傾向になるような結果のほうが上司にほめられるので、増加傾向になるような結果を出すよう分析する。これでは本末転倒です。悩ましい意思決定を決めるためにデータを分析するのに、すでに意思決定が決まった後で、データ分析をするのですから。

さらに、分析者が持つべき良い習慣づけとして、以下の九ヵ条をあげる。

  1. ビジネスの現場に出て、ビジネス担当者とコミュニケーションすることで、「チャンス」、「ヒント」、「ゴール」を見つけることができる
  2. 整理整頓を心がける
  3. ちょっとした質問を投げかけることで、分析者自身「分析ストーリー」が明確に描けているかがわかる
  4. データをビジュアル化する(結果の数値だけで判断しない)
  5. 他人のデータを疑う
  6. 単純なほどすばらしい
  7. 「ざっくり理解」ができるようになる*1
  8. 文章を書く(プレゼンテーション用の資料だけでは、「理解した気分」だけになる可能性)
  9. うまくいかなければ、分析の「目的」に立ち返る

分析モデルの限界

本書は、こうした分析者が持つべきマインドに関する内容が大宗を占めるが、分析結果をみる上で重要なポイントもいくつか述べられる。まず、どんな分析でも「分析モデル」を使うが、これは現実の問題を単純な問題に変換したものであり、数値計算結果の解釈を通じ、現実世界における解が導かれる。分析者は、分析モデルがどのような前提に立っているか、常に意識する必要がある。また、分析モデルから現実を再現することはできない。

分析モデルに関する最大の勘違いは、分析モデルを作り込めば現実をほぼ再現できるという思い込みです。エマニュエル・ダーマンは、著書”Models. Behaving. Badly.”の中で、分析モデルを模型飛行機のようなものと表現し、多くの分析者は、分析モデルという模型飛行機と実際の飛行機を区別できていないと述べています。分析モデルとは、プラモデルのようなものに過ぎないのです。

また、データ量が増えることだけでビジネスイノベーションを起こせるようになるわけでもない。ビッグデータもまた「いわば表面は実物と同じくらい精巧だが中身は空洞のプラモデル」に過ぎない。

ビクター・マイヤー=ショーンベルガーとケネス・クキエは、著書”Big Data : A Revolution That Will Transform How We Live, Work, and Think”の中で、ビッグデータの本質について、「部分計測から全数計測へ(from some to all)」という言葉で言い表しています。従来は、大量のデータを扱えなかったので、母集団の一部だけをサンプリングしてデータを計測していました(部分計測)。現在は、大量データを扱えるので、母集団のすべてをデータ計測できるのです(全数計測)。(中略)
たとえば、顧客に推薦する商品を決める場合、部分計測の世界では、アンケート調査などにより、「年齢が上がると、商品Aよりも商品Bを好む傾向にある」「所得が増えると、商品Cよりも商品Dを好む傾向にある」などの因果関係を検証し、それに従って顧客に推薦する商品を決めてきました。一方、全数計測の世界では、顧客間で購買行動の類似度を検証し(相関分析)、ある顧客に推薦する商品を決める場合には、その顧客と購買行動が類似している顧客が購買している商品とすれば良いのです。アマゾンは、この方法で顧客に商品を推薦し(リコメンデーション機能)、売り上げを伸ばしているのです。
(中略)但し、因果関係はわかりません。予測や判別の精度と分解能は高くなりますが、その根拠はわからないのです。

さらに言えば、ビジネス課題の解決にデータ分析を用いる場合、そもそもデータの存在を認識する必要がある。著者によれば、活用できる(社外)データは増え、その収集コストも低下しているとのことであるが、分析者にとっては、データの存在を認識し、アクセスできるようにすることもまた最初の一歩であり、このことが「躓きの石」となる可能性もあるだろう。

*1:フェルミ推定ができることは、これに該当するだろう。

真の失業率──2018年2月までのデータによる更新

完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。

2月の結果をみると、完全失業率(季節調整値)は2.5%と前月から0.1ポイント上昇したが、真の失業率は2.6%と前月から0.2ポイント低下した。引き続き、真の失業率は減少基調である。

所定内給与と消費者物価の相関については、毎月勤労統計調査のサンプル替えに伴い、1月分確報の公表が遅れるため、今回は分析しない。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0

真の失業率──2018年1月までのデータによる更新

 完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。今回は、推計の基礎となる潜在的労働力率を2017年まで延長推計た上で、2018年1月までの結果を過去に遡って再計算した。

 まず、年間の結果をみると、足許の2017年の真の失業率は3.2%で、前年よりも0.8ポイント低下した。また、公表値の完全失業率2.8%に対して0.4ポイントの開きがある。前回の推計値と比較すると、潜在的労働力率が変化したことにより、真の失業率は上振れしている(2016年の値で約0.4ポイント程度の上振れ)。改訂による年齢階級別潜在的労働力率の上昇幅は引き続き大きい。

 つぎに、1月の結果をみると、完全失業率(季節調整値)は2.4%と前月から0.3ポイント低下、真の失業率(改訂後)も2.8%と前月から0.1ポイント低下した。引き続き、真の失業率は減少基調である。(12月の真の失業率は、前回は2.1%としていたが、改訂により足許で0.7ポイント程度上振れし2.9%となった。)

 所定内給与と消費者物価の相関に関する12月までの結果は以下のようになる。物価および賃金はともに上昇基調である。

https://www.dropbox.com/s/fixt1abitfo58ee/nbu_ts.csv?dl=0