機械の中の学習日誌

社畜によるIT技術メモです。今日も元気です。

「データ分析の力 因果関係に迫る思考法」メモ

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

  • 作者:伊藤 公一朗
  • 出版社/メーカー: 光文社
  • 発売日: 2017/04/18
  • メディア: 新書

数式はほとんど出てこないので、データ分析の初学者が読むには最適な本でした。 読んだのでメモっておく。

データから因果関係を導くことの難しさ

  • データ分析の目的は、ある要素Xが結果Yに影響を与えたのか?というX⇒yの因果関係追及に行きつくことが多い
  • 因果関係は、XとYが相互に関係しているだけの相関関係とは全く異なる
  • バイアス:分析で得られた推定量の偏り。ビッグデータとなっても因果関係を分析する際のバイアスに関しては正確ではない。

因果関係を導くための手法

RCT(ランダム化比較試験、Randomized Controlled Trial)

ABテストともいう。因果関係導くための最良の手法。

RCTの鉄則

  1. 分析で明らかにしたい因果関係を計測できるような適切なグループづくりをする。比較グループを設けることは不可欠
  2. グループ分けは必ずランダムに行う
  3. 各グループに十分なサンプル数を振り分ける

RCTの強み

  1. 因果関係が科学的に示せること
  2. 分析手法や結果に透明性があること

RCTの弱み

  1. 実験にあたって費用・労力・時間・各機関の協力が必要

自然実験(Natural Experiment)

RCTができない場合の手法。まるで実験が起こったかのような状況をうまく利用する考え方。

RDデザイン (Regression Discontinuity Design)

回帰不連続設計法

世の中に存在する「境界線」をうまく使うと、だれも実験をしたわけではないのに「あたかも実験が起こったような状態」を考えることができるという方法。

境界線の例:地理的な境界線、企業が設定する価格が急に変化する点、政府の補助金がある年齢を境に変化する点など

RDデザインの鉄則

  1. 「境界線」を境に1つの要素(X)のみが非連続的に変化する状況を見つけ出す。

  2. 境界線付近でX以外の要素が非連続的に変化していないかのチェックを行う。

RDデザインの強み

  1. 仮説が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる。

  2. 主要な結果を用いて示せることで、分析者以外に対しても理解がしやすく、透明性のある分析ができる。

  3. RDデザインを利用できる「境界線」はビジネスや政策の様々な場所・場面に存在するため、RCTが実施できない際に有効な分析手法のひとつ。

RDデザインの弱み

  1. RDデザインに必要な仮定は、成り立つであろう根拠を示すことは出来るが、成り立つことを立証はできず、この点はRCTに比べて大きな弱点。

  2. 境界付近のデータに対しての因果関係しか主張できないため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける面がある。

積分析(Bunching Analysis)

階段状の変化を賢く利用することで「あたかも実験が起こったような状態」を考える。

例:累進課税を採用している所得税、給与体系、政府による規制値の変わり方、企業による価格設計など

積分析の鉄則

  1. 何らかのインセンティブ(商品の価格や割引、所得税などの税金、政府からの補助金など)が階段状であることを分析に利用できないか検討する。

  2. 階段状で変化するのは分析で明らかにしたい要素(X)だけであり、他の要素は階段状の境界点付近で非連続的に変化しないことを確かめる。

  3. インセンティブが大きく変わる境界点でのデータの集積を分析することで人々や企業がインセンティブの変化に反応した因果関係を検証する。

積分析の強み

  1. 分析に必要な仮定が成り立てば、境界線付近であたかもRCTが起こったかのような状況を利用できる。

  2. 図を用いて結果をビジュアルに示せることで、分析者以外にも透明性のある分析ができる。

  3. 「階段状にインセンティブが変化する状況」はビジネスや政策の様々な場所・場面に存在するため、RCTが実施できない際に有効な分析手法の一つである。

積分析の弱み

  1. 分析上の仮定は、成り立つであろう根拠を示すことは出来るが立証は出来ず、この点はRCTに比べて大きな弱点。

  2. あくまでも階段状に変化するインセンティブに反応した主体(集積をした主体)に対しての因果関係しか分析できない。そのため、実験参加者すべてに対しての因果関係を分析できるRCTに比べて有用性に欠ける面がある。

パネル・データ分析 (Panel Data Method)

「データが複数期間、複数個人に対して存在する」ことを利用

例:広告出費データ、売り上げデータ、職員の労働時間のデータ、学生の成績データ

パネル・データ分析の鉄則

  1. 介入が起こった時期の前後のデータが、介入グループと比較グループの両方について入手できるか確認する。

  2. 「平行トレンドの仮定」*1が成り立つかどうかの検証を行う。

  3. 並行トレンドの仮定が成り立つ可能性が高いと判断できた場合、2つのグループの平均値の推移をグラフ化することで介入効果の平均値の測定を行う。

パネル・データ分析の強み

  1. 必要なデータの収集が可能であれば、RCデザインや集積分析以上に広範囲な状況に利用できる可能性が高い。

  2. 図を用いて結果をビジュアルに示せることで、分析者意外にも透明性のある分析ができる

  3. 介入グループに属するすべての主体に対して介入効果の分析が可能である。この点は、分析できる対象の範囲が狭いRDデザインや集積分析に比べて優れた点である。

パネル・データ分析の弱み

  1. 分析上の仮定は、成立するであろう根拠を示すことは出来るが、立証は出来ず、この点はRCTに比べて大きな弱点といえる

  2. RDデザインや集積分析における仮定に比べ「並行トレンドの仮定」は非常に難しい家庭であり、実際には成り立たない状況も多い。

データ分析の不完全性や限界

  • どのようなデータ分析にも不完全性や限界があることを認識しておくことが重要
  • データ分析の結果が分析で対象とされた主体以外へも適用可能なのか、という「外的妥当性」の問題は非常に重要であり、外的妥当性と内的妥当性*2の両方を加味した場合、どの分析手法が優れているかは状況によって異なってくる
  • データ分析の結果には「出版バイアス*3」や「パートナーシップバイアス*4」という問題が出てくるため、データ分析者やデータ分析のパートナーの意に沿わない結果は世の中に出てきにくい、という問題が生じる。
  • 介入グループに施した介入が比較グループへも「波及効果」を持つ場合は注意が必要である
  • 介入が一般均衡的な効果*5を生み出す場合、小規模の実験の結果と大規模な政策の結果が異なる場合があり得るので、RCTや自然実験で得られた成果を大規模な介入の導入へ生かす際には熟慮が必要である。

*1:もしも介入が起こらなかった場合、介入グループの平均的結果({ Y_T})と比較グループの平均的結果({Y_C})は平行に推移する。

*2:分析対象と同じ集団に対して同様の介入を行った場合、同等の結果が再現される程度

*3:例えば因果関係なしの結果を論文として世に出したくないなってなること

*4:パートナー選びが分析の外敵妥当性に影響を与えてしまうこと

*5:一般均衡:需要と供給が同時に均衡している状態。本書の例でいうと、少人数学級の実施をカリフォルニア州全域で行うことで、先生が不足し、需要と供給が崩れたため、均衡を保つためにこれまで採用されなかった先生を雇うなどすること