統計的因果推論による因果効果を調べる手段として、傾向スコアとIPW推定量という概念があります。ここでは、なぜ傾向スコアを考えるのか、傾向スコアの逆数の重み付けはどのような意味があるのかを、複雑な数式を用いずに具体例を通してご説明します。

さっそくですが、次の具体例を考えます。

  • 受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか

このとき、下記のデータが得られたとします。塾に通う受験生を通学のA1~A4で表し、塾に通わない受験生を独学のB1~B2とします。

受験生 点数 勉強時間
通学 A1 60 1
A2 80 2
A3 80 2
A4 80 2
独学 B1 50 1
B2 70 2

このとき、通学者の平均点\overline{A}と独学者の平均点\overline{B}の差を求めてみます。

    \[\overline{A} = \frac{60+80+80+80}{4} = 75\]

    \[\overline{B} = \frac{50+70}{2} = 60\]

これにより、通学者の平均点と独学者の平均点の差は、15となりました。よって、塾に通うことにより点数が15点程度上がることが分かります。というような結論でよいのか、ということが因果推論の出発点になります。

上記データの点数は、種明かしをしますと、次のように作成しました。

  • 勉強時間が1ならば点数を50
  • 勉強時間が2ならば点数を70
  • 通学者ならば点数に10を加える
受験生 点数 勉強時間
通学 A1 60=50+10 1
A2 80=70+10 2
A3 80=70+10 2
A4 80=70+10 2
独学 B1 50=50+0 1
B2 70=70+0 2

つまり、単純に通学者の平均点と独学者の平均点の差を求めた結果(=15)は、塾に通うことの本当の効果10点よりも過大に評価されています。

では、なぜ過大に評価されてしまったのでしょうか。

最も本質的な理由は、問題設定と計算方法の相違にあります。問題設定は「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」でした。このとき、「受験生が塾に通う場合」が通学者の平均点、「受験生が塾に通わない場合」が独学者の平均点ととらえました。この点に隔たりが存在します。

この隔たりは、通学者と独学者、塾に通った点と塾に通わない点数の2×2の表にまとめると、状況が理解できます。

通学者 独学者
塾に通う場合の点数 通学者が塾に通う場合の点数 独学者が塾に通う場合の点数
塾に通わない場合の点数 通学者が塾に通わない場合の点数 独学者が塾に通わない場合の点数

この表から、問題設定「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」は、「塾に通う場合の点数」行と「塾に通わない場合の点数」行の比較です。しかし、上記で求めた通学者の平均点は「通学者が塾に通う場合の点数」、独学者の平均点は「独学者が塾に通わない場合の点数」であり、「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」が考慮されておりません。これが隔たりの正体になります。

しかし、このことがとても大きな問題になります。なぜならば、「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」は観測できないからです。

そこで、「受験生自体の能力は勉強時間でのみ決定される」という仮定を導入します。これは、上記で種明かしをした「勉強時間が1ならば点数を50」と「勉強時間が2ならば点数を70」に該当します。この仮定を導入すると、観測できない「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」が推測できるようになります。

塾に通う場合の点数は、次のようになります。観測できない独学者はB’1とB’2としました。観測できない独学者はB’1は、勉強時間が1かつ塾に通うため50+10=60になり、観測できない独学者はB’2は、勉強時間が2かつ塾に通うため70+10=80になります。

受験生 勉強時間 通学者が塾に通う場合の点数 独学者が塾に塾に通う場合の点数
A1 1 60
A2 2 80
A3 2 80
A4 2 80
B’1 1 60
B’2 2 80

同様に、塾に通わない場合の点数は次のようになります。観測できない通学者はA’1~A’4としました。観測できない通学者はA’1は、勉強時間が1かつ塾に通わないため50+0=50になり、観測できない通学者はA’2は、勉強時間が2かつ塾に通わないため70+0=70になります。

受験生 勉強時間 通学者が塾に通わない場合の点数 独学者が塾に通わない場合の点数
A’1 1 50
A’2 2 70
A’3 2 70
A’4 2 70
B1 1 50
B2 2 70

「塾に通う場合の点数」の勉強時間と「塾に通わない場合の点数」の勉強時間が同一の分布になっていることが重要になります。これにより、塾に通う場合の平均値\overline{A'}と塾に通わない場合の平均値\overline{B'}は次のように計算できます。

    \[\overline{A'} = \frac{60+80+80+80+60+80}{6} = 73.333\]

    \[\overline{B'} = \frac{50+70+70+70+50+70}{6} = 63.333\]

よって、問題設定「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」は、塾に通うと10点ほど高くなる効果が見込めるとなり、種明かしに記載した数値と同じになりました。

長々と説明してきましたが、この中にすでに傾向スコアの意味や、傾向スコアの逆数の重み付けの意味が隠されております。上記のデータにおける傾向スコアを求めてみます。

勉強時間が1の傾向スコアは、受験生A1とB1から通学である場合の確率なので、1/2=0.5となります。

勉強時間が2の傾向スコアは、受験生A1~A4とB1から通学である場合の確率なので、3/4=0.75となります。

傾向スコアをまとめると、次のようになります。

  • 勉強時間が1の傾向スコアは、0.5
  • 勉強時間が2の傾向スコアは、0.75

このとき、塾に通う場合の点数は、通学者が塾に通う場合の点数と傾向スコアで、次のように表すことができます。この表と上記の塾に通う場合の点数の表を見比べてみると、26.666×3=80とすると、同じことを計算していることが分かります。つまり、通学者が塾に通う場合の点数/傾向スコアは、通学者が塾に通う場合の点数と独学者が塾に塾に通う場合の点数の一人当たりの合計であることが分かります。

受験生 勉強時間 通学者が塾に通う場合の点数/傾向スコア
A1 1 \frac{60}{0.5}=120=60+60
A2 2 \frac{80}{0.75}=106.666=80+26.666
A3 2 \frac{80}{0.75}=106.666=80+26.666
A4 2 \frac{80}{0.75}=106.666=80+26.666

また、人数Nも、傾向スコアによって次のように表すことができます。

    \[N = \frac{1}{0.5} + \frac{1}{0.75} + \frac{1}{0.75} + \frac{1}{0.75} = 2 + 1.333 + 1.333 + 1.333 = 6\]

同様に、塾に通わない場合の点数は、独学者が塾に通わない場合の点数と傾向スコアで、次のように表すことができます。この表と上記の塾に通わない場合の点数の表を見比べてみると、同じことを計算していることが分かります。つまり、独学者が塾に通わない場合の点数/傾向スコアは、通学者が塾に通わない場合の点数と独学者が塾に通わない場合の点数の一人当たりの合計であることが分かります。

受験生 勉強時間 独学者が塾に通わない場合の点数/傾向スコア
B1 1 \frac{50}{1-0.5}=100=50+50
B2 2 \frac{70}{1-0.75}=270=70+70*3

この場合の人数Nも同様に傾向スコアによって次のように表すことができます。

    \[N = \frac{1}{1-0.5} + \frac{1}{1-0.75} = 2 + 4 = 6\]

これらを数学的にまとめますと、因果効果\tauは処置z_iおよび観測結果y_i、傾向スコアe_i、サンプル数Nを用いて次のように表すことができます。これは、結局のところ、分母は人数を表しており、処置ありの分子は処置ありと処置ありから処置なしの推測を含めた値の合計、処置なしの分子は処置なしと処置なしから処置ありの推測を含めた合計値であることが分かります。

    \[\tau = \frac{\sum_{i=1}^{N}\frac{z_i y_i}{e_i}}{\sum_{i=1}^{N} \frac{z_i}{e_i}} - \frac{\sum_{i=1}^{N} \frac{(1-z_i)y_i}{1-e_i}}{\sum_{i=1}^{N} \frac{1-z_i}{1-e_i}}\]

以上、統計的因果推論による傾向スコアとIPW推定量の理解についてお役に立てましたら幸いです。

関連する記事

  • 地図で見る石川県金沢市の施設分布地図で見る石川県金沢市の施設分布 石川県金沢市にある施設を地図上にプロットしたものをご紹介する。現在、コンビニ、スーパーマーケット、美容院・理容院、病院および診療所の診療科別の分布だけ載せているが今後拡充していく予定である。エリアマーケティングなどの参考にしていただければ幸いだ。 コンビニ スーパーマーケット 洗濯・理容・美容・浴場業 美容院・理容院 エステサロン ネイルサロン […]
  • Googleアナリティクスとコレスポンデンス分析を用いた年齢別のユーザー像の捉え方Googleアナリティクスとコレスポンデンス分析を用いた年齢別のユーザー像の捉え方 ページビュー数やコンバージョン率を上げるためには、良質なコンテンツが大切であるとよく言われる。そして、良質なコンテンツを作成するためには、ユーザー像を具体的に思い描き、そのユーザーに向けてコンテンツを作成しなくてはならない。 ここでは、ページビュー数から年齢とページの関係性を視覚的に確認し、年齢別にユーザーがどのコンテンツに興味を抱くか、その傾向を探っていく。この傾向が […]
  • R言語 CRAN Task View:経験的ファイナンスR言語 CRAN Task View:経験的ファイナンス CRAN Task View: Empirical Financeの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: Dirk Eddelbuettel Contact: Dirk.Eddelbuettel at […]
  • Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順 Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順をご紹介する。 1. […]
  • UbuntuにRStudioをインストールするための手順UbuntuにRStudioをインストールするための手順 Ubuntuにデスクトップ版のRStudioをインストールするための手順をお伝えする。 まず、Ubuntuが32bitか64bitかを確認するため、端末を起動させ(ショートカットキー:Ctrl+Alt+t)、以下のコマンドを実行する。 i686、i386と表示されれば32bit、x86_64、amd64と表示されれば64bitということである。 $ […]
統計的因果推論による傾向スコアとIPW推定量の基本的な考え方