統計的因果推論による因果効果を調べる手段として、傾向スコアとIPW推定量という概念があります。ここでは、なぜ傾向スコアを考えるのか、傾向スコアの逆数の重み付けはどのような意味があるのかを、複雑な数式を用いずに具体例を通してご説明します。

さっそくですが、次の具体例を考えます。

  • 受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか

このとき、下記のデータが得られたとします。塾に通う受験生を通学のA1~A4で表し、塾に通わない受験生を独学のB1~B2とします。

受験生 点数 勉強時間
通学 A1 60 1
A2 80 2
A3 80 2
A4 80 2
独学 B1 50 1
B2 70 2

このとき、通学者の平均点\overline{A}と独学者の平均点\overline{B}の差を求めてみます。

    \[\overline{A} = \frac{60+80+80+80}{4} = 75\]

    \[\overline{B} = \frac{50+70}{2} = 60\]

これにより、通学者の平均点と独学者の平均点の差は、15となりました。よって、塾に通うことにより点数が15点程度上がることが分かります。というような結論でよいのか、ということが因果推論の出発点になります。

上記データの点数は、種明かしをしますと、次のように作成しました。

  • 勉強時間が1ならば点数を50
  • 勉強時間が2ならば点数を70
  • 通学者ならば点数に10を加える
受験生 点数 勉強時間
通学 A1 60=50+10 1
A2 80=70+10 2
A3 80=70+10 2
A4 80=70+10 2
独学 B1 50=50+0 1
B2 70=70+0 2

つまり、単純に通学者の平均点と独学者の平均点の差を求めた結果(=15)は、塾に通うことの本当の効果10点よりも過大に評価されています。

では、なぜ過大に評価されてしまったのでしょうか。

最も本質的な理由は、問題設定と計算方法の相違にあります。問題設定は「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」でした。このとき、「受験生が塾に通う場合」が通学者の平均点、「受験生が塾に通わない場合」が独学者の平均点ととらえました。この点に隔たりが存在します。

この隔たりは、通学者と独学者、塾に通った点と塾に通わない点数の2×2の表にまとめると、状況が理解できます。

通学者 独学者
塾に通う場合の点数 通学者が塾に通う場合の点数 独学者が塾に通う場合の点数
塾に通わない場合の点数 通学者が塾に通わない場合の点数 独学者が塾に通わない場合の点数

この表から、問題設定「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」は、「塾に通う場合の点数」行と「塾に通わない場合の点数」行の比較です。しかし、上記で求めた通学者の平均点は「通学者が塾に通う場合の点数」、独学者の平均点は「独学者が塾に通わない場合の点数」であり、「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」が考慮されておりません。これが隔たりの正体になります。

しかし、このことがとても大きな問題になります。なぜならば、「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」は観測できないからです。

そこで、「受験生自体の能力は勉強時間でのみ決定される」という仮定を導入します。これは、上記で種明かしをした「勉強時間が1ならば点数を50」と「勉強時間が2ならば点数を70」に該当します。この仮定を導入すると、観測できない「独学者が塾に通う場合の点数」と「通学者が塾に通わない場合の点数」が推測できるようになります。

塾に通う場合の点数は、次のようになります。観測できない独学者はB’1とB’2としました。観測できない独学者はB’1は、勉強時間が1かつ塾に通うため50+10=60になり、観測できない独学者はB’2は、勉強時間が2かつ塾に通うため70+10=80になります。

受験生 勉強時間 通学者が塾に通う場合の点数 独学者が塾に塾に通う場合の点数
A1 1 60
A2 2 80
A3 2 80
A4 2 80
B’1 1 60
B’2 2 80

同様に、塾に通わない場合の点数は次のようになります。観測できない通学者はA’1~A’4としました。観測できない通学者はA’1は、勉強時間が1かつ塾に通わないため50+0=50になり、観測できない通学者はA’2は、勉強時間が2かつ塾に通わないため70+0=70になります。

受験生 勉強時間 通学者が塾に通わない場合の点数 独学者が塾に通わない場合の点数
A’1 1 50
A’2 2 70
A’3 2 70
A’4 2 70
B1 1 50
B2 2 70

「塾に通う場合の点数」の勉強時間と「塾に通わない場合の点数」の勉強時間が同一の分布になっていることが重要になります。これにより、塾に通う場合の平均値\overline{A'}と塾に通わない場合の平均値\overline{B'}は次のように計算できます。

    \[\overline{A'} = \frac{60+80+80+80+60+80}{6} = 73.333\]

    \[\overline{B'} = \frac{50+70+70+70+50+70}{6} = 63.333\]

よって、問題設定「受験生が塾に通う場合と通わない場合で、テストの点数がどの程度異なるのか」は、塾に通うと10点ほど高くなる効果が見込めるとなり、種明かしに記載した数値と同じになりました。

長々と説明してきましたが、この中にすでに傾向スコアの意味や、傾向スコアの逆数の重み付けの意味が隠されております。上記のデータにおける傾向スコアを求めてみます。

勉強時間が1の傾向スコアは、受験生A1とB1から通学である場合の確率なので、1/2=0.5となります。

勉強時間が2の傾向スコアは、受験生A1~A4とB1から通学である場合の確率なので、3/4=0.75となります。

傾向スコアをまとめると、次のようになります。

  • 勉強時間が1の傾向スコアは、0.5
  • 勉強時間が2の傾向スコアは、0.75

このとき、塾に通う場合の点数は、通学者が塾に通う場合の点数と傾向スコアで、次のように表すことができます。この表と上記の塾に通う場合の点数の表を見比べてみると、26.666×3=80とすると、同じことを計算していることが分かります。つまり、通学者が塾に通う場合の点数/傾向スコアは、通学者が塾に通う場合の点数と独学者が塾に塾に通う場合の点数の一人当たりの合計であることが分かります。

受験生 勉強時間 通学者が塾に通う場合の点数/傾向スコア
A1 1 \frac{60}{0.5}=120=60+60
A2 2 \frac{80}{0.75}=106.666=80+26.666
A3 2 \frac{80}{0.75}=106.666=80+26.666
A4 2 \frac{80}{0.75}=106.666=80+26.666

また、人数Nも、傾向スコアによって次のように表すことができます。

    \[N = \frac{1}{0.5} + \frac{1}{0.75} + \frac{1}{0.75} + \frac{1}{0.75} = 2 + 1.333 + 1.333 + 1.333 = 6\]

同様に、塾に通わない場合の点数は、独学者が塾に通わない場合の点数と傾向スコアで、次のように表すことができます。この表と上記の塾に通わない場合の点数の表を見比べてみると、同じことを計算していることが分かります。つまり、独学者が塾に通わない場合の点数/傾向スコアは、通学者が塾に通わない場合の点数と独学者が塾に通わない場合の点数の一人当たりの合計であることが分かります。

受験生 勉強時間 独学者が塾に通わない場合の点数/傾向スコア
B1 1 \frac{50}{1-0.5}=100=50+50
B2 2 \frac{70}{1-0.75}=270=70+70*3

この場合の人数Nも同様に傾向スコアによって次のように表すことができます。

    \[N = \frac{1}{1-0.5} + \frac{1}{1-0.75} = 2 + 4 = 6\]

これらを数学的にまとめますと、因果効果\tauは処置z_iおよび観測結果y_i、傾向スコアe_i、サンプル数Nを用いて次のように表すことができます。これは、結局のところ、分母は人数を表しており、処置ありの分子は処置ありと処置ありから処置なしの推測を含めた値の合計、処置なしの分子は処置なしと処置なしから処置ありの推測を含めた合計値であることが分かります。

    \[\tau = \frac{\sum_{i=1}^{N}\frac{z_i y_i}{e_i}}{\sum_{i=1}^{N} \frac{z_i}{e_i}} - \frac{\sum_{i=1}^{N} \frac{(1-z_i)y_i}{1-e_i}}{\sum_{i=1}^{N} \frac{1-z_i}{1-e_i}}\]

以上、統計的因果推論による傾向スコアとIPW推定量の理解についてお役に立てましたら幸いです。

関連する記事

  • 決定木 – 分類木決定木 – 分類木 決定木とは、分類ルールを木構造で表したものである。分類したいデータを目的変数(従属変数)、分類するために用いるデータを説明変数(独立変数)という。目的変数がカテゴリデータなどの場合は「分類木」、連続値などの量的データの場合は「回帰木」と呼ばれる。 決定木の最大のメリットは、結果にグラフを用いることができるため、視覚的に確認できることである。 ここでは、R言語の「r […]
  • 決定木 – 回帰木決定木 – 回帰木 ここでは、決定木の目的変数が連続値である場合の回帰木について、R言語の「rpart」パッケージを用いて簡単に見ていく。 まずは必要となるパッケージのインストールとロードを行う。「rpart」パッケージは決定木を行うためのものだが、「rpart.plot」と「partykit」パッケージは結果を視覚的に表示するために使うので、あらかじめインストールとロードをしておく。 […]
  • カイ二乗検定 – 適合度検定カイ二乗検定 – 適合度検定 適合度検定とは、観測度数分布が期待度数分布と同じかどうかを統計的に確かめる方法である。 適合度検定を行う手順は次の通りである。 仮説を立てる。 帰無仮説 H0:観測度数分布と期待度数分布が同じ。 対立仮説 […]
  • カイ二乗検定 – 独立性検定カイ二乗検定 – 独立性検定 独立性検定とは、クロス集計表を作成したとき、2つの属性が独立であるかどうかを統計的に判定する方法である。 独立性検定を行う手順は次の通りである。 仮説を立てる。 帰無仮説H0:属性Ai(i=1,...,m)とBj(j=1,...,n)は独立である。 対立仮説H1:属性Ai(i=1,...,m)とBj(j=1,...,n)は少なくとも一つ以上は独立でない。 […]
  • Journal of Statistical Software: 記事一覧 Journal of Statistical Software の記事一覧をご紹介する。英語での説明文をgoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 確認日:2017/03/24 論文数:1089 Introduction to stream: An Extensible Framework for Data Stream […]
統計的因果推論による傾向スコアとIPW推定量の基本的な考え方