ランダム化比較試験(RCT:randomized controlled trial)とは、ランダムに処置群と対照群を分けて、目的変数Yについて期待値の差を推定する方法だ。ルービンの因果モデルによれば、因果効果とは事実と反事実の差である。しかし、反事実は観測できないから、反実仮想するしかない。ランダムに処置群と対照群に割り当てることで、対照群を「もし処置しなかったこうなった」という反事実とみなす。処置群と対照群の平均差は、平均処置効果ATEと等しくなる。
$$ATE=E(Y_{処置群})-E(Y_{対照群})$$
ランダム化比較試験は、回帰モデルとして扱うこともできる。処置群となればD=1、対照群となればD=0という処置ダミー変数Dを、説明変数とした単回帰モデルを考える。このとき、β0=対照群の平均、β0+β1=処置群の平均、β1=平均処置効果ATEと解釈できる。
$$Y=\beta_0+\beta_1 D+U$$
重回帰モデルを思い出すと、ランダム化比較試験(RCT)が最強である。重回帰モデルには7つの仮定が要求されることがあるが、ランダム化比較試験は6つをクリアしている。「①重回帰モデルという定式化に誤りがない」は問題ない。RCTは複雑な構造をもつモデルを前提にしていない。「③説明変数に分散があり、完全な共線関係が存在しない」はクリアしている。処置群と対照群にわかれるので分散はあるし、ダミー変数以外に説明変数がないので完全な共線関係や多重共線性の問題は起こりようがない。「④外生性E(U|X1,X2・・・Xk)」は問題ない。ランダムに処置群と対照群を割り当ててるので、誤差項と説明変数(処置ダミー変数)は相関しない。「⑤誤差項が自己相関していない」「⑥誤差項が均一分散している」はそもそも問題ない。頑健な標準誤差を使えばよい。「⑦誤差項は正規分布に従う」はそもそも必要ない。サンプル・サイズが大きければ、中心極限定理が解決してくれる。つまり、RCTが直面しうる問題は「②無作為抽出」に絞られる。サンプル・セレクション・バイアスが起きていないかどうかのみ精査すればよい。