要約
操作変数モデルは次のようなモデルです。

全体像
(1)問題の構造
問題を「操作変数モデルとは何か」と設定します。この問題を
①どんな問題に対処したモデルなのか?
②操作変数モデルの定義は何か?
③操作変数の具体例には何があるか?
④βとは何か?
⑤結果の予測にはどう使えるか?
⑥原因の説明にはどう使えるか?
(2)前提の選択
①〜③を前提として選択します。
(3)論点の選択
④〜⑥を論点として設定します。
(4)付録一覧
前提
不偏性や一致性を成り立たなくさせる内生性
意図
操作変数モデルは、内生性のあるモデルでも推定を可能にしたモデルです。
内生性のある回帰モデル
内生性をもつ次のような回帰モデル
$$Y=\beta_0+\beta_{1}X_{1}+U$$
$$内生性:E(U|X_1)≠0$$
は最小二乗法(OLS)で標本回帰係数β^を推定するのは、不適切です。なぜなら、外生性の条件が満たされず、最小二乗推定量が不偏性や一致性を持たないからです。→「単回帰と不偏性」「単回帰と一致性」
内生性が生まれる原因の一つが、欠落変数の存在です。X1と相関しYに影響を与えるX2が存在するのに、X2が推定モデルに含まれないと、X2が欠落変数になります。X2の効果は誤差項Uに含まれてしまうので、X1と誤差項Uが相関してしまうのです。

内生性がある場合の基本的な対処は、欠落変数を観測して、推定モデルに入れることになります。重回帰モデルは、内生性を回避するための解決策になりえます。

けれども、本質的に観測できない変数や、観測が現実的に困難な変数は、重回帰モデルに入れることができません。そんなときに、操作変数モデルが役に立ちます。
操作変数モデルの定義
操作変数モデルとは、内生性のある回帰モデルで、操作変数のあるモデルです。例えば、次のモデルは操作変数モデルのひとつです。
$$Y=\beta_0+\beta_{1}X_{1}+U$$
$$内生性:E(U|X_1)≠0$$
$$X_1に対する操作変数Zが存在する$$
ただし、X1に対する操作変数Zは
$$外生性:誤差項Uと無相関 Cov(Z,U)=0$$
$$関連性:説明変数X_1と相関 Cov(Z,X_1)≠0$$
を満たします。操作変数モデルは、次の図で表せます。

※なお、Cov(A,B)はAとBの共分散を意味します。相関係数は、分散Varを用いて
$$AとBの相関係数R=\frac{Cov(A,B)}{\sqrt{Var(A)} \sqrt{ Var(B)}}$$
なので、共分散の正負と相関係数の正負は一致します。
操作変数の具体例
操作変数の2条件
操作変数とは「関連性:説明変数と相関」「外生性:誤差項と無相関」という条件を満たすものです。
データで検証可能な条件
「関連性:説明変数と相関」についてはデータで調べることができるので検証可能です。これを検証する方法として、スタイガー=ストックのF検定が知られています。
データで検証できない条件
しかし、「外生性:誤差項と無相関」についてはそもそも誤差項が観測できないので、データで検証することは原理的に不可能です。実際の状況を見て慎重に選ぶ必要があります。
ただし、誤差項は観測できませんが、残差は観測できます。残差を用いた方法として、サーガン検定が知られています。
ランダム化奨励デザイン
最も説得力のある操作変数は、ランダム化奨励デザインによって作られた操作変数です。例えば
Y:年収
X1:修学年数
X2:地頭
Z:「進学するなら補助金をもらえるチケット」の有=1、無=0。Zは政府がランダムに割り振った
修学年数(X1)や地頭(X2)が多いと、年収(Y)も多くなりそうです。けれども、地頭(X2)は、観測できず、修学年数(X1)とも相関している欠落変数です。

つまり
$$(年収)=\beta_0+\beta_1(修学年数)+U$$
$$内生性:E(U|修学年数)≠0 をもつ$$
わけです。一方で、チケットの有無は、政府がランダムに割り振ったので、地頭(X2)とは相関せず、修学年数(X1)だけに相関するので、操作変数になります。
$$外生性:Cov(チケット有無,誤差項U)=0$$
$$関連性:Cov(チケット有無,修学年数)≠0$$
自然現象
自然現象を操作変数に使った例もあります。
Y:農産物需要
X1:市場価格
X2:嗜好の変化
Z:消費値から遠く離れた原産地の天候不順の有無
市場価格(X1)が高いと、農産物需要が低くなりそうです。一方で、嗜好の変化(X2)も、農産物需要に影響を与えます。嗜好の変化(X2)は、観測できず、市場価格(X1)とも相関している欠落変数です。

つまり
$$(農産物需要)=\beta_0+\beta_1(市場価格)+U$$
$$内生性:E(U|市場価格)≠0 をもつ$$
わけです。一方で、「消費値から遠く離れた原産地の天候不順の有無」は、嗜好の変化(X2)とは相関せず、市場価格(X1)だけに相関するので、操作変数になります。
$$外生性:Cov(天候不順の有無,誤差項U)=0$$
$$関連性:Cov(天候不順の有無,市場価格)≠0$$
結果
(1)βの意味
Cov(Z,Y)を考えると
$$Cov(Z,Y)$$
Y=β0+β1X1+Uより
$$=Cov(Z,\beta_0+\beta_1X_1+U)$$
ここでCov(A,B+C)=Cov(A,B)+Cov(A,C)を利用して
$$=Cov(Z,\beta_0)+Cov(Z,\beta_1X_1)+Cov(Z,U)$$
Cov(確率変数,定数)=0、kが定数ならCov(A,kB)=kCov(A,B)、ZとUが無相関という外生性より
$$=0+\beta_1 Cov(Z,X_1)+0 $$
$$= \beta_1 Cov(Z,X_1)$$
したがって
$$\beta_1=\frac{Cov(Z,Y)}{ Cov(Z,X_1)}$$
単回帰モデルのβ1と同じように導出し結果のみ違うので、比較してみてください。→「単回帰モデル」
(2)Yの予測
操作変数モデルを予測モデルとして使うなら次のようにすべきです。操作変数ZでX1を予測するモデルF(・)
$$X_1=F(Z)+誤差項\mu$$
を構築します。ZとX1は相関し、ZとX2は無相関ですから、このμの部分に欠落変数X2の影響が含まれているはずです。μを無視して
$$Y=\beta_0+\beta_1 F(Z) + 誤差項U_{新}$$
とすると、操作変数モデルによる予測モデルができます。ただ、あまり使うことはないでしょう。
(3)Xの限界効果
操作変数モデルは、欠落変数が存在するだけで、本質的には重回帰モデルです。欠落変数X2も含めると
$$限界効果=\frac{\partial E(Y|X_1,X_2)}{\partial X_1}$$
$$=\frac{\partial E(\beta_0+\beta_1X_1+\beta_2X_2+U|X_1,X_2)}{\partial X_1}$$
$$=\frac{\partial (\beta_0+\beta_1X_1+\beta_2X_2)}{\partial X_1}$$
$$=\beta_1$$
となるので、X1が微小単位1増えると、Yが平均的に増える限界効果は、β1です。
ただし、X2が欠落変数の操作変数モデルの場合、推定できるのは↓までです。
$$Y=\beta_0+\beta_1X_1+U$$
$$内生性:E(U|X_1)≠0$$
考察
(1)結論
操作変数モデルとは、内生性のある重回帰モデルで、操作変数のあるモデルです。例えば、次のモデルが操作変数モデルです。
$$Y=\beta_0+\beta_{1}X_{1}+U$$
$$内生性:E(U|X_1)≠0$$
$$X_1に対する操作変数Zが存在する$$
ただし、X1に対する操作変数Zは
$$外生性:誤差項Uと無相関 Cov(Z,U)=0$$
$$関連性:説明変数X_1と相関 Cov(Z,X_1)≠0$$
となります。操作変数モデルは、次の図で表せます。

β1は、X1がYに与える限界効果です。
$$\beta_1=\frac{Cov(Z,Y)}{ Cov(Z,X_1)}$$
(2)妥当性評価
前提評価
内生性、操作変数について数式や図を用いてわかりやすく整理した点がGoodです。
少々、長すぎるのがBadです。
結論評価
β1が限界効果であることを導けておりGoodです。
もともとが単回帰モデルの場合のみの記述で、重回帰モデルの場合の記述が不十分な点がBadです。
(3)意義
因果推論でよく言及される操作変数法についてわかりやすく解説できました。
カテゴリー