要約
最小二乗法(OLS)による単回帰分析でバイアスがゼロになる場合、つまり、不偏性を持つ場合、外生性が必要です。
$$バイアス=測定誤差の期待値=E \big( \widehat{\beta} -\beta \big)$$
$$母回帰係数:\widehat{\beta}$$
$$最小二乗法による標本回帰係数:\beta$$
$$外生性:E \left(U_i |X_i \right)=0$$
$$内生性:E \left(U_i |X_i \right)≠0$$
シミュレーションでも不偏性を確かめました。

全体像
(1)問題の構造
「単回帰分析におけるバイアスとは?」を次に分解します。
⓪バイアスとは?
①単回帰モデルとは?
②単回帰分析とは?
③最小二乗推定量の測定誤差とは?
④単回帰の最小二乗推定量におけるバイアスとは?
⑤バイアスがゼロにある条件とは?
(2)前提の選択
⓪〜③を前提とします。
(3)論点の選択
(4)付録一覧
前提
(0)バイアス
母集団で成り立つパラメーターθと、標本から得られる推定量θ^があります。その差が測定誤差で、測定誤差の期待値がバイアスです。
$$バイアス=測定誤差の期待値=E \big( \widehat{\theta} -\theta \big)$$
$$推定量:\widehat{\theta}, パラメーター:\theta$$
本稿では、パラメーターは母回帰係数、推定量は最小二乗法による標本回帰係数です。
(1)単回帰モデル
単回帰モデルとは
$$Y=\beta_0+\beta_1X+U$$
$$Y:目的変数、X:説明変数$$
$$\beta:母回帰係数、U:誤差項$$
というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。

(2)単回帰分析
単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。
サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。
$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$
$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$
$$\widehat{u_i}:残差=実現値y_i-予測値\widehat{y_i}$$
(3)推定誤差
単回帰分析における最小二乗(OLS)推定量の推定誤差によれば
$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
です。
結果
(1)バイアス
測定誤差の式より、バイアスは
$$バイアス=E \big( \widehat{\beta} -\beta \big)$$
$$= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)$$
になります。
(2)繰り返し期待値の法則
ここで繰り返し期待値の法則より
$$バイアス= E \left( E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \Bigg|X \right) \right)$$
Xの条件付きのもとではXは確率変数ではなく確定変数とみなせるので
$$= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) E \left(U_i |X_i \right)} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)$$
となります。
(3)不偏性の必要条件
説明変数Xには分散があって当たり前ですから、バイアスがゼロになるためには
$$E \left(U_i |X_i \right)=0 $$
が必要です。
$$バイアス= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) E \left(U_i |X_i \right)} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)であるならば$$
$$E \left(U_i |X_i \right)=0である$$
ということですね。
(4)外生性と内生性
計量経済学では
$$外生性:E \left(U_i |X_i \right)=0$$
$$内生性:E \left(U_i |X_i \right)≠0$$
が非常に意識されています。外生性があれば、最小二乗法による標本回帰係数は不偏性を持ちます。しかし、内生性があれば、最小二乗法による標本回帰係数はバイアスを持ちます。
外生性を簡単に言えば、説明変数Xと誤差項Uは無相関ということです。
(5)シミュレーション
説明変数Xと誤差項Uは無相関のとき、不偏性をもつのかシミュレーションで検証しましょう。
①母集団の設定
次のモデル
$$Y=2+X+U$$
に従う母集団を想定します。XとUは別々で乱数生成し、外生性を確保します。
②標本抽出と標本回帰係数の計算
ここからサンプル・サイズnの要素を無作為抽出して、標本とします。そして、回帰係数を最小二乗法で推定します。例えば、n=100でやってみると、次のようになりました。

回帰分析すると次の推定値が出力されました。↓
$$Y_i=1.864+1.090X_i+U_i$$
③繰り返し処理
②を1万回繰り返して、推定値を記録します。この推定値の分布が、推定量の分布と見なせます。
④推定値の分布
この標本抽出と回帰分析を1万回繰り返して、推定値のヒストグラムを作成すると、下図になりました。横軸は標本回帰係数、縦軸は度数(=出現回数)です。

このとき、推定値の平均は
$$\widehat{\beta_1}の平均=0.9982847$$
でした。これは、母回帰係数の1と非常に近く、バイアスはないと言えそうです。やはり、外生性が成り立つとき、最小二乗推定量は不偏性を持ちそうです。
考察
(1)結論
最小二乗法(OLS)による単回帰分析でバイアスがゼロになる場合、つまり、不偏性を持つ場合、
$$バイアス=測定誤差の期待値=E \big( \widehat{\beta} -\beta \big)$$
$$母回帰係数:\widehat{\beta}$$
$$最小二乗法による標本回帰係数:\beta$$
外生性が必要です。
$$外生性:E \left(U_i |X_i \right)=0$$
$$内生性:E \left(U_i |X_i \right)≠0$$
(2)妥当性評価
前提評価
バイアス、母集団モデル、推定モデルについて明確に示したのはGoodです。
期待値の扱いはやや不親切でBadです。
方法評価
数式とシミュレーションで議論したのはGoodです。
内生性の場合をシミュレーションしなかったのがBadです。
結論評価
教科書通りの結果が得られてGoodです。
不偏性には次の4条件が必要ですが、そこまで導けなかったのがBadでs。
$$1.母集団モデルが単回帰モデルに従う$$
$$2.標本が無作為抽出$$
$$3.説明変数Xの分散が0でない$$
$$4.外生性:E(U|X)=0$$
(3)意義
「外生性はあるのか?」「内生性はクリアしたのか?」という超頻出の問題について明快な答えが出せたのがGoodです。
付録
今日のシミュレーションは次のRコードで再現できます。
trial_number <- 10000 #試行回数10000
sample_size <- 100 #サンプル・サイズ100
beta_1 <- rep(NA, trial_number) #データ列作成
#繰り返し処理
for(i in 1:trial_number){
x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
y <- 2 + 1*x+ u #目的変数y
answer <- lm(y~x) #回帰分析
#回帰分析の係数の2番目(要はxの回帰係数)を取り出して、箱beta_1のi番目に格納する
beta_1[i] <- answer$coef[2]
}
#ヒストグラムを描画(横軸は0.5から1.5の範囲、階級数は30)
hist(beta_1,xlim=c(0.5,1.5),breaks=30)
#平均を計算
mean(beta_1)
カテゴリー