単回帰分析におけるバイアスとは?

要約

 最小二乗法(OLS)による単回帰分析でバイアスがゼロになる場合、つまり、不偏性を持つ場合、外生性が必要です。

$$バイアス=測定誤差の期待値=E \big( \widehat{\beta} -\beta \big)$$

$$母回帰係数:\widehat{\beta}$$

$$最小二乗法による標本回帰係数:\beta$$

$$外生性:E \left(U_i |X_i \right)=0$$

$$内生性:E \left(U_i |X_i \right)≠0$$

 シミュレーションでも不偏性を確かめました。

全体像

(1)問題の構造

 「単回帰分析におけるバイアスとは?」を次に分解します。

⓪バイアスとは?

①単回帰モデルとは?

②単回帰分析とは?

③最小二乗推定量の測定誤差とは?

④単回帰の最小二乗推定量におけるバイアスとは?

⑤バイアスがゼロにある条件とは?

(2)前提の選択

 ⓪〜③を前提とします。

(3)論点の選択

(4)付録一覧

前提

(0)バイアス

 母集団で成り立つパラメーターθと、標本から得られる推定量θ^があります。その差が測定誤差で、測定誤差の期待値がバイアスです。

$$バイアス=測定誤差の期待値=E \big( \widehat{\theta} -\theta \big)$$

$$推定量:\widehat{\theta}, パラメーター:\theta$$

 本稿では、パラメーターは母回帰係数、推定量は最小二乗法による標本回帰係数です。

(1)単回帰モデル

 単回帰モデルとは

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:母回帰係数、U:誤差項$$

というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。

図2

(2)単回帰分析

 単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。

 サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$

$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$

$$\widehat{u_i}:残差=実現値y_i-予測値\widehat{y_i}$$

(3)推定誤差

 単回帰分析における最小二乗(OLS)推定量の推定誤差によれば

$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

です。

結果

(1)バイアス

 測定誤差の式より、バイアスは

$$バイアス=E \big( \widehat{\beta} -\beta \big)$$

$$= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)$$

になります。

(2)繰り返し期待値の法則

 ここで繰り返し期待値の法則より

$$バイアス= E \left( E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \Bigg|X \right) \right)$$

 Xの条件付きのもとではXは確率変数ではなく確定変数とみなせるので

$$= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) E \left(U_i |X_i \right)} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)$$

となります。

(3)不偏性の必要条件

 説明変数Xには分散があって当たり前ですから、バイアスがゼロになるためには

$$E \left(U_i |X_i \right)=0 $$

が必要です。

$$バイアス= E \left( \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) E \left(U_i |X_i \right)} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } \right)であるならば$$

$$E \left(U_i |X_i \right)=0である$$

ということですね。

(4)外生性と内生性

 計量経済学では

$$外生性:E \left(U_i |X_i \right)=0$$

$$内生性:E \left(U_i |X_i \right)≠0$$

が非常に意識されています。外生性があれば、最小二乗法による標本回帰係数は不偏性を持ちます。しかし、内生性があれば、最小二乗法による標本回帰係数はバイアスを持ちます。

 外生性を簡単に言えば、説明変数Xと誤差項Uは無相関ということです。

(5)シミュレーション

 説明変数Xと誤差項Uは無相関のとき、不偏性をもつのかシミュレーションで検証しましょう。

①母集団の設定

 次のモデル

$$Y=2+X+U$$

に従う母集団を想定します。XとUは別々で乱数生成し、外生性を確保します。

②標本抽出と標本回帰係数の計算

 ここからサンプル・サイズnの要素を無作為抽出して、標本とします。そして、回帰係数を最小二乗法で推定します。例えば、n=100でやってみると、次のようになりました。

 回帰分析すると次の推定値が出力されました。↓

$$Y_i=1.864+1.090X_i+U_i$$

③繰り返し処理

 ②を1万回繰り返して、推定値を記録します。この推定値の分布が、推定量の分布と見なせます。

④推定値の分布

 この標本抽出と回帰分析を1万回繰り返して、推定値のヒストグラムを作成すると、下図になりました。横軸は標本回帰係数、縦軸は度数(=出現回数)です。

 このとき、推定値の平均は

$$\widehat{\beta_1}の平均=0.9982847$$

でした。これは、母回帰係数の1と非常に近く、バイアスはないと言えそうです。やはり、外生性が成り立つとき、最小二乗推定量は不偏性を持ちそうです。

考察

(1)結論

 最小二乗法(OLS)による単回帰分析でバイアスがゼロになる場合、つまり、不偏性を持つ場合、

$$バイアス=測定誤差の期待値=E \big( \widehat{\beta} -\beta \big)$$

$$母回帰係数:\widehat{\beta}$$

$$最小二乗法による標本回帰係数:\beta$$

外生性が必要です。

$$外生性:E \left(U_i |X_i \right)=0$$

$$内生性:E \left(U_i |X_i \right)≠0$$

(2)妥当性評価

前提評価

 バイアス、母集団モデル、推定モデルについて明確に示したのはGoodです。

 期待値の扱いはやや不親切でBadです。

方法評価

 数式とシミュレーションで議論したのはGoodです。

 内生性の場合をシミュレーションしなかったのがBadです。

結論評価

 教科書通りの結果が得られてGoodです。

 不偏性には次の4条件が必要ですが、そこまで導けなかったのがBadでs。

$$1.母集団モデルが単回帰モデルに従う$$

$$2.標本が無作為抽出$$

$$3.説明変数Xの分散が0でない$$

$$4.外生性:E(U|X)=0$$

(3)意義

 「外生性はあるのか?」「内生性はクリアしたのか?」という超頻出の問題について明快な答えが出せたのがGoodです。

付録

 今日のシミュレーションは次のRコードで再現できます。

trial_number <- 10000 #試行回数10000
sample_size <- 100 #サンプル・サイズ100
beta_1 <- rep(NA, trial_number) #データ列作成
 
#繰り返し処理
for(i in 1:trial_number){
  x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
  u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
  y <- 2 + 1*x+ u #目的変数y
  answer <- lm(y~x) #回帰分析
  
  #回帰分析の係数の2番目(要はxの回帰係数)を取り出して、箱beta_1のi番目に格納する
  beta_1[i] <- answer$coef[2]
}
 
#ヒストグラムを描画(横軸は0.5から1.5の範囲、階級数は30)
hist(beta_1,xlim=c(0.5,1.5),breaks=30)
 
#平均を計算
mean(beta_1)