単回帰分析と一致性

 「単回帰分析において、標本回帰係数は一致性を持つ」について説明します。

要約

(1)問い

 「最小二乗法で求めた標本回帰係数」は一致性をもつのでしょうか?

(2)結論

 サンプル・サイズnが無限大になると、最小二乗推定量は母回帰係数に確率収束します。

$$n→∞のとき \widehat{\beta_1}→\beta_1$$

ただし

$$\widehat{\beta_1}:最小二乗推定量$$

$$\beta_1:母回帰係数$$

標本回帰係数1万個の分布。確率収束しつつあることがわかる(なお、母回帰係数1、サンプル・サイズ10万)

(3)着眼点

 最小二乗推定量を母回帰係数で表して、サンプル・サイズnを増やすと何が起きるのかを数式上で確かめます。また、これをRによるシミュレーションで確かめます。

前提

(1)定義

一致性

 一致性とは

  • サンプル・サイズnが無限大になると
  • 推定量がパラメーターに
  • 確率収束する

という意味です。詳しくは「一致性」をご覧ください。

標本回帰係数の一致性

 母集団にて、次の単回帰モデル

$$Y=\beta_0+\beta_1X+U$$

が成立しているとします。求めたい母回帰係数は

$$パラメーター:\beta_0, \beta_1$$

です。標本から求めた標本回帰係数が

$$推定量:\widehat{\beta_0}, \widehat{\beta_1}$$

です。

 サンプル・サイズnを無限大にしたとき、標本回帰係数が母回帰係数に確率収束する

$$n→∞のとき \widehat{\beta_1}→\beta_1$$

のならば、一致性があるといえます。

(2)仮定する条件

 この記事では

  • 仮定1:データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う

$$単回帰モデル:Y_i=\beta_0 +\beta_1 X_i +誤差項U_i$$

$$i:データ番号(1〜n)、n:サンプル・サイズ$$

  • 仮定2:標本が無作為抽出
  • 仮定3:説明変数Xの分散が0でない

に加えて

$$仮定4-1:E(U_i)=0$$

$$仮定4-2:共分散Cov(U_i, X_i)=0$$

を仮定します。

(3)仮定しない条件

 以下の条件は仮定しません

  • 系列相関なし
  • 均一分散
  • 誤差項の正規性

 なお、

$$仮定※:E(U_i|X_i)=0$$

も仮定していません。仮定※の代わりに仮定4ー1、仮定4ー2を置いています。仮定※の方が厳しい仮定です。

(4)事実

最小二乗推定量

 仮定1〜3が満たされるとき、単回帰分析の最小二乗推定量は

$$\widehat{\beta_1}=\beta_1+ \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }・・・式(1)$$

となります。詳しくは「単回帰分析/ 最小二乗推定量とパラメーターの関係」をご覧ください。

標本平均、標本分散、標本共分散の定義

 次のことが知られています。

$$xの標本平均: \overline{x}=\frac{1}{n} \sum_{i=1}^n x_i$$

$$xの標本分散:\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2$$

$$xとyの標本共分散:\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})$$

標本平均、標本分散、標本共分散の一致性

 無作為抽出で、サンプル・サイズnが無限大のとき、標本平均、標本分散、標本共分散は一致性をもちます。つまり、n→∞で

  • 標本平均 → 母平均E(X)
  • 標本分散 → 母分散Var(X)
  • 標本共分散→ 母共分散Cov(X,Y)

となります。

方法

 回帰係数が一致性を持つことを示すために

  • 数式
  • シミュレーション

の両方を使います。

結果1

(1)最小二乗推定量

 単回帰分析の最小二乗推定量は

$$\widehat{\beta_1}=\beta_1+ \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }・・・式(1)$$

です。1/nを付け加えると

$$=\beta_1+ \frac{ \frac{1}{n} \sum\limits_{i=1}^n(X_i-\overline{X})U_i } { \frac{1}{n} \sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

です。

(2)nが無限大

 nが無限大になると、標本分散、標本共分散はパラメターに収束します。さらに、仮定4-1:E(u)=0を用いると

$$n→∞のときの\widehat{\beta_1}$$

$$=\beta_1+ \frac{ Cov(U_i,X_i) } {Var(X_i) }$$

となります。

(3)仕上げ

 仮定3よりVar(X)≠0なので、分母が0になる問題は起きていません。そして、仮定4ー2:Cov(X,U)=0より

$$n→∞のときの\widehat{\beta_1}=\beta_1$$

です。したがって、最小二乗法によって求められた標本回帰係数は一致性を持ちます。

結果2

 Rによるシミュレーションで、サンプル・サイズを増やしていくと標本回帰係数が母回帰係数に確率収束していくことを解説します。

(1)シミュレーションの前提

 シミュレーションは次のように行いました。

①母集団の設定

 次のモデル

$$Y=2+X+U$$

に従う母集団を想定します。

②標本抽出と標本回帰係数の計算

 ここからサンプル・サイズnの要素を無作為抽出して、標本とします。そして、回帰係数を最小二乗法で推定します。

 例えば、n=1万でやってみると、次のようになりました。

 回帰分析すると次の推定値が出力されました。↓

$$Y_i=2.0164+0.9908X_i+U_i$$

③繰り返し処理

 ②を1万回繰り返して、推定値を記録します。この推定値の分布が、推定量の分布と見なせます。

(2)推定値の分布

 サンプル・サイズnを色々変えて、推定値の分布を調べます。サンプル・サイズが増えると、推定値に確率収束していくのなら、一致性があると言えます。

n=10

 下図はサンプル・サイズ10のときの推定値の分布です。↓

サンプル・サイズ10

n=100

 下図はサンプル・サイズ100のときの推定値の分布です。↓

サンプル・サイズ100

n=1万

 下図はサンプル・サイズ1万のときの推定値の分布です。↓

n=10万

下図はサンプル・サイズ10万のときの推定値の分布です。↓

サンプル・サイズ10万

まとめ

 サンプル・サイズが大きくなると、とりうる推定値はパラメーター付近にのみになります。これは確率収束です。

$$n→∞のとき \widehat{\beta_1}→\beta_1$$

 上のシミュレーションでは、最小二乗法による標本回帰係数は一致性を持っていました。

考察

(1)最小二乗推定量は一致性をもつ

 数式やシミュレーションでの議論より、適切な仮定のもとで最小二乗推定量は一致性をもつことがわかりました。

(2)外的な意義

 正確なパラメーターを知りたいのであれば、サンプル・サイズnが大事です。

 逆に、下の仮定が成り立たない場合は、サンプル・サイズnが大きくても一致性を持ちません。

  • 仮定1:データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う
  • 仮定2:標本が無作為抽出
  • 仮定3:説明変数Xの分散が0でない
  • 仮定4-1:E(U_i)=0
  • 仮定4-2:共分散Cov(U_i, X_i)=0

付録:Rコード

sample_size <- 10000 #サンプル・サイズ10000で設定。100、100、1000、100000でも可能。ただし、大きいと計算時間がかかります。
 
trial_number <- 10000 #試行回数10000
beta_1 <- rep(NA, trial_number) #データ列作成
 
#繰り返し処理
for(i in 1:trial_number){
  x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
  u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
  y <- 2 + 1*x+ u #目的変数y
  answer <- lm(y~x) #回帰分析
  
  #回帰分析の係数の2番目(要はxの回帰係数)を取り出して、箱beta_1のi番目に格納する
  beta_1[i] <- answer$coef[2]
}
 
#ヒストグラムを描画(横軸は0.5から1.5の範囲、階級数は30)
hist(beta_1,xlim=c(0,2),breaks=30)

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました