単回帰分析における最小二乗推定量は、正規性をもつのか?

 一定の仮定を課した場合、最小二乗推定量が正規分布に従うことを説明します。

 シミュレーションも行います。

要約

(1)問い

 最小二乗法で求めた標本回帰係数は、正規分布に従うのか?

(2)結論

 外生性、系列相関なし、均一分散、誤差項の正規性を仮定すると、最小二乗法で求めた標本回帰係数は、次の正規分布に従います。

$$\widehat{\beta_1}  〜   正規分布N$$

(3)意義

 以上は、一定の仮定のもとで、単回帰分析にて仮説検定ができることを意味します。

前提

 問いを「最小二乗法で求めた標本回帰係数は、正規分布に従うのか?」とします。

 これに際して、次の定義・仮定・事実を用います。

(1)定義

 このモデルで用いる単回帰モデルは

$$Y_i=\beta_0+\beta_1X_i+U_i$$

です。概要は「単回帰モデル」をご覧ください。Yは目的変数、Xは説明変数、Uは誤差項、iはデータ番号です。

 この記事では標本回帰係数を、最小二乗法で求めた最小二乗推定量と考えます。

$$\widehat{\beta_1}:標本回帰係数$$

$$\beta_1:母回帰係数$$

(2)仮定する条件

 前提として、次の3つを仮定し

  1. データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う
  2. 標本が無作為抽出
  3. 説明変数Xの分散が0でない

 さらに

$$4.外生性:E(U_i|X_i)=0$$

$$5.系列相関なし:誤差項同士の共分散=0$$

$$6.均一分散:Var(U_i)=\sigma^2$$

を仮定します。

(3)重要な仮定する条件

 ここに誤差項Uが正規分布するという仮定

$$7.U_i 〜 N(0,\sigma^2)$$

を付け加えてみます。仮定4〜7はつまり

$$U_i 〜 N(0,\sigma^2)$$

を意味します。

 この仮定1〜7を満たす回帰モデルを、古典的回帰モデルと呼んだりします。

(4)事実

最小二乗推定量

 仮定1〜3が満たされ、説明変数Xが確定しているとき、単回帰分析の最小二乗推定量は

$$\widehat{\beta_1}=\beta_1+ \frac{\sum\limits_{i=1}^n(x_i-\overline{x})U_i } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

となることが知られています。詳しくは単回帰分析/ 最小二乗推定量とパラメーターの関係をご覧ください。

正規分布の再生性

 独立な正規分布にしたがう確率変数Uは、定数倍したり、足し引きしても正規分布です。これを正規分布の再生性と言います。

方法

  • 計算する方法
  • シミュレーションする方法

の両方を行います。それぞれ「結果 <計算>」「結果 <シミュレーション>」をご覧ください。

結果 <計算>

$$\widehat{\beta_1}=\beta_1+ \frac{\sum\limits_{i=1}^n(x_i-\overline{x})U_i } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

において、確率変数は誤差項Uのみで

$$U_i 〜 N(0,\sigma^2)$$

です。したがって、いかなるxのときも、誤差項Uは特定の正規分布に従います。

 そして、独立な正規分布にしたがう確率変数Uは、定数倍したり、足し引きしても正規分布です。(←正規分布の再生性

 したがって、仮定1〜7のもとで

$$標本回帰係数\widehat{\beta_1} 〜 正規分布N$$

となります。

 これはnが小さくても(=小標本)、成り立ちます。

結果 <シミュレーション>

 シミュレーションで、小標本についても成り立っているかを確かめます。

(1)入力

 母集団では

$$Y_i=2+X_i+U_i$$

が成り立っていると考えます。

 「3個の標本抽出と回帰分析」を5000回繰り返して、推定値の分布を正規分布と比較します。

(2)出力

 シミュレーション結果が下図です。サンプル・サイズ3と小さいので、推定量の分散はかなり大きくなっていますが、正規分布に従っています。厳しい仮定のもとでは、小標本でも、最小二乗推定量は正規分布に従うのです。

考察

(1)結論

 次の条件下で、最小二乗法で求めた標本回帰係数は正規分布に従います。その条件とは

  1. データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う
  2. 標本が無作為抽出
  3. 説明変数Xの分散が0でない
  4. 外生性がある
  5. 誤差項の系列相関がない
  6. 誤差項は均一分散している
  7. 誤差項は正規分布に従う

です。

(2)前提評価

  • 誤差項の系列相関がない
  • 誤差項は均一分散している
  • 誤差項は正規分布に従う

は厳しい仮定です。できればもっとゆるい仮定でも、推定量が正規分布に従っていてくれると嬉しいです。

 実は、サンプル・サイズを大きくすれば、上の3条件を仮定しなくとも、標本回帰係数は正規分布に従うことがわかっています。これについては「単回帰分析と推定量の漸近正規性」をご覧ください。

(3)意義

 推定量が正規分布に従うのであれば、仮説検定を用いることができます。一定の条件を満たせば、単回帰分析でも仮説検定ができるようです。

付録1:Xが確率変数なら

 今回はXが確定している場合を考えました。しかし、Xが確率変数の場合、サンプル・サイズ5でも正規分布に従いません。

付録2:Rコード

 シミュレーションは、R言語を用いて行いました。R言語については「しまうまのRでデータ分析入門」をご覧ください。

 美しい図示のため、パッケージとしてggplot2を用いました。

#パッケージの呼び出し。未インストールならインストール!
library(ggplot2) 

 シミュレーションのコードは↓です。

trial_number <- 5000 #試行回数5000
sample_size <- 3 #サンプル・サイズ3
beta_1 <- rep(NA, trial_number) #データ列作成
x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
 
#繰り返し処理
for(i in 1:trial_number){
  u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
  y <- 2 + 1*x+ u #目的変数y
  answer <- lm(y~x) #回帰分析
  beta_1[i] <- answer$coef[2]
}
data00 <- data.frame(beta_1) 
 
#図示
ggplot(data00, aes( x = beta_1)) + 
  geom_histogram( bins=100,aes( y = ..density.. ),colour="white", fill = "pink2")+
  stat_function(fun = dnorm, args=list(mean=mean(data00$beta_1), sd=sqrt(var(data00$beta_1))))+
  xlab("回帰係数の推定値") + 
  ylab ("確率密度") +
  ggtitle ("最小二乗推定量の分布(n=3)  黒は正規分布") +
  theme_grey(base_family = "HiraKakuPro-W3")

 付録1の「Xが確率変数の場合」のコード↓

trial_number <- 5000 
sample_size <- 5 
beta_1 <- rep(NA, trial_number) 
   #変更部分
 
for(i in 1:trial_number){
  u <- rnorm(n=sample_size, mean =0, sd=1)
  x <- rnorm(n=sample_size, mean =3, sd=1) #変更部分
  y <- 2 + 1*x+ u 
  answer <- lm(y~x) 
  beta_1[i] <- answer$coef[2]
}
data00 <- data.frame(beta_1) 
 
ggplot(data00, aes( x = beta_1)) + 
  geom_histogram( bins=100,aes( y = ..density.. ),colour="white", fill = "pink2")+
  stat_function(fun = dnorm, args=list(mean=mean(data00$beta_1), sd=sqrt(var(data00$beta_1))))+
  xlab("回帰係数の推定値") + 
  ylab ("確率密度") +
  ggtitle ("最小二乗推定量の分布(n=3)  黒は正規分布") +
  theme_grey(base_family = "HiraKakuPro-W3")

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました