単回帰分析でサンプル・サイズが大きいとき、推定誤差はどうなるのか?

要約

 最小二乗法による単回帰分析では、サンプル・サイズが大きいと、推定誤差の分散が小さくなります。つまり、サンプルサイズが大きいと、より真の値に近い推定値を得やすいです。

 これは「一致性」に関係する現象で、シミュレーションによって確かめました。

 下図はサンプル・サイズ10のときの推定値の分布です。設定した真の値は1ですが、0〜2まで広く推定値があります。↓

サンプル・サイズ10

 下図はサンプル・サイズ10万のときの推定値の分布です。最小二乗法による推定値が、真の値である1近傍に収束しているようです。↓

サンプル・サイズ10万

 

全体像

(1)問題の構造

 「単回帰分析でサンプル・サイズが大きいとき、推定誤差はどうなるのか?」という問いを設定します。この問いは、次に分解できます。

⓪サンプル・サイズとは何か?

①どんな仮定の単回帰モデルか?

②推定手法による単回帰分析か?

⑤推定誤差とは?

⑥ 問い⓪〜⑤を踏まえて、サンプル・サイズが大きいとき、推定誤差はどうなるのか?

(2)前提の選択

 ⓪〜⑤を前提とします。

(3)論点の選択

 ⑥を論点とします。

(4)付録一覧

 冗長さを避けて、可読性を上げるために、以下の内容は付録に回します。

「一致性について」「モンテカルロ・シミュレーションを行うRコード」

前提

サンプル・サイズ

 サンプル・サイズとは、調査で得られたサンプルの個数です。ちなみにサンプル数は調査の回数なので、間違いないようにしてください。

単回帰モデル

 単回帰モデルとは

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:母回帰係数、U:誤差項$$

というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。なお、本稿では以下の条件を仮定します。

$$1.母集団モデルが単回帰モデルに従う$$

$$2.標本が無作為抽出$$

$$3.説明変数Xの分散が0でない$$

$$4.外生性:E(U|X)=0$$

単回帰分析

 単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。

 サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$

$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$

 本稿では最小二乗法(OLS)による単回帰分析を行います。

推定誤差

 最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は

$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

です。この推定誤差は、確率変数です。詳細は単回帰分析における最小二乗(OLS)推定量の推定誤差とは?をご覧ください。

方法

 シミュレーションで確かめます。

 ①次のモデルに従う母集団を想定します。ただし、XとUは独立です。

$$Y=2+X+U$$

②ここからサンプル・サイズnを乱数生成して、標本とします。そして、回帰係数を最小二乗法で推定します。例えば、n=1万でやってみると、次のような標本が生成されます。

③生成された標本で回帰分析をして、推定値を記録します。例えば、上の場合、次のように推定されました。

$$Y=2.0164+0.9908X+U$$

④ 手順②と③を1万回くらい返して、推定値の記録を集め、これを推定量の分布とみまします。

結果

推定値の分布

 サンプル・サイズnを色々変えて、推定値の分布を調べます。

 下図はサンプル・サイズ10のときの推定値の分布です。真の値は1ですが、0〜2まで広く推定値があります。↓

サンプル・サイズ10

 下図はサンプル・サイズ100のときの推定値の分布です。0.5~1.5までの間に推定値が収まっていますね。↓

サンプル・サイズ100

 下図はサンプル・サイズ1万のときの推定値の分布です。1万回シミュレーションしても0.9〜1.1の間から出た例は皆無です。↓

 下図はサンプル・サイズ10万のときの推定値の分布です。最小二乗法による推定値が、真の値である1近傍に収束しているようです。↓

サンプル・サイズ10万

 サンプル・サイズが大きくなると、とりうる推定値はパラメーター近傍に収束し、推定誤差がどんどん小さくなっているように見えます。

 実は、最小二乗法による単回帰分析には、一定の条件が満たされると、「一致性」をもつことが知られています。一致性の意味、正確な定義、成立するための条件については、付録で詳しく触れたのでぜひ読んでください。

考察

(1)結論

 最小二乗法による単回帰分析は、サンプル・サイズが大きいと、真の値に近い推定値を得ることができます。

(2)妥当性評価

前提評価

 サンプル・サイズ、母集団モデル、推定方法、仮定がクリアでGoodです。また、シミュレーションのコードも付録についているのでGoodです。

 前提に入れず、本論でも一致性の証明はしていないのに「〜と知られています」と唐突に本論に出したのはBadです。

方法評価

 モンテカルロ・シミュレーションで視覚的に議論したのはGoodです。

 一つの例しかシミュレーションしていないので一般性に欠けており、Badです。

結論評価

 教科書通りの結果になったのがGoodです。

 サンプル・セレクション・バイアスや、具体的にどのくらいのサンプル・サイズが必要なのかについて議論できていないのがBadです。

(3)意義

 最小二乗推定の適切さやサンプル・サイズの重要性が理解できます。

付録:一致性について

 一致性とは

$$サンプル・サイズnが無限大のとき$$

$$推定量\widehat{\theta}_nがパラメーター\thetaに確率収束する$$

$$n→∞のとき \widehat{\beta_1}→\beta_1$$

です。一致性の正確な定義は

$$任意の\epsilon >0に対して、n→∞のとき$$

$$P(|\widehat{\theta}_n -\theta|>\epsilon )=0$$

 ただし

$$n:サンプル・サイズ、\widehat{\theta}_n:nでの推定値、\theta:パラメーター$$

$$P(A>B):AがBより大きい確率$$

$$|X|:Xの絶対値$$

です。最小二乗法による単回帰分析にて、一致性をもつための条件とは、

$$1.母集団モデルが単回帰モデルに従う$$

$$2.標本が無作為抽出$$

$$3.説明変数Xの分散が0でない$$

$$4.外生性:E(U|X)=0$$

です。条件4については

$$4-1.誤差項の期待値ゼロ:E(U)=0$$

$$4-2. 説明変数Xと誤差項Uの共分散ゼロ:Cov(X,U)=0$$

に緩和することもできます。

付録:Rコード

sample_size <- 10000 #サンプル・サイズ10000で設定。100、100、1000、100000でも可能。ただし、大きいと計算時間がかかります。
 
trial_number <- 10000 #試行回数10000
beta_1 <- rep(NA, trial_number) #データ列作成
 
#繰り返し処理
for(i in 1:trial_number){
  x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
  u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
  y <- 2 + 1*x+ u #目的変数y
  answer <- lm(y~x) #回帰分析
  
  #回帰分析の係数の2番目(要はxの回帰係数)を取り出して、箱beta_1のi番目に格納する
  beta_1[i] <- answer$coef[2]
}
 
#ヒストグラムを描画(横軸は0.5から1.5の範囲、階級数は30)
hist(beta_1,xlim=c(0,2),breaks=30)