要約
最小二乗法による単回帰分析では、サンプル・サイズが大きいと、推定誤差の分散が小さくなります。つまり、サンプルサイズが大きいと、より真の値に近い推定値を得やすいです。
これは「一致性」に関係する現象で、シミュレーションによって確かめました。
下図はサンプル・サイズ10のときの推定値の分布です。設定した真の値は1ですが、0〜2まで広く推定値があります。↓

下図はサンプル・サイズ10万のときの推定値の分布です。最小二乗法による推定値が、真の値である1近傍に収束しているようです。↓

全体像
(1)問題の構造
「単回帰分析でサンプル・サイズが大きいとき、推定誤差はどうなるのか?」という問いを設定します。この問いは、次に分解できます。
⓪サンプル・サイズとは何か?
①どんな仮定の単回帰モデルか?
②推定手法による単回帰分析か?
⑤推定誤差とは?
⑥ 問い⓪〜⑤を踏まえて、サンプル・サイズが大きいとき、推定誤差はどうなるのか?
(2)前提の選択
⓪〜⑤を前提とします。
(3)論点の選択
⑥を論点とします。
(4)付録一覧
冗長さを避けて、可読性を上げるために、以下の内容は付録に回します。
「一致性について」「モンテカルロ・シミュレーションを行うRコード」
前提
サンプル・サイズ
サンプル・サイズとは、調査で得られたサンプルの個数です。ちなみにサンプル数は調査の回数なので、間違いないようにしてください。
単回帰モデル
単回帰モデルとは
$$Y=\beta_0+\beta_1X+U$$
$$Y:目的変数、X:説明変数$$
$$\beta:母回帰係数、U:誤差項$$
というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。なお、本稿では以下の条件を仮定します。
$$1.母集団モデルが単回帰モデルに従う$$
$$2.標本が無作為抽出$$
$$3.説明変数Xの分散が0でない$$
$$4.外生性:E(U|X)=0$$
単回帰分析
単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。
サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。
$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$
$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$
本稿では最小二乗法(OLS)による単回帰分析を行います。
推定誤差
最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は
$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
です。この推定誤差は、確率変数です。詳細は単回帰分析における最小二乗(OLS)推定量の推定誤差とは?をご覧ください。
方法
シミュレーションで確かめます。
①次のモデルに従う母集団を想定します。ただし、XとUは独立です。
$$Y=2+X+U$$
②ここからサンプル・サイズnを乱数生成して、標本とします。そして、回帰係数を最小二乗法で推定します。例えば、n=1万でやってみると、次のような標本が生成されます。

③生成された標本で回帰分析をして、推定値を記録します。例えば、上の場合、次のように推定されました。
$$Y=2.0164+0.9908X+U$$
④ 手順②と③を1万回くらい返して、推定値の記録を集め、これを推定量の分布とみまします。
結果
推定値の分布
サンプル・サイズnを色々変えて、推定値の分布を調べます。
下図はサンプル・サイズ10のときの推定値の分布です。真の値は1ですが、0〜2まで広く推定値があります。↓

下図はサンプル・サイズ100のときの推定値の分布です。0.5~1.5までの間に推定値が収まっていますね。↓

下図はサンプル・サイズ1万のときの推定値の分布です。1万回シミュレーションしても0.9〜1.1の間から出た例は皆無です。↓

下図はサンプル・サイズ10万のときの推定値の分布です。最小二乗法による推定値が、真の値である1近傍に収束しているようです。↓

サンプル・サイズが大きくなると、とりうる推定値はパラメーター近傍に収束し、推定誤差がどんどん小さくなっているように見えます。
実は、最小二乗法による単回帰分析には、一定の条件が満たされると、「一致性」をもつことが知られています。一致性の意味、正確な定義、成立するための条件については、付録で詳しく触れたのでぜひ読んでください。
考察
(1)結論
最小二乗法による単回帰分析は、サンプル・サイズが大きいと、真の値に近い推定値を得ることができます。
(2)妥当性評価
前提評価
サンプル・サイズ、母集団モデル、推定方法、仮定がクリアでGoodです。また、シミュレーションのコードも付録についているのでGoodです。
前提に入れず、本論でも一致性の証明はしていないのに「〜と知られています」と唐突に本論に出したのはBadです。
方法評価
モンテカルロ・シミュレーションで視覚的に議論したのはGoodです。
一つの例しかシミュレーションしていないので一般性に欠けており、Badです。
結論評価
教科書通りの結果になったのがGoodです。
サンプル・セレクション・バイアスや、具体的にどのくらいのサンプル・サイズが必要なのかについて議論できていないのがBadです。
(3)意義
最小二乗推定の適切さやサンプル・サイズの重要性が理解できます。
付録:一致性について
一致性とは
$$サンプル・サイズnが無限大のとき$$
$$推定量\widehat{\theta}_nがパラメーター\thetaに確率収束する$$
$$n→∞のとき \widehat{\beta_1}→\beta_1$$
です。一致性の正確な定義は
$$任意の\epsilon >0に対して、n→∞のとき$$
$$P(|\widehat{\theta}_n -\theta|>\epsilon )=0$$
ただし
$$n:サンプル・サイズ、\widehat{\theta}_n:nでの推定値、\theta:パラメーター$$
$$P(A>B):AがBより大きい確率$$
$$|X|:Xの絶対値$$
です。最小二乗法による単回帰分析にて、一致性をもつための条件とは、
$$1.母集団モデルが単回帰モデルに従う$$
$$2.標本が無作為抽出$$
$$3.説明変数Xの分散が0でない$$
$$4.外生性:E(U|X)=0$$
です。条件4については
$$4-1.誤差項の期待値ゼロ:E(U)=0$$
$$4-2. 説明変数Xと誤差項Uの共分散ゼロ:Cov(X,U)=0$$
に緩和することもできます。
付録:Rコード
sample_size <- 10000 #サンプル・サイズ10000で設定。100、100、1000、100000でも可能。ただし、大きいと計算時間がかかります。
trial_number <- 10000 #試行回数10000
beta_1 <- rep(NA, trial_number) #データ列作成
#繰り返し処理
for(i in 1:trial_number){
x <- rnorm(n=sample_size, mean =3, sd=1) #説明変数x
u <- rnorm(n=sample_size, mean =0, sd=1) #誤差項u
y <- 2 + 1*x+ u #目的変数y
answer <- lm(y~x) #回帰分析
#回帰分析の係数の2番目(要はxの回帰係数)を取り出して、箱beta_1のi番目に格納する
beta_1[i] <- answer$coef[2]
}
#ヒストグラムを描画(横軸は0.5から1.5の範囲、階級数は30)
hist(beta_1,xlim=c(0,2),breaks=30)
カテゴリー