単回帰分析における最小二乗(OLS)推定量の推定誤差とは?

要約

 最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は

$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

です。この推定誤差は、確率変数です。

全体像

(1)問題の構造

 「単回帰でのOLS推定量の推定誤差とは?」と言う問いを

①単回帰モデルとは?

②単回帰分析とは?

③単回帰分析でのOLS推定量とは?

④推定誤差とは?

⑤以上を踏まえて、単回帰でのOLS推定量の推定誤差とは

に分解します。

(2)前提の選択

 ①〜④を前提にします。

(3)論点の選択

 ⑤を論点として設定します。

(4)付録一覧

前提

(1)単回帰モデル

 単回帰モデルとは

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:母回帰係数、U:誤差項$$

というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。

図2

(2)単回帰分析

 単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。

 サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$

$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$

$$\widehat{u_i}:残差=実現値y_i-予測値\widehat{y_i}$$

(3)最小二乗推定量(OLS推定量)

 最小二乗法での標本回帰係数は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

です。なお、大文字は確率変数を意味します。データ取得前の状況を想定しています。詳しくは「単回帰分析での最小二乗法」をご覧ください。

(4)推定誤差

 推定誤差を「推定値ーパラメーター」と定義します。つまり

$$推定誤差=\widehat{\beta_1}-\beta_1$$

です。

結果

(1)最小二乗推定量からスタート

 最小二乗推定値は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

です。

(2)計算

 (YiーYの平均)の部分で分けて

$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }+\frac{\sum\limits_{i=1}^n(X_i-\overline{X}) \overline{Y}} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

となります。Yの平均はデータ番号iによって変化しませんからΣの外に出せて

$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }+\overline{Y} \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

それぞれのXとXの平均の差の合計はゼロですので

$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

となります。

(3)単回帰モデルの導入

 単回帰モデルを想定するとYを

$$=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(\beta_0+\beta_1X_i+U_i) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

と書き換えられます。ちなみに、パラメーターについて線形の仮定を課していますが、Uには何の仮定もおいていません。さて、このΣを分割して

$$=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})\beta_0 } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})\beta_1X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

データ番号iによって変わらないβを前にくくり出して

$$=\beta_0 \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \beta_1 \frac{\sum\limits_{i=1}^n(X_i-\overline{X})X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

それぞれのXとXの平均の差の合計はゼロでなので

$$=0 + \beta_1 \frac{\sum\limits_{i=1}^n(X_i-\overline{X})X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})X_i } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

2項目は約分できるので

$$=\beta_1 + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

になります。

(4)OLS推定量をパラメーターで表す

 したがって、最小二乗法(OLS)によって導かれた標本回帰係数(推定量)は、母回帰係数(パラメーター)を用いて表すと

$$\widehat{\beta_1}=\beta_1 + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

となります。

(5)推定誤差

 したがって、推定誤差は下式になります。

$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

考察

(1)結論

 最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は

$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$

です。

(2)妥当性評価

前提評価

 母集団モデル、推定モデル、推定方法、推定誤差について前提を明確にしているのはGoodです。

 暗黙のうちに単回帰モデルの線形性を仮定していたのはBadです。

結論評価

 教科書に載っているのと同じ結果が出たのはGoodです。

(3)意義

 この結果は、不偏性、一致性、標準誤差、t検定の議論をする出発点になるので重要です。