要約
最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は
$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
です。この推定誤差は、確率変数です。
全体像
(1)問題の構造
「単回帰でのOLS推定量の推定誤差とは?」と言う問いを
①単回帰モデルとは?
②単回帰分析とは?
③単回帰分析でのOLS推定量とは?
④推定誤差とは?
⑤以上を踏まえて、単回帰でのOLS推定量の推定誤差とは
に分解します。
(2)前提の選択
①〜④を前提にします。
(3)論点の選択
⑤を論点として設定します。
(4)付録一覧
前提
(1)単回帰モデル
単回帰モデルとは
$$Y=\beta_0+\beta_1X+U$$
$$Y:目的変数、X:説明変数$$
$$\beta:母回帰係数、U:誤差項$$
というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。

(2)単回帰分析
単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。
サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。
$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$
$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$
$$\widehat{u_i}:残差=実現値y_i-予測値\widehat{y_i}$$
(3)最小二乗推定量(OLS推定量)
最小二乗法での標本回帰係数は
$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
です。なお、大文字は確率変数を意味します。データ取得前の状況を想定しています。詳しくは「単回帰分析での最小二乗法」をご覧ください。
(4)推定誤差
推定誤差を「推定値ーパラメーター」と定義します。つまり
$$推定誤差=\widehat{\beta_1}-\beta_1$$
です。
結果
(1)最小二乗推定量からスタート
最小二乗推定値は
$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
です。
(2)計算
(YiーYの平均)の部分で分けて
$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }+\frac{\sum\limits_{i=1}^n(X_i-\overline{X}) \overline{Y}} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
となります。Yの平均はデータ番号iによって変化しませんからΣの外に出せて
$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }+\overline{Y} \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
それぞれのXとXの平均の差の合計はゼロですので
$$= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})Y_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
となります。
(3)単回帰モデルの導入
単回帰モデルを想定するとYを
$$=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(\beta_0+\beta_1X_i+U_i) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$
と書き換えられます。ちなみに、パラメーターについて線形の仮定を課していますが、Uには何の仮定もおいていません。さて、このΣを分割して
$$=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})\beta_0 } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})\beta_1X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
データ番号iによって変わらないβを前にくくり出して
$$=\beta_0 \frac{\sum\limits_{i=1}^n(X_i-\overline{X}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \beta_1 \frac{\sum\limits_{i=1}^n(X_i-\overline{X})X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
それぞれのXとXの平均の差の合計はゼロでなので
$$=0 + \beta_1 \frac{\sum\limits_{i=1}^n(X_i-\overline{X})X_i} {\sum\limits_{i=1}^n(X_i-\overline{X})X_i } + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
2項目は約分できるので
$$=\beta_1 + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
になります。
(4)OLS推定量をパラメーターで表す
したがって、最小二乗法(OLS)によって導かれた標本回帰係数(推定量)は、母回帰係数(パラメーター)を用いて表すと
$$\widehat{\beta_1}=\beta_1 + \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
となります。
(5)推定誤差
したがって、推定誤差は下式になります。
$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
考察
(1)結論
最小二乗法で求めた標本回帰係数(OLS推定量)の推定誤差は
$$推定誤差=\widehat{\beta_1}-\beta_1= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})U_i } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 } $$
です。
(2)妥当性評価
前提評価
母集団モデル、推定モデル、推定方法、推定誤差について前提を明確にしているのはGoodです。
暗黙のうちに単回帰モデルの線形性を仮定していたのはBadです。
結論評価
教科書に載っているのと同じ結果が出たのはGoodです。
(3)意義
この結果は、不偏性、一致性、標準誤差、t検定の議論をする出発点になるので重要です。
カテゴリー