単回帰分析における最小二乗(OLS)推定量とは?

要約

 サンプル・サイズnのデータを次のモデル式

$$Y=\beta_0+\beta_1X+U$$

で最小二乗法(OLS)で推定した標本回帰係数は

$$\widehat{\beta_0} = \overline{y} -\widehat{\beta_1}\overline{x}$$

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

です。

全体像

(1)問題の構造

「単回帰分析の最小二乗推定量とは何か?」という問いを設定します。この問いを

①単回帰モデルとは何か

②単回帰分析とは何か

③最小二乗法(OLS)とは何か

④以上を踏まえて、単回帰分析の最小二乗推定量とは何か

に分解します。

(2)前提の選択

 ①②③を前提にします。

(3)論点の選択

 ④を論点とします。

前提

(1)単回帰モデル

 単回帰モデルとは

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:母回帰係数、U:誤差項$$

というモデルです。大文字は確率変数であることを意味します。詳しくは「単回帰モデル」をご覧ください。

図2

(2)単回帰分析

 単回帰分析とは、データの母集団が単回帰モデルに従うと仮定して、そのパラメーターβを推定することです。

 サンプル・サイズがnの場合、データ番号i=1,2,3…nと振ることができます。また、実現値を小文字、推定値を「^」とすると、次のように表せます。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$

$$\widehat{\beta_0}、\widehat{\beta_1}:標本回帰係数=母回帰係数の推定値$$

$$\widehat{u_i}:残差=実現値y_i-予測値\widehat{y_i}$$

(3)最小二乗法

 最小二乗法は、残差の二乗した和RSS(Residual Sum of Squares)を最小化するβを推定値とみなす方法です。

$$\min_{\widehat{\beta_0},\widehat{\beta_1}}RSS=\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)^2$$

 なお、機械学習の文脈で言うと、残差平方和は損失関数(Loss function)の一種といえます。平均二乗誤差(MSE:Mean Squared Error)は

$$残差平方和RSS=\sum_{i=1}^n (y_i-\widehat{y_i})^2$$

$$平均二乗誤差MSE=\frac{1}{n}\sum_{i=1}^n (\widehat{y_i}-y_i)^2=\frac{1}{n} RSS$$

という関係にあります。

結果

(1)正規方程式、モーメント条件

$$RSS=\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)^2$$

を最小化する際、RSSをβ0、β1で偏微分した

$$\frac{\partial RSS}{\partial \widehat{\beta_0}}=0・・・①$$

$$\frac{\partial RSS}{\partial \widehat{\beta_1}}=0・・・②$$

が成り立ちます。まず、①は合成関数の微分より

$$\sum_{i=1}^n -2(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0$$

$$\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0・・・③$$

Σの中身を分けて

$$\sum_{i=1}^n y_i – n\widehat{\beta_0} -\widehat{\beta_1}\sum_{i=1}^n x_i=0・・・④$$

となります。次に、②も合成関数の微分より

$$\sum_{i=1}^n -2x_i(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0$$

$$\sum_{i=1}^n x_i(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0・・・⑤$$

Σの中身を分けて

$$\sum_{i=1}^n x_i y_i – \widehat{\beta_0}\sum_{i=1}^n x_i -\widehat{\beta_1}\sum_{i=1}^n x_i^2=0・・・⑥$$

となります。④⑥は正規方程式と呼ばれます。ちなみに、③⑤はモーメント条件と対応しています。

(2)β0

 ④の両辺に1/nをかけて、平均を上に「-」をつけることで表すと

$$\frac{1}{n}\sum_{i=1}^n y_i – \widehat{\beta_0} -\frac{\widehat{\beta_1}}{n}\sum_{i=1}^n x_i=0$$

$$\widehat{\beta_0} = \overline{y} -\widehat{\beta_1}\overline{x}$$

となります。

(3)β1

 ⑥の両辺に1/nをかけて、平均を上に「-」をつけることで表すと

$$\frac{1}{n}\sum_{i=1}^n x_i y_i – \frac{1}{n}\widehat{\beta_0}\sum_{i=1}^n x_i -\frac{1}{n}\widehat{\beta_1}\sum_{i=1}^n x_i^2=0$$

$$\overline{xy}-\widehat{\beta_0}\overline{x}-\widehat{\beta_1}\overline{x^2}=0$$

 さきほど求めたβ0を代入すると

$$\overline{xy}- (\overline{y} -\widehat{\beta_1}\overline{x})\overline{x}-\widehat{\beta_1}\overline{x^2}=0$$

$$\overline{xy}-(\overline{x})(\overline{y})+\widehat{\beta_1}(\overline{x})^2-\widehat{\beta_1}\overline{x^2}=0$$

$$\widehat{\beta_1}=\frac{\overline{xy}-(\overline{x})(\overline{y})}{\overline{x^2}-(\overline{x})^2}$$

これは共分散の公式分散の公式より

$$\widehat{\beta_1}= \frac{\frac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\frac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})^2} $$

と書けます。したがって、

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

です。

考察

(1)結論

 単回帰分析を最小二乗法でやるとき、その推定量は次の式で求められる。

$$\widehat{\beta_0} = \overline{y} -\widehat{\beta_1}\overline{x}$$

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

(2)妥当性評価

前提評価

 単回帰モデルと単回帰分析を明確に区別したのはGoodです。

 共分散、分散の公式を含めなかったのはBadです。

結論評価

 教科書と同じ答えが出ているのでGoodです。

$$\sum\limits_{i=1}^n(x_i-\overline{x})^2=0$$

の場合、β1の最小二乗推定量の計算式の分母が0になってしまうのがBadです。ただ、単回帰モデルの仮定3で回避されています。(→単回帰モデル

(3)意義

 単回帰分析の基本がわかります。