単回帰分析と最小二乗推定量

 単回帰分析の最小二乗推定量について説明します。

要約

(1)推定値

 単回帰分析の回帰係数(推定値、定数)は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

$$ただし 標本平均\overline{x}=\frac{1}{n}\sum\limits_{i=1}^n x_i$$

です。これは標本抽出が終わり、(x, y)にデータが確定したときの推定値です。小文字は定数を意味します。推定値は定数です。

(2)推定量  ←X,Yが未確定

 単回帰分析の回帰係数(推定量、確率変数)は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

です。これは標本抽出がまだで、(X, Y)が確定していないときの推定量です。大文字は確率変数を意味します。推定量は確率変数です。

(3)推定量 ←xが確定、Yが未確定

 しまうま総研では、後々の計算の簡単化のために、特殊な推定量を考えます。説明変数Xのデータは確定していて、目的変数Yのデータが確定していない場合です。このとき、単回帰分析の回帰係数(推定量、確率変数)は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

です。他の記事の議論では、暗黙のうちに(3)の推定量を使うことが多いです。

単回帰モデル

 単回帰モデルとは

$$Y_i=\beta_0+\beta_1X_i+U_i$$

が母集団で成立するモデルです。ただし

$$i:標本の番号(1からnまである)$$

$$Y:被説明変数(確率変数)$$

$$X:説明変数(確率変数)$$

$$U:誤差項(確率変数)$$

$$\beta_0、\beta_1:回帰係数(定数)$$

です。

単回帰分析

 単回帰分析では、データが次の式との当てはまりが良くなるようなβ0とβ1を「最小二乗法」という手法によって計算します。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}・・・(1)$$

 ただし

$$i:標本の番号(1からnまである)$$

$$x:説明変数の実現値(定数)$$

$$y:被説明変数の実現値(定数)$$

$$\widehat{y}:被説明変数の予測値=\widehat{\beta_0}+\widehat{\beta_1}x_i$$

$$\widehat{u_i}:残差=実現値y-予測値\widehat{y}$$

$$\widehat{β_0}、\widehat{β_1}:回帰係数の最小二乗推定値$$

です。最小二乗法とは、残差を2乗した和RSS(Residual Sum of Squares)

$$残差平方和RSS=\sum_{i=1}^n \widehat{u_i}^2$$

$$=\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)^2$$

が最小になるようなパラメーターを求める方法です。

最小二乗推定値の計算法

1. 最小二乗法

 最小二乗法では、残差平方和RSS

$$RSS=\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)^2$$

を最小化します。

 

2. 正規方程式

 RSSを最小化するとき、RSSをβ0、β1で偏微分※1して

$$\frac{\partial RSS}{\partial \widehat{\beta_0}}=0・・・(2)$$

$$\frac{\partial RSS}{\partial \widehat{\beta_1}}=0・・・(3)$$

が成り立ちます。

 

 

 (2)は合成関数の微分※2より

$$\sum_{i=1}^n -2(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0$$

$$\sum_{i=1}^n (y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0・・・(2^*)$$

Σの中身を分けて

$$\sum_{i=1}^n y_i – n\widehat{\beta_0} -\widehat{\beta_1}\sum_{i=1}^n x_i=0・・・(2^{**})$$

となります。

 

 

 (3)は合成関数の微分より

$$\sum_{i=1}^n -2x_i(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0$$

$$\sum_{i=1}^n x_i(y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i)=0・・・(3^*)$$

Σの中身を分けて

$$\sum_{i=1}^n x_i y_i – \widehat{\beta_0}\sum_{i=1}^n x_i -\widehat{\beta_1}\sum_{i=1}^n x_i^2=0・・・(3^{**})$$

となります。(2**)(3**)は正規方程式と呼ばれます。

※1※2→高校数学の美しい物語へ

 

3. モーメント条件

 ところで、正規方程式に変形する前の(2*)(3*)は

$$\frac{1}{n}\sum_{i=1}^n \widehat{u_i}=0$$

$$\frac{1}{n}\sum_{i=1}^n x_i \widehat{u_i}=0$$

ともかけます。これはモーメント条件と対応しています。モーメント条件については単回帰モデルの記事をご覧ください。

 

4. 回帰係数β0

 (2**)の両辺に1/nをかけて、平均を上に「-」をつけることで表すと

$$\frac{1}{n}\sum_{i=1}^n y_i – \widehat{\beta_0} -\frac{\widehat{\beta_1}}{n}\sum_{i=1}^n x_i=0$$

$$\widehat{\beta_0} = \overline{y} -\widehat{\beta_1}\overline{x}$$

となります。

 

5. 回帰係数β1

 (3*)の両辺に1/nをかけて、平均を上に「-」をつけることで表すと

$$\frac{1}{n}\sum_{i=1}^n x_i y_i – \frac{1}{n}\widehat{\beta_0}\sum_{i=1}^n x_i -\frac{1}{n}\widehat{\beta_1}\sum_{i=1}^n x_i^2=0$$

$$\overline{xy}-\widehat{\beta_0}\overline{x}-\widehat{\beta_1}\overline{x^2}=0$$

 さきほど求めたβ0を代入すると

$$\overline{xy}- (\overline{y} -\widehat{\beta_1}\overline{x})\overline{x}-\widehat{\beta_1}\overline{x^2}=0$$

$$\overline{xy}-(\overline{x})(\overline{y})+\widehat{\beta_1}(\overline{x})^2-\widehat{\beta_1}\overline{x^2}=0$$

$$\widehat{\beta_1}=\frac{\overline{xy}-(\overline{x})(\overline{y})}{\overline{x^2}-(\overline{x})^2}$$

これは共分散の公式※3分散の公式※4より

$$\widehat{\beta_1}= \frac{\frac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\frac{1}{n}\sum\limits_{i=1}^n(x_i-\overline{x})^2} $$

と書けます。したがって、

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

です。これがよく教科書に書いてある単回帰の推定値です。

※3※4→おいしい数学へ

計算可能な条件

 以上の計算は

$$\sum\limits_{i=1}^n(x_i-\overline{x})^2≠0$$

となり、分母=0が回避できれば、計算可能です。

最小二乗推定量

(1)XとYが確率変数

 最小二乗推定値は標本抽出されたデータを用いるので、定数になります。しかし、標本抽出前は確率変数です。これは最小二乗推定量といい

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(X_i-\overline{x})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(X_i-\overline{X})^2 }$$

です。

(2)xは定数、Yは確率変数

 なお、このブログでは、数式の圧を減らすために、説明変数Xのデータは確定していて、目的変数Yのデータが確定していない場合を考えることが多いです。この場合の最小二乗推定量は

$$\widehat{\beta_1}= \frac{\sum\limits_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y}) } {\sum\limits_{i=1}^n(x_i-\overline{x})^2 }$$

です。この仮定は面倒なので逐次的に指摘はしません。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました