重回帰分析における最小二乗法について / 回帰分析

　線形回帰モデル（単回帰モデル、重回帰モデル）のパラメーターを「最小二乗法(OLS)」で推定する方法についての理解を深める。母集団での回帰モデル、観測された標本、推定されたモデルの３本の式が立てられる。

$$母集団での回帰モデル：Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2+\cdots +\beta_k X_k+U$$

$$観測された標本(データ番号i)：y_i=\beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}+\cdots +\beta_k x_{ki}+u_i$$

$$推定されたモデル(データ番号i)：y_i=\widehat{\beta_0} + \widehat{\beta_1} x_{1i} + \widehat{\beta_2} x_{2i}+\cdots +\widehat{\beta_k} x_{ki}+\widehat{u_i}$$

$$【変数の説明】$$

$$Y：目的変数、X：説明変数$$

$$Y,X,U：確率変数（母集団）、y,x,u：確定変数（観測済）$$

$$i：データ番号。1〜Nまで。サンプルサイズはN$$

$$\beta：母回帰係数（パラメーター）、\widehat{\beta}：標本回帰係数（推定値）$$

$$U,u_i：誤差項、\widehat{u_i}：残差(=誤差項の推定値)$$

$$k：説明変数の数。k=1なら単回帰、k≧2なら重回帰$$

　線形回帰モデルの場合、最小二乗推定とは以下の通りである。なお、RSSとは残差二乗和（residual sum of squares）を意味する

$$【統計モデル一般の場合】$$

$$RSS=\sum_{i=1}^N \widehat{u_i}^2=\sum_{i=1}^N \left[ y_i -f \left( x_i, \widehat{\beta} \right) \right] ^2を最小化する\widehat{\beta}を求める。$$

$$f \left( x_i, \widehat{\beta} \right)：統計モデル$$

$$【統計モデルが重回帰モデルの場合】$$

$$RSS=\sum_{i=1}^N \widehat{u_i}^2=\sum_{i=1}^N \left[ y_i -\widehat{\beta_0} – \widehat{\beta_{1}}x_{1i} – \cdots – \widehat{\beta_{k}}x_{ki} \right] ^2を最小化する\widehat{\beta}を求める。$$

　最小二乗法で得られた推定値は、重回帰モデルにおける外生性E(U|X)=0を前提にしている。上記の残差二乗和を最小化する計算プロセスで式Aが生まれるのだが、外生性E(U|X)=0が成り立つと、式Aは期待値的に成立する。

$$最小二乗法を用いいると残差\widehat{u_i}は、式Aを満たす。$$

$$\sum_{i=1}^n \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=・・・\sum_{i=1}^n x_{ki}\widehat{u_i}=0・・・式A$$

$$外生性E(U|X_1,X_2 \cdots X_k)=0が成り立つと、式Aは期待値的に成立する。$$

$$E(U)=E(X_1 U )=\cdots =E(X_k U)=0・・・式B$$

【追記：問題】

問１：最小二乗法を残差二乗和RSSを用いて説明せよ。また、その１階条件を示せ。

問２：基本統計量の性質を求めよ。問３以降で使用する。また、Σについては次の性質を用いよ。

$$\sum_{i=1}^N y_i=y_1+y_2+\cdots +y_N$$

$$\sum_{i=1}^N a=a+a+\cdots +a=Na$$

$$\sum_{i=1}^N ay_i=a y_i+a y_i+\cdots +a y_i=a \sum_{i=1}^N y_i$$

（１）標本平均の定義から、その性質「偏差の和はゼロ」を導け。

$$標本平均：mean(y)=\bar{y}=\frac{1}{N}\sum_{i=1}^N y_{i}・・・定義$$

$$\sum_{i=1}^N (y_i – \bar{y})=0・・・性質$$

（２）標本共分散の定義から、その性質「共分散とは、2変数の積の平均から、2変数の平均の積を引いたもの」を導け。

$$標本共分散：cov(x_1,y)=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})(y_{i}-\overline{y})・・・定義$$

$$=\frac{1}{N} \left( \sum_{i=1}^N x_{1i} y_{i} \right) – \overline{x_{1}} \bar{y}・・・性質$$

（３）標本分散の定義から、その性質「分散とは、変数の2乗の平均から、変数の平均の2乗を引いたもの」を導け。

$$標本分散：var(x_1)=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})^2・・・定義$$

$$=\frac{1}{N} \left( \sum_{i=1}^N x_{1i}^2 \right) – (\overline{x_{1}} )^2・・・性質$$

問３：単回帰分析（＝単回帰モデルのパラメーターを最小二乗法で推定する分析）におけるβ１が、分母をxとyの標本共分散cov(x,y)、分子がxの標本分散var(x)であることを示せ。

$$【示すもの】$$

$$\widehat{\beta_1}=\frac{共分散cov(x_{1},y)}{分散var(x_1)}$$

$$【利用すべきもの】$$

$$\sum_{i=1}^n \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=0$$

$$【記号の定義】$$

$$単回帰分析の結果：y_i=\widehat{\beta_0}+\widehat{\beta_1} x_{1i}+\widehat{u_i}$$

$$残差：\widehat{u_i}=y_i-\widehat{\beta_0}-\widehat{\beta_1} x_{1i}$$

問４：重回帰分析（＝重回帰モデルのパラメーターを最小二乗法で推定する分析）について次を導け。

$$【示すもの】$$

$$外\sum_{i=1}^N \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=\cdots=\sum_{i=1}^n x_{ki}\widehat{u_i}=0$$

$$【利用すべきもの】$$

$$y_i=\widehat{\beta_0} + \widehat{\beta_1} x_{1i}+\cdots + \widehat{\beta_k} x_{ki}+\widehat{u_i}$$

$$RSS \left( \widehat{\beta_0},\widehat{\beta_1},\cdots , \widehat{\beta_k} \right)=\sum_{i=1}^N \widehat{u_i}^2$$

$$=\sum_{i=1}^N \left( y_i-\widehat{\beta_0} – \widehat{\beta_1} x_{1i}-\cdots – \widehat{\beta_k} x_{ki} \right)^2$$

$$最小二乗法はRSSを最小化する\widehat{\beta}を求める。$$

$$このとき、\frac{\partial RSS}{\partial \widehat{\beta_0}}=\frac{\partial RSS}{\partial \widehat{\beta_1}}= \cdots =\frac{\partial RSS}{\partial \widehat{\beta_k}}=0$$

$$合成関数の微分公式$$

$$\frac{\partial f \left[ x(t),y(t) \right] }{\partial t}=\frac{\partial f \left[ x(t),y(t) \right] }{\partial x(t)}\frac{\partial x(t)}{\partial t}+\frac{\partial f \left[ x(t),y(t) \right] }{\partial y(t)}\frac{\partial y(t)}{\partial t}$$

【追記：解答】

問１：最小二乗法を残差二乗和RSSを用いて説明せよ。また、その１階条件を示せ。

$$RSS \left( \widehat{\beta_0},\widehat{\beta_1}, \cdots ,\widehat{\beta_k} \right)=\sum_{i=1}^N \left[ y_i -\widehat{\beta_0} – \widehat{\beta_{1}}x_{1i} – \cdots – \widehat{\beta_{k}}x_{ki} \right] ^2として$$

$$最小二乗推定値\left( \widehat{\beta_0},\widehat{\beta_1}, \cdots ,\widehat{\beta_k} \right)はRSSを最小化するもの。$$

$$最小二乗推定値\widehat{\beta}は、次を満たす。$$

$$\frac{\partial RSS \left( \widehat{\beta_0},\widehat{\beta_1}, \cdots ,\widehat{\beta_k} \right)}{\partial \widehat{\beta_0}}=\frac{\partial RSS}{\partial \widehat{\beta_1}}= \cdots=\frac{\partial RSS}{\partial \widehat{\beta_k}}=0$$

問２：基本統計量の性質を求めよ。問３以降で使用する。また、Σについては次の性質を用いよ。

（１）標本平均の性質

$$\sum_{i=1}^N (y_{i}-\overline{y})=\sum_{i=1}^N y_{i}- \sum_{i=1}^N \overline{y}$$

$$=N \frac{1}{N}\sum_{i=1}^N y_{i}- N \overline{y}　なぜなら平均\overline{y}をN回合計$$

$$=N \overline{y}- N \overline{y}　なぜなら平均の定義$$

$$よって\sum_{i=1}^N (y_{i}-\overline{y})=0$$

（２）標本共分散の性質

$$定義よりcov(x_1,y)=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})(y_{i}-\overline{y})$$

$$=\frac{1}{N}\sum_{i=1}^N \left[ (x_{1i}-\overline{x_{1}})y_{i}-(x_{1i}-\overline{x_{1}})\overline{y} \right]$$

$$=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})y_{i}-\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})\overline{y}$$

$$=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})y_{i}-\frac{\overline{y}}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})$$

$$=\frac{1}{N}\sum_{i=1}^N (x_{1i}-\overline{x_{1}})y_{i}　なぜなら平均の性質$$

$$=\frac{1}{N}\sum_{i=1}^N x_{1i} y_{i} – \frac{1}{N}\sum_{i=1}^N \overline{x_{1}} y_{i}$$

$$=\frac{1}{N}\sum_{i=1}^N x_{1i} y_{i} – \frac{\overline{x_{1}}}{N}\sum_{i=1}^N y_{i}$$

$$=\frac{1}{N} \left( \sum_{i=1}^N x_{1i} y_{i} \right) – \overline{x_{1}} \bar{y}$$

（３）標本分散の性質

$$共分散の性質を用いると$$

$$cov(x_1,x_1)=\frac{1}{N} \left( \sum_{i=1}^N x_{1i} x_{1i} \right) – \overline{x_{1}} \bar{x_{1}}$$

$$定義よりvar(x_1)=cov(x_1,x_1)であるから$$

$$var(x_1)=\frac{1}{N} \left( \sum_{i=1}^N x_{1i}^2 \right) – (\overline{x_{1}} )^2$$

$$【示すもの】$$

$$\widehat{\beta_1}=\frac{共分散cov(x_{1},y)}{分散var(x_1)}$$

$$【利用すべきもの】$$

$$\sum_{i=1}^n \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=0$$

$$【記号の定義】$$

$$単回帰分析の結果：y_i=\widehat{\beta_0}+\widehat{\beta_1} x_{1i}+\widehat{u_i}$$

$$残差：\widehat{u_i}=y_i-\widehat{\beta_0}-\widehat{\beta_1} x_{1i}$$

$$===$$

$$\sum_{i=1}^N \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=0から導く。$$

$$第一に、\sum_{i=1}^N \widehat{u_i}=0より$$

$$\sum_{i=1}^N (y_i – \widehat{\beta_0} – \widehat{\beta_1} x_{1i})=0$$

$$\sum_{i=1}^N y_i – \widehat{\beta_0} \sum_{i=1}^N 1 – \widehat{\beta_1} \sum_{i=1}^N x_{1i}=0$$

$$ここで両辺をNで割り、\sum_{i=1}^N 1=Nより$$

$$\frac{1}{N} \sum_{i=1}^N y_i – \frac{1}{N} \widehat{\beta_0} N – \frac{1}{N} \widehat{\beta_1} \sum_{i=1}^N x_{1i}=0$$

$$\overline{y} – \widehat{\beta_0} – \widehat{\beta_1} \overline{x_{1}}=0$$
$$よって\widehat{\beta_0} =\overline{y} – \widehat{\beta_1} \overline{x_{1}}・・・式１$$

$$第二に　\sum_{i=1}^n x_{1i}\widehat{u_i}=0より$$

$$\sum_{i=1}^N (y_i – \widehat{\beta_0} – \widehat{\beta_1} x_{1i}) x_{1i}=0$$

$$\sum_{i=1}^N y_i x_{1i}- \widehat{\beta_0} \sum_{i=1}^N x_{1i} – \widehat{\beta_1} \sum_{i=1}^N (x_{1i})^2 =0$$

$$\frac{1}{N} \sum_{i=1}^N y_i x_{1i}- \widehat{\beta_0} \overline{x_{1i}} – \frac{1}{N} \widehat{\beta_1} \sum_{i=1}^N (x_{1i})^2 =0$$

$$ここで式１を代入して$$

$$\frac{1}{N} \sum_{i=1}^N y_i x_{1i}- (\overline{y} – \widehat{\beta_1} \overline{x_{1}}) \overline{x_{1i}} – \frac{1}{N}\widehat{\beta_1} \sum_{i=1}^N (x_{1i})^2 =0$$

$$\frac{1}{N} \left( \sum_{i=1}^N y_i x_{1i} \right)-\overline{x_{1i}} \bar{y} – \widehat{\beta_1} \left[ \frac{1}{N} \left(\sum_{i=1}^N x_{1i}^2 \right)- (\overline{x_{1i}})^2\right]=0$$

$$標本共分散、標本分散の性質より$$

$$cov(x_{1},y)-\beta_1 var(x_{1i})=0$$

$$\beta_1=\frac{cov(x_{1},y)}{var(x_{1i})}$$

問４：重回帰分析（＝重回帰モデルのパラメーターを最小二乗法で推定する分析）についての次を示せ。

$$【示すもの】$$

$$外\sum_{i=1}^N \widehat{u_i}=\sum_{i=1}^n x_{1i}\widehat{u_i}=\cdots=\sum_{i=1}^n x_{ki}\widehat{u_i}=0$$

$$【利用すべきもの】$$

$$y_i=\widehat{\beta_0} + \widehat{\beta_1} x_{1i}+\cdots + \widehat{\beta_k} x_{ki}+\widehat{u_i}$$

$$RSS \left( \widehat{\beta_0},\widehat{\beta_1},\cdots , \widehat{\beta_k} \right)=\sum_{i=1}^N \widehat{u_i}^2$$

$$=\sum_{i=1}^N \left( y_i-\widehat{\beta_0} – \widehat{\beta_1} x_{1i}-\cdots – \widehat{\beta_k} x_{ki} \right)^2$$

$$最小二乗法はRSSを最小化する\widehat{\beta}を求める。$$

$$このとき、\frac{\partial RSS}{\partial \widehat{\beta_0}}=\frac{\partial RSS}{\partial \widehat{\beta_1}}= \cdots =\frac{\partial RSS}{\partial \widehat{\beta_k}}=0$$

$$合成関数の微分公式$$

$$===$$

$$関数f、g_1、\cdots g_Nを次のように設定する。$$

$$なお、関数g_iはデータ番号iの残差であり$$

$$関数fは残差を二乗して合計する関数。$$

$$f(g_1,g_2 ,\cdots, g_i, \cdots ,g_N)=\sum_{i=1}^N g_i^2$$

$$g_i\left[\widehat{\beta} \right]=y_i – \widehat{\beta_0} – \widehat{\beta_1} x_{1i} -\cdots -\widehat{\beta_k} x_{ki} \left( =\widehat{u_i} \right)$$

$$合成関数を考えて、\widehat{\beta}で微分すると$$

$$\frac{\partial RSS}{\partial \widehat{\beta}}$$

$$=\frac{\partial f\left( \cdots \right) }{ \partial g_1\left[\widehat{\beta} \right]}\frac{\partial g_1\left[\widehat{\beta} \right]}{ \partial \left[\widehat{\beta} \right]}$$

$$+\frac{\partial f \left( \cdots \right) }{ \partial g_2\left[\widehat{\beta} \right]}\frac{\partial g_2\left[\widehat{\beta} \right]}{ \partial \left[\widehat{\beta} \right]}$$

$$+\cdots$$

$$+\frac{\partial f \left( \cdots \right) }{ \partial g_i\left[\widehat{\beta} \right]}\frac{\partial g_i\left[\widehat{\beta} \right]}{ \partial \left[\widehat{\beta} \right]}$$

$$+\cdots$$

$$+\frac{\partial f \left( \cdots \right) }{ \partial g_N\left[\widehat{\beta} \right]}\frac{\partial g_N \left[\widehat{\beta} \right]}{ \partial \left[\widehat{\beta} \right]}$$

$$ここで\frac{\partial f \left( \cdots \right) }{ \partial g_i\left[\widehat{\beta} \right]}=2g_i\left[\widehat{\beta} \right]と$$

$$ g_i\left[\widehat{\beta} \right] =y_i – \widehat{\beta_0} – \widehat{\beta_1} x_{1i} – \cdots -\widehat{\beta_k} x_{ki}=\widehat{u_i}を$$

$$用いると導ける。$$

$$\frac{\partial RSS}{\partial \widehat{\beta_0}}=\frac{\partial f\left( \cdots \right) }{ \partial g_1\left[\widehat{\beta} \right]}\frac{\partial g_1\left[\widehat{\beta} \right]}{ \partial \left[\widehat{\beta} \right]}+\cdots$$

$$ =2g_1 \times (-1)+2g_2 \times (-1)+\cdots +2g_N \times (-1)$$

$$=2\widehat{u_1}(-1)+ \cdots +2\widehat{u_i}(-1)+ \cdots + 2\widehat{u_N}(-1)=-2 \sum_{i=1}^N \widehat{u_i}$$

$$ここで\frac{\partial RSS}{\partial \widehat{\beta_0}}=0より\sum_{i=1}^N \widehat{u_i}=0となる。同様に$$

$$\frac{\partial RSS}{\partial \widehat{\beta_1}} =2g_1(-x_{1i})+2g_2(-x_{1i})+\cdots +2g_N(-x_{1N})$$

$$=2\widehat{u_1}(-x_{11})+2\widehat{u_2}(-x_{12})+\cdots +2\widehat{u_N}(-x_{1N})=-2 \sum_{i=1}^N \widehat{u_i}x_{1i}$$

$$ここで\frac{\partial RSS}{\partial \widehat{\beta_1}}=0より\sum_{i=1}^N \widehat{u_i}x_{1i}=0となる。同様に$$

$$\sum_{i=1}^N \widehat{u_i}x_{2i}=0$$

$$\cdots$$

$$\sum_{i=1}^N \widehat{u_i}x_{ki}=0$$

$$よって示された。$$