単回帰分析と決定係数

 予測精度の指標である決定係数について説明します。

要約

 決定係数は

$$決定係数R^2=\frac{回帰平方和}{全平方和}$$

で定義される予測精度の指標です。決定係数は

$$0≦決定係数R^2≦1$$

であり、予測精度が高いほど1に近づきます。

準備

 概念の準備にお付き合いください。

(1)推定結果

 推定結果が次のようになったとします。

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+\widehat{u_i}$$

 ただし

$$i:標本の番号(1からnまである)$$

$$x:説明変数の実現値(定数)$$

$$y:被説明変数の実現値(定数)$$

$$\widehat{u_i}:残差$$

$$\widehat{\beta_0}、\widehat{\beta_1}:回帰係数の最小二乗推定値$$

(2)予測値

 この推定結果から得られる予測値は

$$予測値:\widehat{y_i}=\widehat{\beta_0}+\widehat{\beta_1}x_i$$

です。この観点からすると、残差は

$$残差\widehat{u_i}=実現値y_i-予測値\widehat{y_i}$$

と定義できます。

(3)全平方和

 実現値と平均の差を二乗した和が全平方和です。全平方和は「説明すべきこと」と言えるでしょう。

$$全平方和TSS=\sum_{i=1}^n (y_i-\overline{y})^2$$

 ただし

$$yの標本平均\overline{y}=\frac{1}{n}\sum_{i=1}^n y_i$$

です。

(4)回帰平方和

 予測値と平均の差を二乗した和が回帰平方和です。回帰平方和は「説明したこと」と言えるでしょう。

$$回帰平方和ESS=\sum_{i=1}^n (\widehat{y_i}-\overline{y})^2$$

(5)残差平方和

 残差の差を二乗した和が残差平方和です。残差平方和が「説明できなかったこと」と言えるでしょう。

$$残差平方和RSS=\sum_{i=1}^n \widehat{u_i}^2=\sum_{i=1}^n (y_i-\widehat{y_i})^2$$

決定係数の定義

 そこで、次のように決定係数を定義してやります。

$$決定係数R^2$$

$$=\frac{説明したこと}{説明すべきこと}$$

$$=\frac{回帰平方和ESS}{全平方和TSS}$$

決定係数の性質

(1)性質1:ESSとRSS

 決定係数はうまくできていて

$$決定係数R^2$$

$$=\frac{説明したこと}{説明すべきこと}$$

$$=1-\frac{説明できなかったこと}{説明すべきこと}$$

となっています。正確には

$$決定係数R^2=\frac{回帰平方和ESS}{全平方和TSS}=1-\frac{残差平方和RSS}{全平方和TSS}$$

です。これを性質1と呼びましょう。あとで証明します。

(2)性質2:0以上1以下

 TSS、ESS、RSSは、すべて平方和ですので、0以上です。したがって

$$R^2=\frac{ESS}{TSS}≧0$$

 RSSの最小値は0ですので

$$R^2=1-\frac{RSS}{TSS}≦1$$

です。したがって、

$$0≦R^2≦1$$

です。ESSが大きいとは、説明できた部分が大きいということですから、モデルの当てはまりがよいということです。このとき、決定係数は1に近くなります。

 実際のデータで決定係数を計算すると、次のようになります。

性質1の証明

(1)TSS=ESS+RSS

 まず、TSS=ESS+RSSを証明します。

$$TSS=\sum_{i=1}^n (y_i-\overline{y})^2$$

内部をわけて

$$=\sum_{i=1}^n (y_i-\widehat{y_i}+\widehat{y_i}-\overline{y})^2$$

残差の定義を思い出して

$$=\sum_{i=1}^n \left(\widehat{u_i}+(\widehat{y_i}-\overline{y}) \right)^2$$

展開してΣを分割して

$$=\sum_{i=1}^n \widehat{u_i}+\sum_{i=1}^n 2\widehat{u_i}(\widehat{y_i}-\overline{y}) +\sum_{i=1}^n (\widehat{y_i}-\overline{y})^2$$

ESSとRSSの定義より

$$=RSS+\sum_{i=1}^n 2\widehat{u_i}(\widehat{y_i}-\overline{y}) +ESS・・・(※1)$$

です。

(2)証明 続

$$\sum_{i=1}^n \widehat{u_i}(\widehat{y_i} -\overline{y}) =0・・・(※2)$$

を証明します。単回帰分析と最小二乗推定量の式(4)(5)より

$$\sum_{i=1}^n \widehat{u_i}=0・・・(※3)$$

$$\sum_{i=1}^n x_i \widehat{u_i}=0・・・(※4)$$

です。ここで

$$\sum_{i=1}^n \widehat{u_i}(\widehat{y_i} -\overline{y}) $$

を展開し

$$=\sum_{i=1}^n \widehat{u_i}\widehat{y_i} +\sum_{i=1}^n \widehat{u_i}\overline{y}$$

とすると

$$=\sum_{i=1}^n \widehat{u_i}\widehat{y_i} +\overline{y} \sum_{i=1}^n \widehat{u_i}$$

yの予測値を展開し、※3より

$$=\sum_{i=1}^n \widehat{u_i} (\widehat{\beta_0}+\widehat{\beta_1}x_i )$$

展開して

$$=\sum_{i=1}^n \widehat{u_i} \widehat{\beta_0} + \sum_{i=1}^n \widehat{u_i} \widehat{\beta_1}x_i $$

これは

$$= \widehat{\beta_0} \sum_{i=1}^n \widehat{u_i} + \widehat{\beta_1} \sum_{i=1}^n x_i \widehat{u_i} $$

ですが※3、※4より

$$=0$$

になります。これで

$$\sum_{i=1}^n \widehat{u_i}(\widehat{y_i} -\overline{y}) =0・・・(※2)$$

が証明されました。

(3)結論

 長くなりましたが、※1と※2の結果より

$$全平方和TSS=RSS+\sum_{i=1}^n 2\widehat{u_i}(\widehat{y_i}-\overline{y}) +ESS$$

$$=残差平方和RSS+回帰平方和ESS$$

になります。ですから

$$決定係数R^2=\frac{回帰平方和ESS}{全平方和TSS}$$

$$=\frac{TSS-RSS}{TSS}$$

$$=\frac{TSS}{TSS}-\frac{RSS}{TSS}$$

$$=1-\frac{残差平方和RSS}{全平方和TSS}$$

になります。これで性質1が証明されました。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました