最小二乗法

 統計学、計量経済学、機械学習で登場する最小二乗法についてわかりやすく解説します。英語ではordinary least squaresなので、よくOLSと略されます。

要約

 最小二乗法とは、モデルの予測精度が最も良くなるパラメーターを求める方法の一種です。

 具体的には、実現値と予測値の差(=残差)の2乗した総和Sを最小化するパラメーターβを求めます。

最小二乗法

 実現値と予測値の差(=残差)の2乗した総和Sを最小化するパラメーターβを求めるとは

$$\min_{\beta} S=\sum_{i=1}^n (y_i-\widehat{y_i})^2$$

です。数式と変数の意味は以下の通りです。

$$\min_{\beta} S Sを最小化する\beta$$

$$\beta:パラメーター S:残差二乗和$$

$$i:サンプルの番号、n:サンプル・サイズ$$

$$\sum_{i=1}^n A_i =A_1+A_2+\cdots+A_n$$

$$y:実現値(実際のデータ)  \widehat{y}:(モデルによる)予測値$$

単回帰モデルで最小二乗法を理解する

(1)前提:モデルが準備されている

 最小二乗法を行う前に、モデルfを事前に作っておく必要があります。

$$目的変数=f(説明変数)+誤差項$$

 この記事では、xが決まるとyが決まるというモデルの中でも、単回帰モデルを想定して考えます。つまり、母集団では

$$y=\beta_0+\beta_1x+誤差項$$

が成り立つと考えます。

(2)目的:パラメーターの推定

 モデルの構造は準備済みですが、具体的なパラメーターβはわかっていません。わかっていないパラメーターβを予測するのが、最小二乗法の目的です。

 予測値には「^」をつけ、i番目のデータであるとき右下に「i」という番号を書くことにすると、yとβの予測値の関係は

$$\widehat{y_i}=\widehat{\beta_0}+\widehat{\beta_1}x_i$$

となります。

(3)残差

 すると、yの実現値と、yの予測値に差が出てきます。これが残差です。

$$残差=y_i-\widehat{y_i}=y_i-(\widehat{\beta_0}+\widehat{\beta_1}x_i)$$

(4)残差平方和

 残差を2乗して、i=1からi=nまでをすべて足してやった残差平方和Sは

$$S=\sum_{i=1}^n (y_i-\widehat{y_i})^2$$

ですが、これはパラメーターの予測値によって変わります。

(5)最小となるパラメーター

 この残差平方和Sを最小とするパラメーターの予測値を、最小二乗推定量(OLS推定量)と言います。

 単回帰の場合だと

$$\min_{\beta_0,\beta_1} S=\sum_{i=1}^n \{y_i-(\widehat{\beta_0}+\widehat{\beta_1}x_i)\}^2$$

です。これは、残差平方和Sが最小minになるようなパラメーターβを計算するという意味です。

 Rで実際に計算してみたいという方はこちら→「【R】乱数発生させてplotして回帰分析【最小二乗法】

補足:残差と誤差項の違い

 誤差項は、母集団におけるランダムなゆらぎです。残差は、標本における実現値と予測値の差です。

$$y=\beta_0+\beta_1x+誤差項$$

$$y_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+残差$$

最小二乗法の注意点

(1)最小二乗法モデルは間違い

 以上よりわかるのが、最小二乗法はモデルの「パラメーターの推定方法」であって、モデルそのものではないということです。ですから、「最小二乗法モデル」「OLSモデル」という表現は誤りです。

 この記事では

$$y=\beta_0+\beta_1x+誤差項$$

を用いましたが、他にもモデルは

$$y=\beta_1x+誤差項$$

$$y=\beta_0+\beta_1x+\beta_2x^2+誤差項$$

$$y=\beta_0+\beta_1A+\beta_2B+\beta_3C+誤差項$$

というように無数にあり、それぞれに最小二乗法が適用できます。もちろん、推定方法として、最小二乗法が適切でなかったりする場合も多くあります。他の有名な推定方法には、最尤法があります。

(2)残差を用いた他の推定方法

 残差を用いた推定方法で最も有名であるのは、最小二乗法です。↓

$$\min_{\beta} \sum_{i=1}^n (y_i-\widehat{y_i})^2$$

 しかし、他にも最小絶対値法↓

$$\min_{\beta} \sum_{i=1}^n |y_i-\widehat{y_i}|$$

があります。ただし、絶対値だと正負で場合分けする必要があり、計算が面倒です。また、最小四乗法↓

$$\min_{\beta} \sum_{i=1}^n (y_i-\widehat{y_i})^4$$

もありますが、これもまた計算が面倒です。

最小二乗推定量(結論のみ)

 最小二乗推定量、OLS推定量とも言います。

(1)単回帰モデル

$$y=\beta_0+\beta_1x+誤差項$$

という単回帰モデルでは、xとyの平均を上に「ー」をつけて表現すると

$$\widehat{\beta_1}=\frac{\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^n(x_i-\bar{x})^2}$$

$$\widehat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}$$

となることが知られています。

(2)重回帰モデル

$$Y_i=\beta_0+\beta_{1}X_{1i}+\cdots+\beta_{k}X_{ki}+u_i$$
という重回帰モデルでは、β1の最小二乗推定量は

$$\beta_1=\frac{\sum\limits_{i=1}^n Y_{i} \widetilde{X_{1i}}} {\sum\limits_{i=1}^n \widetilde{X_{1i}}^2}$$
ただし
$$\widetilde{X_{1i}}$$
はX1を従属変数、X2・・・Xkを独立変数にして重回帰したときの残差↓

$$X_{1i}=\gamma_0+\gamma_1 X_{2i}+\cdots+\gamma_k X_{ki}+\widetilde{X_{1i}}$$

ということが知られています。(FWL定理)

(3)対数線形化して重回帰モデル

$$Y=e^{\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+u}$$

$$log_eY=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+u$$

と重回帰に帰着させることができます。このように対数を用いて線形モデルに変えることを、対数線形化といいます。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました