重回帰分析の標準誤差について / 最小二乗法

　重回帰分析での最小二乗推定量の標準誤差(SE, standard error)は、次の式で表せる。分母が誤差項の分散の推定値、分子が3つの数の積となる分数を、ルートしたものが、重回帰分析での標準誤差だ。3つの数とは、x1の標本分散、1からx1の削ぎ落とし回帰の決定係数を引いたもの、サンプル・サイズだ。なお、この標準誤差は、外生性や誤差項の均一分散を仮定している。

$$SE \left( \widehat{\beta_1} \right)=\sqrt{ \frac{\widehat{Var(U)}}{ var(x_1) (1-R_1^2)n }} $$

$$モデル　Y=\beta_0 +\beta_1 X_1 +\beta_2 X_2 +\cdots + \beta_kX_k+U$$

$$推定　y_i=\widehat{\beta_0} +\widehat{\beta_1} x_{1i}+\widehat{\beta_2} x_{2i} +\cdots + \widehat{\beta_k}x_{ki}+\widehat{u_i}$$

$$iはデータ番号、nはサンプル・サイズ$$

$$\widehat{Var(U)}は、誤差項の母分散の \widehat{推定値}$$

$$var(x_1) は、x_1の標本分散$$

$$削ぎ落としの回帰　x_{1i}=\widehat{\delta_0} +\widehat{\delta_2} x_{2i} +\cdots + \widehat{\delta_k}x_{ki}+\widetilde{x_{1i}}$$

$$R_1^2は、x_{1i}が目的変数の削ぎ落としの回帰の決定係数$$

　標準誤差の数式から、どんな場合に標準誤差が小さくなり、統計的に有意になりやすいのかがわかる。第①に、母集団モデルの誤差項が小さいと、標準誤差が小さくなる。モデリングが現実を忠実に反映していると、標準誤差が小さくなるというのは、納得しやすい。第②に、説明変数X1の分散が大きいと、標準誤差が小さくなる。たしかに説明変数が広く散らばっているなら、回帰直線の傾きを推定しやすそうだ。線分と線分の間の角度を分度器で測るとき、線分が短いと測りづらいが、線分が長いなら測りやすい。第③に、説明変数X1の削ぎ落としの回帰の決定係数が小さいと、標準誤差が小さくなる。これは「多重共線性が起きていない」「説明変数X1に占めるX1のオリジナルな部分が大きい」と表現できる。第④に、サンプル・サイズnが大きいと、標準誤差が小さくなる。たくさんの事例を集めれば、推定しやすくなるのは当たり前だ。

　標準誤差が小さくするには、③サンプル・サイズを大きくするのが確実だ。①モデリングを精緻化して誤差項を小さくするのもよいが、変数を増やすと②多重共線性が起きやすくなるという副作用が起こる。②説明変数の分散を意図的に増やすことはできない。

【追記】

　この記事での標準誤差は「①定式化に誤りがない」「②無作為抽出」「③完全な共線関係が存在しない」「④外生性」「⑤誤差項が自己相関していない」「⑥誤差項が均一分散している」を仮定している。

　なお、完全な共線関係とは、削ぎ落としの回帰ですべての残差が0になってしまう場合である。多重共線性とは、削ぎ落としの回帰で残差が非常に小さい場合である。

$$削ぎ落としの回帰　x_{1i}=\widehat{\delta_0} +\widehat{\delta_2} x_{2i} +\cdots + \widehat{\delta_k}x_{ki}+残差0$$

　多重共線性の指標としてVIFがあるが、これは標準誤差の中に組み込むことができる。多重共線性があって、VIFが大きくなると、標準誤差が増大するというわけだ。

$$VIF_1=\frac{1}{1-R_1^2}$$

$$SE \left( \widehat{\beta_1} \right)=\sqrt{ \frac{\widehat{Var(U)}}{ var(x_1) n } VIF_1} $$