標準誤差

 標準誤差について説明します。

意味

(1)標準誤差

 標準誤差(Standard Error、SE)とは、

  • 母集団から生まれた標本から
  • 計算した統計量が
  • どの程度バラついているか

を意味する数字です。どれくらいパラメーターとの誤差(Error)があるのかとも言い換えられます。もちろん、小さい方が望ましいです。

(2)例

 例えば、全数が200個、パラメーター1.01の母集団を考えます。そこから10個の標本を抽出して、パラメーターを推定します。すると、標本の抽出の仕方によって、推定値がバラついてしまいます。

 これは例えば、下図のように表せます。

図1

 とはいえ、これはあり得る標本の2つの例にすぎません。そこで、ありえる標本を10000個作って、推定値を計算しました。この推定値の分布は、下図です。推定値にばらつきがあるのがわかります。

図2

(3)標準誤差の重要性

 標準誤差は、仮説検定に必要な概念です。だから、重要な概念です。

数式的な理解

 標準誤差とは次の式で表せます。

$$標準誤差SE=\sqrt{ \widehat {Var \big( \widehat{\theta} \big)} }$$

$$\theta:パラメーター、 \widehat{\theta}:推定量$$

$$Var(X):Xの母分散、 \widehat {Var(X)}:Xの標本分散$$

 「標本」と言う点が重要です。わかりにくいので、具体例で補足します。

標本平均の標準誤差

 具体例として、標本平均の標準誤差を取り上げます。なお、結論としては

$$標本平均の標準誤差SE = \sqrt { \frac{ \widehat{\sigma^2} }{n}} $$

です。

統計量

 標本平均とは

$$標本平均\overline{X}=\frac{X_1+X_2+\cdots + X_n}{n}$$

$$ \overline{X}:標本平均、X:データ、n:標本の数$$

という統計量です。

統計量の性質

 Xが独立同一分布に従うと仮定すると、中心極限定理より、標本平均は

$$\overline{X} 〜 N \Big(\mu, \frac{\sigma^2}{n} \Big)$$

$$\overline{X} 〜 N:標本平均は正規分布に従う$$

$$N(A,B):平均A、分散Bの正規分布$$

$$\mu:Xの母平均、 \sigma^2:Xの母分散$$

であることが知られています。

統計量の母分散

 つまり、標本平均の母分散は

$$Var \big( \widehat{\theta} \big)= \frac{\sigma^2}{n}$$

$$\widehat{\theta}=\overline{X}$$

です。

統計量の母標準偏差

 標準偏差は分散をルートしたものです。つまり、標本平均の母標準偏差SDは

$$標本平均の母標準偏差SD= \sqrt {Var \big( \widehat{\theta} \big)}=\sqrt { \frac{\sigma^2}{n}}$$

$$\widehat{\theta}=\overline{X}$$

です。

統計量の標準誤差

 しかし、肝心の母分散

$$\sigma^2:Xの母分散$$

は観測できませんので、データから推定しなければなりません。そこで、観測できる標本分散で代用することにします。※不偏分散を用います。

$$\widehat{\sigma^2}:Xの標本分散$$

 これで代用したのが標準誤差SEです。つまり「統計量の母標準偏差」の推定値が、「統計量の標準誤差」なのです。

$$標本平均の標準誤差SE=\sqrt{ \widehat {Var \big( \widehat{\theta} \big)} } = \sqrt { \frac{ \widehat{\sigma^2} }{n}} $$

$$\widehat{\theta}=\overline{X}$$

仮説検定とのつながり

 だからなんですか?と思われるでしょう。この標準誤差は、仮説検定で非常に重要な役割を果たします。

z統計量

 例えば、次のようにz統計量を作ってやると、z統計量は標準正規分布N(0,1)に従います。

$$z統計量=\frac{\overline{X}-\mu}{SD} 〜 N(0,1)$$

$$\mu:Xの母平均、標本平均の母標準偏差SD= \sqrt { \frac{\sigma^2}{n}}$$

 z統計量を用いた検定をz検定と言います。しかし、SDは標本から計算できないので、z検定は使えません。

t統計量

 次のようにt統計量を作ってやると、t統計量は自由度n-1のt分布に従います。

$$t統計量=\frac{\overline{X}-\mu}{SE} 〜 t_{n-1}$$

$$\mu:Xの母平均、標本平均の標準誤差SE= \sqrt { \frac{ \widehat{\sigma^2} }{n}} $$

 t統計量を用いた検定をt検定と言います。SEは標本から計算できるので、t検定は使えます。

Rコード

 母集団は次のコードで生成しました。

N <- 30 #標本の数

x <- rnorm(n=N, mean =5, sd=2) #正規分布の乱数発生
u <- rnorm(n=N, mean =0, sd=1)  #正規分布の乱数発生

y <- 2 + 0.5*x+ u #回帰モデルに従うデータを生成

data0 <- data.frame(x,y) #データフレームを作成

 上の200個を母集団としましょう。すると、下で出力された数値がパラメーターになります。↓

lm(y ~ x) #データdata0で単回帰分析

 母集団のプロットは↓

library(ggplot2) #パッケージggplot2を呼び出し。インストールしてないない人はインストールする必要あり
 
ggplot(data0, aes(x = x, y = y)) +  #data0の散布図を作成
  geom_point()+
  scale_y_continuous(limits=c(0,10))+
  scale_x_continuous(limits=c(0,10))+
  geom_smooth(method = "lm",se = FALSE)

 data0という母集団から無作為抽出で10個の標本を作ります。↓

library(tidyverse) #パッケージtidyverseを呼び出し。インストールしてないない人はインストールする必要あり
 
data1 <-  sample_n(tbl = data0, size = 10) #data0から10個抜き出して標本とする
 
#data1の散布図を作成
ggplot(data1, aes(x = x, y = y)) +  #data0の散布図を作成
  geom_point()+
  scale_y_continuous(limits=c(0,10))+
  scale_x_continuous(limits=c(0,10))+
  geom_smooth(method = "lm",se = FALSE)

 推定量の分布のヒストグラムは次で作れます。演算に時間がかかるので、焦らず待ちましょう。↓

trial_number <- 1000 #試行回数 
beta_1 <- rep(NA, trial_number) #データ列を作る
 
for(i in 1:trial_number){  #繰り返し操作
  data1 <-  sample_n(tbl = data0, size = 10) #無作為抽出
  answer <- lm(y~x,data1)  #単回帰分析
  beta_1[i] <- answer$coef[2] #データ列に格納
}
 
hist(beta_1,xlim=c(-1,3),breaks=40) #ヒストグラム

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました