単回帰分析のt検定で何がわかるのか?

 単回帰分析で用いるt検定について解説します。仮定している条件、仮説検定の流れ、有意性について詳しく触れました。

要約

(1)問い

 単回帰分析のt検定で何が解るのか?

(2)答え

 「P値が有意水準未満であれば、回帰係数は0ではない」と判断できます。

 ただし、6つの仮定を満たしている必要があります。

(3)意義

  回帰分析で非常に多用される仮説検定について理解できます。

前提

 問いを「単回帰分析のt検定で何が解るのか?」と設定します。

 この記事では以下の定義、仮定、事実を用います。

(1)定義

単回帰モデル

 単回帰モデルとは、母集団にて

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:母回帰係数、U:誤差項$$

が成り立っているモデルです。

単回帰分析

 単回帰分析とは、データと次の回帰式

$$Y=\widehat{\beta_0}+\widehat{\beta_1}X+\widehat{U}$$

$$Y:目的変数、X:説明変数$$

$$\widehat{\beta}:標本回帰係数、\widehat{U}:残差$$

の当てはまりが最も良くなるような標本回帰係数を求める手法です。この記事では、最小二乗法を用いて計算する標本回帰係数について考えます。

t分布

 t分布という確率分布が存在します。詳しくは「正規分布、カイ二乗分布、t分布、F分布」をご覧ください。

 t分布は標準正規分布に似ている確率分布で、自由度によって形状が決定されます。

 例えば、自由度5のt分布は↓です。なお、赤の面積は0.05であり、5%有意の場合の棄却域になる領域です。

 自由度30のt分布は↓です。

 自由度100のt分布は↓です。

t検定

 t検定とは、統計量がt分布に従う場合に利用できる仮説検定の方法です。

 この記事では、標本回帰係数と標準誤差から計算できるt統計量がt分布に従うことを利用して

$$帰無仮説:\beta_1=0$$

$$対立仮説:\beta_1≠0$$

の仮説検定をすることをt検定と呼びます。

t統計量、t値

 回帰分析の場合、t統計量は

$$t統計量=\frac{\widehat{\beta_1}-\beta_1}{SE(\beta_1)}$$

$$\widehat{\beta_1}・・・標本回帰係数、 \beta_1・・・母回帰係数$$

$$SE(\beta_1)・・・標準誤差$$

で定義されます。なお、β1=0のt統計量を特別にt値と言います。

$$t値=\frac{\widehat{\beta_1}}{SE(\beta_1)}$$

P値

 P値とは

・帰無仮説が正しいと仮定したときに

・いま計算された検定統計量より珍しい検定統計量が得られる確率

です。回帰分析におけるP値とは通常

$$帰無仮説\beta_1=0が正しいと仮定したときに$$

$$計算されたt値より珍しいt値が得られる確率$$

です。

(2)仮定する条件

 次の6条件を仮定します。

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$標本が無作為抽出$$

$$説明変数Xの分散が0でない$$

$$外生性:E(U|X)=0$$

$$サンプル・サイズは十分に大きい$$

$$適切な手法で標準誤差を計算した$$

(3)仮定しない条件

 この記事では、以下を「仮定しません」。

$$系列相関なし:誤差項同士の共分散=0$$

$$均一分散:Var(U_i)=\sigma^2$$

$$誤差項の正規性:U_i 〜 N(0,\sigma^2)$$

(4)事実

帰無仮説とt値の関係

 以上の6個の仮定に加えて、

$$帰無仮説:\beta_1=0$$

が正しいとすると、次のt値は、自由度n-2のt分布に従うことが知られています。

$$t値=\frac{\widehat{\beta_1}}{SE(\beta_1)} 〜 t_{n-2}$$

$$\widehat{\beta_1}・・・標本回帰係数、 \beta_1・・・母回帰係数$$

$$SE(\beta_1)・・・標準誤差、n:サンプル・サイズ$$

t値とP値の関係

 サンプル・サイズとt値が決まれば、P値は計算できます。例えば、サンプル・サイズが102個、t値が1.98のとき、P値は0.05です。

方法

(1)問題の構造

 t検定では「帰無仮説か対立仮説のどちらが正しいか」を判断します。報告されるのは、t値、P値になります。

 したがって、問題は

「t値、P値の定義とは何か?」

「t値、P値の数字から、仮説についてどんな判断ができるか?」

に分類できます。

(2)論点と判断基準

 t値とP値の定義はすでに触れました。また、t値が決まればP値が決まります。

 そこで、論点を「P値の数字がどんなとき、仮説についてどんな判断ができるのか?」に絞り込みます。

 P値が有意水準未満か以上かの場合で、仮説の正誤について判断ができれば、答えの要件を満たしているでしょう。

結果

(1)P値<有意水準の場合

P値0.01<有意水準0.05

 t検定の結果、報告されたP値が有意水準より小さかったとしましょう。議論しやすくするために

・P値=0.01

・有意水準=0.05

とします。

P値=0.01が意味すること

 「P値=0.01」が意味するのは、データについての5つの仮定

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$標本が無作為抽出$$

$$説明変数Xの分散が0でない$$

$$外生性:E(U|X)=0$$

$$サンプル・サイズは十分に大きい$$

$$適切な手法で標準誤差を計算した$$

が満たされた上で、

$$帰無仮説:\beta_1=0$$

が正しいと仮定すると、現在のデータより珍しいデータが得られる確率が、P値=0.01であることです。

有意水準=0.05が意味すること

 「有意水準=0.05」が意味するのは

・0.05未満の確率でしか起きない現象 →「偶然の範囲ではあり得ない」とみなす

・0.05以上の確率で起きる現象 →「偶然の範囲であり得る」とみなす

ということです。

帰無仮説の棄却

 したがって、

$$P値0.01<有意水準0.05$$

は「偶然の範囲であり得ない」と見なせます。つまり、帰無仮説が正しいとすると、あり得ないことが起きているわけです。

 ならば、帰無仮説は確率的には正しくないと言えるでしょう。これを帰無仮説の棄却と言います。

 これは同時に対立仮説が確率的には正しいことと言えます。これを対立仮説の採択と言います。

統計的に有意

 最終的に

$$対立仮説:\beta_1≠0$$

が正しいと結論づけられます。ちなみにこれを「統計的に有意」と言います。

(2)P値≧有意水準の場合

P値0.20>有意水準0.05

 t検定の結果、報告されたP値が有意水準より大きかったとしましょう。議論しやすくするために

・P値=0.20

・有意水準=0.05

とします。

P値=0.20が意味すること

 「P値=0.20」が意味するのは、データについての5つの仮定

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$標本が無作為抽出$$

$$説明変数Xの分散が0でない$$

$$外生性:E(U|X)=0$$

$$サンプル・サイズは十分に大きい$$

が満たされた上で、

$$帰無仮説:\beta_1=0$$

が正しいと仮定すると、現在のデータより珍しいデータが得られる確率が、P値=0.20であることです。

帰無仮説は棄却できない

 したがって、

$$P値0.20>有意水準0.05$$

は「偶然の範囲であり得る」と見なせます。つまり、帰無仮説が正しいとしても、あり得ることが起きているわけです。

 ならば、帰無仮説は確率的には正しいとも、正しいとも判断できません。つまり、帰無仮説の棄却はできません。

 これは同時に対立仮説も確率的には正しいとも、正しいとも判断できないことを意味します。つまり、対立仮説の採択はできません。

統計的に有意ではない

 最終的に

$$帰無仮説:\beta_1=0$$

$$対立仮説:\beta_1≠0$$

のどちらかが正しいかは確定できません。ちなみに、これを「統計的に有意はない」と言います。

考察

(1)結論

 単回帰分析におけるt検定とは

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$標本が無作為抽出$$

$$説明変数Xの分散が0でない$$

$$外生性:E(U|X)=0$$

$$サンプル・サイズは十分に大きい$$

$$適切な手法で標準誤差を計算した$$

が満たされた上で

$$P値<有意水準ならば、\beta_1≠0である$$

$$P値≧有意水準ならば、\beta_1=0か\beta_1≠0は不明$$

と解釈できます。

(2)妥当性評価

 今回の結論には多くの仮定が課されています。これらの仮定は次のように整理できます。

問題になりにくい仮定

 「説明変数Xの分散が0でない」はゆるい仮定です。

 「サンプル・サイズは十分に大きい」は比較的に満たしやすい仮定です。

 「適切な標準誤差を用いる」は回帰分析の知識があれば、回避可能な問題です。例えば、不均一分散に頑健な標準誤差、クラスター構造に頑健な標準誤差、HAC標準誤差を知っている必要があります。

問題になりやすい仮定

 「標本が無作為抽出」は問題になりやすいです。「取れたデータを使う」のではなく、「ランダムに抽出したデータを使うこと」が必要です。

致命的な問題になりうる仮定

 以上の仮定は、人間側の努力でなんとかなります。しかし、

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$外生性:E(U|X)=0$$

という仮定は、世界のあり方に関わる問題ですからどうしようもありません。

まとめ

 t検定が機能するには、多くの仮定が必要で、万能ではありません。

(3)意義

 回帰分析で非常に多用される仮説検定について理解できます。

 また、仮定がもたらす限界について明らかにできました。

付録:R言語

 作図には、R言語を用いて行いました。R言語については「しまうまのRでデータ分析入門」をご覧ください。

 美しい図示のため、パッケージとしてggplot2を用いました。

#パッケージ
library(ggplot2) 

 t分布の図↓

#入力部分
a <- 0.05 #有意水準
DF <- 100 #自由度
 
#描画処理
q <- qt(c(a/2,1-a/2),df=100)
ggplot(data = data.frame(X = c(-5, 5)), aes(x = X))+ 
  stat_function(fun = dt, args = list(df = 18))+
  xlab("")+
  geom_ribbon(data=data.frame(X=x<-seq(q[1],q[2],len=101), Y=dt(x,df=18)), aes(x=X, ymin=0, ymax=Y),fill="green",alpha=0.3)+
  geom_ribbon(data=data.frame(X=x<-seq(q[2],   5,len=101), Y=dt(x,df=18)),aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.6)+
  geom_ribbon(data=data.frame(X=x<-seq(  -5,q[1],len=101), Y=dt(x,df=18)),aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.6)+
  scale_x_continuous(limits = c(-4, 4),breaks = seq(-4,4,1))
 
#有意水準のt値
q[1]

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました