単回帰分析のt検定で因果関係に迫れる(?)

要約

 単回帰分析のt検定では「説明変数Xが目的変数Yに影響を与えているか」という問いに「迫ること」ができます。なぜなら、XがYに影響を与える際、次のモデルにて「β1≠0」であると考えられ、これはt検定で検証している仮説になるからです。

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:回帰係数、U:誤差項$$

 ただし、後述するようにこれは「t検定が暗黙のうちに仮定する条件」をすべて満たしている場合に使える方法です。したがって、「説明変数Xが目的変数Yに影響を与えているか」という問いに「答えること」ができるとは限りません。

全体像

(1)問題の構造

 「単回帰分析のt検定で何がわかるのか?」という問いを設定します。

 この問いを以下のように分解します。

①単回帰分析では何をするのか

②t検定の手順は何か

②t検定が仮定する条件は何か

④t検定は現実の関心の何に答えてくれるのか

と分解します。

(2)前提の選択

 ①②③を前提として選択します。

(3)論点の選択

 ④を論点として選択します。

(4)付録一覧

 冗長さを避けて、可読性を上げるために、以下の内容は付録に回します。

「t統計量、t値」「t分布 「R言語」

前提

(1)単回帰分析

 データを単回帰モデル

$$Y=\beta_0+\beta_1X+U$$

$$Y:目的変数、X:説明変数$$

$$\beta:回帰係数、U:誤差項$$

で説明するために、単回帰分析をして

$$Y=\widehat{\beta_0}+\widehat{\beta_1}X+\widehat{U}$$

が得られたとします。^がないβは母回帰係数、^があるβは最小二乗法で求めた標本回帰係数とします。

(2)t検定の手順

 t検定は次の手順で行います。

1.帰無仮説と対立仮説

 まず、帰無仮説、対立仮説設定します。回帰分析で一番よく設定される仮説は

$$帰無仮説:\beta_1=0$$

$$対立仮説:\beta_1≠0$$

です。この帰無仮説と対立仮説について考えていきましょう。

2.有意水準

 さらに、有意水準を設定します。0.05に設定されることが多いです。

 有意水準とは「あり得る」か「あり得ない」かを判断する確率です。

 有意水準が0.05であることは

・95%の確率でよく起こる現象 → 「あり得る」

・5%の確率でしか起こらない珍しい現象 → 「あり得ない」

とみなすことを意味します。

3.t統計量を求める

 帰無仮説が正しいと仮定し、t統計量を求めます。

$$t統計量=\frac{\widehat{\beta_1}-\beta_1}{SE(\beta_1)}$$

 β=0の場合のt統計量は、t値とも呼ばれます。

$$t値=\frac{\widehat{\beta_1}}{SE(\beta_1)}$$

4.P値を求める

 エクセルやRではt統計量が与えられると、P値が即座に計算されます。このP値は

$$帰無仮説\beta_1=0が正しいとして$$

$$計算されたt統計量より極端な値を得られる確率$$

です。

5.P値 < 有意水準 の場合、帰無仮説を棄却し、対立仮説を採択する

 P値 < 有意水準の場合、帰無仮説を棄却し、対立仮説を採択します。

 よくある単回帰分析では、この場合

$$対立仮説\beta_1≠0$$

が確率的に正しいとみなせることを意味します。つまり

$$Y=\beta_0 +\beta_1 X +U ただし\beta_1≠0$$

であり、説明変数Xが目的変数Yが相関していることを意味します。

 もっと言えば、説明変数Xが目的変数Yに何らかの影響を与えていることが示唆されます。

6.P値 ≧ 有意水準 の場合、帰無仮説を棄却できず、対立仮説も採択できない

 P値 ≧ 有意水準の場合、帰無仮説を棄却できず、対立仮説も採択できません。

 よくある単回帰分析では、この場合

$$帰無仮説\beta_1=0$$

$$対立仮説\beta_1≠0$$

のどちらが正しいと判断できないことを意味します。

 つまり、説明変数Xが目的変数Yが相関していることを確認できず、説明変数Xが目的変数Yに何らかの影響を与えていることは示唆されなかったことということです。

(3)t検定が暗黙のうちに仮定する条件

 t検定は6条件が正しいことを仮定しています。

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

$$標本が無作為抽出$$

$$説明変数Xの分散が0でない$$

$$外生性:E(U|X)=0$$

$$サンプル・サイズは十分に大きい$$

$$適切な手法で標準誤差を計算した$$

 はじめの4条件が正しいならば、最小二乗法によって計算した標本回帰係数は、不偏性と一致性を持つことが知られています。

 はじめの5条件が正しいならば、最小二乗法によって計算した標本回帰係数は、正規分布に近似できることが知られています。(漸近正規性)

 6条件が正しく、さらに帰無仮説が正しいならば、t統計量はt分布に従うことが知られています。

方法

 なんらかの研究上の仮説を、単回帰分析のt検定で立証できるとしましょう。

 その場合、「t検定はそのような研究上の仮説を立証するという現実の関心に答えてくれる」と言えます。

結果

(1)研究上の仮説

 分析者が「説明変数Xが目的変数Yに影響を与えている」という研究上の仮説を設定したとします。

 そして「Xが大きくなると、Yが大きくなる/小さくなる」という場合を考えると

$$Y=\beta_0+\beta_1X+U$$

という単回帰モデルで近似できそうです。

 このとき、「説明変数Xが目的変数Yに影響を与えている」という研究上の仮説は

$$\beta_1≠0$$

に帰着できます。

(2)t検定への帰着

$$\beta_1≠0$$

はt検定における対立仮説と同じです。したがって

$$帰無仮説\beta_1=0$$

$$対立仮説\beta_1≠0$$

という仮説を考え、t検定によって対立仮説が採択されれば、研究上の仮説が立証できそうです。

(3)まとめ

 t検定によって、P値が有意水準(10%、5%、1%など)未満になれば「説明変数Xが目的変数Yに影響を与えている」ことが示唆されます。

考察

(1)結論

 単回帰分析におけるt検定では「説明変数Xが目的変数Yに影響を与えているか」という問いにこたえることができます。

 具体的には、P値が有意水準未満になっていれば「説明変数Xが目的変数Yに影響を与えているとの示唆」を導けます。

(2)妥当性評価

前提評価

 t検定が暗黙のうちに仮定していた条件を整理しましょう。t検定がゆるい条件で成り立つならば、t検定の結果は信用できます。しかし、厳しい条件でしか成り立たないのであれば、t検定の結果は信用しにくいです。

 次のように満たしやすい条件もあります。↓

$$説明変数Xの分散が0でない$$

 次の条件は、より頑健な標準誤差を使うことで、満たすことができます。↓

$$適切な手法で標準誤差を計算した$$

 気を使わずに取ったデータでは満たせませんが、次の条件は分析者の努力で解決可能です。↓

$$標本が無作為抽出$$

$$サンプル・サイズは十分に大きい$$

 次の条件は分析者の解釈によって、解消可能です。説明変数Xと目的変数Yの関係は「〜が大きければ、〜は大きい/小さい」という関係であり、直線に近似して考えられるとみなすのです。↓

$$データ(X,Y)は独立で同一の分布に従い、単回帰モデルに従う$$

 最後に残った条件は

$$外生性:E(U|X)=0$$

です。これは説明変数Xと誤差項Uは無相関であることを意味します。誤差項は観測できないため、外生性が成り立っているかどうかは、データから検証できません。

結論評価:因果関係には注意

 「説明変数Xから目的変数Yへという因果関係がある」と結論付けるには、留意が必要です。なぜならば、t検定が暗黙のうちに仮定する条件が正しいとは限らないからです。

 特に、外生性については厳しくチェックすることが必要です。しかし、外生性があることはデータから示すことができませんから、分析対象そのものの知識(ドメイン知識)からチェックする必要があります。

 以上より、t検定の結果だけで因果関係の立証はできません。研究上の工夫に加えて、ドメイン知識による精査が必要です。

(3)意義

 極めて頻繁に用いられる回帰分析のt検定についての理解が深められてよかったです。

付録:t統計量、t値

 t統計量とは、一定の条件を満たせば、t分布に従う確率変数です。

 回帰分析の場合、t統計量とは

$$t統計量=\frac{\widehat{\beta_1}-\beta_1}{SE(\beta_1)}$$

$$\widehat{\beta_1}・・・標本回帰係数、 \beta_1・・・母回帰係数$$

$$SE(\beta_1)・・・標準誤差$$

で定義されます。後述する6つの条件と、帰無仮説が正しいとすると、t統計量は、自由度n-2のt分布に従うことが知られています。

 なお、β1=0のt統計量を特別にt値と言います。

$$t値=\frac{\widehat{\beta_1}}{SE(\beta_1)}$$

付録:t分布

 t分布は、1908年にギネスビールに務めるゴセットが発表した確率分布です。

 t分布は標準正規分布に似ている確率分布で、自由度によって形状が決定されます。

 例えば、自由度5のt分布は↓です。なお、赤の面積は0.05であり、5%有意の場合の棄却域になる領域です。

 自由度30のt分布は↓です。

 自由度100のt分布は↓です。

付録:R言語

 作図には、R言語を用いて行いました。R言語については「しまうまのRでデータ分析入門」をご覧ください。

 美しい図示のため、パッケージとしてggplot2を用いました。

#パッケージ
library(ggplot2) 

 t分布の図↓

#入力部分
a <- 0.05 #有意水準
DF <- 100 #自由度
 
#描画処理
q <- qt(c(a/2,1-a/2),df=100)
ggplot(data = data.frame(X = c(-5, 5)), aes(x = X))+ 
  stat_function(fun = dt, args = list(df = 18))+
  xlab("")+
  geom_ribbon(data=data.frame(X=x<-seq(q[1],q[2],len=101), Y=dt(x,df=18)), aes(x=X, ymin=0, ymax=Y),fill="green",alpha=0.3)+
  geom_ribbon(data=data.frame(X=x<-seq(q[2],   5,len=101), Y=dt(x,df=18)),aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.6)+
  geom_ribbon(data=data.frame(X=x<-seq(  -5,q[1],len=101), Y=dt(x,df=18)),aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.6)+
  scale_x_continuous(limits = c(-4, 4),breaks = seq(-4,4,1))
 
#有意水準のt値
q[1]

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました