練習用データwooldridgeについて / R言語

 データ分析にはデータが必要だが、データ分析を練習する際は手元にデータがあるとは限らない。R言語の場合は、データをどこからか持ってくるか、モンテカルロ・シミュレーションで生成するか、パッケージwooldridgeを用いるかの3つの選択肢がある。本稿では、パッケージwooldridgeをご紹介しよう。

 wooldridgeは、有名な計量経済学の教科書Introductory Econometrics: A Modern Approachを書いた学者の名である。このパッケージには、この教科書で使われた115のデータセットが入っている。例えば「婚外性交渉(affairs)」「飛行機運賃(airfare)」「大学の成績と出席率(attend)」「社長の給料(ceosal1, ceosal2)」「経済数学の成績(econmath)」「幸福(happiness)」「メジャーリーガーの給与(mlb1)」「喫煙(smoke)」「月収(wage1, wage2)」などのデータがある。パッケージの説明書は[https://cran.r-project.org/web/packages/wooldridge/wooldridge.pdf]からどうぞ。

図2:縦軸が月収(ドル)、横軸がIQ

 

 Rスクリプトに次のコードを打つことでパッケージwooldridgeのデータセットを使うことができる。以下のコード集には、データセットの呼び出しに加えて、ヒストグラム、散布図、回帰分析、基本統計量表、回帰分析表の出力方法についてもメモしておいた。

#wooldridgeのインストール
install.packages("wooldridge")
 
#wooldridgeの呼び出し
library(wooldridge)
 
#データセット一覧
help(package="wooldridge")
 
#データ名
wage2

#変数内容の確認
?wage2
 
#データ冒頭6行確認
head(wage2)
 
#データフレームwage2のIQのデータ
wage2$IQ
 
#wage2のIQのヒストグラム
hist(wage2$IQ)
 
#横軸にIQ、縦軸にwageの散布図
plot(wage2$IQ,wage2$wage)
 
#説明変数をIQ、目的変数をwageとした単回帰分析
lm(wage ~ IQ , data=wage2)
 
#説明変数をIQとeduc、目的変数をwageとした重回帰分析
lm(wage ~ IQ + educ, data=wage2)
 
#回帰分析の詳細表示
reg1 <- lm(wage ~ IQ + educ, data=wage2) #回帰分析をreg1と名づける
reg2 <- lm(wage ~ IQ + educ + age, data=wage2) #回帰分析をreg2と名づける
summary(reg1) #詳細表示
summary(reg2) #詳細表示
 
#パッケージstargazerを使った美しい回帰分析結果の表示
install.packages("stargazer")
library(stargazer)
stargazer(wage2, type="text") #wage2の基本統計量(サンプルサイズN、平均Mean、標準偏差St. Dev.、最小値Min、最大値Max)
stargazer(reg1, type="text") #reg1の表示
stargazer(reg1, reg2, type="text")  #reg1、reg2の表示