しまうまのRでデータ分析入門【全6講】では、統計解析用のプログラミング言語Rで重回帰分析を行い、R MarkdownでPDF化するまでを解説します。
2講の内容は「パッケージwooldridgeから練習用データを手に入れる」です。
要点
wooldridgeは、有名な計量経済学の教科書Introductory Econometrics: A Modern Approachを書いた学者さんの名前です。このパッケージには、この教科書で使われた115のデータセットが入っています。
次のコードを実行することで、インストールと呼び出しができます。↓
#wooldridgeのインストール
install.packages("wooldridge")
#wooldridgeの呼び出し
library(wooldridge)
このパッケージに含まれるデータセットの一覧は、次のコードで見ることができます。↓
#パッケージwooldridgeのヘルプを表示
help(package="wooldridge")
データセット名がわかれば、中身を確認できます。例えば、データセットsavingの詳細は、つぎのコードで確認します。↓
#データ名
saving
#変数内容の確認
?saving
#データ冒頭6行確認
head(saving)
付録:データセットの例
※ABC順です。
(1)婚外性交渉
affairs
- 1978年の論文に使われたデータ
- 観測数:601
- 変数:19
- naffairs:昨年の婚外性交渉数
- kids:子ども有無
- educ:教育年数など

(2)飛行機運賃
airfare
- 米国の運輸省データ
- 観測数:4596
- 変数:14
- fare:飛行機の運賃(片道、平均、ドル)
- passen:乗客数(1日、平均)
- year:1997、1998、1999、2000(年)
(3)大学の成績と出席率
attend
- ミシガン州立大学のデータ
- 観測数:680
- 変数:11
- termGPA:ある学期のGPA
- ACT:高校生が大学進学の際に受けるテストのスコア(SATのようなもの)
- attend:32講中で出席した数

(4)社長の給料(会社編)
ceosal1
- ビジネスウィーク1991年5月6月号で報告されたデータ
- 観測数:209
- 変数:12
- salary:1990年の給料(千ドル)
- sales:企業の売上(百万ドル)
- roe:企業の自己資本利益率
(5)社長の給料(個人編)
ceosal2
- ceosal1と同じデータ
- 観測数:177
- 数:15
- salary:1990年の報酬
- college:大学に通っていた=1
- grad:大学院に通っていた=1
- ceoten:会社で何年社長をやっているか
(6)経済数学の成績
econmath
- ミシガン州立大のデータ
- 観測数:856
- 変数:17
- score:経済数学の成績
- study:1週間の勉強時間
- hsgpa:高校時代の成績
- actmth:高校生が大学進学の際に受けるテストACTの数学スコア

(7)幸福
happiness
- Wooldrigeのデータ
- 観測数:17137
- 変数:33
- happy:一般的な幸福
- prestige:職業の名声スコア
- divorce:離婚経験の有無
- income:家庭の所得
- tvhours:1日に見るテレビ視聴時間
- black:アフリカ系
(8)メジャーリーガーの給与
mlb1
- 1993年4月11日のニューヨークタイムズのデータ
- 観測数:353
- 変数:47
- salary:1993年の給料
- years:メジャーリーグで過ごした年
- games:累積試合数
- hruns:累積ホームラン数
- so:三振数
(9)フィリップス曲線(インフレと失業)
phillips
- Economic Report of the Presidentより
- 観測数:56
- 変数:7
- inf:消費者物価指数の変化(%)
- unem:失業率(%)
- year:1948〜2003
(10)家賃
rental
- 学生街のデータ
- 観測数:128
- 変数:23
- rent:平均家賃
- pop:街の人口
- pctstu:学生の人口比率
- city:街のラベル1〜64
(11)貯金
saving
- データ不明
- 観測数:100
- 変数:7
- sav:年間貯蓄額(ドル)
- inc:年間所得(ドル)
- educ:家長の教育年数
- cons:年間消費額
(12)喫煙
smoke
- 1997年の論文データ
- 観測数:807
- 変数:10
- cigs:1日あたりのタバコ本数
- age:年齢
- income:年間収入
(13)月収
wage2
- 1992年の論文データ
- 観測数:935
- 変数:17
- wage:月収
- IQ:IQのスコア
- educ:教育年数
- exper:仕事の経験年数
- lwage:log月収

付録:Rを勉強できるサイト
・しまうま総研「R入門」:初心者がRをインストールして重回帰分析するまで解説します。
・しまうま総研「Rコード集」:Rのコードについて解説します。
・矢内勇生「RとRStudioのインストール方法の解説」:Rのインストール方法が詳しく書いてあります。
・森知晴「卒業論文のためのR入門」:昔のしまうまがお世話になったサイトです。コンセプトも似ていて、内容も参考にしました。「Rでデータ分析入門」では扱っていない内容も多く含みます。
・北川梨津「西山 他『計量経済学』のためのR」:有斐閣の分厚い計量経済学の本の実証例を再現するためのコードが書かれているサイトです。
・土井翔平「Rで計量政治学入門」:データの操作、可視化、収集について詳しく書かれたサイトです。
コメント欄 お気軽にコメントをお寄せください!