2講:R言語のパッケージwooldridgeから練習用データを手に入れるには?

 しまうまのRでデータ分析入門【全6講】では、統計解析用のプログラミング言語Rで重回帰分析を行い、R MarkdownでPDF化するまでを解説します。

 2講の内容は「パッケージwooldridgeから練習用データを手に入れる」です。

要点

 wooldridgeは、有名な計量経済学の教科書Introductory Econometrics: A Modern Approachを書いた学者さんの名前です。このパッケージには、この教科書で使われた115のデータセットが入っています。

 次のコードを実行することで、インストールと呼び出しができます。↓

#wooldridgeのインストール
install.packages("wooldridge")

#wooldridgeの呼び出し
library(wooldridge)

 このパッケージに含まれるデータセットの一覧は、次のコードで見ることができます。↓

#パッケージwooldridgeのヘルプを表示
help(package="wooldridge")

 データセット名がわかれば、中身を確認できます。例えば、データセットsavingの詳細は、つぎのコードで確認します。↓

#データ名
saving

#変数内容の確認
?saving

#データ冒頭6行確認
head(saving)

付録:データセットの例

※ABC順です。

(1)婚外性交渉

affairs
  • 1978年の論文に使われたデータ
  • 観測数:601
  • 変数:19
  • naffairs:昨年の婚外性交渉数
  • kids:子ども有無
  • educ:教育年数など
図1:横軸が婚外性交渉の回数、縦軸が人数

(2)飛行機運賃

airfare
  • 米国の運輸省データ
  • 観測数:4596
  • 変数:14
  • fare:飛行機の運賃(片道、平均、ドル)
  • passen:乗客数(1日、平均)
  • year:1997、1998、1999、2000(年)

(3)大学の成績と出席率

attend
  • ミシガン州立大学のデータ
  • 観測数:680
  • 変数:11
  • termGPA:ある学期のGPA
  • ACT:高校生が大学進学の際に受けるテストのスコア(SATのようなもの)
  • attend:32講中で出席した数

図2:縦軸が大学での成績、横軸が出席回数

(4)社長の給料(会社編)

ceosal1
  • ビジネスウィーク1991年5月6月号で報告されたデータ
  • 観測数:209
  • 変数:12
  • salary:1990年の給料(千ドル)
  • sales:企業の売上(百万ドル)
  • roe:企業の自己資本利益率

(5)社長の給料(個人編)

ceosal2
  • ceosal1と同じデータ
  • 観測数:177
  • 数:15
  • salary:1990年の報酬
  • college:大学に通っていた=1
  • grad:大学院に通っていた=1
  • ceoten:会社で何年社長をやっているか

(6)経済数学の成績

econmath
  • ミシガン州立大のデータ
  • 観測数:856
  • 変数:17
  • score:経済数学の成績
  • study:1週間の勉強時間
  • hsgpa:高校時代の成績
  • actmth:高校生が大学進学の際に受けるテストACTの数学スコア
図3:縦軸が経済数学の成績、横軸が一週間の勉強時間

(7)幸福

happiness
  • Wooldrigeのデータ
  • 観測数:17137
  • 変数:33
  • happy:一般的な幸福
  • prestige:職業の名声スコア
  • divorce:離婚経験の有無
  • income:家庭の所得
  • tvhours:1日に見るテレビ視聴時間
  • black:アフリカ系

(8)メジャーリーガーの給与

mlb1
  • 1993年4月11日のニューヨークタイムズのデータ
  • 観測数:353
  • 変数:47
  • salary:1993年の給料
  • years:メジャーリーグで過ごした年
  • games:累積試合数
  • hruns:累積ホームラン数
  • so:三振数

(9)フィリップス曲線(インフレと失業)

phillips
  • Economic Report of the Presidentより
  • 観測数:56
  • 変数:7
  • inf:消費者物価指数の変化(%)
  • unem:失業率(%)
  • year:1948〜2003

(10)家賃

rental
  • 学生街のデータ
  • 観測数:128
  • 変数:23
  • rent:平均家賃
  • pop:街の人口
  • pctstu:学生の人口比率
  • city:街のラベル1〜64

(11)貯金

saving
  • データ不明
  • 観測数:100
  • 変数:7
  • sav:年間貯蓄額(ドル)
  • inc:年間所得(ドル)
  • educ:家長の教育年数
  • cons:年間消費額

(12)喫煙

smoke
  • 1997年の論文データ
  • 観測数:807
  • 変数:10
  • cigs:1日あたりのタバコ本数
  • age:年齢
  • income:年間収入

(13)月収

wage2
  • 1992年の論文データ
  • 観測数:935
  • 変数:17
  • wage:月収
  • IQ:IQのスコア
  • educ:教育年数
  • exper:仕事の経験年数
  • lwage:log月収
図4:縦軸が月収(ドル)、横軸がIQ

付録:Rを勉強できるサイト

しまうま総研「R入門」:初心者がRをインストールして重回帰分析するまで解説します。

しまうま総研「Rコード集」:Rのコードについて解説します。

矢内勇生「RとRStudioのインストール方法の解説」:Rのインストール方法が詳しく書いてあります。

森知晴「卒業論文のためのR入門」:昔のしまうまがお世話になったサイトです。コンセプトも似ていて、内容も参考にしました。「Rでデータ分析入門」では扱っていない内容も多く含みます。

北川梨津「西山 他『計量経済学』のためのR」:有斐閣の分厚い計量経済学の本の実証例を再現するためのコードが書かれているサイトです。

土井翔平「Rで計量政治学入門」:データの操作、可視化、収集について詳しく書かれたサイトです。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました