2講:R言語の練習用データを手に入れるには? (パッケージwooldridgeについて)

 しまうまのRでデータ分析入門【全6講】では、統計解析用のプログラミング言語Rで重回帰分析を行い、R MarkdownでPDF化するまでを解説します。

 この記事では、練習用データセットが入っているパッケージ “wooldridge”をご紹介します。

1. 練習用データセットを手に入れる!

(1)wooldridgeとは

 wooldridgeは、有名な計量経済学の教科書Introductory Econometrics: A Modern Approachを書いた学者さんの名前です。このパッケージには、この教科書で使われた115のデータセットが入っています。

(2)パッケージのインストールと呼び出し

 次のコードを実行することで、インストールと呼び出しができます。

#wooldridgeのインストール
install.packages("wooldridge")

#wooldridgeの呼び出し
library(wooldridge)

(3)データセットの一覧を確認する

 このパッケージに含まれるデータセットの一覧は、次のコードで見ることができます。

#パッケージwooldridgeのヘルプを表示
help(package="wooldridge")

(4)データセットの詳細を確認する

 また、データセット名がわかれば、次のコードで中身を確認できます。例えば、データセットsavingの詳細を確認します。

#データ名
saving

#変数内容の確認
?saving

#データ冒頭6行確認
head(saving)

2. さいごに

 Rで統計分析しようにもデータがなければ始まりません。wooldridgeを使うことで、他のサイトからデータを取得する手間を省けます。

 中身が英語で読みづらいですが、Google翻訳DeepLといった自動翻訳サービスを使って確認してみてください。面白そうなデータセットについては「付録」として付けておきました。そちらもご覧ください。

 次回は「3講:Rでデータ分析の第1歩(平均、ヒストグラム、散布図)

付録. データセットの例

※ABC順です。

(1)婚外性交渉

affairs
  • 1978年の論文に使われたデータ
  • 観測数:601
  • 変数:19
  • naffairs:昨年の婚外性交渉数
  • kids:子ども有無
  • educ:教育年数など
図1:横軸が婚外性交渉の回数、縦軸が人数

(2)飛行機運賃

airfare
  • 米国の運輸省データ
  • 観測数:4596
  • 変数:14
  • fare:飛行機の運賃(片道、平均、ドル)
  • passen:乗客数(1日、平均)
  • year:1997、1998、1999、2000(年)

(3)大学の成績と出席率

attend
  • ミシガン州立大学のデータ
  • 観測数:680
  • 変数:11
  • termGPA:ある学期のGPA
  • ACT:高校生が大学進学の際に受けるテストのスコア(SATのようなもの)
  • attend:32講中で出席した数

図2:縦軸が大学での成績、横軸が出席回数

(4)社長の給料(会社編)

ceosal1
  • ビジネスウィーク1991年5月6月号で報告されたデータ
  • 観測数:209
  • 変数:12
  • salary:1990年の給料(千ドル)
  • sales:企業の売上(百万ドル)
  • roe:企業の自己資本利益率

(5)社長の給料(個人編)

ceosal2
  • ceosal1と同じデータ
  • 観測数:177
  • 数:15
  • salary:1990年の報酬
  • college:大学に通っていた=1
  • grad:大学院に通っていた=1
  • ceoten:会社で何年社長をやっているか

(6)経済数学の成績

econmath
  • ミシガン州立大のデータ
  • 観測数:856
  • 変数:17
  • score:経済数学の成績
  • study:1週間の勉強時間
  • hsgpa:高校時代の成績
  • actmth:高校生が大学進学の際に受けるテストACTの数学スコア
図3:縦軸が経済数学の成績、横軸が一週間の勉強時間

(7)幸福

happiness
  • Wooldrigeのデータ
  • 観測数:17137
  • 変数:33
  • happy:一般的な幸福
  • prestige:職業の名声スコア
  • divorce:離婚経験の有無
  • income:家庭の所得
  • tvhours:1日に見るテレビ視聴時間
  • black:アフリカ系

(8)メジャーリーガーの給与

mlb1
  • 1993年4月11日のニューヨークタイムズのデータ
  • 観測数:353
  • 変数:47
  • salary:1993年の給料
  • years:メジャーリーグで過ごした年
  • games:累積試合数
  • hruns:累積ホームラン数
  • so:三振数

(9)フィリップス曲線(インフレと失業)

phillips
  • Economic Report of the Presidentより
  • 観測数:56
  • 変数:7
  • inf:消費者物価指数の変化(%)
  • unem:失業率(%)
  • year:1948〜2003

(10)家賃

rental
  • 学生街のデータ
  • 観測数:128
  • 変数:23
  • rent:平均家賃
  • pop:街の人口
  • pctstu:学生の人口比率
  • city:街のラベル1〜64

(11)貯金

saving
  • データ不明
  • 観測数:100
  • 変数:7
  • sav:年間貯蓄額(ドル)
  • inc:年間所得(ドル)
  • educ:家長の教育年数
  • cons:年間消費額

(12)喫煙

smoke
  • 1997年の論文データ
  • 観測数:807
  • 変数:10
  • cigs:1日あたりのタバコ本数
  • age:年齢
  • income:年間収入

(13)月収

wage2
  • 1992年の論文データ
  • 観測数:935
  • 変数:17
  • wage:月収
  • IQ:IQのスコア
  • educ:教育年数
  • exper:仕事の経験年数
  • lwage:log月収
図4:縦軸が月収(ドル)、横軸がIQ

 次回は「3講:Rでデータ分析の第1歩(平均、ヒストグラム、散布図)

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました