しまうまのRでデータ分析入門【全6講】では、統計解析用のプログラミング言語Rで重回帰分析を行い、R MarkdownでPDF化するまでを解説します。
最終回の6講の内容は「オリジナルなデータを読み込ませる」です。
要点
CSVデータの読み込み↓
#CSVを読み込み、データフレームに名前を与える
データフレーム名(任意) <- read.csv("csvデータの名前")
エクセルデータの読み込み↓
#エクセル読み込み用のパッケージを起動
library(readxl)
#エクセルを読み込み、データフレームに名前を与える
データセット名(任意) <- read_excel("エクセルファイルの名前")
手順
次の内容を上から順に確認してください。
(1)作業ディレクトリにCSVデータやエクセルデータがある
作業ディレクトリにCSVデータやエクセルデータがある必要があります。
作業ディレクトリの場所は、次のコードで確認できます。
#ディレクトリの確認
getwd()
出力結果が次の場合、PCのデスクトップのHello_Rというファイルが作業ディレクトリです。このHello_RにCSVデータやエクセルデータがある必要があります。
#出力結果
> getwd()
[1] "/Users/(ユーザー名)/Desktop/Hello_R"
(2)パッケージreadxlのインストール
エクセル読み込むためのパッケージreadxlを、インストールしてください。各PCで1回だけする必要があります。
#readxlパッケージのインストール
install.packages("readxl")
(3)CSVデータの読み込み
CSVデータの読み込み↓
#CSVを読み込み、データフレームに名前を与える
データフレーム名(任意) <- read.csv("csvデータの名前")
#読み込むデータが「data1.csv」で、data11と命名する
data11 <- read.csv("data1.csv")
(4)エクセルデータの読み込み
エクセルデータの読み込み↓
#エクセル読み込み用のパッケージを起動
library(readxl)
#エクセルを読み込み、データフレームに名前を与える
データセット名(任意) <- read_excel("エクセルファイルの名前")
#読み込むデータが「data2.csv」で、data22と命名する
data22 <- read_excel("data2.xlsx")
付録:データフレームの確認
正しくデータが読み込めているのか確認するために、データフレームの中身を見たい場合は、headを使います。
#data0の冒頭6行の確認
head(data0)
#冒頭100行の確認
data0
記述統計で確認するなら↓です。平均では単位、最大最小値では異常値の問題に気づけます。
#パッケージのインストール。各PCにつき1回
install.packages("summarytools")
#パッケージの呼び出し
library(summarytools)
#data11の記述統計を確認
descr(data11)
付録:不正なマルチバイト文字があります
「不正なマルチバイト文字があります」というエラーができたら、最後に「,fileEncoding=”CP932″」を付けると解決するときがあります。
例えば、読み込むデータが「data0.csv」で、名前をdata1にして、エラー回避をするなら、下のようになります。
data11 <- read.csv("data1.csv" ,fileEncoding="CP932" )
付録:CSVに書き出す
作業ディレクトリにデータフレームをcsvで出力する方法↓
#作業ディレクトリにデータフレームをcsvで出力する
write.csv(データフレーム名,"csvのファイル名.csv")
付録:Rを勉強できるサイト
・しまうま総研「R入門」:初心者がRをインストールして重回帰分析するまで解説します。
・しまうま総研「Rコード集」:Rのコードについて解説します。
・矢内勇生「RとRStudioのインストール方法の解説」:Rのインストール方法が詳しく書いてあります。
・森知晴「卒業論文のためのR入門」:昔のしまうまがお世話になったサイトです。コンセプトも似ていて、内容も参考にしました。「Rでデータ分析入門」では扱っていない内容も多く含みます。
・北川梨津「西山 他『計量経済学』のためのR」:有斐閣の分厚い計量経済学の本の実証例を再現するためのコードが書かれているサイトです。
・土井翔平「Rで計量政治学入門」:データの操作、可視化、収集について詳しく書かれたサイトです。
コメント欄 お気軽にコメントをお寄せください!