6講:R言語にオリジナルなデータ(エクセル、CSV)を読み込ませるには?

 しまうまのRでデータ分析入門【全6講】では、統計解析用のプログラミング言語Rで重回帰分析を行い、R MarkdownでPDF化するまでを解説します。

 最終回の6講の内容は「オリジナルなデータを読み込ませる」です。

要点

 CSVデータの読み込み↓

#CSVを読み込み、データフレームに名前を与える
データフレーム名(任意) <- read.csv("csvデータの名前")

 エクセルデータの読み込み↓

#エクセル読み込み用のパッケージを起動
library(readxl)
 
#エクセルを読み込み、データフレームに名前を与える
データセット名(任意) <- read_excel("エクセルファイルの名前")

手順

 次の内容を上から順に確認してください。

(1)作業ディレクトリにCSVデータやエクセルデータがある

 作業ディレクトリにCSVデータやエクセルデータがある必要があります。

 作業ディレクトリの場所は、次のコードで確認できます。

#ディレクトリの確認
getwd()

 出力結果が次の場合、PCのデスクトップのHello_Rというファイルが作業ディレクトリです。このHello_RにCSVデータやエクセルデータがある必要があります。

#出力結果
> getwd()
[1] "/Users/(ユーザー名)/Desktop/Hello_R"

(2)パッケージreadxlのインストール

 エクセル読み込むためのパッケージreadxlを、インストールしてください。各PCで1回だけする必要があります。

#readxlパッケージのインストール
install.packages("readxl")

(3)CSVデータの読み込み

 CSVデータの読み込み↓

#CSVを読み込み、データフレームに名前を与える
データフレーム名(任意) <- read.csv("csvデータの名前")
 
#読み込むデータが「data1.csv」で、data11と命名する
data11 <- read.csv("data1.csv")

(4)エクセルデータの読み込み

 エクセルデータの読み込み↓

#エクセル読み込み用のパッケージを起動
library(readxl)
 
#エクセルを読み込み、データフレームに名前を与える
データセット名(任意) <- read_excel("エクセルファイルの名前")
 
#読み込むデータが「data2.csv」で、data22と命名する
data22 <- read_excel("data2.xlsx")

 

付録:データフレームの確認

 正しくデータが読み込めているのか確認するために、データフレームの中身を見たい場合は、headを使います。

#data0の冒頭6行の確認
head(data0)

#冒頭100行の確認
data0

 記述統計で確認するなら↓です。平均では単位、最大最小値では異常値の問題に気づけます。

#パッケージのインストール。各PCにつき1回
install.packages("summarytools")
 
#パッケージの呼び出し
library(summarytools)
 
#data11の記述統計を確認
descr(data11)

付録:不正なマルチバイト文字があります

 「不正なマルチバイト文字があります」というエラーができたら、最後に「,fileEncoding=”CP932″」を付けると解決するときがあります。

 例えば、読み込むデータが「data0.csv」で、名前をdata1にして、エラー回避をするなら、下のようになります。

data11 <- read.csv("data1.csv" ,fileEncoding="CP932" )

付録:CSVに書き出す

 作業ディレクトリにデータフレームをcsvで出力する方法↓

#作業ディレクトリにデータフレームをcsvで出力する
write.csv(データフレーム名,"csvのファイル名.csv")

付録:Rを勉強できるサイト

しまうま総研「R入門」:初心者がRをインストールして重回帰分析するまで解説します。

しまうま総研「Rコード集」:Rのコードについて解説します。

矢内勇生「RとRStudioのインストール方法の解説」:Rのインストール方法が詳しく書いてあります。

森知晴「卒業論文のためのR入門」:昔のしまうまがお世話になったサイトです。コンセプトも似ていて、内容も参考にしました。「Rでデータ分析入門」では扱っていない内容も多く含みます。

北川梨津「西山 他『計量経済学』のためのR」:有斐閣の分厚い計量経済学の本の実証例を再現するためのコードが書かれているサイトです。

土井翔平「Rで計量政治学入門」:データの操作、可視化、収集について詳しく書かれたサイトです。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました