【超初心者向け】R言語でデータ分析入門

 「しまうまのRでデータ分析入門」は、初心者がRを使えるようになるための記事群です。

R言語とは?

 R言語とは、統計処理に特化したプログラミング言語です。 

使用状況

 Rはデータ分析する様々な人に使われています。

研究者

「Rパッケージ数の飛躍的な増大に見られるとおり、統計学を超えて学問分野や業界を問わず、金融工学・時系列分析・機械学習・データマイニング・バイオインフォマティクスなど、柔軟なデータ解析や視覚化そして知識共有の需要に応え得るR言語の普及は世界的な広がりを見せている。Wikipedia「R言語」」

BBC

「BBCデータチームでは、Rのggplot2ライブラリを使用して、社内スタイルで出版可能なグラフィックを作成するプロセスをより再現性の高いものにし、また、Rを初めて使う人でも簡単にグラフィックを作成できるように、RパッケージとRクックブックを開発しました。(BBC(2019) “BBC Visual and Data Journalism cookbook for R graphics” 翻訳はDeepL)」

利点

 利点は

・データ分析では王道の言語で、使用者が多い

・短いコードで統計処理が実行できる(無料)

・データの美しい可視化ができる(無料)

・使いやすい開発環境がある(無料)

・パッケージによる機能拡張が可能(無料)

・実務経験豊富な第一線のユーザーが開発した最新のパッケージを利用可能(無料)

欠点

 欠点は

・簡単な統計処理やデータの可視化は、エクセルの方がよい

・統計処理以外は苦手

・プログラミング言語であるため、学習の心理的ハードルが高い

・最近はPythonが流行っている

です。

1講:Rの始め方

→1講目は>こちら

 1記事目では、Rのインストールとセットアップを行います。1講が終われば、しまうま総研にあるRコードは回せます。具体的には、次の内容です。

・RとR STudioのインストール

・R Studioの起動

・作業ディレクトリのセットアップ

・スクリプトの保存

2講:練習用データを手に入れる

→2講目は>こちら

 2記事目では、練習用データを手に入れ、中身を確認します。具体的には、次の内容です。

・パッケージ「wooldridge」をイントール

・面白そうなデータセットの紹介

 ちなみに、ウルドリッジは有名な計量経済学の教科書の執筆者です。計量経済学とは、自然科学のように比較実験ができない社会を分析するために独自の発展を遂げた統計学の一種です。

3講:データ分析の第1歩

→3講目は>こちら

 3記事目では、数字による代表値の把握、視覚的な分布の把握をします。具体的には次の内容です。

・ヒストグラムを作成する

・散布図を作成する

4講:重回帰分析をする

→4講目は>こちら

 4記事目では、重回帰分析を行い、美しい分析表をhtml形式で出力します。htmlファイルはブラウザ(Safari、Google Chrome、Internet Explorer、Microsoft Edge、Firefox)で開けます。

・重回帰分析とは

・結果をR Studioで出力する(summary)

・結果をhtmlファイルとして出力する(stargazer)

・複数の結果を一つの表でまとめる

5講:R Markdownでレポートを作成する

→5講目は>こちら

 5記事目では、分析結果をPDFファイルに出力します。具体的な内容は次です。

・R Markdownのセットアップ

・R Markdownで日本語を使えるようにする

・Markdownで文書を作成する

・LateXを使ってみる

・脚注を入れる

・Rの出力結果を反映させる

・重回帰分析の結果を反映させる

6講:オリジナルなデータを読み込ませる

→6講目は>こちら

 6記事目では、練習用データセットではなく、自分のデータセットをRに読み込ませます。読み込ませたら、あとは練習用データと同じです。具体的な内容は次です。

・Excelファイルを読み込む

・csvファイルを読み込む