データ分析の考え方

 データ分析の考え方について説明します。

データ分析の目的

(1)母集団

 データ分析のときは、必ず調べたい対象があります。この対象全体を母集団と言います。例えば、〇〇大学の学生について調べたければ、〇〇大学の学生が母集団です。

(2)パラメーター

 さらに、データ分析のときは、必ず母集団の一側面を調べようとします。母集団を特徴づける数値をパラメーターと言います。例えば、〇〇大生の平均身長が知りたければ、母平均=163cm(←例)がパラメーターです。

データ分析の現実

(1)問題点:母集団は観測できない

 しかし、多くの場合、母集団を観測できません。第一に、母集団全てを調べるのは現実的でない場合が多いです。〇〇大生すべてからアンケートをとるのは現実的ではありません。(=有限母集団でも全数調査は難しい。)

 第二に、母集団が現象として観測できない場合も多いです。例えば、母集団が出る可能性のあるすべてのサイコロの目である場合、観測すべき数は無限大となります。これは観測できません。(=無限母集団ならそもそも全数調査が不可能)

(2)標本は観測できる

 我々が観察できるのは、標本だけです。

統計学のポイント

(1)統計学の存在意義

 統計学は、母集団を直接観測できない問題を解決しようとする学問です。

(2)統計的推測

 母集団を観測できないなら、観測できる標本を用いて、パラメーターを推定しようとします(統計的推測)。

 推定の計算方法(推定量)、性質(不偏性、一致性など)について知らなくてはいけません。

(3)仮説検定

 さらに、「パラメーターについての仮説」と「得られた推定値」がどれだけ整合的かを確かめます(仮説検定)。

 推定量の検定方法(t検定、F検定など)を知らなくてはいけません。

(4)信頼区間

 仮説検定では、パラメーターについて限定的な仮説しか確かめられません。そこで、信頼区間をもちいて、より情報量の多い区間推定を行います。

データ分析の隠れたポイント

(1)母集団についての仮定

 ところで、母集団が一定の法則(モデル)に従っていると仮定して、分析をスタートする場合があります。例えば、回帰分析では「説明変数X」から「目的変数Y」という関係性を仮定します。

 母集団についての知識(ドメイン知識)に基づき、現実的な仮定のもと、モデルを組み立てる必要があります。

(2)無作為抽出

 また、データ分析は標本しか分析できませんから、母集団の性質を適切に反映する標本を作らなければなりません。なお、無作為抽出は、母集団の性質を適切に反映する標本を作ろうとする手法です。

 どのように観測するかという研究デザインを設計する必要があります。

データ分析のジャンル

 データ分析には大きく分けて4つのジャンルがあります。

(1)記述統計

 一つ目は記述統計です。標本から統計量が求められれば、標本について知ることができます。

(2)推測統計

 二つ目がこの記事で取り上げた推測統計です。標本から母集団について推測しようとします。

(3)因果推論

 三つ目は因果推論です。研究デザインを工夫することにより、相関関係だけではなく、原因と結果という因果関係を知ろうとします。計量経済学が注力している分野です。

(4)予測

 四つ目は予測です。アルゴリズムを工夫することにより、どのような結果になるのかを知ろうとします。機械学習が得意とする分野です。なお、機械学習は「数量」を超えて、自然言語処理、画像認識にも対応可能で、現在盛り上がっております。

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました