身長が正規分布に従うことはデータから導ける

要約

 身長の分布は正規分布に従っています。図の実線が実際の17歳男女のデータです。色塗り領域が平均と標準偏差を調整した正規分布です。実線と色塗り領域はほぼ重なっていることがわかるでしょう。

※アイキャッチ画像出典(Unsplash

全体像

(1)問題の構造

 問い「身長は正規分布なのか?」を、次のように分解します。

①どの集団について身長か

②正規分布とは何か

③身長は、どんな分布に近いのか

(2)前提の選択

 ①②を前提として選択します。

(3)論点の選択

 ③を論点として選択します。

(4)付録一覧

冗長さを避けて、可読性を上げるために、以下の内容は付録に回します。

「Rコード」

前提

 ①17歳日本人の男女別で考えます。

 ②正規分布とは、平均と標準偏差が定まれば、一意に定まります。

方法

 17歳日本人の男女の実際の身長分布を

・文部科学省「学校保健統計調査-令和3年度」(調査概要のリンク)(データのリンク

から入手します。「実際の身長分布を正規分布と比較して似ていたら、身長の分布は正規分布に従う」ということにします。

結果

(1)平均身長と標準偏差

令和3年度の学校保健統計調査によると

・17歳男子:平均170.8cm、標準偏差5.90

・17歳女子:平均158.0cm、標準偏差5.39

です。正規分布は平均と標準偏差が分かれば、ひとつに決定されます。

(2)身長分布と正規分布を比較する

 データからは1cmごとの出現頻度が得られました。青実線が17歳男子の実際の分布、赤実線が17歳女子の実際の分布です。

 これと

・平均170.8cm & 標準偏差5.90の正規分布(青色塗り部分)

・平均158.0cm & 標準偏差5.39の正規分布(赤色塗り部分)

を比較した結果が次の通りです。

 身長分布と正規分布の形状はかなり似ています。

考察

(1)結論

 実際の身長分布を正規分布と比較して似ているので、身長の分布は正規分布に従うと言えるでしょう。

(2)妥当性評価

前提評価

 男女に分けて考えたのはGoodです。

 17歳の日本人という限定された集団についてしか考えていないのがBadです。

方法評価

 文部科学省の「学校保健統計調査-令和3年度」という信頼できるソースから得られたものから、1cmごとに比率のある実際のデータを用いたのはGoodです。

 感覚的な似ているか否かという曖昧な判断基準を採用したのはBadです。

結論評価

 実際のデータの最頻値や分布のすその広がり具合が、正規分布にとても似ている点がGoodです。

 17歳男子の最頻値について、やや正規分布からはみ出している点がBadです。

(3)意義

 身長に隠された法則性が明らかになって面白いです。

付録

シミュレーションは、R言語を用いて行いました。R言語については「しまうまのRでデータ分析入門」をご覧ください。

 美しい図示のため、パッケージとしてggplot2を用いました。

#パッケージの呼び出し。未インストールならインストール!
library(ggplot2) 

 図示↓ (Dataは学校保健統計調査-令和3年度から作成しました)

ggplot(Data)+
  scale_x_continuous(limits = c(140, 190))+
  geom_ribbon(data=data.frame(X=x<-seq(140,190,len=101), Y=dnorm(x,170.8,5.9)),aes(x=X, ymin=0, ymax=Y),col="white",fill="blue",alpha=0.1)+
  geom_ribbon(data=data.frame(X=x<-seq(140,190,len=101), Y=dnorm(x,158.0,5.39)),aes(x=X, ymin=0, ymax=Y),col="white",fill="red",alpha=0.1)+
  geom_line(aes(x = height, y = man_ratio),col="blue")+
  geom_line(aes(x = height, y = woman_ratio),col="red")+
  xlab("身長(cm)") +
  ylab("1cmあたりの出現頻度") +
  ggtitle ("青実線が17歳男子のデータ、赤実線が17歳女子、色塗り部分が正規分布")+ 
  theme_grey(base_family = "HiraKakuPro-W3") 

コメント欄 お気軽にコメントをお寄せください!

タイトルとURLをコピーしました