要約
身長の分布は正規分布に従っています。図の実線が実際の17歳男女のデータです。色塗り領域が平均と標準偏差を調整した正規分布です。実線と色塗り領域はほぼ重なっていることがわかるでしょう。

※アイキャッチ画像出典(Unsplash)
全体像
(1)問題の構造
問い「身長は正規分布なのか?」を、次のように分解します。
①どの集団について身長か
②正規分布とは何か
③身長は、どんな分布に近いのか
(2)前提の選択
①②を前提として選択します。
(3)論点の選択
③を論点として選択します。
(4)付録一覧
冗長さを避けて、可読性を上げるために、以下の内容は付録に回します。
「Rコード」
前提
①17歳日本人の男女別で考えます。
②正規分布とは、平均と標準偏差が定まれば、一意に定まります。
方法
17歳日本人の男女の実際の身長分布を
・文部科学省「学校保健統計調査-令和3年度」(調査概要のリンク)(データのリンク)
から入手します。「実際の身長分布を正規分布と比較して似ていたら、身長の分布は正規分布に従う」ということにします。
結果
(1)平均身長と標準偏差
令和3年度の学校保健統計調査によると
・17歳男子:平均170.8cm、標準偏差5.90
・17歳女子:平均158.0cm、標準偏差5.39
です。正規分布は平均と標準偏差が分かれば、ひとつに決定されます。
(2)身長分布と正規分布を比較する
データからは1cmごとの出現頻度が得られました。青実線が17歳男子の実際の分布、赤実線が17歳女子の実際の分布です。
これと
・平均170.8cm & 標準偏差5.90の正規分布(青色塗り部分)
・平均158.0cm & 標準偏差5.39の正規分布(赤色塗り部分)
を比較した結果が次の通りです。

身長分布と正規分布の形状はかなり似ています。
考察
(1)結論
実際の身長分布を正規分布と比較して似ているので、身長の分布は正規分布に従うと言えるでしょう。
(2)妥当性評価
前提評価
男女に分けて考えたのはGoodです。
17歳の日本人という限定された集団についてしか考えていないのがBadです。
方法評価
文部科学省の「学校保健統計調査-令和3年度」という信頼できるソースから得られたものから、1cmごとに比率のある実際のデータを用いたのはGoodです。
感覚的な似ているか否かという曖昧な判断基準を採用したのはBadです。
結論評価
実際のデータの最頻値や分布のすその広がり具合が、正規分布にとても似ている点がGoodです。
17歳男子の最頻値について、やや正規分布からはみ出している点がBadです。
(3)意義
身長に隠された法則性が明らかになって面白いです。
付録
シミュレーションは、R言語を用いて行いました。R言語については「しまうまのRでデータ分析入門」をご覧ください。
美しい図示のため、パッケージとしてggplot2を用いました。
#パッケージの呼び出し。未インストールならインストール!
library(ggplot2)
図示↓ (Dataは学校保健統計調査-令和3年度から作成しました)
ggplot(Data)+
scale_x_continuous(limits = c(140, 190))+
geom_ribbon(data=data.frame(X=x<-seq(140,190,len=101), Y=dnorm(x,170.8,5.9)),aes(x=X, ymin=0, ymax=Y),col="white",fill="blue",alpha=0.1)+
geom_ribbon(data=data.frame(X=x<-seq(140,190,len=101), Y=dnorm(x,158.0,5.39)),aes(x=X, ymin=0, ymax=Y),col="white",fill="red",alpha=0.1)+
geom_line(aes(x = height, y = man_ratio),col="blue")+
geom_line(aes(x = height, y = woman_ratio),col="red")+
xlab("身長(cm)") +
ylab("1cmあたりの出現頻度") +
ggtitle ("青実線が17歳男子のデータ、赤実線が17歳女子、色塗り部分が正規分布")+
theme_grey(base_family = "HiraKakuPro-W3")
コメント欄 お気軽にコメントをお寄せください!