頑健性について / 推定量の性質

 恵まれた環境でレールに乗った子どもと、恵まれない環境で自らの道を切り開いた子どもでは、人間力が違う気がする。統計学にも似たような概念がある。

 頑健性(robustness)は、必要とされる条件がそろっていなくとも妥当な結果を出力する統計量の性質である。例えば、図1の赤の推定量が頑健性のある推定量だ。図1には、求めたいパラメーターθが80と、赤の推定量と青の推定量の分布が描かれている。赤の推定量は、ある条件が満たされていなくても、パラメーターを偏りなく推定できる。赤の推定量は、恵まれた条件でなくとも力を発揮している。これが頑健性だ。

図1:頑健性のある赤の推定量、頑健性のない青の推定量
出典:しまうま総研(2023)
解説:コードは付録に掲載

 

 しかし、野生児がたくましいからといって、わざわざ我が子を恵まれない環境で育てたいとは思わない。「獅子は我が子を千尋の谷に落とす」と言うが、人間は一人一人の子どもを大事にするし、データ分析でもデータ収集1回1回を大切にしたい。できることなら、ちゃんと観測環境を整えて、標本抽出してあげるのが、データ分析者の務めだ。

 

【追記】

 図1は、次のRコードで作図できる。

library(ggplot2)
ggplot(data = data.frame(X = c(50, 100)), aes(x = X))+ 
  stat_function(fun = dnorm, args = list(mean = 80,sd = 6), color="red")+
  stat_function(fun = dnorm, args = list(mean = 80,sd = 3), color="red")+
  stat_function(fun = dnorm, args = list(mean = 70,sd = 4.8), color="blue")+
  stat_function(fun = dnorm, args = list(mean = 80,sd = 2), color="blue")+
  scale_y_continuous(limits=c(0,0.25))+
  xlab("変数")+
  ylab("確率密度")+
  geom_ribbon(data=data.frame(X=x<-seq(50,100,len=101), Y=dnorm(x,mean=80,sd=2)), aes(x=X, ymin=0, ymax=Y),fill="blue",alpha=0.3)+
  geom_ribbon(data=data.frame(X=x<-seq(50,100,len=101), Y=dnorm(x,mean=70,sd=4.8)), aes(x=X, ymin=0, ymax=Y),fill="blue",alpha=0.3)+
  geom_ribbon(data=data.frame(X=x<-seq(50,100,len=101), Y=dnorm(x,mean=80,sd=3)), aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.3)+
  geom_ribbon(data=data.frame(X=x<-seq(50,100,len=101), Y=dnorm(x,mean=80,sd=6)), aes(x=X, ymin=0, ymax=Y),fill="red",alpha=0.3)+
  theme_grey(base_family = "HiraKakuPro-W3")+
  geom_vline(xintercept =80 )