ダミー変数について / 回帰モデル

 ダミー変数(dummy variable)とは、定性情報を0と1で表現した変数である。例えば、政策あり=1、政策なし=0という政策ダミーが考えられる。ダミー変数は、数値ではない現象をモデルに組み込みたい場合に使う。他には、性別、曜日、選択肢、国名、都道府県、購入の有無などがある。

 ダミー変数の回帰係数βは、ダミー変数は0になる基準カテゴリと比べて、ダミー変数である説明変数Xが目的変数Yに与える効果を意味する。例えば、政策あり=1、政策なし=0という政策ダミーであれば、基準カテゴリは「施策なし=0」になる。そして、β1は「施策なしと比べて、施策ありが目的変数Yに与える効果」つまり政策の効果と解釈できる。

$$Y=\beta_0+\beta_1X_{施策ダミー}+U$$

 

 格差を定量的に測定したいなら、ダミー変数がパワフルなツールとなる。例えば、Yを年収、Xに男ダミーを設定すれば、男女の賃金格差が測定できる。Yを生涯年収、Xを学歴ダミーと設定すれば、学歴格差を測定できる。ただ、残念ながら、回帰係数を差別と解釈するには、内生性という大きな壁を乗り越えなければいけない。男女の賃金格差には、男女差別も、親の教育熱心さも、労働時間の差も、学生時代の勉強時間の差も、すべてが含まれている。

 

【追記】

 n個のカテゴリーをダミー変数とする際は、カテゴリー数から1引いた数のダミー変数を作らないといけない。n個のカテゴリーをn個のダミー変数とすると、完全な共線関係(多重共線性)が発生し、回帰係数の標準誤差が無限大となり、推定ができなくなる。

 例えば「男」「女」「その他」の3カテゴリであれば、2つのダミー変数を作ればよい。男ダミーのD男、女ダミーのD女という具合だ。男は(D男,D女)=(1,0)、女は(D男,D女)=(0,1)、その他は(D男,D女)=(0,0)である。このとき、基準カテゴリは(0,0)の「その他」になる。つまり、β1は「その他」と比べて「男」であることがYに及ぼす効果、β2は「その他」に比べて「女」であることがYに及ぼす効果である。

$$Y=\beta_0+\beta_1X_{男ダミー}++\beta_2X_{女ダミー}+U$$