Gregor & Stateer

더미변수와 Sample Size의 연관성

2017.06.27 15:44

관리자 조회 수:2570

안녕하세요,

그레거앤 스태티어(www.stateer.com) 입니다.

 

사회과학 연구에서 더미변수 사용의 무분별함을 많이 봐왔습니다.

더미변수는 이산형 변수 또는 명목형 변수를 회귀모형 상에 적용하기 위한

변수생성 기법으로, 예를 들어 성별의 경우 남자는 1, 여자는 0으로 변환하여

모형에 투입하는 방법입니다.


더미변수에서는 반드시 참조범주가 있게 됩니다.

앞에서 거론한 바와 같이 성별의 경우 남자는 1, 여자는 0으로 Recode해서 분석할 경우

여자가 참조범주가 되는 것입니다.


만약, 성별(남녀), 학년(1~4 학년), 교육참여여부(참여 및 비참여)를 더미처리하여 모형에 투입하고자 할 때,

성별은 1 개의 더미변수, 학년은 3 개의 더미변수, 교육참여여부는 1 개의 더미변수를 생성하게 됩니다.

이럴 경우, 총 5 개의 더미변수가 생성되는데 각각의 경우의 수를 따지게 되면 2의 5제곱=32 개의 경우의
수가 도출됩니다. 즉, 32 개의 모형이 도출될 수 있는데, 각 모형 당 30 개의
데이터가 보장이 된다고 하더라도 약 900 개 이상의 데이터가 필요로 하게 됩니다.

무분별한 더미변수의 회귀모형상의 투입보다는 사전에 투입여부를 고려하여 회귀모형 상에

투입할 것을 권고드립니다.


주요사항들에 대한 교육자료를 공유합니다.

첨부파일을 연구에서 다양하게 활용되길 기원합니다.


감사합니다.


Michael Shin

President

Gregor & Stateer.

Seoul, Korea

+82-2-6271-7140

Page Top
XE Login