우리는 범주로 구성되어 있는 자료를 분석할 때 흔히 더미화(원핫인코딩)
등을 통해 자료를 변화시킨다. 과연 이러한 더미화는 모델링에서 어떤 영향
을 미칠까?
회귀모델에서의 더미화
회귀분석에서 주로 얘기되는 더미화는 해당 범주별로 y절편
인 $$beta_0$$를 다르게 주려고 사용한다.
예를 들어 회귀분석을 통해 몸무게를 예측
할 때 성별이라는 변수가 고려
되었다고 한다면, 다른 변수들의 기울기는 모두 같게 나타나지만, 성별이 남자일 때 $$beta_0$$에 남성의 weight만큼 더해지고, 성별이 여성일 때 $$beta_0$$에 여성의 weight 만큼 더해져 좀 더 정교하게 예측하게 된다.
트리모델에서의 더미화
Tree기반 모델에서는 과연 더미화는 어떤 역할을 할까? Tree 기반 모델에서는 더미화가 오히려 성능에 악영향
을 주는경우가 종종 발생한다. 트리모델에서는 범주별로 이진화를 하게 되는데 만약 더미화를 하게되면, 범주별로 변수처럼 인식
하게 되므로 True, False 단 두가지로 분류되게 된다. 즉, 이 경우 더미화를 하게됨으로써 덜 정교하게 예측하게 된다.
물론 절대적인 얘기는 아니다. 다만 자료를 희소하게 만들 수 있다는 것이다. 다만 모델링에서 더미화를 할지 말지는 모델에 따라 고민이 필요하다는 것이다.