부업으로 1년에 1억씩 버는 직장인입니다
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 본문
안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 시작하겠습니다.
1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요?
왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다.
'왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다.
우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다.
|skew| < 0.5 : 데이터가 상당히 대칭적이다.
0.5 < |skew| < 2 : 데이터가 적당히 치우쳐있다.
2 < |skew| : 데이터가 상당히 치우쳐있다.
분포가 평균을 중심으로 대칭을 이루는 분포는 가우시안 분포라고도 하는데 skew가 없는 데이터는 모수적 통계에 유리합니다. 예를들어 회귀분석의 경우 잔차의 독립성, 등분산성, 정규성, 선형성 등을 가정하고 있으며 여기서 skew는 정규성에 해당됩니다. 모수적 통계에서 이러한 가정이 만족하는 것은 예측성능을 높이게 됩니다.
우리는 왜도가 있는 경우 일반적으로 변환을 통해서 왜도를 줄여주게 됩니다. 대표적인 변환방법으로는 Log변환이 있고 Box-cox변환까지 다양하게 존재합니다.
데이터를 변환하는 이유는 꼬리에 있는 값을 모델에 제대로 학습시키기 위함입니다.
Skewed 되어있는 값을 그대로 학습시키게 되면 꼬리 부분이 상대적으로 데이터의 양이 적게 사용되기 때문에 모델학습에 반영이 적게됩니다. 즉, 꼬리부분의 데이터들이 중요한 의미를 가지고 있다면 모델은 중요한 의미의 데이터를 반영한 학습이 안될 것이고 test데이터셋을 통한 성능평가에서 좋은 결과를 가지기 어렵게 되겠지요
내용이 길어지다 보니 다음편에도 이어서 계속 진행하도록 하겠습니다. 모두 데이터 분석 화이팅하여 미래대비를 잘 했으면 좋겠습니다~
2022.04.15 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편)
추가적으로 Box-Cox변환은 결국 MLE 방식의 추정법이 되는데
데이터가 음의정수일 때는 수렴하지 않기 때문에 yeo-jhonson 변환이라는 일반화된 변환을 통해 피처들을 정규화 시킬 수 있게됩니다~
'데이터분석 이야기 > 데이터 분석 이야기' 카테고리의 다른 글
의사결정나무(Decision Tree) (0) | 2022.05.12 |
---|---|
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) (0) | 2022.04.15 |
블로그를 시작하며 (0) | 2021.04.08 |