부업으로 1년에 1억씩 버는 직장인입니다

왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) 본문

데이터분석 이야기/데이터 분석 이야기

왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편)

미래대비자 2022. 4. 15. 09:43
반응형

안녕하세요 미래대비자 입니다. 지난편에 이어서 오늘은 첨도에 대해서 설명을 해보겠습니다.

2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편)

 

왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편)

안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서

stat-university.tistory.com

이번에는 4차 적률인 첨도에 대해서 알아보고 실제 데이터 분석에서는 어떤 의미를 가지고 있는지 알아봅시다.

첨도 : 분포가 얼마나 뾰족한가?
(반대로 생각하면 뾰족할 수록 확률분포의 꼬리가 두꺼운 정도가 얇아지게 된다, 우리는 꼬리에 초점을 두자)

우리가 제일 많이 배운방법은 첨도는 '분포가 얼마나 뾰족한가?'를 설명하는 지표라고 배웠지만 이러한 이해는 방해만되니 잊어버려야합니다!
첨도는 꼬리
분포 꼬리의 두께로 이해하는 것이 더욱 데이터분석에서는 의미있는 배움이라고 볼 수 있습니다.

첨도는 정규분포를 기준으로 이해하는것이 쉬운데, 우리가 잘 아는 정규분포는 첨도가 3입니다.(파이썬에서는 3을 뺀 0을 기준)
t분포 일반적으로 정규분포보다 꼬리가 두껍기 때문에 첨도>3(파이썬은 0보다 큼)인 경우입니다.

하지만 파이썬, R등 프로그래밍에서는 3을 뺀 값으로 계산되기 때문에 헷깔리면 안됩니다.
즉, 정규분포를 기준으로 첨도는 0이라고 계산결과가 나온다면 완벽한 정규분포라는 의미입니다.

첨도가 낮을 수록 정규분포에 비해 꼬리가 얇은 것입니다
데이터 분포에서는 어떤 의미를 가지고 있을까요?


왜도와 마찬가지로 데이터분석에서는 머신러닝에서는 예측성능이 좋은 학습을 위해서, 전통적인 통계분석에서는 통계적 가정을 만족하는 것이 좋은 모델링(학습)을 할 수 있게 되는 것입니다.
결국, 첨도 또한 정규분포에 가깝게 해주는 것이 적절한 학습이 이루어질 수 있는 방법입니다.

데이터 분석을 하기 위해서는 각 피처의 컬럼들이 정규분포를 따르는것이 좋은게 일반적인데 정규분포의 왜도와 첨도의 기준은 뭘까? (하지만 학자마다 정규성의 기준은 다르다..Kline(2011) 기준으로 보면...)

정규분포 기준은 |왜도| < 3, |첨도| < 7 (10-3)
(python 결과 기준)


위와 같이 왜도와 첨도가 정규성을 대략 만족한다면 좋은 모델링을하게 되고 test 데이터셋을 통한 예측성능이 좋을 확률이 높게 됩니다.

추가적으로 첨도의 특징


데이터분석에서에서 첨도가 매우 높은 양수인 경우 이상치(Outlier)가 많이 발생한다는 것인데 생각해보면 당연합니다
첨도가 매우 높다는 것은 분포의 꼬리가 매우 두껍다는 것입니다.

만약에 모집단의 데이터가 첨도가 높다고 한다면 샘플링한 1000개의 데이터가 있는데 대부분의 값이 평균주변인 값들이 나올 것입니다.

통계학을 통한 주장을 할때 신뢰 수준을 가지고 하게되며 유의수준을 설정합니다. 첨도가 크면 꼬리가 두껍고 유의수준하에서 이상치로 처리할 경우가 많아집니다


극단적 예시로
균등분포는 무조건 정규분포보다 꼬리가 두꺼우니 이상치가 될 확률이 많아지게됩니다?

t분포는 정규분포보다 꼬리가 두꺼우니까 이상치가 될 확률이 높습니다.

한가지 개념이 더 있는데 첨도가 음수인 경우입니다. 음수인 경우는 일반적으로 분포의 꼬리는 얇다고 말합니다. 균등분포가 대표적인 음수인데 수리적으로 첨도가 음수입니다(꼬리가 얇다라는 사실을 우선 받아들이겠습니다.) 이럴때는 그 자체로는 분석에 적합하지 않습니다. 그래서 붓스트랩 등으로 반복하여 데이터를 샘플링하여 그것이 정규분포를 같게 되게 한다음에 사용하게 됩니다.


1차적으로는 '첨도가 0에 가까운가?'를 보고 (꼬리의 두께가 정규분포 대비 큰지)
2차적로는 얼마나 큰지를 보자는 것이 분석시 활용방법이 됩니다. 변환 등을 통해 정규분포에 가깝게 만들 수 있으면 땡큐죠~
이상치가 많은 경우 R^2값이 매우 낮은것이 특징이다. 그래서 이러한 경우에는 변환과 이상치 처리 과정을 통해서 데이터를 전처리를 해야만 좋은 모델링을 할 수있게 됩니다.

아래 그림은 왜도, 첨도에 따른 Q-Q plot이므로 참고하길 바라며 이 두개의 지표는 결국 데이터 분석 전처리 단계에서 잘 다뤄져야 좋은 모델링을 할 수 있습니다. 다음시간에는 왜도와 첨도가 문제가 있는 데이터를 가지고 어떻게 처리해야하는지 생각해보는 파이썬 실습을 준비해보겠습니다.


참고문헌
홍종선. 1996. SAS와 통계자료분석. 탐진. 636pp.
Triola, M.F. 1992. Elementary Statistics. 5th ed. Addison-Wesley Pub. Co., Inc. 730pp.
702-701 대구광역시 북구 산격동 1370 경북대학교 농업생명과학대학 채소육종학연구실 자료

 

위와 같이 왜도와 첨도의 이슈말고도 R2이 낮은데 데이터 분석이 의미가 있는 경우가 있습니다. 이러한 이슈도 데이터 분석가로서 반드시 고려해야할 부분입니다.

2022.05.09 - [데이터 분석 고민거리(궁금증에 대한 연구)] - 궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편)

 

궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편)

안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제

stat-university.tistory.com

 

반응형