부업으로 1년에 1억씩 버는 직장인입니다
데이터 분석가에게 평균이란?(산술평균, 조화평균, 기하평균) 본문
안녕하세요 미래대비자 입니다. 이번에는 ADP 25회 실기 기출문제로 많은 사람들을 괴롭혔던 평균에 대한 여러가지 이야기를 해보고자 합니다.
하나하나 개념을 보다보면 놀라운 평균에 대한 깊은 인사이트를 얻게 하기위해 열심히 작성해보았습니다.
우선 큰 평균에 형님이 있어서 먼저 소개하겠습니다. 위계질서는 다음과 같습니다.
가장 큰 형님은 대푯값입니다.
대푯값은
'데이터를 가장 잘 설명하는 수치를 딱 하나로 말하면 뭘까?'
질문에 대한 추상적인 답변입니다.
이제 구체적인 답변을 해봐요~
1. 산술평균(Arithmetic Mean)
$$ AM = \frac{\sum_{i=1}^n{Data_{i}}}{n} $$
데이터의 특징 : 합의 형태로 변화하는 데이터
데이터의 분포 : 평균을 중심으로 대칭인 모양의 데이터(왜도=0)
$$왜도 \neq 0 ?$$
- 우리가 일반적으로 말하는 평균입니다.
- 관심대상에 대한 모든 값들을 관심대상 수로 나누어주는 방식입니다. 여기에서 관심대상은 데이터셋으로 보면 한개의 피처 (feature)를 말합니다. 예를 들어 관심대상이 학생들 키 면 키에 대한 모든 값들을 더해주고 그 대상의 수를 나눠주면 되겠지요?
- 데이터에서 보면 평균은 '데이터의 중심'이라고 말할 수 있죠? 단, 산술평균이 힘을 발휘하려면 데이터의 분포가 가우시안일때, 즉, 데이터가 대칭일 때 우리가 일반적으로 말하는 진정한 산술평균의 의미가 됩니다. 만일 데이터가 대칭이 아니라면? 즉, 왜도가 존재한다면? 평균의 개념은 3가지로 쪼개집니다. 평균(mean), 중앙값(median), 최빈값(mode) 그래서 데이터의 분포는 평균을 말할 때 반드시 함께 고려해야합니다.
2. 기하평균(Geometric Mean)
$$ GM = \sqrt[n]{\prod_{i=1}^nData_{i}}$$
데이터의 특징 : 곱의 형태로 변화하는 데이터
데이터의 분포 : 오른쪽으로 꼬리가 긴 형태의 분포(왜도 >0)
- 기하평균은 비율의 평균이라고 정의합니다.(예를들어 증가율, 감소율 등 경제, 금융 부문에서 많이 활용하는 평균입니다)
- 산술평균이 전부 더해서 n으로 나눠준다면 기하평균은 전부 곱해서 n으로 제곱근을 해주는 것으로 정의합니다.
- 곱의 형태로 변화하는 데이터의 분포는 데이터분석을 조금 했다면 굉장히 친숙한 형태의 분포인 오른쪽으로 긴 형태의 그래프라는 것을 알 수 있습니다.(아래 그림은 한가지 놀라운 인사이트인데 곱의 형태가 1보다 작건, 1보다 크건 분포의 형태는 오른쪽으로 꼬리가 긴 형태의 분포입니다) 이런 곱의 형태의 분포에서 평균을 찾는 것은 분명 산술평균이랑은 달라야할 것입니다.
즉, 확률변수 X가 어떤 현상의 관측이라고 정의한다면 초반에는 급격하게 많이 등장했다가 X가 증가할 수록 어떤 현상 관측 확률이 기하급수적으로 낮아지는 분포를 갖는 스타일의 분포를 기하분포라고 합니다.
- 이게 데이터 분석에서는 무슨 의미가 있는 것일까요? 여기에 로그를 취해주면 놀라운 결과를 볼 수 있게 됩니다.
$$ \log{G} = \frac{\log{\sum_{i=1}^nData_{i}}}{n} $$
즉, 로그 스케일의 산술평균이 됩니다!!
- 헉... 기하분포의 평균은 곱의 형태의 데이터에서 평균 증가율 또는 평균 감소율을 구하고 싶을 때 바로 산술평균을 구하지 않고 로그변환을 한 뒤 산술평균을 구하는 방법입니다.
- 이제 결론을 얻었습니다.
데이터가 왜도가 없는 가우시안 분포일 때는
대푯값으로 평균 중에서 산술평균이 적합하고
데이터가 왜도가 0보다 큰 오른쪽으로 긴꼬리 형태의 분포를 같는 경우에는
대푯값으로 기하평균을 보는게 적절하다
3. 조화평균(Harmonic Mean)
$$HM = \frac{n}{\sum_{i=1}^nData_{i}}$$
데이터의 특징 : 데이터 피처들의 측정단위가 다른 상황에서 비교하고 싶을 때
데이터의 분포 : 해당없음
- 조화(Harmony)의 여러가지 뜻 중에 '비슷하게 만들어서 서로 어울리게 하다'라는 의미가 있습니다. 그렇듯이 데이터(관심대상의 피처)가 측정단위가 다르다면 그것을 동일하게 세팅해준다음에 평균을 구해야하기 때문에 조화평균이 나오게 되었습니다. 아래의 예시를 보면서 데이터 분석가로서의 조화평균을 이해하는 시간을 갖겠습니다.
1) 비교대상의 측정단위가 같을 때,
측정단위 : 시간
시속 70km로 두 시간 이동한 후 시속 100km로 한 시간 더 이동했을 때 두 시간동안의 평균 속도는 80km/h가 됩니다. 속도의 단위가 km/h라는것은 단위가 '/h' 즉, 시간이라는 뜻이기 때문에 그 측정단위가 맞습니다.
(예를들어 우리가 사는 세상은 유클리드 공간이기 때문에 줄자의 수치가 우리가 이해하는 수치이고 길이를 비교할 수 있게 되는 것입니다)
즉, 산술평균으로 답을 내놓을 수 있게 됩니다.
-2) 비교대상의 측정단위가 다를 때,(그중에서도 서로 역수의 관계일 때)
측정단위 : 거리
이번엔 시속을 언급하는데 측정단위가 거리이기 때문에 평균을 구하기 난해한 상황입니다.
즉, 기존 측정단위의 역수의 관계에 있습니다. 이럴 때 우리는 조화평균을 이용하면 그 균형의 평균을 구해주게됩니다.
서울에서 부산까지 시속 40km, 반대로 부산에서 서울까지 올 때 시속 80km로 이동했다고 한다면 평균 속도는 (40+80)/2 = 60km/h일까요? 만일 서울에서 부산까지 거리가 400km라고 가정하면 갈 때 걸린시간은 10시간, 올 떄 걸린시간은 5시간 총 15시간이되고 총 거리로 나누면 400/15km/h가 됩니다.
조화평균은 특히 데이터분석에서 클래스가 불균형한 문제일 때 불균형을 고려하여 클래스가 적은 부분에 더 많은 가중치를 두어 최대한 대등한 관계에 두면서 평균을 구해주게 되기 때문에 Acurracy보다는 F1-score가 더 정확한 성능평가 지표로써 많이 활용됩니다.
데이터를 분석할 때 왜도와 첨도에 대한 자세한 인사이트를 작성해 두었으니 많이 참고하셨으면 좋겠습니다.^^
2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편)
'데이터분석 이야기 > 통계학 이론' 카테고리의 다른 글
우도(Likelihood) (0) | 2022.06.19 |
---|---|
통계분석의 큰 흐름 (0) | 2022.05.13 |
통계학의 큰 양대산맥! 빈도주의 vs. 베이지안 관점 (0) | 2022.05.11 |
데이터 분석에 물을 흐리는 다중공선성 (0) | 2022.05.09 |