본문 바로가기
데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)

궁금증2. 표본분산은 왜 n-1로 나누어 주는가?

by 미래대비자 2021. 4. 9.

궁금증1 에서 우리는 자유도에 대한 개념을 알게되었다.

 

'표본평균은 자유도가 n이기 때문에, 표본분산 자유도가 n-1이기 때문에 나누어 주는건 알겠는데 그게 뭐 어쩌라고?'

 

라는 생각이 먼저 들것이다. 이게 무슨 의미가 있기는 한데... 그 의미에 대해서 설명하려고 한다.

 

이를 설명하기 위해 우리는 불편성(Unbiased)에 대한 개념을 알아야 한다.

 

모수(parametor)를 알기하기 위해 우리는 샘플을 뽑아 통계학이라는 이론에 기대어 모수를 추정하는 작업을 할 것이다.

 

만약에....

 

통계학 이론없이 전수조사를 통해 모평균과 모분산을 구하는 경우에는 자유도의 개념이 필요하지 않다.

모평균은 n으로 나눠주고 모분산도 n으로 나눠주면 된다. 왜냐면 그게 곧 우리가 구하고자 했던 parameter였으니까!!!

하지만... 우리는... 다~ 조사할 수가 없으니까...

모수의 평균을 추정하기 위해서 표본평균(sample mean)을 구할 것이다.

또한, 모수의 분산을 추정하기 위해서 표본평균의 분산을 구할 것이다.

전수조사가 아닌 표본조사를 하는 경우에는 1편에서 배운 자유도를 이용해야 한다.


불편성을 논하기 전에 평균을 두가지 관점에서 접근하자.

(이것은 통계학 공부시 헷깔린 부분이므로 항상 두가지로 접근을 한다는 것을 유의하자)

1. 대수적 접근 : 우리가 보통알고있는 접근방법

2. 통계학적 접근 : 확률변수를 이용하여 접근하는 방법

 

 


이제 불편성을 정의하자.

 

표본평균의 불편성

 


즉, 표본평균의 기대값이 파라미터(모평균)가 되어야 한다.

 

평균에서는 자유도는 분모 n이고 표본평균의 기대값이 모평균이 된다

 

하지만 분산에서 자유도를 n-1을 넣어야 모분산이 된다. 

 

유도는 생각보다 쉬우니 "check yourself!!"


 

 

즉, 자유도는 앞으로 회귀분석, 분산분석(Anova), 카이제곱검정 등 전통적인 통계학 이론에서 지속적으로 등장하게 되니 피할 수 없다. 시간이 되면 다른분석에 대해 자유도 관점으로 글을 작성하겠다.

댓글