본문 바로가기
데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)

궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란?

by 미래대비자 2021. 4. 8.

통계를 깊이 공부하게 되면 자주보지만 이해 하지 못하는 자유도에 대해서 알아보자.

 

자유도란?

 

통계적 추정(Inference)을 할 때,

표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수(어떤 조건하에서)이다.

 

이러한 자유도를 식으로 표현하면 다음과 같이 나타낼 수 있다.

 

df = N (사례수) - K (통계적 제한 조건의 수)

 

이해를 돕기 위해 연립방정식을 예로 들어보자.

 

상황1 : 변수가 2개이고 방정식이 2개인 연린방정식이다.

 

2x + 8y = 50
2x + 7y = 48

 

여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건(방정식 수)도 2개인 것을 알 수 있다.

 

상황1의 자유도는 0이다. (df = 2 - 2 = 0 )

즉, 자유롭게 선택할 수 있는 변수가 없다.

(x = 17, y=2로 모두 꼼짝없이 딱딱 값이 나온다!!)

 

상황2 : 변수가 2개이고 방정식이 1개인 연린방정식이다.

 

2x + 8y = 50

 

여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건의 수(방정식 수)은 1개인 것을 알 수 있다.

 

상황2의 자유도는 1이다. (df = 2 - 1 = 1 )

즉, x, y중 1개는 마음대로 숫자를 결정할 수 있다.

만일 y를 기준으로 보면 x가 정해짐에 따라 y는 자유롭게 정할 수 있게 된다. 

 

y = (50 - 2x) / 8

* 여기서 x가 숫자로 딱 정해지면 y가 딱 정해지는 것이 아니냐 할 수 있지만 아니다.  그래프를 그려보면 상황1과 상황2의 차이를 알 수 있게 된다. 상황1(좌측 그래프)은 좌표평면에 한개의 점, 상황2(우측 그래프)은 직선이다. 즉, y는 자유롭게 움직일 수 있게 된다. 반대 관점에서 보면 x도 자유롭게 움직일 수 있게 된다. 이것이 자유도 1일 때를 시각화해서 이해할 수 있다.

 

이제 통계학으로 넘어가서 표본평균과 표본분산의 자유도를 말해보자.

더보기

1. 표본평균 =  (x1+x2+x3+x4+ ··· + xn) / df

2. 표본분산 = ∑(xi - 표본평균i)^2 / df 

1. 표본평균의 경우

 

df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 0) = n

*통계적 제한 조건이 없다는 것은 x1~xn에게 제약 조건(방정식)이 없다는 것이다.

 

2. 표본분산의 경우

 

df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 1) = n - 1

* 표본분산의 경우 통계적 제한 조건(방정식)이 하나 있다. 표본평균 = (x1+x2+x3+x4+ ··· + xn) / n (방정식 1개)

 

이것은 불편추정량(Unbiased Estimator)와 관련이 있다.

 

이것은 기회가 된다면 포스팅하겠다.

댓글