부업으로 1년에 1억씩 버는 직장인입니다

궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란? 본문

데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)

궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란?

미래대비자 2021. 4. 8. 15:31
반응형

통계를 깊이 공부하게 되면 자주보지만 이해 하지 못하는 자유도에 대해서 알아보자.

 

자유도란?

 

통계적 추정(Inference)을 할 때,

표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수(어떤 조건하에서)이다.

 

이러한 자유도를 식으로 표현하면 다음과 같이 나타낼 수 있다.

 

df = N (사례수) - K (통계적 제한 조건의 수)

 

이해를 돕기 위해 연립방정식을 예로 들어보자.

 

상황1 : 변수가 2개이고 방정식이 2개인 연린방정식이다.

 

2x + 8y = 50
2x + 7y = 48

 

여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건(방정식 수)도 2개인 것을 알 수 있다.

 

상황1의 자유도는 0이다. (df = 2 - 2 = 0 )

즉, 자유롭게 선택할 수 있는 변수가 없다.

(x = 17, y=2로 모두 꼼짝없이 딱딱 값이 나온다!!)

 

상황2 : 변수가 2개이고 방정식이 1개인 연린방정식이다.

 

2x + 8y = 50

 

여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건의 수(방정식 수)은 1개인 것을 알 수 있다.

 

상황2의 자유도는 1이다. (df = 2 - 1 = 1 )

즉, x, y중 1개는 마음대로 숫자를 결정할 수 있다.

만일 y를 기준으로 보면 x가 정해짐에 따라 y는 자유롭게 정할 수 있게 된다. 

 

y = (50 - 2x) / 8

* 여기서 x가 숫자로 딱 정해지면 y가 딱 정해지는 것이 아니냐 할 수 있지만 아니다.  그래프를 그려보면 상황1과 상황2의 차이를 알 수 있게 된다. 상황1(좌측 그래프)은 좌표평면에 한개의 점, 상황2(우측 그래프)은 직선이다. 즉, y는 자유롭게 움직일 수 있게 된다. 반대 관점에서 보면 x도 자유롭게 움직일 수 있게 된다. 이것이 자유도 1일 때를 시각화해서 이해할 수 있다.

 

이제 통계학으로 넘어가서 표본평균과 표본분산의 자유도를 말해보자.

더보기

1. 표본평균 =  (x1+x2+x3+x4+ ··· + xn) / df

2. 표본분산 = ∑(xi - 표본평균i)^2 / df 

1. 표본평균의 경우

 

df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 0) = n

*통계적 제한 조건이 없다는 것은 x1~xn에게 제약 조건(방정식)이 없다는 것이다.

 

2. 표본분산의 경우

 

df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 1) = n - 1

* 표본분산의 경우 통계적 제한 조건(방정식)이 하나 있다. 표본평균 = (x1+x2+x3+x4+ ··· + xn) / n (방정식 1개)

 

이것은 불편추정량(Unbiased Estimator)와 관련이 있다.

 

이것은 기회가 된다면 포스팅하겠다.

반응형