부업으로 1년에 1억씩 버는 직장인입니다
궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란? 본문
통계를 깊이 공부하게 되면 자주보지만 이해 하지 못하는 자유도에 대해서 알아보자.
자유도란?
통계적 추정(Inference)을 할 때,
표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수(어떤 조건하에서)이다.
이러한 자유도를 식으로 표현하면 다음과 같이 나타낼 수 있다.
df = N (사례수) - K (통계적 제한 조건의 수)
이해를 돕기 위해 연립방정식을 예로 들어보자.
상황1 : 변수가 2개이고 방정식이 2개인 연린방정식이다.
2x + 8y = 50
2x + 7y = 48
여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건(방정식 수)도 2개인 것을 알 수 있다.
상황1의 자유도는 0이다. (df = 2 - 2 = 0 )
즉, 자유롭게 선택할 수 있는 변수가 없다.
(x = 17, y=2로 모두 꼼짝없이 딱딱 값이 나온다!!)
상황2 : 변수가 2개이고 방정식이 1개인 연린방정식이다.
2x + 8y = 50
여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건의 수(방정식 수)은 1개인 것을 알 수 있다.
상황2의 자유도는 1이다. (df = 2 - 1 = 1 )
즉, x, y중 1개는 마음대로 숫자를 결정할 수 있다.
만일 y를 기준으로 보면 x가 정해짐에 따라 y는 자유롭게 정할 수 있게 된다.
y = (50 - 2x) / 8
* 여기서 x가 숫자로 딱 정해지면 y가 딱 정해지는 것이 아니냐 할 수 있지만 아니다. 그래프를 그려보면 상황1과 상황2의 차이를 알 수 있게 된다. 상황1(좌측 그래프)은 좌표평면에 한개의 점, 상황2(우측 그래프)은 직선이다. 즉, y는 자유롭게 움직일 수 있게 된다. 반대 관점에서 보면 x도 자유롭게 움직일 수 있게 된다. 이것이 자유도 1일 때를 시각화해서 이해할 수 있다.
이제 통계학으로 넘어가서 표본평균과 표본분산의 자유도를 말해보자.
1. 표본평균 = (x1+x2+x3+x4+ ··· + xn) / df
2. 표본분산 = ∑(xi - 표본평균i)^2 / df
1. 표본평균의 경우
df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 0) = n
*통계적 제한 조건이 없다는 것은 x1~xn에게 제약 조건(방정식)이 없다는 것이다.
2. 표본분산의 경우
df = N (변수의 갯수 = n) - K (통계적 제한 조건의 수 = 1) = n - 1
* 표본분산의 경우 통계적 제한 조건(방정식)이 하나 있다. 표본평균 = (x1+x2+x3+x4+ ··· + xn) / n (방정식 1개)
이것은 불편추정량(Unbiased Estimator)와 관련이 있다.
이것은 기회가 된다면 포스팅하겠다.
'데이터분석 이야기 > 데이터 분석 고민거리(궁금증에 대한 연구)' 카테고리의 다른 글
궁금증5. 도대체 회귀 분석의 정확한 의미가 뭔가?(1편) (0) | 2022.05.14 |
---|---|
궁금증4. 가설검정에서의 모수적(parametric) 방법과 비모수적(nonparametric) 방법 (0) | 2022.05.13 |
궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편) (1) | 2022.05.12 |
궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) (0) | 2022.05.09 |
궁금증2. 표본분산은 왜 n-1로 나누어 주는가? (0) | 2021.04.09 |