부업으로 1년에 1억씩 버는 직장인입니다
궁금증5. 도대체 회귀 분석의 정확한 의미가 뭔가?(1편) 본문
안녕하세요 미래 대비자입니다. 오늘은 전통적인 통계분석의 꽃이면서 가~~장많이 활용되는 회귀분석에 대해서 차근히 살펴보고 정복하려고합니다.
최대한 수학적 표현을 배제하고 그 의미에 집중 해보시자고요~
위키백과에서도 말하고 있듯이 통계 프로그램인 R이나 파이썬 SPSS, 심지어는 엑셀을 활용해서 결과를 쉽게 구할 수 있지만...
잘모르고 쓴다!
돌리면 결과는 '턱!턱!' 나오지만 모델의 가정에 대한 진단도 없이 배타회귀계수를 보고 '아! 이정도의 영향력이 있구나?'라고 무모한 적용을 해버리고 실제로 설문조사의 결과분석에서 이러한 오류를 범하게 되어버립니다.
1. 회귀분석(Regression Analysis)에서 말하는 회귀의 의미
회귀분석은 크게 보면 선형회귀와 비선형회귀가 존재합니다.
여기서는 학부과정에서 주로 배우는 선형회귀에 한정하여 설명하도록하겠습니다.
참고
우리가 말하는 선형(linear)이라는 표현은 회귀식이 직선이라는 표현이 아닙니다.
선형의 판단기준은 회귀계수(regression coefficeient)입니다.
즉, 회귀 계수를 일차 선형 결합으로 표현할 수 있다면 선형회귀모델이 됩니다.
한단계 더 나아가서 선형/비선형 변환을 통해 회귀계수의 일차결합으로 만들 수 있다면 이 또한 선형회귀라고 합니다(정확히는 상위개념으로써 일반화 된 선형회귀모델)
결국 '데이터를 설명하는 모델을 만드는 과정'이라고 설명을 할 수 있습니다.
통계학은 오차의 학문입니다. 100% 확신하면서 주장할 수 없으며 항상 오차를 갖고 주장을하게 됩니다.
'난 이렇게 주장해! 하지만 내 말에는 X% 오차가 있으니 유의해서 들어야해!'라고 말하는게 전통 통계학자들이 주장하는 과학적인 방식입니다.
회귀식을 추정하고 남은 잔차(e)는 실제데이터(Y)와 예측값(hat_Y)의 차이를 말하며 잔차제곱합이 최소가되는 회귀계수를 찾는 것이 회귀모델을 찾는 방법입니다.
한걸음 더 나아간다면 잔차가 최소화되서 0에 가깝게 가게 만들고
잔차가 점점 전체 평균으로 회귀하는 것과 같은 느낌을 줍니다.
(선형 회귀분석은 결국 모든 표본에 가장 근접한 기대값을 찾아내는 과정)
극단적으로 잔차가 0이면 회귀식은 정확히 관측값의 전체 평균이되죠..
(이런 의미에서 회귀분석이다라는 표현이 나온거 같기는 합니다..
하지만 실제 의미는 수학적 의미인 잔차제곱합(RSS)을 최소화하는 회귀계수를 찾는 것이 더 이해가 편합니다.)
그런데 데이터들을 회귀식으로 잡아낸 뒤 잔차에 대한 아래 가정들을 만족할 수록 회귀식이 강하게 의미를 갖게 됩니다
(마치 아래 가정이 약할 수록 회귀식이 홀로그램처럼 깜빡깜박 희미해지면서 회귀식으로써 데이터들을 설명해주지 못하고 맙니다)
좋은 모델을 위한 잔차의 조건
1. 잔차가 정규분포를 따라야 그 회귀식에서 의미있는 데이터들이 나타납니다.
2. 잔차는 등분산성을 가져야 그 회귀식에서 안정적으로 데이터들이 나타납니다.
3. 잔차는 독립(자기상관이 없어야 한다)이어야 데이터 샘플링에 상관없이 회귀식에서 데이터들이 나타납니다.
회귀분석에서 회귀계수의 의미는 뭔가요?
어떻게 계산하는건가요?
다음시간에는 회귀계수를 구하는 의미와 그 해석 방법 등을 알아보도록하겠습니다
'데이터분석 이야기 > 데이터 분석 고민거리(궁금증에 대한 연구)' 카테고리의 다른 글
궁금증4. 가설검정에서의 모수적(parametric) 방법과 비모수적(nonparametric) 방법 (0) | 2022.05.13 |
---|---|
궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편) (1) | 2022.05.12 |
궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) (0) | 2022.05.09 |
궁금증2. 표본분산은 왜 n-1로 나누어 주는가? (0) | 2021.04.09 |
궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란? (0) | 2021.04.08 |