회귀문제(피처와 타겟간의 인과관계를 규명, 예측 등에 사용)를 다룰 때 즉, 예측 모델을 만들 때 우리는
1. 전통적인 회귀분석을 이용하거나
2. ML(Meachine Learning)을 통해 접근합니다.
결정계수 구하는 수식
SST는 전체변동이고 SStrt는 처리 변동이다. 즉, '전체 변동에서 모델이 이 변동을 얼마나 설명하는가?'라는 의미로 해석하면 된다. 그런데 R2이 0이다?
예측모델은 크게 보면 선형모형과 비선형 모형으로 구분이 되고 선형모형일 때 예측이 목적인 경우라면 R2값이 매우 중요한 의미를 갖게 된다. R2가 낮으면 모델 자체가 데이터를 설명하지 못하기 때문에 의미를갖지 못하게 되어 버린다.. (물론 우리가 분석방법을 다 파악하지 못했거나, 실력이 부족한 경우를 제외하고...)
하지만 분석이 목적이 선형모델링의 분석방법으로 예측모델을 모델링하는것이 아니라 추정 또는 검정이라면?
R2가 낮아도 상관은 없다.
그렇다면 선형모델링의 분석방법으로 예측모델을 만들었는데 R2가 낮다면?
그러면 데이터에서 우리는 마이닝을 할 수 없는 걸까?
의미를 찾지 못하는 걸까?
비선형 모델을 가정하고 접근하는것이 필요하다. 또는 다중공선성문제로 인해 R2가 높게 나타나는경우도 있다.
ML(Meachine Learning)을 통해서 접근하면 해결할 수 있게 됩니다.(데이터 자체가 본질적으로 관계가 없는 의미 있는 분석일 수 있기 때문에 반드시 그런것은 아니다.)
전통적인 통계분석(일반적으로 모수통계를 말함)에서는 통계학문적인 이론을 기반으로 몇가지 가정을 통해 모델링을 하지만 ML은 발달된 컴퓨팅 능력을 통해 손실함수를 정의하고 경험적인 방법을 활용하여 가중치를 조정함으로써 손실함수를 최소화하는 파라미터를 찾는과정을 거칩니다.
결국, 모델의 생성과정이 '블랙박스'인 경우가 많기 때문에 인과관계를 이론에 기반하여 설명하기는 쉽지 않지만 머신러닝의 회귀와 분류문제에 활용이 되는 것입니다!! 그래서 우리는 ML을 고려해야겠다는 결론에 도달하게 됩니다.
'궁금증3 글' 을 통해 우리는 단순선형회귀에서는 상관계수의 제곱이 R2과 같은 것을 알게 되었습니다.