본문 바로가기
데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)

궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편)

by 미래대비자 2022. 5. 9.

안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제로 글을 써보려고합니다.

 

상관계수의 공식을 보면 이해하는데 도움이 됩니다.

 

1. 모집단의 상관계수 공식(전체 데이터)

모집단 상관계수

2. 표본집단의 상관계수 공식(전체 데이터에서 n개를 샘플링)

표본상관계수

상관계수는 두개의 X,Y 집단에 대해 비교하는 상관도를 보는 측도이며 공분산을 각표준편차로 나눠주는 것입니다.

* 공분산을 표준편차로 나눠주는 이유는?
공분산은 두개 변수가 같은 방향으로 움직이는 정도이며 변수의 측정 단위가 다른경우 상관성 해석이 어렵습니다.
이러한 단점을 극복하기 위해 각 표준편차로 나눠주어 측정단위와 상관없이  두 변수 X,Y의 연관성을 보는 측도입니다.

특징은 다음과 같습니다.
1. 1개 vs. 1개를 비교하는 것입니다.(나중에 R2과의 결정적인 차이를 말할 때 중요한 특징이다)
2. 상관계수를 제곱하면 R2입니다.

 

 

단순선형회귀문제에서는
'상관계수의 제곱 = R2'

 

단순선형회귀식은 2개 변수가 존재하고 상관계수 또한 X, Y 2개 변수를 비교하는 것입니다.

이 둘의 관계는 위 식을 직접 제곱하여 정리하면 자연스럽게 정리가 되는 것을 알 수 있습니다.

우리의 최초 궁금점으로 다시 돌아가면 상관계수가 낮은데 R2가 높은 경우는 단순선형회귀문제는 아니라는 것입니다.

즉, 우리가 궁금했던 문제를 해결하기 위해서는 다중선형회귀이거나 비선형회귀에 대해서 알아야하고 이를 해결하는 과정에서 정답을 찾을 수 있게 됩니다.

 

쓰다보니 내용이 길어졌습니다.. '궁금즘3(2편)'에서 다중선형회귀, 비선형회귀를 해결하는 방법에서 상관계수가 낮은데 R2이 높은 이유를 알아볼게요.

 

2022.05.12 - [데이터 분석 고민거리(궁금증에 대한 연구)] - 궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편)

 

궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편)

안녕하세요 미래대비자 입니다. 지난시간에는 결정계수(R2)가 낮아도 좋은 모델인 경우(1편)에 대해서 이야기를 했습니다. 2022.05.09 - [데이터 분석 고민거리(궁금증에 대한 연구)] - 궁금증3. 상관

stat-university.tistory.com

 

댓글