본문 바로가기

데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)6

궁금증5. 도대체 회귀 분석의 정확한 의미가 뭔가?(1편) 안녕하세요 미래 대비자입니다. 오늘은 전통적인 통계분석의 꽃이면서 가~~장많이 활용되는 회귀분석에 대해서 차근히 살펴보고 정복하려고합니다. 최대한 수학적 표현을 배제하고 그 의미에 집중 해보시자고요~ 위키백과에서도 말하고 있듯이 통계 프로그램인 R이나 파이썬 SPSS, 심지어는 엑셀을 활용해서 결과를 쉽게 구할 수 있지만... 잘모르고 쓴다! 돌리면 결과는 '턱!턱!' 나오지만 모델의 가정에 대한 진단도 없이 배타회귀계수를 보고 '아! 이정도의 영향력이 있구나?'라고 무모한 적용을 해버리고 실제로 설문조사의 결과분석에서 이러한 오류를 범하게 되어버립니다. 1. 회귀분석(Regression Analysis)에서 말하는 회귀의 의미 회귀분석은 크게 보면 선형회귀와 비선형회귀가 존재합니다. 여기서는 학부과정에.. 2022. 5. 14.
궁금증4. 가설검정에서의 모수적(parametric) 방법과 비모수적(nonparametric) 방법 안녕하세요 미래대비자입니다. 오늘은 가설감정에서 모수적 방법과 비모수적 방법에 대해 이야기 해보려고합니다. 실제로 우리가 어떠한 것을 통계적으로 검정하고 할 때 모수적 방법이 더 많을까요? 비모수적 방법이 더 많을까요? 모수적 방법은 '데이터가 정규분포, 이항분포 등을 따른다고 한다' 고 전제를 한 후 그 분포의 모수에 대한 검정을 실시하는 것입니다. 예를들어 회귀분석은 데이터가 정규분포를 따른다고 가정하고 로지스틱회귀분석은 종속변수가 이항분포를 따르는 것을 가정합니다. 파라미터를 추정하는데 있어서 OLS(최소제곱법), MLE(Maximum Likelihood Estimator)등 으로 모수를 추정하는 것이 대표적인 방법입니다. 반면에 비모수적 방법은 '데이터가 특정한 확률분포를 따른다고 전제할 수 없거.. 2022. 5. 13.
궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편) 안녕하세요 미래대비자 입니다. 지난시간에는 결정계수(R2)가 낮아도 좋은 모델인 경우(1편)에 대해서 이야기를 했습니다. 2022.05.09 - [데이터 분석 고민거리(궁금증에 대한 연구)] - 궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제 stat-university.tistory.com 이번시간에는 데이터 분석을 할 때 결정계수가 낮은 경우 어떻게 생각해야 하고 어떤 분석을 해야 할까를 고민하는 데이터 분석가들을 위해 글을 쓰게 되었습니다. 우리는 데이터.. 2022. 5. 12.
궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제로 글을 써보려고합니다. 상관계수의 공식을 보면 이해하는데 도움이 됩니다. 1. 모집단의 상관계수 공식(전체 데이터) 2. 표본집단의 상관계수 공식(전체 데이터에서 n개를 샘플링) 상관계수는 두개의 X,Y 집단에 대해 비교하는 상관도를 보는 측도이며 공분산을 각표준편차로 나눠주는 것입니다. * 공분산을 표준편차로 나눠주는 이유는? 공분산은 두개 변수가 같은 방향으로 움직이는 정도이며 변수의 측정 단위가 다른경우 상관성 해석이 어렵습니다. 이러한 단점을 극복하기 위해 각 표준편차로 나눠주어 측정단위와 상관없이 두 변수 X.. 2022. 5. 9.
궁금증2. 표본분산은 왜 n-1로 나누어 주는가? 궁금증1 에서 우리는 자유도에 대한 개념을 알게되었다. '표본평균은 자유도가 n이기 때문에, 표본분산 자유도가 n-1이기 때문에 나누어 주는건 알겠는데 그게 뭐 어쩌라고?' 라는 생각이 먼저 들것이다. 이게 무슨 의미가 있기는 한데... 그 의미에 대해서 설명하려고 한다. 이를 설명하기 위해 우리는 불편성(Unbiased)에 대한 개념을 알아야 한다. 모수(parametor)를 알기하기 위해 우리는 샘플을 뽑아 통계학이라는 이론에 기대어 모수를 추정하는 작업을 할 것이다. 만약에.... 통계학 이론없이 전수조사를 통해 모평균과 모분산을 구하는 경우에는 자유도의 개념이 필요하지 않다. 모평균은 n으로 나눠주고 모분산도 n으로 나눠주면 된다. 왜냐면 그게 곧 우리가 구하고자 했던 parameter였으니까!!.. 2021. 4. 9.
궁금증 1. 통계책에서 말하는 자유도(Degree of freedom)란? 통계를 깊이 공부하게 되면 자주보지만 이해 하지 못하는 자유도에 대해서 알아보자. 자유도란? 통계적 추정(Inference)을 할 때, 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수(어떤 조건하에서)이다. 이러한 자유도를 식으로 표현하면 다음과 같이 나타낼 수 있다. df = N (사례수) - K (통계적 제한 조건의 수) 이해를 돕기 위해 연립방정식을 예로 들어보자. 상황1 : 변수가 2개이고 방정식이 2개인 연린방정식이다. 2x + 8y = 50 2x + 7y = 48 여기서 사례수(변수의 갯수)는 2개이고 통계적 제한 조건(방정식 수)도 2개인 것을 알 수 있다. 상황1의 자유도는 0이다. (df = 2 - 2 = 0 ) 즉, 자유롭게 선택할 수 있는 변수가 없다. (x = 17, y=.. 2021. 4. 8.