본문 바로가기
데이터분석 이야기/데이터 분석 고민거리(궁금증에 대한 연구)

궁금증4. 가설검정에서의 모수적(parametric) 방법과 비모수적(nonparametric) 방법

by 미래대비자 2022. 5. 13.

안녕하세요 미래대비자입니다. 오늘은 가설감정에서 모수적 방법과 비모수적 방법에 대해 이야기 해보려고합니다.
실제로 우리가 어떠한 것을 통계적으로 검정하고 할 때 모수적 방법이 더 많을까요? 비모수적 방법이 더 많을까요?

모수적 방법은 '데이터가 정규분포, 이항분포 등을 따른다고 한다' 고 전제를 한 후 그 분포의 모수에 대한 검정을 실시하는 것입니다. 예를들어 회귀분석은 데이터가 정규분포를 따른다고 가정하고 로지스틱회귀분석은 종속변수가 이항분포를 따르는 것을 가정합니다.
파라미터를 추정하는데 있어서 OLS(최소제곱법), MLE(Maximum Likelihood Estimator)등 으로 모수를 추정하는 것이 대표적인 방법입니다.

반면에 비모수적 방법은 '데이터가 특정한 확률분포를 따른다고 전제할 수 없거나 또는 모집단에 대한 아무런 정보가 없는 경우'입니다. 즉, 모집단 분포에 대한 가정이 없으며(분포무관) 모수적 특성을 이용하지 않고 분석하는 방법을 말합니다.

결과적으로 전통적인 통계분석에서
모수적 방법 또는 비모수적 방법으로
문제를 해결하는데, 모수적 방법으로 해결할 수 없는 경우
다른 방법을 고려해야 합니다.


대학에서는 보통 모수적 방법을 주로 배우지만 사실 현실세계에서는 이론과 현실이 다르듯 매우 드문 케이스입니다.
그래서 우리는 회귀진단, 잔차진단 등을 통해서 우리의 가정이 맞는지 다시한번 검증해야하고 그러한 가정을 만족시키기는 너무 어려운 경우가 많습니다.

참고
회귀분석을 위한 잔차의 가정
1. 잔차의 분포는 정규분포
2. 잔차의 분포는 등분산성
3. 잔차와 독립변수(또는 잔차와 예측값) 사이에 상관 관계가 없어야 한다.
4. 잔차는 자기상관성이 없어야 한다(잔차가 자기상관성을 갖는다? 일반적으로 모델링을 하고 잔차의 패턴이 보인다면 모델링에 문제가 있다)

대부분의 경우는 비모수적인 방법의 문제가 대부분이며 더욱 고도화 된 사회에서는 비모수적인 방법에 대한 연구를 통해 해결하게 됩니다.
비모수적 방법에 집중해서 이야기해보겠습니다.

비모수적 방법..
언제 사용하는건가?



1. 비모수적 통계분석은 분포에 대한 가정이 필요없기 때문에 분포무관 방법이라고 불립니다. 즉, 분포 가정이 불만족할 때(예 : 정규분포가 아님, 이항분포가 아님 등)

2. 데이터가 수치형(연속형) 데이터가 아니라 순위, 순서 데이터라면 대부분 모수적 통계방법으로 접근하는 것은 적절하지 않습니다.

3. 또한, 표본수가 매우 적은 경우 일반적으로 비모수 통계분석방법을 고려하게 됩니다.

모집단이 정규분포를 확실히 따른다면 굳이 비모수적인 방법으로 접근할 필요가 없습니다. 그래서 비모수적인 방법은 모수적검정의 후순위로써 사용하게됩니다.
비모수적 방법으로 검정하기 위해서는 분포의 대칭, 중앙값 등 위치적인 가정을 하게 되며 확률변수를 통한 실제 값을 이용한다기보다는 부호나 순위 등의 형태를 이용하는 경우가 많습니.

비모수검정의 종류와 개념은 다음과 같습니다.
부호검정 : 중앙값 검정으로 관측된 표본들이 중앙값을 초과하는 값이 몇개인지 파악하여  검정통계량을 가지고 검정합니다. (종류 : Wilcoxon 부호-순위 검정, Mann Whitney U 검정, Friedman 검정, Kruskal-Wallis H 검정 등)

파이썬에서 사용하는 라이브러리,
from scipy.stats import wilcoxon
from scipy.stats import mannwhitneyu
from scipy.stats import kruskal
from scipy.stats import friedmanchisquare

RUN검정: 비모수 통계에서는 표본의 배열이 무작위로 구성되어있는지를 검정하는 것이다. 즉, 모집단을 구성하고 있는 개체가 표본으로 선택될 확률이 모두 동일한 상황인지를 보는 것입니다. 특수한 경우를 제외하고는 표본이 무작위로 추출되었을 때 가치있는 표본이 되는것입니다. 예를들어 로또추첨 번호가 패턴이 발견된다면? 좋은 추첨이 아닐것입니다!

파이썬에서 사용하는 라이브러리,
from statsmodels.sandbox.stats.runs import Runs

wilcoxon의 부호순위 검정 : 두 자료를 비교하고자 할 때 중앙값 순위를 이용하여 검정통계량을 가지고 검정한다.

파이썬에서 사용하는 라이브러리,
from statsmodels.stats.diagnostic import kstest_normal


상관성 검정 : 서열 정보를 이용하여 스피어만 서열상관분석과 캔달서열 상관분석을 할 수 있다.

파이썬에서 사용하는 라이브러리,
from scipy.stats import kendalltau

위와같은 비모수적 가설검정을 통해 검정을 하게 되며 모수적 가설검정방식인 1개 모집단에 대한, 2개 모집단에 대한 차이(비교)검정과 같이 비모수적 가설검정도 동일하게 위치모수에 대한 차이(비교)검정을 합니다.

참고 :
비모수 검정의 장점
- 검정을 위한 가정(분포에 대한 가정 등) 등이 모수 검정에 비해 완화되어있기 때문에 어떠한 형태의 모집단과도 비교가 가능하다
- 실제값이 아니라 상대적인 위치(순위, 부호 등)에 의존하므로 이상치에 대한 영향을 적게 받는다.
- 추론하는 방법이 단순한편이다.



모수적 통계도 대략 알았고 비모수적인 통계도 대~~략 알았는데 이러한 이론으로도 해결이 안된다면? 어떻게 해결해야 할까~~~!!!

두둥..! 영역의 확장
베이지안 통계, 머신러닝의 등장!!
(Meachine Learning)


전통적인 통계방법은 크게 모수적 통계방법과 비모수적인 통계방법으로 나뉘고 이를 묶어 주는 통계학적 철학이 빈도주의입니다. 마치 경제학자가 고전학파와 케인즈 학파가 있듯이 통계학에서 확률을 바라보는 두가지 관점이 존재합니다.

빈도주의(Frequentist) vs. 베이지안(Bayesian)


다음편에서는 빈도주의와 베이지안이 확률을 어떻게 해석하는지를 알아보고 머신러닝과 어떤 연관관계가 있는지를 고민하는 시간을 갖도록하겠습니다.
이것은 모수적, 비모수적 방법에서 해결하지 못하는 문제를 해결하게 되는 패러다임의 변화로써 굉장히 중요한 역할을 하고 있는 베이지안에 대해서 알아보도록하겠습니다

2022.05.11 - [데이터분석 이야기/데이터 분석 이야기] - 통계학의 큰 양대산맥!, 빈도주의 vs. 베이지안

통계학의 큰 양대산맥!, 빈도주의 vs. 베이지안(작성중)

stat-university.tistory.com

댓글