본문 바로가기
데이터분석 이야기/데이터분석전문가(ADP)

ADP 데이터 분석 순서(기본편)

by 미래대비자 2022. 3. 7.

안녕하세요 미래대비자 입니다. 오늘은 데이터 분석 전문가로써 전체적인 분석 순서를 간단히 정리해보겠습니다. 자세한거는 꾸준히 포스팅할 계획이고 이것만 잘 공부하여 정리하면 합격까지 갈 수 있을거라고 생각합니다

1. 데이터를 수집한다.(ADP에서는 생략)

 

2. 파이썬에서는 statsmodels 또는 sklearn 모듈을 이용해서 데이터를 분석한다.

 

- EDA : 데이터 피처, 개체들과의 관계를 보고 이상치/결측치를 발견 및 처리(제거/대체 등)한다. 또한, 무슨 분석을 해야하는지 염두한다.

- 피처 앤지니어링 : 분석에 따라 수치형은 표준화/MinMax스케일링, 인코딩(레이블,원핫,더미)을 하여 분석에 적합한 형태로 데이터를 변형한다.

 

3. 데이터 분리 : 분류의 경우 클래스 불균형 문제를 고려한 업/다운 샘플링이 존재하며 , 훈련세트와 테스트세트 데이터로 데이터를 분리한다.

 

4. 초기모델 및 성능평가

(Train 데이터를 기반으로 모델을 만들고  Test 데이터를 기반으로 성능평가)

 

5. 최적모델(하이퍼파라미터 조정을 통한 튜닝) 결정 및 성능평가

(Train 데이터를 기반으로 최적모델을 만들고 Test 데이터를 기반으로 성능평가)

 

6. 적용/활용에 대한 아이디어 제시

 

댓글