728x90
반응형
안녕하세요 미래대비자 입니다. 오늘은 데이터 분석 전문가로써 전체적인 분석 순서를 간단히 정리해보겠습니다. 자세한거는 꾸준히 포스팅할 계획이고 이것만 잘 공부하여 정리하면 합격까지 갈 수 있을거라고 생각합니다
1. 데이터를 수집한다.(ADP에서는 생략)
2. 파이썬에서는 statsmodels 또는 sklearn 모듈을 이용해서 데이터를 분석한다.
- EDA : 데이터 피처, 개체들과의 관계를 보고 이상치/결측치를 발견 및 처리(제거/대체 등)한다. 또한, 무슨 분석을 해야하는지 염두한다.
- 피처 앤지니어링 : 분석에 따라 수치형은 표준화/MinMax스케일링, 인코딩(레이블,원핫,더미)을 하여 분석에 적합한 형태로 데이터를 변형한다.
3. 데이터 분리 : 분류의 경우 클래스 불균형 문제를 고려한 업/다운 샘플링이 존재하며 , 훈련세트와 테스트세트 데이터로 데이터를 분리한다.
4. 초기모델 및 성능평가
(Train 데이터를 기반으로 모델을 만들고 Test 데이터를 기반으로 성능평가)
5. 최적모델(하이퍼파라미터 조정을 통한 튜닝) 결정 및 성능평가
(Train 데이터를 기반으로 최적모델을 만들고 Test 데이터를 기반으로 성능평가)
6. 적용/활용에 대한 아이디어 제시
반응형
'데이터분석 이야기 > 데이터분석전문가(ADP)' 카테고리의 다른 글
ADP 24회 실기 시험 후기(일기) (0) | 2022.03.29 |
---|