안녕하세요 미래대비자 입니다. 오늘부터 꾸준하게 데이터 분석 전문가(ADP) 준비를 위해 공부했던 내용을 다루고자 합니다. 진짜 시작하기 전에 주요한 라이브러리를 초보자 관점에서 아주 쉽게 정리했습니다.
1. 데이터 처리 : 판다스(Pandas), 넘파이(Numpy)
import pandas as pd
import numpy as np
판다스(Pandas)
: 판다스(Pandas)는 우리가 알기 쉬운 데이터프레임(우리에게 익숙한 스프레드시트(엑셀) 형태) 형태에서 다양하게 데이터를 처리할 수 있습니다.
넘파이(Numpy)
:넘파이(Numpy)는 데이터 프레임 형태가 아닌 array형태(1d array는 벡터, 2darray는 행렬 등)로써 선형대수적인 ndarray형태 데이터를 처리할 수 있습니다.
2. 데이터 분석 : Scipy, Statsmodels, sklearn
import scipy
import statsmodels as stats
import sklearn
Scipy, Statsmodels(통계학)
: 내가 통계학과 사람이다? 그렇다면 이 두개의 라이브러리로 통계분석을 하게 됩니다. 모형의 유의성, 변수의 유의성 등 통계학과에서 배우는 이론을 기반으로 만들어진 라이브러리 입니다.
Sklearn or Scikit-learn(머신러닝)
: 내가 산업경영공학과 혹은 컴퓨터공학 쪽이다? 그렇다면 가장 많이 접하게 되는 Sklearn 라이브러리를 많이 활용합니다. 모형의 유의성, 변수의 유의성은 알 수 없지만 데이터를 train vs. test 데이터셋으로 분리하고, 학습하고, 성능평가를 아주 쉽게 할 수 있게 도와주는 라이브러리입니다.
3. 시각화 : 맷플로립(Matplotlib), 씨본(Seaborn)
import matplotlib.pyplot as plt
import seaborn as sns
Matplotlib
: 가장 전통적인 시각화의 툴(Tools)로써 잘만사용하면 아주 구체적인 설정까지 가능합니다.
Seaborn
: 데이터분석에 특화된 시각화 툴(Tools)이라고 생각하면 될 것 같습니다.
Tip. warning 없애기
import warnings warnings.warningfilters('ignore')
우리가 쥬피터에서 데이터 분석을 하다 보면 시뻘겋게 보기 싫은 에러 같은 것(실제로 에러는 아닙니다)이 뜨게 되는 데 위 라이브러리를 통해 그것을 생략해주게 됩니다.
이제 조금씩 수준을 높여가면서 차례대로 데이터분석을 위한 기록을 시작하도록 하겠습니다.
'데이터분석 이야기 > 데이터분석전문가(ADP) 정리' 카테고리의 다른 글
ADP 실기 25회 후기(문제 포함) (0) | 2022.06.23 |
---|---|
value_counts() 막대 그래프 그릴 때 순서 꼬일 때 (0) | 2022.04.01 |
정형데이터 마이닝 - 연관규칙 분석(장바구니 분석) (0) | 2021.12.10 |