부업으로 1년에 1억씩 버는 직장인입니다
기록:0편. 데이터 분석을 위한 파이썬(Python) 라이브러리 정리 본문
안녕하세요 미래대비자 입니다. 오늘부터 꾸준하게 데이터 분석 전문가(ADP) 준비를 위해 공부했던 내용을 다루고자 합니다. 진짜 시작하기 전에 주요한 라이브러리를 초보자 관점에서 아주 쉽게 정리했습니다.
1. 데이터 처리 : 판다스(Pandas), 넘파이(Numpy)
import pandas as pd
import numpy as np
판다스(Pandas)
: 판다스(Pandas)는 우리가 알기 쉬운 데이터프레임(우리에게 익숙한 스프레드시트(엑셀) 형태) 형태에서 다양하게 데이터를 처리할 수 있습니다.
넘파이(Numpy)
:넘파이(Numpy)는 데이터 프레임 형태가 아닌 array형태(1d array는 벡터, 2darray는 행렬 등)로써 선형대수적인 ndarray형태 데이터를 처리할 수 있습니다.
2. 데이터 분석 : Scipy, Statsmodels, sklearn
import scipy
import statsmodels as stats
import sklearn
Scipy, Statsmodels(통계학)
: 내가 통계학과 사람이다? 그렇다면 이 두개의 라이브러리로 통계분석을 하게 됩니다. 모형의 유의성, 변수의 유의성 등 통계학과에서 배우는 이론을 기반으로 만들어진 라이브러리 입니다.
Sklearn or Scikit-learn(머신러닝)
: 내가 산업경영공학과 혹은 컴퓨터공학 쪽이다? 그렇다면 가장 많이 접하게 되는 Sklearn 라이브러리를 많이 활용합니다. 모형의 유의성, 변수의 유의성은 알 수 없지만 데이터를 train vs. test 데이터셋으로 분리하고, 학습하고, 성능평가를 아주 쉽게 할 수 있게 도와주는 라이브러리입니다.
3. 시각화 : 맷플로립(Matplotlib), 씨본(Seaborn)
import matplotlib.pyplot as plt
import seaborn as sns
Matplotlib
: 가장 전통적인 시각화의 툴(Tools)로써 잘만사용하면 아주 구체적인 설정까지 가능합니다.
Seaborn
: 데이터분석에 특화된 시각화 툴(Tools)이라고 생각하면 될 것 같습니다.
Tip. warning 없애기
import warnings warnings.warningfilters('ignore')
우리가 쥬피터에서 데이터 분석을 하다 보면 시뻘겋게 보기 싫은 에러 같은 것(실제로 에러는 아닙니다)이 뜨게 되는 데 위 라이브러리를 통해 그것을 생략해주게 됩니다.
이제 조금씩 수준을 높여가면서 차례대로 데이터분석을 위한 기록을 시작하도록 하겠습니다.
'데이터분석 이야기 > 데이터분석전문가(ADP) 정리' 카테고리의 다른 글
ADP 실기 25회 후기(문제 포함) (0) | 2022.06.23 |
---|---|
value_counts() 막대 그래프 그릴 때 순서 꼬일 때 (0) | 2022.04.01 |
정형데이터 마이닝 - 연관규칙 분석(장바구니 분석) (0) | 2021.12.10 |