본문 바로가기
데이터분석 이야기/데이터분석전문가(ADP) 정리

기록:0편. 데이터 분석을 위한 파이썬(Python) 라이브러리 정리

by 미래대비자 2022. 6. 24.

안녕하세요 미래대비자 입니다. 오늘부터 꾸준하게 데이터 분석 전문가(ADP) 준비를 위해 공부했던 내용을 다루고자 합니다. 진짜 시작하기 전에 주요한 라이브러리를 초보자 관점에서 아주 쉽게 정리했습니다.

 

1. 데이터 처리 : 판다스(Pandas), 넘파이(Numpy)

import pandas as pd
import numpy as np

판다스(Pandas)

: 판다스(Pandas)는 우리가 알기 쉬운 데이터프레임(우리에게 익숙한 스프레드시트(엑셀) 형태) 형태에서 다양하게 데이터를 처리할 수 있습니다. 

 

넘파이(Numpy)

:넘파이(Numpy)는 데이터 프레임 형태가 아닌 array형태(1d array는 벡터, 2darray는 행렬 등)로써 선형대수적인 ndarray형태 데이터를 처리할 수 있습니다.

 

2. 데이터 분석 : Scipy, Statsmodels, sklearn

import scipy
import statsmodels as stats
import sklearn

Scipy, Statsmodels(통계학)

: 내가 통계학과 사람이다? 그렇다면 이 두개의 라이브러리로 통계분석을 하게 됩니다. 모형의 유의성, 변수의 유의성 등 통계학과에서 배우는 이론을 기반으로 만들어진 라이브러리 입니다.

 

Sklearn or Scikit-learn(머신러닝)

: 내가 산업경영공학과 혹은 컴퓨터공학 쪽이다? 그렇다면 가장 많이 접하게 되는 Sklearn 라이브러리를 많이 활용합니다. 모형의 유의성, 변수의 유의성은 알 수 없지만 데이터를 train vs. test 데이터셋으로 분리하고, 학습하고, 성능평가를 아주 쉽게 할 수 있게 도와주는 라이브러리입니다.

3. 시각화 : 맷플로립(Matplotlib), 씨본(Seaborn)

import matplotlib.pyplot as plt
import seaborn as sns

Matplotlib

: 가장 전통적인 시각화의 툴(Tools)로써 잘만사용하면 아주 구체적인 설정까지 가능합니다.

Seaborn

: 데이터분석에 특화된 시각화 툴(Tools)이라고 생각하면 될 것 같습니다.

 

 

Tip. warning 없애기


import warnings
warnings.warningfilters('ignore')

우리가 쥬피터에서 데이터 분석을 하다 보면 시뻘겋게 보기 싫은 에러 같은 것(실제로 에러는 아닙니다)이 뜨게 되는 데 위 라이브러리를 통해 그것을 생략해주게 됩니다.

이제 조금씩 수준을 높여가면서 차례대로 데이터분석을 위한 기록을 시작하도록 하겠습니다.

 

댓글