부업으로 1년에 1억씩 버는 직장인입니다

기록:0편. 데이터 분석을 위한 파이썬(Python) 라이브러리 정리 본문

데이터분석 이야기/데이터분석전문가(ADP) 정리

기록:0편. 데이터 분석을 위한 파이썬(Python) 라이브러리 정리

미래대비자 2022. 6. 24. 22:30
반응형

안녕하세요 미래대비자 입니다. 오늘부터 꾸준하게 데이터 분석 전문가(ADP) 준비를 위해 공부했던 내용을 다루고자 합니다. 진짜 시작하기 전에 주요한 라이브러리를 초보자 관점에서 아주 쉽게 정리했습니다.

 

1. 데이터 처리 : 판다스(Pandas), 넘파이(Numpy)

import pandas as pd
import numpy as np

판다스(Pandas)

: 판다스(Pandas)는 우리가 알기 쉬운 데이터프레임(우리에게 익숙한 스프레드시트(엑셀) 형태) 형태에서 다양하게 데이터를 처리할 수 있습니다. 

 

넘파이(Numpy)

:넘파이(Numpy)는 데이터 프레임 형태가 아닌 array형태(1d array는 벡터, 2darray는 행렬 등)로써 선형대수적인 ndarray형태 데이터를 처리할 수 있습니다.

 

2. 데이터 분석 : Scipy, Statsmodels, sklearn

import scipy
import statsmodels as stats
import sklearn

Scipy, Statsmodels(통계학)

: 내가 통계학과 사람이다? 그렇다면 이 두개의 라이브러리로 통계분석을 하게 됩니다. 모형의 유의성, 변수의 유의성 등 통계학과에서 배우는 이론을 기반으로 만들어진 라이브러리 입니다.

 

Sklearn or Scikit-learn(머신러닝)

: 내가 산업경영공학과 혹은 컴퓨터공학 쪽이다? 그렇다면 가장 많이 접하게 되는 Sklearn 라이브러리를 많이 활용합니다. 모형의 유의성, 변수의 유의성은 알 수 없지만 데이터를 train vs. test 데이터셋으로 분리하고, 학습하고, 성능평가를 아주 쉽게 할 수 있게 도와주는 라이브러리입니다.

3. 시각화 : 맷플로립(Matplotlib), 씨본(Seaborn)

import matplotlib.pyplot as plt
import seaborn as sns

Matplotlib

: 가장 전통적인 시각화의 툴(Tools)로써 잘만사용하면 아주 구체적인 설정까지 가능합니다.

Seaborn

: 데이터분석에 특화된 시각화 툴(Tools)이라고 생각하면 될 것 같습니다.

 

 

Tip. warning 없애기


import warnings
warnings.warningfilters('ignore')

우리가 쥬피터에서 데이터 분석을 하다 보면 시뻘겋게 보기 싫은 에러 같은 것(실제로 에러는 아닙니다)이 뜨게 되는 데 위 라이브러리를 통해 그것을 생략해주게 됩니다.

이제 조금씩 수준을 높여가면서 차례대로 데이터분석을 위한 기록을 시작하도록 하겠습니다.

 

반응형