본문 바로가기

데이터분석 이야기23

기록:0편. 데이터 분석을 위한 파이썬(Python) 라이브러리 정리 안녕하세요 미래대비자 입니다. 오늘부터 꾸준하게 데이터 분석 전문가(ADP) 준비를 위해 공부했던 내용을 다루고자 합니다. 진짜 시작하기 전에 주요한 라이브러리를 초보자 관점에서 아주 쉽게 정리했습니다. 1. 데이터 처리 : 판다스(Pandas), 넘파이(Numpy) import pandas as pd import numpy as np 판다스(Pandas) : 판다스(Pandas)는 우리가 알기 쉬운 데이터프레임(우리에게 익숙한 스프레드시트(엑셀) 형태) 형태에서 다양하게 데이터를 처리할 수 있습니다. 넘파이(Numpy) :넘파이(Numpy)는 데이터 프레임 형태가 아닌 array형태(1d array는 벡터, 2darray는 행렬 등)로써 선형대수적인 ndarray형태 데이터를 처리할 수 있습니다. 2... 2022. 6. 24.
ADP 실기 25회 후기(문제 포함) 데이터 분석전문가 ADP 자격 취득을 위해 2022년 6월 18일 서일대학교로 시험을 보고왔습니다. 1. 시험 환경 전날에 비가 온다고 했는데 다행히 당일에는 비가 오지 않았습니다. 고사장에 도착하면 배정된 대학교의 상태가 중요한것같습니다. 한 고사장에 약 20명정도가 배정이 되는 것 같았습니다.그리고 배정된 학교마다 컨디션이 다르기 때문에 최악의 상황을 대비하여 시험준비를 하는것이 좋습니다. 서일대학교도 복도식 아파트 처럼 되어있어서 안쪽에 배정될 경우 화장실을 갈때 바깥쪽 사람에게 양해를 구해서 그 분이 일어나셔야 지나갈 수 있었습니다. 2. 시험시간 및 분위기 ADP는 총 4시간의 시험이고 100점 만점에 75점을 득해야 합격인 시험입니다. 30분 동안에는 화장실을 가지 못하고 그 이후부터는 1명씩.. 2022. 6. 23.
데이터 분석가에게 평균이란?(산술평균, 조화평균, 기하평균) 안녕하세요 미래대비자 입니다. 이번에는 ADP 25회 실기 기출문제로 많은 사람들을 괴롭혔던 평균에 대한 여러가지 이야기를 해보고자 합니다. 하나하나 개념을 보다보면 놀라운 평균에 대한 깊은 인사이트를 얻게 하기위해 열심히 작성해보았습니다. 우선 큰 평균에 형님이 있어서 먼저 소개하겠습니다. 위계질서는 다음과 같습니다. 가장 큰 형님은 대푯값입니다. 대푯값은 '데이터를 가장 잘 설명하는 수치를 딱 하나로 말하면 뭘까?' 질문에 대한 추상적인 답변입니다. 이제 구체적인 답변을 해봐요~ 1. 산술평균(Arithmetic Mean) $$ AM = \frac{\sum_{i=1}^n{Data_{i}}}{n} $$ 데이터의 특징 : 합의 형태로 변화하는 데이터 데이터의 분포 : 평균을 중심으로 대칭인 모양의 데이터.. 2022. 6. 20.
우도(Likelihood) 보호되어 있는 글 입니다. 2022. 6. 19.
궁금증5. 도대체 회귀 분석의 정확한 의미가 뭔가?(1편) 안녕하세요 미래 대비자입니다. 오늘은 전통적인 통계분석의 꽃이면서 가~~장많이 활용되는 회귀분석에 대해서 차근히 살펴보고 정복하려고합니다. 최대한 수학적 표현을 배제하고 그 의미에 집중 해보시자고요~ 위키백과에서도 말하고 있듯이 통계 프로그램인 R이나 파이썬 SPSS, 심지어는 엑셀을 활용해서 결과를 쉽게 구할 수 있지만... 잘모르고 쓴다! 돌리면 결과는 '턱!턱!' 나오지만 모델의 가정에 대한 진단도 없이 배타회귀계수를 보고 '아! 이정도의 영향력이 있구나?'라고 무모한 적용을 해버리고 실제로 설문조사의 결과분석에서 이러한 오류를 범하게 되어버립니다. 1. 회귀분석(Regression Analysis)에서 말하는 회귀의 의미 회귀분석은 크게 보면 선형회귀와 비선형회귀가 존재합니다. 여기서는 학부과정에.. 2022. 5. 14.
통계분석의 큰 흐름 보호되어 있는 글 입니다. 2022. 5. 13.
궁금증4. 가설검정에서의 모수적(parametric) 방법과 비모수적(nonparametric) 방법 안녕하세요 미래대비자입니다. 오늘은 가설감정에서 모수적 방법과 비모수적 방법에 대해 이야기 해보려고합니다. 실제로 우리가 어떠한 것을 통계적으로 검정하고 할 때 모수적 방법이 더 많을까요? 비모수적 방법이 더 많을까요? 모수적 방법은 '데이터가 정규분포, 이항분포 등을 따른다고 한다' 고 전제를 한 후 그 분포의 모수에 대한 검정을 실시하는 것입니다. 예를들어 회귀분석은 데이터가 정규분포를 따른다고 가정하고 로지스틱회귀분석은 종속변수가 이항분포를 따르는 것을 가정합니다. 파라미터를 추정하는데 있어서 OLS(최소제곱법), MLE(Maximum Likelihood Estimator)등 으로 모수를 추정하는 것이 대표적인 방법입니다. 반면에 비모수적 방법은 '데이터가 특정한 확률분포를 따른다고 전제할 수 없거.. 2022. 5. 13.
궁금증3. 결정계수(R2)가 낮아도 좋은 모델인 경우(2편) 안녕하세요 미래대비자 입니다. 지난시간에는 결정계수(R2)가 낮아도 좋은 모델인 경우(1편)에 대해서 이야기를 했습니다. 2022.05.09 - [데이터 분석 고민거리(궁금증에 대한 연구)] - 궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제 stat-university.tistory.com 이번시간에는 데이터 분석을 할 때 결정계수가 낮은 경우 어떻게 생각해야 하고 어떤 분석을 해야 할까를 고민하는 데이터 분석가들을 위해 글을 쓰게 되었습니다. 우리는 데이터.. 2022. 5. 12.
의사결정나무(Decision Tree) 오늘은 의사결정나무에 대해 공부해보자. ML에서 가장 쉬운(?) 분석이라고 할 수 있는 의사결정나무는 깊게 들어가면 어렵다.. ⏺ 목표변수에 대한 의사결정 규칙(rule)들을 나무구조로 그래프화하여 분류와 예측을 수행하는 기법 ⏺ 목적 분류(Classification): binary, multiway 예측(Prediction): regression ⏺ 구조(3) 노드(Node) - 각 노드마다 피처(설명변수)를 위치(탑재)시킴 가지(branch) - 하나의 마디로부터 끝 마디까지 연결된 마디들 깊이(Depth) - 가지를 이루는 마디 개수 ⏺ 분리기준 불순도(impurity) : 지니지수, 엔트로피 등(분류) F통계량, 분산 감소량 등(예측) ⏺ 알고리즘 종류 CART(binary) : 분리기준(Y(이산.. 2022. 5. 12.
통계학의 큰 양대산맥! 빈도주의 vs. 베이지안 관점 안녕하세요 미래대비자입니다. 오늘은 통계학의 큰 흐름을 가져가고 있는 두개의 철학인 빈도주의와 베이지안에 대해서 설명해보려고합니다. 비모수적인 내용은 분포무관 방법이므로 여기 챕터에서는 모수적 추론에 대한 내용만 다루겠습니다 통계학의 큰 양대산맥인 빈도주의와 베이지안에 대해서 설명해보고자합니다. 이 글을 읽어주셔서 감사합니다 Let's GO! 통계학자가 두명있습니다. 빈도주의자와 베이지안 통계학자! 어떤 사람이 와서 이런질문을 던집니다. 동전을 던져서 앞면이 나오는 확률은 어떻게 되요? 빈도주의 통계학자는 이렇게 말합니다. 동전을 계속 던져보세요. 그래서 앞면이 나온 경우와 뒷면이 나오는 경우를 작성해보는 겁니다. 10번을 던졌는데 아래와 같은 결과가 나왔습니다. S = {'앞면', '앞면', 뒷면', .. 2022. 5. 11.