본문 바로가기

데이터분석 이야기23

데이터 아키텍처 전문가(DAP)는 무슨 일을 하는 걸까? 안녕하세요 미래대비자입니다. 오늘은 데이터 분석 관련 자격 중 하나인 DAP에 대해서 알아보도록 하겠습니다. 데이터 아키텍처 전문가는 뭘까? 전사아키텍처를 구성하는 하나의 구성요소이면서 전사아키텍처의 뼈대에 해당하는 것이 데이터 아키텍처입니다. 예를 들어보겠습니다. 한마디로 각각 사일로 조직처럼 일하는 여러 부서가 있습니다. 우리가 비슷하게 여기는 재무와 회계 마저도 팀이 구분되어있다면 서로 영역이 다릅니다. 회계팀은 회계팀은 전문 용어들을 통해서 소통하고, 재무팀은 파이낸싱 팀으로써 리스크에 대한 이야기, 주식, 채권에 대한 전문용어들로 소통을 하게 되고요 영업부서는 그들 고유한 현장의 언어들로 소통을 합니다. 이런저런 부서가 섞여있는 거대한 조직에 어느날 미션이 떨어졌습니다. 직원여러분! 오너 입장에.. 2022. 5. 10.
데이터 분석에 물을 흐리는 다중공선성 보호되어 있는 글 입니다. 2022. 5. 9.
궁금증3. 상관계수가 낮은데 R2가 높은 이유(1편) 안녕하세요 미래대비자입니다. 오늘은 데이터 모델링을 하는 경우 상관계수는 0에 가까운데 회귀분석 모델링의 R2는 80%가 넘는 경우가 있는데 이런경우는 어떻게 이해를 해야 할까?'라는 주제로 글을 써보려고합니다. 상관계수의 공식을 보면 이해하는데 도움이 됩니다. 1. 모집단의 상관계수 공식(전체 데이터) 2. 표본집단의 상관계수 공식(전체 데이터에서 n개를 샘플링) 상관계수는 두개의 X,Y 집단에 대해 비교하는 상관도를 보는 측도이며 공분산을 각표준편차로 나눠주는 것입니다. * 공분산을 표준편차로 나눠주는 이유는? 공분산은 두개 변수가 같은 방향으로 움직이는 정도이며 변수의 측정 단위가 다른경우 상관성 해석이 어렵습니다. 이러한 단점을 극복하기 위해 각 표준편차로 나눠주어 측정단위와 상관없이 두 변수 X.. 2022. 5. 9.
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) 안녕하세요 미래대비자 입니다. 지난편에 이어서 오늘은 첨도에 대해서 설명을 해보겠습니다. 2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 stat-university.tistory.com 이번에는 4차 적률인 첨도에 대해서 알아보고 실제 데이터 분석에서는 어떤 의미를 가지고 있는지 알아봅시다. 첨도 : 분포가 얼마나 뾰족한가? (반대로 생각하면 뾰족할 수록.. 2022. 4. 15.
value_counts() 막대 그래프 그릴 때 순서 꼬일 때 연도별 빈도를 세어서 막대그래프를 그리려고한다. 데이터 프레임으로 빈도를 세서 막대 그래프를 그리는 문제를 하다가 인덱스가 꼬이는 문제가 발생했다. 그냥 막대그래프를 그린다면 문제가 되지 않는데 plt.text를 이용하여 빈도수를 넣으려고할 때 문제가 발생했다. 해결방법은 생각보다 간단했다. sort_index()를 해주면 정리가 된다. 이렇게 정렬을 해주어 plt.text()를 사용하니 문제가 완전해결되었다. 간단하지만 생각보다 오래걸렸다. 앞으로 파이썬을 하며 간단한 문제를 해결했을 때 마다 기록하고자 한다. 추가적으로 df.set_index('공시년도').loc[[2016, 2017, 2018, 2019, 2020, 2021]].plot(kind='bar')와 같은 방식으로 정렬해줄 수 도있다. 2022. 4. 1.
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 시작하겠습니다. 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이.. 2022. 3. 30.
ADP 24회 실기 시험 후기(일기) 3/26일 오전 10시부터 오후 2시까지 4시간 동안 시험을 치뤘다. 필기시험을 84점에 합격했지만 최초 실기시험은 2021년 20회 60점을 받았고 R로 시험을 치뤘었다. 이번엔 파이썬 시험 난이도 이번 시험은 평이했다. 통계학 전공자에게 유리하게 나와서 합격할 수 있는 절호의 기회라 여겼지만 나는 탈락할 확률이 높다. 통계학책을 안가지고 가서 문제마다 옛 기억을 더듬고 공식도 하나하나 유도하면서 허덕허덕 풀다보니 뭐라고 작성했는지 디테일한 기억은 안난다. 기초통계학을 수강했으면 50점을 가져갈 수 있는 문제들이었다. 시험문제 1. 기계학습(50점): 결석횟수를 target변수로 하여 11개의 독립변수를 통해 결석횟수를 예측하는 문제가 출제되었다. 2. 통계학(50점): 다중회귀분석 회귀계수 유의성, .. 2022. 3. 29.
ADP 데이터 분석 순서(기본편) 안녕하세요 미래대비자 입니다. 오늘은 데이터 분석 전문가로써 전체적인 분석 순서를 간단히 정리해보겠습니다. 자세한거는 꾸준히 포스팅할 계획이고 이것만 잘 공부하여 정리하면 합격까지 갈 수 있을거라고 생각합니다 1. 데이터를 수집한다.(ADP에서는 생략) 2. 파이썬에서는 statsmodels 또는 sklearn 모듈을 이용해서 데이터를 분석한다. - EDA : 데이터 피처, 개체들과의 관계를 보고 이상치/결측치를 발견 및 처리(제거/대체 등)한다. 또한, 무슨 분석을 해야하는지 염두한다. - 피처 앤지니어링 : 분석에 따라 수치형은 표준화/MinMax스케일링, 인코딩(레이블,원핫,더미)을 하여 분석에 적합한 형태로 데이터를 변형한다. 3. 데이터 분리 : 분류의 경우 클래스 불균형 문제를 고려한 업/다운.. 2022. 3. 7.
정형데이터 마이닝 - 연관규칙 분석(장바구니 분석) 보호되어 있는 글 입니다. 2021. 12. 10.
빅데이터 분석기사 자격증 최근에 빅데이터 분석기사 자격증이 핫 이슈가 되었다. 접수 서버가 마비될 정도로 미래시대 유망직업인 빅데이터 분석기사에 대한 스터디가 활발하다. 나도 책을 구입하여 빅분기 필기 책을 한권구입했다. 목차는 다음과 같았다. 1. 빅데이터 분석 기획 - 빅데이터의 이해 - 데이터 분석 계획 - 데이터 수집 및 저장 계획 2. 빅데이터 탐색 - 데이터 전처리 - 데이터 탐색(EDA) - 통계 기법 이해 3. 빅데이터 모델링 - 분석 모형 설계 - 분석 기법 적용 4. 빅데이터 결과 해석 - 분석 모형 평가 및 개선 - 분석결과 해석 및 활용 즉, 데이터를 기획하고 데이터를 잘 파악해서 모델링하고 해석하는 일련의 과정을 시험으로 다루는 것 같다. 이를 통해 ADP의 중간 단계로써의 역할을 해주는 자격증이 될 것 .. 2021. 4. 11.