본문 바로가기
728x90

전체 글140

왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) 안녕하세요 미래대비자 입니다. 지난편에 이어서 오늘은 첨도에 대해서 설명을 해보겠습니다. 2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 stat-university.tistory.com 이번에는 4차 적률인 첨도에 대해서 알아보고 실제 데이터 분석에서는 어떤 의미를 가지고 있는지 알아봅시다. 첨도 : 분포가 얼마나 뾰족한가? (반대로 생각하면 뾰족할 수록.. 2022. 4. 15.
value_counts() 막대 그래프 그릴 때 순서 꼬일 때 연도별 빈도를 세어서 막대그래프를 그리려고한다. 데이터 프레임으로 빈도를 세서 막대 그래프를 그리는 문제를 하다가 인덱스가 꼬이는 문제가 발생했다. 그냥 막대그래프를 그린다면 문제가 되지 않는데 plt.text를 이용하여 빈도수를 넣으려고할 때 문제가 발생했다. 해결방법은 생각보다 간단했다. sort_index()를 해주면 정리가 된다. 이렇게 정렬을 해주어 plt.text()를 사용하니 문제가 완전해결되었다. 간단하지만 생각보다 오래걸렸다. 앞으로 파이썬을 하며 간단한 문제를 해결했을 때 마다 기록하고자 한다. 추가적으로 df.set_index('공시년도').loc[[2016, 2017, 2018, 2019, 2020, 2021]].plot(kind='bar')와 같은 방식으로 정렬해줄 수 도있다. 2022. 4. 1.
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 시작하겠습니다. 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이.. 2022. 3. 30.
ADP 24회 실기 시험 후기(일기) 3/26일 오전 10시부터 오후 2시까지 4시간 동안 시험을 치뤘다. 필기시험을 84점에 합격했지만 최초 실기시험은 2021년 20회 60점을 받았고 R로 시험을 치뤘었다. 이번엔 파이썬 시험 난이도 이번 시험은 평이했다. 통계학 전공자에게 유리하게 나와서 합격할 수 있는 절호의 기회라 여겼지만 나는 탈락할 확률이 높다. 통계학책을 안가지고 가서 문제마다 옛 기억을 더듬고 공식도 하나하나 유도하면서 허덕허덕 풀다보니 뭐라고 작성했는지 디테일한 기억은 안난다. 기초통계학을 수강했으면 50점을 가져갈 수 있는 문제들이었다. 시험문제 1. 기계학습(50점): 결석횟수를 target변수로 하여 11개의 독립변수를 통해 결석횟수를 예측하는 문제가 출제되었다. 2. 통계학(50점): 다중회귀분석 회귀계수 유의성, .. 2022. 3. 29.
ADP 데이터 분석 순서(기본편) 안녕하세요 미래대비자 입니다. 오늘은 데이터 분석 전문가로써 전체적인 분석 순서를 간단히 정리해보겠습니다. 자세한거는 꾸준히 포스팅할 계획이고 이것만 잘 공부하여 정리하면 합격까지 갈 수 있을거라고 생각합니다 1. 데이터를 수집한다.(ADP에서는 생략) 2. 파이썬에서는 statsmodels 또는 sklearn 모듈을 이용해서 데이터를 분석한다. - EDA : 데이터 피처, 개체들과의 관계를 보고 이상치/결측치를 발견 및 처리(제거/대체 등)한다. 또한, 무슨 분석을 해야하는지 염두한다. - 피처 앤지니어링 : 분석에 따라 수치형은 표준화/MinMax스케일링, 인코딩(레이블,원핫,더미)을 하여 분석에 적합한 형태로 데이터를 변형한다. 3. 데이터 분리 : 분류의 경우 클래스 불균형 문제를 고려한 업/다운.. 2022. 3. 7.
정형데이터 마이닝 - 연관규칙 분석(장바구니 분석) 보호되어 있는 글 입니다. 2021. 12. 10.