본문 바로가기

데이터분석 이야기/데이터 분석 이야기4

의사결정나무(Decision Tree) 오늘은 의사결정나무에 대해 공부해보자. ML에서 가장 쉬운(?) 분석이라고 할 수 있는 의사결정나무는 깊게 들어가면 어렵다.. ⏺ 목표변수에 대한 의사결정 규칙(rule)들을 나무구조로 그래프화하여 분류와 예측을 수행하는 기법 ⏺ 목적 분류(Classification): binary, multiway 예측(Prediction): regression ⏺ 구조(3) 노드(Node) - 각 노드마다 피처(설명변수)를 위치(탑재)시킴 가지(branch) - 하나의 마디로부터 끝 마디까지 연결된 마디들 깊이(Depth) - 가지를 이루는 마디 개수 ⏺ 분리기준 불순도(impurity) : 지니지수, 엔트로피 등(분류) F통계량, 분산 감소량 등(예측) ⏺ 알고리즘 종류 CART(binary) : 분리기준(Y(이산.. 2022. 5. 12.
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) 안녕하세요 미래대비자 입니다. 지난편에 이어서 오늘은 첨도에 대해서 설명을 해보겠습니다. 2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 stat-university.tistory.com 이번에는 4차 적률인 첨도에 대해서 알아보고 실제 데이터 분석에서는 어떤 의미를 가지고 있는지 알아봅시다. 첨도 : 분포가 얼마나 뾰족한가? (반대로 생각하면 뾰족할 수록.. 2022. 4. 15.
왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 시작하겠습니다. 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이.. 2022. 3. 30.
블로그를 시작하며 통계학과 학부생이었던 2011년 당시에 회귀분석 교수님께서 "'빅데이터' 쪽으로 전공하면 전망이 밝을거야"라고 말씀하셨던게 떠오른다. 2021년 지금, 아이들 때부터 코딩을 정규교육으로 할 만큼 4차산업 관련의 한 꼭지로 빅데이터에 대한 관심이 크다. 나는 통계학을 전공하고 학부를 졸업한 뒤 지금은 직장생활을 하고 있지만 데이터분석에 매력에 아직까지 기웃기웃 거리며 공부를 하고있다. 블로그를 통해 내가 배우고 느꼈던 수학과 통계에 대한 다양한 이야기를 나누고자 한다. 스스로의 정리 노트로 활용 할 뿐아니라 빅데이터 시대를 맞이하는 많은 꿈나무들과 동료들에게 도움이 되었으면 한다. 물론 일기 형식으로 주저리 주저리 작성할 때도 있을것 같다.. 많이 부족하지만 게시글에 대한 많은 지적도 받고 토론도 하며 상.. 2021. 4. 8.