728x90 데이터분석 이야기/데이터 분석 이야기4 의사결정나무(Decision Tree) 오늘은 의사결정나무에 대해 공부해보자. ML에서 가장 쉬운(?) 분석이라고 할 수 있는 의사결정나무는 깊게 들어가면 어렵다.. ⏺ 목표변수에 대한 의사결정 규칙(rule)들을 나무구조로 그래프화하여 분류와 예측을 수행하는 기법 ⏺ 목적 분류(Classification): binary, multiway 예측(Prediction): regression ⏺ 구조(3) 노드(Node) - 각 노드마다 피처(설명변수)를 위치(탑재)시킴 가지(branch) - 하나의 마디로부터 끝 마디까지 연결된 마디들 깊이(Depth) - 가지를 이루는 마디 개수 ⏺ 분리기준 불순도(impurity) : 지니지수, 엔트로피 등(분류) F통계량, 분산 감소량 등(예측) ⏺ 알고리즘 종류 CART(binary) : 분리기준(Y(이산.. 2022. 5. 12. 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(2편-첨도 편) 안녕하세요 미래대비자 입니다. 지난편에 이어서 오늘은 첨도에 대해서 설명을 해보겠습니다. 2022.03.30 - [데이터분석 이야기/데이터 분석 이야기] - 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 stat-university.tistory.com 이번에는 4차 적률인 첨도에 대해서 알아보고 실제 데이터 분석에서는 어떤 의미를 가지고 있는지 알아봅시다. 첨도 : 분포가 얼마나 뾰족한가? (반대로 생각하면 뾰족할 수록.. 2022. 4. 15. 왜도(skew)와 첨도(kurtosis)의 의미는 뭘까?(1편-왜도 편) 안녕하세요 미래대비자입니다. 오늘은 데이터분석할 때 언급은 되지만 잘 모르겠는 ... 통계학에서 맨날 배우지만 잘 모르겠는... 왜도와 첨도에 대해 알아볼까합니다. 적률에 대해 언급하면서 시작하겠습니다. 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도.. 이렇게만 배워왔는데 실제 데이터 분석에서는 어떤 의미일까요? 왜도 :'분포의 비대칭 정도 양수이면 오른쪽으로 꼬리가 길다' 라는 뜻입니다. '왜도는 분포가 얼마나 치우쳐 있나?' 확인하는 지표로써 0인경우는 치우침이 없는 분포를 말합니다. 우리가 잘 아는 t분포와 정규분포는 평균을 기준으로 대칭을 이루는 skew가 0인 경우입니다. |skew| < 0.5 : 데이터가 상당히 대칭적이다. 0.5 < |skew| < 2 : 데이.. 2022. 3. 30. 블로그를 시작하며 과거에 아래의 목적으로 시작했다.통계학과 학부생이었던 2011년 당시에 회귀분석 교수님께서 "'빅데이터' 쪽으로 전공하면 전망이 밝을거야"라고 말씀하셨던게 떠오른다. 2021년 지금, 아이들 때부터 코딩을 정규교육으로 할 만큼 4차산업 관련의 한 꼭지로 빅데이터에 대한 관심이 크다. 나는 통계학을 전공하고 학부를 졸업한 뒤 지금은 직장생활을 하고 있지만 데이터분석에 매력에 아직까지 기웃기웃 거리며 공부를 하고있다. 블로그를 통해 내가 배우고 느꼈던 수학과 통계에 대한 다양한 이야기를 나누고자 한다. 스스로의 정리 노트로 활용 할 뿐아니라 빅데이터 시대를 맞이하는 많은 꿈나무들과 동료들에게 도움이 되었으면 한다. 물론 일기 형식으로 주저리 주저리 작성할 때도 있을것 같다.. 많이 부족하지만 게시글에 대한 .. 2021. 4. 8. 이전 1 다음