결정트리2 [Section 2] 2. 트리계열 모델과 분류(feat. 코드스테이츠) Tree-Based Model(2021/4/12 ~ 4/16) 이번주의 주제는 '트리계열 모델을 통한 분류방법'이다. 간단한 Decision Tree부터 앙상블 기법 그리고 하이퍼파라미터 튜닝을 통한 최적화까지 다루었다. 배웠던내용에 대한 간단한 정리와 실용적으로 유용하게 쓰일만한 꿀팁들을 위주로 적겠다. 의사결정나무(Decision Tree) 트리계열 모델에서 가장 기본모델이며 앙상블기법에서는 약학습기(Weak Learner)로 쓰인다. 결정나무의 구성요소는 다음과 같다. 구성요소 설명 부모마디 (Parent Node) 상위마디 자식마디 (Child Node) 부모마디로 부터 분리된 2개이상의 마디들 뿌리마디 (Root Node) 최상위 마디 (시작점) 끝마디 (Terminal Node) 잎(Leaf).. 2021. 4. 16. 분류 알고리즘(1) - 결정트리(Decision Tree) 분류(Classification)는 주어진 데이터의 Feature와 Label을 머신러닝 알고리즘에 주입하여 학습시킨 이후 생성된 모델을 통해서 비슷한 또는 새로운 데이터 값이 주어졌을 때 Label을 예측하는 것입니다. 특징 데이터 스케일링나 정규화 등의 데이터 가공의 영향이 매우 적다. 매우 쉽고 유연하지만 성능향상을 위해선 복잡한 구조(가지치기)를 거쳐야 하므로 과정합(Overfitting)의 위험도가 높다. 하지만, 앙상블기법을 통해서 과적합문제가 오히려 장점으로 작용한다. 앙상블기법은 많은 약한 학습기(Weak Learning)를 통해 발생하는 오류에 가중치를 업데이트하며 예측성능을 향상시킨 모델들(GBM, XGBoost, LightGBM 등) 따라서 결정트리는 앙상블기법에 좋은 약한 학습기가 .. 2021. 2. 19. 이전 1 다음