본문 바로가기

통계3

[AI부트캠프 2기] - 10일차 (feat. 코드스테이츠) Sprint Challenge- Week 2 (2021/3/17) 두번째 Sprint Challenge의 날이다. 확실히 통계적 개념을 완벽하게 이해시키 못했다는 것을 느낄 수 있었다. 분명히 수도없이 많이 배워왔던 t-검정과 ANOVA인데도 불구하고 스스로의 불신이 검정하는 과정에서 브레이크 작용일 하였다. 하지만 다시 한번 배워오고 정리했던 것들을 훑어보며 적용할수록 그저 퍼져있던 조각들이 서서히 맞춰지듯이 풀이를 이어갈 수 있었다. 첫 Sprint Challenge처럼 도전과제를 볼 여유도 많이 없고 오히려 내가 한 결론이 맞는지 검증하는데에 다 써버리게 되었다. 한주간을 돌아보며 "과연 내가 무엇을 얻었을까?" 또는 "부트캠프에 참여하기 전 기대했던 모습과 다른가?" 라는 질문을 던져보면, 1) .. 2021. 3. 17.
이상 데이터 검출(이진분류)을 위한 언더 샘플링과 오버 샘플링 데이터세트를 분리하는 것은 머신러닝의 중요한 단계이다. 모델을 훈련시키기 위해서는 학습데이터(Train dataset)과 테스트 데이터(Test dataset)으로 나누어 진행한다. 하지만 만약에 데이터가 불균형한 분포를 하고 있다면 얻고자 하는 값(Target Value)이 터무니 없이 적거나 많은 경우에는 샘플링을 통해서 데이터의 세트를 임의적으로 생성해야한다. 대표적인 방식으로 오버 샘플링(Oversampling)과 언더 샘플링(Undersampling)을 통해 적절한 학습데이터를 확보시킨다. 1. 언더 샘플링(Undersampling) 많은 레이블을 가진 데이터세트를 적은 레이블을 가진 데이터 세트의 크기와 같은 수준으로 샘플링하는 기법 2. 오버 샘플링(Oversampling) 적은 레이블을 가.. 2021. 2. 19.
재고관리 (Association Rules) 들어가기전... 이 프로젝트는 회사와 학교와 학생팀으로 이루어져 기밀서약계약을 하고 진행한 관계로 자세하게 다루지는 못하지만 어떻게 진행을 했고 어떤 어려움이 있었으며 어떻게 극복했는지 그리고 전체적으로 진행하면서 배웠던 점과 아쉬운 점을 서술하기에 깊게 이해하기에 부족할 수 있을 것 같다. 프로젝트는 나를 포함한 3명의 학생들 (나, 중국계 미국인, 그리고 미국인), HyVee본사의 데이터 분석팀 2명과 학교 교수님으로 이루어져서 진행했다. 협업사(Company): Hy-Vee Hy-Vee는 미국 중서부에 위치함 슈퍼마켓 체인으로서 총 245개의 지점을 가지고 있으며 주로 아이오와, 일리노이, 캔자스, 미네소타, 미주리, 네바다, 사우스 다코타, 그리고 위스콘신에 비즈니스를 운영중이다. 신선도를 무기로.. 2021. 2. 13.

출처: https://privatedevelopnote.tistory.com/81 [개인노트]