본문 바로가기

분류 전체보기35

[ADP 실기] 1.1.2 데이터 불균형 문제 처리 - 오버샘플링(Oversampling) & 언더샘플링(Undersampling) 목차 1. 오버샘플링 SMOTE Borderline-SMOTE Random Over-Sampling ADASYN 2. 언더샘플링 Random Under-Sampling Tomek Links Condensed Nearest Neighnour One Sided Selection Edited Nearest Neighbours Neighbourhood Cleaning Rule 데이터생성 from collections import Counter from sklearn.datasets import make_classification from imblearn.over_sampling import BorderlineSMOTE X, y = make_classification(n_classes = 2, class_sep .. 2022. 11. 3.
[ADP 실기] 1.1.1 데이터 전처리 - 이상치 확인 및 결측값 처리 목차 단순대치 & centralimputation (평균, 모드, 빈번한값, 일정한값 등) 다중 대치 단순확률 대치 (Hot-deck, nearest neighbor) knnImputation 1. 단순대치 & 평균대치 단순대치 - 결측값이 존재하는 레코드를 삭제하는 기법 평균대치 - 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치하는 기법 비조건부 평균대치법 : 기초통계량을 통해 대치 조건부 평균대치법 : 회귀분석을 활용한 대치법 import numpy as np from sklearn.impute import SimpleImputer # 수치형 데이터 - 평균값으로 대치 imp = SimpleImputer(missing_values=np.nan, strategy='mean') # 카테고리형 데이.. 2022. 11. 1.
[ADP 실기] 0. 실기사전준비 - 공부 목표설정 2022-10-01 ADP필기시험을 합격하고 실기를 준비하기 위해 작성한 공부리스트이다. 아래 내용은 내용은 , , , 그리고 를 기반으로 작성하였다. 공부 목차 데이터 전처리 및 데이터 분할 전처리 이상치 확인 및 결측값 처리: 단순대치(Single Imputation), 단순확률 대치(Single Stochastic Imputation), 다중 대치(Multiple Imputation), knnImputation, centralimputation 데이터 불균형 문제 처리 : 업샘플링 (SMOTE, Boaderline SMOTE, Adasyn), 다운샘플링 이상값 처리: 극단값 절단, 조정 변수 변환, 스케일링: 수치형 변수 변환(로그변환, 제곱근변환, 지수변환, 제곱변환, Box-cox 변환, 표준화.. 2022. 10. 31.
Activation이란? Acquisition을 통해 데려온 사용자가, 우리 서비스의 핵심가치를 경험했는가? Activation 단계의 핵심은, Funnel에 대한 분석 사용자들이 경험하는 단계를 도식화 각 단계의 전환율을 측정/분석 Funnel 분석의 고려 요소 핵심가치를 경험하는 시점과 연결되는 Stage를 잘 정의했는가? 비교적 이견이 없는 부분이긴 하나, 회사에서 생각하는 가치와 유저가 생각하는 가치가 다른 경우가 간혹 있으니 주의 A ha moment Must Have Critical Path → 서비스의 마케팅 메시지와, 유저 리뷰 등에서 나오는 키워드가 일치하는가? 각 Stage 별 전환율을 어떤 기준으로 측정하는가? 전환율의 기준에 따라 측정값이 달라짐 보통 유저를 기반으로 전환율을 계산하는 편이 좋다. (빨간색 .. 2021. 9. 2.

출처: https://privatedevelopnote.tistory.com/81 [개인노트]