1. 문제 정의
ML을 통해 해결하고자 하는 비즈니스 문제가 무엇인가?
- target 설정
- target을 설명하는 feature 확보
- 적절한 데이터 양 확보
2. target 설정
문제 해결을 위해 어떻게 target을 설정할 것인가 (회귀인가 분류인가)
3. Data Leakage 문제
별다른 작업 없이도 100%에 가까운 성능을 얻는 경우 '데이터 누수'를 의심해보아야 한다. 2가지의 경우로 나눌 수 있다.
① 학습 시 사용하면 안되는 feature 포함
ex) 주식의 종가를 예측하는 데이터에 하루치 거래량이 있는 건 말이 안된다. 왜냐하면 내일의 거래량을 모르는 상태에서 내일의 종가를 예측해야하기 때문이다
② 학습 과정에서 평가 데이터의 정보가 활용된 경우
모델로 하여금 test set을 학습하도록 했다거나, scaler-encoder를 생성해 test set에 fit한 경우에 이에 해당될 수 있으므로 주의하자
4. 평가
- 적절한 평가지표 설정
- 모델 해석
- 비즈니스 평가
'Codestates AI 부트캠프 > 2. Machine Learning' 카테고리의 다른 글
[머신러닝] 3-4 Class Imbalance (0) | 2023.04.16 |
---|---|
[머신러닝] 3-2 모델 해석 (분석 단위 기준) (0) | 2023.04.16 |
[머신러닝] 3-1 모델 해석 (특성 기준) (0) | 2023.04.16 |
[머신러닝] 2-4 Model Tuning (0) | 2023.04.16 |
[머신러닝] 2-3 전처리 (Preprocessing) (0) | 2023.04.16 |