본문 바로가기

Codestates AI 부트캠프/2. Machine Learning

[머신러닝] 3-3 ML Problem Framing

1. 문제 정의

ML을 통해 해결하고자 하는 비즈니스 문제가 무엇인가?

  • target 설정
  • target을 설명하는 feature 확보
  • 적절한 데이터 양 확보

 

2. target 설정

문제 해결을 위해 어떻게 target을 설정할 것인가 (회귀인가 분류인가)

 

3. Data Leakage 문제

별다른 작업 없이도 100%에 가까운 성능을 얻는 경우 '데이터 누수'를 의심해보아야 한다. 2가지의 경우로 나눌 수 있다.

 

① 학습 시 사용하면 안되는 feature 포함
ex) 주식의 종가를 예측하는 데이터에 하루치 거래량이 있는 건 말이 안된다. 왜냐하면 내일의 거래량을 모르는 상태에서 내일의 종가를 예측해야하기 때문이다

 

② 학습 과정에서 평가 데이터의 정보가 활용된 경우

모델로 하여금 test set을 학습하도록 했다거나, scaler-encoder를 생성해 test set에 fit한 경우에 이에 해당될 수 있으므로 주의하자

4. 평가

  • 적절한 평가지표 설정
  • 모델 해석 
  • 비즈니스 평가