본문 바로가기

Codestates AI 부트캠프/2. Machine Learning

(12)

[머신러닝] 1-4 로지스틱 회귀 (Logistic Regression) 0. 분류 문제 분류 문제는 데이터가 속할 특정 범주(또는 특정 범주에 속할 확률)을 예측한다. 이진 분류 : 타겟값이 두가지 범주인 경우 (Yes or No) 다중 분류 : 타겟값이 세가지 이상의 범주인 경우 (Class1 or Class2 or Class3) 1. 로지스틱 회귀 로지스틱 회귀는 분류 문제에 쓰이는 선형회귀 알고리즘. 선형회귀에 시그모이드 함수를 씌워 확률을 구한다. 이진 분류 문제에 주로 쓰이는 방법으로서 0과 1사이의 값을 출력한다. 임계값(threshold)을 0.5로 지정해둔 경우, 출력값이 0.5 이상인 경우에 class 1을 반환하고, 0.5 미만인 경우 class 0을 반환한다. *만약 타겟값이 yes, no 등의 문자형일 경우 0과 1의 수치형으로 바꿔주어야 한다. *아래..

[머신러닝] 1-3 정규화 회귀모델 (Regularized Regression) 0. 과적합을 예방하기 위한 세가지 방법 보통 과소적합보다는 과적합의 문제가 많이 발생한다. ① 더 많은 데이터 학습시키기. 데이터 크기가 클수록 더 복잡한 모델을 쓸 수 있기 때문이다. ② 모든 특성을 사용하지 않는다. 중요한 특성 위주로 단순화 ③ 정규화 모델. 모델에 규제항을 더해 기존 모델보다 단순화 1. 정규화 회귀모델이란? 선형모델에 규제항을 더해 과적합을 방지하는 방법. Regularized가 번역상 정규화가 되었지만 사실 규제를 한다는 뜻. 규제항은 회귀계수를 감소시켜 예측에 미치는 영향력을 축소시킨다. 그래서 모델이 학습데이터에 덜 적합하게 만들고 일반화 성능을 높인다. 편향을 더하고 분산을 줄이는 방식이다. 규제항의 종류에 따라 ridge, lasso, elasticNet으로 구분된다...

[머신러닝] 1-2 일반화 (Generalization) 1. 일반화란? 모델에 test set을 넣어보면서 정확도 높은 예측을 할 수 있도록 설계하는 것. 지난 시간에는 데이터셋을 넣어 모델을 훈련시켰다. 이를 통해 만들어진 모델은 이미 제공받은 데이터들에 대해서는 정확도가 높은 대답을 내놓을 것이다. 하지만 학습에 쓰이지 않은, 완전히 새로운 데이터를 넣었을 때의 답변은 어떠할까? 이때도 훈련 때처럼 정확도가 높아야 '모델의 성능이 좋다'고 말할 수 있을 것이다. 모델을 만드는 목적이 '예측'이기 때문이다. 훈련 데이터에서의 성능과 테스트 데이터에서의 성능이 유사하게 나온 것을 '일반화'가 잘 된 모델이라고 한다. 2. 일반화 방법 A. 2 way hold out 일반화는 어떻게 하는걸까? 바로 test 데이터셋을 통해 모델의 성능을 검증하고 가늠해보는 것..

[머신러닝] 1-1 Linear Regression 0. 머신러닝 데이터로부터 유용한 예측을 하기위해 모델이라고 불리는 소프트웨어를 학습시키는 과정. 모델은 데이터 간의 수학적 관계, 규칙, 패턴을 학습한 뒤 새로운 데이터가 들어왔을 때 예측을 한다. A. 머신러닝 방법론 ① 지도학습 : 답(label)이 있는 데이터를 학습하며 데이터와 답 간의 규칙 파악 회귀 문제 : 연속적인 값을 예측하는 문제. ex) 주택 가격 예측, 강수량 예측 분류 문제 : 데이터의 특정 범주에 속할 확률을 예측하는 문제. 범주의 갯수에 따라 이진 분류 / 다중 분류 문제로 나눌 수 있다. ex) 상품 구매 여부 예측, 고양이 종 예측 * 회귀 문제와 분류 문제는 예측값, 사용 모델, 평가 지표 등이 상이하니 어떤 문제를 풀고 있는 지 정확히 파악하는 것이 중요하다 ② 비지도학..

티스토리툴바