간단한 기계 학습의 예
- 카드 승인 지도 학습의 예제
- 주요한 x(feature)를 뽑는다 -> feature selection
- 2차원 특징공간에 발현된 age와 salary 데이터를 결정하는 결정 경계를 찾는 문제
- 데이터
- 목적함수
- 가설의 최적화
- 위의 세단계를 통해 지도학습을 수행한다.
과소적합과 과잉적합
- 과소적합(underfitting)
- 모델의 용량이 작아 오차가 클수밖에 없는 현상
- 대안: 비선형 모델을 사용
- 과잉적합(overfitting)
- 12차 다항식 곡선을 채택한다면 훈련집합에 대해 거의 완벽하게 근사화함
- 하지만 '새로운' 데이터를 예측한다면 큰 문제 발생
- 이유는 '모델의 용량(capacity)이 크기' 때문에 학습 과정에서 잡음까지 수용 -> 과잉적합 현상
- 훈련에 과몰입해서 단순 암기했기 때문
- 적절한 용량의 모델을 선택하는 모델 선택 작업이 필요함
- 그렇다면 어떤 모델을 선택해야 할까?
- 1~12차 다항식 모델의 비교 관찰
- 1~2차는 훈련집합과 테스트집합 모두 낮은 성능: 과소적합
- 12차는 훈련집합에 높은 성능을 보이나 테스트집합에서는 낮은 성능 -> 낮은 일반화 능력: 과잉적합
- 3~4차는 훈련집합에 대해 12차보다 낮겠지만 테스트집합에는 높은 성능 -> 높은 일반화 능력: 적합 모델 선택
- 모델의 일반화 능력과 용량 관계
- 모델의 자유도와 데이터의 자유도가 얼추 비슷한 경우 => 문제의 상황을 잘 해결했다고 말할수 있다.
- 모델의 용량을 낮추는 방법
- 규제를 적용하는 방법이 있다.
- 훈련집합에 대한 세가지 모델 적합도의 예
- 편향(bias)과 분산(변동 = variance)
- 훈련 집합을 여러 번 수집하여 1~12차에 반복 적용하는 실험
- 2차는 매번 큰 오차 -> 편향이 큼, 하지만 비슷한 모델을 얻음 -> 낮은 변동
- 12차는 매번 작은 오차 -> 편향이 작음, 하지만 크게 다른 모델을 얻음 -> 높은 변동
- 일반적으로 용량이 작은 모델은 편향이 크고 분산이 작음. 복잡한 모델은 편향이 작고 분산이 큼
- 즉, 편향과 분산은 상충(trade-off)관계이다.
즉 기계학습의 목표는 다음과 같다.
- 낮은 편향과 낮은 분산을 가진 예측 모델을 만드는 것이 목표 = 편향 분산 트레이드 오프 관계의 적절점을 찾는 문제
- 모델의 편향과 분산은 상충 관계 이므로 편향을 최소로 유지하며 분산도 최대로 낮추는 전략을 취해 모델을 만들어야 한다.(??)
- 바이어스는 원래 참값과 예측값 차이의 에러라고 생각하면 된다.
- 분산은 모델 모양이 비슷한 정도라고 생각하면 될것 같다.
- 용량 증가 -> 편향 감소, 분산 증가 경향
- 일반화 오차 성능(=편향 + 분산)은 U형의 곡선을 가짐
- 보통 일반화 에러를 크게 잡고 규제를 통해 모델의 capacity를 줄이는 전략으로 모델을 생성한다.
- 검증집합을 이용한 모델 선택
- 훈련집합과 테스트집합과 다른 별도의 검증집합(validation set)를 만든다. => 데이터 양이 많을 경우에 채택
- 검증집합을 이용한 모델 선택
- 교차 검증(Cross validation)
- 비용 문제로 별도의 검증집합이 없는 상황에 유용한 모델 선택 기법(데이터 양 적음)
- 훈련집합을 등분하여, 학습과 평가 과정을 여러 번 반복한 후 평균 사용
- 10겹 교차검증의 예(10-fold-cross validation)
- 부트스트랩(bootstrap)
- 임의의 복원 추출 샘플링(sampling with replacement) 반복
- 데이터 분포가 불균형일 때 적용
- 현대 기계 학습의 전략
- 용량이 충분히 큰 모델을 선택한 후, 선택한 모델이 정상을 벗어나지 않도록 여러 규제(regularization)기법을 적용함
- 데이터 확대 (data aumentation)
- 데이터를 더 많이 수집하면 일반화 능력이 향상됨
- 데이터 수집은 많은 비용이 듦
- 실측자료를 사람이 일일이 표식을 해야함
- 인위적으로 데이터 확대(data augmentation)
- 훈련 집합에 있는 샘플을 변형(transform)함
- 가중치 감쇠
- 가중치 감쇠는 개선된 목적함수를 이용하여 가중치를 작게 조절하는 규제 기법
- 가중치 감쇠를 가진 선형 회귀 예
- $\lambda$는 주어진 가중치 감쇠 선호 정도를 제어
- $\lambda = 0$: 감쇠 없음
- 큰 $\lambda$는 가중치가 더 작아지도록 함
기계 학습의 유형
- 지도 방식에 따른 유형
- 지도 학습(supervised learning)
- 특징 벡터 X와 Y(정답 있음)가 모두 주어진 상황
- 회귀(regression)과 분류(classification) 문제로 구분
- 비지도 학습(unsupervised learning)
- 특징벡터 X는 주어지는데 목표치 Y가 주어지지 않은 상황(정답 없음)
- 군집화(clustering) 과업(고객 성향에 따른 맞춤 홍보 응용 등)
- 밀도 추정(density estimation), 특징 공간 변환 과업(PCA 등등)
- 지도 학습(supervised learning)
- 강화 학습(reinforcement learning) => 강인공지능으로 가기위한 필수요소
- (상대적) 목표치가 주어지는데, 지도학습과 다른 형태임(==보상= reward)
- 준지도 학습(semi-supervised learning)
- 일부는 X와 Y를 모두 가지지만, 나머지는 X만 가진 상황
- 최근 대부분의 데이터가 X의 수집은 쉽지만, Y는 수작업이 필요하여 최근 중요성 부각
- 오프라인(offline learning) 학습과 온라인 학습(online learning)
- 보통은 오프라인 학습을 다룸
- 온라인 학습은 IoT 등에서 추가로 발생하는 데이터 샘플을 가지고 점증적 학습 수행
- 결정론적 학습(deterministic learning)과 확률적 학습(stochasitc learninig)
- 결정론적에서는 같은 데이터를 가지고 다시 학습하면 같은 예측 모델이 만들어짐
- 확률적 학습은 학습 과정에서 확률 분포를 사용하므로 같은 데이터로 다시 학습하면 다른 예측 모델이 만들어짐
- RBM, DBN
- 분별 모델(discrimilnative models)과 생성 모델(generative models)
- 분별 모델은 부류 예측에만 관심. 즉 P(y|x) 의 추정에 관심
- 생성 모델은 P(x) 또는 P(x|y)를 추정함
- 따라서 새로운 샘플을 생성할 수 있음
- GAN, RBM
'프로그래머스 AI 데브코스 5기 > Machine Learning' 카테고리의 다른 글
End-to-End 머신러닝 프로젝트 - 2 (2) | 2023.04.19 |
---|---|
End-to-End 머신러닝 프로젝트 (0) | 2023.04.18 |
기계학습 II (0) | 2023.04.15 |
기계학습 I (0) | 2023.04.15 |
인공지능이란? (0) | 2023.04.15 |