- 기계 학습이 처리할 데이터는 불확실한 세상에서 발생하므로, 불확실성(uncertainty)를 다루는 확률과 통계를 잘 활용해야 함.
확률 기초
- 확률변수(random variable): 임의적으로 변할수 있는 확률적 요소
- 확률분포(probability distribution)
- 확률 질량 함수(probability mass function), 이산(discrete) 확률 변수
- 확률 밀도 함수(probability dense function), 연속(continuous) 확률 변수
- 확률 벡터(random vector)
- 확률변수를 요소로 가짐
- 곱(AND)의 규칙(product rule)과 합(OR)의 규칙(sum rule)
- 조건부 확률(conditionaly productbility)에 의한 결합확률 계산
- 곱 규칙: P(y, x) = P(x|y)P(y)
- 합 규칙과 곱 규칙에 의한 주변 확률 계산(marginal probability)
베이즈 정리와 기계학습
- 베이즈 정리(bayes's rule)
- 우도 = 내가 실제 관찰할 수 있는 확률값?
- 사후확률은 뭔가 일어나고 나서 그 원인을 찾는거라 생각하면 된다.
- 보통은 원인이 있고 나서 이벤트가 발생한다. 하지만 이를 역추적 하는것
- 확률과 우도
- 확률은 어떤 분포에서부터 우리가 가질수 있는 모든 숫자들이다.(정의역 = 확률변수)
- 위의 데이터 분포로부터 데이터를 생성해서 그것을 역으로 유추해 보는것 이것이 우도다.
- 기계 학습에 적용
- 기계학습이 풀고 싶은 문제
- 사후 확률 P(y|x)를 직접 추정하는 일은 아주 단순한 경우를 빼고 불가능하다.
- 따라서 베이즈 정리를 이용하여 추정한다.
최대 우도(maximum likelihood)
- 매개변수 (모수)parmeter $\Theta$를 모르는 상황에서 매개변수를 추정하는 문제
- 어떤 확률변수의 관찰된 값들을 토대로 그 확률변수의 매개변수를 구하는 방법
평균과 분산
- 데이터의 요약 정보로서 평균(mean)과 분산(variance)
- 평균 벡터(치우침 정도)와 공분산 행렬(covariance matrix) = 확률 변수의 상관정도
- 공분산 행렬: 나와 다른 차원간의 관계
유용한 확률 분포
- 가우시안 분포(Gaussian distribution)
- 평균과 분산으로 정의
- 베르누이 분포(Bernoulli distribution)
- 성공(x=1) 확률 p이고 실패(x=0) 확률이 1-p인 분포
- 이항 분포(Binominal distribution)
- 성공 확률이 p인 베르누이 실험을 m번 수행할 때 성공할 횟수의 확률 분포
- 확률 분포와 연관된 유용한 함수들
- 로지스틱 시그모이드 함수(logistic sigmoid function)
- 일반적으로 베르누이 분포의 매개변수 조정을 통해 얻어짐
- 소프트플러스 함수(softplus function)
- 정규 분포의 매개변수의 조정을 통해 얻어짐
- 로지스틱 시그모이드 함수(logistic sigmoid function)
- 그 밖에
- 지수분포
- 라플라스 분포
- 디랙 분포
- 혼합 분포들
- 변수 변환(change of variables)
- 기존 확률변수를 새로운 확률 변수로 바꾸는 것
- 변환 y=g(x)와 가역성을 가진 g에 의해 정의되는 x, y 두 확률변수를 가정할 때, 두 확률 변수는 다음과 같이 상호 정의될 수 있음
'프로그래머스 AI 데브코스 5기 > Math' 카테고리의 다른 글
기계학습과 수학 III (0) | 2023.04.17 |
---|---|
기계학습과 수학 I (0) | 2023.04.17 |
LU분해 (0) | 2023.03.24 |
[인공지능 데브코스 TIL]가우스 소거법 (0) | 2023.03.24 |
[인공지능 데브코스 TIL]선형시스템(linear system) (0) | 2023.03.24 |