기계학습_lec3_AAILab
Updated:
참고- 문일철 교수님 유튜브-AAiKaist \ (https://www.youtube.com/watch?v=sDG1Y1vxOjs&list=PLbhbGI_ppZISMV4tAWHlytBqNq1-lb8bz&index=2)
(새롭게 알게된 정보들만 자세히 기술, 나머지 내용들은 간략하게 정리함)
Naive Bayes Classifier
- 성능도 좋고, 입문하기에 좋은 통계 모델
Optimal Classification
- Bayes Classifier
- Error을 제일 줄이는 Optimal Classifier
- 두 종류를 clasifier하는 것일시에는
- 분류에서는 실선이 점선보다 더 좋음
- 선형으로 되어 있으면 확률차이가 별로 크지 않음
- error는 잘못 판별된 부위 면적에 해당됨
- 실선 부분의 error가 더 작음
- Decision Boundary(중점)에 대해서 높은 확률 차이로 두 class를 분류해줌
- 위와 같은 실선 부분의 error를 줄이기 위해서 많은 방법들이 있음(ex. logistic function)
- Optimal Classifier은 다음과 같이도 표현 가능
- Prior : 경험 정보, 데이터에서도 취득 가능
- Likelihood=Class Conditional Density : True인 값(Y=y)들의 확률을 계산해서 Conditional Density를 만들 수 있음
- 여러 variable 간의 Interection을 모두 존재하며 이에 따라 변수값이 엄청 많아짐
- 이러한 Interaction을 무시하는 것이 Naive Bayes filter
Naive Bayes Classifier
- 아래 조건을 풀기 위해서는 너무 파라미터의 수가 많음($(2^d-1)k$)
- 추가적인 조건을 걸어줘야 함
Conditional Independence
- 아래와 같이 조건부 확률을 다음과 같이 해당 조건에서 독립으로 정의하는 것
- 따라서 y조건에서 x변수 사이에는 다음과 같은 관계가 성립함
Marginal Independence vs Conditional Independence
- 자기가 소리르 들으면 앞으로 가나 못들으면 옆의 사람 눈치를 보고 앞으로 가는 사람(예시)
- Y가 관측이 되어 있으면 X1, X2에는 서로의 영향을 주지 않는다
- Y정보가 없으면 X1, X2는 서로 영향을 준다.
- 즉 Marginally independent 하지 않더라도 Conditionally independent할 수 있다.
Conditional Independence를 적용할 때
- 이게 실제로는 맞지 않음
- 너무 많은 파라미터 러닝을 없애기 위해서 만든 것일 뿐
- Assumption이 순진하군~
- 이를 Naive Bayes Classifier라고 부름
Naive Bayes Classifier
- Naive Bayes Classifier Function
- 만들기가 쉬움
- 쉬운만큼 문제점도 존재함
- Naive Assumption의 문제
- Incorrect Probability Estimation시 성능이 안좋음(모든 Classifier의 문제이기도 함)
- MLE나 MAP에 대해서 진행해야 됨
- 주의 : 컴퓨터 계산시 변수가 많으면, 곱하면서 확률 값이 0에 가까워져서 0으로 인식할 수 있음, log 로 계산 진행하는 것이 더 좋음
-
P(X Y)를 유지하면서 classification을 진행하는 모델이 있는데(Logistic Regression)이를 다음 시간에 다룰 것
Leave a comment