본문 바로가기
  • 공부 기록 인생 기록
Python/ML

나이브 베이즈(Naive Bayes) 분류

by 티권 2023. 2. 9.

나이브 베이즈(Naive Bayes) 분류

- 베이즈 정리에 기반한 통계적 분류 기법

- 지도 학습

- feature끼리 서로 독립이어야 함. -> 실제로 모든 feature가 독립인 경우는 드물다.

- 빠르고 정확(feature들의 연관 관계를 고려하지 않기 때문)

- feature들의 연관 관계를 모두 고려하면 복잡해지기 때문에 단순화 시켜 처리하는 경우 주로 사용됨

  ex) 스팸 메일 분류, 질병 진단, 문서 분류, 비정상 행위 탐지(binary classfication) 등

- 연속형 보다는 이산형에서 성능이 좋다

- 범주형 데이터에 효과적, 수치형 데이터에는 부적합

 

베이즈 정리

 

free 라는 단어가 있을 때 스팸 메일일 확률

 

free, coupon 라는 단어가 있을 때 스팸 메일일 확률

 

: 이렇게 베이즈 정리를 기반으로 스펨 메일일 확률이 스펨 메일이 아닐 확률 보다 크다면 스펨 메일로 분류하는 것.

 

의문점

: feature들이 독립이어야 한다는 가정이 내가 알고 있는 베이즈 정리와 충돌이 일어나서 이해가 되지 않았다.

독립이어야 하면 P(spam | free) = P(spam) 아닌가?

 

-> 정확히 말하면 feature들 간에 조건부 독립이 성립되어야 한다.

'모든 특징들은 분류 변수의 값이 주어졌을 때 서로 독립이다.' 라고 가정.

 

조건부 독립의 가정으로 복잡도를 줄인다

 

조건부 독립을 가정한다면 이렇게 됨

 

 

 

 

 

 

 

'Python > ML' 카테고리의 다른 글

SVR(Support Vector Regression)  (0) 2023.04.01
SVM(Support Vector Machine)  (0) 2023.03.26