1.1 베이즈 정리

나이브 베이즈는 베이즈 정리를 기반으로 한다. 이는 관측된 데이터와 사전확률을 이용하여 특정 사건의 사후확률을 계산한다

베이즈 정리:

image.png

1.2 나이브 가정

각 단어가 독립적으로 나타난다고 가정하여 계산을 단순화, 이 가정을 통해 조건부 확률 계산이 쉬워지며, 실제로도 많은 데이터셋에서 유용한 결과를 제공

2. 스팸 필터링 사례

2.1 사전확률 (Prior Probability)

• 스팸과 일반 메일의 비율을 계산하여 **P(S=T)**와 **P(S=F)**를 정의

• 예: 스팸 메일 비율  P(S=T) = 6/14 , 일반 메일 비율  P(S=F) = 8/14

2.2 가능도 (Likelihood)

각 단어가 스팸 또는 일반 메일에 등장할 확률을 계산

• 예:

P(시공|S=T) = 5/6 ,  P(조아|S=T) = 3/6

P(시공|S=F) = 1/8 ,  P(조아|S=F) = 2/8

2.3 스팸 여부 계산

• 새로운 메일이 등장했을 때, 나이브 베이즈 분류기로 스팸 여부를 판단!!

• 메일 내용: “시공 조아 폭풍”

• 스팸일 확률: