1.1 베이즈 정리
나이브 베이즈는 베이즈 정리를 기반으로 한다. 이는 관측된 데이터와 사전확률을 이용하여 특정 사건의 사후확률을 계산한다
• 베이즈 정리:
1.2 나이브 가정
각 단어가 독립적으로 나타난다고 가정하여 계산을 단순화, 이 가정을 통해 조건부 확률 계산이 쉬워지며, 실제로도 많은 데이터셋에서 유용한 결과를 제공
2. 스팸 필터링 사례
2.1 사전확률 (Prior Probability)
• 스팸과 일반 메일의 비율을 계산하여 **P(S=T)**와 **P(S=F)**를 정의
• 예: 스팸 메일 비율 P(S=T) = 6/14 , 일반 메일 비율 P(S=F) = 8/14
2.2 가능도 (Likelihood)
각 단어가 스팸 또는 일반 메일에 등장할 확률을 계산
• 예:
P(시공|S=T) = 5/6 , P(조아|S=T) = 3/6
P(시공|S=F) = 1/8 , P(조아|S=F) = 2/8
2.3 스팸 여부 계산
• 새로운 메일이 등장했을 때, 나이브 베이즈 분류기로 스팸 여부를 판단!!
• 메일 내용: “시공 조아 폭풍”
• 스팸일 확률: