Баєсова фільтрація спаму

Баєсова фільтрація спаму (англ. Naive Bayes spam filtering) — метод для фільтрації спаму, заснований на застосуванні наївного баєсова класифікатора, що спирається на пряме використання теореми Баєса. Теорему Баєса названо на честь її автора Томаса Баєса (1702—1761) — англійського математика і священика, який першим запропонував використання теореми для коригування переконань, ґрунтуючись на оновлених даних.

Опис

Під час навчання фільтру для кожного слова в тексті вираховують та зберігають його «вагу» — оцінку ймовірності того, що текст із цим словом — спам. У найпростішому випадку як оцінку використовують частоту: «появ в спамі/появ всього». У складніших випадках можлива попередня обробка тексту: приведення слів до початкової форми, видалення службових слів, обчислення «ваги» для цілих фраз, транслітерація тощо.

Під час перевірки нового тексту ймовірність «спаму» обчислюють за вказаною вище формулою для множини гіпотез. В даному випадку «гіпотези» — це слова, і для кожного слова «достовірність гіпотези» $P(A_{i})=N_{word_{i}}/N_{words~total}$ — частка цього слова в тексті, а «залежність події від гіпотези» $P(B|A_{i})$ — обчислена раніше «вага» слова. Тобто «вага» тексту в даному випадку — усереднена «вага» всіх його слів.

Віднесення тексту до «спаму» чи «не-спаму» проводиться в залежності від того, чи перевищує його «вага» якусь планку, задану користувачем (зазвичай беруть 60-80 %). Після ухвалення рішення стосовно тексту в базі даних оновлюються «ваги» для слів, що входять до його складу.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.