Filtro bayesiano

Da Thinkfn

O filtro bayesiano é o processo de usar métodos estatísticos para classificar documentos por categorias. O filtro de Bayes foi definido depois do documento de Paul Graham, A Plan of Spam, e transformou-se num mecanismo popular para distinguir um e-mail ilegítmo conhecido como spam de um e-mail legítimo.

Muitos programas de e-mail modernos como Mozilla Thunderbird utilizam a filtragem de spams por meio do método Bayesian. O filtro bayesiano utiliza o Teorema de Bayes, no contexto do Spam, diz que a probabilidade que um email seja um Spam, percebido em determinadas palavras dentro dele, é igual à probabilidade de encontrar aquelas determinadas palavras no e-mail de Spam, cronometrando a probabilidade que todo e-mail é Spam, dividido pela probabilidade de encontrar aquelas palavras em qualquer e-mail:

P(spam|palavra)= \frac{P(palavra|spam)P(spam)}{P(palavra)}

As palavras particulares têm probabilidades particulares de ocorrer no e-mail do Spam e no email legítimo. Por exemplo, a maioria dos usuários de email encontrarão freqüentemente a palavra Viagra no email de Spam, mas verão raramente no e-mail legítimo. O filtro não sabe das probabilidades adiantado, o usuário terá que orientá-lo, treinando o filtro a excluir automaticamente as probabilidades em sua base de dados.

Ver também

Smallwikipedialogo.png

Esta página usa conteúdo da Wikipedia. O artigo original estava em Filtro_bayesiano. Tal como o Think Finance neste artigo, o texto da Wikipedia está disponível segundo a GNU Free Documentation License.