[elektro] Interware e-mail

Wed Mar 10 17:51:23 CET 2010

jhidvegi wrote:
> Én ezt elhiszem, de arról próbálok beszélni - eredménytelenül, és tán igazam
> sincs -, hogy egy nagy mailszerver, mint amilyen a guglié, észreveheti, hogy
> ugyanolyan tartalmú vagy subjectű emilek szanaszét mennek ki óriási számban.
> Aztán, ha sokan megpróbálják beidomitani a sajátjukat, hogy "ez nem spam", akkor
> megtanulhatja, hogy ez nem az, és legközelebb is átengedi. De ha senki nem mondja
> rá, akkor lehet, hogy ki fogja szürni.

Amit manapság legelterjedtebben használnak, az a tartalom analízis.
A tartalom analízissel spamra jellemző dolgokat keresünk, szavak, 
kifejezések, írási formák, ez email RFC szerinti formátum helyessége, 
mennyi szöveg jut mennyi képhez és HTML tartalomhoz, milyen nyelven 
íródott milyen karakterkészlettel, stb., bármi... Ugyanúgy, ahogy az 
ember ránézésre megállapítja, csak a gépnek nehezebb. Az embernek egy 
tizedmásodperc levelenként, a gépnek meg sokkal több. :-)

A bayes vizsgálat ami hasonlít valamelyest az elgondolásodhoz, pontosan 
részleteiben nem merültem el. A működéséhez az adott levélről tudni kell 
hogy spam vagy nem (pl. a tartalom analízis kimenete vagy az általad 
említett kézi megjelölés alapján).
Készül róla egy lenyomat, ami hasonló célú mint a kriptográfiai hash 
függvények, de nem bináris egyezés vizsgálatára való, hanem heurisztikus 
hasonlóság vizsgálatra. Utána ezekhez hasonlítják a későbbi leveleket.

Ezek mind a mesterséges intelligencia egy-egy formája, és eléggé 
számításigényesek ahoz képest mintha csak le kéne dobni az emailt a 
helyére. Minden bejövő levelet össze kell hasonlítani a már letárolt 
milliónyi mintával. Simán többszörözni kell a szerverparkot hozzá.
(forgalmas helyen, nem egy cégnél ahol beesik napi 10, 50 vagy 500 levél 
összesen)

-- 
((( Móczik Gábor  )))--((( e|mail: pm-01 |@| progzmaster |.| hu )))
((( S.k.y.p.e.: moczik )))