[elektro] Interware e-mail
Moczik Gabor
pm_levlista at progzmaster.hu
Wed Mar 10 17:51:23 CET 2010
jhidvegi wrote:
> Én ezt elhiszem, de arról próbálok beszélni - eredménytelenül, és tán igazam
> sincs -, hogy egy nagy mailszerver, mint amilyen a guglié, észreveheti, hogy
> ugyanolyan tartalmú vagy subjectű emilek szanaszét mennek ki óriási számban.
> Aztán, ha sokan megpróbálják beidomitani a sajátjukat, hogy "ez nem spam", akkor
> megtanulhatja, hogy ez nem az, és legközelebb is átengedi. De ha senki nem mondja
> rá, akkor lehet, hogy ki fogja szürni.
Amit manapság legelterjedtebben használnak, az a tartalom analízis.
A tartalom analízissel spamra jellemző dolgokat keresünk, szavak,
kifejezések, írási formák, ez email RFC szerinti formátum helyessége,
mennyi szöveg jut mennyi képhez és HTML tartalomhoz, milyen nyelven
íródott milyen karakterkészlettel, stb., bármi... Ugyanúgy, ahogy az
ember ránézésre megállapítja, csak a gépnek nehezebb. Az embernek egy
tizedmásodperc levelenként, a gépnek meg sokkal több. :-)
A bayes vizsgálat ami hasonlít valamelyest az elgondolásodhoz, pontosan
részleteiben nem merültem el. A működéséhez az adott levélről tudni kell
hogy spam vagy nem (pl. a tartalom analízis kimenete vagy az általad
említett kézi megjelölés alapján).
Készül róla egy lenyomat, ami hasonló célú mint a kriptográfiai hash
függvények, de nem bináris egyezés vizsgálatára való, hanem heurisztikus
hasonlóság vizsgálatra. Utána ezekhez hasonlítják a későbbi leveleket.
Ezek mind a mesterséges intelligencia egy-egy formája, és eléggé
számításigényesek ahoz képest mintha csak le kéne dobni az emailt a
helyére. Minden bejövő levelet össze kell hasonlítani a már letárolt
milliónyi mintával. Simán többszörözni kell a szerverparkot hozzá.
(forgalmas helyen, nem egy cégnél ahol beesik napi 10, 50 vagy 500 levél
összesen)
--
((( Móczik Gábor )))--((( e|mail: pm-01 |@| progzmaster |.| hu )))
((( S.k.y.p.e.: moczik )))
More information about the Elektro
mailing list