DNA i walka ze spamem
2004-08-21 15:05
Najnowszą bronią IBM-a w walce ze spamem jest technika oryginalnie zaprojektowana do analizowania sekwencji DNA.
Przeczytaj także: Archiwum e-maili
System Chung-Kwei (nazwa pochodzi od talizmanu feng-shui, chroniącego dom przed złymi duchami) jest modyfikacją algorytmu Teiresias, opracowanego przez firmę IBM do analizy kodu DNA. Pracownicy "Big Blue" doszli bowiem do wniosku, że sekwencje znaków występujące w niechcianej korespondencji można analizować w podobny sposób, jak ciągi reprezentujące sekwencje DNA.Idąc tym tropem, przez algorytm "przepuszczono" 65 tys. przykładów spamu. Program potraktował każdy e-mail jak długi łańcuch DNA. Na tej podstawie wyłoniono 6 mln powtarzających się wzorów, wśród których znalazły się słowa takie jak np. "Viagra". Każdy z wzorów reprezentuje sekwencję liter i liczb pojawiającą się więcej niż w jednej niechcianej wiadomości.
Następnie badacze analogicznie postąpili z zestawem zwykłych e-maili i wykluczyli ze zbioru wzorów te, które występowały także w tej korespondencji. Dzięki temu Chung-Kwei filtruje spam, a przepuszcza normalne wiadomości. Algorytm radzi sobie z technikami oszukiwania oprogramowania antyspamowego, polegającymi na zastępowaniu liter innymi znakami - np. symbolem "$" w miejsce litery "s".
Jak dowiodły testy, nowa technika IBM-a ma skuteczność na poziomie 97%. Chung-Kwei już wkrótce trafi do komercyjnego produktu "Big Blue", aplikacji SpamGuru.