Биоинформатика используется для борьбы со спамом

текст: Анатолий Ализар 

Техника, первоначально предназначенная для анализа последовательностей ДНК, нашла применение для фильтрации спама. Новый алгоритм под названием Chung-Kwei разработан в недрах компании IBM и показал эффективность 97%. 

Как сообщает журнал New Scientist, спам-фильтр Chung-Kwei базируется на алгоритме Teiresias, который был разработан группой биотехнологов в Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме. 

Именно на этоих алогритмах основан самообучающийся спам-фильтр Chung-Kwei, названный в честь талисмана, который защищает жилище от злых духов в древнекитайском искусстве гармонни фэн шуй. И спам-фильтр Chung-Kwei вполне оправдывает свое название: первая версия программы во время тестирования отфильтровала 96,56% спама и, что еще более важно, ошибочно идентифицировала в качестве спама всего лишь 1 из 6000 писем. 

Исследователи из IBM «натравили» алгоритм для анализа цепочек ДНК на базу данных из 65 тыс. экземпляров спама. Каждое письмо трактовалось как длинная последовательность символов — в этом ее сходство с записью структуры ДНК. В коллекции спама алгоритм Teiresias нашел 6 млн отдельных паттернов. Каждый паттерн представлял собой последовательность букв и цифр, которая встречалась более чем в одном письме. Как и в случае с самообучающимися байесовскими фильтрами, на втором этапе обучения алгоритм обработал коллекцию писем, которые заведомо не являлись спамом. Здесь тоже была составлена база паттернов. Затем базы паттернов сравнили друг с другом и удалили из «базы признаков спама» паттерны, которые встречались в обеих группах. Оставшиеся последовательности использовались для идентификации спама. 

Как видим, принцип действия алгоритма прост. Он напоминает байесовский фильтр, но принципиальное отличие состоит в том, что Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии. 

Благодаря своим уникальным особенностям во время испытаний алгоритм корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды. 

Сразу же после демонстрации возможностей Chung-Kwei компания IBM объявила о включении этого фильтра в свой коммерческий продукт — программу SpamGuru, а Джастин Мейсон (Justin Mason), разработчик популярной программы SpamAssassin, сказал, что «фэншуйский талисман» выглядит очень многообещающе. Но наибольшее восхищение у него вызывает не определенный алгоритм, а то, что компания IBM пытается использовать биоинформатику для борьбы со спамом. 

25.08.2004

 Источник: www.webplanet.ru

В Антарктиде нашли ровный ряд непонятных одинаковых объектов
В Антарктиде нашли ровный ряд непонятных одинаковых объектов
Конспирологи, ведущие YouTube-канал «Conspiracy Depot», сделали еще одно невероятное открытие, рассматривая спутниковые снимки Антарктиды посредством популярного картографического сервиса «Google Планета Земля». Новость быстро стала горячей сенсацией на сайтах, посвященных паранормальщине.
САМОЕ ЧИТАЕМОЕ
ФОТО ДНЯ
Современные дети вышли погулять...
2003-2018 "Факты о невероятном" / "Эзорейтер"

Материалы данного сайта предназначены для лиц 16 лет и старше (16+)

Авторские права на материалы, размещенные на сайте, принадлежат авторам статей. Все права защищены и охраняются законом РФ. При использовании материалов с сайта ссылка на наш сайт обязательна. Если вы считаете, что публикация того или иного материала на нашем сайте нарушает законные права правообладателя, свяжитесь с нами.

Рейтинг@Mail.ru