ПОПУЛЯРНЫЕ НОВОСТИ

 Фото: Астрономическая обсерватория засекла НЛО на Луне
 Фото: Исполинский айсберг приведет к климатической катастрофе
 Фото: На Марсе обнаружились загадочные башни
 Фото: Инопланетяне в открытую изучают МКС
 Фото: Христианское благословение – это приветствие мистера Спока

НОВОСТИ СМИ

Биоинформатика используется для борьбы со спамом

Интересные новости / Разные интересные новости
27.08.2004 46

текст: Анатолий Ализар 

Техника, первоначально предназначенная для анализа последовательностей ДНК, нашла применение для фильтрации спама. Новый алгоритм под названием Chung-Kwei разработан в недрах компании IBM и показал эффективность 97%. 

Как сообщает журнал New Scientist, спам-фильтр Chung-Kwei базируется на алгоритме Teiresias, который был разработан группой биотехнологов в Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме. 

Именно на этоих алогритмах основан самообучающийся спам-фильтр Chung-Kwei, названный в честь талисмана, который защищает жилище от злых духов в древнекитайском искусстве гармонни фэн шуй. И спам-фильтр Chung-Kwei вполне оправдывает свое название: первая версия программы во время тестирования отфильтровала 96,56% спама и, что еще более важно, ошибочно идентифицировала в качестве спама всего лишь 1 из 6000 писем. 

Исследователи из IBM «натравили» алгоритм для анализа цепочек ДНК на базу данных из 65 тыс. экземпляров спама. Каждое письмо трактовалось как длинная последовательность символов — в этом ее сходство с записью структуры ДНК. В коллекции спама алгоритм Teiresias нашел 6 млн отдельных паттернов. Каждый паттерн представлял собой последовательность букв и цифр, которая встречалась более чем в одном письме. Как и в случае с самообучающимися байесовскими фильтрами, на втором этапе обучения алгоритм обработал коллекцию писем, которые заведомо не являлись спамом. Здесь тоже была составлена база паттернов. Затем базы паттернов сравнили друг с другом и удалили из «базы признаков спама» паттерны, которые встречались в обеих группах. Оставшиеся последовательности использовались для идентификации спама. 

Как видим, принцип действия алгоритма прост. Он напоминает байесовский фильтр, но принципиальное отличие состоит в том, что Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии. 



Благодаря своим уникальным особенностям во время испытаний алгоритм корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды. 

Сразу же после демонстрации возможностей Chung-Kwei компания IBM объявила о включении этого фильтра в свой коммерческий продукт — программу SpamGuru, а Джастин Мейсон (Justin Mason), разработчик популярной программы SpamAssassin, сказал, что «фэншуйский талисман» выглядит очень многообещающе. Но наибольшее восхищение у него вызывает не определенный алгоритм, а то, что компания IBM пытается использовать биоинформатику для борьбы со спамом. 

25.08.2004

 Источник: www.webplanet.ru

Комментарии отражают мнения их авторов, и не обязательно точку зрения интернет - портала esoreiter.ru. Просим посетителей портала воздержаться от оскорблений, ругани и вульгарных выражений.

Интернет - портал esoreiter.ru оставляет за собой право удалять комментарии без предварительного уведомления и/или предыдущих объяснений.

Отель изо льда принимает гостей круглый год




НОВОСТИ СМИ

ФОТО ДНЯ

Берегите любовь и дружбу!

ГОРОСКОП НА СЕГОДНЯ

21.03 - 20.04
24.09 - 23.10
21.04 - 20.05
24.10 - 22.11
21.05 - 21.06
23.11 - 21.12
22.06 - 22.07
22.12 - 20.01
23.07 - 23.08
21.01 - 20.02
24.08 - 23.09
21.02 - 20.03
2003-2016 "Факты о невероятном"

Материалы данного сайта предназначены для лиц 18 лет и старше (18+)

Авторские права на материалы, размещенные на сайте, принадлежат авторам статей. Все права защищены и охраняются законом РФ. При использовании материалов с сайта ссылка на первоисточник обязательна. Если вы считаете, что публикация того или иного материала на нашем сайте нарушает законные права правообладателя, свяжитесь с нами.

Рейтинг@Mail.ru