Иерихон, расположенный на территории современного Западного берега, претендует на..
Группа специалистов из Калифорнийского университета в Сан-Диего и Наньянского технологического..
текст: Анатолий Ализар
Техника, первоначально предназначенная для анализа последовательностей ДНК, нашла применение для фильтрации спама. Новый алгоритм под названием Chung-Kwei разработан в недрах компании IBM и показал эффективность 97%.
Как сообщает журнал New Scientist, спам-фильтр Chung-Kwei базируется на алгоритме Teiresias, который был разработан группой биотехнологов в Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.
Именно на этоих алогритмах основан самообучающийся спам-фильтр Chung-Kwei, названный в честь талисмана, который защищает жилище от злых духов в древнекитайском искусстве гармонни фэн шуй. И спам-фильтр Chung-Kwei вполне оправдывает свое название: первая версия программы во время тестирования отфильтровала 96,56% спама и, что еще более важно, ошибочно идентифицировала в качестве спама всего лишь 1 из 6000 писем.
Исследователи из IBM «натравили» алгоритм для анализа цепочек ДНК на базу данных из 65 тыс. экземпляров спама. Каждое письмо трактовалось как длинная последовательность символов — в этом ее сходство с записью структуры ДНК. В коллекции спама алгоритм Teiresias нашел 6 млн отдельных паттернов. Каждый паттерн представлял собой последовательность букв и цифр, которая встречалась более чем в одном письме. Как и в случае с самообучающимися байесовскими фильтрами, на втором этапе обучения алгоритм обработал коллекцию писем, которые заведомо не являлись спамом. Здесь тоже была составлена база паттернов. Затем базы паттернов сравнили друг с другом и удалили из «базы признаков спама» паттерны, которые встречались в обеих группах. Оставшиеся последовательности использовались для идентификации спама.
Как видим, принцип действия алгоритма прост. Он напоминает байесовский фильтр, но принципиальное отличие состоит в том, что Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии.
Благодаря своим уникальным особенностям во время испытаний алгоритм корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.
Сразу же после демонстрации возможностей Chung-Kwei компания IBM объявила о включении этого фильтра в свой коммерческий продукт — программу SpamGuru, а Джастин Мейсон (Justin Mason), разработчик популярной программы SpamAssassin, сказал, что «фэншуйский талисман» выглядит очень многообещающе. Но наибольшее восхищение у него вызывает не определенный алгоритм, а то, что компания IBM пытается использовать биоинформатику для борьбы со спамом.
25.08.2004
Иерихон, расположенный на территории современного Западного берега, претендует на..
Группа специалистов из Калифорнийского университета в Сан-Диего и Наньянского технологического..
Материалы сайта предназначены для лиц 16 лет и старше (16+)
Материалы, размещенные на сайте, носят информационный характер и предназначены для образовательных целей. Авторские права на материалы, размещенные на сайте, принадлежат авторам статей. Все права защищены и охраняются законом РФ. Мнение редакции не всегда совпадает с мнением авторов статей.
При использовании материалов с сайта, активная ссылка на esoreiter.ru обязательна.
▪ О проекте / Контакты ▪ Редакционная политика ▪ Политика конфиденциальности ▪ Пользовательское соглашение
Наши контакты: esoreiter@yandex.ru, гл.редактор А.В.Ветров Телефон редакции: +7 (917) 398-10-94
Для улучшения работы сайта и его взаимодействия с пользователями мы используем файлы cookie. Продолжая работу с сайтом, Вы разрешаете использование cookie-файлов и принимаете условия Политики конфиденциальности.