Дао подорожника (Андреев) - страница 26

Фильтр «Маугли» рассматривал каждое электронное послание как Неизвестного Зверька, которого нужно проверить на вредность с помощью генетического теста. Среди трехсот почтовых генов были и грубые приметы спама, вроде известных спамерских адресов или приветствий без имени, были и приметы похитрее, вроде слишком высокой концентрации позитивных прилагательных и повелительных глаголов. Но отдельный нездоровый ген ещё не делал письмо мусорным; их требовалось несколько, в определенных сочетаниях.

Эти вредные геномы выявлялись при обучении фильтра на тысячах примеров спамерских рассылок. В случае ошибочного пропускания Вредного Зверька программа устраивала в своей Книге Джунглей эдакую оргию скрещивания и мутаций – до тех пор, пока не выводила комбинацию генов, которая соответствовала пропущенному письму. В следующий раз такого Зверька сразу опознавали и глушили.

С этим алгоритмом «Маугли» ловил 98% мусора в почте. Но хитрые два процента грозили вырасти: спамеры тоже развивались. Их последним изобретением стали письма, замаскированные под личные. Эти рассылки приходили людям со взломанных аккаунтов друзей, родственников и коллег, и были подписаны их именами. И всё чаще мимикрия оказывалась успешной, причём не только для спама: такими поддельными письмами хакеры распространяли вирусы, выманивали деньги и корпоративные секреты.

Узнав о филологическом образовании Чесса, кодеры Джон и Мэттью тут же накинулись на нового коллегу с предложением вывести более конкретный «ген навязчивости» на основе стилистического анализа спамерских текстов. Чесс потратил на это пару месяцев, после чего стало ясно, что такой путь – тупиковый. Ведь знакомые тоже бывают требовательны и навязчивы.

Но отличить знакомого от жулика всё-таки можно. Даже если жулик пишет со взломанного почтового ящика, он всё равно не знает многих деталей о тебе, о твоём знакомом и о ваших отношениях…

Добравшись в размышлениях до этого места, Чесс хлопнул себя по лбу: программа-секретарь! Сбор личных предпочтений и прочих маркеров «своего» для хозяина каждого аккаунта. При наличии таких данных можно отслеживать не только присутствие в письме спамерских генов, но и отсутствие генов «своего». Индивидуальный стиль текстов хозяина аккаунта, его частотный словарь, темы его прошлых разговоров с адресатом – всё это вместе трудно подделать. Объедини «Маугли» с «Секретарём», вот тебе и фильтрация псевдо-личных писем!

Джон и Мэттью вначале отнеслись к идее скептически. Ну да, первое приходящее в голову объяснение – новичок решил пристроить собственную курсовую. Однако за следующие три месяца совместной работы их ирония постепенно сменилась на активное участие. Новый «Маугли» с двумя генетическими базами и вправду ловил мусор лучше. Оставались, правда, кое-какие неувязки, но дело явно сдвинулось с мёртвой точки. Мэттью, большой любитель превращать любую работу в аврал, дописал последние исправления буквально за пару дней до срока сдачи. А ведь фильтр нужно ещё обучить.