Цифровой журнал «Компьютерра» № 186 (Журнал «Компьютерра») - страница 28


То есть в системе заложены главным образом связи между понятиями смысловой близости. Кстати, в нашей команде работают люди, мыслящие на нескольких языках; с ними мы пытаемся анализировать параллельные тексты. При этом мы стараемся вычленить из этой естественной формы языка все наблюдаемые семантические классы, отнести наиболее конкретные из них на более низкие уровни, более общие — на верхние ступени иерархии. Например, семантический класс «средство передвижения» расположен выше классов «наземный транспорт», «воздушный транспорт» и «другой транспорт». Конечно, выстраивание таких цепочек — творческий процесс. Скажем, есть множество возможностей для встраивания в иерархию омонимов: «тополь» — это ведь и растение, и средство вооружения. Собственно говоря, из-за большого числа значений каждого слова в системе семантических категорий так много горизонтальных связей.

В целом работа системы включает ряд сложных этапов: лексико-морфологический анализ, грубый и точные синтаксический анализ, семантический анализ, синтаксический синтез, синтез линейного порядка и, наконец, морфологический синтез. Не буду вдаваться в подробности, и без того очевидно, что задача очень сложная — и именно потому очень многие считают интерлингвистические подходы невозможными…


Д. З. Но ведь это — как спор математиков и инженеров: первым решение кажется всегда недостижимым, вторые — уверены, что найдут реальное решение, которое выполнит задачу на 99%.

Д. Я. В прикладной лингвистике действительно много «подводных камней». Например, появляются новые семантические концепты; то, какими они будут, никогда нельзя предсказать. Скажем, концепт «социальная сеть»: раньше только на каком-то высочайшем уровне абстракции его можно было сопоставить с концептом «средство общения», сегодня же в этом сочетании — вполне конкретный смысл.

Мы уверены, что, обработав таким способом критическое число параллельных текстов на двух языках, мы «устаканим» иерархии. Сейчас над этим работает команда из трёхсот человек; в общей сложности в такой масштабный проект компания ABBYY вложила уже более $70 млн.

Д. З. ABBYY развивает бизнес в двух направлениях — распознавание документов и перевод текстов. Смерть рынка OCR — наверное, вопрос 5–10 лет, а на глобальном рынке услуг перевода и лингвистических технологий вас ждёт Google. Нет ощущения, что впереди у ABBYY — бетонная стена?

Д. Я. Для нас уже давно вся эта сложная работа по созданию формализованных описаний различных языков — не самоцель; мы видим конкретные перспективы применения продуктов на основе этих технологий на рынке. И «Гугл» на самом деле семантика и лингвистика пока мало интересуют: здесь пока для него не слишком денежный рынок.