Цифровой журнал «Компьютерра» № 186 (Журнал «Компьютерра») - страница 29


Начиная в 1995 году проект, мы поставили цель — создать один из лучших машинных переводчиков, способный помочь специалистам переводить большее количество текстов за счёт редактирования результатов машинного перевода, а не путём перевода всего текста целиком.

Рынок перевода уже сегодня оценивается в $20 млрд, а в ближайшем будущем для группы из 10 языков (в основном агнлоцентричных) он вырастет вдвое.

Но параллельно в процессе работы мы открывали новые направления монетизации нашей технологии, в частности в области понимания, поиска и анализа текстовой информации. Именно эта область для нас коммерчески целесообразна сегодня — и мы планируем активно заниматься ей. Но и о переводе мы не забываем. Здесь важно сказать, что с технологической точки зрения машинный перевод является чуть ли не вершиной искусственного интеллекта; получить очень хороший перевод — действительно сложная задача.

Например, то, что мы научились вычленять факты из текстов и проводить анализ документов, выводит нас на рынок «умного» корпоративного поиска. В качестве иллюстрации: в США огромное количество судебных процессов между крупными компаниями, в рамках которых каждая из сторон должна предоставить всю внутреннюю электронную переписку, всю документацию по бизнесу — в электронном виде. Наша система может производить анализ всего этого массива текстовой информации — и выводить юристам и экспертам лишь конкретные результаты. Только этот рынок уже на сегодняшний момент оценивается в несколько миллиардов долларов.

Д. З. Речь идет о семантическом поиске?

Д. Я. По сути, да. Адвокаты и прокуроры пока ищут в судебной документации важные факты, основываясь на key words search либо на поиске с учётом синонимов. Это неэффективно: с одной стороны, точность результатов поиска низка (основаная причина — многозначность слов) с другой — очень многие действительно важные вещи просто пропускаются.

Мы готовы предложить намного более эффективную альтернативу. Скажем, адвокат берёт текст искового заявления и просит нашу систему найти судебные разбирательства, схожие по предмету иска. То есть мы можем автоматизировать процесс поиска прецедента, на котором базируется вся англосаксонская правовая система. Другая сфера применения — патентный анализ, где количество заявок и выданных свидетельств о правах интеллектуальной собственности растёт бешеными темпами. И тому подобное.

Д. З. Очевидно, что следующий шаг вхождения таких технологий в жизнь — диалог с клиентом в семантических терминах. А для этого нужна публичная поисковая система. Вы хотите двигаться в этом направлении?