Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван