Распределение численности паралогичных семейств в любом геноме – еще одна универсальная статистическая закономерность, обнаруженная сравнительной геномикой (рис. 4–7). Распределения для всех геномов приблизительно описываются степенной функцией с отрицательным показателем степени: y = ах>-y (где у – положительное число, а – коэффициент; Koonin et al., 2002; Luscombe et al., 2002). Эти распределения, имеющие в двойных логарифмических координатах вид прямых линий, показывают, что большинство семейств по численности малы (включая семейства геномов с преобладанием синглетонных сайтов), и только немногие семейства включают в себя большое число паралогов.
Рис. 4–7. Распределение размера семейств паралогичных генов для нескольких сильно отличающихся геномов. Показаны распределения для растения резуховидки Таля (A. thaliana), человека (H. sapiens), для пекарских дрожжей (S. cereviseae), для сенной палочки (B. subtilis) и для бактерии Thermotoga maritima. Использованы данные из базы данных EggNog (Jensen et al., 2008)
Возникновение универсальной степенной закономерности распределения численности паралогичных семейств может быть описано с высокой точностью простой математической моделью эволюционного процесса (рис. 4–8). Эта модель основана на математической теории так называемых процессов рождения и смерти (один из видов марковских процессов) и для случая эволюции путем генной дупликации чаще называется моделью рождения, смерти и инновации (Karev et al., 2002). В рамках этой модели рождение – это такая генная дупликация, при которой появляется новый член паралогичного семейства, смерть – утрата гена, а инновация – это рождение нового семейства либо путем такой дупликации, которая вызывает быструю эволюции и тем самым как бы стирает «память» старого семейства, либо путем горизонтального переноса генов[40]. Наиболее интересный результат этого моделирования состоит в том, что эта модель эволюции путем генной дупликации воспроизводит рассмотренные нами распределения численности семейств паралогичных генов только при соблюдении вполне определенных условий: частоты рождения и смерти гена должны быть примерно равными и зависеть от численности семейства таким образом, чтобы большие семейства оказывались более динамичными, чем маленькие.
Стоит подчеркнуть, что динамика эволюции генного семейства описывается именно той стохастической моделью, которая используется в статистической физике. Однако, чтобы эта модель была совместима с полученными данными, необходимо соблюдение тонкого баланса между рождением, смертью и обновлением, и похоже, что этот баланс поддерживается естественным отбором. Примечательно, что эта и подобные модели описывают с одинаковой точностью эволюцию геномов как прокариот, так и эукариот, несмотря на существенные различия между процессами, ведущими к образованию семейств паралогичных генов. Для эукариот важнейшим, если не единственным, процессом, лежащим в основе эволюции семейств, является «честная» генная дупликация, a для прокариот количественно более важным является горизонтальный перенос генов (поэтому такие генные семейства «псевдопаралогичны»; см. гл. 5 и 7). Тот факт, что рассмотренные здесь модели одинаково хорошо описывают биологически отличающиеся процессы эволюции генома, ведущие к сходным результатам, с одной стороны, подчеркивает универсальность этих моделей, а с другой – указывает на их ограниченную ценность для биолога.