Одна из классических и, пожалуй, самых фундаментальных, задач генетики — это предсказание фенотипа, то есть внешних признаков организма, по генотипу — набору унаследованных генетических детерминант. До последнего времени она могла быть решена только в очень частных случаях. Однако все изменилось десять лет назад, когда стала известна полная последовательность нуклеотидов в единственной кольцевой хромосоме гемоглобинофильной палочки Haemophilus influenzae — первый полный геном бактерии. Справедливости ради следует отметить, что полные геномы многих фагов и вирусов появились намного раньше, и это глубоко изменило современную вирусологию. Тем не менее полные последовательности геномной ДНК самостоятельных организмов, сначала прокариот
— бактерий и архей, а затем и эукариот, от дрожжей и растений до дрозофилы и человека, позволили совершенно по-новому подойти к генетическим проблемам и, в частности, к предсказанию фенотипа, поскольку впервые стали известны все гены полноценного организма.
Или не стали? Сама по себе последовательность нуклеотидов в хромосомной ДНК еще не дает представления о генах, не говоря уже о том, как регулируется их работа. В этом смысле газетные заголовки пятилетней давности, в которых говорилось о "расшифровке генома человека", были, мягко говоря, несколько преждевременными — если продолжить эту метафору, то в 2001 году произошел всего лишь перехват зашифрованного сообщения, смысл которого мы до сих пор понимаем только в очень ограниченных пределах. Даже приблизительные оценки количества генов человека — в первом приближении участков последовательности ДНК, кодирующих белки — уменьшились за четыре года, прошедшие после первой публикации, от 30—35 тысяч до 20—25 тысяч, то есть примерно в полтора раза (до публикации генома была распространена оценка порядка 100 тысяч).
Мы еще очень далеки от понимания функционирования человеческого генома. Для бактерий задача описания физиологии организма по геному проще, и во многих аспектах она может быть решена при помощи компьютерного анализа последовательности геномной ДНК. Разработка и применение методов такого анализа — задача биоинформатики, науки, возникшей в начале 1980-х годов на стыке молекулярной биологии, математики, информатики (computer science), биофизики и, пожалуй, даже лингвистики.
Один из первых этапов анализа генома — это и есть идентификация генов. Нам необходимо выяснить, какие участки ДНК представляют собой гены, и гены какого именно белка. Вопрос совершенно не праздный, ведь, как мы знаем, даже у бактерий далеко не вся ДНК несет в себе информацию о структуре белков. Для этого применяются несколько подходов. Во-первых, статистические свойства белок-кодирующих областей не такие, как у некодирующих. К таким свойствам относятся частоты коротких цепочек нуклеотидов, различные периодичности и т.п. Во-вторых, существуют особые сигналы на границах кодирующих областей: простым примером являются стоп-кодоны, которыми заканчивается любой ген. В-третьих, для поиска генов, родственных (гомологичных) уже известным, можно использовать сравнение исследуемого фрагмента с банком данных всех изученных генов. Наконец, белок-кодируюшие последовательности изменяются в ходе эволюции медленнее, чем некодирующие, что позволяет выделить гены как островки локального сходства при сравнении геномов нескольких относительно близких организмов. Каждый из этих подходов по отдельности недостаточно надежен, и лучшие современные методы распознавания генов используют комбинированные алгоритмы.
Уже этот относительно простой пример иллюстрирует два основных принципа современной биоинформатики: сравнительный подход и комбинирование разных способов анализа материала. Те же принципы работают и на следующем шаге: предсказании функции гена, точнее, теперь уже — кодируемого этим геном белка, по его аминокислотной последовательности (заметьте, что мы постепенно приближаемся к поставленной цели). Как и раньше, если уже известен гомологичный ген из родственного организма, функция белка может быть предсказана просто на основании сходства последовательностей. Если известны более далекие гомологи, могут быть предсказаны общие биохимические свойства (например, в случае фермента — тип катализируемой реакции), однако специфичность и, стало быть, роль в метаболизме клетки должна быть установлена. исходя из других соображений, которые будут обсуждены чуть ниже. Наконец, иногда удается только лишь установить наличие в белке структурных особенностей или так называемых функциональных подписей — наборов аминокислот, характерных для белков, выполняющих одну и ту же функцию. Например, во всех секретируемых белках должны присутствовать сигнальные пептиды, определяющие прохождение белка через мембрану, а в любом белке, связанном с мембраной или занимающемся трансмембранным транспортом, должен быть участок, "прошивающий" мембрану насквозь — трансмембранный домен. Пример функциональной подписи — это пептидазные мотивы, которые образуют каталитические центры в ферментах, разрушающих пептидную связь, и АТ-фазные мотивы в ферментах, зависящих от гидролиза АТФ.
Оказывается, что простые соображения, основанные на сходстве с уже известными белками, позволяют установить клеточную роль для половины или даже до двух третей генов новосеквенированного генома, и общую биохимическую функцию для еще 10—20 процентов генов. Это позволяет описать в общих чертах метаболизм изучаемой бактерии и затем перейти к детальной метаболической реконструкции, то есть к описанию всех метаболических путей, закодированных в геноме.
Часть этой задачи решается так, как мы только что рассмотрели, а часть — нет. В нашей картине остаются пробелы, т. е. функции, которые должны присутствовать, исходя из общих соображений биохимической осмысленности, однако гены для которых не найдены. Например, внутренние реакции в линейных путях — мы точно знаем из биохимии, что такие внутренние реакции обязательно происходят, или молекулы-транспортеры исходных веществ-предшественников — они также обязательно должны быть в клетке. Попробуем заполнить эти пробелы методами сравнительной геномики, параллельно описывая механизмы регуляции и эволюции метаболических путей и регуляторных систем.
Механизм поддержания гомеостаза цинка. При достаточной концентрации ионов цинка (точки) в клетке его хватает и для основных белков рибосом (незакрашенные круги), и для ферментов (треугольники).
Репрессор (прямоугольник) в присутствии иона цинка взаимодействует со своим сайтом связывания (черный овал) и подавляет транскрипцию (угловая стрелка) гена дополнительного белка рибосом (большая стрелка).
При недостатке цинка репрессор оставляет свой сайт связывания, происходит транскрипция гено дополнительного белка, зтот белок включается в состав части рибосом (серые круги), заменяя основной белок (черная стрелка) и тем самым высвобождая часть ионов цинка для ферментов (черная пунктирная стрелка)
Откуда берутся пробелы? Дело в том, что даже в родственных организмах белки с одинаковой функцией могут быть не очень похожи. Более того, для известных функций разные организмы могут использовать совершенно новые белки, колируемые, естественно, совершенно новыми генами. Даже среди реакций основного обмена веществ более сотни не представлены ни одним известным геном, и еще больше реакций, которые известны лишь в некоторых таксономических группах и не известны, например, в бактериях. С другой стороны, примерно 5—10 % каждого бактериального генома составляют гены из консервативных семейств, присутствующих практически в каждом геноме, но при этом не включающих ни одного экспериментально охарактеризованного гена. Консервативность и широкое распространение этих генов указывает на их важность, и ясно, что они-то и кодируют "отсутствующие" функции.
Заполнение пробелов основано на ряде наблюдений, сделанных после начала массового секвенирования геномов. Гены, кодирующие связанные функции, часто располагаются в бактериальных геномах рядом друг с другом. Такими функциями могут быть соседние реакции из одного пути, транспорт веществ-предшественников, регуляция транскрипции генов изданного пути и т.п. Конечно, то, что гены, кодирующие ферменты из одного пути, могут образовывать опероны (последовательные группы совместно транскрибируемых генов), было известно уже давно, однако только сравнение многих геномов позволило реализовать это общее наблюдение в алгоритмах, дающих количественную оценку потенциальной функциональной связи для каждой пары генов. Аналогично, существуют алгоритмы функциональной аннотации, основанные на том, что функционально связанные гены встречаются в геномах не независимо, а целой группой. Опять же, этому есть естественное биологическое объяснение: конкретная биохимическая реакция существенна для клетки не сама по себе, а лишь в контексте целого метаболического пути, и потому в геномах не встречаются гены, отвечающие за изолированные реакции, — продукты таких генов не нужны организму, ему их просто "некуда девать".
В качестве примера рассмотрим работу, в которой приемы сравнительной геномики позволили описать новые аспекты хорошо изученной системы гомеостаза цинка, ионы которого входят в состав многих необходимых для жизни клетки ферментов.
При сравнительном анализе геномов бактерий было обнаружено, что во многих бактериальных геномах имеются гены, кодирующие белки, гомологичные белкам рибосомы. Более того, оказалось, что в таких случаях основной белок имеет последовательность аминокислот, характерную для цинк-связывающих белков — так называемый "мотив цинковой ленты", а в дополнительных гомологичных белках этот мотив разрушен.
Встал вопрос: зачем нужны эти дополнительные белки, что они делают?
Так выглядит бактерия Escherichia coti —известная всем кишечная палочка
При более подробном анализе с использованием совершенно других приемов удалось установить, что гены, кодирующие эти дополнительные белки, имеют сайты связывания для белков — репрессоров транскрипции, работа которых зависит от наличия ионов цинка. Если цинка в клетке достаточно, репрессор связывается с таким сайтом и подавляет работу гена — дополнительные белки не производятся. Они синтезируются лишь при недостатке ионов цинка, после чего включаются в состав рибосом, вытесняя из них основные белки. Возможно, рибосома начинает работать несколько хуже, зато для ее работы уже не нужны ионы цинка. Это очень важный регуляторный механизм. Рибосом и рибосомных белков в клетке очень много — по крайней мере, на два порядка больше, чем молекул любого фермента. Между тем для работы многих клеточных ферментов цинк тоже абсолютно необходим, и без этого механизма им ионов цинка просто "не достанется" — в случае его нехватки все уйдет в рибосомы.
Мы видим, что методы сравнительной геномики позволяют не только описать метаболические возможности бактерии, такие, как способность расти на тех или иных субстратах, синтезировать иди импортировать необходимые вещества, и т.п., но и осуществить детальную метаболическую реконструкцию, описав гены, отвечающие за эти функции. Анализ же регуляторных сигналов дает возможность не только предсказывать, что может делать бактерия, но и в каких условиях она это делает.
При работе е хорошо исследованными организмами, такими, как кишечная палочка, можно продвинуться еще дальше. Если нам известны все реакции основного метаболизма, мы можем построить вычислительную модель, предсказывающую даже интенсивность каждой реакции, происходящей в клетке. При этом мы предполагаем, что интенсивности реакций оптимизированы за счет регуляторных механизмов таким образом, чтобы максимизировать скорость роста бактерии.
Такие модели позволяют делать нетривиальные предсказания. Так, при сравнении с экспериментальными данными было замечено, что, хотя интенсивности реакций в клетках дикого типа, у которых "ничего не испорчено", предсказываются хорошо, предсказанные интенсивности в мутантах далеки от измеренных. То есть бактерия дикого типа действительно растет самым быстрым возможным для себя способом, а мутант — нет. Оказалось, что мутант растет не вообще самым быстрым способом, а самым быстрым из возможных при небольшом отклонении от параметров, характерных для дикого типа. В данном случае следует искать не глобальный оптимум, а ближайший к оптимуму для дикого типа локальный
С другой стороны, через несколько сотен поколений экспериментально измеренные интенсивности реакций в мутантах приближаются к тем, которые были предсказаны первоначальной процедурой поиска глобального оптимума. Похоже, что в начале эксперимента регуляторные механизмы позволяют лишь небольшую подстройку, и интенсивности реакций в мутанте недалеко отклоняются от оптимума дикого типа. Однако после достаточно продолжительного культивирования регуляция экспрессии генов позволяет мутанту найти глобальный оптимум, отвечающий новой конфигурации метаболической сети.
До сих пор мы говорили о биоинформатическом анализе бактериальных геномов. Действительно, это та область, в которой предсказание генотипа по фенотипу уже стало реальностью. Однако и молекулярная биология многоклеточных организмов коренным образом изменилась с появлением геномов и других видов массовых данных. Компьютерный анализ дает возможность выделять ограниченный набор генов-кандидатов на выполнение той или иной функции и затем уже ставить целенаправленные эксперименты с конкретными белками, кодируемыми этими генами.
Наиболее ярким и неожиданным примером такого подхода, пожалуй, является поток работ по анализу региляторных микро-РНК. Эти короткие молекулы РНК длиной 20—25 нуклеотидов были обнаружены экспериментально и сначала считались экзотической системой, влияющей на экспрессию лишь нескольких генов. Однако за последние два года стало ясно, что сотни различных микро-РНК регулируют экспрессию тысяч генов человека, и. тем самым, оказалось, что в клетках животных и растений существует неизвестный ранее фундаментальный механизм регуляции генной активности. При этом обнаружить множество новых микро-РНК позволил именно компьютерный анализ, а сравнительный анализ геномных последовательностей человека, мыши и других животных предсказал регулируемые этими микро-PH К гены. Часть соответствующих предсказаний уже подтверждена экспериментально. Эти работы — пожалуй, первый пример того, как целое направление в молекулярной биологии с самого начала строится с учетом и в зависимости от компьютерного анализа геномных последовательностей .
Мы рассмотрели только одно направление современной биоинформатики. За рамками этой заметки остались, в частности, проблемы молекулярной эволюции — области, в которой компьютерный анализ является основным, если не единственным исследовательским инструментом. Подхода и примеры, описанные здесь, — та часть биоинформатики, которая ближе всего к экспериментальной биологии. В этой области, впрочем, как и в других, весьма сильны позиции российской биоинформатической школы, оказавшей решающее влияние на формирование целых направлений в распознавании генов и регуляторных сигналов, функциональной аннотации генов, сравнительной и эволюционной геномике.