Эмбрионы, гены и эволюция - читать бесплатно онлайн полную версию книги автора Рудольф А Рэфф (Глава 11 Эукариотический геном и парадокс значений С) #14

Глава 11 Эукариотический геном и парадокс значений С

У нас нет достаточных оснований допускать, что эволюция происходит прежде всего за счет увеличения числа генов у высших форм ... главную роль играет не число появляющихся новых генов, а их виды.

Т. Морган. «Научные основы эволюции»

Величина генома и сложность организмов

Положение Моргана о зависимости между числом генов и сложностью организмов было опубликовано в 1932 г. Позднее, после того как следующим поколением исследователей было установлено, что гены состоят из ДНК, стало возможным получить гораздо более ясное представление о природе генов, однако достигнутые успехи еще больше запутали вопрос о зависимости между числом генов и сложностью организма. В целом измерение количества ДНК, содержащегося в гаплоидном геноме (значение С) у большого числа самых разнообразных организмов, указывает на повышение содержания ДНК с увеличением сложности, однако величина генома варьирует так сильно, что у многих морфологически примитивных организмов геномы оказались значительно больше, чем у морфологически более продвинутых форм. Это явление, получившее название парадокса значений С, или С-парадокса, иллюстрирует рис. 11-1.

Любая схема, подобная рис. 11-1, опасна тем, что ее можно принять за своего рода лестницу живых существ, созданную в XX веке, и в известном смысле так оно и есть. Прямое сравнение относительной сложности форм, обладающих различной морфологической организацией, неизбежно будет субъективным. Есть, однако, два показателя сложности, которые могут служить приближенными мерами: это число типов клеток, различаемых у представителей данной группы организмов, и число терминов, используемых систематиками для их описания. Теоретическое оправдание использованию числа типов клеток дал С. Кауфман (S. Kauffman), выдвинувший положение о том, что число дифференцированных клеточных типов в организме зависит от числа стабильных состояний, создаваемых в результате регуляторных взаимодействий, возможных в пределах того или иного генома. Оценить число клеточных типов у сравнительно несложных организмов относительно просто. Так, у бактерий имеются клетки двух типов (вегетативные клетки и споры), у дрожжей - 3-4 типов, у водорослей и грибов - примерно 5 типов, у губок - 11, у кишечнополостных - 14-20, у растений - от 20 до 40, у кольчецов - примерно 55. Для более высокоорганизованных животных получить такие оценки труднее; возможно, что оценка Кауфмана, считающего, что в организме человека содержатся клетки 100 разных типов, занижена на целый порядок.

Шопф и др. (Schopf et al.) предложили оценивать сложность данной формы на основании числа терминов, используемых систематиками для ее описания. Такие оценки сложности окажутся, возможно, менее объективными, чем основанные на гистологической дифференцированности, если считать, что число клеточных типов точно определено, хотя для сложных организмов это весьма проблематично. Число терминов может зависеть от различий в практике систематиков, изучающих разные группы. Так, например, если говорить о моллюсках, то для аммонитов используется меньше терминов, чем для других организмов, сравнимых с ними по степени сложности, потому что словесное описание их очень причудливых лопастных линий обычно бывает предельно кратким. В группах, активно исследуемых многими морфологами или систематиками, имеются специальные названия для многочисленных и гораздо более мелких признаков, чем в малоизвестных группах. В целом использование числа терминов представляется действенным, хотя и грубым способом выражения морфологической сложности. Однако эта мера не всегда хорошо соответствует оценкам, основанным на гистологической сложности. В сущности, у таких организмов, - как фораминиферы (Protozoa), для которых Шопф и др. насчитывают 266 морфологических терминов, вообще не приходится говорить о соответствии между гистологической и морфологической сложностью.

При распределении организмов по степени сложности, схематически представленном на рис. 11-1, главным критерием служило число клеточных типов, а число терминов играло второстепенную роль. Среди групп, связанных родством (например, среди позвоночных), филогенетически более примитивные группы обычно помещали ниже более продвинувшихся групп. Следует принять, что при этом были допущены некоторые вольности. Так, например, двоякодышащие-более древняя группа, чем костистые рыбы, но они связаны более близким родством с амфибиями. Величина генома выражена числом пар нуклеотидов. Приблизительную оценку содержания информации в терминах структурных генов можно получить, допустив, что у обычного структурного гена кодирующая последовательность состоит из 1500 нуклеотидных пар. Самые маленькие вирусные геномы содержат (даже если допустить, что гены перекрываются, а рамки считывания чередуются) всего несколько генов. Самое низкое число нуклеотидных пар, 0,7-10⁶, обнаруженное у бактерий, считается минимальной величиной генома, необходимой живой клетке. Аналогичным образом для грибов самое низкое число нуклеотидных пар, эквивалентное 10 000 средних генов, найденное у дрожжей, считается минимальной величиной генома для эукариотической клетки. Геномы простейших многоклеточных животных - губок - имеют примерно такую же величину, как геномы грибов, и близки к минимальным величинам для водорослей и Protozoa. У кишечнополостных геномы также невелики, оставаясь в пределах величин, найденных для грибов. Число клеточных типов у кишечнополостных гораздо больше, чем у грибов, однако некоторые грибы имеют сложное строение, и значения С у разных видов могут различаться в 10 раз, так что перекрывание нетрудно объяснить. У более сложных организмов значения С различаются в широких пределах. Для любой группы, по которой изучено достаточно большое число видов, мы вправе считать самое низкое из значений С разумной оценкой минимальной величины генома для данной группы. В отдельных группах обычно наблюдается широкий диапазон значений С - иногда содержание ДНК у разных видов различается на четыре порядка. В некоторых случаях в результате полиплоидии этот диапазон расширяется даже еще сильнее.

Рис. 11-1. Парадокс значений С - отсутствие соответствия между величиной генома и морфологической сложностью. Черными полосками показаны диапазоны величины гаплоидного генома для крупных групп организмов. Группы расположены в порядке возрастания морфологической сложности - самые простые внизу, а самые сложные вверху. Очевидно, что такое распределение чрезвычайно субъективно. На вертикальных осях для некоторых групп приведены два критерия сложности: примерное число клеточных типов (слева) и число описательных морфологических терминов (справа). (Значения С приводятся по данным Sparrow et al., 1972.)

Трехчастный парадокс

Как показывают данные о величине геномов, на самом деле существует не один парадокс значений С, а целых три. Первый, о котором уже говорилось, - это отсутствие корреляции между сложностью организации и величиной генома. Этот парадокс вызывает беспокойство, поскольку у плодовых мушек, несмотря на их эволюционно продвинутые гистологические, морфологические и морфогенетические признаки, способность к сложному поведению и даже «музыкальность», величина генома такая же, как у греческих губок и хлебной плесени - примерно 0,5-1,0 * 10⁸ пар нуклеотидов. Рис. 11-1 выявляет и другие несоответствия. В некоторых случаях у более примитивных форм величина генома значительно больше, чем у их более продвинутых родичей. У двоякодышащих рыб геном в 10-15 раз больше, чем у млекопитающих, а принятая эволюционная последовательность - от амфибий к рептилиям и птицам - сопровождается уменьшением генома почти в 6 раз. Аналогичная картина наблюдается у насекомых. Бир и Мюллер (Bier, Muller), определявшие величину генома у ряда различных насекомых, обнаружили, что у представителей древних групп геномы больше, чем в группах, возникших недавно. Диапазон различий в величине генома достигает двух порядков. Дело в том, что об относительной примитивности или эволюционной продвинутости членов какой-либо группы мы судим не по Сложности их строения, а по их возрасту. Вряд ли, например, двоякодышащая рыба гистологически или морфологически менее сложна, чем костистая рыба или лягушка.

В действительности во многих случаях древние организмы обладают более сложной морфологией, чем их достигшие более высокого развития родичи. В эволюционно продвинутых группах нередко происходит утрата отдельных признаков, например у позвоночных в процессе эволюции уменьшилось число костей в черепе и нижней челюсти. Древние и современные группы различаются по возрасту и по скорости морфологической эволюции. Двоякодышащие рыбы возникли почти 400 млн. лет назад, а плацентарные млекопитающие, вероятно, в четыре раза моложе. Бир и Мюллер пришли к выводу, что высокие значения С, обнаруженные у примитивных форм, отражают генные дупликации, а не приобретение новой генетической информации. В пользу этого свидетельствуют также данные Спарроу и Наумана (Sparrow, Naumann) о том, что в пределах крупных групп не наблюдается нормального распределения по величине геномов. На логарифмической шкале распределение образует ряд семейств пиков, каждое из которых соответствует двойному по сравнению с предыдущим семейством содержанию ДНК; это позволяет предполагать, что имел место ряд удвоений генома. Возможно, что во всех таксонах происходили процессы, приведшие к увеличению содержания ДНК в их ядрах, но что древние группы менее склонны освобождать свои геномы от избыточной ДНК. Возможно, в частности, что у девонских двоякодышащих рыб в период их быстрой морфологической эволюции геномы были гораздо меньше, чем у их морфологически консервативных потомков.

Второй аспект парадокса значений С состоит в том, что в пределах групп родственных животных, очень сходных по морфологической сложности и по уровню эволюционного развития, часто наблюдаются сильные различия в величине геномов. Например, Эбелинг и др. (Ebeling et al.) обнаружили, что у разных видов Bathylagus (один из родов костистых рыб) величина генома может различаться вдвое; Шуи (Chooi) выявил шестикратные различия в величине геномов у видов растений, принадлежащих к роду Vicia; наконец, данные о величине генома у нескольких видов дрозофилы, собранные Лэрдом (Laird), показывают, что значения С могут различаться в 2,5 раза.

На основании цитологического анализа установлено, что различия в значениях С между близкими организмами обычно не являются результатом полиплоидии. Правда, Шуи указывает, что среди изученных им видов Vicia было два полиплоида, однако в других случаях полиплоидия не участвует. Различия в содержании ДНК касаются всех хромосом и, очевидно, представляют собой результат ряда локальных дупликаций. Изменения в содержании ДНК, по-видимому, не связаны с политенизацией, т.е. с событием, приводящим к наличию в хромосоме двух или большего числа идентичных нитей ДНК, расположенных бок о бок. Как убедительно показали эксперименты Кавенофа и Зимма (Kavenoff, Zimm), каждая хромосома содержит лишь одну молекулу ДНК. Увеличение содержания ДНК в какой-либо хромосоме приводит к пропорциональному удлинению этой хромосомы. Кавеноф и Зимм изолировали молекулы ДНК, соответствовавшие по размеру хромосоме, из клеток дрозофил трех видов, различающихся по величине генома, и определяли длину этих молекул методами вискозиметрии. Они измеряли молекулы ДНК, выделенные из мух дикого типа, а также из мух с другими кариотипами, у которых длина хромосом увеличивалась или уменьшалась в результате транслокаций или делеций. Длина самых длинных хромосом из разных видов или кариотипов может различаться в четыре раза. Например, геномы Drosophila virilis и D. americana очень сходны по величине, но самая длинная хромосома D. americana почти вдвое длиннее самой длинной хромосомы D. virilis. Такое же соотношение наблюдалось для длины выделенных молекул ДНК этих видов, причем длина отдельных молекул ДНК была достаточно велика, чтобы можно было принять ее за количество ДНК во всей соответствующей хромосоме.

Следует думать, что организмам, сходным по своей морфологии и гистологии, необходима экспрессия сходного числа генов; соответствующие сравнения, проведенные в таких группах, как амфибии и насекомые, по-видимому, подтверждают это. У тритона (Triturus) геном примерно в 7 раз больше, чем у шпорцевой лягушки (Xenopus). Росбаш (Rosbash) и его сотрудники установили, что, в то время как геном Xenopus на 75% состоит из уникальных последовательностей ДНК, геном Triturus содержит самые разнообразные повторяющиеся последовательности и очень небольшую долю уникальных последовательностей. Большой геном тритона, по-видимому, образовался в результате многократных дупликаций большинства последовательностей, имевшихся в предковом геноме, в том числе по меньшей мере нескольких функциональных генов, потому что Росбаш и др. обнаружили, что число рибосомных генов у тритона в 7 раз больше, чем у Xenopus. Однако матричные РНК (мРНК) обоих видов - это главным образом транскрипты уникальных последовательностей их геномов. Следует отметить, что существование многочисленных мультигенных семейств, обсуждавшихся в гл. 10, не противоречит данным о том, что большинство мРНК - продукты уникальных последовательностей. Это так, потому что большая часть мультигенных семейств содержит только по нескольку членов, которые, хотя они и близки друг другу по своим нуклеотидным последовательностям, обычно достаточно дивергировали, чтобы вести себя как уникальные гены, если для определения числа копий последовательностей используется метод гибридизации.

Несмотря на то что геном тритона в семь раз больше, число генов, экспрессируемых в виде мРНК, в яичниках обоих видов, по-видимому, одинаково. Из этого логически следует, что большая часть повторяющихся последовательностей ДНК, из которых главным образом состоит большой геном тритона, очевидно, некодирующие, во всяком случае в том смысле, что они не дают мРНК.

Лендьель и Пенман (Lengyel, Penman) провели сходное исследование, сравнивая комара Aedes с эволюционно более продвинутым представителем двукрылых - дрозофилой; их работа существенно помогла разобраться в парадоксе значений С. В целом геном Aedes в шесть раз больше генома дрозофилы, но если сравнивать только уникальные части генома, то эта разница уменьшается до четырехкратной. В клетках обоих видов, выращиваемых в культуре, большая часть мРНК-продукт уникальных последовательностей. Кроме того, эти мРНК имеют примерно одинаковую длину и содержат фактически одинаковое число различных последовательностей мРНК. Таким образом, в этом случае, как и в случае Xenopus и Triturus, у двух родственных организмов с разными значениями С экспрессируется в виде мРНК одинаковое число генов. Кроме того, Лендьель и Пенман обнаружили, что ядерные РНК у Aedes по крайней мере вдвое длиннее, чем у дрозофилы. Это позволило предположить, что отдельные транскрипционные единицы у Aedes длиннее, чем у дрозофилы, но при процессинге из транскриптов вырезаются кодирующие участки одинаковой длины. Дальнейшее подтверждение этому дает кинетика превращения ядерных РНК в мРНК у этих двух видов. Дрозофила превращает в мРНК 20% своих транскриптов, a Aedes - только 3%; такое шестикратное различие может быть вызвано как транскрипцией некодирующих последовательностей, так и различиями в относительных размерах транскрипционных единиц.

Вопрос о размерах транскрипционных единиц имеет также решающее значение для того, чтобы разобраться в третьем аспекте парадокса С. Организмы, даже дрозофила с ее очень маленьким геномом, содержат гораздо больше того количества ДНК, которое можно оценить по числу экспрессирующихся у них генов. Соотношение числа полос в политенных хромосомах Drosophila melanogaster и числа экспрессирующихся у нее генов позволяет считать, что этот организм содержит примерно 5000 генов. Данные о разнообразии мРНК у дрозофилы (см. табл. 10-3) достаточно хорошо соответствуют такой оценке.

Существует третий и совершенно независимый способ оценки числа генов, основанный на частоте мутаций. Природные популяции диплоидных организмов, будь то дрозофила или человек, несут значительный генетический груз неблагоприятных мутаций. Это летальные аллели, полулетали и ряд физиологических или морфологических мутаций. Данные о размерах генетического груза суммировал Добржанский (Dobrzhansky), и здесь достаточно привести несколько примеров. В некоторых популяциях Drosophila melanogaster и D. subobscura обнаруживается до 10% морфологически аномальных особей. Еще у одного вида, у D. pseudoobscura, вторая, третья и четвертая хромосомы в 30% случаев оказываются летальными, если у одной особи окажутся две идентичные хромосомы, изолированные из природных популяций. Свыше 50% таких особей обладают пониженной жизнеспособностью. Измерения скорости приобретения геномом новых мутаций впервые произвели Г. Мёллер (H.J. Muller) и его сотрудники. Суть их метода сводится к выделению популяции мух, гомозиготных по какой-либо хромосоме (например, по Х-хромосоме), не несущей летальных мутаций. Затем производят скрещивания внутри этой популяции и в каждом поколении подсчитывают потомков, с тем чтобы определить, не появилась ли новая летальная мутация. В случае Х-хромосомы, с которой работал Мёллер, проверка была очень проста: если возникала новая мутация, то соотношение самок и самцов среди потомков вместо обычного 1:1 становилось 2:1, поскольку самцы несут только одну Х-хромосому. Мёллер и его сотрудники установили, что общая частота мутаций в геноме D. melanogaster составляет 0,05 на гамету на одно поколение.

У ряда организмов определяли также частоту мутаций отдельных генов. Стрикберджер (Strickberger) свел в таблицу многие такие данные. У Drosophila melanogaster средняя частота мутаций на гамету равна 1 * 10^-5 для любого гена. Отношение частоты мутаций на геном (U) к частоте мутаций на один локус (и) дает число генов (N), т.е.

или для D. melanogaster N = 5000, что удивительно точно совпадает с оценками, полученными другими способами. Однако все эти определения числа генов у D. melanogaster гораздо ниже 60 000, т. е. того весьма приближенного среднего числа генов, которое в ней может находиться, судя по содержанию ДНК в ее клетках. Проблема эта обостряется у организмов с более крупными геномами, например у человека. Геном человека содержит такое количество ДНК, которого хватило бы примерно на 2 млн. средних генов. Исследования частоты мутаций, сходные с проведенными на дрозофиле, провели также на человеке. Конечно, в этом случае нельзя производить скрещивания так же свободно, как при работе с мухами; однако изучение потомков от браков между кровными родственниками (двоюродными братьями и сестрами) позволяют собрать данные о частоте смертей и отклонений от нормы. Эти данные были использованы Мортоном и др. (Morton et al.), чтобы оценить частоту мутаций на геном для человека; она оказалась равной 0,1 на гамету на одно поколение. Если исходить из средней частоты (1 * 10^-5) мутаций отдельных генов и геномной частоты, определенной Мортоном и др., то число генов у человека получается равным всего 10000. Кинг и Джукс (King, Jukes), рассмотрев генетический груз, который должен лечь на популяцию человека при таких частотах мутаций, пришли к выводу, что число функционирующих генов у человека не может значительно превышать 40000. При числе генов 40000 общая частота мутирования к летальным или нефункциональным аллелям должна находиться в пределах 0,04-0,4 на гамету на поколение. Низкие оценки числа генов у человека, полученные в результате этих расчетов, трудно совместить с таким высоким разнообразием РНК, как, например, 170 000 последовательностей, обнаруженных в клетках головного мозга млекопитающих; можно лишь допустить, что большая часть этих РНК-последовательностей представляет собой не мРНК, а что-то другое. Альтернативные возможности состоят в том, чтобы предположить существование многочисленных генов с частотой мутаций ниже 1 * 10^-5 или же допустить, что большинство мутаций не сопровождается заметными фенотипическими проявлениями.

Можно возразить, что наш «средний» ген с его кодирующей последовательностью из 1500 нуклеотидных пар - недооценка, далекая от реальности. И в самом деле, существует несколько огромных генов. Например, Дейнхолт (Daneholt) и его сотрудники, а также Лемб и Дейнхолт (Lamb, Daneholt) изучали гигантскую РНК, синтезируемую в слюнных железах двукрылого Chironomus tentans. Эта РНК выходит из ядер в цитоплазму и, по-видимому, транслируется с образованием очень большой полипептидной цепи (молекулярная масса 850000). Она транскрибируется с участка ДНК, длина которого соответствует примерно 37 000 пар нуклеотидов. Однако у преобладающего большинства клеточных белков молекула в среднем состоит из 500 аминокислот, а цепи их мРНК-из примерно 2000 нуклеотидов. Избыточные 500 нуклеотидов слагаются из нетранслируемых начальных и хвостовых последовательностей на 5'-и 3'-концах мРНК. Но все же такие данные, как данные Шуи о длине транскрипционных единиц у дрозофилы, показывают, что подавляющее большинство транскриптов, из которых в результате процессинга получаются мРНК средних размеров, поставляются участками ДНК длиной в 10000-20000 нуклеотидных пар. Очевидно, кодирующая последовательность нетождественна всему гену в целом.

Организация генома у эукариот

Впервые подозрения о том, что у эукариот геномы организованы иначе и сложнее, чем у прокариот, возникли в связи с экспериментами Хойера, Маккарти и Болтона (Hoyer, McCarthy, Bolton), проведенными в начале 60-х годов. В этих экспериментах цепи ДНК разделяли нагреванием, после чего иммобилизовали разобщенные цепи в агаровом геле. Затем к этим иммобилизованным цепям ДНК добавляли цепи, меченные изотопами. Меченные цепи, комплементарные немеченым цепям, иммобилизованным в агаре, образовывали с последними гибриды, которые можно было обнаружить по связанной радиоактивности. Хойер и др. использовали этот метод для определения эволюционного родства между ДНК различных организмов. Их эксперименты выявили гомологию геномов у широкого круга позвоночных - от лосося до человека, причем, как и следовало ожидать, наиболее гомологичными оказались геномы близкородственных видов. Результаты этих экспериментов вызвали большой интерес, как провозвестники исследования эволюции на геномном уровне.

Для того чтобы произошла гибридизация ДНК (представляющая собой реакцию второго порядка), необходимы столкновения двух комплементарных цепей. Реассоциация одиночных цепей, присутствующих в концентрации С, описывается уравнением

где t - время, а k - константа скорости реассоциации. Если начальную концентрацию одноцепочечной ДНК при t = 0 обозначить С₀, а концентрацию одноцепочечной ДНК, сохранившейся к моменту времени t , как С, то, проинтегрировав это уравнение, получим

Когда реакция наполовину завершена,

C₀t - удобная величина, позволяющая выразить главный параметр (произведение начальной концентрации ДНК на время реакции), от которого зависит степень завершения реакции. В случае геномов прокариот, которые состоят почти исключительно из уникальных последовательностей, значение C₀t_1/2 служит мерой относительной величины геномов. Эта зависимость показана на рис. 11-2. Эксперименты Хойера и его сотрудников не должны были дать результатов, потому что геномы позвоночных, на которых они проводились, были гораздо больше любых геномов прокариот. Если бы каждая последовательность была уникальной, то вероятность встречи двух комплементарных цепей была бы значительно меньше, чем для небольшого бактериального генома, а скорость реакции была бы соответственно ниже. Между тем скорости реакции для ДНК позвоночных оказались выше, чем для ДНК бактерий. Дело здесь в том, что у эукариот значительная часть ДНК состоит из повторяющихся последовательностей. Такие последовательности могут содержаться в ней в сотнях или даже тысячах копий; так, в препаратах, исследовавшихся Хойером и др., их концентрация была очень высокой. Более совершенные методы дают возможность изучать как уникальные, так и повторяющиеся последовательности эукариотических ДНК. Кривые реассоциации для эукариотических ДНК сильно отличаются от кривых для ДНК прокариот (рис. 11-3). В то время как в случае бактериальных ДНК имеют место простые реакции второго порядка, реакции ДНК теленка носят более сложный характер, выявляя наличие в ней как быстро реагирующих повторяющихся последовательностей (низкие C₀t), так и медленно реагирующих уникальных последовательностей (высокие C₀t).

Рис. 11-2. Зависимость значений C₀t_1/2 от количества ДНК во фракции уникальных последовательностей для геномов разных животных. (Данные по фагу Т4, Е. coli и теленку - Britten, Kohne, 1968; по дрожжам - Hereford, Rosbash, 1977; по морскому ежу - Angerer et al., 1976; по Aplesia (моллюск) - Angerer et al., 1975; по дрозофиле - Davidson et al., 1975; Manning et al., 1975.)

Рис. 11-3. Кинетика реассоциации ДНК для геномов бактерий и эукариот. Геном Escherichia coli состоит почти исключительно из уникальных копий, и его реассоциация описывается одной кривой второго порядка. Геном теленка содержит как повторяющиеся последовательности, которые быстро ренатурируют (при низких значениях C₀t), так и уникальные последовательности, которые ренатурируют медленно (Britten, Kohne, 1968).

Большинство структурных генов представляют собой уникальные последовательности, но нередко значительную часть геномов эукариот составляют повторяющиеся последовательности. Например, ДНК Xenopus, весьма типичная для Metazoa, содержит 54% уникальных последовательностей; 10% всей ДНК составляли семейства последовательностей, каждая из которых повторяется примерно по 100 раз, 31% - по 2000 раз и примерно 5% - свыше 10⁵ раз. Число семейств повторяющихся последовательностей очень велико: у Xenopus последовательности, повторяющиеся по 100 раз, распадаются на 18 000 различных семейств.

Члены данного семейства повторяющихся последовательностей близки, но не обязательно идентичны. Степень дивергенции между членами различна для разных семейств, как это показали Клейн и др. (Klein et al.). Геномы морских ежей, подобно геномам других эукариот, содержат несколько тысяч семейств повторяющихся последовательностей. Клейн и его сотрудники изучали клоны рекомбинантной ДНК представителей 18 различных семейств последовательностей, в которых число повторяющихся членов колебалось от 3 до 12500. Эти клоны гибридизовали с геномной ДНК и определяли стабильность гибридов в качестве теста на дивергенцию. У трех клонов дивергенция оказалась очень слабой, у семи - умеренной, а у восьми дивергенция в пределах их семейств оказалась очень сильной. Новые семейства повторяющихся последовательностей возникают, по-видимому, в результате внезапной репликации предсуществующей последовательности. Дивергенция членов данного семейства происходит путем замены нуклеотидов у отдельных членов, а степень дивергенции предположительно отражает возраст данного семейства. Мур и др. (Moore et al.) подвергли проверке эту гипотезу, используя клоны семейств повторяющихся последовательностей, выделенные из морского ежа Strongylocentrotus purpuratus. С помощью этих клонов измеряли величину соответствующих семейств последовательностей у S. purpuratus, S. franciscanus и Lytechinus pictus. По данным Дархема (Durham), два вида Strongylocentrotus разошлись около 10-20 млн. лет назад, а роды Strongylocentrotus и Lytechinus - 150-200 млн. лет назад. У отмеченных трех видов были найдены очень близкие семейства последовательностей, различавшиеся, однако, по частоте повторов. Так, например, у S. purpuratus одно семейство содержало 800 членов, у S. franciscanus - 80, а у L. pictus - только 8. Поскольку близкие семейства повторяющихся последовательностей обнаружены у видов, дивергировавших еще 150-200 млн. лет назад, эти семейства следует считать очень древними. Кроме того, в процессе эволюции различных видов в этих семействах, по-видимому, возникали независимые скачкообразные репликации, подобно возникновению повторяющихся последовательностей у приматов (см. рис. 3-2).

Семейства наиболее высокоповторяющихся последовательностей содержат миллионы копий, и их последовательности организованы довольно просто: основная единица состоит примерно из 10 тандемно повторяющихся нуклеотидных пар. Эти сателлитные ДНК, которые могут составлять до 40% генома, образуют кластеры в эукариотических хромосомах. Они обычно не транскрибируются и, по-видимому, обеспечивают лишь надлежащую организацию хромосом. Менее высокоповторяющиеся последовательности, которые мы обсуждаем, организованы совершенно иначе. Дэвидсон (Davidson) и его сотрудники впервые показали, что у Xenopus члены семейств умеренно-повторяющихся последовательностей разбросаны по всему геному между уникальными последовательностями. Длина повторяющихся последовательностей у этой лягушки соответствует в среднем 300 парам нуклеотидов, а длина уникальных последовательностей колеблется от 800 до 4000 пар. Как установлено рядом исследователей (литературу см. Levin 1980), подобная структура из «коротких повторов» часто встречается у таких различных организмов, как миксомицеты, высшие растения, медузы, двустворчатые моллюски, морские ежи и человек. Маннинг и др. (Manning et al.) обнаружили совершенно иной тип организации из «длинных повторов» у дрозофилы, у которой последовательности из 5600 нуклеотидных пар чередуются с уникальными последовательностями из более чем 13 000 пар. Сходную структуру из длинных последовательностей описали Крейн и др. (Grain et al.) для ДНК пчелы, однако такая организация генома свойственна не всем насекомым, так как у комнатной мухи (Diptera) обнаружена структура типа коротких повторов. У некоторых грибов и нематод «вкрапления» повторяющихся последовательностей, по-видимому, отсутствуют; это заставляет думать, что роли, приписываемые таким повторам на основе изучения высших Metazoa, возможно, свойственны не всем организмам.

Существование повторяющихся последовательностей между генами, состоящими из уникальных последовательностей, представляет значительный интерес, потому что они, возможно, обеспечивают интеграцию экспрессии уникальных генов. Модели Бриттена и Дэвидсона (Britten, Davidson) рассматриваются в гл. 12, но здесь о них следует упомянуть, потому что они были побудительной причиной большинства исследований, посвященных повторяющимся последовательностям. Эти модели были созданы для того, чтобы объяснить чрезвычайную стабильность и четкую определенность характера экспрессии структурных генов, наблюдаемую в дифференцированных тканях. Согласно этим моделям, комплекс структурных генов, экспрессирующихся в той или иной ткани, представляет собой «батарею» генов. Гены, экспрессируемые в такой батарее, не сцеплены физически; напротив, у эукариот они рассеяны по геному. Интеграция достигается при помощи сетки регулирующих последовательностей, с тем чтобы последовательности, примыкающие к комплексу структурных генов с уникальными последовательностями, могли распознавать некую общую интегрирующую последовательность. Эти примыкающие последовательности неизбежно должны быть повторяющимися.

Для того чтобы повторяющиеся последовательности могли нести интегративные функции, необходимо, чтобы они были расположены вперемежку со структурными генами, подвергались транскрипции и чтобы в разных тканях транскрипция повторяющихся последовательностей протекала по-разному, потому что разные типы структурных генов должны в конечном счете экспрессироваться в виде мРНК. Эти требования, по-видимому, удовлетворяются. Тот факт, что структурные гены, регулируемые в процессе развития, и повторяющиеся последовательности тесно перемешаны, установлен для генов β-глобинов. Шен и Маниатис (Shen, Maniatis) исследовали участок генома кролика длиной в 44 000 нуклеотидных пар, который содержит кластер из четырех генов β-глобина. Было обнаружено, что гены этой группы перемежаются с 20 различными повторяющимися последовательностями, распадающимися на 5 семейств. Оказалось, что к каждому глобиновому гену примыкает по бокам по крайней мере одна пара инвертированных повторов длиной в 140-400 пар нуклеотидов, а весь генный кластер фланкирован парой более длинных (1400 нуклеотидных пар) повторяющихся последовательностей, ориентированных в противоположных направлениях по отношению одна к другой (обращенных повторов).

Транскрипция умеренно-повторяющихся последовательностей была продемонстрирована у зародышей морских ежей. Шеллер и др. (Scheller et al.) использовали ряд клонов отдельных членов нескольких семейств повторяющихся последовательностей для того, чтобы сравнить экспрессию транскриптов этих семейств в ядрах клеток зародыша на стадии гаструлы и клеток кишечника взрослого животного. Число копий в изученных семействах повторяющихся последовательностей колебалось от 20 до 1000 на геном; члены одних семейств были очень консервативны, т. е. их последовательности оставались в процессе эволюции неизменными, тогда как у членов других семейств они сильно дивергировали. В ядрах тех и других клеток были обнаружены транскрипты всех последовательностей, однако они четко различались в отличие от транскриптов уникальных последовательностей, которые очень сходны в ядрах как клеток гаструлы, так и клеток кишечника. Подобным же образом Константини и др. (Constantini et al.) обнаружили, что члены по крайней мере 80% семейств повторяющихся последовательностей из генома морского ежа представлены в РНК яиц. Самое интригующее наблюдение этих авторов состоит в том, что (в отличие от структурных генов) транскрипты обеих цепей повторяющихся последовательностей присутствуют в ядрах в виде копий РНК. В цитоплазме яиц обнаружены также транскрипты повторяющихся последовательностей, связанные с РНК, подобными матричным. Хотя присутствие транскриптов обеих цепей повторяющихся последовательностей и неожиданно, оно совместимо с гипотезой регуляции, при которой регуляторный транскрипт должен связаться с комплементарной ему, состоящей из повторяющихся последовательностей частью транскрипта, подлежащего процессингу. Следует помнить, однако, что совместимость - это еще не доказательство: может оказаться, что повторяющиеся последовательности несут совершенно иные функции. Например, Джелинек и др. (Jelinek et al.) изучали главное семейство коротких повторов в геноме человека - семейство Alu, присутствующее в геноме в нескольких сотнях тысяч сайтов. Эти последовательности транскрибируются с образованием ядерной РНК; неясно, однако, выполняют ли они какую-то функцию, существенную для ядерной РНК, или же эта их транскрипция - случайное следствие их функции или локализации в ДНК. Существует еще один класс повторяющихся последовательностей, который, как может оказаться, играет значительную роль в регуляции генной экспрессии в процессе развития, а также в эволюционных изменениях генной организации. Это подвижные элементы, представляющие собой длинные последовательности с короткими прямыми повторами на каждом конце. Эти последовательности, которые включены в молекулу ДНК в ряде сайтов, могут вырезаться и переноситься на другое место в пределах данного генома. Такие элементы впервые обнаружила генетическими методами Мак-Клинток (McClintock) в 50-х годах у кукурузы, но их молекулярная природа была выявлена лишь недавно. Функция этих элементов неясна, однако, включаясь рядом с 5'-концом структурных генов, они могут действовать как регуляторные элементы, активируя эти гены. Как показали Эрреде и др. (Errede et al.) и Уильямсон и, др. (Williamson et al.), один из таких элементов - последовательность Ty1 дрожжей-действует именно подобным образом. Работа Эрреде и др. представляет особый интерес, потому что гены, активируемые в результате включения примыкающего к ним элемента Ty1, приобретают способность реагировать на контролирующее воздействие аллелей, которые, определяя тип скрещивания, регулируют конъюгацию и споруляцию у дрожжей. Возможно, что эти подвижные элементы обеспечивают механизм, контролирующий генную экспрессию в процессе развития при помощи регулируемой модификации генома, однако такую их функцию еще следует продемонстрировать. Быть может, гораздо более важную роль подвижные элементы играют в эволюции, потому что они обладают способностью перемещать контролирующие элементы на новые места, тем самым добавляя гены к определенным контролирующим сетям или удаляя их из таких сетей. Сходные элементы были обнаружены у дрозофилы и у мыши.

В отличие от гипотез, основанных на допущении определенной функции для повторяющихся последовательностей, Дулиттл и Сапиенца (Doolittle, Sapienza), а также Орджел и Крик (Orgel, Crick) высказали предположение, что эти элементы представляют собой «эгоистичную» ДНК, т. е. что существуют, возможно, последовательности ДНК, способные включаться в геном и избегать элиминации. Эгоистичные последовательности предположительно способны реплицироваться так же хорошо или даже лучше, чем вся масса генома, не нанося вреда своему «хозяину». В заключение своих рассуждений Дулиттл и Сапиенца отмечают: «Если можно показать, что у данной ДНК или у целого класса ДНК, фенотипические функции которых не установлены, в процессе эволюции возникла некая стратегия (такая, как транспозиция), обеспечивающая ее выживание в геноме, то никаких других обоснований ее существования уже и не требуется». Надо сказать, что это малоутешительное соображение.

Разорванные гены и непредвиденные последствия

В начальный период развития молекулярной биологии все ее внимание было в основном сосредоточено на ряде открытий, сделанных в результате очень подробных исследований бактериофага и бактериальных генов. Этими исследованиями было установлено, что конечные молекулярные продукты генов - белки - представляют собой линейные полимеры, состоящие из аминокислот, непосредственно транслируемых с мРНК. которые построены из линейной последовательности нуклеотидов, комплементарных генетическому коду, заключенному в колинеарной цепи ДНК. Казалось, что так же обстоит дело и у эукариот, поскольку можно было показать, что их гены занимают в хромосомах дискретные участки и что их мРНК, подобно мРНК прокариот, непосредственно кодируют линейные последовательности аминокислот. Однако, когда успехи методов клонирования позволили выделять у эукариот отдельные гены и подробно изучать их структуру, эти привлекательные своей простотой взгляды на гены эукариот пришлось оставить. Большинство генов оказалось разорванными (split) на несколько кодирующих участков (экзонов), разделенных находящимися между ними некодирующими последовательностями - нитронами; это схематически показано на рис. 11-4 для генов нескольких эукариот. Число нитронов достигает иногда поразительно высоких значений, если учесть точность процессинга, необходимого для продуцирования функциональной мРНК: 33 интрона для гена вителлогенина A (Wahli et al.) и даже 50 нитронов для коллагенового гена (de Crombrugghe et al.)

В результате процесса транскрипции создается копия целого гена, содержащего как интронные, так и кодирующие последовательности в виде одной крупной молекулы ядерной РНК. При процессинге этого транскрипта, приводящем к образованию мРНК, интронные последовательности очень аккуратно вырезаются из предшественника мРНК, а затем кодирующие последовательности сращиваются (сплайсируются). Ряд событий, происходящих при экспрессии разорванного гена, схематически представлен на рис. 11 -5.

Существование нитронов в значительной степени устраняет недоумения, порождаемые парадоксом значений С. Интроны содержат как повторяющиеся, так и уникальные последовательности. Общая длина нитронов в данном гене нередко превосходит длину кодирующих последовательностей в 10 раз. Образование мРНК из гораздо более длинных транскриптов находится в соответствии с существованием очень длинных транскрипционных единиц, подобных обнаруженным у дрозофилы. В геномах Metazoa половина или более ДНК нередко бывает представлена повторяющимися последовательностями, и вследствие большой протяженности нитронов лишь часть остальной уникальной ДНК может кодировать синтез мРНК.

Причины существования у эукариот разорванных генов все еще неясны. Гены гистонов и некоторые другие гены эукариот не содержат нитронов; следовательно, интроны не могут быть условием, выполнение которого абсолютно необходимо для генной экспрессии. Можно представить себе, что интроны - это эгоистичные последовательности, включающиеся в жизненноважные гены и благодаря этому укрывающиеся от процессов, которые могут их элиминировать. Возможно, что подобные последовательности действительно существуют, однако именно преобладание нитронов у всех изученных эукариот заставляет считать, что разорванные гены составляют часть генома эукариот со времени их возникновения и часто существование этих генов связано с какими-то определенными причинами.

Рис. 11-4. Некодирующие последовательности (интроны) в структурных генах некоторых эукариот. Кодирующие последовательности, которые в конечном итоге и дают мРНК, показаны черным, а интроны - белым. (Lewin, 1980).

Рис. 11-5. Процессинг транскрипта разорванного гена, приводящий к образованию мРНК. Кодирующие последовательности показаны черным, единственный интрон - белым, а нетранслируемые 5'- и З'-последовательности покрыты пунктиром. При процессинге к 5'-концу транскрипта добавляется кэп GpppG, а к его З'-концу - полиадениловый фрагмент. Фермент, осуществляющий процессинг, очень точно проводит разрезы на границах между нитроном и кодирующими последовательностями и сращивает эти две последовательности, в результате чего получается полная кодирующая последовательность для мРНК.

Предположение о чисто эволюционной функции разорванных генов высказал Джилберт (Gilbert). Интронами часто разделяются кодирующие последовательности, с которых транслируются функциональные домены внутри белков. Так, например, глобиновые гены разделены двумя нитронами на три кодирующих участка. Центральный участок кодирует домен, связывающий гем. Если, как полагает Джилберт, интроны создают возможность для «перетасовки ДНК путем незаконных рекомбинаций», то в таком случае кодирующие последовательности для отдельных доменов могут вступать в новые комбинации друг с другом. Так, участок глобина, связывающий гем, возможно, первоначально составлял часть другого разорванного гена. Для эволюции будущего глобинового гена, возможно, не понадобилось дупликации гена и дивергенции: простой перетасовки существующих доменов могло оказаться достаточным для создания нового белка из уже существовавших частей.

Лизоцимы фага Т4 и куриного яйца содержат структуры, к которым по мнению Артымюка и др. (Artymiuk et al.) приложимо подобного рода эволюционное объяснение. Лизоцимы куриного яйца содержат два таких же домена как в лизоциме фага Т4. Один из них - это домен, содержащий каталитический центр, а другой - соседний - домен, по-видимому, участвует в определении субстратной специфичности. N-концевой домен лизоцима куриного яйца, который, как установили Янг и др. (Jung et al.), содержит сигнальный пептид прелизоцима и начальные аминокислоты молекул зрелого белка, не имеет эквивалента в лизоциме фага Т4. Точно так же четвертые, С-концевые, домены этих двух белков очень сильно различаются; по мнению Мэтьюза и др. (Matthews et al.), в фаговом ферменте функция этого домена состоит в том, чтобы обеспечивать прикрепление фаговой частицы к стенке Escherichia coli, тогда как ферменту куриного яйца эта функция вряд ли необходима. Подобный характер строения гомологичных белков, когда к сходным доменам примыкают несходные, явно совместим с предположением о перетасовке соответствующих кодирующих последовательностей путем рекомбинации в пределах нитронов.

Джилберт высказал мнение, что если функция интронов сводится к обеспечению эволюционной пластичности, то они могут утрачиваться в результате нейтрального дрейфа. Он считает, что это происходит с исключительно низкой скоростью. Если согласиться с тем, что длительная эволюционная пластичность служит достаточным механизмом для сохранения разорванных генов, то старая теория о старении расы, к которой так часто прибегали в конце XIX в., чтобы объяснить вымирание различных групп (от аммонитов до динозавров), может быть возрождена в новой форме. Постаревшими будут считаться те группы, которые в результате дрейфа потеряли так много интронов, что утратили способность противостоять давлению отбора путем возникновения эволюционных новшеств. Однако здесь мы сталкиваемся с той же самой логической ошибкой, которая была присуща старой теории преформизма, обсуждавшейся в гл. 3: все интроны должны были присутствовать изначально, а затем запас их должен медленно истощаться. Представляется более вероятным, что новые интроны могут возникать и что их сохранение связано с какой-то непосредственной функцией, выполняемой ими в клетке. Это не означает, однако, что мы отрицаем возможность дополнительной эволюционной роли интронов в перетасовке ДНК.

Важную роль интронов в регуляции генной экспрессии продемонстрировали Лазовска, Жак и Слонимски (Lazowska, Jacq, Slonimski) в своем тонком исследовании гена box, который локализован в митохондриальном геноме дрожжей и кодирует цитохром b. Физическая карта гена box и кластеров известных для него мутационных сайтов представлены на рис. 11-6. В этом гене имеется шесть кодирующих последовательностей и пять интронов; у него обнаружены три различных класса мутаций. Мутации в кодирующих последовательностях, как и следовало ожидать, влияют на строение белка, и все они входят в одну группу комплементации. Мутации двух других классов необычны. Три кластера локализованы в нитронах. Они в свою очередь образуют три различные группы комплементации и блокируют процессинг транскрипта гена цитохрома b. Они оказывают также воздействие на экспрессию гена oxi-3 - еще одного разорванного митохондриального гена, который кодирует субъединицу 1 цитохромоксидазы. Мутации третьего класса локализованы на границах между нитронами и кодирующими последовательностями.

Рис. 11-6. События, происходящие при процессинге гена митохондриального цитохрома b дрожжей. Организация гена представлена на схеме А. Длина его равна примерно 7 килобаз. Элементы кодирующей последовательности показаны черным, а интроны - белым, за исключением интронных мутационных сайтов двух типов. Мутации в заштрихованных участках нитронов блокируют процессинг цитохромной мРНК. Участки, покрытые пунктиром, - мутации, возникшие на границах между кодирующими последовательностями и нитронами. Отдельные стадии процессинга левого конца транскрипта РНК показаны на схемах Б-Д. Сплайсинг первого интрона приводит к образованию РНК, которая функционирует как мРНК для синтеза матуразы, обеспечивающей следующую стадию сплайсинга. Часть матуразной мРНК происходит от интрона box-3. TER - сайт терминации для трансляции матуразы (Lazowska, Jacq, Slonimski, 1980).

Для того чтобы могла образоваться функциональная мРНК для цитохрома b, интронные последовательности должны быть вырезаны из первичного транскрипта и должен произойти сплайсинг кодирующих последовательностей. Оказалось, однако, что процессинг - сложный многоступенчатый процесс. Мутации в интроне гена box-3 нарушают процессинг, потому что этот интрон действительно транслируется, чтобы мог образоваться белок, необходимый для процессинга транскрипта гена box. Последовательность в этом интронном участке, определяющем синтез данного белка, известна, так как этот участок гена box был секвенирован.

Первый этап сплайсинга первичного транскрипта гена box, схематически представленного на рис. 11-6, приводит к образованию РНК, содержащей кодирующую последовательность box-4/5 для цитохрома b, сцепленную с маленьким кодирующим участком у конца интрона box-3. Эта РНК, содержащая кодирующие последовательности для цитохрома b и интронные последовательности, функционирует как мРНК, обеспечивая синтез белка матуразы, необходимого для следующей ступени процессинга. На этом этапе происходит удаление последовательности интрона box-3, с тем чтобы образовалась мРНК, содержащая только последовательности, кодирующие цитохром b. Подобным же образом интрон box-7 также, по-видимому, продуцирует сходную, хотя и другую матуразу, поскольку мутации box-3 и box-7 комплементарны друг другу. Гипотетическая матураза box-7, по-видимому, не только участвует в процессинге гена цитохрома b, но необходима также для процессинга транскрипта гена oxi-3, поскольку мутации в интроне box-7 воздействуют на синтез цитохромоксидазы.

Роль процессинга в регуляции генной экспрессии выявляется также в примерах с α-амилазами из печени и слюнной железы мышей. Хагенбюхль и др. (Hagenbuchle et al.) обнаружили, что последовательности мРНК в ферментах печени и ферменте слюнной железы идентичны по своим кодирующим участкам и нетранслируемым 3'-участкам. Однако нетранслируемые 5'-участки этих мРНК различны. Данные названных авторов позволяют предполагать, что эти белки кодируются одним и тем же геном, но что его экспрессия, возможно, регулируется тканеспецифичным процессингом транскриптов. Очевидно, что разорванные гены играют важную роль в регуляции координированной генной экспрессии у эукариот и что существование подобной организации генов делает возможной значительную эволюционную пластичность.

Локальные переключатели генов

Однажды знаменитого альпиниста Джорджа Маллори спросили, почему ему хотелось взобраться на Эверест. Он ответил: «Потому что Эверест существует». По-видимому, по такому же принципу в природе происходит выбор точек, которые контролируют биологические процессы. Поскольку регуляция генной экспрессии на уровне сплайсинга наблюдается так часто, возникает соблазн предположить, что у эукариот вся регуляция осуществляется на уровне сращивания ядерных транскриптов. Однако экспрессия многих генов, в частности тех, которые кодируют белки, характерные для клеток с терминальной дифференцировкой, регулируется на уровне транскрипции. Прекрасной иллюстрацией этого служит синтез овальбумина, индуцируемый в яичниках эстрогеном. Руп и др. (Roop et al.), используя меченную изотопами клонированную овальбуминовую ДНК в качестве пробы на транскрипты овальбуминовых генов в ядрах клеток яичников, обнаружили в ткани, стимулированной эстрогеном, примерно по 3000 транскриптов на ядро, а в тканях цыплят, не получивших гормона, - менее 2 на ядро. В подобных легко поддающихся изучению случаях участвуют гены, продуцирующие в ответ на индуцирующий сигнал очень большие количества какого-либо специализированного продукта. Вполне возможно, однако, что экспрессия генов, ответственных за важнейшие решения в процессе развития, также регулируется на уровне транскрипции. На такую мысль наводит поведение при транскрипции пуф - областей в политенных хромосомах, в которых дифференцировка явно связана с дифференциальным характером транскрипции. На это указывают также сроки проявления активности генов, играющих важную роль в развитии. Цитоплазма неоплодотворенных яиц содержит очень разнообразные мРНК, а между тем преобладающее большинство мутаций, наблюдаемых в экспериментах, подобных описанным в гл. 10, проявляются у зародыша, а не передаются по материнскому типу. Очевидно, что активность соответствующих генов приходится на эмбриональный период.

В регуляции генной экспрессии, по-видимому, участвуют локальные регуляторные элементы, либо примыкающие к отдельным генам, либо находящиеся в них самих. Транскрипционные единицы содержат не только кодирующие последовательности и интроны, но также некодирующие последовательности, примыкающие к генам на 5'- и 3'-концах. Существование регуляции на уровне и транскрипции, и процессинга свидетельствует о том, что локальные регуляторные элементы включены в транскрипционные единицы. Некоторые из первичных локальных регуляторных элементов представлены сайтами, которые должны распознавать поступающие извне регуляторные сигналы, специфически индуцирующие или репрессирующие транскрипцию данного гена. В их число входят также: сайт для связывания РНК-полимеразы, сайт, инициирующий транскрипцию; сайт, определяющий окончание транскрипции; сайты, определяющие процессинг; сайты, в которых происходит разрезание и сращивание при процессинге, и сайты внутри самой мРНК, обеспечивающие ее присоединение к рибосоме и начало трансляции.

Существование функционального локального контролирующего элемента, примыкающего к гену, показали генетическими методами Човник (Chovnick) и его сотрудники для локуса rosy у дрозофилы. Локус rosy был первоначально определен как локус, в котором возникает рецессивная мутация, обусловливающая коричневатый цвет глаз. Эта мутантная окраска вызвана недостатком дрозоптерина - пигмента, обусловливающего красный цвет глаз; недостаток пигмента создается отсутствием фермента ксантиндегидрогеназы. Мутации в локусе rosy вызывают структурные изменения белка ксантиндегидрогеназы. Човник и его сотрудники определили протяженность гена ксантиндегидрогеназы, составив карту внутригенных рекомбинаций очень большого числа мутаций в локусе rosy. Существуют также генные изменения, оказывающие влияние на уровень экспрессии этого гена. Одно из них было нанесено на карту как предположительный прилегающий регуляторный элемент, активный в цис-положении. Было установлено, что этот мутантный вариант продуцирует большее количество ксантиндегидрогеназы, чем обычно, и что продуцируемый белок отличается по электрофоретической подвижности. Как показал анализ внутригенных рекомбинантов, регуляторный сайт отделен от «электрофоретического» сайта, находящегося в самом структурном гене ксантиндегидрогеназы. На генетической карте регуляторный сайт лежит на расстоянии, соответствующем 3000 пар нуклеотидов, от одной из границ структурного гена, установленной генетическими методами. Хотя этот мутантный сайт, казалось бы, расположен очень далеко от структурного гена ксантиндегидрогеназы, возможно, что на самом деле сайт инициации транскрипции находится не так уже далеко от мутантного регуляторного сайта. Вполне возможно, что сайт инициации транскрипции по аналогии с ситуацией для генов белков хориона, схематически представленной на рис. 10-7, находится вблизи от регуляторного сайта и отделен от структурного гена, определенного генетическими методами, большим нитроном.

Создание методов клонирования рекомбинантной ДНК и секвенирования ДНК сделало возможным (и модным) поиск локальных регуляторных сайтов в последовательностях ДНК, примыкающих к структурным генам.

Было обнаружено некоторое число потенциальных регуляторных сайтов. Они схематически изображены на рис. 11-7, ни котором показана идеализированная транскрипционная единица млекопитающих и составляющие ее сигнальные последовательности. На этой схеме показана также организация участков, расположенных выше точки начала транскрипции, у рано экспрессируемых генов вируса SV40 млекопитающих и гена, кодирующего гистон Н2А у морского ежа. Оба участка содержат регуляторные сайты, расположенные на 200 пар нуклеотидов выше точки начала транскрипции. Сам структурный ген начинается с сайта инициации, с которого фактически и начинается транскрипция. Этому сайту соответствует 5'-конец мРНК; в мРНК он модифицирован характерным основанием ^7-метилG⁵'ррр, которое образует кэп, играющий важную роль в трансляции. Инициирующая последовательность, изображенная на рис. 11-7, - это обобщенная последовательность, выведенная путем сопоставления инициирующих последовательностей нескольких генов. На самом деле эти последовательности сильно варьируют. В них имеется несколько внутренних сигнальных последовательностей, в том числе сайт начала трансляции, сигналы сплайсинга на границах между нитронами и кодирующими последовательностями и сайты, определяющие терминацию транскрипции и добавление полиадениловых фрагментов к 3'-концу мРНК.

Рис. 11-7. Сигнальные последовательности, ассоциированные с генами эукариот. Вверху представлена идеализированная транскрипционная единица млекопитающих. ТАТА-блок, который, возможно, участвует в связывании РНК-полимеразы, лежит у 5'-конца гена. Транскрипция начинается с сайта кэпа, который лежит на расстоянии примерно 30 пар нуклеотидов. Кодирующие последовательности показаны черным; единственный показанный на схеме интрон покрыт пунктиром. К внутренним сигналам относятся сайты сплайсинга и сайты терминации и аденилирования. На схеме раннего промоторного участка вируса SV40 показаны две последовательности из 70 пар оснований (заштрихованы), расположенные на расстоянии 116 нуклеотидных пар от сайта начала транскрипции в сторону 5'-конца. Эти последовательности необходимы для экспрессии раннего участка вируса SV40 in vivo. На нижней схеме показана начальная область (с 5'-конца) для одного из членов кластера гистоновых генов морского ежа. Участок А содержит эволюционно консервативную последовательность, участок В - ТАТА-блок, а участок С - сайт кэпа. Воздействие делений этих участков на транскрипцию рассмотрено в тексте. (Lewin, 1980; Benoist, Chambon, 1981; Mathis, Chambon, 1981; с изменениями. Grosschedl, Birnstiel, 1980.)

Особый интерес для понимания регуляции транскрипции генов в процессе развития представляют, однако, регуляторные сайты, расположенные выше точки начала транскрипции. Наиболее хорошо известна последовательность ТАТАААА (ТАТА-блок, или ТАТА-бокс), лежащая на расстоянии примерно 30 пар нуклеотидов от точки начала транскрипции. Эта последовательность очень сходна с сайтом узнавания РНК-полимеразы, впервые обнаруженным Прибновом (Pribnow) у бактерий и необходимым для транскрипции бактериальных генов. ТАТА-блок необходим для транскрипции генов эукариот в системе in vitro, но, как показали эксперименты, проведенные недавно Бенуа и Шамбоном (Benoist, Chambon), Матисом и Шамбоном (Mathis, Chambon) и Гросшедлом и Бирнстилом (Grosschedl, Birnstiel), при транскрипции in vivo в ТАТА-блоке нет необходимости. Если ввести в ооциты Xenopus клонированные гены, они точно транскрибируются. Можно вызвать делеции определенных участков и ввести в ооциты такие модифицированные гены. При этом можно определить как скорость транскрипции, так и последовательность образующейся РНК. Путем таких экспериментов было установлено, что гены, из которых был удален ТАТА-блок, транскрибируются почти с такой же скоростью, как обычно, но что транскрипция инициируется в нескольких сайтах, которые в нормальных генах не используются. Таким образом, последовательность ТАТА определяет сайт инициации, с которого РНК-полимераза начинает транскрипцию; однако этот сайт не является абсолютно необходимым для связывания РНК-полимеразы или для начала транскрипции.

На самом деле модуляция транскрипции зависит от регуляторных сайтов, расположенных на целых 200 пар нуклеотидов выше сайта инициации транскрипции. Бенуа и Шамбон обнаружили, что у вируса SV40 этот участок имеет сложную структуру. Он содержит пять блоков, богатых GC-последовательностями. Два из этих блоков включены в две тандемно повторяющиеся последовательности, состоящие из 72 пар нуклеотидов каждая и расположенные примерно на 150 пар нуклеотидов выше сайта начала транскрипции. Эксперименты, в которых эти тандемные последовательности удаляли из ДНК, показали, что они необходимы для транскрипции in vivo.

У гена, кодирующего гистон Н2А морского ежа Psammechinus miliaris, также имеются регуляторные последовательности, удаленные от сайта инициации. Участок гена Н2А, расположенный вверх от точки начала транскрипции (рис. 11-7), можно разделить на несколько различных функциональных участков. Участок С содержит сайт инициации. На расстоянии примерно 30 пар нуклеотидов от сайта инициации в участке В имеется ТАТА-блок. На расстоянии примерно 35 пар нуклеотидов от ТАТА-блока, находится участок А, содержащий последовательность из 30 нуклеотидов, несущую на каждом конце короткие инвертированные последовательности. Эта последовательность из 30 нуклеотидов специфична для гена Н2А и эволюционно консервативна. Участок Ε начинается с 110-й пары нуклеотидов выше сайта инициации и тянется дальше еще на 340 пар нуклеотидов. Этот сегмент богат АТ-парами.

Гросшедл и Бирнстил провели испытание функциональной роли каждого из участков, лежащих выше точки начала транскрипции, сравнивая транскрипцию клонированных генов Н2А, несущих делеции в этих участках, с транскрипцией немодифицированных клонов Н2А. Делеция участка, содержащего ТАТА-блок, вызывала понижение скорости транскрипции гена Н2А в 5 раз и приводила к тому, что транскрипция начиналась с новых сайтов инициации. Делеция консервативного блока из 30 пар нуклеотидов в участке А привела к ускорению транскрипции вдвое. Делеция большого участка Е, богатого АТ-парами, привела к замедлению транскрипции гена Н2А в 15-20 раз. Регуляторная функция этого участка может определяться либо его составом, либо наличием в нем какой-то специфической последовательности. Для проверки этих гипотез Гросшедл и Бирнстил создали модифицированный клон, содержащий участок Е, но с инвертированной последовательностью. Проверка на транскрипцию дала неожиданный результат: у ДНК, содержавшей инвертированный участок, уровень транскрипции оказался в 5 раз выше. Наряду с образованием обычных Н2А-транскриптов образовывались и транскрипты, на 5'-конце которых имелся добавочный фрагмент длиной в 90 нуклеотидов.

Регуляторную роль могут нести не только элементы, расположенные выше точки начала транскрипции. Исследования, проведенные Саконджу и др. (Sakonju et al.) и Богенхагеном и др. (Bogenhagen et al.), показали, что у Xenopus делеция начального участка гена 5S-рибосомной РНК не оказывает никакого влияния на транскрипцию. Даже делеция большей части самого структурного гена не производит никакого действия. Контроль транскрипции осуществляется здесь последовательностью, которая охватывает примерно 50 нуклеотидных пар внутри структурного гена. 5S-ген транскрибируется иной РНК-полимеразой (полимераза III), нежели гены, продуцирующие мРНК (полимераза II), и этим, возможно, объясняется различие в местоположении регуляторных сайтов. В общем и целом результаты исследований регуляторов генной экспрессии, примыкающих к генам, еще не вполне понятны; однако они указывают на существование разнообразных элементов, расположенных по соседству с генами и принимающих участие в количественной регуляции транскрипции и в уточнении места ее начала.

Несколько причудливый характер организации генов у эукариот, выявленный в результате современных исследований на молекулярном уровне, делает необходимым дополнить приведенное в начале этой главы высказывание Моргана о том, что эволюция требует не увеличения числа генов, а новых генов. Сама проблема значений С по большей части легко разрешается и перестает быть парадоксом. Сателлитная ДНК, семейства умеренно-повторяющихся последовательностей и интроны - все это сильно уменьшает долю генома, приходящуюся на кодирующие участки. Эти и другие элементы генома составляют большую часть его ДНК, причем количество их может сильно различаться у родственных организмов. Такое неожиданное разрешение С-парадокса выдвинуло еще более важную проблему. Разнообразие установленных и потенциальных регуляторных элементов поразительно; мы только начинаем постигать их функции. Увеличение числа генов и приобретение новых генов, возможно, участвует в эволюции большинства групп эукариот, однако главную роль в ней играют модификации изощренных регуляторных механизмов. Эволюционные изменения генной экспрессии, вероятнее всего, происходили путем изменений в отдельных регуляторных элементах или путем транспозиции генов и регуляторных элементов, что создавало возможность для новых ассоциаций белковых доменов и новых ассоциаций между генами и примыкающими к ним регуляторами. Такие изменения эффективны лишь потому, что локальные регуляторные элементы реагируют на сигналы, генерируемые интегрирующими системами, которые управляют экспрессией многочисленных генов, с тем чтобы создавать интегрированные ткани и определять морфогенетические пути.