Логика Кунина

Кампус Национальных институтов здоровья США в Бетезде. На фоне здания Национальной медицинской библиотеки, в котором, в частности, располагается национальный центр биотехнологической информации (NCBI) — Юрий Вольф (сотрудник Е.К.), Евгений Кунин, Дэвид Липман (основатель и директор NCBI), Михаил Гельфанд и Кира Макарова (сотрудник Е.К.)
Кампус Национальных институтов здоровья США в Бетезде. На фоне здания Национальной медицинской библиотеки, в котором, в частности, располагается национальный центр биотехнологической информации (NCBI) — Юрий Вольф (сотрудник Е.К.), Евгений Кунин, Дэвид Липман (основатель и директор NCBI), Михаил Гельфанд и Кира Макарова (сотрудник Е.К.)

Несколько лет назад мы в лаборатории сделали довольно большое библиометрическое исследование — доступа к данным о цитированиях у нас не было, но зато мы посмотрели, кто из биоинформатиков пишет в соавторстве с кем и о чем. По разным случайным причинам его результаты так и осталась неопубликованными, но один из них я сейчас расскажу. Мы оценили все ключевые слова (MESH terms в базе данных PubMed) по тому, как меняется их употребление в каждом году по сравнению с предыдущим. Слово является «модным» (vogue), если частота его употребления устойчиво растет, или «винтажным» (vintage) — эта терминология была введена, чтобы никого не обижать (через пару предложений будет ясно, кого именно). Соответственно, можно классифицировать и авторов потому, пишут ли они на модные или винтажные темы.

И вот оказалось, что среди «мировых экспертов» (так Евгений Кунин рекомендован на обложке его книги «Логика случая») — биоинформатиков с наибольшим числом цитирований, с самыми длинными списками статей и индексами Хирша — он является единственным винтажным автором (для коллег упомяну, что самые следящие за модой и, возможно, отчасти формирующие ее — Марк Герштейн и Пер Борк). Мне кажется, это очень важное наблюдение. Оно показывает, что даже в современной суетной биологии не обязательно гнаться за модой,бросаясь от эпигенетики к метагеномике и от нейронных сетей до сетей белковых взаимодействий, чтобы стать одним из самых влиятельных и уважаемых членов сообщества. Оно объясняет также, почему только Кунин мог написать такую книгу. Не знаю, признается ли он сам себе, но я уверен, что в глубине души он произносил классическую фразу: «А не замахнуться ли нам на Вильяма нашего Шекспира?» Ну, то есть на Чарльза нашего Дарвина и еще на полудюжину классиков от Фишера и Райта до Майра и Гулда.

Про содержание книги и про необычную историю ее перевода на русский язык уже рассказано в рецензиях Дениса Тулинова и Георгия Любарского, поэтому я попробую поговорить о том, чего мне не хватило, — о примечаниях переводчиков и научного редактора. Помимо пары мелочей, которые стоило бы поправить (см. Приложение к статье ниже), и упоминания новейших результатов (отчасти это делает сам автор в примечаниях к переводу), это дало бы возможность диалога — так, как это делается в журнале Biology Direct, одним из основателей которого является Кунин. В этом журнале решение о публикации принимает сам автор, и статью можно опубликовать даже при отрицательных отзывах рецензентов — но рецензии и ответы на них тоже будут опубликованы. Автор же решает, кому из членов редколлегии предложить написать рецензию, и Кунин, который часто публикует в Biology Direct свои статьи, выбирает таких рецензентов, что читать полемику бывает не менее поучительно, чем саму статью. Итак, desiderata.

10.3

Во многих местах, и даже в специальном приложении, Кунин пытается обсуждать биологическую эволюцию с физической точки зрения. При этом он совершенно пренебрегает лингвистическими аналогиями. Степень их глубины могла бы быть различна, но странно игнорировать то, что язык — это еще одна эволюционирующая информационная система, и многие проблемы в ее описании и изучении почти дословно совпадают с проблемами в исследовании эволюции генома. Навскидку: границы языка — что разные языки, а что диалекты (ср. определение вида); расхождение единого языка на группу родственных (происхождение романских языков из латыни является убедительным доводом в застольных беседах с креационистами, требующими «показать промежуточный вид между кошкой и собакой»); постепенная эволюция языка путем изменения частот слов и других явлений (ср. синтетическую теорию эволюции) и, наоборот, относительно быстрые перестройки систем языка, от фонологической до синтаксической (ср. теорию прерывистого равновесия); гибридизация и креольские языки, заимствования (не только слов, но и синтаксических конструкций) и горизонтальный перенос генов и оперонов вместе с регуляторами; реконструкция праязыков; сосуществование в языке различных кодов; противопоставление «язык и речь» (ср. геном и эпигеном или, возможно, генотип и фенотип); наконец, проблема проблем — происхождение языка и происхождение жизни (где какие-то этапы можно себе представить, но остаются колоссальные дыры, для объяснения которых Кунин прибегает к антропному принципу и теории множественных вселенных). Разумеется, есть важные различия и в самих системах, и в их понимании (скажем, мы, видимо, лучше понимаем системность языка, чем системность того, как функционирует геном); в лингвистике есть понятие «смысл», которое трудно себе представить в биологии, и т.п. — но, мне кажется, это было бы очень поучительно обсудить. Похоже, в биоинформатике, как и в математике, существует два способа думать: физический и лингвистический (сошлюсь на свои интервью с Ю.И. Маниным и В.А.Успенским, опубликованные в ТрВ-Наука, и на статью Ю.И. Манина «Языки математики или математика языков»).

В книге практически отсутствует обсуждение связи эволюции и развития — evo-devo — и вообще довольно мало говорится об эволюции регуляции. Разумеется, это связано с собственными научными интересами автора и еще с тем, что успехи биоинформатики в этой области невелики: немногое, что мы знаем про эволюцию регуляции у эукариот, в основном приходит из экспериментальных работ. Но замах-то был не на самообзор, а на «третий эволюционный синтез»! Можно думать, что именно быстрая эволюция регуляторных сетей, особенно работающих на ранних стадиях онтогенеза, приводит к резким изменениям морфологии, которые являются, в частности, основой традиционной таксономии. В этой связи — и в контексте обсуждения древа жизни — поучительно было бы обсудить, какой реальности соответствуют таксономические уровни. Ясно, что не степени различия последовательностей, но существуют ли они вообще? Формально — если спроецировать древо жизни на ось времени, будем ли мы наблюдать сгущения внутренних узлов? Если да, то соответствующие ветвления и определяют уровни семейства, отряда, класса и т.п. Похоже, что в ряде случаев дело обстоит именно таким образом: скажем, сложности в определении родства отрядов млекопитающих, связанные с малыми длинами ветвей у основания класса, доказывают реальность и класса, и отрядов. С другой стороны, если ветвления происходят равномерно по времени, то вся таксономия — в значительной степени условность, возникающая из произвольного выделения каких-то внутренних узлов как определяющих таксоны. Близкая тема, подробно рассмотренная в книге, но в другом контексте — сопоставление наборов генов. Существование большого количества генов, специфичных, скажем, для хордовых, доказывает разумность обособления их в таксон. Особенно поучительно было бы рассмотреть с этих точек зрения эволюцию бактерий, что должно быть близко автору.

Плодовое тело миксобактерии Myxococcus stipitatus

 

Плодовое тело слизевика Dictyostelium discoideum

 

Говоря о моделях эволюции, было бы интересно коснуться полемики о существовании группового отбора, т.е. отбора, действующего на уровне не отдельных особей, а групп родственных особей. Эта теория призвана объяснить, в частности, возникновение альтруистического поведения, но можно ли обойтись без нее? Хорошей моделью является альтруистическое поведение одноклеточных, для которого есть несколько классических примеров. Отдельные клетки в голодающих колониях миксобактерий и слизевиков сползаются вместе и формируют плодовые тела (см. фотографии), после чего те, кто оказался в «шляпке», образуют споры и разлетаются в поисках лучшей жизни, а те, кто остался в ножке, погибают (кстати, миксобактерии — бактерии, а слизевики — эукариоты.то есть это еще и хороший пример конвергентной эволюции,тем более, что в обоих случаях сигнальной молекулой является цАМФ). Аналогично, у некоторых спорулирующих бацилл часть голодающей колонии совершает самоубийство, чтобы послужить питательной средой для другой части и дать им время уйти в споруляцию. В этом случае судьба клетки зависит от концентрации одного белка, которая сильно различается у генетически идентичных особей по случайным причинам (ср. обсуждение в книге роли шума в эволюции и сюжет про системы токсин — антитоксин — опять же, в несколько ином контексте). У других бактерий подобные механизмы регулируют образование биопленок, свечение, вирулентность, деградацию целлюлозы и т.п. Но у одноклеточных такое поведение легко объяснить на уровне отдельных генов в силу клонального происхождения колоний из одной предковой клетки (генетически идентичные особи, с точки зрения эгоистичного гена, все равно, что одна особь, на которую и действует отбор). До какой степени это переносится на уровень многоклеточных организмов — очень интересный вопрос.

В заключение надо сказать главное. Книга Кунина — обязательное чтение не только для биоинформатиков и эволюционистов, но, думаю, для всех биологов. Фактически в ней заявлена исследовательская программа, глубина которой сопоставима с классическими трудами. Даже те, кто хорошо знаком с работами Кунина и уже знает большую часть приводимых в книге фактов и соображений, найдут в ней массу поучительного — хотя бы даже в том, как эти соображения собраны в единую картину, в стиле письма и структуре текста. Те же, кто встретится с этим впервые, обнаружат новый способ думать о биологии, который несомненно скажется на их собственных исследованиях. Книга будет интересна и небиологам, потому что она показывает передовой край, frontier науки об эволюции.

  1. Евгений Кунин. Логика случая. М.: Центрполиграф, 2014.
  2. Денис Тулинов. Эволюция теории эволюции. ТрВ-Наука № 149, 11.03.2014.
  3. Георгий Любарский. Третий эволюционный синтез. Химия и жизнь № 5, 2014, см. также http://ivanov-petrov.livejournal.com/1870801.html.
  4. Юрий Манин: «Не мы выбираем математику своей профессией, а она нас выбирает». ТрВ-Наука № 13, 30.09.2008. 
  5. В.А.Успенский: «Математика — это гуманитарная наука». ТрВ-Наука № 146, 28.01.2014. 
  6. Юрий Манин.Языки математики или математика языков. ТрВ-Наука № 30, 09.06.2009.

Приложение

Как в любой рецензии, нельзя обойтись без мелких поправок и комментариев. Здесь собраны наиболее существенные.

Стр. 43: «Цукеркандль и Полинг… предложили концепцию молекулярных часов: они предсказали, что скорость эволюции определенной последовательности белка будет неизменной (с учетом возможных флуктуаций) в течение длительных временных интервалов в отсутствие функциональных изменений». Похоже, реальная история немного сложнее и противоречивее. Вот цитата из статьи Эмиля Цукеркандля «Эволюция гемоглобина» (сборник «Молекулы и клетки», М: Мир, 1966, оригинал – в журнале Scientific American): «… Вдобавок к этим трем постулатам я хотел бы выдвинуть четвертый, гораздо более противоречивый. Я предполагаю, что у тех современных организмов, которые мало отличаются от своих предков, преобладают, очевидно, полипептидные цепи, очень сходные с полипептидами их предков. К таким организмам, своего рода «живым ископаемым», относятся таракан, мечехвост, акула, а из млекопитающих – лемур. По-видимому, очень многие полипептидные молекулы, синтезируемые этими организмами, лишь незначительно отличаются от полипептидных цепей, синтезировавшихся их предками миллионы лет назад. В чем же противоречивость этого постулата? Часто говорят, что эволюция длилась одинаково долго как для организмов, которые казалось бы, мало отличаются от своих предков, так и для тех организмов, которые сильно изменились. Отсюда ученые делают вывод, что по своим биохимическим свойствам все эти «живые ископаемые» также должны резко отличаться от своих далеких предков. С моей точки зрения, маловероятно, чтобы в процессе отбора сохранялись морфологические признаки, но менялись лежащие в их основе биохимические свойства». Впрочем, часть дальнейших рассуждений Цукеркандля, таких, как оценки времени расхождения гомологичных (сейчас мы бы сказали «паралогичных») цепей гемоглобина, действительно опирается на постоянство скоростей. Но не все: для построения филогенетических деревьев он использует принцип, который в дальнейшем стал называться «принципом наибольшей экономии»: «Один из принципов химической палеогенетики заключается в следующем: при постулировании родоначального аминокислотного остатка следует исходить из предположения о наименьшем числе мутаций в геноме, которые привели к его замещению в полипептидной цепи потомков».

Стр. 73: «Типичное время исчезновения сходства последовательностей у гомологичных генов сравнимо со временем существования жизни на Земле». Мне кажется, тут имеет место ascertainment bias: если какие-то белки менялись быстрее, мы просто не в состоянии установить их родство; на это указывает, в частности, большое количество белков, имеющих одинаковую пространственную структуру, но последовательности, сходные на уровне случайных. С другой же стороны для гомологов, расхождение которых случилось очень рано, мы всё же можем наблюдать различия в скоростях эволюции, и, стало быть, их сходство исчезнет в разное время.

Стр. 120, про распределение степеней вершин: «Случайные графы имеют колоколообразное распределение Пуассона, а для биологических сетей распределение описывается степенной функцией». На самом деле в нескольких работах было показано, что степенное распределение плохо описывает биологические сети. Дело в том, что до последнего времени отсутствовали статистические тесты для проверки гипотезы о степенном распределении и утверждения делались на глазок – по наличию прямолинейного отрезка в функции распределения, построенной в двойных логарифмических координатах (ср. табл. 4-1, правый нижний график). Но двойные логарифмические координаты – очень коварная штука; почти любая произвольно нарисованная монотонно убывающая функция с монотонной производной будет иметь такой визуально прямолинейный отрезок (если только эту функцию не строить специально для опровержения этого утверждения).

В обсуждении эндосимбиотического происхождения клеточных органелл (глава 7), возможно, стоило бы упомянуть, что, в отличие от митохондрий, хлоропласты возникали как минимум дважды: первичный хлоропласт есть у амёбы Paulinella, причем он отсутствует у ее ближайших родственников и, по всей видимости, возник независимо от хлоропласта предка красных и зеленых водорослей. Похоже, раннее состояние грядущего приобретения хлоропласта наблюдается у эвглены, которая может иметь или не иметь симбиотическую внутриклеточную цианобактерию: при делении цианобактерия остается у одной из дочерних клеток, а вторая становится хищником до тех пор, пока не приобретет новую (до того – свободноживущую) цианобактерию. Еще более интересен вопрос о границе между органеллами и внутриклеточными бактериальными эндосимбионтами сосущих насекомых, которые могут иметь очень маленький геном, по величине сравнимый с геномом органелл (скажем, геном Carsonella ruddii, эндосимбионта листоблошки Pachypsylla venusta, кодирует всего 182 белка, а геном Tremblaya princeps, одного из эндосимбионтов мучнистого червеца Planococcus citri, – 121 белок, впрочем, внутри Tremblaya princeps живет еще один эндосимбионт – Moranella endobia с 406 белками). Думаю, критерием может служить экспорт в органеллу белков, кодируемых в ядерном геноме.

Стр. 234: «Единственные археи, обладающие более чем 5000 генов, обнаружены среди мезофилов (а именно, некоторых Methanosarcina), и до 20 процентов этих геномов содержат гены сравнительно недавнего бактериального происхождения». Действительно, доля бактериальных генов у метаносарцин больше, чем у других архей, но приведенная оценка представляется завышенной. Она взята из старых статей (начала тысячелетия), и причиной этой ошибки является то, что в это время число секвенированных геномов архей было мало. Соответственно, при поиске по базам данных у многих генов обнаруживались бактериальные, но не архейные гомологи. Воспроизведение использованной в этих работах процедуры, если бы она была применена к банкам данных, меняющимся по годам, показывает, что доля бактериальных генов в метаносарцинах монотонно падает (см. рисунок). Более аккуратная процедура с построением филогенетических деревьев для «подозрительных» генов приводит к оценке 6% (Garushyants & Gelfand, submitted).

При обсуждении ламарковской модели эволюции в главе 9 стоило бы упомянуть недавние работы (Dias & Ressler, 2014; Cortiho et al., 2014; Gapp et al., 2014), в которых показано наследование эпигенетических изменений и РНК. Впрочем, возможно, эти работы вышли уже после того, как работа над переводом была завершена. Вообще, эпигенетические механизмы интересно было бы обсудить и в разделе, посвященном геномной сложности у позвоночных в главе 8, – и почему только у позвоночных? Все упомянутые на стр. 271 механизмы имеются и у насекомых, и у растений. А если учесть, что многоклеточность у растений возникла независимо от многоклеточности у животных, можно обсуждать какие-то общие принципы увеличения сложности.

Горизонтальная ось – год GenBank. Вертикальная ось – оценка доли генов бактериального происхождения, горизонтально перенесенных в геномы Methanosarcina (зеленый) и Methanosarcinales (красный)
Горизонтальная ось – год GenBank. Вертикальная ось – оценка доли генов бактериального происхождения, горизонтально перенесенных в геномы Methanosarcina (зеленый) и Methanosarcinales (красный)
  1. Dias BG, Ressler KJ. Parental olfactory experience influences behavior and neural structure in subsequent generations. Nat Neurosci. 2014; 17(1): 89-96.
  2. Cortijo S, Wardenaar R, Colomé-Tatché M, Gilly A, Etcheverry M, Labadie K, Caillieux E, Hospital F, Aury JM, Wincker P, Roudier F, Jansen RC, Colot V, Johannes F. Mapping the epigenetic basis of complex traits. Science. 2014; 343(6175): 1145-1148.
  3. Gapp K, Jawaid A, Sarkies P, Bohacek J, Pelczar P, Prados J, Farinelli L, Miska E, Mansuy IM. Implication of sperm RNAs in transgenerational inheritance of the effects of early trauma in mice. Nat Neurosci. 2014; 17(5): 667-669.

Добавить комментарий

Ваш адрес email не будет опубликован.

Оценить: