Научный журнал
Фундаментальные исследования
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

ВЫЯВЛЕНИЕ СВЯЗИ СТРУКТУРЫ И ТАКСОНОМИИ ГЕНОМОВ ХЛОРОПЛАСТОВ МЕТОДОМ ДИНАМИЧЕСКИХ ЯДЕР

Садовский М.Г. 1 Чернышова А.И. 2
1 ФГБУН «Институт вычислительного моделирования» Сибирского отделения Российской академии наук
2 ФГАОУ «Сибирский федеральный университет»
Представлены предварительные результаты исследования связи геномов хлоропластов с геномами организмов-носителей. 251 геном хлоропластов преобразовывался в частотные словари триплетов, затем в 63-мерном пространстве этих частот строилась классификация методом динамических ядер (до восьми классов). Полученные классы сравнивались по своему составу. Установлено, что видовой состав полученных классов не случаен: группы, полученные при делении, содержат эволюционно близкие группы геномов. Состав классов, выделяемых методом динамических ядер, оказался весьма устойчивым: доля волатильных геномов не превышала 20 % в худшем случае. Эта корреляция доказывает факт сильной синхронии в эволюции геномов хлоропластов и соматических геномов, поскольку кластеризация в пространстве частот проводилась по геномам хлоропластов, а определение таксономической близости – по морфологическим признакам (т.е. по соматическому геному).
порядок
триплет
частота
классификация
корреляция
таксономия
эволюция
1. Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере. – Новосибирск: Наука, 1996. – 275 с.
2. Fukunaga K. Introduction to statistical pattern recognition. – 2nd ed. – Academic Press: London. – 591 p.
3. Горбань А.Н, Попова Т.Г, Садовский М.Г. Классификация нуклеотидных последова­тельностей по частотным словарям обнаруживает связь между их структурой и таксо­номическим положением организмов // Журнал общей биол. – 2003. – т. 64, № 5. – С. 16–21.
4. Садовский М.Г. О фундаментальной связи геномов митохондрий с геномами организмов-носителей // Фундаментальные исследования. – 2014. – № 9 (ч. 4). – С. 781–783.
5. Gorban A.N., Zinovyev A.Y. Principal manifolds and graphs in practice: from molecular biology to dynamical systems // Int. J. of Neural Systems. – 2010. – Vol. 20. – № 3. – Р. 219–232.

Настоящая работа посвящена рассмотрению связи между структурой и таксономией носителей геномов на примере хлоропластов. Хлоропласты – это зеленые пластиды, по форме напоминающие двояковыпуклую линзу, как и митохондрии, способные к автономному размножению путём деления. Хлоропласт имеет собственную ДНК, которая представляет собой замкнутую кольцевую двуспиральную молекулу и рибосомы 70S-типа. Основная функция хлоропласта в организме состоит в обеспечении процессов фотосинтеза.

В настоящей работе исследуются геномы хлоропластов. Выбор таких генетических объектов обусловлен, прежде всего, тем, что у них одинаковая функция. Во-вторых, геномы хлоропластов имеют сравнительно малый размер (? 105 п.н.). Целью настоящей работы является установление связи между таксономией носителя хлоропласта и близостью двух (или более) геномов хлоропластов, определяемой исключительно по частотам встречающихся в них триплетов. Анонсируя основной результат, скажем, что такая связь выявлена; она является сильным доказательством синхронизации эволюции двух генетических систем, поскольку нуклеарный геном (определяющий таксономию организма) и геном хлоропласта непосредственно друг с другом не связаны.

Введём основные понятия. Под структурой будет пониматься частотный словарь толщины 3-символьной последовательности, соответствующей ДНК – список всех троек ν1ν2ν3 идущих подряд символов с указанием их частот; всего бывает 64 триплета. Частота – отношение числа копий nω данного слова к общему числу всех триплетов:

sadov01.wmf

Всякий частотный словарь отображает геном в 64-мерное метрическое пространство; близость двух геномов задается естественным образом – например, как близость двух точек в той или иной метрике. В данной работе использовалась Евклидова метрика. Один из 64 триплетов исключался, поскольку сумма всех частот в словаре равна 1. Формально исключить можно любой триплет, однако исключался тот, для которого стандартное отклонение, наблюдаемое по анализируемой выборке геномов, является минимальным. Для выявления структурной близости необходимо выделить в этом 63-мерном метрическом пространстве группы точек (геномов), которые образуют чётко выявляемые кластеры. Под таксономией понимается классическая классификация организмов по их морфологическим признакам. Следует заметить, что она определяется по соматическому (нуклеарному) геному. Тем самым связь между структурой и таксономией заключается в выявлении распределения видов, родов, семейств и т.д. по кластерам, выделяемым исключительно по частотным характеристикам рассматриваемых геномов.

Материалы и методы исследования

Данные для исследования брались на сайте www.ebi.ac.uk/genomes/organelles в базе EMBL-банка (релиз от 10 июня 2014 года). В этом релизе представлен 541 геном хлоропластов. Структура базы данных оказывает очень сильное влияние на результаты. Формальное применение методов кластеризации ко всей базе данных не приводит к построению сколько-нибудь содержательной классификации. Это связано с тем, что во всей базе данных многие таксоны высокого уровня (отряд, класс и/или выше) представлены единственным геномом (видом), а это приводит к сильнейшей «интерференции сигналов», в результате чего кластеризация не наблюдается. Для изучения связи между структурой и таксономией общую базу данных разбили на несколько отдельных подбаз. А именно, были сформированы базы частотных словарей, содержащие более 4 видов, 3 и более видов.

Кластеризацию геномов изучали методом динамических ядер. Этот метод состоит в следующем: пусть есть некоторое множество F, состоящее из подмножеств {M}. Разобьем все точки F произвольно на K классов. Для каждого класса определяем ядро (среднее арифметическое):

sadov02.wmf

Здесь индекс i (1 ≤i ≤ M(j)) перечисляет элементы класса; понятно, что среднее арифметическое определяется для каждого триплета v1v2v3. Затем для всех точек и для каждого ядра вычислим расстояние от точки до каждого из ядер:

sadov03.wmf

Индекс i теперь перечисляет все полученные классы 1 ≤ i ≤ K, а индекс l перечисляет все точки множества, вне зависимости от того, к какому классу она принадлежит.

Если точка из класса А оказалась ближе к ядру класса В, то её переопределяют в этот класс. Затем снова вычислим ядра. Опять проверим все точки и так до тех пор, пока все точки не «успокоятся» – перестанут переходить из класса в класс. Они почти наверняка успокаиваются: для того, чтобы точка оказалась всё время блуждающей, нужно, чтобы точки крайне неслучайно были размещены в пространстве (см. также [1–4]).

Результаты исследования и их обсуждение

Известно, что метод динамических ядер не даёт – в общем случае – единственности построения классификации: результат зависит от начального распределения геномов по классам (которое каждый раз определяется случайным образом). Другой проблемой является определение минимального числа классов, на которое следует разделить геномы. Также не проверялась различимость классов, построенных методом динамических ядер.

Максимальное число классов, на которые разбивалось множество всех геномов, ограничивалось восемью; с одной стороны, данное ограничение носило технический характер, а с другой – кластеризация методом упругих карт [5] выделяла восемь кластеров. Тем самым естественным было остановиться на восьми кластерах как на предельном числе разбиений.

Кластеризацию методом динамических ядер можно проводить двумя способами; назовём их условно «сверху вниз» и «снизу вверх». Первый способ состоит в следующем: на первом шаге выделяем два кластера; на следующем – каждый из полученных кластеров также делим на два (либо три) кластера и так далее, до «остановки». Второй способ заключается в том, чтобы последовательно делить исходное множество на 2, 3, …, L классов, а затем проследить судьбу геномов из j-го класса (1 ≤ j ≤ R) при переходе от разбиения на R классов к разбиению на R – 1 класс; здесь L = max{R}. В рамках настоящей работы мы использовали этот второй способ («снизу вверх»).

Поскольку кластеризация методом динамических ядер зависит от начального (случайного) распределения геномов по классам, постольку результирующая кластеризация может оказаться неустойчивой: заметная доля геномов может оказаться волатильной, т.е. постоянно менять свою принадлежность к классу. В нашем случае доля волатильных геномов была невелика.

pic_58.tif

Рис. 1. Распределение таксонов высокого уровня растений, которые кластеризировались существенно неслучайно

При построении классификации «снизу вверх» возможны два диаметрально противоположных варианта: граф, соответствующий классификации, является деревом – первый вариант; во втором варианте: граф, соответствующий классификации, является полносвязным. Первый случай означает, что геномы, попадающие в какой-либо из кластеров при кластеризации на R кластеров целиком вложен в какой-то из кластеров, получающихся при кластеризации на R – 1 кластер. Второй случай, напротив, означает, что геномы из упомянутого кластера, полученного при кластеризации на R кластеров, (более или менее) равномерно распределяются между всеми R – 1 кластерами, получающимися при построении кластеризации с R – 1 кластером.

В нашем случае было обнаружено, что соответствующий результатам классификации граф можно представить в виде двух подграфов: первый подграф представляет собой дерево, а второй граф обладает циклами. В первый подграф, представляющий собой дерево, входили 7 таксономических групп: в первую входили Caryophyllaceae, Chrysanthenum, Chrysobalanaceae, Cucumis, Fragaria, Gossipium, Liliaceae, Silene; во вторую – Euglena, в третью – Nannochloropsis, Monodopsidaceae; в четвертую – Camellia, Corymbia, Cymbidium, Eucaliptus, Gingko, Magnolia, Nelumbo, Nicotiana, Olea, Picea, Pinus, Solanum, Vitis; в пятую – Hordeum, Oenothera, Oryza, Phyllostachys, Triticum; в шестую – Ostreococcus и в седьмую – Cupressaceae, Glycine и Taxus.

На рис. 1 показана кластеризация, в результате которой образовывались устойчивые (по таксономическому составу) классы; показано распределение таксонов высокого уровня. Интересно поведение зеленых растений из третьей группы, которые на протяжении всей кластеризации не меняют свой состав, и только при разбиении на три группы к ним присоединяются другие виды: страменопилы, гаптофитовые водоросли (гаптофиты) и евгленозои. Виды растений из седьмой группы, наоборот, распадаются, затем впоследствии снова сливаются в том же составе, и позже к ним присоединяются гаптофиты, зеленые растения, страменопилы и евгленозои.

pic_59.tif

Рис. 2. Распределение родов и семейств растений, которые кластеризировались весьма устойчиво

pic_60.tif

Рис. 3. Распределение видов с большей волатильностью между классами

На рис. 2 показано распределение видов и родов по классам, полученным в результате кластеризации методом динамических ядер для случая, в котором виды образовывали очень устойчивые комбинации: эти комбинации всегда как целое попадали в один и тот же класс. Аналогично рис. 3 показывает распределение видов, показавших меньшую устойчивость при кластеризации. Высоко упорядоченное распределение видов и родов растений по классам, определяемым лишь частотами триплетов в геномах хлоропластов, безусловно доказывает факт сильной синхронизации в эволюции двух генетических систем – нуклеарной и геномов хлоропластов.

Рецензенты:

Барцев С.И., д.ф.-м.н., профессор, зав. лабораторией теоретической биофизики Института биофизики СО РАН, г. Красноярск;

Кратасюк В.А., д.б.н., профессор, зав. кафедрой биофизики Института фундаментальной биологии и биотехнологии, Сибирский федеральный университет, г. Красноярск.

Работа поступила в редакцию 10.10.2014.


Библиографическая ссылка

Садовский М.Г., Чернышова А.И. ВЫЯВЛЕНИЕ СВЯЗИ СТРУКТУРЫ И ТАКСОНОМИИ ГЕНОМОВ ХЛОРОПЛАСТОВ МЕТОДОМ ДИНАМИЧЕСКИХ ЯДЕР // Фундаментальные исследования. – 2014. – № 11-3. – С. 545-549;
URL: https://fundamental-research.ru/ru/article/view?id=35558 (дата обращения: 29.03.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674