Том 17, № 1

Статья посвящена 50-летию быстрых методов секвенирования ДНК, начиная с пионерной разработки Ф.Сэнгера в 1975 г. Прослежена эволюция технологий секвенирования от методов первого поколения (ферментативный метод Сэнгера и метода химической деградации Максама-Гильберта) до высокопроизводительных методов, среди которых методы второго поколения (NGS – next generation sequencing), рассчитанные на массовое параллельное секвенирование (МПС) - пиросеквенирование, полупроводниковое секвенирование, лигазное секвенирование, флуоресцентное секвенирование с короткими прочтениями, а также мономолекулярные методы секвенирования, включающие флуоресцентное секвенирование с длинными прочтениями, а также нанопоровое секвенирование с ультрадлинными прочтениями. Особое внимание уделено переходу от квазигеномов к полным диплоидным геномам с фазированной сборкой гаплотипов в формате T2T без промежутков, что обеспечивает точное установление связи генотипа с фенотипом. Рассматриваются современные достижения, включая снижение стоимости секвенирования в миллионы раз и увеличение длины прочтения до миллионов пар нуклеотидов. Перспективы развития связаны с созданием еще более производительных технологий пятого поколения и широким внедрением фазированной сборки геномов. Статья подчеркивает революционное значение секвенирования ДНК для наук о Жизни и необходимость отказа от устаревших подходов в виде сборки квазигеномов. В статье отмечается, что геномная революция продолжается, и ее потенциал еще далеко не исчерпан.
В результате секвенирования все большего числа геномов любой природы (ядерных, хлоропластных, а также и митохондриальных) стало очевидно, что ни один референсный геном того или иного вида не отражает все генетическое разнообразие, присущее этому виду, вследствие чего стало развиваться секвенирование геномов нескольких образцов конкретного вида и составляться так называемые пангеномы, а геномика по сути стала превращаться пангеномику. Полных ядерных геномов растений секвенировано уже у более чем полутора тысяч видов, полные пластомы секвенированы у более чем 13 тысяч видов, тогда как полные митогеномы секвенированы у менее чем 300 видов растений. Причиной такого «отставания» в секвенировании митогеномов растений служат их большие размеры по сравнению с пластомами (в среднем около 400 тысяч п.н.), трудности сборки прочитанных нуклеотидных последовательностей ввиду множества повторяющихся элементов, а также меньшая ясность их структурной организации и активные рекомбинационные процессы. Несмотря, на главным образом, матрилинейное наследование митогеномов и пластомов – это разные генетические системы со своими скоростями эволюции, разными мутационными и рекомбинационными процессами и может быть полезным сравнение близкородственных видов с построением филогенетических древ по геномам обеих органелл. Причем весьма важно знать внутривидовой полиморфизм нуклеотидных последовательностей митогеномов, что ведет к составлению пан-митогеномов, которых для растений составлено пока совсем немного. Так, составлен пан-митогеном для рапса и супер пан-митогеном для ряда видов цитрусовых. Помимо них еще для 20 видов секвенированы по два и более митогенома, что можно считать пангеномным подходом. И в этом митогеномы растений сильно отстают, тогда как ядерных пангеномов растений составлено около полутора сотен, а панпластомы составлены для трех десятков видов и еще у 130 видов секвенированы множественные пластомы.
The first review of plant pan-plastomes has been prepared. While complete chloroplast genomes have already been sequenced for several thousand species, there are currently only about three dozens of presented pan-plastomes. There are publications though, in which the term "pan-plastome" was not used, but in fact the pan-approach was applied to the sequenced multiple chloroplast genomes. The importance of the use of pan-plastomes for phylogenetic studies is noted, since in this case intraspecific differences are taken into account. The need for the compilation and use of consensus plastomes or con-plastomes, which contain only the most frequently occurring major mutations compared to the reference chloroplast genome, is emphasized, as this can lead to a more accurate inference of evolutionary events. Some attention is paid to the terminology used, including historical aspects. A point of view is expressed that more attention should be paid to the sequencing and compilation of plant pan-plastomes.
In 2000, a major breakthrough occurred in plant genomics: an article was published reporting the sequencing of the first plant genome, which belonged to Arabidopsis thaliana and had a size of just over 100 million bp. Over the next quarter century, the era of DNA sequencing has yielded approximately 4 thousand genomes of different assembly levels for approximately 2 thousand plant species. Thus, due to the development of DNA sequencing technologies, genomes have begun to be assembled at the chromosomal level from "telomere to telomere," which is termed "T2T sequencing." More than 2 decades later, the Arabidopsis genome was assembled in T2T format, but earlier, similar T2T genomes had been assembled for rice Oryza sativa and banana Musa acuminata. A T2T genome of bread hexaploid wheat Triticum aestivum, with a size of 14.5 billion bp, more than 100 times the size of the Arabidopsis genome, was assembled recently. A total of 166 plant T2T genomes have already been sequenced for 108 plant species from 80 genera. At the same time, most T2T genomes are characterized by mosaic consensus assembly; therefore, T2T plant genomes with phased assembly by haplotypes and T2T pangenomes with similar phased assembly are of greater interest. This is because it is important to know all gene alleles of crossed or edited specimens for breeding and genomic editing.
The concept of plant pangenomes appeared in 2007, but the preliminary pangenomes of corn and soybeans were created in 2010. First pangenomes of three plant species (Brassica rapa, Glycine soja, and Oryza sativa) were constructed only in 2014. In 2016, several species from Populus and Oryza were used to construct pangenomes for these genera, which formally made those pangenomes super-pangenomes long before the concept of super-pangenomes was described in 2020, already dealing with a taxon having the rank of genus. In the same year (2020), the first Malus pangenome was constructed based on sequenced genomes with phased assembly of haplotypes, and because two more wild apple tree species were involved, that phased pangenome also became a Malus super-pangenome. In 2022, hyper-pangenomes were generated for representatives of genera Musa and Ensete of the Musaceae as well as a Citrus hyper-pangenome using data on genomes of several genera from the Rutaceae. To date, more than 150 pangenomes of all these types have been constructed, and there is a clear growth trend in the number of pangenomes being built. At the same time, it can be predicted that the number of conventional pangenomes will grow at a slower rate than that of phased super-pangenomes because the latter are of the greatest interest for breeding to create varieties of agricultural plants that are high-yielding and resistant to adverse environmental factors. The reason for this interest in plant pangenomes is that reference genomes of individual species, owing to mosaic assembly of determined nucleotide sequences, no longer satisfy the needs of breeders because these data are essentially incomplete information about genomic diversity characteristic of a species/genus or a group of closely related genera of the same family in the form of a gene repertoire consisting of different categories of genes: core, softcore, disposable, and private genes. Although the first two categories mostly ensure the main metabolism, the other two are responsible for secondary metabolism and largely determine the diversity of forms, e.g., by allowing a plant to adapt to its changing environmental conditions. It can be said that agricultural science has already entered the pangenomic era. The most correct selection of different cultivars for breeding should now be based on pangenomic data (including super- and hyper-pangenomes) constructed on the basis of a chromosomal assembly of diploid genomes with phased haplotypes. In fact, genomics, even if it retains its former name, should ideologically turn into pangenomics.
The first complete genome of the plant Arabidopsis thaliana was sequenced a quarter of a century ago, but it took another decade and a half to get it reassembled as a diploid genome in the form of haplotypes. Since then by the end of 2024, functionalized diploid genomes with phased assembly have been sequenced for 258 samples representing 143 species of higher plants belonging to 95 genera from 50 families, and the results have been published in 198 articles. Diploid genomes have been sequenced for species of different ploidy, among which most species are diploids, but there are also triploids, tetraploids, hexaploids, several octaploids, and even nonaploids. Already 30 diploid genomes of different plant species have been assembled at the T2T gapless level. For 7 plant species, the diploid genomes are already supplemented by pangenomes, and for two genera, by a super-pangenome. A noticeable increase in the number of genomes with phased assembly of plant haplotypes occurred in the last couple of years, explained by the improvement of DNA sequencing technologies of new generations and by awareness of the need for such information. Interest in phased genome assembly can be attributed to the fact that currently sequenced genomes are essentially quasi-genomes in which fragments of maternal and paternal genomes are interspersed in a mosaic manner, which makes it difficult to identify genotype–phenotype relationships. In most articles describing the phased assembly of haplotyped genomes, it is emphasized that knowledge of nucleotide sequences of a complete set of chromosomes facilitates determination of biosynthesis pathways of various secondary metabolites and the understanding of mechanisms of heterosis manifestation, allows to improve resistance to various pathogens and adaptability to adverse environmental factors, and helps to determine sex in dioecious plants, to develop advanced breeding programs, and to identify processes that took place during domestication. It can be confidently stated that the genomics of higher organisms and plants in particular has entered the era of sequencing of diploid genomes, despite much greater difficulties with obtaining valid results. At the same time, more than 5,000 plant quasi-genomes are already known for approximately 2 thousand species; however, such quasi-genomes, devoid of phased assembly and consisting of mosaic fragments of parental chromosomes, serve only as a necessary stage of analysis in those species whose genomes have not yet been sequenced in order to subsequently assemble haplotypes in a phased manner by means of chromosomes at the T2T gapless level. The latter is a higher level of establishing the structure of genomes and of their annotation.
Начало эры секвенирования полных ядерных геномов высших растений совпало с началом нового тысячелетия, и за прошедшие четверть века достигнут большой прогресс в плане количества секвенированных геномов растений, которых насчитывается уже более 5 тысяч, принадлежащих приблизительно 2 тысячам видов. Однако подавляющее большинство секвенированных геномов представляют собой квазигеномы с консенсусными нуклеотидными последовательностями начала века, в виде мозаичной композитной сборки участков парных хромосом. При этом достигнутый не так давно уровень по-хромосомной сборки геномов, в том числе T2T (от теломеры до теломеры), несущей больше генетической информации, распределенной по отдельным хромосомам, включая теломеры и центромеры, тем не менее, сохраняет их мозаичный характер. Десятилетие назад для растений появились первые результаты по геномным последовательностям с фазированной сборкой гаплотипов, представляющие собой новый уровень знаний о геномах, в гораздо большей степени позволяющей проследить связь генотипа с фенотипом. Но подобных геномов собрано пока не так много. Со временем стало ясно, что один референсный геном для любого вида никак не соответствует огромному разнообразию полиморфизма ДНК, и тогда на сцену вышел пангеном вида, а вслед за ним и супер-пангеном рода. Однако пангеномов, супер-пангеномов составлено тоже пока не так много, но при этом уже есть таковые, опирающиеся на знания фазированных диплоидных геномов растений разных уровней плоидности, прошедших функциональную диплоидизацию. В данной статье представлено эволюционное развитие полногеномных исследований в виде улучшаемых сборок нуклеотидных последовательностей, особенностью которого является упоминание только тех геномов растений, которые соответствовали достигнутому уровню сборки в каждый отрезок времени, но при достижении нового порога «качества» генома приводятся лишь только геномы очередных уровней сборок, а геномы прежних уровней, которые продолжают секвенировать и дальше, уже игнорируются.
На 2025 год приходятся две юбилейные даты в связи с секвенированием ДНК вообще и ядерных геномов растений в частности. Так, 50 лет назад был разработан относительно быстрый метод секвенирования ДНК, получивший название «плюс/минус» метод, который вскоре сменился двумя другими еще более быстрыми методами. Общим для них всех стало разделение продуктов секвенирующих реакций высоковольтным гель-электрофорезом. Спустя три десятилетия для повышения производительности секвенирования ДНК потребовалось разрабатывать уже неэлектрофоретические методы и таких появилось немало. При этом продолжается их совершенствование и разработка новых. 25 лет назад был секвенирован первый растительный (ядерный) геном сорного растения арабидопсиса Arabidopsis thaliana, для которого была характерна мозаичная сборка фрагментов парных хромосом. За год и за три года до этого у арабидопсиса же были секвенированы хлоропластный и митохондриальный геномы соответственно. Лишь спустя много лет для арабидопсиса был прочитан диплоидный геном с фазированной сборкой по гаплотипам и составлен ядерный пангеном, идущий на смену устаревающим референсным геномам. Однако ни панпластом, ни панмитогеном для этого модельного вида растений, коим является арабидопсис, еще не составлены. При этом геномика должна, по сути, превратиться пангеномику, в том числе опираясь на знания гаплотипов, поскольку концепция референсного генома уже себя изжила и его можно образно сравнить с одиноким уличным фонарем, освещающим лишь небольшое пространство, дальше которого не видно ни зги, тогда как пангеном несет в себе информацию о пуле генов, характерном для конкретного вида. Фактически растительной клеткой управляет триада геномов из ядерного, митохондриального и хлоропластного и их все необходимо секвенировать, в том числе принимая во внимание внутривидовой полиморфизм ДНК.

Обратный звонок
Представьтесь, мы вам перезвоним.
Ваша заявка успешно отправлена!
Необходимо принять условия соглашения
Вы заполнили не все обязательные поля
Произошла ошибка, попробуйте ещё раз