banner
Центр новостей
Наши совместные усилия принесут удовлетворительный результат.

Конвейеры метагеномного профилирования улучшают таксономическую классификацию данных секвенирования 16S ампликона.

Aug 06, 2023

Научные отчеты, том 13, Номер статьи: 13957 (2023) Цитировать эту статью

8834 Доступа

122 Альтметрика

Подробности о метриках

Большинство экспериментов по изучению бактериальных микробиомов основаны на ПЦР-амплификации всего или части гена субъединицы 16S рРНК, который служит биомаркером для идентификации и количественного определения различных таксонов, присутствующих в образце микробиома. Существует несколько вычислительных методов для анализа секвенирования 16S-ампликона. Однако наиболее используемые инструменты биоинформатики не могут производить высококачественные таксономические запросы на уровне рода или вида и могут недооценивать потенциальную точность этих вызовов. Мы использовали данные секвенирования 16S из ложных бактериальных сообществ, чтобы оценить чувствительность и специфичность нескольких биоинформатических конвейеров и геномных справочных библиотек, используемых для анализа микробиома, концентрируясь на измерении точности таксономических присвоений на видовом уровне прочтений ампликона 16S. Мы оценивали инструменты DADA2, QIIME 2, Mothur, PathoScope 2 и Kraken 2 в сочетании со справочными библиотеками Greengenes, SILVA, Kraken 2 и RefSeq. Инструменты профилирования сравнивались с использованием общедоступных данных ложного сообщества из нескольких источников, включая 136 образцов с различным видовым богатством и однородностью, несколько различных амплифицированных областей в гене 16S рРНК, а также вставки ДНК и кДНК из коллекций высеянных клеток. PathoScope 2 и Kraken 2, оба инструмента, разработанные для полногеномной метагеномики, превзошли по производительности DADA2, QIIME 2 с использованием плагина DADA2 и Mothur, которые теоретически специализируются на анализе 16S. Оценки эталонных библиотек показали, что стандартные библиотеки SILVA и RefSeq/Kraken 2 превосходят по точности библиотеки Greengenes. Эти результаты подтверждают, что PathoScope и Kraken 2 являются полнофункциональными и конкурентоспособными вариантами для анализа данных секвенирования 16S ампликона на уровне рода и вида, полногеномного секвенирования и инструментов метагеномики данных.

Высокопроизводительное секвенирование значительно ускорило изучение микробиомики, то есть научной области, сосредоточенной на изучении состава, разнообразия и функций микробных сообществ и их взаимодействия с хозяевами или окружающей средой1. Характеристика состава микробных образцов обычно основана на амплификации последовательностей субъединиц рибосомы 16S, повсеместного гена с высококонсервативными участками. Субъединица упрощает выделение и амплификацию 16S рРНК с помощью установленных праймеров для ПЦР и гипервариабельных областей для установления идентичности и филогении. Секвенирование 16S рРНК и рДНК можно использовать для идентификации известных видов прокариот и действовать в качестве прокси для количественной оценки относительного содержания операционных таксономических единиц (OTU) в образцах микробиома.

Методы таксономического профилирования последовательностей генов рибосомальной РНК позволяют идентифицировать образцы OTU путем классификации последовательностей рРНК на таксономические группы. Хотя значительная точность идентификации на уровне вида достижима с помощью доступных инструментов2, современное программное обеспечение для профилирования данных секвенирования 16S-ампликона не позволяет идентифицировать вплоть до видового уровня. Вместо этого они группируют прочтения на основе сходства последовательностей для присвоения рода или идентификации более высокого уровня для повышения специфичности и чувствительности или напрямую используют последовательности с фильтрацией ошибок для таксономической классификации3,4. По мере расширения возможностей современных платформ секвенирования, а также расширения и совершенствования баз данных эталонных геномов бактерий появляется больше возможностей для достижения более высоких результатов анализа 16S с помощью альтернативных методов, которые чаще применяются в полногеномной метагеномике.

Наиболее распространенными программными пакетами, используемыми в настоящее время для анализа данных секвенирования 16S-ампликонов, являются DADA24, QIIME 25, его предшественник QIIME 26 и Mothur7. QIIME 2 и Mothur были первоначально разработаны вскоре после изобретения секвенирования следующего поколения и, наряду с QIIME 2, по существу следуют одному и тому же рабочему процессу: считывания обычно кластеризуются de novo на основе сходства последовательностей в операционные таксономические единицы (OTU) или OTU с шумоподавлением. (многие называют их вариантами последовательностей ампликонов или ASV) в зависимости от того, требуется ли полная идентичность последовательностей для кластеризации. Начальный этап кластеризации служит для 1) повышения эффективности вычислений за счет ограничения количества последовательностей, требующих сопоставления с большим набором эталонных геномов, и 2) учета низких уровней генетических вариаций, присутствующих в данном бактериальном штамме, тем самым уменьшая ошибки секвенирования. В течение почти десятилетия порог для включения OTU составлял 97% идентичности последовательностей8,9, но текущие рекомендации по отсечению сейчас составляют около 99–100% идентичности последовательностей3,10, обычно после той или иной формы шумоподавления или другой коррекции ошибок секвенирования4,11.

 128 GB) and runtimes on the order of several hours, whereas Kraken 2 in particular took mere minutes. Issues aside, PathoScope is likely to outperform QIIME 2, DADA2, and Mothur in identification regardless of the database used. This finding partly results from PathoScope’s Bayesian mixed modeling identification algorithm, which accounts for the possibility that multiple species can be present in the sample or that the target strain is not present in the reference database. PathoScope consistently outperformed Kraken 2 in most cases, although the difference was often slight and not statistically significantly better. Overall, these comparisons show that methods designed for general metagenomics analyses consistently outperform methods specifically designed for analyzing 16S data./p>