Конвейеры метагеномного профилирования улучшают таксономическую классификацию данных секвенирования 16S ампликона.
Научные отчеты, том 13, Номер статьи: 13957 (2023) Цитировать эту статью
8834 Доступа
122 Альтметрика
Подробности о метриках
Большинство экспериментов по изучению бактериальных микробиомов основаны на ПЦР-амплификации всего или части гена субъединицы 16S рРНК, который служит биомаркером для идентификации и количественного определения различных таксонов, присутствующих в образце микробиома. Существует несколько вычислительных методов для анализа секвенирования 16S-ампликона. Однако наиболее используемые инструменты биоинформатики не могут производить высококачественные таксономические запросы на уровне рода или вида и могут недооценивать потенциальную точность этих вызовов. Мы использовали данные секвенирования 16S из ложных бактериальных сообществ, чтобы оценить чувствительность и специфичность нескольких биоинформатических конвейеров и геномных справочных библиотек, используемых для анализа микробиома, концентрируясь на измерении точности таксономических присвоений на видовом уровне прочтений ампликона 16S. Мы оценивали инструменты DADA2, QIIME 2, Mothur, PathoScope 2 и Kraken 2 в сочетании со справочными библиотеками Greengenes, SILVA, Kraken 2 и RefSeq. Инструменты профилирования сравнивались с использованием общедоступных данных ложного сообщества из нескольких источников, включая 136 образцов с различным видовым богатством и однородностью, несколько различных амплифицированных областей в гене 16S рРНК, а также вставки ДНК и кДНК из коллекций высеянных клеток. PathoScope 2 и Kraken 2, оба инструмента, разработанные для полногеномной метагеномики, превзошли по производительности DADA2, QIIME 2 с использованием плагина DADA2 и Mothur, которые теоретически специализируются на анализе 16S. Оценки эталонных библиотек показали, что стандартные библиотеки SILVA и RefSeq/Kraken 2 превосходят по точности библиотеки Greengenes. Эти результаты подтверждают, что PathoScope и Kraken 2 являются полнофункциональными и конкурентоспособными вариантами для анализа данных секвенирования 16S ампликона на уровне рода и вида, полногеномного секвенирования и инструментов метагеномики данных.
Высокопроизводительное секвенирование значительно ускорило изучение микробиомики, то есть научной области, сосредоточенной на изучении состава, разнообразия и функций микробных сообществ и их взаимодействия с хозяевами или окружающей средой1. Характеристика состава микробных образцов обычно основана на амплификации последовательностей субъединиц рибосомы 16S, повсеместного гена с высококонсервативными участками. Субъединица упрощает выделение и амплификацию 16S рРНК с помощью установленных праймеров для ПЦР и гипервариабельных областей для установления идентичности и филогении. Секвенирование 16S рРНК и рДНК можно использовать для идентификации известных видов прокариот и действовать в качестве прокси для количественной оценки относительного содержания операционных таксономических единиц (OTU) в образцах микробиома.
Методы таксономического профилирования последовательностей генов рибосомальной РНК позволяют идентифицировать образцы OTU путем классификации последовательностей рРНК на таксономические группы. Хотя значительная точность идентификации на уровне вида достижима с помощью доступных инструментов2, современное программное обеспечение для профилирования данных секвенирования 16S-ампликона не позволяет идентифицировать вплоть до видового уровня. Вместо этого они группируют прочтения на основе сходства последовательностей для присвоения рода или идентификации более высокого уровня для повышения специфичности и чувствительности или напрямую используют последовательности с фильтрацией ошибок для таксономической классификации3,4. По мере расширения возможностей современных платформ секвенирования, а также расширения и совершенствования баз данных эталонных геномов бактерий появляется больше возможностей для достижения более высоких результатов анализа 16S с помощью альтернативных методов, которые чаще применяются в полногеномной метагеномике.
Наиболее распространенными программными пакетами, используемыми в настоящее время для анализа данных секвенирования 16S-ампликонов, являются DADA24, QIIME 25, его предшественник QIIME 26 и Mothur7. QIIME 2 и Mothur были первоначально разработаны вскоре после изобретения секвенирования следующего поколения и, наряду с QIIME 2, по существу следуют одному и тому же рабочему процессу: считывания обычно кластеризуются de novo на основе сходства последовательностей в операционные таксономические единицы (OTU) или OTU с шумоподавлением. (многие называют их вариантами последовательностей ампликонов или ASV) в зависимости от того, требуется ли полная идентичность последовательностей для кластеризации. Начальный этап кластеризации служит для 1) повышения эффективности вычислений за счет ограничения количества последовательностей, требующих сопоставления с большим набором эталонных геномов, и 2) учета низких уровней генетических вариаций, присутствующих в данном бактериальном штамме, тем самым уменьшая ошибки секвенирования. В течение почти десятилетия порог для включения OTU составлял 97% идентичности последовательностей8,9, но текущие рекомендации по отсечению сейчас составляют около 99–100% идентичности последовательностей3,10, обычно после той или иной формы шумоподавления или другой коррекции ошибок секвенирования4,11.