В биологии прокариот обычно описывает микроорганизм, у которого отсутствует отдельное мембраносвязанное ядро, а генетический материал которого содержится в одной молекуле ДНК. К ним относятся бактерии и археи.NCBI управляет конвейером аннотации генома прокариот — высокопроизводительной программной системой, предназначенной для анализа последовательностей генов этих микроорганизмов.
По мере того, как становится доступным все больше высококачественных геномов — а стоимость секвенирования продолжает падать — потребность в высокопроизводительных конвейерах анализа и аннотаций невозможно переоценить.Последним достижением стало то, что NCBI включил GeneMarkS + Технологического института Джорджии в систему PGAP. GeneMarkS +, разработанный командой Марка Бородовского из Технологического института Джорджии, представляет собой самообучающийся инструмент машинного обучения для идентификации новых генов, который может сочетать внутренние свидетельства, обнаруженные с помощью паттернов геномных последовательностей, с внешними свидетельствами, полученными из уже аннотированных геномов.«Новая система позволяет исследователям получать критически важный анализ, который последовательно объединяет информацию из всех источников доказательств почти в реальном времени, а не в днях и неделях», — сказал Бородовский, профессор Regents, одновременно работающий в Школе вычислительных наук и инженерии. и Департамент биомедицинской инженерии Коултера. «Наша группа рада быть частью всей команды, работающей над этим проектом с высокой международной известностью».
До внедрения GeneMark + в конвейер система могла обрабатывать только 20 аннотаций в день.«Доктор Бородовский работал в тесном сотрудничестве с командой Татьяны Татусовой в NCBI, чтобы включить и усовершенствовать GeneMarkS + в контексте конвейера аннотаций NCBI», — сказал Джим Остелл, руководитель отдела информационной инженерии NCBI. «Он обеспечивает критически важную базовую инфраструктуру для NCBI и пользователей ресурсов NCBI».PGAP использует GeneMarkS + в сочетании с протеомными доказательствами, полученными из больших групп ортологичных кластеров генов, представляющих комплемент корового белка для хорошо аннотированных видов. По мере того, как новые организмы секвенируются, PGAP корректируется путем анализа существующей информации о белках для создания новых кластеров основных белков, итеративно улучшая его аннотацию на основе постоянно растущего количества доступных доказательств из представленных бактериальных геномов.
Новая система предлагает модульную структуру, позволяющую легко расширять ее с помощью новых алгоритмов. PGAP также обеспечивает обширное отслеживание выполнения и принятия решений и, таким образом, позволяет легко проследить, чтобы понять доказательства, лежащие в основе ключевых алгоритмических решений.
Процесс PGAP описан на http://www.ncbi.nlm.nih.gov/genome/annotation_prok/process/PGAP производит высококачественные аннотации, разработанные в соответствии со стандартами INSDC для представления последовательностей, и следует рекомендациям UniProt по именованию.
PGAP доступен в NCBI для бактериальных геномов как часть представления последовательностей GenBank, что делает его ценным ресурсом для исследователей во всем мире.