Как названия организмов помогают превратить «маленькие данные» в «большие данные»

Представление о науке «большие данные» трансформируется с помощью вычислительных ресурсов для сбора, управления и анализа огромного потока информации, поступающей от новых технологий, инфраструктурных проектов для оцифровки физических ресурсов (таких как наша литература из Библиотеки наследия биоразнообразия) или цифровых версий. образцов и записей об образцах из музеев.Увеличенная пропускная способность сделала возможным диалог между распределенными центрами обработки данных, и именно так рождается новое понимание биологии. В случае наук о биоразнообразии центры обработки данных варьируются по размеру от большого GenBank для молекулярных записей и Глобального информационного фонда по биоразнообразию для записей о встречах видов до длинного хвоста из десятков тысяч меньших наборов данных и веб-сайтов, которые несут информацию. составлено частными лицами, исследовательскими проектами, финансирующими агентствами, местными, государственными, национальными и международными правительственными агентствами.Крупные биологические хранилища еще не приблизились к масштабам астрономии и ядерной физики, но очень большое количество источников в длинном хвосте полезных ресурсов действительно ставит перед специалистами по информатике биоразнообразия серьезную проблему — как обнаружить, проиндексировать, организовать и связать информация содержится в очень большом количестве локаций.

В этом отношении биологии повезло, что с середины 18 века сообщество приняло использование латинских биномов, таких как Homo sapiens или Ba humbugi, для обозначения видов. Все названия перечислены систематиками. Инструменты распознавания имен могут обращаться к большим экспертным подборкам имен (Catalog of Life, Zoobank, Index Fungorum, Global Names Index) для поиска совпадений в источниках цифровой информации.

Это позволяет быстро индексировать контент.Даже когда мы не знаем имени, мы можем «открыть» его, потому что научные имена имеют определенные отличительные характеристики (написаны курсивом, чаще всего два последовательных слова в латинизированной форме, причем первое — с большой буквы). Эти свойства позволяют обнаруживать имена, еще не представленные в компиляциях имен, в источниках цифровых данных.

Идея киберинфраструктуры на основе имен состоит в том, чтобы использовать имена для соединения больших и малых распределенных сайтов экспертных знаний, распределенных по Интернету. Это концепция описанного проекта Global Names, который выполнил работу, описанную в этом документе.Эффективность такой инфраструктуры снижается из-за изменений в названиях с течением времени из-за таксономических и филогенетических исследований. Имена часто пишутся с ошибками или могут быть ошибки в способе их представления.

Между тем, все большее число видов не имеет названий, но различаются по своим молекулярным характеристикам.Чтобы оценить проблемы, которые эти проблемы могут представлять для реализации киберинфраструктуры на основе имен, мы сравнили имена из GenBank и DRYAD (репозитория цифровых данных) с именами из Каталога Жизни, чтобы оценить, насколько они соответствуют друг другу.

В результате мы обнаружили, что менее 15% имен при попарном сравнении этих источников данных могут быть сопоставлены. Однако с помощью парсера имен, который разбивает научные имена на все их составные части, те части, которые представляют наибольшее количество проблем, могут быть удалены, чтобы получить упрощенную или каноническую версию имени.

Благодаря таким инструментам сопоставление имен было улучшено почти до 85%, а в некоторых случаях до 100%.