Wide-Open ускоряет выпуск научных данных за счет выявления просроченных наборов данных

Новый инструмент, разработанный Вашингтонским университетом и исследователями Microsoft Максимом Гречкиным, Хойфунг Пун и Биллом Хоу и описанный в статье Community Page, опубликованной 8 июня в журнале PLOS Biology с открытым доступом, надеется обойти эту проблему и помочь продвинуть открытую науку. путем автоматического обнаружения наборов данных, просроченных для публикации.Открытые данные — это жизненно важная опора открытой науки, позволяющая другим исследователям воспроизводить результаты и использовать те же наборы данных для создания новых открытий.

Хотя многие научные журналы теперь требуют, чтобы опубликованные авторы делали данные, лежащие в основе их выводов, общедоступными, эти правила часто не соблюдаются. Задача серьезная — только репозиторий Omnibus по экспрессии генов (GEO) Национального центра биотехнологической информации (NCBI) содержит 80 985 общедоступных наборов данных, охватывающих сотни типов тканей в тысячах организмов, а быстрый рост данных усложняет работу журналов. или репозитории данных, чтобы «контролировать», действительно ли доступны наборы данных, которые должны быть общедоступными.Система Wide-Open доступна по лицензии с открытым исходным кодом на GitHub; он использует интеллектуальный анализ текста для выявления ссылок на наборы данных в опубликованных научных статьях, которые должны быть общедоступными, а затем анализирует результаты запросов из репозиториев, чтобы определить, остаются ли эти наборы данных частными.

Гречкин и его команда протестировали свой инструмент на двух популярных репозиториях данных, поддерживаемых NCBI — GEO и Sequence Read Archive (SRA). Wide-Open выявила большое количество просроченных наборов данных, что побудило администраторов репозиториев отреагировать, выпуская 400 наборов данных за одну неделю.

«Мы разработали простую, но эффективную систему, которая уже помогла сделать сотни наборов данных общедоступными», — сказал ведущий автор Максим Гречкин. «Наличие беспристрастной и автоматизированной системы обеспечения соблюдения политики открытых данных может помочь уравнять правила игры среди ученых и создать новые возможности для открытий».


Новости со всего мира