Другие исследователи говорят, что ограничения на крупнейшей платформе генома SARS-CoV-2 способствуют быстрому обмену данными, одновременно защищая права поставщиков данных.
Ричард Ван Норден
Искать этого автора в:
- Паб Мед
- Nature.com
- Google ученый
Сотни ученых призывают к более открытому обмену данными о геноме SARS-CoV-2, чтобы помочь проанализировать, как вирусные варианты распространяются по миру.
С января 2020 года исследователи опубликовали огромное количество последовательностей генома SARS-CoV-2 в Интернете. На самой популярной платформе для обмена данными, называемой GISAID, сейчас хранится более 450 000 вирусных геномов; Сумья Сваминатан, главный научный сотрудник Всемирной организации здравоохранения (ВОЗ), назвал это «переломным моментом» в пандемии. Но он не позволяет публично публиковать последовательности, что мешает усилиям по пониманию коронавируса и быстрому появлению новых вариантов, утверждает Рольф Апвайлер, содиректор Европейского института биоинформатики (EBI) недалеко от Кембриджа, Великобритания, который принимает гостей. собственная большая база данных геномов, которая включает последовательности SARS-CoV-2.
«Открытость данных о последовательностях SARS-CoV-2 имеет решающее значение для быстрого реагирования на самую большую угрозу здоровью человечества за очень и очень долгое время», — говорит Апвайлер.
В письме, опубликованном 29 января, Апвейлер и другие призывают исследователей публиковать данные о своих геномах в одной из трех баз данных, которые не налагают никаких ограничений на перераспределение данных: GenBank США, Европейский нуклеотидный архив EBI (ENA) и Банк данных ДНК Японии, которые вместе известны как Международное сотрудничество баз данных нуклеотидных последовательностей (INSDC).
Любой желающий может анонимно получить доступ к данным INSDC и использовать их по своему усмотрению, но GISAID требует, чтобы пользователи подтвердили свою личность и согласились не публиковать геномы сайта без разрешения поставщика данных. Это означает, что исследования, основанные на данных GISAID — например, те, которые создают эволюционные деревья, анализирующие, как связаны варианты SARS-CoV-2, — не могут публиковать полные данные, чтобы другие могли легко проверить свой анализ или продолжить работу на своем наборе данных. Они должны направлять читателей обратно на сайт GISAID.
В письме говорится, что научное сообщество должно «устранить барьеры, сдерживающие эффективный обмен данными», но не упоминает конкретно GISAID. Его подписали более 500 ученых, в том числе лауреат Нобелевской премии по химии 2020 года Эммануэль Шарпантье и глава британского консорциума COVID-19 Genomics Шэрон Пикок. В письме говорится, что в тех случаях, когда ученые уже подали заявки в другие базы данных, «эти заявки должны поступать параллельно».
Функция не недостаток
Многие исследователи, работающие с GISAID, говорят, что его условия доступа являются преимуществом, потому что они побуждают нерешительных исследователей быстро делиться данными в Интернете, не опасаясь, что другие будут использовать результаты без доверия. «Причина, по которой так много лабораторий предоставило GISAID геномы SARS-CoV-2, заключается как раз в соглашении о доступе к данным, которое ограничивает публичный обмен данными, — говорит Себастьян Маурер-Стро, биоинформатик из Агентства науки, технологий и исследований Сингапура. По его словам, GISAID работал со многими лабораториями, чтобы помочь им обмениваться данными.
GISAID — это Глобальная инициатива по обмену данными о птичьем гриппе; Международный консорциум исследователей помог создать некоммерческий фонд в 2008 г., чтобы решить проблему нежелания исследователей делиться данными о штаммах гриппа. Некоторые страны, в том числе Индонезия, являющаяся горячей точкой птичьего гриппа, опасались, что фармацевтические фирмы будут создавать лекарства и вакцины, используя данные о последовательностях, не кредитуя исходных поставщиков данных или не делясь с ними результатами работы. Но их убедили быстро поделиться последовательностями в GISAID; Например, в марте 2013 г. Китай опубликовал последовательности птичьего гриппа H7N9 в базе данных в тот же день, когда он сообщил ВОЗ о трех случаях инфицирования людей. «GISAID поощряет и стимулирует обмен данными в реальном времени между сторонами, которые в противном случае не хотели бы делиться, гарантируя, что они сохранят свои права на свои данные», — говорит представитель инициативы.
«Этот вопрос касается не только науки, но и суверенитета и справедливости», — говорит Мари-Поль Киени, исследователь вакцин из INSERM, французского национального института медицинских исследований в Париже. «GISAID обеспечивает быстрый поток данных о последовательностях SARS-CoV-2 с максимальным воздействием», — говорит она, потому что ученые, депонирующие последовательности, могут быть уверены, что их права будут соблюдаться пользователями данных.
Сенджути Саха, микробиолог, который работает над геномами SARS-CoV-2 в Фонде исследований здоровья детей в Дакке, говорит, что она ценит призыв к открытым данным, выходящий за рамки того, что предлагает GISAID, но опасается, что это может еще больше отговорить исследователей из низшего и среднего звена. — страны с доходом (СНСД) от загрузки данных до их анализа. По ее словам, во время пандемии некоторые LMICS начали больше заниматься секвенированием вирусов, хотя в лабораториях часто не хватает вычислительной инфраструктуры. Она говорит, что видела, как данные о коронавирусе СНСД вырваны из контекста учеными из более богатых стран, которые не консультируются и не доверяют поставщикам данных. «Мы действительно хотим поделиться своими данными, но это душераздирающе и демотивирует, когда мы знаем, что так много работали над созданием данных, но мы не получаем за это должного», — говорит она.
Это письмо, по словам Кини, «мне кажется инициативой европейских стран и стран с высоким уровнем доходов, не полностью информированных о критической необходимости обеспечения того, чтобы страны с низким уровнем ресурсов согласились свободно обмениваться последовательностями, с тем чтобы влияние секвенирования последовательностей на общественное здравоохранение патогенов, таких как SARS-CoV-2, увеличивается ».
Глава ENA Гай Кокрейн говорит, что EBI осведомлена о глобальных проблемах, связанных с данными и совместным использованием выгод, и активно участвует в поиске механизмов совместного использования выгод, которые расширяют возможности стран глобального юга и сохраняют данные открытыми. Но даже европейские страны с хорошими ресурсами могли бы сделать больше, чтобы открыто делиться своими данными, говорит он.
Проблемы с данными
Некоторые исследователи сообщили Nature, что помимо аргументов в пользу справедливости и открытости, существует проблема с дифференцированным контролем GISAID над тем, как зарегистрированные пользователи могут загружать свои данные. Некоторые пользователи должны загружать файлы небольшими партиями, например, но другие могут получить полный набор данных сразу с одобрения GISAID. Представитель GISAID сказал, что это связано с тем, что инициативе необходимо знать, кто и по какой причине использует ее данные, чтобы ничего не распространялось по ошибке.
Кокрейн добавляет, что еще одна проблема, связанная с платформой GISAID, заключается в том, что исследователи публикуют «сборки» — или реконструкции — вирусных геномов из фрагментов данных, считанных с машин для секвенирования, а не из необработанных данных. По словам Кокрейна, сборка всегда включает некоторую интерпретацию неизбежных ошибок в процессе секвенирования, и это может привести к тому, что выглядит как мутации в геноме, которые на самом деле являются артефактами секвенирования. Доступ к необработанным данным многих геномов помогает ученым разобраться в этих проблемах, и Кокрейн говорит, что исследователи должны делиться своими необработанными и собранными данными секвенирования, что они могут делать в INSDC, даже если они также публикуют в GISAID. Однако Маурер-Стро говорит, что GISAID знает о таких проблемах и уже проводит проверки качества, чтобы выявить потенциальные ошибки в представленных геномах. Кокрейн говорит, что такие процессы могут только уменьшить, а не устранить ошибки, связанные с артефактами.
Портал данных, размещенный на базе EBI, который объединяет полностью открытые наборы данных о COVID-19, представленные в INSDC, в настоящее время содержит более 270 000 сырых последовательностей SARS-CoV-2 и 55 000 собранных геномов — меньше, чем GISAID. «У нас туман неполных знаний», — говорит Апвайлер. Он говорит, что некоторые ученые могут ошибочно подумать, что отправка данных в GISAID означает, что результаты будут автоматически открываться в INSDC, и он надеется, что призыв обмениваться данными без ограничений повысит объем данных INSDC.
Но приказать ученым повторно отправить данные SARS-CoV-2 в INSDC сложно, говорит Дэвид Хаусслер, который руководит институтом геномики, работающим с данными INSDC и GISAID в Калифорнийском университете в Санта-Круз. По его словам, биоинформатики находятся в кризисном режиме, спешат получить данные генома и детально проанализировать их, и хотят поделиться тем, что им разрешено, о ключевых новых мутациях в последовательностях. Он не подписал открытое письмо — хотя он поддерживает обмен данными без ограничений — потому что вместо этого надеется, что GISAID может временно отказаться от некоторых условий доступа во время пандемии, возможно, для координации с INSDC.
Киени, однако, говорит, что это может привести к тому, что некоторые ученые потеряют доверие к GISAID и не внесут свои последовательности в базу данных так быстро. «Для тех, кто хочет это сделать, нет препятствий для размещения своих последовательностей в INSDC», — говорит она.