Вселената е голяма. Наистина голяма. Просто няма да повярвате колко изключително невероятно невъобразимо голяма е тя.
“Пътеводител на галактическия стопаджия”, Дъглас Адамс
Традиционни проблеми
Изследователите обичат своите данни до момента, в който не се наложи да ги споделят. Въпреки изискванията на финансиращите организации и принципите FAIR за данни (откриваеми, достъпни, оперативно съвместими и повторно използваеми), много изследователи все още се колебаят да направят данните си публично достъпни. Една от основните причини за това е страхът, че други могат да използват техните данни и да постигнат по-бързи научни резултати. Тъй като изследователите влагат значително време и усилия в събирането и обработката на данни, те много често са склонни да пазят данните си и да не ги споделят. Друга причина за нежеланието да споделят данни е липсата на познания относно организацията и описанието на метаданните. Много изследователи не са запознати с етичните и правни аспекти при обработката на данни, особено когато става въпрос за чувствителна информация. Това създава несигурност у тях как и къде да съхраняват и споделят данните и какви са ползите за тяхната научноизследователска работа. Липсата на стимули също играе роля – изследователите не получават достатъчно признание за споделянето на своите данни. Освен това, те възприемат отварянето на данни като допълнителна задача, която увеличава тяхната натовареност и води до преумора. Всички тези фактори ограничават споделянето на изследователски данни и материали, както и ограничават възможностите за повторна употреба на данните.
Какво са “отворени научни данни”?
Отворените изследователски данни са набори от данни, протоколи, материали, лабораторни дневници, софтуерен код, работни процеси и други научни резултати, подчинени на FAIR принципите, които са свободно достъпни и в идеалния случай са без допълнителни ограничения. Основната цел е не просто публикуване и прозрачност на данните, а използваемост - яснота относно начина, мястото и методологията на събиране на данните, така че и други учени да могат да ги проверят и да валидират научните изводи и резултати. Това прави работата на изследователя възпроизводима, като позволява на други учени да използват повторно или да надграждат върху отворените данни. Резултатът е повече цитирания и нови партньорства.
Как отворените данни могат да решат традиционните проблеми?
Отворените научноизследователски данни, ако са структурирани както трябва, могат да спомогнат за решаване на различни проблеми и за преодоляване страховете на учените. На първо място, данните, метаданни и протоколите за събиране на данни правят целия изследователски процес видим и проследим, и позволяват по-бързо възпроизвеждане на резултатите. Цитирането на данни и връзката към ORCID (Идентификатор на изследовател и сътрудник) разширява обсега на научното изследване извън цитиранията и постига по-значимо въздействие. Споделеният софтуерен код или лабораторни дневници са автоматизирана документация, която спестява време и задължението да се обяснява работния процес. Надеждните и сигурни хранилища помагат на изследователите да структурират данните си според FAIR принципите и осигуряват на учените места за съхранение и достъп до данните, като елиминира проблема със загуба на значими данни. Най-големият страх на учените от плагиатство може да бъде париран с предварителна регистрация на база данните и DOI, като позволява ясно да бъде посочено времето и приоритетите на учения.
Практически стъпки за отваряне на научни данни според FAIR принципи?
Принципите FAIR не са просто пореден модерен акроним. Според Българския портал за отворена наука, това са принципи относно “описанието и разпространението на научноизследователски резултати и данни, които са в основата на развитието на инициативата за отворена наука. Според FAIR принципите научните ресурси следва да бъдат:
- Откриваеми (Findable) – описани с подробни метаданни и постоянни идентификатори.
- Достъпни (Accessible) – за машини и хора по стандартен протокол чрез постоянните си идентификатори, при съответните ограничения.
- Оперативно съвместими (Interoperable) – използвани са стандартни формати и схеми за данни и метаданни, което позволява обмена им между различните системи.
- Преизползваеми (Reusable) – с ясно обозначен лиценз и права за достъп.”
Повече информация за FAIR принципите може да намерите на страниците на GO FAIR.
Те са система за поддържане на живота на ценни изследователски данни за дълъг период от време.
Стъпка 1: Помислете за данните от самото начало, не в края на изследването!
- Напишете План за управление на данните (DMP) като използвате инструменти като DMPonline или ARGOS!
- Идентифицирайте още от самото начало вида на данните, форматите и етичните или правни рискове!
- Стъпка 2: Изберете правилното хранилище!
- Общи хранилища за данни: Zenodo, Figshare, Dryad.
- Специфични за отделните дисциплини: PANGAEA (науки за Земята), GenBank (биология), OpenNeuro (невронауки).
- Институционални: много университети или научни организации поддържат подобни хранилища.
- Европейски: OpenAIRE, Европейски облак за отворена наука (EOSC портал).
Уверете се, че вашите данни имат постоянни идентификатори (DOI) и позволяват ясни опции за лицензиране (напр. CC0, CC-BY, ODC-BY за данни).
Стъпка 3: Приложете принципите FAIR!
- Добавете подробни метаданни, които отговарят на въпросите: Кой?, Какво?, Кога?, Как? и Защо?
- Използвайте отворени, непатентовани формати, когато е възможно (.CSV вместо .XLSX, .TXT вместо .DOC)!
- Използвайте контролирани речници или онтологии за по-голяма яснота!
- Направете документацията си четима за хора и машини (.README файловете са вашите най-добри приятели)!
Стъпка 4: Работете внимателно с чувствителни данни!
- Използвайте техники за анонимизиране на данни!
- Прилагайте лицензи с ограничен достъп, ако е необходимо за чувствителни данни!
- Спазвайте Общия регламент за защита на данните на ЕС (GDPR) и политиките за институционална етика!
- Използвайте хранилища с контролиран достъп като Европейския архив за геномни и и феномни данни (EGA)!
Добри практики и примери от ЕС - хранилища
Достъп до публични данни в Република България в отворен и машинночетим формат.
Всички финансирани проекти трябва:
- Да направят, където е възможно, данните да са отворени. Когато информацията е чувствителна, те трябва да са затворени, само доколкото е необходимо.
- Да ги депозират в надеждни хранилища.
- Да включат управление на данните при отчитането.
Този мегаиндекс свързва данни, публикации, софтуер и проекти в цяла Европа и по света – напълно отворен и машинночетим.
EOSC изгражда федеративна инфраструктура за споделяне на данни в целия ЕС. Мислете за нея като за златното сърце за изследователски обекти.
Примерите на Облака за социални и хуманитарни науки с отворен достъп (SSHOC) и Европейската инфраструктура за биологична информация (ELIXIR):
- SSHOC създаде специфични за домейна работни процеси за отворени данни в социалните и хуманитарните науки.
- ELIXIR поддържа отворени, оперативно съвместими инфраструктури за данни в областта на науките за живота.
Това не са просто хранилища – те са екосистеми, които възнаграждават, свързват и поддържат вашите данни дълго след публикуването на статията.
Заключение
Отварянето на данни не винаги е лесно, но винаги е ценно, защото помага на науката да бъде проверима, прозрачна и достоверна и съдейства на учените да структурират знанията си. Така че не се паникьосвайте, просто подредете данните си, като обозначите ясно файловете и качвате наборите от данни в надеждни хранилища. Не забравяйте, че най-доброто място за съхранение на вашите данни не е флаш устройство в чекмедже на бюро, а хранилище с размерите на галактика с DOI.
Накратко, става въпрос за превръщането на вашите данни от затворена галактика в споделена, разширяваща се вселена.