Come gestire i dati
Cosa sono i dati della ricerca
Per dati della ricerca si intendono le informazioni generate e strutturate in qualsiasi formato, nell’ambito di una specifica attività di ricerca condotta dall’autore, necessarie per validarne i risultati. A titolo esemplificativo sono da intendersi dati della ricerca: statistiche, risultati di esperimenti, fatti, misurazioni, osservazioni, esperienze, fonti edite e inedite, riferimenti bibliografici, software e codici, testi, oggetti del presente o del passato, raccolti o creati in formato digitale e/o cartaceo. I dati della ricerca possono essere espressi in formato numerico, descrittivo, audio o video o in una qualsiasi associazione tra questi. Possono essere grezzi o elaborati.
Come gestire i dati della ricerca
I dati della ricerca sono gestiti secondo i principi FAIR volti a garantirne la condivisione e l’uso ottimale.
Applicare i princìpi FAIR vuol dire rendere i dati reperibili (identificati in modo persistente usando le convenzioni della comunità scientifica di riferimento, e descritti usando metadati sufficientemente ricchi), accessibili (ovvero resi accessibili a uomini e macchine), interoperabili (strutturati in modo tale da poter essere combinati con altri insiemi di dati), riutilizzabili (concessi in licenza o con termini d'uso che spieghino come possono essere riutilizzati in nuove ricerche).
Vantaggi per i ricercatori
Rendere i dati della ricerca FAIR fornisce una serie di benefici ai ricercatori, alle comunità di ricerca, alle infrastrutture e alle organizzazioni di ricerca, tra cui:
- ottenere il massimo impatto
- aumentare la visibilità e le citazioni
- migliorare la riproducibilità e l'affidabilità
- attrarre nuovi partenariati con ricercatori, imprese e comunità più ampie
- consentire di rispondere a nuove domande di ricerca.
Non sempre è possibile aderire a tutti i principi FAIR, ma applicarne alcuni servirà ad aumentare la reperibilità, l'accessibilità, l'interoperabilità e la riusabilità dei dati di ricerca.
Rendere i dati reperibili
Il primo passo per (ri)usare i dati è trovarli. I metadati e i dati dovrebbero essere facili da trovare sia per gli esseri umani che per i computer. Come?
- LEGGI DI PIÙ
-
- il dataset deve essere fornito di un identificatore persistente (es. DOI, handle, ecc.)
- i metadati che descrivono il dataset (contesto, qualità, condizioni e caratteristiche) devono essere esaustivi, accurati e indicizzati dai motori di ricerca
- i metadati devono essere registrati e indicizzati in una risorsa (repository) ricercabile
- consulta il Registry for Research Data Repositories di Re3data per scegliere un repository affidabile e adatto ai tuoi dati a seconda della disciplina
- registrati a ORCID per ottenere il codice univoco persistente che identifica i ricercatori a livello internazionale e associalo a tutte le tue pubblicazioni (di dati)
- quando pubblichi i tuoi dati, pensa ai ricercatori che potrebbero usarli.
Rendere i dati accessibili
I dati dovrebbero essere idealmente aperti, ma non tutti possono esserlo. Secondo le buone pratiche l’accesso dovrebbe essere il più aperto possibile e chiuso solo il necessario. Infatti, FAIR non significa necessariamente che i dati devono essere aperti. Nei casi in cui i dati non possono essere resi apertamente accessibili, è comunque possibile rendere i metadati disponibili al pubblico. Assicurati che
- LEGGI DI PIÙ
-
- l’identificatore persistente associato al dataset risolva correttamente alla pagina dei metadati
- i metadati che descrivono il dataset siano pubblici, visibili e indicizzabili anche se i dati non sono ad accesso aperto
- la procedura di accesso includa passaggi di autenticazione e autorizzazione, se necessario
- siano disponibili sufficienti informazioni di contatto per gli altri ricercatori, se vogliono accedere ai dati (es. e-mail personale valida per un lungo periodo, ecc.)
- sia inclusa la documentazione sul software (versione, ecc.) necessaria per accedere ai dati.
Rendere i dati interoperabili
- metti a disposizione i dati in software ben noti e usa formati aperti, non proprietari o molto diffusi
- usa standard rilevanti e riconosciuti per i metadati
- usa schemi di metadati concordati dalla comunità, vocabolari controllati, parole chiave, thesauri o ontologie dove possibile
- Inserisci link ad altre risorse collegate ai dati (ad es. pubblicazioni, rapporti tecnici, ecc.).
- LEGGI DI PIÙ
-
Per accelerare la scoperta, i dati di ricerca dovrebbero essere facilmente combinati con altri set di dati, applicazioni e flussi di lavoro. Crea un file README (.txt o .pdf) per assicurare che i tuoi dati possano essere correttamente interpretati e rianalizzati da altri. Un file README dovrebbe contenere le seguenti informazioni
- per ogni nome di file, una breve descrizione di quali dati include, eventualmente descrivendo la relazione con le tabelle, le figure o le sezioni all'interno della pubblicazione che lo accompagna
- per i dati tabulari, le definizioni delle intestazioni delle colonne e delle etichette delle righe, i codici dei dati (compresi i dati mancanti) e le unità di misura
- qualsiasi fase di elaborazione dei dati, specialmente se non descritta nella pubblicazione, che possa influenzare l'interpretazione dei risultati
- una descrizione di quali set di dati associati sono conservati altrove, se applicabile
- chi contattare per eventuali domande
- gli script di programmazione usati per analizzare o raccogliere i tuoi dati
- nomi dei file coerenti.
Rendere i dati riutilizzabili
I risultati della ricerca devono poter essere replicati e deve essere evidente che la nuova ricerca si basa efficacemente su risultati già acquisiti e precedenti.
- LEGGI DI PIÙ
-
Rendi i tuoi dati riutilizzabili assicurandoti che
- siano ben documentati per facilitarne una corretta interpretazione
- siano accompagnati da una licenza d'uso chiara e accessibile e al dataset sia stata attribuita una licenza con possibilità di riutilizzo (comunemente Creative Commons). Le linee guida di Horizon 2020 e Horizon Europe raccomandano CC-0 o CC-BY come un modo semplice ed efficace per dare la possibilità ad altri di estrarre, utilizzare e riprodurre i dati
- siano presenti le informazioni sulla provenienza e i metadati soddisfino gli standard di dominio pertinenti
- la descrizione dei dati sia di facile comprensione.
La documentazione dovrebbe essere fornita almeno su due livelli:
- a livello di progetto per spiegare gli obiettivi dello studio, l'ipotesi alla base, gli strumenti e la metodologia
- a livello di file per spiegare come tutti i file che compongono una serie di dati si relazionano tra loro.
I metadati
I dati sono accompagnati da metadati, essenziali per trovare, riutilizzare e gestire i tuoi dati, e capirne il contesto. I metadati devono essere aperti e provvisti di una Creative Common Public Domain Dedication (CC 0) o equivalente (nella misura in cui gli interessi o i vincoli legittimi sono salvaguardati), in linea con i principi FAIR. Devono fornire informazioni almeno sui set di dati (descrizione, data di deposito, autore/i, sede, livello di accesso, embargo, ente finanziatore, nome del progetto, acronimo e numero, abstract, condizioni di licenza, identificatori persistenti per il set di dati, l’eventuale citazione delle pubblicazioni ai quali si riferiscono. Se applicabile, i metadati devono anche includere identificatori persistenti per le pubblicazioni correlate e altri risultati della ricerca.
La Research Data Alliance fornisce un link esterno alla Metadata Standards Directory, utile per avere informazioni sugli standard specifici della disciplina e gli strumenti associati.