Salta ai contenuti. | Salta alla navigazione

Sezioni
Home Scienza aperta DMP Piano di gestione Come gestire i dati

Come gestire i dati

Cosa sono i dati della ricerca

Per dati della ricerca si intendono le informazioni generate e strutturate in qualsiasi formato, nell’ambito di una specifica attività di ricerca condotta dall’autore, necessarie per validarne i risultati. A titolo esemplificativo sono da intendersi dati della ricerca: statistiche, risultati di esperimenti, fatti, misurazioni, osservazioni, esperienze, fonti edite e inedite, riferimenti bibliografici, software e codici, testi, oggetti del presente o del passato, raccolti o creati in formato digitale e/o cartaceo. I dati della ricerca possono essere espressi in formato numerico, descrittivo, audio o video o in una qualsiasi associazione tra questi. Possono essere grezzi o elaborati.

Come gestire i dati della ricerca

I dati della ricerca sono gestiti secondo i principi FAIR volti a garantirne la condivisione e l’uso ottimale.

Applicare i princìpi FAIR vuol dire rendere i dati reperibili (identificati in modo persistente usando le convenzioni della comunità scientifica di riferimento, e descritti usando metadati sufficientemente ricchi), accessibili (ovvero resi accessibili a uomini e macchine), interoperabili (strutturati in modo tale da poter essere combinati con altri insiemi di dati), riutilizzabili (concessi in licenza o con termini d'uso che spieghino come possono essere riutilizzati in nuove ricerche).

Vantaggi per i ricercatori

Rendere i dati della ricerca FAIR fornisce una serie di benefici ai ricercatori, alle comunità di ricerca, alle infrastrutture e alle organizzazioni di ricerca, tra cui:

  • ottenere il massimo impatto
  • aumentare la visibilità e le citazioni
  • migliorare la riproducibilità e l'affidabilità
  • attrarre nuovi partenariati con ricercatori, imprese e comunità più ampie
  • consentire di rispondere a nuove domande di ricerca.

Non sempre è possibile aderire a tutti i principi FAIR, ma applicarne alcuni servirà ad aumentare la reperibilità, l'accessibilità, l'interoperabilità e la riusabilità dei dati di ricerca.

Rendere i dati reperibili

Il primo passo per (ri)usare i dati è trovarli. I metadati e i dati dovrebbero essere facili da trovare sia per gli esseri umani che per i computer. Come?

LEGGI DI PIÙ
  • il dataset deve essere fornito di un identificatore persistente (es. DOI, handle, ecc.)
  • i metadati che descrivono il dataset (contesto, qualità, condizioni e caratteristiche) devono essere esaustivi, accurati e indicizzati dai motori di ricerca
  • i metadati devono essere registrati e indicizzati in una risorsa (repository) ricercabile
  • consulta il Registry for Research Data Repositories di Re3data per scegliere un repository affidabile e adatto ai tuoi dati a seconda della disciplina
  • registrati a ORCID per ottenere il codice univoco persistente che identifica i ricercatori a livello internazionale e associalo a tutte le tue pubblicazioni (di dati)
  • quando pubblichi i tuoi dati, pensa ai ricercatori che potrebbero usarli.

 

Rendere i dati accessibili

I dati dovrebbero essere idealmente aperti, ma non tutti possono esserlo. Secondo le buone pratiche l’accesso dovrebbe essere il più aperto possibile e chiuso solo il necessario. Infatti, FAIR non significa necessariamente che i dati devono essere aperti. Nei casi in cui i dati non possono essere resi apertamente accessibili, è comunque possibile rendere i metadati disponibili al pubblico. Assicurati che

LEGGI DI PIÙ
  • l’identificatore persistente associato al dataset risolva correttamente alla pagina dei metadati
  • i metadati che descrivono il dataset siano pubblici, visibili e indicizzabili anche se i dati non sono ad accesso aperto
  • la procedura di accesso includa passaggi di autenticazione e autorizzazione, se necessario
  • siano disponibili sufficienti informazioni di contatto per gli altri ricercatori, se vogliono accedere ai dati (es. e-mail personale valida per un lungo periodo, ecc.)
  • sia inclusa la documentazione sul software (versione, ecc.) necessaria per accedere ai dati.

 

Rendere i dati interoperabili
  • metti a disposizione i dati in software ben noti e usa formati aperti, non proprietari o molto diffusi
  • usa standard rilevanti e riconosciuti per i metadati
  • usa schemi di metadati concordati dalla comunità, vocabolari controllati, parole chiave, thesauri o ontologie dove possibile
  • Inserisci link ad altre risorse collegate ai dati (ad es. pubblicazioni, rapporti tecnici, ecc.).
LEGGI DI PIÙ

Per accelerare la scoperta, i dati di ricerca dovrebbero essere facilmente combinati con altri set di dati, applicazioni e flussi di lavoro. Crea un file README (.txt o .pdf) per assicurare che i tuoi dati possano essere correttamente interpretati e rianalizzati da altri. Un file README dovrebbe contenere le seguenti informazioni

  • per ogni nome di file, una breve descrizione di quali dati include, eventualmente descrivendo la relazione con le tabelle, le figure o le sezioni all'interno della pubblicazione che lo accompagna
  • per i dati tabulari, le definizioni delle intestazioni delle colonne e delle etichette delle righe, i codici dei dati (compresi i dati mancanti) e le unità di misura
  • qualsiasi fase di elaborazione dei dati, specialmente se non descritta nella pubblicazione, che possa influenzare l'interpretazione dei risultati
  • una descrizione di quali set di dati associati sono conservati altrove, se applicabile
  • chi contattare per eventuali domande
  • gli script di programmazione usati per analizzare o raccogliere i tuoi dati
  • nomi dei file coerenti.

 

Rendere i dati riutilizzabili

I risultati della ricerca devono poter essere replicati e deve essere evidente che la nuova ricerca si basa efficacemente su risultati già acquisiti e precedenti.

LEGGI DI PIÙ

Rendi i tuoi dati riutilizzabili assicurandoti che

  • siano ben documentati per facilitarne una corretta interpretazione
  • siano accompagnati da una licenza d'uso chiara e accessibile e al dataset sia stata attribuita una licenza con possibilità di riutilizzo (comunemente Creative Commons). Le linee guida di Horizon 2020 e Horizon Europe raccomandano CC-0 o CC-BY come un modo semplice ed efficace per dare la possibilità ad altri di estrarre, utilizzare e riprodurre i dati
  • siano presenti le informazioni sulla provenienza e i metadati soddisfino gli standard di dominio pertinenti
  • la descrizione dei dati sia di facile comprensione.

La documentazione dovrebbe essere fornita almeno su due livelli:

  1. a livello di progetto per spiegare gli obiettivi dello studio, l'ipotesi alla base, gli strumenti e la metodologia
  2. a livello di file per spiegare come tutti i file che compongono una serie di dati si relazionano tra loro.

 

I metadati

I dati sono accompagnati da metadati, essenziali per trovare, riutilizzare e gestire i tuoi dati, e capirne il contesto. I metadati devono essere aperti e provvisti di una Creative Common Public Domain Dedication (CC 0) o equivalente (nella misura in cui gli interessi o i vincoli legittimi sono salvaguardati), in linea con i principi FAIR. Devono fornire informazioni almeno sui set di dati (descrizione, data di deposito, autore/i, sede, livello di accesso, embargo, ente finanziatore, nome del progetto, acronimo e numero, abstract, condizioni di licenza, identificatori persistenti per il set di dati, l’eventuale citazione delle pubblicazioni ai quali si riferiscono. Se applicabile, i metadati devono anche includere identificatori persistenti per le pubblicazioni correlate e altri risultati della ricerca.

La Research Data Alliance fornisce un link esterno alla Metadata Standards Directory, utile per avere informazioni sugli standard specifici della disciplina e gli strumenti associati.

Questa pagina è stata aggiornata il 09/08/2022