Gestire i dati della ricerca Supporto ricerca SBA
Se hai bisogno di maggiori informazioni su questo argomento contatta la tua biblioteca di riferimento:
ricercabali@unive.it, ricercabas@unive.it, ricercabaum@unive.it, ricercabec@unive.it, bda@unive.it
Nell’impressionante quantità di dati che ogni secondo viene generata da uomini e macchine, i dati della ricerca acquistano un valore particolare, legato alla possibilità di estrarre informazioni e alla loro riusabilità.
Dati della ricerca sono le informazioni in qualsiasi formato (digitale e/o cartaceo, numerico, descrittivo, audio o video), raccolte e utilizzate durante un’attività di ricerca, necessarie a validare i risultati raggiunti. A titolo di esempio (non esaustivo): numeri, file, risultati di esperimenti (positivi o negativi), osservazioni, fonti edite e inedite, riferimenti bibliografici, software e codici, testi, video, suoni, interviste.
A seconda del grado di elaborazione, si distinguono:
- raw o primary data: dati grezzi (note, immagini, video, sondaggi, interviste, file di computer)
- processed data: dati analizzati (rapporti, documenti, tabelle)
- shared data: dati condivisi
- published data: dati resi pubblici
La gestione dei dati è diventata un’attività imprescindibile per ogni ricercatore.
Research Data Management (RDM)
Gestire i dati della ricerca - o Research Data Management - significa organizzare il lavoro di raccolta e la conservazione dei dati per assicurare che siano adeguatamente preservati, rintracciabili e comprensibili anche a distanza di tempo o da parte di chi non ha partecipato alla ricerca.
In questo modo la conoscenza può circolare e favorire l’innovazione. Il Research Data Management è un’attività operativa che dev’essere supportata dalla governance (locale e nazionale) con l’adozione di policy che definiscono ruoli e attività a carico dell’istituzione e del ricercatore secondo le linee guida della Commissione europea.
Open data
Sempre più spesso i programmi di finanziamento della ricerca chiedono che i dati della ricerca siano resi disponibili per consentire una validazione delle pubblicazioni scientifiche.
Anche la Commissione Europea incoraggia a rendere aperti e disponibili i dati della ricerca secondo il principio “as open as possible, as closed as necessary” (Data management).
Seppur viene incoraggiata l’apertura, è necessario tenere chiusi i dati (anche temporaneamente) in alcuni casi:
- protezione dei dati per motivi di sicurezza
- tutela della privacy (dati sensibili)
- possibile sfruttamento industriale o commerciale (brevetti)
- altri motivi legittimi da giustificare
I dati sono resi open tramite:
- l’archiviazione in open e trusted repositories;
- l’archiviazione della documentazione necessaria alla comprensione degli strumenti e dei software utilizzati per generare ed elaborare i dati (read-me file) in modo da garantirne la comprensione nel tempo e consentirne la decodificazione;
- il cross-linking che lega i dati alle relative pubblicazioni scientifiche (tramite l’inserimento tra i metadati della pubblicazione del PID del dataset)
L’accesso aperto ai dati della ricerca scientifica:
- favorisce il progresso della conoscenza
- aumenta la riproducibilità delle ricerche
- riduce le duplicazioni
- incrementa la trasparenza
I dati in sé non sono opere dell’ingegno e non sono soggetti al diritto d’autore. Se non ci sono giustificati motivi per tenerli chiusi, i dati vanno resi pubblici, ri-utilizzati o ri-distribuiti senza restrizioni con licenze per il libero dominio o che prevedano l’obbligo di attribuzione (CC-BY o CC 0, o equivalenti).
Per maggiori informazioni consultate la sezione How do I license my research data? del portale OpenAIRE.
La rimozione di barriere legali e tecnologiche rende possibile acquisire, conservare, modificare e condividere moltissimi dati con un impatto positivo sulla conoscenza, sull’economia e sulla società.
Per ottenere questo risultato i dati della ricerca devono essere gestiti secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable).
FAIR Data
L’applicazione dei principi FAIR prevede che i dati siano:
- Findable: rintracciabili grazie a identificatori persistenti unici (DOI) e metadati costruiti secondo standard internazionali (Dublin Core, DCC guide for Metadata standards ecc.).
- Accessible: dati e metadati devono poter essere accessibili dagli esseri umani e dalle macchine mediante il deposito in archivi o repository e l'uso di protocolli standard. Almeno i metadati devono essere disponibili anche quando i dati non sono open access. Accessibile non significa infatti “dato aperto” (possono essere previsti sistemi di autenticazione e autorizzazione).
- Interoperable: i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati, con standard documentati, in grado di essere elaborati da sistemi operativi con linguaggi conformi ai principi FAIR.
- Reusable: per poter essere riusabili, i dati devono essere corredati da una licenza di utilizzo (CC-BY o CC0) e una documentazione con le informazioni relative alla loro formazione.
Per maggiori informazioni sui principi FAIR, con esempi e approfondimenti, e per autoverificare se i vostri dati sono FAIR, consultate i siti GO-FAIR, FAIR assessment tool e FAIR Aware.
La compatibilità dei dati prodotti dalla ricerca con i principi FAIR è garantita dalla corretta elaborazione del Data Management Plan (DMP).
Data Management Plan
I progetti di ricerca finanziati da enti (pubblici e privati) che producono dati (aperti o chiusi) prevedono la redazione di un Data Management Plan (DMP), strumento operativo che descrive le modalità di gestione, valorizzazione e preservazione nel tempo dei dati durante e dopo la ricerca, le modalità di riuso e diffusione, le eventuali implicazioni etiche del progetto.
Il piano di gestione dei dati e dei fondi ricevuti:
- è richiesto dagli enti finanziatori, tra cui la Commissione Europea (es. programma Horizon Europe) che prevede la sua consegna entro il 6° mese dal finanziamento
- dev’essere elaborato in fase di progettazione della ricerca
- è un living document che va modificato o integrato ogni volta che intervengano cambiamenti nella natura dei dati o nelle modalità di raccolta e gestione
- va condiviso con tutti i ricercatori impegnati nella ricerca
- deve essere sintetico e preciso
Il DMP è quindi uno strumento che serve per programmare e comunicare, dall’inizio dell’attività, la raccolta, conservazione, riuso e divulgazione dei dati, unitamente ai metadati associati. Quanto più i metadati saranno ricchi, tanto maggiore sarà la discoverability del dato.
Il DMP è redatto dal principal investigator sotto forma di template (come quelli proposti da tool online DCC, Data Stewardship Wizard, easyDMP, Argos di OpenAiRE) e rappresenta l’intero ciclo di vita del dato assicurandone tracciabilità, disponibilità, autenticità, citabilità, conservazione appropriata, adesione a parametri legali chiari e l’adozione di misure di sicurezza adeguate, che ne assicurano e disciplinano gli usi successivi.
Per raccogliere i dati, è consigliabile utilizzare solo gli strumenti approvati dall'Università (come LimeSurvey o Google Form) e non strumenti come la piattaforma Qualtrics.xm non completamente conforme al GDPR in quanto i dati personali raccolti vengono trasferiti negli Stati Uniti.
DMP e implicazioni etiche
È opportuno consultare il comitato etico quando il progetto di ricerca prevede attività che prevedano la raccolta di dati personali, in termini di quantità (numero di informazioni personali raccolte) e qualità (dati personali che possono rivelare l’origine razziale ed etnica, l’orientamento sessuale, le opinioni politiche, le convinzioni religiose o filosofiche, o l’appartenenza sindacale di un individuo, o dati genetici e biometrici o relativi alla salute).
Il parere del comitato etico va a tutela dei ricercatori e dei partecipanti alle attività di ricerca.
Per maggiori informazioni si consiglia di consultare la pagina della Commissione etica di Ca’ Foscari, sezione Data Management Plan (DMP).
Dati e metadati
I dati acquistano ulteriore valore e significato se associati ai metadati.
La correlazione di dati e metadati crea infatti collegamenti (e opportunità) inaspettati (internet of things).
I metadati, per essere “machine readable”, devono però seguire schemi standard e sintassi predefiniti (Dublin Core…).
L’uso di metadati standardizzati e “ricchi” di informazioni consente di:
- tracciare la pubblicazione e il set di dati grazie agli identificativi persistenti (DOI, handle, ISSN, ISBN, ORCID)
- descrivere meglio i dati facilitandone la scoperta: i metadati contengono informazioni su titolo, creatore, abstract, parole chiavi
- certificare l’integrità, la provenienza, la conservazione dei dati: i metadati forniscono informazioni su publisher, funder, formato, grandezza del file, piattaforma di conservazione, modalità di salvataggio
- chiarire i diritti: i metadati forniscono informazioni sulle licenze cui sono associati i dati e sulle condizioni per il riuso.
Last update: 22/11/2023