guide

Come aprire i dati

Languages: de el en es fr he hr id is it ja ko lt lv my ne nl_BE pt_BR ro ru zh_CN zh_TW

Questa sezione costituisce il nucleo centrale del manuale: fornisce consigli concreti e dettagliati ai detentori di dati che intendano aprirli. Sono esaminate le questioni fondamentali e i principali rischi. Saranno infine discusse anche le problematiche più complesse che si possono presentare.

Ci sono tre regole fondamentali che si consiglia di seguire nell’apertura dei dati:

Scegliere la semplicità. Cominciare con un progetto piccolo, semplice e veloce. Non è necessario aprire tutti i dati in una sola volta. Inizialmente va bene aprire anche un solo dataset, o anche una sua parte – naturalmente, più dati si aprono, meglio è.

Da ricordare che è innovazione. Muoversi il più in fretta possibile è bene, perché significa prendere slancio e imparare dall’esperienza – innovare comporta successi ed errori, e non tutte le banche dati saranno utili.

Coinvolgere gli utenti fin dall’inizio e coinvolgerli spesso. Cercare presto e spesso il confronto con i potenziali utilizzatori dei dati fra cittadini, imprese o sviluppatori Ciò aumenterà la rilevanza dell’iniziativa durante tutto il suo percorso.

È essenziale tenere presente che gran parte dei dati non raggiungeranno gli utenti finali direttamente, ma tramite ‘info-intermediari’. Queste sono le persone che prendono i dati e li trasformano o li remixano per la presentazione. Ad esempio, la maggior parte di noi non vuole o non ha bisogno di un grande database di coordinate GPS, preferiamo decisamente una mappa. Così coinvolgete da subito gli info-intermediari, in modo che essi possano riutilizzare e riadattare i vostri dati.

Affrontare i timori e le incomprensioni diffuse. Questo è importante soprattutto se lavori in o con grandi organizzazioni come le istituzioni governative. Nell’aprire i dati sorgeranno molte domande e timori. È importante (a) identificare le più rilevanti, e (b) darvi una risposta il più presto possibile.

Ci sono quattro passi principali per rendere i dati aperti, saranno tutte affrontate in dettaglio di seguito. Le abbiamo elencate in un ordine molto approssimativo - molti passi possono essere fatti contemporaneamente.

** Scegliere i dataset.** Scegliere ciò che si intende rendere aperto, ricordando che si può (ovvero potrebbe essere necessario), rivedere questo passaggio se si incontrano problemi nelle fasi successive.
** Utilizzare una licenza open .**
1. Determinare quali sono i diritti di proprietà intellettuale che insistono sui dati.
2. Applicare una adeguata licenza ‘open’ che copra tutti i diritti identificati, compatibile con la definizione di apertura discussa nella precedente sezione ‘Cosa è Open Data’
3. NB: se ciò non è possibile, si ritorni al punto 1 e riprovare con una banca dati diversa.
Rendere i dati disponibili - in gran quantità e in un formato utile. Si possono prendere in considerazione anche metodi alternativi come la distribuzione attraverso API.
Renderlo disponibile - pubblicare sul Web e forse organizzando un catalogo centrale dove elencare l’insieme dei dati aperti.

Scegliere le banche dati

La scelta dei dati che si prevede di rendere aperti è il primo passo da compiere - anche se è bene ricordare che l’intero processo di apertura dei dati è iterativo e pertanto rimane possibile tornare indietro qualora si presentino problemi.

Se si ha già esattamente un’idea di quali dati si prevede di aprire si può passare direttamente alla sezione successiva. In molti casi, tuttavia, soprattutto nel caso delle grandi istituzioni, stabilire con quale insieme di dati cominciare è sempre una sfida. Come si dovrebbe procedere in questo caso?

Creare una lista potrebbe aiutare a velocizzare il processo di identificazione dei dati con cui cominciare il processo di apertura. In un momento successivo sarà possibile poi verificare nel dettaglio se tutte le banche dati sono adatte allo scopo.

Non vi è alcun obbligo di creare un elenco completo dei dataset. Il punto principale da considerare è se sia possibile pubblicare questi dati o meno (qualsiasi sia l’approccio scelto, aperto o meno) - si veda la sezione.

Consultare la comunità

E’ consigliabile in primo luogo consultare la comunità. I soggetti che accederanno ed utilizzeranno i dati sono infatti nella migliore posizione per identificare quali dati siano di particolare valore.

Si può preparare un breve elenco di dataset potenziali su cui si desidera avere un feedback. Non è indispensabile che questa lista coincida con le vostre aspettative, l’intento principale è quello di avere una prima idea delle esigenze. L’elenco potrebbe ad esempio ispirarsi a cataloghi di open data di altri paesi.
Creare una richiesta per ottenere commenti.
Pubblicizzare la richiesta di commenti in una pagina web e assicurarsi che sia possibile accedere alla richiesta attraverso l’URL indicato. In questo modo, in caso di condivisione attraverso social media, la richiesta risulterà facilmente reperibile.
Le risposte devono poter essere inviate attraverso una procedura semplice. É da evitare la richiesta di commenti previa registrazione perché ciò riduce il numero di risposte.
Utilizzare mailing list, forum e soggetti rilevanti per far condividere la richiesta attraverso un link diretto alla pagina web.
Si può organizzare uno speciale evento di consultazione. É importante riuscire a trovare un orario conveniente per chi lavora in ufficio, nell’area commerciale e per gli sviluppatori.
Chiedi a un politico di parlare per conto della tua agenzia. Gli open data sono spesso parte di più ampie politiche dirette ad aumentare l’accesso all’informazione governativa.

Costi base

Quanti soldi spendono le agenzie per la raccolta e manutenzione dei dati in loro possesso? Se passano molto tempo su un particolare insieme di dati, allora è molto probabile che altri utenti vorrebbero accedervi.

Questo discorso potrebbe certo suscitare timori di freeriding. La domanda cui bisogna rispondere è: “Perché consentire ad altri di ottenere gratuitamente informazioni tanto costose?”. La risposta è che questo costo viene già sopportato dal settore pubblico, nello svolgimento di una funzione particolare. E il costo di trasmettere i dati a terzi, dopo averli raccolti, è all’incirca nullo. Perciò, non si dovrebbe esigere nulla.

Facilità di rilascio

A volte, piuttosto che decidere quali dati sarebbero di maggior valore, potrebbe essere utile controllare quali dati siano più semplici da presentare al pubblico. Semplici rilasci di dati in piccole quantità possono più facilmente cambiare i comportamenti all’interno delle organizzazioni.

É comunque necessario usare cautela nell’applicare questo approccio. Questi piccoli e veloci rilasci di dati potrebbero essere di così scarso interesse che non permettano di costruire nulla di utile. Se succede, il destino dell’intero progetto potrebbe essere segnato.

Osserva i tuoi pari.

Open data è un movimento in crescita. Probabilmente nella vostra zona molte persone sanno cosa si sta facendo in altri settori. Fate una lista sulla base di ciò che stanno facendo questi gruppi.

Applicare una licenza aperta (apertura giuridica)

Nella maggior parte delle legislazioni nazionali ci sono diritti di proprietà intellettuale dei dati che impediscono a terzi l’uso, il riutilizzo e la ridistribuzione dei dati senza un’autorizzazione esplicita. Anche nei casi in cui l’esistenza di diritti è incerta, è importante applicare una licenza per motivi di chiarezza. Così, ** se stai progettando di rendere i tuoi dati disponibili, dovresti mettere una licenza su di essi** - e se volete che i vostri dati siano aperti questo è ancora più importante.

Quali licenze usare? Per i dati aperti consigliamo una licenza che sia compatibile con la Open Definition e che sia applicabile ai dati. Una lista (con le relative istruzioni per l’uso) si può trovare presso:

http://opendefinition.org/licenses/

Una breve guida in inglese (una pagina) su come applicare una licenza Open Data può essere trovata sul sito Open Data Commons:

http://opendatacommons.org/guide/

Rendere i dati disponibili (Aspetti Tecnici)

Gli Open data devono essere aperti, sia dal punto di vista tecnico che da quello legale. In particolare i dati devono essere disponibili in grande quantità in un formato machine-readable.

Available

I dati dovrebbero essere dispinibili ad una tariffa non superiore al ragionevole costo per la loro riproduzione, e preferibilmente come download gratuito da Internet. Questo modello di tariffa è raggiunto qualora l’ente non sostenga alcun costo aggiuntivo nel fornire dati da utilizzare.

In bulk

I dati dovrebbero essere disponibili come insieme completo. Se ad esempio si dispone di un registro mantenuto per obblighi di legge, allora l’intero registro dovrebbe essere disponibile per il download. Una API web o un servizio simile possono essere molto utili, ma non possono sostituire l’accesso diretto ai dati.

In an open, machine-readable format

Il ri-uso dei dati in possesso del settore pubblico non dovrebbe essere soggetto a restrizioni di brevetto. E, ancora più importante, fornire i dati in formato “machine-readable” consente un loro maggior riutilizzo. Per chiarire ciò, si consideri il caso di statistiche pubblicate come documenti PDF (Portable Document Format), spesso utilizzati per la stampa di alta qualità. Anche se queste statistiche possono essere lette da esseri umani, è molto difficile renderle utilizzabili dai computer e questo limita pesantemente la capacità da parte di altri di riutilizzare quei dati.

Di seguito una serie di politiche che possono essere di grande beneficio:

scegliere la semplicità,
rilasciare velocemente ed
essere concreti.

In particolare, è meglio rilasciare dati grezzi subito piuttosto che dati perfetti dopo sei mesi.

Ci sono molti modi per rendere i dati disponibili per gli altri. Il più naturale nell’era di Internet è la pubblicazione online. Ci sono molte varianti a questo modello. Nella sua forma elementare, gli enti pubblici rendono disponibili i loro dati attraverso i loro siti web e un catalogo centrale convoglia i visitatori verso la fonte appropriata. Tuttavia, esistono diverse alternative.

Quando la connettività è limitata o la dimensione dei dati è enorme, può essere opportuno distribuire i dati in altri modi. Questa sezione illustra le varie alternative disponibili, tenendo conto della necessità di mantenere molto bassi i prezzi.

Metodi online

Attraverso un sito web esistente

Il sistema più familiare per chi si occupa dei contenuti web di siti istituzionali pre-esistenti, è fornire file da scaricare dalle pagine web. Tali siti possono ospitare senza problemi i file di dati, visto che già forniscono accesso a documenti di discussione.

Una problematicità di questa scelta consiste nella difficoltà per un soggetto esterno al sito di reperire le informazioni aggiornate. Questa opzione pone quindi un peso rilevante sulle spalle di quanti sviluppino strumenti con i dati offerti.

Attraverso siti di terze parti

Molti repository (archivi online) sono diventati luoghi di raccolta di dati relativi a particolari settori. Per esempio, pachube.com è progettato per connettere soggetti interessati ai dati generati tramite dispositivi e applicazioni dotati di sensori in ambienti interattivi. Siti come Infochimps.com e Talis.com consentono agli enti del settore pubblico di immagazzinare gratuitamente una enorme quantità di dati .

I siti di terze parti possono risultare molto utili. Ciò per la principale ragione che già sono contemporaneamente un riferimento per una comunità di soggetti interessati e un punto di raccolta per altri insiemi di dati. Qualora i dati del sito istituzionale entrassero a far parte di tali piattaforme, si crea un tipo di integrazione positiva.

Piattaforme per l’offerta in massa di dati già costituiscono un’infrastruttura in grado di supportare la potenziale domanda. Spesso forniscono strumenti di analisi e informazioni sul tipo di uso. Per gli enti del settore pubblico, inoltre, sono generalmente gratuite.

Tali piattaforme possono avere due costi. Il primo è l’indipendenza. L’ente deve essere in grado di cedere il controllo ad altri attori. Questo è spesso politicamente, legalmente o operativamente difficile. Il secondo tipo di costo riguarda l’apertura. Bisogna assicurarsi che la piattaforma scelta per depositare i dati sia neutrale rispetto a chi può accedervi. Gli sviluppatori di software e i ricercatori usano diversi sistemi operativi, dagli smartphone ai supercomputer. Tutti dovrebbero essere in grado di accedere ai dati.

Attraverso server FTP

Un metodo meno alla moda per fornire accesso ai file avviene tramite il File Transfer Protocol (FTP). Tale approccio può essere adatto se il pubblico è tecnico, come nel caso di sviluppatori di software e ricercatori. Il sistema FTP funziona in sostituzione del protocollo HTTP, ed è specificamente progettato per supportare il trasferimento di file.

FTP è caduto in disuso. Non è visualizzabile come un sito web, ma l’accesso ad un server FTP è molto simile alla navigazione delle risorse e cartelle su un computer. Pertanto, anche se idoneo allo scopo, non offre molte possibilità per sviluppare visualizzazioni personalizzate per l’accesso ai dati.

Come file torrent

BitTorrent è un sistema divenuto familiare ai politici a causa della sua associazione con il concetto di violazione del diritto d’autore. BitTorrent utilizza dei file chiamati torrent, e funziona ripartendo la distribuzione di un file tra tutte le persone che lo stanno scaricando al momento. Invece di sovraccaricare i server, all’aumentare della domanda cresce anche l’offerta. Questa è la ragione del successo di questo sistema per la condivisione di film. Si tratta infatti di una soluzione meravigliosamente efficiente per distribuire grandi volumi di dati.

Attraverso una API

I dati possono essere pubblicati attraverso una {term:API (Application Programming Interface)}. Queste interfacce sono diventate molto popolari. Permettono ai programmatori di selezionare specifiche porzioni di dati, piuttosto che fornire tutti i dati in massa sotto forma di grandi file. Le API sono tipicamente collegate ad un database aggiornato in tempo reale. Ciò significa che rendere le informazioni disponibili tramite una API permette di garantire l’accesso a dati sempre aggiornati.

Pubblicare dati grezzi in massa dovrebbe essere l’interesse principale di tutte le iniziative open data. Ci sono una serie di costi nel fornire una API:

Il prezzo. Le API richiedono più sforzo di sviluppo e manutenzione rispetto all’offerta di semplici file.
Le aspettative. Al fine di promuovere una comunità di utenti nell’ambito del sistema, è importante garantirne la sicurezza. Nel caso di problemi, si dovranno sostenere i costi per risolverli.

L’accesso in massa ai dati assicura:

nessuna dipendenza dal fornitore originale dei dati, vale a dire che i dati rimangono disponibili, anche in presenza di ristrutturazioni o tagli di bilancio.
chiunque può ottenere una copia e ridistribuirli. Ciò riduce e sposta i costi di distribuzione dall’ente di provenienza sorgenti e implica che non si crei un punto unico di fallimento.
altri soggetti possono sviluppare i propri servizi utilizzando i dati, perché hanno la certezza che i dati non saranno loro tolti.

L’offerta in massa di dati permette ad altri soggetti di utilizzare i dati al di là del loro scopo originale. Ad esempio, possono essere convertiti in un nuovo formato, o collegati con altre risorse oppure offerti in versioni diverse o archiviati in più luoghi. Mentre la versione corrente dei dati sarà resa disponibile attraverso API, i dati grezzi dovrebbero essere resi disponibili in massa a intervalli regolari.

Ad esempio, il servizio statistico Eurostat ha un servizio che permette di scaricare oltre 4000 file di dati. È aggiornato due volte al giorno, offre dati in formato {term:valori separati da tabulatore (TSV)}, e include documentazione sulle modalità di download e sui dati.

Un altro esempio è il Catalogo dati del distretto di Columbia_, che consente di scaricare i dati in formato CSV ed XLS in aggiunta ad un feed in tempo reale dei dati.

Rendere i dati individuabili

Open data senza utenti è nulla. Si deve garantire che il pubblico possa rinvenire il materiale. Questa sezione vuole offrire diversi approcci in tal senso.

La cosa più importante è fornire uno spazio neutrale in grado di superare sia le diverse politiche dei vari enti sia i futuri cicli di bilancio. Conflitti di competenza, sia settoriali che geografici, possono rendere difficile la cooperazione. Tuttavia, ci sono vantaggi significativi nell’unire le forze. Se sarà più facile per gli esterni scoprire i dati, più velocemente saranno costruiti nuovi strumenti utili.

Strumenti esistenti

Esistono una serie di strumenti già presenti sul web che sono specificamente progettati per rendere i dati facilmente trovabili.

Uno di quelli di maggior successo è DataHub ed è un catalogo e deposito di dati di dataset provenienti da ogni parte del mondo. Il sito rende facile, per singole persone ed organizzazioni il modo di pubblicare il materiale e agli utenti di trovare i dati che a loro servono.

In aggiunta, ci sono decine di cataloghi specializzati per settori e luoghi differenti. Molte comunità scientifiche hanno creato un sistema di catalogo per i loro campi, visto che spesso è obbligatorio pubblicare i dati delle loro ricerche.

Per il governo

È diventata comune la pratica di avere un’ente capofila che crei un catalogo dei dati pubblici. Durante la creazione di questo catalogo, è opportuno creare una qualche struttura che consenta ai vari Dipartimenti di mantenere aggiornate le loro informazioni.

Resistete alla tentazione di costruire il software per supportare il catalogo da zero. Ci sono soluzioni di software libero open source (come ad esempio CKAN) che sono state scelte da molti governi. Per tale motivo, investire in un’altra piattaforma potrebbe essere non necessario.

Ci sono molte cose che mancano nella maggior parte dei cataloghi open data. La piattaforma da implementare dovrebbe considerare quanto segue:

Offrire la possibilità ai privati o comunità di aggiungere i propri dati. Può essere utile pensare al catalogo come il catalogo della regione, piuttosto che del Governo della Regione.
Facilitando il miglioramento dei dati permettendo derivati dei dataset da catalogare. Per esempio, qualcuno potrebbe geocodificare gli indirizzi e probabilmente voler condividere questo risultati con altri. Se si permettono versioni singoli di dataset, questi miglioramenti rimarranno nascosti.
Essere tolleranti se i dati appaiono altrove. Questo vuol dire che il contenuto probabilmente si troverà duplicato nelle comunità di interesse. Se si dispone di dati sul monitoraggio dei livelli de fiume, è probabile che i dati appariranno in un catalogo per idrologi.
Garantire un accesso equo. Evitare di creare un livello privilegiato di accesso per funzionari pubblici o ricercatori di ruolo questo potrebbe mettere in difficoltà la partecipazione e la crescita della comunità.

Per la società civile

Bisogna essere disponibili a creare un catalogo supplementare con dati non-ufficiali.

È molto raro che i governi si associno a fonti non ufficiali o non autorevoli. I funzionari sostengono spesso spese considerevoli per essere sicuri di evitare l’imbarazzo politico o altri danni causati da un uso improprio o sovrastimato dei dati.

Inoltre, è improbabile che i governi siano disposti a sostenere attività che mescolano le proprie informazioni con quelle provenienti da ambiti commerciali. I governi sono giustamente scettici sui moventi legati al profitto. Pertanto, un catalogo indipendente per i gruppi relativi a comunità, imprese e altri soggetti potrebbe essere giustificato.