guide

Cum să deschizi datele

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  ne  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

Această secțiune reprezintă partea centrală a acestui ghid. Oferă sfaturi concrete și detailate pentru deținătorii de date despre cum pot să deschidă datele. Vom trece prin chestiunile de bază, dar vom arăta și pericolele. În final, vom discuta despre problemele mai subtile care pot apărea.

Noi recomandăm să fie urmate trei reguli de bază când se deschid date:

  • Nu complica lucrurile. E bine să începi cu puține date, pentru că e simplu și rapid. În acest moment, nu există cerințe să fie deschise toate seturile de date dintr-o dată. Dacă începi cu deschiderea unui set de date, sau chiar a unei părți dintr-un set mai mare de date, tot este bine – bineînțeles, cu cât poți să deschizi mai multe seturi de date, cu atât mai bine.

Nu uita că acest proces implică inovație. Este bine să te miști cât de repede posibil, pentru că înseamnă că poți lua avânt și învăța din experiență – inovația poate să ducă la eșec așa cum poate să ducă la succes și nu orice set de date va fi util.

  • Colaborează devreme și colaborează des. Colaborează cu utilizatori reali, potențiali și care refolosesc datele cât mai devreme și cât de des poți, fie aceștia cetățeni, afaceriști sau dezvoltatori. Astfel te vei asigura că următoarea iterație a serviciului tău va fi cât mai relevantă.

Este esențial să ai în vedere că o mare pare din date nu va ajunge la utilizatorii finali în mod direct, ci prin “info-mediari”. Aceștia sunt oamenii care iau datele și le transformă sau le recombină pentru prezentare. De exemplu, cei mai mulți dintre noi nu doresc sau nu au nevoie de o bază mare de date cu coordonate GPS, în schimb preferăm o hartă. De aceea, e bine să colaborezi prima dată cu infomediarii. Ei vor refolosi și vor găsi noi utilități materialului.

  • Abordează temerile și confuziile comune. Acest lucru este foarte important dacă lucrezi cu sau într-o instituție mare cum sunt cele guvernamentale. Când deschizi date, te vei lovi de o serie de întrebări și temeri. Este foarte important (a) să le identifici pe cele mai importante și (b) să le abordezi, pe cât posibil, din primele etape.

Deschiderea datelor presupune efecturarea a patru pași de bază, fiecare dintre ei fiind acoperiți în detaliu mai jos. Ordinea lor este aproximativă - mulți dintre acești pași pot fi făcuți simultan.

  1. Alege-ți setul (sau seturile) de date. Alege-ți setul/seturile de date pe care plănuiești să îl/le deschizi. Ai în vedere că poți (sau chiar ești nevoit) să te întorci la acest pas dacă întâmpini probleme într-o etapă ulterioară.
  2. * Folosește o licență deschisă.*
    1. Determină ce drepturi de proprietate intelectuală sunt în date.
  1. Aplică o licență “deschisă” potrivită care cuprinde toate aceste drepturi și se încadrează la definiția deschiderii care a fost discutată în secțiunea anterioară despre “Ce sunt datele deschise”.
  2. Observație: dacă nu poți să treci de acest pas, întoarce-te la primul pas și alege un alt set de date.
  1. Pune datele la dispoziție - tot volumul și într-un format accesibil. S-ar putea să iei în considerare alternative de publicare, cum este, de exemplu, o interfață de programare.
  2. Fă datele ușor de găsit - publică pe Internet și eventual organizează seturile tale de date deschise într-un catalog central care le listează.

Alegerea setului (seturilor) de date

Alegerea setului (seturilor) de date pe care intenționezi să îl deschizi este primul pas – deși ține minte că întregul proces de deschidere a datelor este iterativ și te poți întoarce la acest pas dacă întâmpini probleme ulterior.

Dacă știi deja care sunt seturile de date pe care intenționezi să le deschizi, poți să treci direct la secțiunea următoare. Totuși, în multe situații, în special în cazul instituțiilor mari, alegerea seturilor de date pe care să te concentrezi poate fi o provocare. Cum se procedează în acest caz?

Crearea acestei liste ar trebui să fie un proces rapid care identifică ce seturi de date pot fi deschise încă de la început. Va fi timp în fazele ulterioare pentru verificarea în detaliu dacă fiecare set de date este potrivit.

Nu există nici o cerință pentru crearea unei liste atotcuprinzătoare a seturilor tale de date. Principalul lucru de care trebuie ținut seama este fezabilitatea publicării acestor date (fie deschis, fie în alt fel) – vezi secțiunea “Care Date” de mai sus.

Consultarea comunității

Îți recomandăm în primul rând să întrebi comunitatea. Aceasta reprezintă persoanele care vor accesa și utiliza datele, astfel încât s-ar putea să aibă o bună înțelegere a datelor care ar putea fi de valoare.

  1. Pregătește o listă scurtă a eventualelor seturi de date asupra cărora dorești opinii. Nu este nevoie ca această listă să corespundă așteptărilor tale, intenția principală este să obții un indiciu asupra cererii. Lista se poate baza pe cataloagele de open data ale altor țări.
  2. Creează o solicitare de comentarii.
  3. Publică solicitarea ta pe o pagină web. Fii sigur că este posibilă accesarea solicitării printr-un URL propriu. Astfel, solicitarea poate fi găsită ușor când este distribuită prin rețele sociale.
  4. Pune la dispoziție modalități simple pentru trimiterea răspunsurilor. Evită înregistrări obligatorii, deoarece acestea reduc numărul răspunsurilor.
  5. Distribuie solicitarea prin liste de discuții relevante, forumuri și persoane individuale, direcționând către pagina principală.
  6. Organizează un eveniment de consultare. Fii sigur că acesta se desfășoară într-un moment potrivit pentru ca orice antreprenor, administrator de date și funcționar să poată participa.
  7. Solicită unui politician să vorbească în numele instituției tale. E posibil ca datele deschise să facă parte dintr-o politică mai largă de îmbunătățire a accesului la informațiile guvernamentale.

Baza de cost

Câți bani cheltuiesc instituțiile pentru colectarea și administrarea datelor pe cale le dețin? În cazul în care cheltuiala este mare pentru un anumit set de date, atunci este foarte probabil ca alții să dorească să le acceseze.

Acest argument poate fi destul de vulnerabil în fața temerilor privind beneficii nemeritate. Întrebarea la care va trebui să răspunzi este “de ce să obțină alte persoane în mod gratuit informații care sunt atât de costisitoare?”. Răspunsul este că acest cost este suportat de sectorul public pentru îndeplinirea unei anumite funcții. Costul transmiterii acestor date către terți, odată ce acestea au fost colectate, este practic nul. De aceea, nu ar trebui percepută nici o taxă.

Ușurința de publicare

Uneori, în loc de a decide care date ar fi cele mai valoroase, ar fi util să vezi care date sunt mai simplu de pus la dispoziția publicului. Publicări de date ușoare și în număr mic pot funcționa ca un catalizator pentru o schimbare mai largă a comportamentului în cadrul organizațiilor.

Totuși fii atent cu această abordare. Este posibil ca aceste publicări să fie de o valoare atât de mică încât să nu se poată dezvolta nimic pe baza lor. În acest caz, întregul proiect poate fi compromis.

Observă colegii

Datele deschise constituie o mișcare în creștere. Este posibil să fie mulți oameni în zona ta care înțeleg ce se întâmplă în alte domenii. Alcătuiește o listă pe baza a ceea ce fac alte instituții.

Aplicarea licențelor de tip deschis (libertatea legală)

În majoritatea jurisdicțiilor, există drepturi de proprietate intelectuală referitoare la date, care restricționează terții să utilizeze, reutilizeze și să distribuie date fără o permisiune explicită. Chiar in zonele unde existența acestor drepturi este incertă, este importantă existența și aplicarea unei licențe, pentru a dobândi mai multă transparență și claritate. În consecință, dacă plănuiești să dai acces la setul tău de date, ar trenbui să aplici o licență corespunzătoare - și dacă dorești să desemnezi datele ca și date de tip deschis, acest aspect este și mai important.

Ce tip de licență poți utiliza? Recomandăm ca pentru datele de tip deschis, să utilizezi una dintre licențele în conformitate cu Open Definition și să fie marcate in mod corespunzător. Această listă (împreună cu instrucțiunile de utilizare) poate fi găsită la:

Un scurt ghid de instrucțiuni de o pagină referitor la aplicarea licențelor pentru datele de tip deschis poate fi accesat la site-ul Open Data Commons:

Fă datele accesibile (deschiderea tehnică)

Open data trebuie să fie atât deschise din punct de vedere tehnic cât și din punct de vedere legal. Mai precis, datele trebuie să fie disponibile în vrac (bulk), într-un format care poate fi citit de către un calculator ({term:machine-readable}).

Available

Datele trebuie să fie disponibile la un preț mai mic decât costul rezonabil de reproducere, preferabil ca o descărcare gratuită de pe Internet. S-a ajuns la acest model de tarifare pentru că agenția ta nu trebuie să suporte nici un cost atunci când furnizează date utilizatorilor

In bulk

Datele ar trebui să fie disponibile sub forma unui set complet. Dacă ai un registru care este colectat sub această formă, întregul registru trebuie să fie disponibil pentru descărcare. O interfață de programare (API) web sau un serviciu similar ar putea fi deasemenea foarte utile, dar ele nu substituie accesul în vrac.

In an open, machine-readable format

Re-utilizarea datelor deținute de către sectorul public nu trebuie să fie subiectul unor restricții generate de licențe sau patente. Și mai important, dacă te asiguri că furnizezi datele in formate care pot fi citite automat, permiti un grad mai mare de re-utilizare. Pentru a ilustra acest fapt, ia în considerare datele statistice publicate ca documente în format PDF, un format ales uzual datorită calității de imprimare ridicat. În timp ce aceste statistici pot fi citite de către oameni, sunt foarte greu utilizabile de către un calculator. În acest mod este îngrădită major abilitatea altora de a re-utiliza datele.

Mai jos câteva direcții care vor aduce beneficii majore:

  • păstrează o formă simplă,
  • mișcă-te repede,
  • fii pragmatic.

În mod special este mai bine să furnizezi chiar acum datele brute, decât să furnizezi date într-un format perfect.

Sunt foarte multe moduri diferite de a face datele accesibile către alții. Cel mai natural mod, în epoca Internetului, este publicarea online. Există multe variațiuni ale acestui model. Formula de bază este ca agențiile care dețin date publice să asigure accesul la date prin intermediul proprilor sit-uri web, iar un catalog central direcționează vizitatorii către sursa adecvată. În orice caz, există alternative.

Când conectivitatea (connectivity) este limitată sau mărimea setului de date este este extrem de mare, ar putea fi asigurată distribuirea prin intermediul altor formate. Această secțiune va discuta alternative care ar putea avea un rol în a menține tarifele foarte scăzute.

Metode online

Prin intermediul sit-ului tău web deja existent

Sistemul care este cel mai familiar echipei tale de conținut web este de a furniza fișiere pentru a fi descărcate de pe pagini web. La fel cum oferiți în acest moment acces la documente pentru discuții, pot fi oferite și fișierele.

Problema este că este dificil pentru cineva din exterior să descopere unde poate să găsească informația actualizată. Această opțiune îngreunează crearea de unelte pentru datele respective, pentru anumite persoane.

Prin intermediul sit-urilor altor persoane

Multe depozite au devenit puncte central pentru distribuția datelor în anumite domenii. De exemplu, pachube.com este creat pentru a facilita conexiunea între persoanele care folosesc sisteme senzoriale cu cei doresc să acceseze datele deținute de ele. Sit-uri precum Infochimps.com și Talis.com permit agențiilor publice să stocheze gratis cantități mari de date.

Sit-urile altor persoane sunt foarte utile. Acest lucru se datorează faptului că ei au adunat deja o comunitate de persoane interesate și alte seturi de date. Atunci când informațiile tale fac parte din aceste platforme, se crează un interes comun.

Platforme de date în volum mare oferă infrastructura necesară care răspunde cererii. Adesea ele furnizează informații statistice și informații privind utilizarea. Pentru agențiile din sectorul public, acestea sunt în general gratuite.

Aceste platform implică două tipuri de costuri. Primul este independența. Agenția ta trebuie să poată preda controlul și altora. Acest lucru este adesea dificil din punct de vedere politic, legal sau operațional. Al doilea cost îl implică deschiderea. Asigură-te că platforma ta de date este accesibilă de către toată lumea. Dezvoltatorii de software și oamenii de știință folosesc multe sisteme de operare, de la telefoane inteligente la supercalculatoare. Ar trebui ca toată lumea să poată să acceseze datele.

Prin intermediul Protocolului pentru Transferul Fișierelor (FTP)

O metodă mai puțin la modă pentru acordarea accesului la fișiere este prin FTP. Acest lucru este potrivit atunci când audiența ta are cunoștințe tehnice, precum dezvoltatorii de software și oamenii de știință. Sistemele FTP înlocuiesc HTTP, dar sunt special create pentru transferal de fișiere.

FTP a ieșit din grații. Mai degrabă decât furnizarea unui sit, să te uiți printr-un server este ca și cum te-ai uita prin dosare într-un calculator. Deși este în concordanță cu obiectivul, capacitatea firmelor de dezvolatare web de a taxa pentru personalizare este mult mai mica.

Ca torenți

BitTorrents este un sistem care a devenit familiar celor care conturează politici datorită asocierii cu încălcarea dreptului de copier. BitTorrent folosește fișiere numite torenți, care funcționează prin împărțirea costului de distribuire a fișierelor între toate persoanele care accesează respectivele fișiere. În loc ca serverele să se supraîncarce, oferta creștea pe măsură ce creștea cererea. Acesta este motivul pentru care acest sistem este atât de eficient pentru distribuirea filmelor. Este o metodă foarte eficientă pentru distribuirea unor volume mari de date.

Ca API

Datele pot fi publicate prin Interfețe de Programare cu Aplicație (API). Aceste interfețe au devenit foarte cunoscute. Ele permit programatorilor să selecteze anumite fragmnte de date, mai degrabă decât să furnizeze toate într-un vrac (bulk), ca fișiere mari. API sunt conectate în mod obișbuit la o bază de date care este actiualizată în timp real. Acest lucru înseamnă că a face informația disponibilă prin intermediul unei API ne asigură că informația este actualizată la zi.

Publicarea datelor primare în volum mare ar trebui să fie principala preocupare a tuturor inițiativelor privind datele deschise. Interfețele de programare cu aplicație presupun o serie de costuri:

  1. Prețul. Au nevoie de mai multă mentenanță decât furnizarea fișierelor.
  2. Așteptările. Pentru a încuraja o comunitate de utilizatori să folosească sistemul, este important să ofero certitudine. Atunci când lucrurile nu merg bine, se va aștepta de la tine să acoperi costul reparațiilor.

Accesul la un volum mare de informații asigură că:

  • nu există dependență față de furnizorul primar de date, acest lucru însemnând că, dacă o restructurare sau un ciclu bugetar schimbă situația, informațiile sunt încă disponibile.
  • oricine altcineva poate obține o copie și o poate redistribui. Acest lucru reduce costurile cu distribuția, luându-le de la agenția sursă și presupune faptul că nu există un singur loc unde sunt stocate informațiile (single point of failure).
  • alții pot dezvolta propriile servicii folosind informațiile, pentru că au siguranța că informațiile nu le vor fi luate.

Furnizând informațiile în volum mare, le permite altora să folosească informațiile dincolo se scopul lor primar. De exemplu, permite ca acestea să fie transformate în formate noi, să fie conectate cu alte surse, sau să fie create alte versiuni și arhivate în multiple locații. În timp ce ultima versiune a informației poate fi pusă la dispoziție printr-o API, datele primare ar trebui puse la dispoziție în volum mare, la intervale regulate de timp.

De exemplu, serviciul de statistică Eurostat (http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/) conține posibilitatea de a descărca volume mari, oferind peste 4000 de fișiere de date. Este actualizat de două ori pe zi, oferă date în format cu valori separate tabular și include documentația privind fișierele de date și posibilitatea de descărcare.

Un alt exemplu este Catalogul de Date al Districtului Columbia (District of Columbia Data Catalog), care permite ca datele să fie descărcate în formate CSV și XLS, în plus față de actualizarea în timp real a datelor.

Fă datele cât mai ușor de găsit

Datele deschise (Open data) nu înseamnă nimic fără utilizatori. Trebuie să fii sigur de faptul că oamenii vor găsi materialul-sursă. Această secțiune va acoperi diverse abordări de acest gen.

Cel mai important lucru este crearea unui spațiu neutru care să poată depăși atât politicile inter-agenții, cât și ciclurile bugetare viitoare. Frontierele juridice, atât cele sectoriale, cât și cele geografice, pot face cooperarea dificilă. Cu toate acestea, există beneficii semnificative în cazul îmbinării acestor forțe. Cu cât este mai ușor pentru cei din afară să descopere datele, cu atât mai repede se vor construi instrumente noi și utile.

Instrumentele existente

Există un număr de instrumente ce pot fi găsite pe Internet care sunt create în mod special pentru a face datele mult mai ușor de descoperit.

Unul dintre cele mai proeminente este DataHub, un catalog și un magazin de date pentru seturi de date din întreaga lume. Acest site facilitează publicarea materialelor de către persoane fizice și organizații și descoperirea lor de către utilizatorii de date.

Mai mult decât atât, există numeroase cataloage specializate din diverse sectoare și domenii. Multe comunități științifice au creat un sistem de cataloage pentru domeniile pe care le reprezintă, deoarece adesea sunt necesare diverse date pentru ca materialele respective să poată fi publicate.

Pentru guvern

Pentru o agenție de top, crearea unui catalog pentru datele provenite de la guvern reprezintă o practică ortodoxă. Atunci când creezi un catalog, încearcă să stabilești niște structuri care să le permită numeroaselor departamente să-și actualizeze informația ușor.

Rezistă tentației de a construi un software care să împiedice deteriorarea catalogului. Există soluții software libere și cu sursă deschisă (FOSS) care au fost deja adoptate de multe guverne. Prin urmare, investițiile într-o altă platformă nu sunt necesare.

Există câteva lucruri care lipsesc adesea din cataloagele de date deschise. Programul dumneavoastră le-ar putea lua în considerație pe următoarele:

  • Elaborarea unei căi care ar permite sectorului privat și cel comunitar să adauge propriile lor date. Ar fi util să te gândești la catalogul de date mai degrabă ca la unul regional decât ca la unul ce aparține guvernului.
  • Facilitarea îmbunătățirii datelor prin permiterea seturilor derivate de date de a fi catalogate. De exemplu, cineva ar putea adăuga o geolocație adreselor și ar dori să împărtășească aceste rezultate cu toată lumea. Dacă nu vei permite versiuni derivate, ci doar singulare, aceste îmbunătățiri vor rămâne inaccesibile.
  • Fii tolerant cu apariția datelor tale oriunde în altă parte. Asta înseamnă că există posibilitatea ca acest conținut să fie duplicat pentru comunitățile de interes. Dacă deții date cu privire la monitorizarea nivelului râurilor, de exemplu, este foarte probabil ca acele date să apară într-un catalog al hidrologilor.
  • Asigură-te că accesul este echitabil. Încearcă să eviți crearea unui nivel privilegiat de acces pentru oficiali sau cercetători titularizați, deoarece aceasta va submina participarea și implicarea comunității.

Pentru societatea civilă

Fii dispus de a crea un catalog suplimentar pentru datele neoficiale.

Situațiile în care guvernele se asociază cu surse neoficiale sau ne-autorizate sunt foarte rare. Adeseori, oficialii au făcut tot posibilul să se asigure că nu vor exista situații politice stânjenitoare sau nu vor fi cauzate alte prejudicii din cauza folosirii improprii a datelor sau încrederii depline în acestea.

Mai mult decât atât, e puțin probabil ca guvernele să fie dispuse să sprijine activități prin care informațiile lor sunt puse laolaltă cu cele ale întreprinderilor. Guvernele sunt pe bună dreptate sceptice pe motive de profit. Așadar, crearea unui catalog independent for grupuri de comunități, afaceriști sau altele poate fi justificată.