guide

Kaip atverti duomenis?

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

Ši dalis yra vadovėlio branduolys. Jis duoda konkrečių, detalių patarimų, kaip duomenų savininkai gali tuos duomenis atverti. Mes pristatysime bazines taisykles, taip pat paminėsime dažnai daromas klaidas. Galiausiai aptarsime ir subtilesnius niuansus, kurie galėtų iškilti.

Yra trys pagrindinės taisyklėmis, kuriomis rekomenduojame vadovautis atveriant duomenis:

  • Darykite tai paprastai. Pradėkite po truputį, paprastai ir greitai. Nėra reikalavimo, kad kiekvienas duomenų rinkinys tuojau pat būtų atvertas. Jei pradėsite atverdami tik viena rinkinį, ar nors dalį didelio rinkinio - puiku. Žinoma, kuo daugiau atversite, tuo geriau.

Nepamirškite, kad tai - inovacija. Geriausia judėti kuo greičiau, taip sukursite pokyčių bangą ir įgausite patirties. Kuriant inovacijas, daug mokomasi ne tik iš sėkmės, bet ir iš klaidų. Ir ne kiekvienas atvertas duomenų rinkinys bus naudingas.

  • Anksti ir daug bendraukite su duomenų naudotojais. Bendraukite su esamais ir potencialiais žmonėmis, kurie duomenis naudoja ir pernaudoja, ar tai būtų piliečiai, verslininkai ar programuotojai. Tai užtikrins, kad kita jūsų duomenų atvėrimo proceso iteracija būtų maksimaliai prasminga.

Svarbu turėti omenyje, kad didelė dalis duomenų nepasieks jų vartotojų tiesiogiai, greičiau juos pasieks per tarpininkus: žmones, kurie duomenis adaptuoja ir jungia vienus su kitais. Pavyzdžiui, dauguma mūsų nenorime matyti ir mums nereikia didžiulės GPS koordinačių duomenų bazės, mums labiau patinka žemėlapis. Taigi, pirmiausia susiraskite tarpininkus. Jie pernaudos ir įprasmins informaciją.

  • Atkreipkite dėmesį į populiarias baimes ir nesusipratimus. Tai ypač svarbu, jei dirbate su didelėmis insitucijomis, tokiomis, kaip vyriausybė. Atverdami duomenis, susidursite su daugybe klausimų ir baimių. Svarbu a) suprasti, kurie iš jų svarbiausi ir b) kuo anksčiau spręsti didžiausias problemas.

Atveriant duomenis, daromi keturi pagrindiniai žingsniai, kuriuos žemiau detaliai aptarsime. Jų eilės tvarka labai apytikslė - didžioji dalis žingsnių gali būti daroma lygiagrečiai.

  1. Pasirinkite duomenų rinkinius. Išsirinkite, ką planuojate atverti. Turėkite omenyje, kad jūs galėsite (ir turėsite) grįžti prie šio žingsnio, jei vėliau susidursite su problemomis.
  2. Pritaikykite atvirą licenciją.
    1. Apsibrėžkite, kokias intelektinės nuosavybės teises turi duomenys.
  1. Pritaikykite tinkamą atvirą licenciją, kuri suteikia visas tas teises ir palaiko atvirumo apibrėžimą, kurį aptarėme aukščiau, skyriuje “Kas yra atviri duomenys”
  2. Pastaba: jeigu negalite to padaryti, grįžkite į pirmą žingsnį ir išsirinktie kitą duomenų rinkinį.
  1. Viešai paskelbkite duomenis - masiškai (in bulk) ir naudingu formatu. Galite apmąstyti alternatyvius būdus, kaip tai padaryti, pavyzdžiui, pasinaudojant API.
  2. Pasirūpinkite, kad duomenys būtų lengvai randami - paskelbkite internete, galbūt - sukurkite vieną pagrindinį visų atvirų duomenų katalogą.

Pasirinkite duomenų rinkinį(-ius)

Pirmas žingsnis yra pasirinkti duomenų rinkinius, kuriuos planuojate atverti, tačiau nepamirškite, kad visas duomenų atvėrimo procesas yra iteracinis ir jūs galėsite grįžti į pirmą žingsnį, jei vėliau susidursite su problemomis.

Jei jau žinote, kokius duomenų rinkinius bandysite atverti, galite iš karto skaityti kitą skyrių. Tačiau daugeliu atveju, ypač didelėse institucijose, pasirinkti duomenų rinkinius yra iššūkis. Kaip tokiu atveju elgtis?

Šio sąrašo sukūrimas turėtų būti greitas procesas, apibrėžiantis, nuo kurių duomenų galima pradėti atvėrimą. Vėliau, kituose žingsniuose, galima bus kruopščiau patikrinti, ar tie duomenųs tinkami.

Nėra reikalavimo sudaryti išsamų jūsų duomenų rinkinių sąrašą. Čia svarbiausia, ar apskritai įmanoma duomenis paskelbti (tiek atvirai, tiek ir neatvirai) - žr. prieš tai buvusį skyrių.

Klauskite bendruomenės

Mes rekomenduojame pirmiausia paklausti bendruomenės. Tai žmonės, kurie naudos duomenis, jie ir galės pasakyti, kurie duomenys galėtų būti naudingi.

  1. Paruoškite trumpą sąrašą tų duomenų rinkinių, kurie turi potencialą būti paskelbti ir apie kuriuos norėtumėte visuomenės nuomonės. Sąrašas nebūtinai turi atitikti jūsų lūkesčius, svarbiausia yra pajusti duomenų paklausą. Galite imti pavyzdį ir iš kitų šalių atvirų duomenų katalogų.
  2. Sudarykite galimybę komentuoti
  3. Paskelbkite kvietimą komentuoti svetainėje. Užtikrinkite, kad kvietimas turi savo URL nuorodą, kad dalinantis kvietimu socialiniuose tinkluose, būtų lengva rasti kvietimą.
  4. Pasirūpinkite, kad būtų paprasta komentuoti. Nereikalaukite registracijos, kadangi tai sumažina komentarų skaičių.
  5. Išplatinkite kvietimą el. pašto grupėse, forumuose, ir tarp atskirų žmonių.
  6. Surenkite konsultacinį renginį. Pasistenkite, kad jis vyktų patogiu vidutiniam verslo žmogui, duomenų entuziastui ar viešojo sektoriaus darbuotojui laiku.
  7. Paprašykite politiko pakalbėti jūsų įstaigos vardu. Atviri duomenys greičiausiai susiję su valstybinės informacijos prieinamumo didinimo politika

Paskelbimo kaina

Kiek pinigų institucijos išleidžia rinkti ir palaikyti duomenis, kuriuos jos turi? Jei jos kažkuriai duomenų daliai išleidžia daug pinigų, tuomet tikėtina, kad būtent tos dalies ir norės dauguma žmonių.

Šis argumentas kažkuo panašus į “balsavimą” kelyje. Jums gali tekti atsakyti į klausimą: “Kodėl kiti žmonės turėtų nemokamai gauti informaciją, kuri tokia brangi?”. Atsakymas - kad jos kainą sumoka viešasis sektorius tam, kad atliktų kažkokią funkciją. O kai duomenys jau surinkti, jų atvėrimo kaina yra nykstamai maža. Taigi, duomenys neturi nieko kainuoti.

Ar lengva skelbti duomenis?

Kartais, užuot ieškant vertingiausių duomenų, gali būti naudinga pažiūrėti, kuriuos duomenis atverti yra lengviausia. Maži ir greiti atvėrimai gali veikti kaip katalizatorius didesniems pokyčiams organizacijose.

Tačiau būkite atsargūs. Gali taip nutikti, kad maži duomenų rinkiniai yra tiek menkai vertingi, kad iš jų nieko negalima padaryti. Jei taip nutiks, susvyruos pasitikėjimas visu projektu.

Stebėkite kolegas

Atvirų duomenų judėjimas yra augantis. Greičiausiai netoli savęs rasite žmonių, kurie žino, kas su atvirais duomenimis vyksta kitur. Sudarykite sąrašą remdamiesi tuo, ką daro kitos institucijos.

Pritaikykite atvirą licenciją (teisinis atvirumas)

Daugelyje jurisdikcijų egzistuoja intelektinės nuosavybės teisės, ribojančios galimybes trečiosioms šalims naudoti, pernaudoti ir platinti duomenis be atskiro leidimo. Net tada, kai abejojama dėl tokių teisių egzistavimo, svarbu pritaikyti atviriems duomenims licenciją, bent jau aiškumo dėlei. Taigi, jei planuojate duomenis skelbti viešai, pritaikykite jiems licenciją, o jei norite, kad jūsų duomenys būtų atviri_ - tai netgi dar svarbiau.

Kokias licencijas galima naudoti? Mes rekomenduojame atviriems duomenims naudoti vieną iš licencijų, kurios suderinamos su atvirumo apibrėžimu_ ir pažymėtos kaip tinkamos duomenims. Šis sąrašas (kartu su naudojimo instrukcijomis) gali būti rastas čia:

Trumpos vieno puslapio rekomendacijos, kaip taikyti atvirų duomenų licenciją, yra “Open Data Commons” svetainėje:

Padarykite duomenis techniškai atvirus

{term:Atviri duomenys <open data>} turi būti atviri ne tik teisiškai, bet ir techniškai. Tai yra, duomenys turi būti prieinami masiškai (in bulk) ir {term:kompiuteriams patogiu formatu <machine-readable format>}.

Available

Duomenų kaina turėtų būti ne didesnė, nei pagrįsta savikaina, geriausia, jei juos galima nemokamai atsisiųsti internete. Toks kainos modelis pasiekiamas tada, kai duomenis atverianti įstaiga nenaudoja didelių resursų, pateikdama juos naudojimui.

In bulk

Duomenys turėtų būti gaunami kaip vienas pilnas duomenų rinkinys. Jei turite registrą, kurį pildote ir palaikote pagal nuostatus, tuomet visas registras turėtų būti atsisiunčiamas. API ar panašus būdas taip pat gali būti labai naudingas, bet jis nepakeičia galimybės gauti visus duomenis masiškai.

In an open, machine-readable format

Viešojo sektoriaus turimų duomenų pernaudojimas neturėtų turėti jokių patentinių apribojimų. Didžiausio masto pernaudojimą garantuoja mašininiu būdu skaitomi formatai. Pavyzdžiui, įsivaizduokite statistiką, paskelbtą PDF (Portable Document Format) dokumentuose, kurie skirti spausdinimui. Tokią statistiką patogu skaityti žmogui, tačiau labai sunku suprasti kompiuteriui. Tai riboja galimybes tuos duomenis pernaudoti ir iš jų kažką sukurti.

Štai keli labai naudingi patarimai:

  • Viską darykite paprastai,
  • judėkite greitai,
  • ir būkite pragmatiški.

Pavyzdžiui, geriau jau dabar atiduoti pirminius, neapdorotus duomenis, nei tobulai sutvarkytus duomenis po šešių mėnesių.

Yra daug skirtingų būdų, kaip duomenis padaryti prieinamus kitiems. Natūraliausias, šiais interneto laikais, yra skelbimas internete. Tą galima daryti daugeliu būdų. Paprasčiausia - institucijoms skelbti duomenis savo interneto svetainėse, o centrinis katalogas nukreipia lankytojus į duomenų šaltinį. Tačiau yra ir alternatyvų.

Kai {term:interneto ryšys <connectivity>} ribotas, arba duomenų kiekis ypatingai didelis, galima platinti kitokiais formatais. Šiame skyriuje bus aptartos alternatyvos, kuriomis pasinaudojus, galima tai padaryti pigiai.

Skelbimo internete būdai

Talpinimas savo svetainėje

Jūsų darbuotojams, tvarkantiems internete skelbiamą turinį, geriausiai pažįstamas formatas yra sudėti failus atsisiuntimui. Taip, kaip dabar skelbiate aptariamus dokumentus, taip ir duomenų failai gali būti paskelbti.

Šio būdo trūkumas yra tai, kad tokiu būdu pašaliniam žmogui gali būti sunku rasti naujausią informaciją. Žmonėms, kurie, pasinaudodami jūsų duomenimis, kuria įrankius, toks būdas nepatogus.

Talpinimas naudojantis trečiųjų šalių portalais

Daugelis duomenis talpinančių portalų tapo duomenų centrais tam tikrose srityse. Pavyzdžiui, pachube.com skirtas jungti žmones, kurie turi sensorius, su žmonėmis, kurie nori pasiimti iš jų duomenis. Tokie portalai, kaip Infochimps.com ir Talis.com, leidžia viešajam sektoriui nemokamai talpinti didelius informacijos kiekius.

Trečiųjų šalių portalai gali būti labai naudingi, nes jie jau yra pritraukę besidominičiųjų bendruomenes bei surinkę kitų duomenų. Jei jūsų duomenys yra šių platformų dalis, jie sulaukia papildomo susidomėjimo.

Didmeninės duomenų platformos suteikia infrastruktūrą, kuri gali patenkinti poreikį. Jos taip pat suteikia įrankius analizei atlikti ir duomenims analizuoti. Šie įrankiai viešojo sektoriaus įstaigoms paprastai būna nemokami.

Platformos turi ir savo kainą. Visų pirma, tai nepriklausomybė. Jūsų įstaiga turi galėti atiduoti kontrolę kitiems. Dažnai tai sunku ir politiškai, ir teisiškai, ir techniškai. Visų antra, tai gali kainuoti ir atvirumą. Įsitikinkite, kad duomenų platforma neriboja priėjimo prie jos. Programinės įrangos kūrėjai ir mokslininkai naudoja daug įvairių operacinių sistemų, nuo išmaniųjų telefonų iki superkompiuterių. Visi jie turi turėti galimybę prieiti prie duomenų.

Per FTP serverius

Ne toks madingas būdas - suteikti prieigą prie failų per FTP (File Transfer Protocol). Tai gali tikti, jei auditorija techninė, pavyzdžiui, programuotojai ar mokslininkai. FTP naudojama vietoje HTTP, ir yra skirta keistis failais.

FTP jau nebėra taip populiaru. Lyginant su interneto svetaine, FTP naudojimas prilygsta aplankų peržiūrinėjimui kompiuteryje. Todėl, nors FTP ir tinka naudoti pagal paskirtį, tačiau turi daug mažiau galimybių.

Naudojantis torrent-ais

BitTorrent - tai sistema, politiką formuojančioms institucijoms pažįstama dėl asociacijos su piratavimu. BitTorrent naudoja bylas, vadinamas torrent-ais, kurie padalina keitimosi bylomis resursus tarp visų besikeičiančiųjų jomis. Skirtingai nei serverių atveju, kuomet jie gali būti perkrauti, naudojant torrent-us, resursų pasiūla didėja kartu su paklausa.

Suteikiant API

Duomenys gali būti skelbiami naudojant {term:Aplikacijų programavimo sąsają <Application Programming Interface>} (API). API labai išpopuliarėjo, nes leidžia programuotojams pasirinkti jiems reikalingus duomenis vietoj masinio duomenų rinkinio atsisiuntimo. API paprastai būna sujungta su duomenų baze, kuri atnaujinama realiu laiku. Tai reiškia, kad per API prieinama informacija visada atnaujinta ir aktuali.

Skelbti pirminius duomenis masiškai (in bulk) turi būti visų atvirų duomenų iniciatyvų tikslas. API naudojimas turi ir savo kainą:

  1. Kaina. Norint paruošti API, reikia daugiau programavimo ir palaikymo, nei pateikiant failus.
  2. Lūkesčiai. Puoselėjant sistemos vartotojų bendruomenę, svarbu užtikrintumas. Jei kažkas bus negerai, jums teks atsakomybė taisyti klaidas.

Masinė (bulk) prieiga prie visų duomenų užtikrina, kad:

  • Nėra priklausomybės nuo originalaus duomenų teikėjo, vadinasi, įvykus restruktūrizacijai ar pasikeitus biudžetams, duomenys vis tiek bus prieinami.
  • bet kas gali duomenis nusikopijuoti ir platinti. Tai sumažina platinimo kainą, nes naudojami ne vien tik įstaigos resursai, be to, mažesnė duomenų dingimo tikimybė.
  • kiti gali kurti nuosavas paslaugas, kurios naudoja duomenis, nes yra tikri, kad duomenys nebus atimti.

Masinis (bulk) priėjimas prie visų duomenų iš karto leidžia tuos duomenis naudoti plačiau nei pagal originalią paskirtį. Pavyzdžiui, galima juos konvertuoti į naują formatą, susieti su kitais duomenimis arba versijuoti ir saugoti įvairiose vietose. Naujausia duomenų versija gali būti suteikiama per API, tačiau pirminiai duomenys taip pat turi būti reguliariai pateikiami masiniu (bulk) formatu.

Pavyzdžiui, Eurostat statistical service leidžia parsisiųsti duomenis ir pateikia virš 4000 duomenų failų. Duomenys atnaujinami dukart per dieną, pateikiami {term:Tabuliavimo žymėmis atskirtų reikšmių} (TSV) formatu, taip pat pateikiama dokumentacija apie failų atsisiuntimą ir pačius failus.

Kitas pavyzdys yra ‘Kolumbijos apskrities Duomenų Katalgoas’_, kuris leidžia duomenis atsisiųsti ne tik CSV ir XLS formatais, bet ir prisijungti prie atnaujinimų srauto (live feed).

Pasirūpinkite, kad duomenys būtų randami

{term:Atviri duomenys <open data>} be vartotojų nieko verti. Turite užtikrinti, kad žmonės gali rasti informacijos šaltinį. Šis skyrius aptars skirtingus būdus tai padaryti.

Svarbiausia yra rasti neutralią erdvę, kurios nepalies nei tarpinstitucinė politika, nei biudžeto perskirstymai. Jurisdikcinės ribos, ar administracinės, ar geografinės, gali apsunkinti bendradarbiavimą. Kita vertus, yra pliusų ir prisijungiant prie kurios nors pusės. Kuo lengviau pašaliniams žmonėms duomenis rasti, tuo greičiau bus kuriami nauji naudingi įrankiai.

Esami įrankiai

Egzistuoja nemažai įrankių, veikiančių internete ir leidžiančių lengviau rasti duomenis.

Vienas iš žinomiausių yra DataHub - tai katalogas ir duomenų saugykla duomenų rinkiniams iš viso pasaulio. Jis leidžia žmonėms ir organizacijoms lengvai skelbti turinį, o duomenų naudotojams - lengvai jį rasti.

Be to, yra daugybė specialių katalogų įvairioms sritims ir vietoms. Daugelis akademinių bendruomenių turi susikūrusios katalogus pagal savo sritis, kadangi jiems nuolat reikia duomenų.

Vyriausybei

Tradiciškai, pagrindinė valdančioji institucija apsiima kurti valdžios duomenų katalogą. Kurdami katalogą, pasistenkite sudaryti tokią struktūrą, kuri leistų departamentams lengvai atnaujinti informaciją.

Atsispirkite pagundai kurti programinę įrangą nuo nulio. Yra daugybė nemokamų atviro kodo sprendimų (tokių kaip CKAN), kuriuos jau naudoja daugelis vyriausybių. Taigi, investuoti į dar vieną platformą nebūtina.

Yra keletas dalykų, kurių stokoja dauguma atvirų duomenų katalogų. Galima būtų atkreipti dėmesį apie šiuos:

  • Sudarykite sąlygas privatiems ir bendruomeniniams sektoriams pridėti savo duomenis. Galbūt verta katalogą traktuoti ne kaip regiono valžios katalogą, o tiesiog kaip regiono katalogą.
  • Duomenų tobulinimo palengvinimas, leidžiant įtraukti į katalogą iš tų duomenų sukurtas naujus duomenis. Pavyzdžiui, kas nors gali paversti adresus koordinatėmis ir pasidalinti šiomis koordinatėmis su visais. Jei to neleidžiate, tokiais patobulinimais niekas negalės pasinaudoti.
  • Būkite tolerantiški, jei matysite savo duomenis pasirodant įvairiose vietose. Tikėtina, kad žmonės kopijuos juos dominantį turinį. Pavyzdžiui, jei turite upių lygio matavimo duomenis, jie gali atsidurti hidrologų kataloge.
  • Užtikrinkite vienodas prieigos prie duomenų teises. Nesukurkite privilegijuotos prieigos valstybės tarnautojams arba finansuojamiems mokslininkams, kadangi tai ribos visuomenės dalyvavimą ir įsitraukimą.

Visuomenei

Pasiruoškite sukurti ir papildomą katalogą nevalstybiniams duomenims.

Vyriausybės retai kada bendrauja su neoficialiais ir nepatikimais šaltiniais. Valdininkai stengiasi išvengti politinės gėdos ar kitos žalos kilusios dėl netinkamo duomenų naudojimo.

Be to, vyriausybės labai nenoriai remia veiklas, dėl kurių jų informacija suplakama su privataus sektoriaus informacija. Valstybinis sektorius skeptiškai vertina komercinius motyvus. Taigi, visuomenei, verslui ir kitiems gali prireikti nepriklausomo katalogo.