Hoe Data te Openen
Deze sectie vormt de kern van dit handboek. Het geeft concreet, gedetailleerd advies over hoe datahouders data open kunnen maken. We zullen de basis behandelen, maar ook de struikelpunten. Tot slot zullen we de meer genuanceerde problemen die kunnen voorkomen behandelen.
Er zijn drie hoofdregels die wij aanraden te volgen wanneer men data open wil maken.
- Hou het simpel. Begin klein, eenvoudig en snel. Er is geen vereiste dat elke dataset direct op dit moment open gemaakt wordt. Begin met het open maken van een enkele dataset, of misschien zelfs maar een deel van een grote dataset, dit is prima – natuurlijk, hoe meer datasets u kunt openen, hoe beter.
Vergeet niet dat dit over innovatie gaat. Zo snel mogelijk vooruit gaan is goed, omdat het betekent dat je momentum kan opbouwen en leren uit ervaring - innovatie gaat zowel over mislukking als over succes en niet elke dataset zal nuttig zijn.
- Engageer vroeg en engageer veel. Engageer met echte en potentiële gebruikers en hergebruikers van de data zo vroeg en vaak mogelijk als u kunt, of het nou gewone mensen zijn, bedrijven of ontwikkelaars. Dit zal er voor zorgen dat de volgende iteratie van uw dienst zo relevant mogelijk zal zijn.
Het is van groot belang om in gedachten te houden dat het grootste gedeelte van de data de uiteindelijke gebruikers niet rechtstreeks zal bereiken, maar eerder via ‘info-mediatoren’. Dit zijn de mensen die de data nemen en het transformeren of samenvoegen om zo gepresenteerd te worden. Bijvoorbeeld, de meesten van ons hoeven of willen geen grote database met GPS coördinaten; we hebben liever een kaart. Engageer daarom dus eerst met infomediatoren. Zij zullen het materiaal hergebruiken en het een nieuw doel geven.
- Besteed aandacht aan veelvoorkomende angsten en misverstanden. Dit is vooral belangrijk als u werkt met of in grote instituten zoals de overheid. Wanneer u data open maak zult u veel vragen en angsten tegenkomen. Het is belangrijk om (a) de belangrijksten hiervan te identificeren en (b) deze op een zo vroeg mogelijk stadium aan te kaarten.
Er zijn vier belangrijke stappen bij het open maken van data; deze zullen hier beneden elk diepgaand worden behandeld. De stappen staan in een erg vrije volgorde - veel van de stappen kunnen op hetzelfde moment worden gedaan.
- Kies uw dataset(s). Kies de dataset(s) die u van plan bent open te maken. Houdt u hierbij in gedachten dat u terug kunt (mogelijk terug moet) naar deze stap als u in een later stadium problemen tegenkomt.
- * Pas een open licentie toe.*
- Bepalen welke intellectuele eigendomsrechten bestaan in de data.
- Pas een geschikte ‘open’ licentie toe die al deze rechten gunt en die de definitie van openheid ondersteunt, zoals besproken in het deel boven ‘What Open Data’
- NB: als je dit niet kan ga dan terug naar stap 1 en probeer een andere dataset.
- * Maak de gegevens beschikbaar* - in bulk en in een handig formaat. U kunt ook alternatieve manieren overwegen om gegevens beschikbaar te maken, zoals via een API.
- Maak het vindbaar - post op het web en organiseer eventueel een centrale catalogus om uw open datasets op te sommen.
Kies Dataset(s)
Het kiezen van de dataset(s) die je open wilt maken is de eerste stap. Realiseer je je echter, het proces van het openen van data is iteratief. Je kunt steeds weer terug gaan naar deze eerste stap, als je later op problemen zou stuiten.
Als je van tevoren precies weet welke dataset (s) je wenst te openen, kun je doorgaan naar de volgende sectie. In veel gevallen echter, met name bij grote organisaties, is de grote uitdaging het kiezen van een focus op bepaalde datasets. Hoe kun je in dat geval het beste verder gaan?
Deze lijst aanmaken is een snelle manier om alvast aan te geven welke datasets zouden kunnen worden geopend. Later is er tijd om in meer detail de geschiktheid van elke dataset na te gaan.
Het is geen vereiste om een uitvoerige lijst van uw datasets te maken. Het belangrijkste punt om in gedachten te houden is of het haalbaar is of niet om de data überhaupt te publiceren (open, of op een andere manier) - zie :ref: ` this previous section <welke-data-kan-open-worden-gemaakt> .
Vragen aan de community
We bevelen aan om in in eerste instantie dit aan de community te vragen. Dat zijn de mensen die toegang willen tot de data en ze ook willen gebruiken, omdat zij waarschijnlijk het beste kunnen beoordelen welke data betekenisvol kunnen zijn.
-
Maak een korte lijst met potentiële datasets waar u feedback op zou willen hebben. Het is niet essentieel dat deze lijst overeenkomt met uw verwachtingen; het voornaamste doel is om een gevoel te krijgen voor de vraag. Dit zou gebaseerd kunnen worden op de :term: open data ` -catalogussen van andere landen.
- Maak een verzoek voor commentaar.
- Publiceer je verzoek met een webpagina. Verzeker jezelf ervan dat het mogelijk is om toegang te krijgen tot het verzoek via een eigen URL. Op deze manier, wanneer het verzoek via sociale media gedeeld wordt, kan het verzoek makkelijk teruggevonden worden.
- Zorg voor eenvoudige manieren om te reageren. Vermijd verplichte registratie aangezien dit het aantal reacties doet afnemen.
- Laat het verzoek rouleren op relevante mailing lijsten, forums en bij individuen, waarbij het refereert aan de basis webpagina.
- Organiseer een overlegmoment. Zorg ervoor dat je hiervoor een geschikt tijdstip uitkiest zodat de gemiddelde professional, databewerker en ambtenaar aanwezig kan zijn.
- Vraag een politicus om te spreken in naam van uw bureau. Open Data maakt zeer waarschijnlijk deel uit van een breder beleid over de toegang tot overheidsinformatie.
Kostprijs
Hoeveel geld besteden organisaties en bureaus aan het verzamelen en onderhouden van gegevens die zij tot hun beschikking hebben? Als zij veel geld besteden aan een specifiek gegevensbestand, dan is het waarschijnlijk dat anderen daar graag toegang toe zouden hebben.
Dit argument werkt zorgen over een onbegrensde vrijbrief van omgang met gegevens in de hand. De vraag die je gesteld zult krijgen is: “Waarom zouden mensen kostbaar vergaarde informatie gratis mogen krijgen?” Het antwoord is dat de kosten zijn gedekt uit publieke middelen om een specifiek doel te bereiken. De kosten van het beschikbaar stellen van data aan een 3e partij, wanneer ze eenmaal zijn verzameld, zijn verwaarloosbaar. Daarom zou daarvoor geen geld gevraagd moeten worden.
Gemak van de vrijgave
Soms kan het zinvol zijn om, in plaats van te besluiten welke data nu het meest waardevol zijn, te kijken naar data waarvan het relatief gemakkelijk is om ze publiek te ontsluiten. Bescheiden, makkelijke uitgiftes van data kunnen als katalysator dienen van gedragsverandering binnen organisaties.
Wees echter wel voorzichtig met deze aanpak. Het kan voorkomen dat deze kleine versies van zo weinig waarde zijn dat er niets mee wordt aangevangen. Als dit gebeurt, kan het vertrouwen in het hele project worden ondermijnd.
Let op collega’s
Open data is een groeiende beweging. Waarschijnlijk zijn er veel mensen op uw gebied die begrijpen wat andere gebieden uitvoeren. Maak een lijst op basis van wat die instellingen doen.
Apply an Open License (Legal Openness)
In de meeste rechtsgebieden zijn er intellectuele eigendomsrechten in data die voorkomen dat derden de data kunnen gebruiken, hergebruiken en heruitgeven zonder expliciete toestemming. Zelfs in plaatsen waar het bestaan van zulke rechten niet zeker is, is het belangrijk om een licentie toe te kennen simpelweg voor de duidelijkheid. Dus, als u van plant bent om uw data beschikbaar te maken, zou u het een licentie moten toekennen - en als u wilt dat uw data ` open ` _ wordt, is dit des te belangrijker.
Wat voor licenties kun je gebruiken? Wij bevelen aan om voor ‘open’ data een van de licenties te gebruiken die correspondeert met de ‘Open Definition’ _ en is aangemerkt als geschikt voor data. Deze lijst (gekoppeld aan een gebruikersinstructie) kun je hier vinden:
Een korte instructiegids van 1 pagina om een open data licentie aan te vragen is te vinden op de Open Data Commons site:
Maak gegevens beschikbaar (Technische Openheid)
- term
-
` Open data ` moet zowel technisch open als wettelijk open zijn. Om precies te zijn, de data moet beschikbaar zijn in bulk in een :term: ` machine-leesbaar ` format.
Available
Gegevens moeten worden geprijsd op niet meer dan een redelijke kostprijs van de reproductie, bij voorkeur als een gratis download van het internet. Dit prijsmodel is bereikt doordat uw tussenkomst niets mag kosten wanneer het komt tot het verstrekken van data.
In bulk
De data moet beschikbaar zijn als een complete set. Als u een register heeft dat verzameld is onder statuut, moet eigenlijk het hele register beschikbaar zijn voor downloaden. Een web API of vergelijkbare service kan ook nuttig zijn, maar zijn geen vervanging voor bulk toegang.
In an open, machine-readable format
Hergebruik van data die gehouden wordt door de publieke sector zou niet onderworpen moeten zijn aan patentbeperkingen. Belangrijker nog, zorgt u er voor dat u machine-leesbare formats aanbiedt, om zo de grootst mogelijke herbruikbaarheid te creëren. Om dit te illustreren, beschouw statistieken gepubliceerd als :abbr: ` PDF (Portable Document Format) ` documenten, vaak gebruikt voor hoge kwaliteit printen. Hoewel deze statistieken gelezen kunnen worden door mensen, zijn ze erg moeilijk te gebruiken voor een computer. Dit beperkt de mogelijkheid voor anderen om deze data te hergebruiken enorm.
Hier zijn een aantal richtlijnen dat van groot nut zullen zijn:
- Hou het simpel,
- Werk snel
- Wees pragmatisch.
In het bijzonder is het beter nu raw data te geven dan perfecte data binnen zes maanden.
Er zijn veel verschillende manieren waarop data beschikbaar kan worden gemaakt voor anderen. Het meest natuurlijk in het internettijdperk is online publicatie. Er zijn veel variaties op dit model. Op het meest basale niveau maken instanties hun data beschikbaar via hun websites en een centrale catalogus dirigeert bezoekers naar de juiste bron. Echter, er zijn alternatieven.
Als de :term: ` connectiviteit ` beperkt is of wanneer de data zeer groot is, kan verspreiding via andere formats gerechtvaardigd zijn. Deze sectie zal ook alternatieven bespreken die gebruikt kunnen worden om de prijzen zeer laag te houden.
Online methoden
Via uw bestaande website
Het systeem wat het meest vertrouwd zal zijn voor uw webinhoud-team is om bestanden voor downloaden aan te leveren vanaf webpagina’s. Net zoals u op dit moment toegang verschaft tot discussie-documenten, vinden databestanden het prima om op deze manier beschikbaar te worden gemaakt.
Een obstakel van deze aanpak is dat het erg lastig is voor een buitenstaander om uit te vinden waar geüpdate informatie te vinden is. Deze optie belast enigszins de mensen die tools maken met uw data.
Via websites van derden
Veel opslagplaatsen zijn knooppunten van data geworden op bepaalde gebieden. Bijvoorbeeld pachube.com, dat ontworpen is om mensen met sensoren te verbinden met degenen die bij de gegevens van deze sensoren willen.Websites als Infochimps.com en Talis.com staan overheidsbedrijven toe om enorme hoeveelheden data gratis op te slaan.
Websites van derden kunnen erg nuttig zijn. De voornaamste reden hiervoor is dat deze al een community van geïnteresseerde mensen en andere datasets bijeen hebben gebracht. Wanneer uw data deel uitmaakt van deze platformen, wordt er een soort positieve samengestelde interest gecreëerd.
Grote dataplatformen verstrekken al de infrastructuur die aan de vraag kan voldoen. Deze verschaffen vaak ook analyses en gebruiksinformatie. Voor overheidsbedrijven zijn deze platformen vaak gratis.
Deze platformen kunnen twee offers vergen. De eerste is onafhankelijkheid. Uw instituut moet controle kunnen bieden aan anderen. Dit is politiek, wettelijk of operationeel gezien vaak lastig. Het tweede offer kan openheid zijn. Verzeker dat uw dataplatform agnostisch is wat betreft wie er bij kan. Softwareontwikkelaars en wetenschappers gebruiken vele besturingssystemen, van smartphones tot supercomputers. Zij moeten allemaal de mogelijkheid hebben om bij de data te komen.
Via FTP servers
Een minder gebruikelijke methode om toegang te verstrekken tot bestanden is via het bestandsoverdracht-protocol, of File Transfer Protocol (FTP). Dit kan een geschikte manier zijn als uw publiek meer technisch is, bijvoorbeeld softwareontwikkelaars of wetenschappers. Het FTP systeem komt in de plaats voor HTTP, maar is specifiek ontworpen voor het ondersteunen van bestandsoverdracht.
FTP is uit de gratie geraakt. In plaats van een website te verstrekken, is het gebruik van een FTP-server net als het gebruik van mappen op een computer. Daarom, zelfs al is het geschikt voor dit doel, is er veel minder capaciteit voor web bedrijven om maatwerk aan te rekenen.
Als torrents
- term
-
` BitTorrent ` is een systeem dat bekend is geworden onder beleidsmakers vanwege de de associatie met schending van het copyright. BitTorrent gebruikt bestanden genaamd torrents, die werken door de last van het verspreiden van bestanden te verdelen tussen alle mensen die deze bestanden raadplegen. De servers worden niet overbelast, maar de levering wordt beter naar mate de vraag hoger wordt. Dit is de reden dat dit systeem zo succesvol is voor het delen van films. Het is een zeer efficiënte manier om grote hoeveelheden data te verspreiden.
Als een API
Data kan gepubliceerd worden via een :term: ` Application Programming Interface ` (API). Deze interfaces zijn zeer populair geworden. Ze staan programmeurs toe om specifieke porties van de data te selecteren, in plaats van de data in zijn geheel in bulk aan te bieden als bestand. APIs zijn normaal gesproken verbonden met een database die in real-time wordt bijgewerkt. Dit betekent dat informatie beschikbaar maken via een API kan verzekeren dat de data actueel is.
Het publiceren van ruwe data in bulk zou de eerste zorg moeten zijn van alle initiatieven rond open data. Er zijn een aantal kosten voor het verstrekken van een API:
- De prijs. Ze vereisen veel meer ontwikkeling en onderhoud dan het verstrekken van bestanden.
- De verwachtingen. Om een gebruikers-community achter het systeem te krijgen, is het belangrijk om zekerheid te bieden. Als er iets fout gaat wordt er verwacht dat men het herstel kosteloos vergoed.
Toegang tot bulkdata zorgt ervoor dat:
- er is geen afhankelijkheid van de oorspronkelijke aanbieder van de data, wat betekent dat, als een herstructurering of begrotingscyclus de situatie verandert, de data nog steeds beschikbaar blijven.
- iemand anders kan een kopie verkrijgen en deze herverdelen. Dit vermindert de kosten van de distributie van het initieel agentschap en dit betekent dat er geen single point of failure is.
- anderen kunnen eigen diensten ontwikkelen door het gebruik van de gegevens, omdat ze de zekerheid hebben dat de gegevens niet van hen kan worden weggenomen.
Data in bulk aanbieden staat anderen toe om de data te gebruiken buiten zijn oorspronkelijke doelen. Het staat bijvoorbeeld toe om de data om te zetten in een nieuw format, het te linken aan andere bronnen, het in meerdere versies te hebben en het op te slaan op meerdere plaatsen. Terwijl de meest recente versie van de data beschikbaar kan worden gesteld via een API, kan ruwe data beter beschikbaar worden gesteld in bulk via vaste intervallen.
Bijvoorbeeld, de ` Eurostat statistiekdienst` _ heeft een bulk-download faciliteit die meer dan 4000 databestanden aanbiedt. Deze wordt twee keer per dag bijgewerkt, biedt data aan in :term: ` Tab separated values ` (TSV) format, en heeft zowel documentatie over de downloadmogelijkheid alsook over de databestanden.
Een ander voorbeeld is de ‘ District of Columbia Data Catalog ` _, die toestaat dat data wordt gedownload in CSV en XLS format, naast de live-feeds van de data.
Maak data vindbaar
- term
-
` Open data ` is niets zonder gebruikers. Men moet er zeker van kunnen zijn dat mensen het bronmateriaal kunnen vinden. Deze sectie zal een aantal benaderingen uiteenzetten.
Het meest belangrijke is om een neutrale plek te bieden die zowel inter-institutionele politiek als toekomstige begrotingscyclussen kan weerstaan. Gerechtelijke grenzen, zowel in een bepaalde sector of in een bepaald gebied, kunnen meewerking moeilijk maken. Echter, er zijn belangrijke voordelen aan het bundelen van krachten. Hoe makkelijker het is voor buitenstaanders om de data te vinden, hoe sneller nieuwe en nuttige tools gemaakt zullen worden.
Bestaande tools
Er zijn een aantal tools die live op het web zijn, die specifiek ontworpen zijn om data vindbaarder te maken.
Eén van de meest prominente is de DataHub en dit is een catalogus en dataopslag voor datasets van over de gehele wereld. De website maakt het individuen en organisaties gemakkelijk om materiaal te publiceren en voor gebruikers van data om het materiaal te vinden dat ze nodig hebben.
Daarnaast zijn er tientallen gespecialiseerde catalogussen voor verschillende sectoren en gebieden. Veel wetenschappelijke gemeenschappen hebben een catalogussysteem gemaakt voor hun eigen velden, omdat data vaak nodig zijn voor het doen van publicaties.
Voor de overheid
Het is een orthodoxe routine voor een leidende instantie om een catalogus te creëren voor overheidsdata. Bij het maken van een catalogus, probeer om enige structuur aan te brengen waardoor vele afdelingen makkelijk hun eigen informatie recent houden.
Weersta de neiging om vanuit niets software te ontwikkelen voor het ondersteunen van de catalogus. Er zijn gratis en open source softwareoplossingen (zoals CKAN) die al door veel overheiden overgenomen zijn. Daarom hoeft het dus niet nodig te zijn om in een ander platform te investeren.
Er zijn een paar dingen die de meeste open data catalogussen missen. Uw programma zou het volgende kunnen overwegen:
- Het aanbieden van een manier om de privé- en gemeenschapssectorten hun data te laten toevoegen. Het kan de moeite waard zijn om de catalogus te zien als de catalogus van de regio, in plaats van die van de regionale overheid.
- Het vergemakkelijken van verbetering van de data door toe te staan dat afgeleiden van datasets gecatalogiseerd worden. Bijvoorbeeld, iemand kan adressen voorzien van een geocode en het resultaat daarvan delen met iedereen. Als alleen specifieke versies van datasets zouden worden toegestaan, blijven deze verbeteringen verborgen.
- Wees tolerant als u ziet dat uw data ergens anders opduikt. Daarmee bedoelen we, de content gaat waarschijnlijk gekopieerd worden door communities die in uw data geïnteresseerd zijn. Als u rivierstand data beschikbaar hebt, dan kan uw data opduiken in een catalogus voor hydrologen.
- Zorg er voor dat de toegang billijk is. Probeer te voorkomen dat er een bepaald soort niveau van bevoorrechting ontstaat voor ambtenaren of zelfstandige onderzoekers, omdat dit community deelname en engagement zal ondermijnen.
Voor de maatschappij
Bereid zijn om een supplementaire catalogus te maken voor onofficiële data.
Het is zeldzaam voor overheden om zich te associëren met onofficiële of niet-gezaghebbende bronnen. Ambtenaren zijn vaak tot het uiterste gegaan om er voor te zorgen dat er geen politieke gêne of anderssoortelijke schade voorkomt uit misbruik van of te sterk vertrouwen op data.
Bovendien, overheden zullen niet gauw bereid zijn om bezigheden te ondersteunen die hun eigen informatie met die van bedrijven samenbrengen. Overheden zijn terecht sceptisch over motieven met betrekking tot winst. Een onafhankelijke catalogus voor community groepen, bedrijven en anderen is daarom wellicht gerechtvaardigd.
- Improve this page Edit on Github Help and instructions
- Translate this page Translation guide
-
Donate
If you have found this useful and would like to support our work please consider making a small donation.