guide

Comment ouvrir les données

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  ne  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

This section forms the core of this handbook. It gives concrete, detailed advice on how data holders can open up data. We’ll go through the basics, but also cover the pitfalls. Lastly, we will discuss the more subtle issues that can arise.

Nous recommandons l’utilisation de trois règles clés lors de la publication de données.

  • Keep it simple. Start out small, simple and fast. There is no requirement that every dataset must be made open right now. Starting out by opening up just one dataset, or even one part of a large dataset, is fine – of course, the more datasets you can open up the better.

Gardez à l’esprit qu’il s’agit d’innovation. Progresser le plus rapidement possible est la bonne approche car cela signifie que vous pouvez provoquer un élan et apprendre de l’expérience – l’innovation tire autant des échecs que des succès et les ensembles de données ne seront pas tous utiles.

  • Engage early and engage often. Engage with actual and potential users and re-users of the data as early and as often as you can, be they citizens, businesses or developers. This will ensure that the next iteration of your service is as relevant as it can be.

    It is essential to bear in mind that much of the data will not reach ultimate users directly, but rather via ‘info-mediaries’. These are the people who take the data and transform or remix it to be presented. For example, most of us don’t want or need a large database of GPS coordinates, we would much prefer a map. Thus, engage with infomediaries first. They will re-use and repurpose the material.

  • Address common fears and misunderstandings. This is especially important if you are working with or within large institutions such as government. When opening up data you will encounter plenty of questions and fears. It is important to (a) identify the most important ones and (b) address them at as early a stage as possible.

Il y a quatre étapes principales pour ouvrir les données, et chacune d’entre elles sera couverte en détail ci-dessous. Elles sont présentées dans un ordre très approximatif, plusieurs étapes pouvant être réalisées simultanément.

  1. Choisissez votre jeu(x) de données. Choisir le(s) jeu(x) de données que vous prévoyez d’ouvrir, mais gardez à l’esprit que vous ne pouvez (et devrez peut-être) revenir à cette étape si vous rencontrez des problèmes ultérieurement.
  2. Appliquer une licence ouverte.
    1. Déterminer quels droits de propriété intellectuelles existent dans les données.
  1. Appliquer une licence ‘ouverte’ adaptée pour l’ensemble des droits et adhérer à la définition sur l’ouverture discuté dans la section ‘Qu’est-ce que l’Open Data?’
  2. NB: si vous n’arrivez pas à faire cela, retournez à l’étape 1 et essayez un autre ensemble de données.
  1. Rendez les données disponibles - en gros ensembles et dans des formats utiles. Vous pourriez aussi considérer d’autres solutions, comme de les rendre disponibles au travers d’une API.
  2. Rendre les données disponibles - en vrac et dans un format utile. Vous pouvez également envisager une alternative pour rendre disponible les données par exemple via une API.

Choisir un ensemble de donnée(s)

Choisir le jeu de donnée(s) que vous prévoyez d’ouvrir est la première étape à franchir - pour retenir l’ensemble du processus interactif des données et revenir a l’étape précédente si vous rencontrez des problèmes plus tard.

Si vous connaissez exactement le jeu de donnée(s) que vous souhaitez ouvrir, vous pouvez passer directement à la section suivante. Cependant, dans de nombreux cas, en particulier pour les grandes institutions, choisir les ensembles de données est un challenge de concentration. Comment doit-on procéder dans ce cas?

Créer cette liste devrait être un processus rapide menant à l’identification des ensembles de données pouvant être ouvert pour commencer. Les phases ultérieures seront l’occasion de vérifier en détail si un ensemble de données est approprié ou pas.

Il n’y a aucune exigeance pour créer une liste complète de vos jeu de données. Le principal point à garder à l’esprit est de savoir si il est possible de publier ces données à tous (que ce soit ouvertement ou non) - voir par exemple :ref: cette section <what-data-can-be-open>.

Demander à la communauté

Nous vous recommandons de demander à la communauté en premier lieu. Autrement dit, les personnes qui auront accès et utiliseront les données, seront susceptibles d’apporter une compréhension par laquelle les données sont précieuses.

  1. Prepare a short list of potential datasets that you would like feedback on. It is not essential that this list concurs with your expectations, the main intention is to get a feel for the demand. This could be based on other countries’ open data catalogs.
  2. Créer une demande commentaire.
  3. Communiquez votre demande avec une page web. Assurez-vous qu’il est possible d’accéder à la demande sur sa propre URL. De cette façon, quand elle est partagée via les médias sociaux, la demande peut être facilement trouvé.
  4. Offrez des manières simples de soumettre des réponses. Évitez d’exiger un enregistrement, vu que ça réduit le nombre de réponses.
  5. Faites circuler la requête dans les listes de diffusion pertinentes, les forums et les personnes renvoyant à la page web principale.
  6. Organisez un évènement de consultation. Assurez vous de le faire à un horaire où les gens d’affaires moyens, les spécialistes des données et les officiels peuvent participer.
  7. Demandez à un politicien de parler au nom de votre agence. L’Open Data fait très vraisemblablement partie d’une politique plus large d’augmentation de l’accès aux informations du gouvernement.

Base de coût

Combien d’argent les agences dépensent-elles pour la collecte et l’entretien des données qu’elles contrôlent? Si elles dépensent beaucoup pour un fichier de données en particulier, alors il est extrêmement probable que d’autres souhaiteraient y avoir accès.

This argument may be fairly susceptible to concerns of freeriding. The question you will need to respond to is, “Why should other people get information for free that is so expensive?”. The answer is that the expense is absorbed by the public sector to perform a particular function. The cost of sending that data, once it has been collected, to a third party is approximately nothing. Therefore, they should be charged nothing.

Facilité de délivrance

Parfois, plutôt que de décider quelles données ont le plus de valeur, il peut être utile de regarder quelles données sont les plus faciles à mettre entre les mains du public. Des libérations de données à petite échelle et faciles à mettre en oeuvre peuvent agir comme catalyseur de changement plus important dans le comportement au sein des organisations.

Soyez prudent avec cette approche cependant. Celà peut se produire lorsque ces petites publications ont peu de valeur et que rien ne peut être contruit à partir d’elle. Si celà se produit, l’ensemble du projet pourrait être compromis.

Observer les pairs

Le mouvement de “données libres” est en expansion. Il y a probablement beaucoup de gens dans votre domaine qui comprennent ce que font les autres domaines. Formulez une liste s’appuyant sur ce que font ces agences.

Appliquer une Licence Ouverte (Ouverture Légale)

In most jurisdictions there are intellectual property rights in data that prevent third-parties from using, reusing and redistributing data without explicit permission. Even in places where the existence of rights is uncertain, it is important to apply a license simply for the sake of clarity. Thus, if you are planning to make your data available you should put a license on it – and if you want your data to be open this is even more important.

Quelles licences pouvez vous utiliser? Pour de l’“open data”, nous recommandons d’utilisez une des licences se conformant à l’ Open Definition et qui ont été marquées comme utilisables pour des données. Cette liste (avec les instructions d’usage) peut être trouvées ici:

Un guide d’instruction court d’une page sur l’application d’une licence de données ouverte peut être trouvées sur le site Open Data Commons:

Rendre les données accessibles (ouverture technique)

Open data doit être ouvert aussi bien techniquement que juridiquement. Plus précisément les données doivent être disponible en vrac dans une format {term:Lisible par les machines}.

Available

Les données doivent être disponible dans leurs ensembles et pour un coût raisonnable de reproduction, de préférence téléchargeable sur internet. Le modèle de tarification est atteint parce que votre organisme ne devrait pas avoir de surcoût en fournissant des données pour utilisation.

In bulk

The data should be available as a complete set. If you have a register which is collected under statute, the entire register should be available for download. A web API or similar service may also be very useful, but they are not a substitutes for bulk access.

In an open, machine-readable format

Re-use of data held by the public sector should not be subject to patent restrictions. More importantly, making sure that you are providing machine-readable formats allows for greatest re-use. To illustrate this, consider statistics published as PDF (Portable Document Format) documents, often used for high quality printing. While these statistics can be read by humans, they are very hard for a computer to use. This greatly limits the ability for others to re-use that data.

Voici quelques politiques qui seront d’une grande utilité:

  • Faire simple
  • Déplacement rapide
  • Etre pragmatique.

En particulier, il vaut mieux fournir des données brutes immédiatement que des données parfaites dans un délai de six mois.

There are many different ways to make data available to others. The most natural in the Internet age is online publication. There are many variations to this model. At its most basic, agencies make their data available via their websites and a central catalog directs visitors to the appropriate source. However, there are alternatives.

Quand :term`la connectivité` est limité ou la taille des données est extrémement importante, la distribution depuis un autre format peut être justifié. Cette section examinera également des solutions de rechange, qui peuvent agir pour maintenir les prix très bas.

Méthode en ligne

Depuis un site tiers

Le système qui sera le plus approprié à votre équipe des contenus web est de fournir des fichiers téléchageables depuis une page web. Tout comme vous fournissent actuellement l’accès aux documents de discussion, les fichiers de données sont content d’être mis à la disposition de cette façon.

Une des difficulté avec cette approche est qu’il est difficile pour une personne extérieur de découvrir où se trouve les données à jour. Cette option reste cependant à la charges des personnes qui créent des outils avec vos données.

Depuis un site tiers

Beaucoup de référenciel sont devenus des plaques tournantes de données dans des domaines particuliers. Par exemple, pachube.com est conçu pour connecter les gens avec des capteurs pour ceux qui souhaitent accèder à leurs données. Des sites comme infochimps.com et talis.com permettent aux organisations du secteur public de stocker de grandes quantités de données gratuitement.

Third party sites can be very useful. The main reason for this is that they have already pooled together a community of interested people and other sets of data. When your data is part of these platforms, a type of positive compound interest is created.

Des plateformes de données brutes fournissent l’infrastructure qui peut répondre à la demande. Elle fournissent souvent des statistiques et des informations sur l’usage. Pour les agences du secteur public, elle sont généralement gratuites.

Ces plates-formes peuvent avoir deux types de coûts. La premier est l’indépendance. Votre organisation doit être en mesure de céder les contrôles à d’autres. C’est souvent politiquement, ou juridiquement difficile. Le second coût peut être l’ouverture. Assurez-vous que votre plate-forme de données de données est agnostique pour pouvoir y accèder. Les développeurs de logiciels et les scientifiques utilisent de nombreux systèmes d’exploitation, à partir de smartphones aux supercalculateurs. Ils doivent tous être en mesure d’accéder aux données.

Depuis un serveur FTP

Une méthode moins à la mode pour fournir l’accès aux fichiers se fait via le protocole de transfert de fichier (FTP). Cette approche est intéressante si votre publique est technique, telles que les développeurs de logiciels et les scientifiques.

FTP est tombé en disgrâce. Plutôt que de fournir un site web, la recherche depuis un serveur FTP ressemble un peu à la façon de rechercher des dossiers sur un ordinateur. Par conséquence, même si elle est adaptée à son objectif, il est moins pertient pour les entreprises de développement web qui souhaite se charger de la personnalisation.

comment torrents

BitTorrent is a system which has become familiar to policy makers because of its association with copyright infringement. BitTorrent uses files called torrents, which work by splitting the cost of distributing files between all of the people accessing those files. Instead of servers becoming overloaded, the supply increases with the demand increases. This is the reason that this system is so successful for sharing movies. It is a wonderfully efficient way to distribute very large volumes of data.

comme une API

Data can be published via an Application Programming Interface (API). These interfaces have become very popular. They allow programmers to select specific portions of the data, rather than providing all of the data in bulk as a large file. APIs are typically connected to a database which is being updated in real-time. This means that making information available via an API can ensure that it is up to date.

Publier de gros ensembles de données brutes devrait être la priorité numéro 1 de toute initiative de données ouvertes. Il y a des coûts associés à la fourniture d’une API:

  1. Le prix. Ils demandent beaucoup de développement et de maintenance que de fournir des fichiers.
  2. Les attentes. Afin de favoriser une communauté d’utilisateurs derrière le système, il est important de fournir une certitude. Lorsque les choses tournent mal, vous serez appelé à assumer les coûts de correction.

L’accès aux données en vrac veille à ce que:

  • Il n’y a pas de dépendance vis à vis du fournisseur original des données, celà signifie que si un cycle de restructuration ou le budjet change la situation, les données seront toujours disponible.
  • quelqu’un d’autre peut obtenir un exemplaire et le redistribuer. Cela réduit le coût de la distribution pour l’organisme source et qu’il n’y a pas de point unique de défaillance.
  • d’autres peuvent développer leurs propres services utilisant les données car ils ont la certitude que les données ne leurs seront pas retirées.

Providing data in bulk allows others to use the data beyond its original purposes. For example, it allows it to be converted into a new format, linked with other resources, or versioned and archived in multiple places. While the latest version of the data may be made available via an API, raw data should be made available in bulk at regular intervals.

Par exemple, le service de statistiques Eurostat <http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/> a un plate-forme de téléchargement groupé offrant plus de 4000 fichiers de données. Il est mis à jour deux fois par jour, présente les données dans le format Tab-separated values (TSV) et inclue une documentation sur la plate-forme de téléchargement, ainsi que sur les fichiers de données.

Another example is the District of Columbia Data Catalog, which allows data to be downloaded in CSV and XLS format in addition to live feeds of the data.

Rendre les données détectable

Open data is nothing without users. You need to be able to make sure that people can find the source material. This section will cover different approaches.

The most important thing is to provide a neutral space which can overcome both inter-agency politics and future budget cycles. Jurisdictional borders, whether sectorial or geographical, can make cooperation difficult. However, there are significant benefits in joining forces. The easier it is for outsiders to discover data, the faster new and useful tools will be built.

Outils existants

Il y a un certain nombre d’outils sur présent sur le web spécifiquement conçus pour rendre les données plus détectable.

One of the most prominent is the DataHub and is a catalog and data store for datasets from around the world. The site makes it easy for individuals and organizations to publish material and for data users to find material they need.

En outre, il y a des dizaines de catalogues spécialisés pour les différents secteurs et les lieux. De nombreuses communautés scientifiques ont créé un système de catalogue de leurs spécialités, car les données sont souvent nécessaires pour la publication.

Pour le gouvernement

As it has emerged, orthodox practice is for a lead agency to create a catalog for the government’s data. When establishing a catalog, try to create some structure which allows many departments to easily keep their own information current.

Resist the urge to build the software to support the catalog from scratch. There are free and open source software solutions (such as CKAN) which have been adopted by many governments already. As such, investing in another platform may not be needed.

Il y a plusieurs choses manquantes dans la plupart des catalogues de données ouvertes. Votre programme pourrait tenir compte de ce qui suit:

  • Fournir un moyen pour permettre aux secteurs privé et communautaire d’ajouter leurs données. Il peut être utile de penser du catalogue comme un catalogue de la région, plutôt que celui du gouvernement régional.
  • Facilitating improvement of the data by allowing derivatives of datasets to be cataloged. For example, someone may geocode addresses and may wish to share those results with everybody. If you only allow single versions of datasets, these improvements remain hidden.
  • Be tolerant of your data appearing elsewhere. That is, content is likely to be duplicated to communities of interest. If you have river level monitoring data available, then your data may appear in a catalog for hydrologists.
  • Ensure that access is equitable. Try to avoid creating a privileged level of access for officials or tenured researchers as this will undermine community participation and engagement.

Pour la société civile

Be willing to create a supplementary catalog for non-official data.

It is very rare for governments to associate with unofficial or non-authoritative sources. Officials have often gone to great expense to ensure that there will not be political embarrassment or other harm caused from misuse or overreliance on data.

Moreover, governments are unlikely to be willing to support activities that mesh their information with information from businesses. Governments are rightfully skeptical of profit motives. Therefore, an independent catalog for community groups, businesses and others may be warranted.