guide

¿Cómo abrir datos?

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  ne  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

Esta sección constituye el núcleo de este manual. Da consejos concretos y detallados de cómo los poseedores de datos pueden abrir sus datos. Veremos lo más básico, pero también cubriremos las dificultades. Por último, vamos a discutir los problemas menos perceptibles que pueden surgir.

Existen tres reglas clave que recomendamos seguir en la apertura de datos:

  • Mantenlo simple. Inicia con lo pequeño, sencillo y rápido. No hay requisito que los conjuntos de datos deben tener en este momento. Inicia abriendo sólo un conjunto de datos, o incluso una parte de un conjunto de datos grande, esta muy bien – y claro, entre más conjuntos de datos puedas abrir, mejor.

Recuerda que esto se trata de innovación. Moverse tan rápido como puedas es bueno porque significa que puedes crear momento y aprender de la experiencia – la innovación es tanto sobre el fracaso como el éxito y no todos los datos serán útiles.

  • Relacionarse temprano y relacionarse con frecuencia Relacionate con los usuarios reales y potenciales de los datos tan pronto y tan a menudo como puedas, ya sean ciudadanos, empresas o programadores. Esto asegurará que la próxima versión de tu servicio sea tan relevante como pueda ser.

Es esencial tener en cuenta que gran parte de los datos no llegarán a los usuarios finales directamente, sino que a través de “info-mediarios”. Estas son las personas que toman los datos y la transforman para presentarlos. Por ejemplo, la mayoría de nosotros no quiere o necesita una gran base de datos de coordenadas GPS, preferimos un mapa. Por lo tanto, relacionate con infomediarios en primer lugar. Ellos reutilizaran y encontrarán nuevos propositos para el material.

  • Soluciona temores y malentendidos comunes. Esto es especialmente importante si se está trabajando con o dentro de grandes instituciones como el gobierno. Durante la apertura de datos te encontrarás con un montón de preguntas y temores. Es importante (a) identificar los más importantes y (b) abordar estos problemas en la fase más temprana posible.

Existen cuatro pasos principales para la creación de Datos Abiertos, cada uno será explicado en detalle a continuación. Se encuentran en un orden aproximado - muchos de los pasos pueden ser realizados simultáneamente.

  1. Elije el dato o conjunto de datos. Elije el conjunto de datos que deseas hacer público. Ten en cuenta que puedes (y puede ser necesario) regresar a este paso si tienes problemas en una etapa posterior.
  2. Utilizar una licencia abierta
    1. Determina qué derechos de propiedad intelectual existen en la información.
    2. Aplica una licencia “abierta” adecuada que licencie todos esos derecho y soporte la definición de apertura discutida en la sección anterior, en “Qué son los Datos Abiertos”.
    3. Nota: Si no puedes hacer esto, vuelve al paso 1 y prueba con otros datos.
  3. Haz disponible la información- en conjunto y en un formato útil. También puedes considerar otras alternativas para hacerla disponible, como una API.
  4. Hazla visible- Publícala en la web y quizás organiza un catálogo central que enumere tus datos abiertos.

Escoger bases de datos

Escoger los conjuntos de datos que planeas abrir es el primer paso - aunque recuerda que el proceso completo de abrir los datos es iterativo y puedes regresar a este paso si encuentras problemas en un futuro.

Si ya conoces exactamente que conjunto(s) de datos planeas abrir, puedes pasar a la siguiente sección. Sin embargo, en muchos casos, especialmente para grandes instituciones, escoger un conjunto de datos en el cual enfocarse es todo un reto. ¿Cómo se debe proceder en estos casos?

Crear esta lista puede ser un proceso rápido para identificar qué conjuntos de datos pueden ser abiertos al principio. Ya habrá tiempo en etapas posteriores de revisar en detalle si cada conjunto de datos es adecuado para abrirse.

No hay requisitos para crear una lista completa de conjuntos de datos. El principal punto a tener en cuenta es pensar si es factible publicar todos los datos (ya sea abiertamente o no) - vea esta sección a continuación.

Pregunta a la comunidad

Recomendamos preguntar a la comunidad en primera instancia. Estas son las personas que tendrán acceso y utilizarán los datos, ya que es probable que tengan un mejor entendimiento de cuáles datos podrían ser valiosos.

  1. Prepara una pequeña lista con los potenciales conjuntos de datos de los cuales desees tener comentarios. No es esencial que esta lista coincida con 5us expectativas, la principal intención es obtener una idea de la demanda. Esto podría estar basado en otros catálogos de open data de otros países.
  2. Solicita comentarios.
  3. Publica tu petición en una página web. Asegúrate de que es posible acceder a dicha petición a través de su propia URL. De esta manera, cuando sea compartida a través de las redes sociales, la petición será fácilmente encontrable.
  4. Provee formas sencillas de enviar respuestas. Evita el requisito de registro, puesto que reduce el número de respuestas.
  5. Envía la petición a listas de correos relevantes, foros y participantes, señalando de nuevo la página web principal.
  6. Realiza un proceso de consulta. Asegúrate de que se realiza a una hora conveniente, donde el empresario medio, los interesados en los datos y el representante del gobierno puedan asistir.
  7. Pídele a un político que hable en nombre de tu agencia. Es muy posible que los Datos Abiertos sean parte de una política a mayor escala del incremento del acceso a la información gubernamental.

Base del costo

¿Cuánto dinero gastan las agencias en la recolección y mantenimiento de datos que poseen? Si gastan demasiado en un conjunto de datos en particular, entonces es muy probable que otros deseen acceder a él.

Este argumento puede ser altamente suceptible a preocupaciones sobre oportunismo. La pregunta que necesitas responder es: “¿Porqué otras personas deberían obtener información gratis si es tan cara?”. La respuesta es que los gastos son absorbidos por el sector público para realizar una función en particular. El costo de enviar los datos a un tercero, una vez que han sido recolectados, es aproximadamente nada. Por lo tanto, deberían cobrar nada.

Facilidad de la liberación

Algunas veces, en vez de decidir cuáles datos serían más valiosos, es más útil ver cuáles datos son más fáciles de abrir al público. Publicaciones pequeñas y fáciles pueden actuar como el catalizador de grandes cambios de comportamiento en las organizaciones.

Sin embargo, hay que se cuidadoso con esta forma de actuar. Quizás se de el caso que estas publicaciones son de tan poco valor que nada pueda construirse a partir de ellas. Si ocurre, la fe en todo el proyecto puede ser socavada.

Observa a tus pares

Los datos abiertos es un movimiento en crecimiento. Es probable que haya mucha gente en su área que entiende lo que hacen otras áreas. Formula una lista en base a lo que esas agencias están haciendo.

En la mayoría de las jurisdicciones existen derechos de propiedad intelectual de los datos, los cuales evitan que terceros los usen, reutilicen o redistribuyan sin el permiso explícito. Aún en lugares donde la existencia de derechos es incierta, es importante aplicar una licencia simplemente en aras de la claridad. Por lo tanto, si está planeando hacer disponible sus datos, debería ponerles una licencia - y y si desea que sus datos sean libres esto es aún más importante.

¿Qué licencias puedes usar? Recomendamos que para “abrir” datos use una de las licencias alineadas con la ‘Definición de Abierto”_ y marcarlas como adecuada para datos. Esta lista (además de las instrucciones para su uso) puede ser localizada en:

Una breve guía (de una página) para utilizar una licencia para datos abiertos puede ser encontrada en el sitio Open Data Commons:

Haz disponible la información (Apertura Técnica)

term

Los ‘Datos Abiertos’ necesitan estar abiertos tanto técnica, como legalmente. Específicamente, los datos necesitan estar disponibles en volumen en un formato legible por máquina {term:machine-readable}.

Disponible

La información no debe tener un precio mayor que un costo de reproducción razonable, preferentemente debe ser una descarga gratuita en Internet. El modelo de precios se consigue porque tu agencia no debe tener costos al proveer la información para su uso.

En Masa

Los datos deberían estar disponibles como un conjunto completo. Si tienes un registro que se recoge por estatuto, todo el registro debe estar disponible para su descarga. Una API web o servicio similar, también puede ser muy útil, pero no son sustitutos del acceso masivo.

En un formato abierto, legible por computadora

La reutilización de los datos del sector público no debe estar sujeto a restricciones por patentes. Más importante aún es asegurarse de que los datos se están proporcionando en formatos legibles por computadora que permitan una mayor reutilización. Para ilustrar esto, considera unas estadísticas publicadas como un documento :abbr: PDF (Portable Document Format), a menudo usados ​​para la impresión de alta calidad. Aunque estas estadísticas pueden ser leídas por los seres humanos, son muy difíciles para usarlas con una computadora. Esto limita enormemente la capacidad para que otros puedan volver a utilizar esos datos.

Aquí hay algunas políticas que serán de gran beneficio:

  • Manténlo simple
  • Muévete rápido
  • Sea pragmático

En particular, es mejor proveer datos crudos ahora, que información perfecta, en seis meses.

Hay muchas maneras de hacer que la información este disponible para terceros. La más natural en la era de Internet es la publicación en línea. Hay muchas variaciones para este modelo. En el más básico, las agencias distribuyen la información a través de sus sitios web y un catálogo central direcciona a los visitantes a la fuente apropiada. Sin embargo, hay alternativas.

Cuando: término: la “conectividad” es limitada o el tamaño de los datos demasiado grande, la distribución en otros formatos puede estar justificada. Esta sección también discutirá alternativas, que podrás implementar para mantener los precios muy bajos.

Métodos en línea

A través de tu sitio web existente.

El sistema que será más familiar al equipo de contenidos de tu sitio web es el de proveer archivos para ser descargados desde páginas web. Así como provees acceso a documentos de discusión, archivos de datos serán muy felices de ser disponibilizados de esta manera.

Una dificultad propia de esta aproximación es que es muy dificil para terceros descubrir dónde encontrar información actualizada. Esta opción crea cierta carga para las personas que crean herramientas con tus datos.

A través de sitios de terceros partidos.

Muchos repositorios se han convertidos en centros de datos de campos específicos. Por ejemplo, pachube.com está diseñada para conectar personas con sensores, con aquellos que desean acceder a la información que producen. Sitios como Infochimps.com y Talis.com permiten a las agencias del sector público alojar grandes cantidades de datos gratuitamente.

Los sitios de terceros pueden ser muy útiles.La razón principal de esto, es que ya se han agrupado en una comunidad de personas interesadas y en otros conjuntos de datos. Cuando tus datos son parte de esta clase de plataformas, se crea un compuesto positivo para los mismos.

Las plataformas de datos ya proveen la infraestructura para soportar la demanda. Usualmente proveen análisis y usos de la información. Para las agencias del sector público suelen ser gratuitos.

Estas plataformas pueden tener dos tipos de costos. El primero es la independencia. Su agencia necesita ser capaz de ceder el control a otros. Esto es a menudo política y legalmente difícil. El segundo costo puede ser la apertura, es decir, que su plataforma de datos es independiente de quién puede acceder a él. Los desarrolladores de software y los científicos usan muchos sistemas operativos, desde teléfonos inteligentes hasta superordenadores. Todos ellos deben ser capaces de acceder a los datos.

A través de servidores FTP

Un método menos fashion es el de proveer el acceso a los archivos a través del FTP. Este puede ser un sistema adecuado si su audiencia es técnica, tanto como desarrolladores de software como científicos. El sistema FTP trabaja en lugar del HTTP, pero específicamente se utiliza para la transferencia de archivos.

FTP cayó en desgracia. En lugar de proveer un sitio web, mirar un FTP es como mirar entre carpetas de una computadora. Entonces, aunque esta en las condiciones para su fin, las compañías de desarrollo web tienen mucha menos capacidad para cobrar por personalización.

Como archivo Torrents

BitTorrent es un sistema que se ha vuelto familiar para los encargados de crear políticas, y esto se debe a su asociación con las infracciones de copyright. BitTorrent utiliza archivos llamados Torrents, que funcionan separando el costo de distribución de los archivos entre toda la gente que accede a esos archivos. En lugar de servidores sobrecargados, el suministro se incrementa con un aumento de demandas. Esta es la razón por la que este sistema es tan existoso para compartir películas. Se trata de una eficiente manera de distribuir grandes volúmenes de datos.

Como un archivo API

Los datos pueden ser publicados a través de una :término: Interfaz de programación de aplicaciones (API). Estas interfaces se volvieron muy populares. Permiten a los programadores seleccionar porciones específicas de información, en lugar de proveerla toda en grandes cantidades en un archivo grande. Las APIs usualmente están conectadas a una base de datos que es actualizada en tiempo real. Esto significa que disponibilizar la información a través de una API garantiza que esté actualizada.

Publicar datos crudos en grandes cantidades debería ser la primera preocupación de todas las iniciativas de datos abiertos. Proveer de una API requiere cierto costo.

  1. El precio. Ellos requieren mucho más desarrollo y mantenimiento que ofreciendo archivos.
  2. Las espectativas. Con el fin de fomentar una comunidad de usuarios detrás del sistema, es importante proporcionar seguridad. Cuando las cosas van mal, se espera que absorbas los costos para solucionarlo.

El acceso a datos en grandes cantidades asegura que:

  • No hay dependencia del proveedor original de la información, es decir, si la situación cambia por una reestructuración o una modificación presupuestaria, la información todavía estará disponible.
  • Cualquiera puede obtener una copia y redistribuirla. Esto reduce los costos de distribución desde la agencia y significa que no hay ningún punto librado al azar.
  • Otros pueden desarrollar sus servicios usando los datos, porque tiene seguridad que los datos no van a ser robados.

Proveer datos en masa permite a otros usar esa información para propósitos distintos de sus originales. Por ejemplo permite que los datos sean convertidos a nuevos formatos, enlazados con otros recursos o versionados y archivados en múltiples lugares. Mientras que la última versión de la información puede ser disponibilizada a través de una API, datos crudos pueden ser disponibilizados en masa durante intervalos de tiempo regulares.

Por ejemplo, el servicio estadístico Eurostat tiene un sitio de descargas por volumen que ofrece más de 4000 archivos. Lo actualizan dos veces al día, ofrece datos en formato {term:{Valores separados por Tabulador} Tab-separated values} (TSV), e incluye documentación sobre el sitio de descarga, así como los archivos archivos de datos.

Otro ejemplo es el Distrito de Columbia Catálogo de Datos, que permite que los datos sean descargados en formato CSV y XLS, además de las transmisiones en vivo de los datos.

Haga datos detectables.

term

‘Datos Abiertos’ no es nada sin los usuarios. Tiene que ser capaz de asegurarse que la gente pueda encontrar la fuente del material. En esta sección se cubren los diferentes enfoques.

Lo más importante es proporcionar un espacio neutral que puede superar tanto la política y los ciclos presupuestarios futuros. Fronteras jurisdiccionales, ya sea sectorial o geográfica, puede hacer difícil la cooperación. Sin embargo, hay beneficios significativos cuando se unen fuerzas Cuanto más fácil sea para los de afuera para descubrir los datos, más rápido se construirán nuevas y útiles herramientas.

Las herramientas existentes.

Hay una serie de herramientas que están en la web diseñadas específicamente para hacer más detectables a los datos.

Uno de los más prominentes es el DataHub, un catálogo y almacén de bases de datos de todo el mundo. El sitio facilita a los individuos y a las organizaciones publicar materiales y a los usuarios de los datos encontrar el material que necesitan.

Además, hay docenas de catálogos específicos para diferentes sectores y lugares.Comunidades específicas han creado sistemas de catálogos para sus archivos, ya que a menuda los datos requieren de publicación

Para el gobierno

Como ha surgido, la práctica ortodoxa es para una agencia líder para crear un catálogo de datos del gobierno. Cuando se establece un catálogo, se trata de crear una estructura que permite a muchos departamentos seguir fácilmente su propia información actualizada.

Resista la tentación de producir software para generar el catálogo. Existen soluciones de software libre y de código abierto (como CKAN) que han sido adoptadas por muchos gobiernos. Invertir en otra plataforma puede que no sea necesario.

Hay algunas cosas que la mayoría de los catálogos de apertura de datos no tienen. Tu programa debe considerar lo siguiente:

  • Proporcionar un canal para que los privados y sectores de la comunidad añadan sus datos.Puede valer la pena pensar en el catálogo como el catálogo de la región, en lugar de el catálogo del gobierno regional.
  • Facilitar la mejora de la información permitiendo la catalogación de derivados de los conjuntos de datos. Por ejemplo, alguien podría geocodificar direcciones y compartir los resultados con todos. Si sólo permites versiones individuales de conjuntos de datos, estas mejoras podrían permanecer escondidas.
  • Tolera que tu información aparezca en otros lugares. Es decir, el contenido probablemente será duplicado por las comunidades de interés. Si tienes datos de monitoreo del nivel de agua en un río, entonces tus datos podrán aparecer en catálogos para hidrólogos.
  • Asegure que el acceso sea equitativo. Evite crear niveles privilegiados de acceso para funcionarios o investigadores, puesto que afectará la participación y el involucramiento de la comunidad.

Para la sociedad civil

Estar dispuesto a crear un catálogo complementario para los datos no oficiales.

Es muy raro que los gobiernos se asocien con fuentes no oficiales o sin autoridad. Los funcionarios han invertido mucho para asegurarse de que no existan implicaciones políticas u otro tipo de daños asociados con el uso inadecuado de los datos.

Más aun, gobiernos no suelen estar dispuestos a soportar actividades que mezclen su información con empresas. Gobiernos son escépticos, y con razón, a motivos con fines de lucro. Por lo tanto, un catálogo independiente para comunidades, empresas y otros puede estar garantizado.