guide

Como Abrir Dados

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW  my 

Esta seção forma o núcleo deste guia. Ela dá conselhos concretos e detalhados sobre como detentores de dados podem abri-los. Cobriremos o básico, mas também veremos as armadilhas. Por fim, discutiremos as questões mais sutis que podem aparecer.

Há três regras fundamentais que recomendamos seguir ao abrir dados:

  • Mantenha a simplicidade. Comece pequeno, simples e rápido. Não há necessidade de que todos os conjuntos de dados sejam abertos neste momento. Começar por abrir um conjunto de dados, ou mesmo um grande conjunto de dados, está bom – é claro, quanto mais conjuntos de dados você puder abrir, melhor.

Lembre-se de que se trata de inovação. Movimentar-se tão rápido quanto possível é bom, porque você ganha energia cinética e aprende com a experiência – a inovação se dá pelo tanto pelo fracasso quanto pelo sucesso e nem todos os conjuntos de dados serão úteis.

  • Construa um engajamento cedo e com frequência. Engaje-se com usuários potenciais e de fato e com reutilizadores dos dados tão logo e frequentemente quanto possível, sejam eles cidadãos, empresas ou desenvolvedores. Isto assegurará que a próxima iteração seja tão relevante quanto possível.

É essencial ter em mente que grande parte dos dados não vai chegar aos usuários finais diretamente, mas via ‘info-mediários’: pessoas que pegam os dados e os transformam ou reusam para que sejam apresentados. Por exemplo, a maioria de nós não quer nem precisa de um grande banco de dados de coordenadas GPS, e preferiria ver um mapa. Logo, engaje-se com os infomediários primeiro. Eles reutilizarão e darão novos usos ao material.

  • Cuide de receios e mal-entendidos comuns. Isto é especialmente importante se você estiver trabalhando com ou dentro de grandes instituições, tais como governos. Ao abrir dados você encontrará muitas questões e temores. É importante (a) identificar os mais importantes e (b) cuidar deles em um estágio tão precoce quanto possível.

Há quatro passos principais ao abrir dados. Cada um deles será abordado em detalhes abaixo. Eles estão em ordem bastante aproximada - muitos dos passos podem ser dados simultaneamente.

  1. Escolha o(s) seu(s) conjunto(s) de dados. Escolha o(s) conjunto(s) de dados que você planeja abrir. Tenha em mente que você pode (e muitos precisam) retornar a este passo se encontrar problemas em um estágio posterior.
  2. Use uma licença livre.
    1. Verifique os direitos de propriedade intelectual dos dados.
  1. Use uma licença ‘livre’ apropriada para licenciar todos esses direitos e que dê suporte à definição de abertura discutida na seção ‘Que Dados Abertos’
  2. Nota: se você não puder fazer isso, volte ao passo um e tente com outro conjunto de dados.
  1. Disponibilize os dados - em grande volume e num formato útil. Você também pode considerar meios alternativos de torná-los disponíveis, tais como por uma API.
  2. Torne os Dados localizáveis - coloque-os na Web e talvez organize um catálogo central para listar todos os seus conjuntos de dados abertos.

Escolha o(s) Conjunto(s) de Dado(s)

Escolher o(s) conjunto(s) de dados que você planeja abrir é o primeiro passo – mas lembre-se que o processo de abertura de dados é iterativo, ou seja, você pode retornar a este passo se você encontrar problemas adiante.

Se você já sabe exatamente qual(is) conjunto(s) de dados pretende abrir, vá direto para a próxima seção. No entanto, especialmente para grandes instituições, escolher em que conjuntos de dados se focar pode ser um desafio. Como se deve proceder nesse caso?

Fazer esta lista é um processo rápido, para identificar os conjuntos de dados que podem ser abertos em primeiro lugar. Haverá tempo, nos próximos passos, para conferir em detalhes se cada conjunto de dados é adequado.

Não é necessário criar uma lista abrangente dos seus conjuntos de dados. O ponto principal para se ter em mente é se é mesmo viável publicar esses dados (de maneira aberta ou não) - veja est seção <what-data-can-be-open>’.

Pergunte à comunidade

Recomendamos que você consulte comunidade, quando for abrir seus dados pela primeira vez. Comunidade são as pessoas que vão acessar e usar os dados. Elas provavelmente terão um bom entendimento de que dados seriam valiosos.

  1. Prepare uma lista curta de conjuntos de dados em potencial sobre os quais você poderia obter retorno. Não é essencial que essa lista coincida com as suas expectativas. O principal objetivo aqui, é sentir a demanda. Ela pode ser baseada nos catálogos de {term:{dados abertos} Open Data} de outros países.

  2. Faça uma consulta pública.

  3. Publique a sua consulta em uma página da web. Certifique-se de que é possível acessar a consulta pela sua própria URL. Dessa maneira, quando compartilhada pelas mídias sociais, a consulta poderá ser facilmente encontrada.

  4. Forneça caminhos para facilitar o envio de respostas. Evite exigir registro das pessoas: isso restringe o número de respostas.

  5. Circule a consulta por listas de e-mail relevantes, fóruns e pessoas, apontando de volta à página web principal.

  6. Promova uma audiência pública. Certifique-se que ela ocorra em um horário conveniente, no qual executivos, entusiastas dos dados e servidores públicos comuns possam participar.

  7. Peça a um político para falar pelo seu órgão. É muito provável que dados abertos seja parte de uma política mais abrangente de aumento do acesso à informação do governo.

Base de custo

Quanto dinheiro os órgãos gastam na coleta e manutenção dos dados que guardam? Se eles gastam uma grande quantidade num conjunto particular de dados, então é altamente provável que outros tenham interesse em acessá-lo.

Esse argumento pode ser razoavelmente suscetível a preocupações quanto ao parasitismo. A pergunta que você terá que responder é: “Por que outras pessoas deveriam receber de graça informações que são tão caras?”. A resposta é que os custos são absorvidos pelo setor público para desempenhar uma competência em particular. Os custos de enviar esses dados, uma vez coletados, a um terceiro são aproximadamente nada. Portanto, não se deve cobrar nada por eles.

Facilidade de disponibilização

Algumas vezes, em vez de decidir que dados seriam os mais valiosos, poderia ser útil ver quais dados seriam mais fáceis de colocar nas mãos do público. Pequenas e fáceis disponibilizações podem funcionar como um catalisador para grandes mudanças comportamentais dentro das organizações.

Tome cuidado com essa abordagem, contudo. Pode acontecer que a publicação de pequenos conjuntos de dados seja de tão pouco valor que nada seja desenvolvido a partir delas. Se isso ocorrer, a credibilidade do projeto como um todo pode ser comprometida.

Observe seus semelhantes

Dados abertos é um movimento crescente. É provável que muitas pessoas na sua área entendam o que outras áreas estão fazendo. Formule uma lista baseada no que esses outros órgãos estão fazendo.

Use uma Licença Aberta (Abertura Legal)

Na maioria das jurisdições há direitos de propriedade intelectual sobre dados que impedem terceiros de usá-los, reutilizá-los e redistribui-los sem uma permissão explícita. Mesmo em lugares onde a existência desses direitos é incerta, é importante atribuir uma licença aos dados, simplesmente por clareza. Portanto, **se você planeja tornar os seus dados disponíveis, você deve colocar uma licença neles** - e se você quiser que os seus dados sejam abertos`_ isto é ainda mais importante.

Que licenças você pode usar? Recomendamos que para dados ‘abertos’ seja usada uma das licenças aderentes à Definição de Aberto_ e marcada como apropriada para dados. Essa lista (junto com instruções de uso) pode ser encontrada em:

Um breve guia de instruções, de uma página, sobre como usar uma licença de dados abertos pode ser encontrado no sítio do Open Data Commons:

Torne os Dados Disponíveis (Abertura Técnica)

{term:Dados abertos} precisam ser tecnicamente abertos, além de legalmente abertos. Especificamente, os dados precisam estar disponíveis em volume e em um formato {term:legível por máquina}.

Available

Os dados devem ter preço não maior que um custo razoável de reprodução, preferencialmente como um download gratuito na Internet. Esse modelo de precificação é viável porque seu órgão não deve incorrer em qualquer custo ao prover dados para utilização.

In bulk

Os dados devem ser disponibilizados como um conjunto completo. Se você tem um cadastro que é coletado por medida legal, o cadastro total deve estar disponível para download. Uma API web ou serviço similar podem também ser muito úteis, mas não eliminam a necessidade de publicar o volume completo.

In an open, machine-readable format

A reutilização dos dados sob a guarda do setor público não deve ser sujeita a restrições de patente. Mais importante ainda é ter certeza de que você está provendo formatos legíveis por máquina, para permitir ao máximo sua reutilização. Para ilustrar isto, veja essas estatísticas, publicadas como documentos no formato PDF (Portable Document Format), frequentemente utilizado para impressão em alta qualidade. As estatísticas podem ser lidas seres por humanos, mas são muito difíceis para um computador usar. Isto limita muito a possibiliade de reutilização dos dados.

Seguem algumas políticas que podem trazer grandes benefícios:

  • Seja simples,
  • Movimente-se rápido
  • Seja pragmático.

Em particular, é melhor fornecer dados brutos agora que dados perfeitos dentro de seis meses.

Há muitas maneiras diferentes de disponibilizar dados. A mais natural, na era da Internet, é a publicação online. Há muitas variações nesse modelo. Em sua forma mais básica, os órgãos publicam seus dados em websites e um catálogo central direciona os visitantes para a fonte apropriada. Entretanto, há muitas alternativas.

Quando a {term:conectividade} é limitada, ou o volume dos dados é extremamente grande, a distribuição em outros formatos pode ser justificada. Nesta seção também serão discutidas alternativas, que podem funcionar para manter baixo o custo de publicar os dados.

Meios online

Pelo seu website

A maneira mais familiar, para a sua equipe de conteúdo web, é prover arquivos para download de páginas web. Assim como você provê acesso a documentos, arquivos de dados podem ser perfeitamente disponibilizados desta maneira.

Uma dificuldade nesta abordagem é que é muito difícil para alguém de fora descobrir onde encontrar informações atualizadas. Esta alternativa gera uma sobrecarga para as pessoas que vão criar ferramentas a partir dos seus dados.

Por de sítios de terceiros

Muitos repositórios têm se tornado pontos centrais de dados sobre assuntos específicos. Por exemplo, pachube.com foi projetado para conectar pessoas com sensores com aqueles que desejam acessar os seus dados. Sítios como Infochimps.com e Talis.com permitem que órgãos do setor público guardem quantidades maciças de dados gratuitamente.

Sítios de terceiros podem ser muito úteis, principalmente porque já reunem uma comunidade de pessoas interessadas e outros conjuntos de dados. Quando os seus dados fazem parte dessas plataformas, uma forma de interesse conjunto é criada.

Plataformas completas de dados já provêm uma infraestrutura capaz de suportar a demanda. Muitas vezes elas oferecem informações analíticas e de utilização. Para órgãos do setor público, elas geralmente são gratuitas.

Essas plataformas podem ter dois custos. O primeiro é a sua independência. Seu órgão precisa ceder o controle a terceiros. Isto é, muitas vezes, política, legal ou operacionalmente difícil. O segundo custo pode ser a abertura. Certifique-se de que a sua plataforma de dados é agnóstica em relação a quem pode acessá-la. Desenvolvedores de software e cientistas usam muitos sistemas operacionais, desde smart phones até supercomputadores. Eles todos devem ser capazes de acessar os dados.

Por servidores FTP

Um método menos elegante de fornecer acesso a arquivos é por Protocolo de Transferência de Arquivos (FTP, na sigla em inglês). Isto pode ser adequado se o seu público-alvo é técnico, tais como desenvolvedores de software ou cientistas. O sistema FTP funciona no lugar do HTTP, mas foi especificamente projetado para dar suporte a transferências de arquivos.

O FTP caiu em desuso. Navegar por um servidor FTP, em vez de em um website, é como procurar por pastas em um computador. Portanto, embora ele seja adequado ao propósito, há muito menos possibilidades de empresas de desenvolvimento Web cobrarem por customizações.

Na forma de torrents

BitTorrent é um sistema que tornou-se familiar a formuladores de políticas por causa de sua associação com violações de direitos autorais. O BitTorrent utiliza arquivos chamados torrents, que funcionam dividindo o custo de distribuição de arquivos entre todas as pessoas que acessam esses arquivos. Em vez de servidores centralizados e sobrecarregados, a oferta aumenta na medida em que a demanda aumenta. Este é o motivo do sucesso desse sistema no compartilhamento de filmes. É uma maneira incrivelmente eficiente de se distribuir volumes muito grandes de dados.

Como uma API

Dados podem ser publicados por uma {term:Interface de Programação de Aplicações} (API, na sigla em inglês). Essas interfaces têm se tornado muito populares. Elas permitem que programadores selecionem partes específicas dos dados, em vez de fornecer todos os dados em um grande arquivo. APIs estão tipicamente conectadas a um banco de dados que é atualizado em tempo real. Isto significa que disponibilizar dados por uma API pode garantir que eles estão atualizados.

Publicar dados brutos em grande volume deveria ser a preocupação principal de todas as iniciativas de dados abertos. Há vários custos em se fornecer uma API:

  1. O preço. Elas exigem muito mais desenvolvimento e manutenção do que o fornecimento de arquivos.
  2. As expectativas. Para fomentar uma comunidade de usuários por trás do sistema, é importante proporcionar segurança. Quando as coisas dão errado, a expectativa é de que você arque com os custos de consertá-las.

O acesso a dados em grande volume garante que:

  • não há dependência do provedor original dos dados, o que significa que se uma reestruturação ou ciclo orçamentário mudar a situação, os dados ainda estarão disponíveis.
  • qualquer outra pessoa pode obter uma cópia e redistribuí-la. Isto reduz o custo da distribuição, afastando-o do órgão de origem, e evita a existência de um único ponto de falha.
  • terceiros podem desenvolver seus próprios serviços usando os dados, porque eles têm segurança de que os dados não serão tirados deles.

Fornecer dados em volume permite a terceiros usar os dados além de seus propósitos originais. Por exemplo, permite que eles sejam convertidos a um novo formato, ligados a outras fontes, ou versionados e arquivados em múltiplos lugares. Embora a versão mais atualizada dos dados possa ser disponibilizada por uma API, os dados brutos devem ser disponibilizados em volume em intervalos regulares.

O serviço estatístico do Eurostat <http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/>, por exemplo, tem uma funcionalidade de download em volume que oferece acima de 4000 arquivos de dados. Ele é atualizado duas vezes ao dia, oferece dados em formato {term:{Valores Separados por Tabulação} Tab-separated values} (TSV, na sigla em inglês) e inclui documentação sobre a funcionalidade de download, bem como sobre os arquivos de dados.

Outro exemplo é o Catálogo de Dados de OCTO do Distrito de Colúmbia <http://octo.dc.gov/DC/OCTO/>, que permite que os dados sejam descarregados nos formatos CSV e XLS, além de feeds em tempo real dos dados.

Torne os dados localizáveis

{term:Dados abertos} não são nada sem os usuários. Você precisa ser capaz de garantir que as pessoas possam encontrar a matéria prima. Esta seção cobre diferentes abordagens.

A coisa mais importante é criar um espaço neutro, que possa superar tanto a política intergovernamental quanto os futuros ciclos orçamentários. Fronteiras jurisdicionais, sejam elas setoriais ou geográficas, podem tornar difícil a cooperação. Todavia, há benefícios significativos em juntar forças. Quanto mais fácil descobrir os dados, para um indivíduo não iniciado, mais rápido serão construídas novas e úteis ferramentas.

Ferramentas existentes

Estão disponíveis na Web algumas ferramentas especificamente projetadas para tornar dados mais localizáveis.

Um dos mais proeminentes é o DataHub, e é um catálogo e banco de dados para conjuntos de dados de todo o mundo. O sítio torna fácil que pessoas e organizações publiquem materiais e que usuários de dados encontrem o material que precisam.

Além disso, há dezenas de catálogos especializados para diferentes setores e locais. Muitas comunidades científicas criaram sistemas de catálogos para as suas áreas, já que dados são frequentemente necessários para publicar.

Para o governo

O que tem acontecido, na prática ortodoxa, é que o órgão pioneiro cria um catálogo para os dados de governo. Ao iniciar um catálogo, tente criar alguma estrutura que permita a muitos departamentos facilmente manter as suas próprias informações atualizadas.

Resista à tentação de construir do início o software para suportar o catálogo. Há soluções livres e gratuitas (tais como o CKAN) que já têm sido adotadas por muitos governos. Dessa forma, investir em outra plataforma pode não ser necessário.

Há algumas coisas que a maioria dos catálogos de dados omitem. Seu programa poderia considerar o seguinte:

  • Fornecer um meio para os setores privado e da comunidade adicionarem os seus próprios dados. Pode valer a pena pensar no catálogo como sendo o catálogo da região, em vez de ser o do governo regional.
  • Facilitando a melhoria dos dados ao permitir derivativos dos datasets a serem catalogados. Por exemplo, alguém pode ter endereços geocodificados e querer compartilhar esses resultados com todos. Se você permite apenas versões únicas de datasets, essas melhorias se mantém ocultas.
  • Seja tolerante se os seus dados aparecerem em outro lugar. Isto é, é provável que conteúdo seja duplicado por comunidades interessadas. Se você tem disponíveis dados de monitoramento dos níveis de rios, então os seus dados podem aparecer em um catálogo para hidrólogos.
  • Tenha certeza de que o acesso é igualitário. Tente evitar a criação de níveis de acesso privilegiado para oficiais ou pesquisadores estáveis, o que pode minar a participação da comunidade e seu engajamento.

Para a sociedade civil

Esteja apto a criar um catálogo suplementar para dados não-oficiais.

É muito raro que governos se associem a fontes não-oficiais ou não-regulamentares. Funcionários públicos muitas vezes realizam grandes esforços para garantir que não haverá constrangimento político ou outros danos causados por mau uso ou uma dependência excessiva em relação aos dados.

Além disso, é pouco provável que os governos se disponham a dar suporte a atividades que fundamentam suas informações com informações de empresas. Governos são, com razão, desconfiados da motivação por lucro. Portanto, pode-se justificar um catálogo independente para grupos da comunidade, empresas e outros.