guide

Как открывать данные

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

Этот раздел — основной в руководстве. Держатели данных найдут здесь конкретные, подробные рекомендации, как лучше всего их раскрывать. Мы рассмотрим основные вопросы, но не обойдём вниманием и подводные камни. Наконец, мы обсудим более тонкие вопросы, которые также могут возникнуть.

При открытии данных мы рекомендуем соблюдать три основных правила:

  • Не усложняйте. Начните с чего-нибудь небольшого, простого и быстрого. Не обязательно открывать все наборы данных здесь и сейчас. Ничего страшного, если вы для начала откроете один набор данных или даже часть большого набора — хотя, конечно, чем больше вы откроете, тем лучше.

Помните, что речь идёт об инновациях. Двигайтесь так быстро, как можете — это позволит вам накапливать импульс и учиться на собственном опыте. Неудачи так же характерны для инноваций, как и успехи: не каждый набор данных окажется полезным.

  • Взаимодействуйте раньше и чаще. Выходите на связь с теми, кто пользуется или будет пользоваться вашими данными, будь то граждане, бизнес или разработчики, как можно раньше и как можно чаще. Так вы будете уверены, что ваш сервис будет оставаться настолько актуальным, насколько возможно.

Важно помнить, что большинство данных приходят к конечному пользователю не напрямую, а через «инфопосредников». Это те люди, которые берут данные и преобразуют их или создают производные, которые и показывают публике. Нас, к примеру, обычно не интересуют большие базы данных GPS-координат; мы предпочли бы карту. Потому сначала свяжитесь с инфопосредниками. Они будут повторно использовать материал и приспосабливать к своим целям.

  • Развеивайте страхи и недоразумения. Это особенно важно, если вы работаете в большой организации типа правительства. Открывая данные вы столкнётесь со множеством вопросов и страхов. Важно, во-первых, выделить самые важные и, во-вторых, как можно раньше их разъяснить.

Открытие данных происходит в четыре шага, которые детально обсуждаются ниже. Порядок их очень приблизителен — многие шаги можно делать одновременно.

  1. Выберите набор(ы) данных. Выберите набор(ы) данных, которые планируете открыть. Учтите, что если позднее у вас возникнут сложности, всегда можно (а порой и нужно) вернуться к этому шагу.
  2. Примените свободную лицензию.
    1. Определите, какие есть права «интеллектуальной собственности» на ваши данные.
  1. Примените подходящую «открытую» лицензию, которая обеспечит все эти права и подпадает под определение открытости из раздела «Что такое Открытые Данные»
  2. NB: если не можете этого сделать, вернитесь к шагу 1 и выберите другой набор данных
  1. Сделайте данные доступными - в полном объёме и в пригодном формате. Возможно, вы захотите рассмотреть и другие способы доступа — например, через API.
  2. Сделайте так, чтобы их можно было найти - разместите их в сети и, по возможности, организуйте центральный каталог ваших открытых наборов данных.

Выберите набор(ы) данных

Первым делом выберите набор(ы) данных, которые собираетесь открыть. Помните, впрочем, что открытие данных — процесс итеративный; если возникнут трудности, можете вернуться к этому этапу.

Если вы уже точно знаете набор(ы) данных, которые собираетесь открывать, можете сразу переходить к следующему разделу. Зачастую, однако, — особенно в крупных организациях — бывает непросто выбрать, на каких наборах данных сосредоточиться. Как поступать в этом случае?

Этот перечень нужно создать побыстрее, чтобы определить, с какими наборами данных начать работу. Позднее у вас будет время тщательнее проверить, насколько пригоден каждый из них.

Нет никакой необходимости составлять полный список ваших наборов данных. Главный вопрос, на который следует ответить — возможно ли вообще опубликовать эти данные (хоть открытыми, хоть нет) — см. предыдущий раздел.

Спросите сообщество

Сначала стоит спросить сообщество — тех, кто будет пользоваться данными. Они, скорее всего, неплохо представляют, какие данные были бы полезны.

  1. Подготовьте короткий список возможных наборов данных, на который вы бы хотели получить отклик. Не так важно, чтобы этот список отражал ваши ожидания, главное — прочувствовать спрос. За основу можно взять каталоги открытых данных других стран.
  2. Создайте запрос на комментарий
  3. Опубликуйте свой запрос на веб-странице. Он должен иметь собственный URL — тогда его легко будет распространить через социальные сети и легко найти.
  4. Сделайте так, чтобы комментировать было просто. Не требуйте регистрации — это уменьшает число комментариев.
  5. Распространите свой запрос (вместе со ссылкой на главную страницу) через списки рассылки, форумы и отдельных людей, имеющих отношение к теме.
  6. Проведите встречу-консультацию. Выберите удобное время, которое подойдет большинству предпринимателей, аналитиков и чиновников.
  7. Предложите политику выступить от имени вашего ведомства. Весьма вероятно, что открытые данные станут частью более глобальной политики по расширению доступа к правительственной информации.

Ценовые соображения

Сколько денег ведомства тратят на сбор и поддержку своих данных? Если они много тратят на какой-то набор данных, весьма вероятно, что он будет интересен кому-то ещё.

Противникам «халявы» этот аргумент может не понравиться. Вам придётся ответить на вопрос «Зачем бесплатно отдавать такую дорогую информацию?» Ответ в том, что госсектор тратит эти деньги, чтобы решать свою конкретную задачу. Когда данные собраны, отправить их третьей стороне практически ничего не стоит. А значит, и плату за них взимать не нужно.

Легкость публикации

Иногда не стоит выбирать самые ценные данные, а стоит посмотреть, какие данные легче всего довести до публики. Небольшие, легко осуществимые шаги могут стать катализатором больших изменений в поведении организаций.

Впрочем, будьте осторожны! Может так случиться, что ценность этих небольших публикаций будет столь ничтожна, что ни во что большее они не перерастут. Так можно подорвать веру в проект вообще.

Взаимная проверка

Движение за открытые данные расширяется. Вероятно, в вашей отрасли есть много людей, которые знают, что происходит в других отраслях. Составляйте список с учётом опыта других ведомств.

Используйте Свободные Лицензии (Юридическая Открытость)

Права «интеллектуальной собственности» почти везде запрещают третьим лицам использовать и распространять данные без явного разрешения. Даже когда существование таких прав не очевидно, нужно использовать лицензию хотя бы для ясности. Стало быть, если вы собираетесь предоставить доступ к своим данным, их надо лицензировать. Это тем более важно, если вы хотите, чтобы данные были открытые_.

Какие можно использовать лицензии? Для открытых данных используйте такие лицензии, с которыми совместимо определение открытости_, и которые отмечены как применимые к данным. Их список (вместе с инструкциями по применению) можно найти по адресу:

Краткая одностраничная инструкция о применении лицензии открытых данных находится на сайте Сообществ открытых данных:

Сделайте данные доступными (Техническая Открытость)

{term:Открытые данные} должны быть открыты не только юридически, но и технически. В частности, данные должны быть доступны в полном объёме, а формат должен быть {term:машиночитаемый}.

Available

Данные должны предоставляться не дороже разумной стоимости воспроизводства; лучше всего — бесплатно через Интернет. Эта ценовая модель достижима, поскольку ваше ведомство не несёт никаких затрат, когда предоставляет свои данные.

In bulk

Данные должны быть доступны в виде полного набора. Если вы ведёте реестр на основании закона, сделайте так, чтобы его можно было скачать целиком. Веб-API или подобный ему сервис тоже будет очень кстати, но они не заменят полного доступа.

In an open, machine-readable format

Повторное использование данных гос. сектора не должно ограничиваться патентами. Однако ещё важнее предоставлять данные в машиночитаемом формате, что способствует наиболее активному их повторному использованию. Для примера, представьте себе статистические данные, которые опубликованы в формате PDF (Portable Document Format), который часто используют для высококачественной печати. Люди смогут их прочитать, но компьютерам будет очень трудно их использовать. Это сильно ограничит возможность повторного использования данных.

Вот несколько стратегий, которые могут быть очень полезны:

  • Не усложняйте,
  • Двигайтесь быстро
  • Будьте прагматичны.

В частности, лучше выдать необработанные данные сегодня, чем совершенный набор данных - через полгода.

Сделать данные доступными можно разными путями. Наиболее естественный способ в век интернета — публикация онлайн. Есть множество вариантов этой модели. Самый простой — когда ведомства выкладывают свои данные на веб-сайты. Посетители находят нужный источник данных через центральный каталог. Есть, однако, и другие варианты.

Когда {term:подключаемость} ограничена или объём данных чрезвычайно велик, может быть оправдано распространение данных в другом формате. В этом разделе также обсуждаются варианты, которые помогут значительно снизить издержки.

Онлайновые методы

Через уже имеющийся сайт.

Самый привычный способ для команды, которая занимается вашим сайтом — выложить файлы на сайт для скачивания. Таким путём можно распространять не только документы для обсуждения, но и файлы с данными.

Трудность такого подхода состоит в том, что человеку со стороны очень трудно понять, где найти свежую информацию. Этот вариант создаёт дополнительное бремя тем, кто будет создавать инструменты для работы с вашими данными.

Через сторонние сайты

Есть много репозиториев, которые стали центрами данных в определённых областях. Например, pachube.com предназначен для того, чтобы связывать владельцев сенсоров с теми, кто хочет получить доступ данным их данным. На сайтах Infochimps.com и Talis.com государственные учреждения могут бесплатно хранить большие массивы данных.

Подобные сайты могут быть очень полезны. Главная причина в том, что они уже объединили сообщество заинтересованных людей и другие наборы данных. Когда ваши данные становятся частью такой платформы, возникает своего рода положительная обратная связь.

У крупных платформы данных уже есть инфраструктура, которой может оказаться достаточно. Часто они также предоставляют аналитику и статистику использования. Обычно они бесплатны для государственных учреждений.

Есть, однако, две проблемы. Во-первых, независимость. Нужно, чтобы ваше ведомство могло делегировать управление на сторону. Часто это связано с политическими, юридическими или техническими трудностями. Вторая проблема — открытость. Убедитесь, что вашей платформе данных всё равно, кто ей пользуется. Учёные и разработчики программ пользуются многими операционными системами, от смартфонов до суперкомпьютеров. И все они должны иметь возможность получить доступ к данным.

Через FTP-сервера

Менее модный метод предоставления доступа к файлам это протокол передачи файлов (FTP). Он подойдёт, если ваши потребители — технари, например, разработчики программ или учёные. FTP работает так же, как и HTTP, но разработан специально для передачи файлов.

FTP потерял популярность. В отличие от вебсайта, просмотр FTP сервера больше похож на поиск в папках на компьютере. Поэтому, хоть он и справляется с задачей, он даёт гораздо меньше возможностей фирмам занимающимся веб-разработкой заработать на дополнительном оформлении.

Через торренты

Система BitTorrent стала известна законодателям в связи с нарушениями копирайта. Принцип её работы состоит в том, что бремя распространения файлов ложится на всех, кто эти файлы скачивает. Увеличение спроса приводит не к перегрузке серверов, а к увеличению предложения. Именно поэтому эта система успешно используется для раздачи фильмов. Это невероятно эффективный способ распространять большие объёмы данных.

Через API

Данные можно публиковать через {term:Интерфейс программирования приложений} (API). Такие интерфейсы в последнее время очень популярны. Они позволяют программистам выбирать заданные порции данных, не скачивая все данные одним большим файлом. API обычно используются с базами данных, обновляемых в реальном времени. Благодаря этому информация, доступная через API, всегда самая свежая.

Публикация всего объёма «сырых» данных должна быть основной задачей всех инициатив открытых данных. Существует несколько проблем при создании API:

  1. Цена. Они требуют больших усилий по разработке и эксплуатации чем просто файлы.
  2. Ожидания. Чтобы создать сообщество пользователей системы, важно обеспечить определённость. Когда дела пойдут не так, от вас будут ожидать что вы потратитесь на исправление проблем.

Доступ к целым массивам данных обеспечивает следующее:

  • независимость от первоначального поставщика данных: ситуация может изменится, из-за реструктуризации или пересмотра бюджета, но данные будут по-прежнему доступны.
  • любой может получить копию и распространять её. Это снижает цену распространения для организации-источника и означает что отсутствует единственная точка отказа.
  • другие могу разрабатывать свои собственные сервисы на основе этих данных, потому что у них есть уверенность что данные у них не отберут.

Предоставив все данные целиком, вы позволите другим использовать их за рамками первоначальных целей. К примеру, их можно конвертировать в другой формат, связать с другими ресурсами, или поместить под контроль версий и архивировать в нескольких местах. Можно сделать самую свежую версию данных доступной через API, но полные копии сырых данных должны выкладываться регулярно.

Например, статистический сервис Eurostat_ имеет модуль для скачивания целиком, предлагая более 4000 файлов с данными. Он обновляется дважды в день и хранит данные в формате {term:Значения, разделённые табуляцией} (TSV) и включает как файлы данных, так и документацию на модуль скачивания.

Другой пример — каталог Округа Колумбия_, где есть как потоки данных, так и воможность скачать данные в формате CSV и XLS.

Сделайте данные пригодными для поиска и изучения

{term:Открытые данные} — ничто без пользователей. Убедитесь, что люди могут найти исходный материал. В данном разделе описаны некоторые возможные подходы.

Главное, что нужно обеспечить — нейтральное пространство, которое может преодолеть как межведомственные барьеры, так и будущие пересмотры бюджета. Границы юрисдикций — отраслевые и государственные — могут затруднить сотрудничество. Однако, объединение усилий приносит весомые плоды. Чем легче людям со стороны получить данные, тем быстрее будут созданы новые и полезные инструменты.

Существующие инструменты

В сети есть множество инструментов, спроектированных таким образом, чтобы облегчить обнаружение данных.

Самый известный — DataHub — каталог и хранилище данных со всего мира. Благодаря этому сайту люди и организации без труда публикуют свои материалы, а пользователи данных находят то, что им нужно.

Помимо прочего, существуют десятки специализированных каталогов для различных отраслей и мест. Многие научные объединения создали системы каталогизации для собственных областей знания, поскольку им часто необходимы данные для публикаций,

Для правительства

Опыт показывает, что традиционная практика состоит в том, что головное ведомство создаёт каталог для правительственных данных, после чего старается создать структуру, которая позволит множеству подразделений без труда поддерживать свои данные в актуальном состоянии.

Поборите искушение написать программы для поддержки каталога с нуля. Есть множество свободных решений с открытым исходным кодом (к примеру, CKAN), которые используют десятки правительств. Инвестировать ещё в одну платформу — напрасная трата ресурсов.

Есть несколько аспектов, которым большинство каталогов открытых данных не уделяет должного внимания. Ваша программа должна учитывать следующее:

  • Предоставить механизмы добавления их данным частному и общественному секторам. Стоит подумать о вашем каталоге как о каталоге региона чем о каталоге регионального правительства.
  • Поощрять улучшение данных позволив занесение в каталог производных наборов данных. Например, кто-то пометил адреса географическими координатами и хочет поделиться этими результатами со всеми. Если вы допускаете только одну версию набора данных эти улучшения остаются скрытыми.
  • Относитесь терпимо к тому что ваши данные появляются где-то ещё. Т.е. данные скорее всего будут рамножены заинтересованными сообществами. Если вы предоставляете данные об уровне воды в реке, ваши данные могут появиться в каталоге для гидрологов.
  • Следите за тем, чтобы доступ был равноправным. Не создавайте привилегированного уровня доступа для чиновников или правительственных исследователей — это вызовет раздражение и в конечном итоге повредит достижению ваших целей.

Для гражданского общества:

Будьте готовы создать дополнительный каталог для неофициальных данных.

Правительства очень редко полагаются на неофициальные или не авторитетные источники. Чиновники шли порой на огромные затраты, чтобы избежать политических казусов и других неприятных последствий неправильного использования или излишней зависимости от данных.

Кроме того, правительства едва ли захотят поддержать усилия по объединению их информации с информацией от бизнеса: они обоснованно скептически относятся к корыстным мотивам. Следовательно, может потребоваться независимый каталог для общественных объединений, бизнеса и т.д.