guide

オープンデータとは何か?

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

このハンドブックで扱うのは オープンデータ だが、実際のところそれは何なのだろうか?特に、オープンデータの オープン とはどういう意味で、どんな類のデータを想定しているのだろうか?

オープンとは?

このハンドブックで扱うのはオープンデータである。ところで、実際のところ オープンなデータとは何なのだろう? 本書では、 Open Definition の定義に従うデータをオープンデータと呼ぶことにする。

オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのことだ。従うべき決まりは、せいぜい「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である。

full Open Definition に、その意味するところの明確な説明がある。まとめると、最も大切なのはこの三点である。

  • 利用できる、そしてアクセスできるデータ全体を丸ごと使えないといけないし、再作成に必要以上のコストがかかってはいけない。望ましいのは、インターネット経由でダウンロードできるようにすることだ。また、データは使いやすく変更可能な形式で存在しなければならない。
  • 再利用と再配布ができる データを提供するにあたって、再利用や再配布を許可しなければならない。また、他のデータセットと組み合わせて使うことも許可しなければならない。
  • 誰でも使える 誰もが利用、再利用、再配布をできなければならない。データの使い道、人種、所属団体などによる差別をしてはいけない。たとえば「非営利目的での利用に限る」などという制限をすると商用での利用を制限してしまうし「教育目的での利用に限る」などの制限も許されない。

なぜそこまでして「オープン」の意味をはっきりさせたいの?なぜその定義を使うことにしたの?その答えは、一言で表すと 相互運用性 だ。

相互運用性とは、さまざまなシステムや組織が共同で作業を進められることを意味する。今回の場合は、さまざまなデータセットを組み合わせて混ぜて使えるということを表す。

相互運用性が大切な理由は、さまざまなコンポーネントを組み合わせて使えるようになるからだ。コンポーネントにまとめてそれらを「つなぎ合わせて」使うという仕組みは、大規模で複雑なシステムを構築するときに欠かせない。相互運用性がなければ、これは事実上不可能だ。かの有名なバベルの塔の神話が示すとおり、お互いにコミュニケーションができなければ塔を建築する作業は完全に崩壊してしまう。

データに関しても、私たちは同じような状況に直面している。データ(あるいはコード)の「公共性」の鍵となるのは、そこに含まれる「オープンな」素材が別の「オープンな」素材と自由に組み合わせられるということである。この相互運用性が、データをオープンにすることで得られる現実的な利益を理解するための鍵となる。他のデータセットと組み合わせて使うことが劇的に容易になり、そのおかげでより優れた製品やサービスを生み出せるようになる(これらのメリットについては「なぜ」オープンデータなのかに関するセクションで詳述する)。

オープンであることについての明確な定義を用意すれば、別々の場所から二つのオープンデータセットを入手したときにそれを組み合わせて使えるようになる。そして 「バベルの塔」状態、つまり大量のデータセットがあるのにそれを組み合わせて(真の価値を持つ)大規模なシステムを作れない状態になってしまうことを回避できる。

どんなデータを取り上げる?

ここまでで、既にオープンな(あるいはオープンになる)データの例をいくつか紹介してきた。この後もさらに例を紹介する。しかし、どんなデータがオープンなのか、あるいはオープンになり得るのかをざっと見分けられれば便利だろう。そしてそれと同じくらいに重要なのが、どんなデータがオープンにならないのかを知ることだ。

ポイントとなるのは、データをオープンにするときの注意点として個人的なデータを含まないようにするということだ。つまり、特定の個人に関する情報を含まないデータでなければならないということである。

同様に、ある種の政府のデータに関しては、国家機密に関連する制限が適用されることもあり得るだろう。