用語集
- 5つ星オープンデータ [Permalink]
Five stars of open data。ワールドワイドウェブの始祖であるティム・バーナーズ=リーが提唱した、オープンデータのレーティングシステム。最高の5つ星を取るには、データは次に挙げる5つの条件を満たさなければならない。(1) オープンライセンスの下で、ウェブ上で入手可能である、(2) 構造化データの形式になっている、(3) プロプライエタリでないファイル形式になっている、(4) URIを識別子として使用している(RDFも参照のこと)、(5) 他のデータソースへのリンクを含んでいる(リンクトデータ を参照のこと)。3つ星を取るには (1) から (3) までの条件を満たさなければならない(他の星も同様)。「オープンの定義」では、データがオープンと認定されるには、3つ星を取ることが必要とされるが、RDFで書かれたりリンク付けされたりしている必要はない。このような定義のおかげで、リンク情報を記述する労力なく、より多くのタイプやソースのデータをオープンとすることができる。
- API [Permalink]
アプリケーション・プログラミング・インタフェース。データの観点では、通常、プログラム、もしくはアプリ / アプリケーションが、ウェブを介して直接データを読み込むためにデータ[公開者(../publisher/)により提供される手段の1つである。その場合のアプリケーションは、APIに対し、必要とする特定のデータを求めるクエリを送信する。例えば、あるバス停で次のバスの発車時刻などである。これにより、アプリケーションは、全データセットをダウンロードすることなく、帯域を節約しつつデータを利用でき、さらに最新のデータを確実に参照することができる。
- Anonymization [Permalink]
匿名化(Anonymisation)を参照。
- BitTorrent [Permalink]
BitTorrentは、複数のコンピュータ間での巨大なファイルのやりとりに使う帯域を分散させるためのプロトコルだ。特定の一か所からファイルをダウンロードするのではなく、BitTorrentではピアを使ってお互いにダウンロードできるようにしている。
- CKAN [Permalink]
データポータルを生成するためのオープンソースソフトウェアプラットフォームであり、 Open Knowledgeによってメンテナンスが行われている。CKANは、20以上の国や地域政府において公式のデータ公開プラットフォームとして利用されており、地方行政やコミュニティ、科学分野など、政府以外を含めればさらに多くの団体によってプラットフォームとして利用されている。特筆すべき機能としては、 メタデータが編集できること、公開者とデータ利用者双方にとって使いやすいウェブインターフェース、データのプレビュー機能、組織単位での認証レベル設定、データアクセスを含めたすべての機能が API経由で行えること、などがあげられる。
- CSV [Permalink]
CSV(コンマ区切り値)は、表形式のデータで使われる標準的なフォーマット。各データは、プレインなテキストファイルの一行ごとに、コンマで区切られた値の列として表現される。極めてシンプルなオープン形式であるため利用しやすく、オープンデータを開示するために広く用いられている。
- DOI [Permalink]
デジタルオブジェクト識別子。デジタルオブジェクト(例えば文書やデータセットなど)向けの識別子で、中央のレジストリーにより割り当てられ、それゆえグローバルに一意の識別子である:同じDOIを持つデジタルオブジェクトが世界中に2つ存在することはない。
- Data wrangler [Permalink]
- EU PSI指令 [Permalink]
EU PSI Directive。公共部門情報の再利用に関する指令、2003/98/EC。「公的機関が保有する情報資源が再利用可能であることを推進しなければならない、とする内容。」Legislative Actions - PSI Directive
- GIS [Permalink]
地理空間情報システム(Geographical Information System)。地理データの読み込みや表示、分析や操作を行うためのコンピュータシステム。
- GPS [Permalink]
衛星測位システム(グローバル・ポジショニング・システム/Global Positioning System)は衛星を基としたシステムで、適切な電波を受信できる機器(昨今のスマートフォンを含む)に対し、正確な位置情報を提供することが可能である。GPSは現在地情報を利用した経路探索情報や天気予報など、多くの位置情報を利用したアプリに必要不可欠となっている。GPSはまた、米国政府によってメンテナンスされ、GPS受信機が組み込まれた機器に対して無料で機能が提供されているという、この上なく成功したオープンデータの一例としても知られている。
- GeoJSON [Permalink]
- IP権 [Permalink]
IP rights。知的所有権参照。
- JSON [Permalink]
JavaScript Object Notation の略。単純だが記述力の高いデータフォーマット。複雑なデータ構造の記述ができ、機械可読性が高いと同時に人間可読性もそれなりにあり、プラットフォームやプログラミング言語に依存しない。従って、プログラムやシステム間のデータ交換用に良く使われるフォーマットとなっている。
- KML [Permalink]
Keyhole Markup Language。地理データ向けのXMLベースのオープン形式。KMLはKeyhole Earth Viewer用に考案され、後にGoogle社が取得しGoogle Earthに名前を変えた。しかし、2008年以来、Open Geospatial Consortiumの国際的な標準 である。
- NGO [Permalink]
非政府組織。NGOはボランタリーな非営利組織で、慈善活動、コミュニティ構築、キャンペーン、研究、その他、市民社会の中心的な部分を作り上げることにフォーカスしている。
- ODRA [Permalink]
Open Data Readiness Assessment(オープンデータ・レディネス・アセスメント)。行政データをオープンデータとして公開することを考えている国(特に開発途上国)の好機、障害物、次にとるべきステップを評価するための、世界銀行が作成したフレームワーク。開発データ参照。
- ODbL [Permalink]
オープン・データベース・ライセンス。著作権そのものと同様に「データベース権」(著作権参照)をカバーするデータのためのオープンライセンスを作成しようという試みである。データ再利用者に契約義務を負わせることでこれを行うものである。残念ながら契約法は著作権とはその土台が異なる。なぜなら著作権は作品に固有のものであり作品の下流の利用者全てに結ばれるものであるのに対して、契約はその当事者どうしで結ばれるもので再公開以降のデータの再利用者には強制力は無い。それでもなおODbLは有用であり、特にデータに対するオープンライセンスを作成する別の試みも行われている。
- OGP [Permalink]
Open Government Partnership(オープンガバメント・パートナーシップ)。加盟国内でオープンガバメントを推進し、多国間の合意とベストプラクティスについて協力しあう目的で2011年に開始した各国政府のパートナーシップ。この記事の作成時点(2014)では64カ国が加盟。
- PDF [Permalink]
Portable Document Format の略。ドキュメントのページレイアウトや体裁を表現するファイル形式で、レイアウトソフトウェアやオペレーティングシステム等に非依存である。元々 Adobe Systems 社のプロプライエタリなフォーマットであったが、2008年からオープン形式となった。PDFファイルに書かれたデータは機械可読でない。構造化データを参照のこと。
- RDF [Permalink]
Resource Description Framework の略。リンクトデータの記述に使用される。正確には RDFは データ形式ではなく、RDFを表現する等価な形式がいくつか存在する。例えば、XML ベースの形式である。RDFデータの最小単位は、主語、述語、目的語の3つ組で構成される「トリプル」である。RDF データは、トリプルストアと呼ばれる、専用のデータベースに保管される。
- SPARQL [Permalink]
- SQL [Permalink]
Structured Query Language の略。さまざまなタイプのデータベースへのアクセスに使用される標準的な言語。クエリを参照のこと。
- SaaS [Permalink]
サービスとしてのソフトウェア。すなわち利用者のマシン上だけではなく、利用者がウェブ越しにアクセスするホスティング会社のマシン上でも動作するもの。ホストは関係するストレージの面倒を見、通常サービス利用者への課金や他の方法でクライアントごとにマネタイズを行う。
- Shapefile [Permalink]
地理データ向けのポピュラーなファイル形式で、GISソフトウェアの開発元であるEsri社が維持、公開している。Shapefile は実際のところ、いくつかの関連するファイルから成る。そのフォーマットは技術的にはプロプライエタリであるが、Esriは全ての仕様標準を公開しており、Shapefileは幅広いソフトウェアで読み込むことができる。このため、実際はオープン標準のように機能している面がある。
- URI / URL [Permalink]
Uniform Resource Identifier / Uniform Resource Locator の略。URL は “http://…” という形式のウェブアドレスで、ページやリソースを表す。リンクトデータで URL がオブジェクトの識別子として使われる場合、厳密にはそのオブジェクトのロケータ(locator)とは言えない(例えば、”http://dbpedia.org/page/Paris” は、パリに関するドキュメントの場所を表すのであって、パリそのものの場所を表すのではない)。そこで、こうした文脈では URL でなく URI と呼ばれる。
- Web API [Permalink]
インターネット越しに動かすように作られたAPI。
- XLS(X) [Permalink]
プロプライエタリなスプレッドシートの形式で、ポピュラーなMicrosoft Excel スプレッドシート・パッケージのネイティブな形式である。古いバージョンでは.xls ファイルを使うが、より新しいバージョンではXMLベースの.xlsxバリアントを使用している。
- XML [Permalink]
Extensible Markup Language。構造化データを表現するためのシンプルでパワフルな標準。
- アプリ / アプリケーション [Permalink]
App / Application。特にウェブ、携帯電話、あるいは同様のプラットフォーム上で動作するように設計された、ソフトウェアのひとかたまり(単に、「アプリケーション」とも)。アプリケーションは大規模データベースへネットワーク越しにコネクションを張ることができるので、これによりリアルタイムの、パーソナライズされ、(携帯電話に搭載されているGPSを用いた)現在地に特化した情報として、オープンデータを利用するための強力な手段となりうる。クラウドソーシングアプリを使えばデータセットそのものを構築したり、既存のものを改良することも可能である。
- アプリケーション・プログラミング・インタフェース [Permalink]
Application Programming Interface。コンピュータプログラムが、別のプログラムと対話するための方法。プログラマーがプログラムに指示を送るときの単位として扱われる。
- アプリ・チャレンジ [Permalink]
App challenge。データ提供者による{コミュニティ参画}のポピュラーな形式のひとつで、ある問題を解決したり、公開されているデータ用いたサービスを提供するアプリ / アプリケーションの開発にプログラマを招待するもの。
- アンカンファレンス [Permalink]
Unconference。カンファレンスによく似たミーティングだが、事前に決まった議題は無い。確立されたテクニックをいろいろ使い、参加者は一緒になって当日どのようなセッションをやるかに同意する。招待スピーカーによるもう少し従来型のカンファレンスのセッションも含まれる場合がある。技術者コミュニティの中でポピュラーな形式は、アンカンファレンスはオープンデータを使ったハッカソンと一緒にあるいはその横で開かれるというものだ。これはデータ公開者によるコミュニティ参画を実現する手法である。
- アンチ共有地の悲劇 [Permalink]
Tragedy of the anti-commons。よく知られる共有地の悲劇は放牧地のような共有のリソースが使いすぎで荒れてしまったときなどに起きる。事実上、貧弱なインセンティブ構造しかない場合、利用者は限られたリソースを無限にあるかのように扱ってしまう。エコノミストのMichael Heller は「アンチ共有地の悲劇」チームを作り出して、その反対の失敗を描き出した。そこでは貧弱なインセンティブが豊富なあるいは無制限のリソースの未活用へと導く。非公開あるいは限界費用以上の課金が行われているデータの場合が第一の例であり、データは実際のところ無制限のリソースなのだ。
- インターネット [Permalink]
Internet。データの構造化された集合で人が理解し処理で要る形で表現されている。情報は個人の知識と世界観の中で文脈が解釈されたときに知識に変換される。
- ウェブ [Permalink]
Web。ワールドワイドウェブのことであり、インターネット越しに「ウェブ・ブラウザ」経由でアクセスできる相互にリンクされ、リンク可能な文書やサービスの巨大な集合。
- オープンの定義 [Permalink]
Open definition。オープンの定義は、2005年にオープン・ナレッジによって初めてリリースされたもので、どのような条件の下であればデータやコンテンツがオープンといえるかが記述されている。オープンの定義が提供する「標準」は極めて重要である。なぜならオープンデータの価値の大半は様々なソースのオープンデータの組み合わせやすさにあるからだ。法的及び技術的な互換性はどちらも極めて重大であり、オープンの定義では、オープンにライセンスされたデータは複雑さや非互換へと至るオープンデータ向けのライセンスや利用規約の増加を避け、問題なく組み合わせられるということを保証している。政府組織が「オープン」のラベルを冠したがるようになるにつれ、オープンの定義は、誇大広告の中にその用語が意味を失わないように保証している。今日、これはオープンデータとオープンデータ・ライセンスの主な国際標準であり、熟練したオープンデータ実践者の諮問委員会(opendefinition.org 参照)を持っている。専門化が運営するライセンス準拠判断手続きと準拠への推奨は世界中でライセンスを強化した。たとえば、英国政府の国際的に影響力のある「オープン・ガバメント・ライセンス」である。オープンの定義はまた公的資金による研究に対するオープンアクセス、オープン・ハードウェアその他を含むオープン運動における他の実践コミュニティにも影響を与え、方向付けした。要約はオープンデータ参照。
- オープンアクセス [Permalink]
Open Access。公開された論文や他の研究結果、とりわけ公的資金による研究には、誰でも自由にアクセス可能であるべきだ、という原則。研究が、読者に購読料を課すジャーナルで公開される従来型のモデルとは対照的である。オープンデータの便益に類似した便益に加えて、提唱者たちは、救命の可能性や価値のある研究を、利用したりその上に構築できる可能性のある読者から隠しておくのは非道徳的だと示唆している。オープンアクセスのジャーナルはすでに存在し、研究資金提供者たちの興味は何らかの牽引力を、特に科学の分野で与えることである。
- オープンガバメント [Permalink]
Open government。オープンガバメントは、一般的にオープン運動に即して、市民にとって透明で、市民への説明可能で、市民へ責任を全うする、政府の仕組みづくりを目指している。これは民主主義の理念、適正な手続き、市民参画、そしてガバメント情報の開示を含む。ガバメント情報の開示への徹底的で継続的なアプローチは、たとえば、立法や予算について草案作成や校正などにおける、市民参画の実現を目指している。OGP参照。
- オープンサイエンス [Permalink]
Open Science。オープン原則に従った科学の実践。オープンアクセス公開、研究データの、関連ソースコードと一緒のオープンデータとしての公開とそれに関わる協働、及びオープンソースのデータ処理ツールの利用と開発といったものを含む。
- オープンソース [Permalink]
Open Source。そのソースコードがオープンライセンスの下で利用できるソフトウェア。ソフトウェアが無料で利用できるだけではなく、必要な技術スキルのある利用者はソースコードを検査し、変更してコードの独自バージョンを実行し、バグ修正を支援し、新機能を開発したりすることができる。大きなオープンソース・ソフトウェア・プロジェクトの中には何千人ものボランティア貢献者を持つものもある。オープンの定義は、その下でソフトウェアがオープンソースとみなされる条件を記述している初期のオープンソースの定義、の多くをベースにしている。
- オープンデータ [Permalink]
Open Data。データはその利用、再利用、再頒布が自由な場合にオープンといえる - 従うべき条件はせいぜい帰属表示や 継承程度だ。オープンの定義参照。
- オープン形式 [Permalink]
Open format。その構造が合意された標準で記述されたファイル形式。非営利の専門組織が監督し、公開する。オープン形式のファイルは多くの様々なソフトウェアで正しく読み込まれたり、その間での情報の受け渡しに使用される保証を得られる。プロプライエタリを比較参照。
- オープン標準 [Permalink]
Open standards。一般に、ライセンスの制約を受けずに自由に使える技術的な標準ととらえられているもの。ベンダー中立な立場で作られた標準規格と解釈されることもある。
- オープン運動 [Permalink]
Open movement。オープン運動は世界のもっとも喫緊の課題を透明性、協働、再利用、そして自由なアクセス、といった精神で解決しようという動き。オープンデータ、オープンガバメント、 オープン開発、 オープンサイエンス その他を含む。なかでも参加型のプロセス、知識とアウトプットとオープンソースソフトウェアの共有が主要なツールである。データ、知識、そしてコンテンツに適用される「オープン」の詳細な定義はオープンの定義に記述されている。
- オープン開発 [Permalink]
Open Development。オープン開発は国際的な開発に対するオープン運動の哲学を目指している。オープンガバメント、支援フローの透明性、開発プロジェクトの設計や実装における受益者の参画、そしてオープン開発データの可用性と利用などを推進している。
- クエリ [Permalink]
Query。データベースがどのようなデータを保持しているかを問い合わせる処理の一種。複雑なクエリを使うことで、データベースに対して様々な尺度や、保持されてる内容の総計などを求めることが可能になる。多くのデータベースでは、SQLや、そのデータベース専用のクエリ用言語を使うことが可能である。ウェブ API を使うことで、ウェブを経由して アプリがデータベースに対してクエリを送付することが可能になる。データをダウンロードして処理する場合に比べ、この方法では必要となる帯域 とアプリの計算負荷が軽減される。
- クラウド [Permalink]
Cloud。クラウドにデータを保管するとはホスティング 会社にまかせ、データ所有者は物理ストレージの管理から開放されること。一つのマシンに保管するのでは無く、異なるロケーションの複数のマシンに跨って保持される事が多い、しかしデータ所有者と利用者は詳細を知る必要は無い。ホスティング会社はデータの保持とインターネット経由で利用可能な状態を維持する責任がある。
- クラウドソーシング [Permalink]
Crowdsourcing。複数のボランティアによって作業できるよう、大規模なデータを構築する仕事を小さなタスクに分割すること。実例を挙げる。ウィキペディアは、クラウドソーシングによる百科事典である。Galaxy Zoo(銀河動物園) は、クラウドソーシングによる科学データの先駆けであり、非専門家に見た目で銀河を分類してもらうことによって構築された。NOVAM は、英国のバス停の位置に関する公的データが合っているか確認し、必要であれば訂正することを市民にお願いしたサービスであり、クラウドソーシングにより 18,000件の訂正が行われた。
- クリエイティブ・コモンズ [Permalink]
Creative Commons。幾多の標準的なライセンスによりパブリッシュされたコンテンツの再利用を促進するために、2001年に設立された非営利組織であり、オープンなものもあり(他に非商用条項を含むものもあるが)、コンテンツを再利用してリリースする際に利用することができ、合わせてその意味するところを明確にできる。
- コスト回収 [Permalink]
Cost recovery。資源、例えばデータに対する値つけの原則。限界費用とは区別され、データの収集コストを回収するのを狙った物。コストを回収するために課金されるデータはオープンの定義によればオープンデータでは無い。コスト回収原則に基づいた{在庫}への課金は、無料もしくは限界費用価格と比べて成長が低い事が研究によって示されている。
- サーバー [Permalink]
Server。インターネット上に設置されたコンピュータで、通常はホスティング企業によって管理され、ユーザからのリクエストに対して応答する。例えばウェブページやファイルのダウンロード、あるいはサーバ上で実行されるSaaSパッケージの機能にアクセスするために必要となる。
- シビック・ハッキング [Permalink]
Civic Hacking。通常オンラインの、特定の市政や社会的問題を扱うツールやコミュニティを構築すること。ユーザらがある特定の関心ごとについて同じ志を持った人々とローカルに出会う助力となるツールや、インフラが壊れている場合に、それを地方自治体に報告したり、あるいはご近所で一緒にゴミ掃除をしたり、といった活動がその例となりうる。 地域レベルでのオープンデータは、シビックハックプロジェクトにとって特に有用なものだ。
- スクレイピング [Permalink]
Scraping。ウェブサイトやPDF文書などのような非機械可読データからデータを抽出し、その結果から構造化データを作成すること。画面スクレイピングでは専用のプログラムが必要でプログラム時間が高価であるため、通常は構造化されたデータを取得する試みが全て失敗した後にのみ行われる。スクレイピングはソースとなるウェブサイトの著作権やサービス利用規約を侵害するか否か、法的な疑問が起きる場合がある。
- スプレッドシート [Permalink]
Spreadsheet。Microsoft ExcleやOpenOffice Calcのようなスプレッドシート専用プログラムで対話的に処理できるデータや計算式の表。
- ソースコード [Permalink]
Source code。プログラマが書いたコンピュータのコードのファイルでソフトウェアの一部を作成するのに使われる。ソースコードは通常、利用者のコンピュータ上で実行できる形式に変換または「コンパイル」される。このため利用者は、オープンソースとして公開されないかぎりはそのソースコードを見ることはない。
- タブ区切り値 [Permalink]
Tab-separated values(TSV)。タブ区切り値は表形式のデータを共有するときによく使われる、テキストファイルの形式のひとつ。極めてシンプルで、かつ機械可読である。
- データ [Permalink]
Data。データは事実の未処理で原始的な記述だと考えられ、しばしばスプレッドシートやデータベースのような数字の表内の数値情報のシステマチックな集合に言及している。データ構造が特定の目的に使いやすく関連しているように構造化され、表現されているとき、それは人間の理解を手助けする情報となる。知識も参照。
- データクリーニング [Permalink]
Data cleaning。これは次のようなものを含む。不整合や誤りの訂正。データセットを使いやすいように処理すること。定式化などによる非{machine-readable}要素の除去。見出し行や列の標準的なラベルの使用。数値、日付、その他の数量が適切に表現されていること。適切なファイル形式への変換。(データ統合参照)で使われている他のデータセットとのラベルの突合。その他。データ品質参照。
- データジャーナリズム [Permalink]
Data journalism。ジャーナリストの訓練ではデータで作業する能力が次第に重要な部分を占めつつある。データに基づく良記事を調査、記述するのに必要なスキルはデータクリーニング、その記事が何を伝えたいかを理解するための調査や深掘、そして適切な視覚化だ。
- データセット [Permalink]
Dataset。ひとまとまりに整理されたデータ。「データセット」という語は状況によって対象が若干変動することがあり、 データベース全体、スプレッドシート、あるいは単純にデータファイルや、データリソースに関連するデータのまとまりを指すことがある。
- データベース [Permalink]
Database。
(i) データの組織的なまとまりは、データベースとして扱われることがある。この場合の語句の意味はデータセットと同義。
(ii)データの管理と処理を行うソフトウェアシステムで、データの追加格納や更新、変更やクエリを行う機能を有する。オープンソースのPostgreSQLや、プロプライエタリのMicrosoft Accessなどが一例。
- データベース権 [Permalink]
Database rights。データベースの中身を他人が読み出したり再利用したりすることを禁じる権利。主にヨーロッパの法域に存在する。
- データポータル [Permalink]
Data portal。データを公開するためのウェブプラットフォーム。データポータルの目的はデータカタログの提供を通じて、ユーザーがデータを利用できるようにすること、そして発見可能(発見できること/見つけられるような状態)にすることである。併せて、データを公開する際の作業負担を軽減する仕組みを提供する。主要な機能には、データの表示、カタログの検索・ブラウズを行うためのウェブインターフェース、外部システムからの要求に応じてデータを自動的に公開するマシン・インターフェース(API)、そしてデータのプレビューおよび視覚化機能がある。
- データ・アクセス・プロトコル [Permalink]
Data Access Protocol。どちらのシステムも書き換えることなく、外部からデータベースへの認証済みアクセスができるようにするプロトコル。
- データ保全 [Permalink]
Data preservation。1086年の英国土地台帳は羊皮紙上にインクで書かれているが、今日でもはっきりと読める技術である。近年のデータセットの長期におよぶ保全は、ファイル形式、コンピュータ基盤技術、記憶媒体そしてネットワーク接続性などが将来にわたって存続するかどうか不確かであるため、確約することが難しくなってきている。データ保全に特別な重点を置くプロジェクトはこれらの問題を避けるために様々なアプローチをとっている。
- データ保護法 [Permalink]
Data protection legislation。データ保護法はデータを保護するものではなく、一般市民が自分のプライバシー情報を公開される心配をせずに生活できる権利を守るものだ。この法律は、プライバシー(個人の経済状況や健康状態、支持政党など)や移動の自由、集会の自由などの権利を保護する。たとえば、フィンランドではかつて旅行カードシステムを使っており、読み取り機を使えば公共交通機関での移動記録をすべて見ることができていた。移動の自由の観点からの議論が起こり、旅行カードが収集したデータはデータ保護法のもとで破棄されることになった。
- データ品質 [Permalink]
Data quality。データの扱いやすさの指標。理想のデータセットは、値が正確で網羅性が満たされ、タイムリーに公開されて、項目の内容や例えば欠落しているデータ箇所を正しく表現する名称が付与されており、直接的に機械可読な状態で(データクリーニングを参照)、さらに入力値のカラムの命名規則が標準に沿っていて、ユーザが内容を把握しやすいよう十分なメタデータが付与されている。メタデータは例えば、データの公開元やデータセット内の値の意味などである。
- データ漏洩 [Permalink]
Data leakage。個人データが不完全に匿名化されていると、それらについての個人データと(おそらく他のソースから入手可能なデータと)一緒に何らかのデータ主題の同一性を再構成することが可能となる場合がある。個人データは公開されるべきでないが(データ保護参照)、「匿名化」されたデータから「漏洩した」といわれる可能性がある。他の種類の部外秘データはたとえば、貧弱なデータセキュリティ手段によって、漏洩しやすい。非識別化参照。
- データ管理 [Permalink]
Data management。データ収集から、格納、保存、利用というデータのライフサイクルを通してデータを扱うために利用するポリシーや手順、利用技術のこと。データ管理ポリシーは データ品質、可用性、データ保護、データ保全等で要求される事柄を考慮して策定されるべきである。
- データ統合 [Permalink]
Data integration。興味深いデータ活用はたいてい様々なソースからデータを組み合わせることになる。そのためには様々なデータセットに互換性が必要だ:同じオブジェクト、単位、座標などには同じ名前を使用しなければならない。データ品質が良ければこのデータ統合の手順はとても簡単だが、そうでなければひどく骨の折れるものになりがちだ。リンクトデータの主要目標はデータ統合を全てあるいはほぼ全て自動化することである。非オープンデータはデータ統合への障壁である。データの入手とそれを利用するために必要な許可の獲得に関して、時間が掛かりデータセットごとにやり直さなければならないのだ。
- データ集合 [Permalink]
Data collection。データセットは様々なやり方でデータを集めて作られる:手動あるいは自動計測(例:気象データ)、調査(センサスデータ)、意思決定の記録(予算データ)、あるいは進行中のトランザクション(支出データ)、多数の記録の集成(犯罪データ)、数学的{モデリング}(人口推計)など。
- トリプルストア [Permalink]
Triple store。RDFデータを構成する「トリプル」を、トリプルストアと呼ばれる専用のデータベースに格納することができる。トリプルストアに対しては、SPARQL というクエリ言語を用いてクエリを発行し検索することができる。
- ハッカソン [Permalink]
Hackathon。通常1〜2日間の期間で開催され、対象に詳しいエキスパートや開発者その他の参加者が一緒に集まって、データを大量に扱いつつ、特定の領域における問題箇所への対処を目的としたアプリや可視化、プロトタイプを作成する。特定の範囲のデータに特化したハッカソンは、データ公開者にとってコミュニティ参画の一形態となる場合がある。ハッカソンはオープンソースコミュニティの界隈で人気の高い方式である。
- バルク [Permalink]
Bulk。全データセットが利用者のシステムに簡単かつ効果的にダウンロードできる場合にデータがバルクで利用できる、といえる。 逆にデータセットの一部に制限され、たとえばあなたが一回の操作が少しの要素に制限されているために全データセットの取得に何千あるいは何百万ものリクエストが必要な場合は、バルクとはいえない。バルクアクセスの提供はオープンデータの要件である。
- パブリックドメイン [Permalink]
Public domain。著作権が適用されていないコンテンツ。たとえば保護期間切れであるとか、誰にでもどのような利用も可能でありパブリックドメインにあると言われているなど。クリエイティブ・コモンズのライセンスのひとつであるCC0は’public domain dedication’ であり、作品の全ての権利を可能な限り放棄し、パブリックドメインに置こうとするもの。
- ビッグデータ [Permalink]
Big Data。これまでのやり方では、ストアしたり、通信したり、処理したり、といったことが不可能であった膨大なデータを集めたもの。そのような膨大なデータ(例えば、膨大な気象データや、他の科学的データなど)を処理できるようになり、また同時にそういった膨大なデータを処理する需要が増すにつれ、それに特化したコンピュータテクノロジ、アーキテクチャ、そしてプログラミング言語の開発が牽引されている。
- ファイル形式 [Permalink]
File format。ファイルのコンピュータディスク上での記述法。形式は通常ファイル名の最後の部分(「拡張子」)に対応している。たとえばCSV形式のファイルは schools-list.csv といった具合だ。ファイル形式はファイルの内部形式に対するもので、利用者への表示法に係るものではない。たとえば、CSV とXLSファイルはディスク上での構造は大きく異なるが、Excelのようなスプレッドシートプログラムで開くととてもよく似たものに見えるだろう。
- プライバシー [Permalink]
Privacy。個々人が生活する上で有する権利であり、自身に関する情報が公開されない権利を含む。プラバシー権は、世界人権宣言 (Universal Declaration of Human Rights) やヨーロッパ人権条約 (European Convention on Human Rights) においても認められている。データ保護参照。
- プロプライエタリ [Permalink]
Proprietary。
(i)プロプライエタリなソフトウェアは、その利用法を制限する企業が所有している。利用者は通常そのソフトウェアを利用するために料金を支払わなければならず、ソースコードを読んだり、書き換えたり、そのソフトウェアを複製したり他のソフトウェアの一部として再販したりすることはできない。よく知られた例はMicrosoft Excel や Adobe Acrobatなどである。非プロプライエタリなソフトウェアはたいていオープンソースである。
(ii)プロプライエタリなファイル形式は企業が所有しコントロールしているものだ。この形式のデータは安心して利用するにはプロプライエタリなソフトウェアが必要だ。オープン形式とは異なり、その形式の詳細は秘密または非公開であり、その企業がいつでも変更できる。プロプライエタリなソフトウェアは通常その独自形式でデータを読み書きする。たとえば、Microsoft Excelの異なるバージョンはプロプライエタリなXLSもしくはXLSX形式を使用している。
- ホスト [Permalink]
Host。利用者のデータを自身(ホスト)のコンピューターで保管し、インターネット経由で利用可能にする企業。ホストされたサービスは、サービスプロバイダのコンピュータで動作しそこにデータが保管され、ネットワーク越しにアクセスできる物の一つ。関連SaaS。
- メタデータ [Permalink]
Metadata。データセットについての情報。たとえばタイトルと概要説明、収集方法、作者または公開者、カバーする地域と年代、ライセンス、日付と更新頻度など。適切なメタデータの公開は見つけやすさと使いやすさの両面で不可欠である。
- ライセンス [Permalink]
Licence。著作権保有者が保護された作品に対して権利を許可できる法的な道具。データおよびコンテンツはオープンの定義に準拠し、明示的に適用されたライセンスに従う場合にオープンであるといえる。帰属表示だけを要求するクリエイティブ・コモンズのCC-BY ライセンスなど、所定の標準的なオープンライセンスが使用できる。
- ライセンス混合 [Permalink]
Licence mixing 。プロジェクトXがコンテンツを公開し、プロジェクトYからコンテンツを取り込みたい場合、Yのライセンスは少なくともXのライセンスと同じ範囲の再利用を許可していなければならない。たとえば、非営利ライセンスの下で公開されたコンテンツはwikipediaに取り込むことはできない。なぜならWikipediaのオープンライセンスは商用利用を含み、このため非営利データを含めることができない。ライセンスをうまく混ぜることができない一例である。
- リアルタイム [Permalink]
Real time。ネットワーク上の列車の現在位置などのように継続的に更新されるデータ。その最新バージョンの取得にはクエリが必要。
- リソース [Permalink]
Resource。CKANではこの用語をデータセット内にある個々のデータオブジェクト(スプレッドシートなどのようなファイルやAPI)のひとつを示すのに使う。
- リンクトデータ [Permalink]
Linked data。データ表現形式のひとつで全ての識別子は http://… URIであり、可能な場合とデータセットが同じオブジェクトのデータセットリファレンスへのリンクを含む場合には識別子の標準リスト(語彙参照)を使用する。その主な目的は巨大なデータセットであってもデータ統合を自動的に行うことである。リンクトデータは通常RDFで表現される。5つ星オープンデータ、トリプルストアも参照。
- 交通データ [Permalink]
Transport data。公共交通機関の経路、時刻表、そしてリアルタイムデータは、有益ではあるがオープンデータとして公開が困難なデータである。データが公開された場合であっても、異なる法人や交通機関から公開されたデータは形式が統一されていないため、サードパーティがそれらを統合した交通サービスを提供することが困難となっている。この分野に関しては 標準化に向けた活動と、オープンデータ活動のより一層の進捗が求められている。
- 人間可読 [Permalink]
Human Readable。人間が読みやすい形式のデータ。人間可読な形式の中にはPDFのように構造化データではないために機械可読でないものもある。すなわち、ディスク上のデータ表現はデータに備わる実際の関係を表現してはいないのだ。
- 公共部門情報 [Permalink]
Public Sector Information(PSI)。公的機関が収集した、あるいは管理する情報。
- 公開者 [Permalink]
Publisher。データや他のコンテンツを配布し利用可能にする人。データ公開者は政府の部局や外郭団体、研究施設、NGO、メディア、一般企業、個人などを含む。
- 再利用 [Permalink]
Re-use。特定の目的で集められたデータが他の用途に使えないというケースは少ない。幸い、データは無限のリソースである( アンチ共有地の悲劇参照)。いったん集められると、データ保有者がそのような再利用ができるようにオープンライセンスの下で利用可能にするだけで、理由を問わず、集められたときには思いもよらない方法で何度も再利用できる。
- 匿名化 [Permalink]
Anonymisation。個人情報を含むデータを処理して、その結果では個人を特定できないようにすること。匿名化によりデータ保護方針に反することなしにデータを公開することができる。主要技術はアグリゲーション(集成)と非匿名化。データ漏洩による個人のプライバシー侵害を避けるために注意が必要。 UKAN はデータ匿名化におけるベストプラクティスを研究している。
- 地理データ [Permalink]
Geodata。位置情報 (例:緯度経度、その他の標準エンコーディングなど)をあらわすデータを含んだデータセット。地図、交通機関経路、環境データ、地籍データなど、多くの種類のデータが地理データとして公開可能である。
- 変換 [Permalink]
Conversion。あるファイル形式のデータを読み込み、異なるフォーマットの同じデータを出力することで、より多くのアプリケーションにデータを利用可能にさせるための、自動処理。
- 多くの目の原則 [Permalink]
Many eyes principle。何かが多くの人の目に触れる状態であるとき、連帯してその中にある誤りを発見できる傾向がある。それゆえオープンデータを公開することで、とりわけ誤りを知らせる良いインターフェースが備わっている場合にはその正確さやデータ品質を改善できる。クラウドソーシング参照。
- 市民参画 [Permalink]
Citizen Engagement。市民を政策形成や市政の意思決定の場面に積極的に巻き込む取り組み。市民参画は、オープンガバメントが目指す中心的な目的である。政策における意思決定をよりよいものに変える、市民の賛意と支持を獲得・維持する、という目的と並ぶものである。オープンデータは、情報に基づいた市民参画を促す上で重要なツールである。
- 帯域 [Permalink]
Bandwidth。コンピュータ間でデータを転送できる速度。帯域には限度があるので、アプリは、ユーザの要求を満たしつつも、必要最低限しかデータをダウンロードしないようにすることをめざす。
- 帰属表示 [Permalink]
Attribution。データを利用または再公開する際のソース(の原作者)への謝辞。利用を許可されているデータの ライセンスはソースへの帰属表示を要求する場合がある。オープンの定義によればこの制限に従うデータもまたopen dataとみなされる。
- 情報 [Permalink]
Information。人間が理解して処理できる形式で表現されたデータの構造化された集まり。情報はある人の知識と世界観の文脈で解釈可能となったときに知識に変わる。
- 情報の自由 [Permalink]
Freedom of Information。FOIとも呼ばれる。公的機関に対して、市民からの要求に対して、例えば秘密保持が必要なデータなど特定の例外を除き保有するデータを提供する法律(例:the Freedom of Information Act 2000 in the UK or the Right to Information Act 2005 in India)の要件である。情報はFOI法のもとに提供されなければならないという事実は、一般的にそれだけでオープンデータとなるわけではない。なぜなら頒布したり、オープンなライセンスのもとで利用可能にするのはまた違う話だからだ。
- 情報資産台帳 [Permalink]
Information Asset Register。IARは、政府や官公庁が保持する大量の情報に関するメタデータをとりまとめて登録したものだ。広義のIARには、データベースや過去のファイル、最近の電子ファイル、統計情報、研究結果なども含まれる。
EU PSI指令は、公開情報の再利用をしたい人向けに、資源の登録簿を作ることの重要性を認識している。所属するメンバーに、一覧表やポータルなどの何かを提供するよう要求している。こんな要求だ。 ” Tools that help potential re-users to find documents availabl for re-use and the conditions for re-use can facilitate considerably the cross-border use of public sector documents. Member States should therefore ensure that practical arrangement are in place that help re-users in their search for documents available for reuse. Assets lists, accessible preferably online of main documents (documents that are extensively re-used or that have the potential to be extensively re-used), and portal sites that are linked to decentralised assets lists are example of such practical arrangements.”
IARはいろんな方法で構築できる。政府の各省が独自にIARを作って、それを国家のIARにリンクしてもいい。IARには、公的機関が持つ情報の中でも積極的には公開するつもりのないものも含めることもできる。そのようにして、どんな情報があってどれがリクエストできるのかを公衆に知らせることができる。 “こういったIARを使う側にとって重要なのは、持っている情報を登録する人たちが、可能な限り完全なものを登録することだ。これで、ドキュメントが確実に見つけられるという信頼を得られるようになる。不完全な登録があると、深刻な問題になる。IARの信頼性が落ちてしまい、それを使って情報を探そうという気をそいでしまうことになるからだ。”
IARの中のメタデータは包括的なものにし、サーチエンジンがきちんと機能するようにしておくことが重要だ。オープンガバメントデータの精神にのっとると、公共団体はIARを、オープンライセンスのもとで生のデータとして大衆に公開しないといけない。そうすれば民間のハッカーがそのデータを活用して、たとえばサーチエンジンやユーザーインターフェイスを作ってくれるかもしれない。
- 接続性 [Permalink]
Connectivity。接続性はインターネット、中でも特にワールドワイドウェブへの接続と通信が可能であるかどうかに関わる。
- 構造化データ [Permalink]
Strcutured data。あらゆるデータは何らかの構造を持つが、「構造化データ」は要素間の構造的な関係がデータがコンピュータのディスクの保存される方法で明示されているデータのことをいう。XML とJSON は多くの種別の構造を表現できる一般的な形式である。たとえば、ワードプロセシング文書やPDF文書の内部表現はページ上のエンティティの位置を反映しており、その論理的な構造を反映してはいない。そのため自動的に抽出することは困難または不可能である。
- 標準 [Permalink]
Standard。公開された仕様(たとえば特定のファイル形式)で、特定のドメインで使用を推奨される用語、メタデータ項目のよく使われる組み合わせなどである。関連する標準に準拠することで機械可読性を改善してデータ統合をしやすくすることにより、公開データの価値を飛躍的に高めることができる。
- 機械可読 [Permalink]
Machine readable。コンピュータが自動的に読み込んで処理できるデータ形式のデータ。たとえばCSV,JSON, XMLなど。機械可読なデータは構造化データでなければならない。比較参照:人間可読。
非デジタル資料(たとえば印刷したり手書きした文書)はその非デジタルな性質により機械可読ではない。しかしデジタル資料であっても必ずしも機械可読ではない。たとえば、データの表を含むPDFを考えてみよう。これらは間違いなくデジタルであるが、機械可読では無い。なぜならコンピュータは表にした情報にアクセスしようと苦闘するだろうから。それがたとえとても人間可読であったとしても。同等のスプレッドシートのような形式の表であれば、機械可読であろう。
別の例いとしてスキャンしたテキストの(写真)は機会可読ではない(が人間可読である!)が、同等のシンプルなASCIIテキストファイルやMicrosoft Wordのようなテキスト処理形式であれば機械可読であろう。
注意:適切な機械可読形式はデータ種別によって変わることがある - このためたとえば、地理情報データ向けの機械可読形式は表形式のデータとは異なるだろう。
- 次元 [Permalink]
dimension。通常のテーブルまたはスプレッドシートは、二つのデータ次元を簡単に表現できる。各データポイントは、行と列を持つ。現実の世界におけるデータは、より多くの次元を持っている。例えば、地球の表面温度というデータセットは、位置と時間によって変化する(地球上での位置を特定するには二つの座標が必要。たとえば緯度経度および時刻を特定するもの)
- 汚職 [Permalink]
Corruption。公的な立場や資金の不適切な利用、例えば金銭の着服、贈収賄、根拠の無い支出の請求、公的なサービスや地位における緊密な交友関係の友人や組織の優先的な登用、など。オープンデータそして、より広義には オープンガバメントは、汚職に対抗するための重要なツールのひとつである。
- 生データ [Permalink]
Raw data。機械可読形式のオリジナルデータのことで、あらゆるアプリケーション、視覚化、公開された研究や解釈などの基礎をなすもの。
- 発見可能 [Permalink]
Discoverable。オープンデータは公開しているだけではなく、利用者が見つけられたりその存在を知っていなければ十分とは言えない。ウェブサイト上で単に手当たり次第に公開するだけでなく、政府その他の大きなデータ公開者はカタログやデータポータルでそれらに索引をつけることでデータセットを発見しやすくすることができる。
- 知的所有権 [Permalink]
Intellectual property rights。知的創造物を、その作者に独占させることを認めた権利。
- 知識 [Permalink]
- 研究データ [Permalink]
Research data。科学および社会科学における実験的な研究は大量のデータを産み出す。研究データ管理(RDM)はこれを取り扱うためのベストプラクティスを探す新しい規則体系である。伝統的にデータは研究者のもので、データ分析論文などの最終研究結果だけが公開されている。オープンサイエンスは作品の検証性を上げ、他の研究でも利用できるようにするためにデータは公開されるべきであると考えている。オープン科学のコラボレーションはその根本理念においてプロジェクトの早い段階でのデータ公開を要求しているが、研究の文化はこれが広く認知されるまでに大きな変革が求められている。
- 継承ライセンス [Permalink]
Share-alike License。派生作品を作った人に対して、その作品に元の作品と同じ(あるいはほぼ同じ)ライセンスを課すことを要求するライセンス。
- 著作権 [Permalink]
Copyright。創作物の作者が持つ知的財産(例:書籍)に係る法的な権利。個々のデータ(事実情報)には著作権は及ばないが、データベースの中のデータの選択や整理については概して著作権の保護が及ぶ。EU域内ではデータを「獲得」するための実質的な努力に対して独立した「データベース権」がデータベースを保護している。著作権者は、たいてい特定の制約の下に保護された資料において他人の権利を認めるライセンス を使用することができる。
- 行政データ [Permalink]
Government data。行政の活動を通して収集される膨大な量のデータのうち、秘匿する必要性の無いデータ(経済、民主活動、決算、犯罪、公共交通などのデータ)のこと。このデータの多くは、オープンデータとして、ビジネスや研究、 市民活動、データジャーナリズムなどで再利用可能な状態で公開されることによって価値が増大する。
- 視覚化 [Permalink]
Visualisation。データの視覚的な表現はしばしばデータによるコミュニケーションの、その主要な姿形、関連性、異常値を明らかにするもっとも説得力のあるやり方である。多くのツールが存在するが、データセットのための視覚化の作成は自動的なプロセスではなく、データのメッセージを輝かせる視覚表現をデザインするためには変数の意味、関係性、データ固有のストーリーなどに注意を払うことが必要である。
- 語彙 [Permalink]
Vocabulary。オブジェクトの特定の集合のために使用される識別子を規定する標準。標準語彙がある場合には使用するということが、データ統合を可能にするためのカギである。リンクトデータは多様なトピックの領域において語彙が豊富である。
- 識別子 [Permalink]
Identifier。データベースにおけるコンセプト、あるいはオブジェクトの名称。識別子は、オブジェクトの実際の名称であったり (例: ‘ロンドン’、’W1 1AA’、ロンドンの郵便コードなど) 、コンセプトに対する記述であったり (‘人口’) 、あるいは ‘XY123’ のように特定のデータセットの中における利用文脈のなかでのみ意味を持つ恣意的な符号であったりする。適切な 標準を利用して識別子を慎重に定めることによって、データ統合が促進される効果がある。リンクトデータ を参照。
- 透明性 [Permalink]
Transparency。政府等の組織は、活動や意思決定のプロセスが十分理解され、適切にドキュメント化され、精査を受けられる状態にある場合に、透明性があるとされる。透明性は、オープンガバメントの原則の一つである。透明性が高まることは、オープンデータの利点の一つである。
- 限界費用 [Permalink]
Marginal cost。データなどのリソースのコピーをひとつ提供するのに必要な付加コスト。オープンの定義によればデータがオープンであるためには、限界費用以上の課金を行ってはならない。インタネット越しにデータのダウンロードが可能な場合は限界費用は通常ゼロである。例外的に小さな限界費用が発生する場合はある。たとえばサイズの理由でディスクに入れて郵送する必要がある場合など。
- 非営利 [Permalink]
Non commercial。ライセンスの一部としての制限事項で、「商用」目的ではコンテンツは自由に再利用できない、とするものである。このような制限はオープンの定義によればオープンとはいえない。このような制限はしばしば意図した以上の除外を引き起こす(たとえば、教育目的の利用が「商用」か否かはしばしばあいまいである」)のと同様、経済的価値を減じ、ライセンス混合で問題を引き起こすものである。非営利条項の意図は継承要件のほうが正しく捕らえている場合がある。
- 非識別化 [Permalink]
de-identification。匿名化の一種で、パーソナルデータベースのレコードは保持したまま、氏名等の特定の識別情報を、匿名化された識別子に置き換えること。集成(アグリゲーション)と比べると、非識別化の方がデータ漏洩のリスクが高い。たとえば、刑務所の記録が受刑者の犯罪記録と治療歴を含む場合、その治療歴に不正にアクセスすると多くの場合氏名が無くても受刑者の犯罪記録で個人を特定可能だ。他のケースではこのリスクは存在しないか、あるいは収集されていないデータの価値がとても大きいので、注意深く設計された安全措置に従って非識別化されたデータを作るのは有意義である。
- Improve this page Edit on Github Help and instructions
- Translate this page Translation guide
-
Donate
If you have found this useful and would like to support our work please consider making a small donation.