guide

什么是开放数据?

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

这手册一直在谈论开放数据那么到底什么是开放数据呢?更为关键的,是什么使得开放数据得以开放,并且我们又是在讨论哪一些数据呢?

什么是开放?

到底什么是开放数据呢?为了说明这一点,我们采用「开放知识定义」来定义开放数据:

开放数据是一类可以被任何人免费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的协议再分发。

完整的「开放知识定义」对于这一定义给出了更为翔实的解释。这里总结出最关键的部分:

  • 可获取性和可访问性:作品应当能够被完整获取,并且所需的花费应当不超过合理的重制费用 (较好的获取方案是提供从网络下载数据)。数据也必须使用方便修改的格式。
  • 再利用和再分发:数据应当使用允许再利用和再分发 (包括与其他数据集整合后再分发的情况)的许可协议。
  • 普遍参与性:每一个人都应当能够使用、再利用、再分发那些数据。因此就不允许有限制个人或团体使用的协议。比如,「非商业用途」限制就会限制「商业」用途因此不被允许。又比如限制只能在规定领域使用数据(比如只能在教育领域使用)也是不被允许的。

如果你好奇为什么清楚理解什么是开放是 非常重要的事情以及为什么要使用以上的定义,一个简单的回答是:*互用性*。

互用性指的是不同系统和组织间协同工作 (协同操作) 的能力。在这里,它指的是协同操作或者混合不同数据集的能力

互用性很重要,因为它使得不同部件之间共同合作成为可能。这种将部件模块化并组建起来的能力对于创建大型复杂系统是或不可缺的。而这一切在没有互用性的情况下几乎不可能完成,这就由如在建设著名的巴比塔的工程中沟通 (协同操作) 的能力是至关重要的一样。

对于数据,我们有着类似的境况。数据(或者代码)的「共通」核心在于「开放」资料中的数据可以和其他「开放」资料自由得互相整合。而互用性则是体现「开放性」实际益处的关键所在:基于急速提高的整合不同数据集的能力,更多更好的产品和服务将会被创造(相关的例子可参见「为什么要开放数据」一节)。

给出清晰的关于「开放性」的定义确保了当你取得了两个来源不同的数据集时,你能够将它们整合起来,*而不会遇上巴比塔的困境:即面对大量的数据集,你却无法将他们整合在一起建造真正具备价值的大型系统。*

开放什么数据?

你可能已经见过各种不同类型的数据被开放但在接下来的内容中你还将见到更多例子。但在这之前,我们希望能快速的让你明白哪些数据可能会被开放以及哪些数据不应该被开放。

关键点在于当我们谈论开放数据的时候,我们指的是非个人数据,也就是说这些数据不应该包含特定个人的数据。

同样的,对于一些政府数据,国家安全的限制条例和政策将会适用。