용어 사전

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  ne  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 
API [Permalink]

응용 프로그램 인터페이스(Application Programming Interface). 데이터에 있어 API는 일반적으로 프로그램이나 을 통해 데이터를 직접 읽을 수 있도록 데이터 발행자가 제공하는 방법을 의미한다. 앱은 필요한 데이터(예, 특정 정류장에서 다음 버스가 떠나는 시간)를 요청하는 질의를 API에 보내고, 이 질의는 앱이 전체 데이터 세트를 내려받을 필요 없이 특정 데이터를 사용할 수 있도록 허락한다. 그 결과 앱은 대역폭을 절약하고, 사용하는 데이터가 가장 최신의 상태임을 확신할 수 있게 된다.

CKAN [Permalink]

데이터 포털 구축을 위한 오픈 소스 소프트웨어 플랫폼으로 오픈 놀리지(Open Knowledge)1가 개발 및 관리하고 있음. CKAN은 20여 개국 중앙 정부의 공식 데이터 발행 플랫폼으로 사용되며, 더 많은 지방 정부, 커뮤니티, 과학 및 기타 데이터 포털이 이를 바탕으로 동작한다. 주요 기능은 설정 가능한 메타데이터, 발행자와 데이터 사용자를 위한 사용자 친화적 웹 인터페이스, 데이터 미리 보기, 조직 기반의 권한 수준, 데이터 접근은 물론 모든 기능에 대한 접근을 제공하는 API 등이다.

  1. 열린지식재단(Open Knowledge Foundation)이 2014년 ‘Open Knowledge’로 명칭을 변경해 ‘열린 지식’으로 표기하여야 하나 일반 명사와 혼돈이 야기되는 바 본 문서는 원어의 한글 표기인 ‘오픈 놀리지’를 사용한다. 

CSV [Permalink]

‘쉼표로 구분된 값(Comma-Separated Values),’ 스프레드시트 데이터를 위한 표준 포맷. 데이터는 각 데이터 행이 새로운 줄 하나를 차지하고, 각 행의 값은 쉼표로 구분되어 일반 텍스트 파일에 표현된다. 매우 단순한 오픈 포맷으로 사용하기 쉽고, 오픈 데이터 발행을 위해 널리 사용된다.

DOI [Permalink]

디지털 객체 식별자, 디지털 객체에 대해 중앙 등록 시스템이 할당한 식별자로 전세계적으로 유일한 식별자임을 보장할 수 있음. 같은 DOI를 갖는 두 개의 디지털 객체는 세상에 존재할 수 없다.

EU PSI 훈령 [Permalink]

공공정보(PSI)의 재사용에 관한 훈령ㅡ 2003/98/EC. “공공기관이 보유한 정보 자원의 재사용을 강화하는 방안에 대해 다룬다.” 입법 조치 - PSI 훈령

GIS [Permalink]

지리 정보 시스템(Geographical Information System), 지리 데이터를 읽고, 표시하고, 분석하고, 조작할 수 있도록 설계된 모든 컴퓨터 시스템.

GPS [Permalink]

위치 확인 시스템(Global Positioning System), 적합한 수신기를 갖춘 모든 장비(지금의 스마트폰을 포함)에게 정확한 위치 정보를 제공할 수 있는 위성 기반 시스템. GPS는 사용자의 현재 위치를 바탕으로 예를 들어 경로 검색 정보나 날씨 예보 등을 제공하는 여러 위치 기반 응용에 매우 중요하다. GPS는 또한 미국 정부에 의해 관리되고, GPS 수신기를 가진 누구에게나 무료로 제공되는 성공한 오픈 데이터의 인상적인 사례다.

GeoJSON [Permalink]

지리 데이터를 기술하기 위해 특화된 기능을 포함한 JSON의 방언(Dialect)이며, 따라서 널리 사용되는 지리 데이터 교환 포맷.

IP 권리 [Permalink]

지적재산권을 참조.

JSON [Permalink]

자바스크립트 객체 표기법(JavaScript Object Notation), 단순하지만 강력한 데이터 포맷. JSON은 복잡한 자료 구조를 기술할 수 있고, 사람이 무리 없이 읽을 수 있음은 물론 기계도 매우 잘 읽을 수 있으며, 플랫폼이나 프로그램 언어에 독립적이기 때문에 프로그램이나 시스템 사이의 데이터 교환을 위해 널리 사용되는 포맷이다.

KML [Permalink]

키홀 마크업 언어(Keyhole Markup Language), 지리 데이터를 위한 XML 기반 오픈 포맷. KML은 키홀 어스 뷰어(Keyhole Earth Viewer)를 위해 만들어진 뒤 구글에 인수되어 구글 어스(Google Earth)로 이름을 바꿨지만, 2008년 이후 개방형 공간 정보 컨소시엄(Open Geospatial Consortium)의 국제 표준으로 존재해왔다.

NGO [Permalink]

비정부 기구(Non-Governmental Organisation). NGO는 자선 사업, 공동체 구축, 연구 등등에 초점을 둔 자발적, 비영리 기구로 시민 사회의 필수적 부분을 차지한다.

ODRA [Permalink]

오픈 데이터 준비 평가(Open Data Readiness Assessment), 정부 데이터를 오픈 데이터로 발행하고자 하는 국가(특히 개발 도상국)가 갖는 기회, 장애, 밟아야 할 다음 단계를 평가하기 위해 세계은행(World Bank)이 만든 체제.

ODbL [Permalink]

오픈 데이터베이스 라이선스, 데이터에 대해 저작권 자체는 물론 ‘데이터베이스 권리’(저작권을 참조)까지 다룬 오픈 라이선스를 만들기 위한 시도. 이는 데이터를 재사용하는 사람에게 계약에 의한 의무를 부과해 이뤄진다. 불행히도 계약법은 저작권법과 기본적으로 다르다. 저작권은 저작물에 내재하여 모든 파생 사용자에게 의무를 지우지만, 계약은 계약에 참여한 당사자에게만 의무를 지우고, 재발행된 데이터를 추후 재사용하는 사용자에게는 아무런 영향을 미치지 못한다. 어쨌거나 ODbL은 여전히 유용하며, 그 밖에도 특별히 데이터를 위한 오픈 라이선스를 만들려는 시도가 일어나고 있다.

OGP [Permalink]

열린 정부 파트너십(Open Government Partnership), 회원국 내 열린 정부의 촉진 및 다변적 협정과 우수 사례에 대한 협업을 위해 2011년 출범한 중앙 정부 간 협력체. 글을 쓰는 시점(2014년)에 64개의 참가국이 있다.

PDF [Permalink]

PDF (Portable Document Format), 전자 출판 소프트웨어, 컴퓨터 운영 체제 등과 관계없이 페이지 내 문서의 배치 및 외관을 표현하기 위한 파일 포맷. 원래 어도비 시스템스(Adobe Systems)의 독점 포맷이었던 PDF는 2008년부터 오픈 포맷이 되었다. PDF 파일의 데이터는 기계가 읽을 수 있는 형태가 아니다. 구조화된 데이터를 참조.

RDF [Permalink]

RDF (Resource Description Framework), 링크드 데이터를 기술하는 고유의 방법. 정확하게 RDF는 데이터 포맷이 아니며, XML 기반의 포맷을 포함해 RDF가 표현될 수 있는 몇 가지 대등한 포맷이 있다. RDF 데이터는 ‘트리플’ (데이터의 가장 작은 부분 각각은 주어, 서술어, 목적어의 세 가지 부분을 가진다)의 형태를 취하고, 트리플 저장소라 불리는 특화된 데이터베이스에 저장될 수 있다.

SPARQL [Permalink]

SQL과 유사한 질의 언어, 링크드 데이터 트리플 저장소에 대한 질의를 위해 사용된다.

SQL [Permalink]

SQL (Structured Query Language), 다양한 종류의 데이터베이스에 정보를 보내기 위한 표준 언어. 질의를 참조.

SaaS [Permalink]

서비스로서의 소프트웨어(SaaS), 즉 사용자의 기계가 아닌 호스팅 회사의 기계에서 실행되는 소프트웨어 프로그램으로 사용자는 을 통해 접근한다. 호스트는 관련된 데이터 저장소를 관리하고, 일반적으로 서비스의 사용료를 부과하거나 다른 방법으로 고객 기반으로부터 수익을 창출한다.

URI / URL [Permalink]

통합 자원 식별자(URI) / 통합 자원 지시자(URL). URL은 어떤 페이지나 자원의 http://… 웹 주소이다. 링크드 데이터에서 어떤 객체를 위한 식별자로 URL이 사용될 때, 이 주소는 엄격히 객체에 대한 위치를 나타내는 지시자는 아니고(예, http://dbpedia.org/page/Paris 는 Paris에 대한 문서의 위치이지 Paris 그 자체의 주소는 아니다.), 이 경우 이를 URI라 부른다.

XLS(X) [Permalink]

독점적 스프레드시트 포맷, 널리 사용되는 마이크로소프트 엑셀 스프레드시트 패키지의 고유 포맷. 예전 버전은 .xls 파일을 사용하고, 더 최근 버전은 XML 기반의 .xlsx 개정을 사용한다.

XML [Permalink]

XML (Extensible Markup Language), 구조화된 데이터를 표현하기 위한 단순하고 강력한 표준.

개방형 표준 [Permalink]

일반적으로 라이선스를 부여하기 위한 제약으로부터 자유로운 기술적 표준으로 이해됨. 벤더 중립적인 방법으로 개발된 표준을 의미하는 것으로 해석될 수도 있음.

고유 식별자 [Permalink]

고유 식별자(또는 UID): 객체에 대한 식별자로 집합 내 다른 모든 객체의 식별자와 다르다는 것이 보장됨. 데이터베이스 안에서 모든 객체는 데이터베이스 안에서 고유한 UID를 가진다. 중앙 저장소(책을 위한 ISBN이나 데이터를 위한 DOI 등)가 부여한 UID는 UID가 부여될 모든 객체에 대해 고유할 것이다. 링크드 데이터의 식별자인 http://…는 중앙 권력 없이 UID를 보장하기 위한 기술을 제공한다.

공공 부문 정보 [Permalink]

공공 부문에 의해 수집되거나 통제되는 정보.

교통 데이터 [Permalink]

대중교통 노선, 시간표, 실시간 데이터는 가치 있지만 까다로운 오픈 데이터 후보다. 이러한 데이터가 발행되더라도 서로 다른 운송 기관이나 회사에서 만들어진 데이터는 호환되는 포맷으로 공개되지 않을 수 있고, 그 결과 제삼자가 통합된 교통 정보를 제공하기 어렵게 만든다. 많은 운송 기관은 구글이 유지 보수하는 일반 교통 피드 명세(GTFS)를 사용해 대중교통 데이터를 배포한다. 표준을 위한 노력과 오픈 데이터에 대한 많은 일이 이 분야에서 진행되고 있다.

구조화된 데이터 [Permalink]

모든 데이터가 무언가 구조를 갖지만, ‘구조화된 데이터’는 개체 간의 구조적 관계가 컴퓨터 디스크에 명시적으로 저장된 데이터를 말한다. XMLJSON은 일반적인 포맷으로 많은 종류의 구조를 표현할 수 있도록 한다. 예를 들어, 워드프로세서 문서나 PDF 문서에 대한 내부적 표현은 페이지 내 개체의 위치를 나타내지만, 개체 간 논리적 구조를 반영하지는 못하며, 이에 해당하는 것을 자동으로 추출하는 것은 어렵거나 불가능하다.

기계가 읽을 수 있는 [Permalink]

CSV, JSON, XML 등등과 같이 컴퓨터가 자동으로 읽고 처리할 수 있는 데이터 포맷의 데이터. 기계가 읽을 수 있는 데이터는 반드시 구조화된 데이터여야 한다. 사람이 읽을 수 있는 데이터와 비교.

디지털이 아닌 자료(예를 들어 인쇄되거나 손으로 작성된 문서)는 디지털이 아니라는 그 자체의 특성으로 인해 기계가 읽을 수 있는 형태가 아니다. 하지만 디지털 자료라고 하더라도 반드시 기계가 읽을 수 있어야 하는 것은 아니다. 예를 들어, 표로 구성된 데이터를 포함한 PDF 문서를 생각해보라. 이는 명백히 디지털이지만 표로 표현된 정보는 사람이 잘 읽을 수 있다고 하더라도 컴퓨터가 접근하는 데 어려움을 겪기 때문에 기계가 읽을 수 있는 형태가 아니다. 같은 표가 스프레드시트와 같은 형식으로 되어 있다면 이는 기계가 읽을 수 있다.

또 다른 예로 글을 스캔한 결과(또는 사진)는 기계가 읽을 수 있는 형태가 아니다(하지만 사람은 읽을 수 있다). 그러나 같은 글이 단순한 ASCII 텍스트 파일이나 마이크로소프트 워드 파일처럼 텍스트 처리 포맷으로 존재한다면 이는 기계가 읽을 수 있다.

참고: 기계가 읽을 수 있는 적절한 포맷은 데이터 종류에 따라 다를 수 있다. 예를 들어 지리적 데이터를 위한 기계가 읽을 수 있는 포맷은 표로 구성된 데이터를 위한 그것과 다를 수 있다.

대역폭 [Permalink]

컴퓨터 사이에 데이터가 전송될 수 있는 정도. 대역폭은 제한되어 있으므로 은 사용자의 요구를 만족하는 데 필요한 최소한의 데이터만 내려받으려 노력한다.

데이터 [Permalink]

데이터는 가공되지 않은 가장 기본적인 형태의 사실에 대한 진술로 여겨질 수 있다. 데이터는 자주 스프레드시트데이터베이스처럼 숫자로 된 표 형태의 체계화된 수치 정보 집합을 가리킨다. 데이터가 특정 목적에 유용하고 적절하게 구조화되고 표현된다면 이는 사람의 이해를 위해 사용될 수 있는 정보가 된다. 지식을 참조.

데이터 관리 [Permalink]

데이터 수집부터 저장, 보존, 사용에 이르는 전체 생명 주기에 걸쳐 데이터를 다루기 위해 사용되는 정책, 절차, 기술적 선택. 데이터 관리 정책은 데이터 품질에 대한 요구, 가용성, 데이터 보호, 데이터 보존 등을 고려해야 한다.

데이터 랭글러(Wrangler) [Permalink]

자동 또는 반자동화 도구로 데이터를 쉽게 사용할 수 있도록 데이터를 사용하기 좋은 형태로 변경하는 사람. 데이터 랭글링(Wrangling)은 더 나아가 데이터 정제를 포함할 수 있다.

데이터 보존 [Permalink]

1086년의 둠즈데이 북(Domesday Book)은 얇은 종이(Vellum) 위에 잉크로 쓰였고, 이는 오늘날에도 여전히 읽을 수 있는 기술이다. 현재의 데이터 세트에 대한 장기 보존은 파일 포맷, 컴퓨터 구조, 저장 매체, 네트워크 연결성 등에 대한 미래의 불확실성으로 인해 보장하기가 훨씬 어렵다. 데이터 보존을 특히 강조한 프로젝트는 이러한 문제를 풀기 위해 다양한 방법을 택한다.

데이터 보호법 [Permalink]

데이터 보호법은 데이터를 보호하는 것이 아니라 사생활에 대한 정보가 공개될지 모른다는 두려움 없이 살기 위한 국민의 권리를 보호하는 것에 관한 내용이다. 이 법은 프라이버시(개인의 경제적 상태, 건강, 정치적 입장 등에 대한 정보 등)와 이동과 집회의 자유에 대한 권리 등 그 밖의 관리를 보호한다. 예를 들어, 핀란드에서 여행 카드시스템은 서로 다른 대중교통 노선의 판독 기기에 카드가 보인 모든 경우를 기록하기 위해 사용되었다. 이는 이동의 자유에 대한 관점에서 논란을 일으켰고, 여행 카드의 데이터 수집은 데이터 보호법에 따라 폐기되었다.

데이터 세트 [Permalink]

체계적인 데이터 집합. ‘데이터 세트’는 유연한 용어로 데이터베이스 전체, 스프레드시트, 그 밖의 데이터 파일이나 관련된 데이터 자원의 집합을 가리킬 수도 있다.

데이터 수집 [Permalink]

데이터 세트는 다양한 방법으로 데이터를 수집해 만들어진다. 수동 또는 자동 측정(예, 날씨 데이터), 조사(인구 조사 데이터), 의사 결정(예산 데이터) 또는 지속적인 업무(지출 데이터)의 기록, 많은 기록의 취합(범죄 데이터), 수학적 모형화(인구 예측) 등.

데이터 유출 [Permalink]

개인 정보의 익명화가 불완전하다면 이를 이어 맞춰(대게 다른 출처를 통해 얻은 데이터와 함께) 어떤 데이터 대상의 신원을 개인 정보와 함께 복원하는 것이 가능할 수 있다. 발행되지 말았어야 할(데이터 보호를 참조) 개인 정보는 ‘익명화’된 데이터로부터 ‘유출’되었다 말할 수 있다. 다른 기밀 데이터 또한 미흡한 데이터 보안 조치 등으로 인해 유출의 대상이 될 수 있다. 비식별화를 참조.

데이터 저널리즘 [Permalink]

데이터를 이용한 업무 처리 능력은 저널리스트가 지녀야 할 역량 중 점차 중요해지고 있는 부분이다. 데이터를 바탕으로 한 좋은 이야기를 연구하고 전달하는 데 필요한 능력은 연관 데이터 검색, 데이터 정제, 데이터가 하는 이야기를 이해하기 위한 데이터 탐색 또는 데이터 마이닝, 좋은 시각화의 제작을 포함한다.

데이터 접근 프로토콜 [Permalink]

어느 쪽 시스템에도 과부하를 일으키지 않으며 제삼자에게 데이터베이스에 대한 접근 권한을 부여할 수 있도록 하는 시스템.

데이터 정제 [Permalink]

데이터 세트를 쉽게 사용할 수 있도록 만들기 위해 처리하는 것. 이는 불일치나 오류의 수정, 서식처럼 기계가 읽을 수 없는 요소의 제거, 행과 열의 제목을 위한 표준 라벨의 사용, 숫자나 날짜 그 외 수량이 적절하게 표현되도록 보장, 적합한 파일 포맷으로의 변환, 사용되는 또 다른 데이터 세트와 라벨을 일치시키는 과정(데이터 통합을 참조) 등을 포함한다. 데이터 품질을 참조.

데이터 통합 [Permalink]

데이터의 흥미로운 사용은 대부분 서로 다른 출처의 데이터를 결합한다. 이를 위해서는 서로 다른 데이터 세트가 서로 호환될 수 있도록 만들어야 한다. 즉, 데이터 세트는 반드시 같은 객체, 같은 단위나 좌표 등에 대해 같은 이름을 사용해야 한다. 만약 데이터 품질이 좋다면 이러한 데이터 통합 과정은 수월하겠지만 그렇지 않다면 아마 몹시 힘든 일이 될 것이다. 링크드 데이터의 핵심 목표 중 하나는 데이터 통합을 완전히 또는 거의 완전히 자동화하는 것이다. 오픈 데이터가 아닌 데이터는 데이터 획득이나 사용에 필요한 권한을 부여받는 데 많은 시간이 들고, 각 데이터 세트에 대해 처음부터 이를 반복해야 해서 데이터 통합에 장애가 된다.

데이터 포털 [Permalink]

데이터 발행을 위한 플랫폼. 데이터 포털은 발행 기관에 데이터 발행을 위한 편리한 작업 흐름을 제공하며, 데이터가 공개되는 것뿐 아니라 데이터 사용자에 의해 발견될 수 있도록 데이터 목록을 제공하는 것을 그 목적으로 한다. 일반적인 기능은 발행, 목록의 검색과 탐색을 위한 웹 인터페이스, 다른 시스템으로부터 자동으로 발행할 수 있도록 하는 기계 인터페이스(API), 데이터 미리 보기와 시각화 등이다.

데이터 품질 [Permalink]

데이터 유용성의 척도.

이상적인 데이터 세트는 정확하고, 완전하며, 시의 적절하게 발행되고, 항목의 명명이나 예를 들어 빠진 데이터 등에 대한 처리가 일관되며, 직접 기계가 읽을 수 있고(데이터 정제를 참조), 표준 또는 해당 분야의 용어 체계를 따르며, 사용자가 예를 들어 데이터 세트를 발행한 사람, 데이터 세트의 변수에 대한 의미 등을 쉽게 이해할 수 있도록 충분한 메타데이터와 함께 발행된다.

데이터베이스 [Permalink]

(1) 체계적인 데이터 집합은 모두 데이터베이스로 간주할 수 있다. 이러한 맥락에서 이 단어는 데이터 세트와 뜻이 같다.

(2) 데이터를 처리하고 관리하기 위한 소프트웨어 시스템으로 데이터를 확장하거나 갱신하고, 변환 또는 질의하기 위한 기능을 포함. 오픈 소스 소프트웨어인 포스트그레스큐엘(PostgreSQL)과 독점 소프트웨어인 마이크로소프트 액세스(Microsoft Access)가 그 예이다.

데이터베이스 권리 [Permalink]

다른 사람이 데이터베이스에서 콘텐츠를 추출하거나 재사용하는 것을 금지할 수 있는 권리. 주로 유럽에 존재한다.

독점 [Permalink]

(1) 독점 소프트웨어는 소프트웨어가 사용될 수 있는 방법을 제한하는 회사에 의해 소유된다. 사용자는 일반적으로 소프트웨어를 사용하기 위해 비용을 내야 하며, 소스 코드를 읽거나 수정할 수 없고, 소프트웨어를 복제하거나 자기 제품의 일부로 되팔 수 없다. 흔히 볼 수 있는 예는 마이크로소프트 엑셀과 어도비 아크로뱃이다. 비독점 소프트웨어는 일반적으로 오픈 소스다.

(2) 독점 파일 포맷은 회사가 소유하고 통제하는 파일 포맷이다. 이 포맷에 저장된 데이터를 확실히 읽기 위해서는 독점 소프트웨어가 필요할 수도 있다. 오픈 포맷과 달리 포맷의 명세서가 기밀이거나 공개되지 않을 수 있고, 언제라도 회사에 의해 변경될 수 있다. 독점 소프트웨어는 보통 데이터를 자체적인 독점 포맷으로 읽고 저장한다. 예를 들어, 마이크로소프트 엑셀의 여러 버전은 독점적 XLS와 XLSX 포맷을 사용한다.

동일 조건 변경 허락 라이선스 [Permalink]

저작물의 사용자가 원본과 같거나 유사한 조건으로 콘텐츠를 제공하도록 요구하는 라이선스.

라이선스 [Permalink]

저작권자가 보호되는 저작물에 대한 권리를 부여할 수 있도록 하는 법적 수단. 명시적으로 적용된 라이선스가 열린 정의를 따른다면 데이터와 콘텐츠는 오픈이다. 저작자 표시만을 요구하는 크리에이티브 커먼즈 CC-BY 라이선스처럼 몇 가지 표준 오픈 라이선스가 존재한다.

라이선스 혼용 [Permalink]

만일 프로젝트 X가 콘텐츠를 발행하고, 프로젝트 Y의 콘텐츠를 이에 포함하고자 한다면, 최소한 Y의 라이선스는 X의 라이선스와 같은 범위의 재사용을 허락해야 한다. 예를 들어, 위키백과(Wikipedia)의 오픈 라이선스는 상업적 재사용에 대한 권리를 포함하며, 이는 비영리 데이터에 부여될 수 없으므로 비영리 라이선스에 따라 발행된 콘텐츠는 위키백과에 포함될 수 없다. 이는 라이선스가 잘 혼용되지 못한 실패의 예다.

리소스 [Permalink]

CKAN은 이 용어를 개별 데이터 객체 중 하나(스프레드시트 같은 파일이나 데이터 세트API)를 가리키기 위해 사용한다.

링크드 데이터 [Permalink]

가능한 경우 표준 식별자 목록(어휘를 참조)을 사용하며 모든 식별자는 http://… URI이고, 같은 객체에 관한 다른 데이터 세트를 참조하기 위해 데이터 세트가 링크를 포함하는 데이터 표현의 한 가지 형태. 핵심 목표는 데이터 통합을 자동화하는 것이며, 대규모 데이터 세트조차 그 대상이 된다. 링크드 데이터는 일반적으로 RDF를 이용해 표현된다. 오픈 데이터의 다섯 가지 별점트리플 저장소를 참조.

메타데이터 [Permalink]

제목, 설명, 수집 방법, 저자 또는 발행자, 다뤄지는 지역과 시간대, 라이선스, 발행 날짜와 주기 등 데이터 세트에 관한 정보. 데이터와 함께 적절한 메타데이터를 발행하는 것은 데이터가 발견될 가능성과 사용성을 높이는 데 필수적이다.

반공유지의 비극 [Permalink]

잘 알려진 공유지의 비극(Tragedy of the Commons)은 목초지 같은 공유 자원이 지나친 사용으로 퇴화하였을 때 일어난다. 사실상 사용자는 빈약한 보상 구조로 인해 한정된 자원을 무한한 것처럼 다룬다. 경제학자 마이클 헬러(Michael Heller)는 빈약한 보상 구조가 풍부하거나 무한한 자원의 사용 저해를 가져오는 상반된 문제를 설명하기 위해 ‘반공유지의 비극(Tragedy of Anti-commons)’이란 용어를 만들었다. 발행되지 않거나 한계 비용 이상을 요구하는 데이터의 경우가 이에 대한 대표적 예제이며, 데이터는 사실 무한한 자원이다.

발견될 수 있는 [Permalink]

오픈 데이터를 발행해도 잠재적 사용자가 찾을 수 없다거나 있는지조차 알지 못한다면 이것으로 충분하지 않다. 정부 기관과 그 밖의 대형 데이터 발행자는 계획 없이 단순히 데이터를 웹사이트에 발행하기보다 카탈로그나 데이터 포털의 색인에 데이터 세트를 넣어 데이터 세트가 발견될 수 있도록 도울 수 있다.

발행자 [Permalink]

데이터 또는 다른 콘텐츠를 배포하고 이용할 수 있게 하는 자. 데이터 발행자는 정부 부처와 기관, 연구 시설, NGO, 미디어 단체, 영리 회사, 개인 등등을 포함한다.

벌크 [Permalink]

전체 데이터 세트를 사용자 자신의 시스템에 쉽고 효과적으로 내려받을 수 있을 때, 데이터가 벌크(통째)1로 공개되었다고 하며, 반대로 데이터 세트의 작은 부분에 접근이 한정된 경우 데이터는 벌크가 아니라고 한다. 예를 들어, 한 번에 데이터의 몇몇 개체에만 접근할 수 있어 전체 데이터 세트를 얻기 위해서 수천 또는 수백만 번의 요청을 해야 하는 경우가 이에 해당한다. 데이터를 벌크로 공개하는 것은 오픈 데이터의 요구사항 중 하나이다.

  1. 국립국어원에서 출간된 국어순화자료집(1992)에 의하면 외래어 ‘Bulk’는 순화어 ‘무더기’로 번역해야 하나 본 문서의 문맥에 적절치 않아 원어 그대로 ‘벌크’로 표기한다. 이때 ‘벌크’는 ‘무더기’보다 ‘통째’에 가까운 의미로 사용된다. 

변환 [Permalink]

자동으로 한 파일 포맷의 데이터를 읽어서 같은 데이터를 다른 포맷으로 발행하는 절차로 더 넓은 범주의 응용 프로그램이 데이터에 접근할 수 있게 됨.

부정부패 [Permalink]

공적 지위 또는 공적 자금의 남용(예, 공금 횡령, 뇌물 수수, 부당 비용 청구, 공공사업이나 공직 임명에 대한 지인 및 특정 단체의 부당 알선 등). 오픈 데이터 그리고 더욱 일반적으로 열린 정부는 부정부패와의 싸움에 있어 매우 중요한 도구이다.

비식별화 [Permalink]

개인에 관한 기록은 원래대로 유지하지만 이름처럼 신원을 확인할 수 있는 특정 정보는 익명의 식별자로 대체하는 익명화의 한 가지 형태. 총계처리와 비교해 비식별화는 데이터 유출에 대한 더 큰 위험을 지닌다. 예를 들어, 죄수의 범죄 기록과 의무 기록이 수감 기록에 포함됐을 때 많은 경우 죄수는 이름을 몰라도 수감 기록을 통해 식별될 수 있고, 그 결과 죄수의 의무 기록에 대해 허가되지 않은 접근을 허용하게 된다. 어떤 경우에는 데이터 유출의 위험이 존재하지 않거나, 신중하게 설계된 보호 수단을 전제로 비식별화된 데이터를 공개할 만큼 총계처리 되지 않은 데이터의 가치가 매우 크기도 하다.

비영리 [Permalink]

라이선스의 일부로, 콘텐츠가 ‘영리’ 목적으로는 자유롭게 재사용될 수 없다는 제약 조건. 열린 정의에 따르면 비영리를 조건으로 한 콘텐츠 또는 데이터는 오픈이 아니다. 이러한 제약 조건은 의도한 것보다 더 많은 경우(예를 들어, 교육적 사용이 ‘영리적’인지 아닌지는 때때로 불명확하다.)를 제외하는 것은 물론 경제적 가치를 떨어트리고 라이선스 혼용에 문제를 일으킨다.

비영리 조항의 의도는 동일 조건 변경 허락 요구사항에 의해 더 잘 표현될 수도 있다.

비용 회수 [Permalink]

자원 가격 설정의 원리로 데이터를 자원의 예로 들 때 한계 비용과는 다르게 데이터 수집에 대한 비용 회수를 목적으로 함. 열린 정의에 따르면 비용 회수 기반으로 요금이 청구되는 데이터는 오픈 데이터가 아니다. 연구 결과 공공 부문 정보(PSI)에 대한 비용 회수 기반의 요금 청구는 무료 또는 한계 비용 기반의 가격 책정보다 낮은 성장을 이끄는 것으로 나타났다.

비트 토렌트 [Permalink]

비트 토렌트는 전송에 참여한 컴퓨터 사이에서 매우 큰 파일을 보내기 위해 대역폭을 분배하는 프로토콜이다. 비트 토렌트는 정해진 출처로부터 파일을 내려받기보다는 함께 파일을 받는 상대방으로부터 내려받을 수 있게 한다.

빅데이터 [Permalink]

너무 커서 전통적인 방법으로 저장, 전송, 처리할 수 없는 데이터의 집합. 이러한 데이터 세트(예, 날씨 또는 기타 과학 데이터의 집합)와 이에 대한 처리 필요성의 증가는 특화된 컴퓨터 기술, 아키텍처, 프로그램 언어의 개발로 이어졌다.

사람이 읽을 수 있는 [Permalink]

사람이 편하게 읽을 수 있는 포맷의 데이터. PDF처럼 사람이 읽을 수 있는 포맷 중 어떤 것은 구조화된 데이터가 아니므로 기계가 읽을 수 있는 포맷이 아니다. 즉, 이러한 데이터는 디스크에 저장된 모습이 데이터에 존재하는 실제 관계를 나타내지 못한다.

서버 [Permalink]

보통 호스팅 회사가 관리하는 인터넷상의 컴퓨터로 예를 들어, 웹 페이지 또는 내려받은 파일이나 서버에서 실행되는 SaaS 패키지의 기능에 대한 접근 같은 사용자 요청에 응답한다.

소스 코드 [Permalink]

프로그래머가 작성한 컴퓨터 코드 파일로 소프트웨어를 만드는 데 사용된다. 소스 코드는 일반적으로 사용자의 컴퓨터가 실행할 수 있는 형태로 변환되거나 ‘컴파일’된다. 따라서 사용자는 오픈 소스로 발행되기 전에는 절대로 원래의 소스 코드를 볼 수 없다.

쉐이프파일 [Permalink]

GIS 소프트웨어 제조사 Esri가 발행 및 유지하는 유명한 지리 데이터 파일 포맷. 쉐이프파일은 실제로 몇 가지 관련된 파일로 구성된다. 엄밀히 말하면 포맷은 독점이지만 Esri가 전체 명세 표준을 발행했고, 쉐이프파일은 다양한 소프트웨어로 읽을 수 있어 사실상 개방형 표준처럼 사용된다.

스크레이핑 [Permalink]

웹사이트나 PDF 문서처럼 기계가 읽을 수 있는 형태가 아닌 출처로부터 데이터를 추출하고, 그 결과를 통해 구조화된 데이터를 만드는 것. 데이터 세트를 스크린 스크레이핑하기 위해서는 전용 프로그램의 개발이 필요하고, 이를 위해 프로그래머가 많은 시간을 할애해야 하므로 일반적으로 구조적 형태의 데이터를 얻기 위한 다른 모든 방법이 실패했을 때만 사용된다. 스크레이핑이 웹사이트의 저작권이나 서비스 이용약관을 위반하는지에 대한 법적 문제가 일어날 수 있다.

스프레드시트 [Permalink]

마이크로소프트 엑셀이나 오픈오피스 칼크와 같이 특화된 스프레드시트 프로그램을 이용해 대화형으로 처리될 수 있는 데이터 및 계산 결과의 표.

시각화 [Permalink]

데이터의 시각적 표현은 핵심적 특징, 상관관계, 예외를 명백히 보여주며 많은 경우 데이터를 전달하기 위한 가장 강력한 방법이 된다. 많은 도구가 존재함에도 불구하고, 데이터 세트를 위한 시각화 제작은 자동화된 절차가 아니며, 데이터의 메시지를 비출 시각적 표현을 디자인하기 위해서는 변수의 의미와 그들 간의 관계, 데이터에 내재한 이야기에 대해 세심히 신경 써야 한다.

시민 참여 [Permalink]

정책 및 의사 결정에 일반인을 적극적으로 참여시키는 것. 시민 참여는 의사 결정을 개선하고 시민의 지지와 지원을 얻거나 유지하는 것과 함께 열린 정부의 핵심 목표 중 하나이다. 오픈 데이터는 정보에 기반을 둔 참여를 보장하기 위한 필수적인 도구이다.

시민 해킹 [Permalink]

시민으로서 또는 사회적으로 겪는 특정 문제를 다루기 위한 도구와 커뮤니티(대게 온라인)를 만드는 것. 사용자가 특정 관심사에 기반을 둬 주변에서 같은 생각을 하는 사람을 만날 수 있도록 돕거나, 부서진 시설물을 지방 의회에 보고하거나, 집 주변의 쓰레기를 함께 치울 수 있도록 해주는 도구 등을 그 예로 들 수 있다. 지역 수준의 오픈 데이터는 시민 해킹 프로젝트에 있어 특히 유용하다.

식별자 [Permalink]

데이터베이스 내 객체 또는 개념의 이름. 식별자는 객체의 실제 이름(예, ‘런던’이나 ‘W1 1AA’)이나 개념을 설명하는 단어(예, ‘인구’) 또는 ‘XY123’처럼 특정 데이터 세트의 문맥에서만 의미가 있는 임의의 식별자일 수 있다. 관련 표준을 사용한 식별자의 신중한 선택은 데이터 통합을 쉽게 할 수 있다. 링크드 데이터를 참조.

실시간 [Permalink]

최신 버전의 데이터에 대해 질의할 필요가 있는 지속해서 갱신되는 데이터(철도망 위 열차의 현재 위치 등).

앱 / 응용 [Permalink]

하나의 소프트웨어(‘응용(Application)’의 줄임말), 특히 또는 휴대전화 및 이와 유사한 플랫폼에서 동작하도록 설계된 것. 앱은 네트워크를 통해 대용량 데이터베이스에 접속할 수 있어 오픈 데이터를 소비하는 강력한 수단이 될 수 있고, 실시간, 개인맞춤형, (휴대 전화의 GPS를 사용한) 위치 기반 정보를 오픈 데이터로 소비할 수도 있다. 또 크라우드소싱(Crowdsourcing) 앱은 데이터 세트를 만들거나 개선하기 위해 사용될 수 있다.

어휘 [Permalink]

특정 객체의 집합에 사용될 식별자를 지정한 표준. 존재하는 경우 표준 어휘를 사용하는 것은 데이터 통합을 가능케 하는 핵심이다. 링크드 데이터는 서로 다른 주제의 영역에 대해 풍부한 어휘를 제공한다.

언콘퍼런스 [Permalink]

콘퍼런스와 비슷하지만, 사전에 정해진 일정이 없는 모임. 이미 존재하는 다양한 기법을 활용해 참석자들이 그 날 어떤 세션을 진행할지 함께 결정한다. 초청 강연자와 함께하는 조금 더 전통적인 콘퍼런스 세션이 포함될 수도 있다. 기술 커뮤니티에서 인기 있는 형식의 하나로 언콘퍼런스는 오픈 데이터 기반의 해커톤과 함께 열리거나 병행될 수 있다. 이는 데이터 발행자가 커뮤니티의 참여를 이끌기 위해 할 수 있는 한 가지 방법이다.

여러 시선의 원칙 [Permalink]

무언가가 많은 사람에게 노출된다면 전체적으로 사람들이 그 안의 오류를 찾을 가능성은 더 크다. 따라서 오픈 데이터를 발행하는 것은 정확성과 데이터 품질을 높이는 방법이며, 특히 오류를 보고하기 위한 좋은 인터페이스가 제공되는 경우는 더욱 그렇다. 크라우드소싱을 참조.

연결성 [Permalink]

연결성은 지역 사회가 인터넷, 특히 월드와이드웹에 연결할 수 있는 능력을 가리킨다.

연구 데이터 [Permalink]

과학이나 사회과학의 실험 연구는 많은 양의 데이터를 생산한다. 연구 데이터 관리(RDM)는 이러한 데이터를 다루기 위한 가장 좋은 방법을 찾는 새로운 분야를 말한다. 전통적으로 데이터는 연구자들에 의해 보관되고, 데이터를 분석한 논문과 같이 최종 연구 결과만 출판되었다. 열린 과학은 작업 결과의 검증 가능성을 높이고, 다른 연구에서 사용될 수 있게 하려면 데이터가 발행되어야 한다고 여긴다. 완전한 열린 과학 협력의 정신은 프로젝트의 초기에 데이터가 발행될 것을 요구하지만, 이러한 생각이 널리 퍼지기 전에 연구 문화의 적절한 변화가 필요할 것이다.

열린 개발 [Permalink]

열린 개발은 오픈 운동의 철학을 국제 개발에 도입하기 위해 노력한다. 열린 개발은 열린 정부, 원조 흐름의 투명성, 개발 사업의 설계 및 구현에 대한 수혜자의 참여, 오픈 개발 데이터의 공개 및 활용 등을 촉진한다.

열린 과학 [Permalink]

오픈의 원칙을 따르는 과학적 활동으로 오픈 액세스 출판, 연관된 소스 코드와 함께 오픈 데이터로서 연구 데이터의 발행 및 이를 둘러싼 협업, 오픈 소스 데이터 처리 도구의 사용 및 개발을 포함.

열린 정부 [Permalink]

열린 정부는 대체로 오픈 운동과 같은 선상에서 정부의 업무를 투명하고, 책임 있고, 국민에게 응답하도록 만들기 위해 노력한다. 이는 민주주의의 이상, 적법절차, 시민 참여와 열린 정부 데이터를 포함한다. 열린 정부를 향한 엄격한 접근은 또한 시민이 예를 들어 법률의 입안이나 개정, 예산 설정 등에 참여할 수 있게 하려고 노력한다. OGP를 참조.

열린 정의 [Permalink]

오픈 놀리지(Open Knowledge)가 2005년 처음 발표한 열린 정의(The Open Definition)는 어떤 경우에 데이터와 콘텐츠를 오픈이라 할 수 있는지 설명한다. 오픈 데이터의 가치 중 상당수가 서로 다른 출처의 오픈 데이터를 결합할 수 있도록 하는 용이성에 달려있으므로 열린 정의에 의해 제공되는 “표준”은 매우 중요하다. 법적, 기술적 호환성은 모두 필수이며, 열린 정의는 오픈 라이선스를 따르는 데이터가 성공적으로 결합할 수 있음을 보장하는 한편 오픈 데이터 라이선스 및 이용 약관이 폭발적으로 증가해 복잡성과 비 호환성이 일어나는 것을 피한다. 열린 정의는 정부나 기관이 ‘오픈’이란 문구를 달기 위해 서로 싸울 때도 그 흥분 속에서 단어가 의미를 잃지 않도록 지킨다. 오늘날 열린 정의는 경험이 풍부한 오픈 데이터 실무자로 구성된 자문 위원회를 갖추고 오픈 데이터와 오픈 데이터 라이선스를 위한 주요 국제 표준으로 자리 잡았으며, 그 내용은 opendefinition.org에서 찾아볼 수 있다. 전문가에 의해 운영되는 라이선스 부합화 절차와 열린 정의를 따르는 라이선스에 대한 추천은 전 세계 라이선스(예를 들어, 영국 정부 내에서 큰 영향력을 발휘한 “열린 정부 라이선스”)를 발전시켰다. 열린 정부는 또한 공적 기금의 지원을 받은 연구에 대한 오픈 액세스, 오픈 하드웨어 등 오픈 운동에 참여하는 다른 지식 공동체에 영향을 미쳤고, 이들이 나아가야 할 방향을 제시했다. 요약은 오픈 데이터를 참조.

오픈 데이터 [Permalink]

저작자 표시 및 동일 조건 변경 허락에 대한 요구사항을 최대 조건으로 목적에 상관없이 누구나 자유롭게 접근, 사용, 변경, 공유할 수 있을 때, 데이터는 오픈이다. 명확히 말해 오픈 데이터는 열린 정의에 따라 정의되며, 데이터가 법적으로 그리고 기술적으로 오픈될 것을 요구한다. 가. 법적인 오픈은 누구나 자유롭게 접근, 재사용, 재배포가 가능하도록 오픈 (데이터) 라이선스에 따라 데이터를 공개하는 것을 의미하고, 나. 기술적 오픈은 복제를 위한 비용 이상을 요구하지 않으며 기계가 읽을 수 있는 형태로 데이터를 벌크(통째)로 공개하는 것을 말한다.

오픈 데이터의 다섯 가지 별점 [Permalink]

월드 와이드 의 창시자 팀 버너스-리가 제안한 오픈 데이터를 위한 평점 시스템. 최대 다섯 개의 별점을 기록하기 위해서 데이터는 반드시 (1) 오픈 라이선스로 웹에 공개되어야 하고, (2) 구조화된 데이터 형식을 가져야 하며, (3) 비독점 파일 포맷이어야 하고, (4) 식별자로 URI를 사용해야 하며(RDF를 참조), (5) 다른 데이터 출처에 대한 링크를 포함해야 한다(링크드 데이터를 참조). 세 개의 별점을 기록하기 위해서 데이터는 반드시 (1)부터 (3)까지를 모두 만족해야 한다.

오픈 소스 [Permalink]

소스 코드가 오픈 라이선스로 공개된 소프트웨어. 오픈 소스인 경우 소프트웨어를 무료로 사용할 수 있을 뿐 아니라 사용자가 필요한 기술적 능력을 갖춘 경우 버그를 수정하거나 새로운 기능을 개발하는 등의 도움을 주며 소스 코드를 자세히 살펴보거나 수정해서 자기 자신의 버전을 관리할 수 있다. 일부 대형 오픈 소스 소프트웨어 프로젝트에는 수천 명의 자발적 기여자가 참여한다. 열린 정의의 많은 부분은 소프트웨어를 오픈 소스로 여기기 위한 조건을 기술한 초기 오픈 소스의 정의를 바탕으로 한다.

오픈 액세스 [Permalink]

연구, 특히 공적 기금의 지원을 받은 연구를 통해 출판된 논문 및 그 밖의 결과에 대해 누구나 자유롭게 접근할 수 있어야 한다는 원리. 이는 독자들에게 구독료를 요구하는 저널에 연구 결과를 출판하는 전통적인 모델과 대조적이다. 오픈 데이터의 이점과 유사한 이점 외에도 오픈 액세스를 지지하는 사람들은 연구 결과를 활용하거나 발전시킬 수 있는 독자로부터 생명을 구할지도 모르는 가치 있는 연구를 숨기는 것이 비도덕적이라 말한다. 이제 오픈 액세스 학술지가 나타나고, 연구비, 특히 과학 분야의 연구비를 지원하는 기관은 이에 힘을 실어주고 있다.

오픈 운동 [Permalink]

오픈 운동은 세상의 가장 시급한 문제 중 다수에 대해 투명성, 협력, 재사용, 자유로운 접근의 정신으로 해결책을 찾기 위해 노력한다. 이는 오픈 데이터, 열린 정부, 열린 개발, 열린 과학과 그 밖의 여러 가지를 포함한다. 참여적 절차, 지식과 결과의 공유, 오픈 소스 소프트웨어 등이 오픈 운동의 핵심 도구 중 몇 가지다. 데이터, 지식, 콘텐츠에 적용되는 “오픈”의 구체적 정의는 열린 정의에 의해 기술된다.

오픈 포맷 [Permalink]

금전적 또는 그 밖의 사용상 제약을 두지 않고 최소한 한 가지 자유/오픈 소스 소프트웨어 도구로 완전히 처리될 수 있는 파일 포맷. 특허는 포맷을 독점적으로 만드는 제약조건의 공통된 원인이다. 반드시 그런 것은 아니지만, 오픈 포맷의 구조는 이따금 비상업 전문가 단체가 감독 및 발행하는 합의된 표준으로 공표된다. 오픈 포맷의 파일은 지원하는 몇 가지 소프트웨어 프로그램으로 정확하게 읽을 수 있고, 이들 사이에 정보를 전달하는 데 사용될 수 있다는 보장을 누린다.

원천 데이터 [Permalink]

응용, 시각화, 출판된 연구나 해석 등등 무언가의 바탕이 된 기계가 읽을 수 있는 형태의 원본 데이터.

웹 [Permalink]

월드 와이드 웹, ‘웹 브라우저’를 거쳐 인터넷을 통해 접근할 수 있는 상호 연결되어 있고, 연결이 가능한 문서와 서비스의 방대한 집합.

웹 API [Permalink]

인터넷에서 동작할 수 있도록 설계된 API.

응용 프로그램 인터페이스 [Permalink]

컴퓨터 프로그램이 다른 프로그램과 대화하는 방법. 프로그램 간의 명령을 프로그래머가 보내는 방법으로 이해할 수 있다.

익명화 [Permalink]

개인 정보를 포함한 데이터를 처리해 결과 데이터에서 개인이 더는 식별될 수 없도록 하는 것. 익명화는 데이터 보호 원칙을 위배하지 않으며 데이터를 공개할 수 있도록 한다. 주요 기술은 총계처리와 비식별화다. 개인의 프라이버시가 도출되는 결과를 가져올 수 있는 데이터 유출을 방지하기 위해 반드시 주의를 기울여야 한다. UKAN은 데이터 익명화의 우수 사례를 연구한다.

익명화(Anonymization) [Permalink]

익명화(Anonymisation) 참조.

인터넷 [Permalink]

세계적으로 유일한 주소 공간을 통해 논리적으로 서로 연결된 수십억 기기 사이의 데이터 전송 및 교환을 돕고자 인터넷 프로토콜 모음(TCP/IP)을 사용하는 상호연결된 컴퓨터 네트워크의 전 세계적인 네트워크.

재사용 [Permalink]

특정 목적을 위해 수집된 데이터가 다른 목적으로 사용될 가능성을 갖지 않는 경우는 매우 드물다. 다행히도 데이터는 무한한 자원이며 (반공유지의 비극 참조), 무슨 이유로든 한 번 수집되어 데이터 소유자가 재사용이 가능하도록 오픈 라이선스로 공개하기만 한다면 수집할 때 절대 예상치 못한 방법으로 반복해서 재사용될 수 있다.

저작권 [Permalink]

저작물의 창작자에 귀속되는 지적 재산(예, 책)의 법적 권리. 개별 데이터(사실)는 저작권으로 보호될 수 없으나 데이터베이스는 일반적으로 그 안의 데이터에 대한 선별 및 배열을 보호하는 저작권에 의해 다뤄진다. 유럽 연합 내에서는 데이터 ‘획득’을 위해 상당한 노력이 요구된 경우 별개의 ‘데이터베이스 권리‘가 데이터베이스를 보호한다. 저작권자는 보호되는 자료에 대한 권리를 다른 이에게 양도(보통 명시된 제약 조건 아래서)하기 위해 라이선스를 사용할 수 있다.

저작자 표시 [Permalink]

데이터를 사용하거나 재발행할 때 출처를 밝히는 것. 데이터 사용을 허락하는 데이터 라이선스는 출처를 밝혀야 한다는 요구사항을 포함할 수 있다. 열린 정의에 따르면 이러한 제약 조건을 갖는 데이터도 여전히 오픈 데이터라 부를 수 있다.

정보 [Permalink]

사람들이 이해하고 처리할 수 있는 형태로 표현된 구조화된 데이터의 집합. 정보는 개인의 지식 및 세계 모형의 나머지가 갖는 맥락과 관련지어질 때 때 지식으로 전환된다.

정보 자산 목록 [Permalink]

IAR(정보 자산 목록)은 정부 부처와 기관이 보유한 많은 양의 정보에 대한 메타데이터를 획득하고 정리하기 위해 특별히 만들어진 목록이다. 포괄적 IAR은 데이터베이스, 오래된 파일 집합, 최신 전자 파일, 통계 모음, 연구 결과물 등을 포함한다.

EU PSI 훈령은 미래에 공공 정보를 재사용하게 될 사용자를 위해 자산 목록이 중요하다는 사실을 인지하고, 회원국이 목록, 포털, 또는 이와 유사한 것을 제공하도록 요구한다. EU PSI 훈령은 다음과 같이 공표한다. “잠재적 사용자가 재사용이 가능한 문서와 재사용 조건을 찾을 수 있도록 도와주는 도구는 공공 문서의 국경을 넘는 사용을 크게 촉진할 수 있을 것이다. 따라서 회원국은 사용자가 재사용을 위한 문서를 검색할 때 도움을 줄 수 있도록 실질적인 장치가 준비되어 있음을 보장해야 한다. 되도록 온라인으로 접근할 수 있는 주요 문서(널리 재사용되거나 그럴 가능성이 있는 문서)의 자산 목록과 분산된 자산 목록을 연결하는 포털 사이트 등이 앞서 언급한 실질적인 장치의 예이다.”

IAR은 여러 가지 방법으로 만들 수 있다. 정부 부처는 독자적인 IAR을 만들 수 있고 이를 국가 IAR과 연결할 수 있다. IAR은 공공 기관이 보유하고 있으나 아직 공표하지 않은(또는 앞으로도 공표하지 않을) 정보를 포함할 수 있다. 따라서 IAR은 일반 대중이 존재하는 정보와 요청할 수 있는 정보를 식별할 수 있도록 한다.

“이러한 IAR을 대중이 사용하기 위해서는 정보를 보유한 어떤 목록이라도 문서를 찾을 수 있다는 확신을 줄 수 있도록 가능한 한 완벽해야 한다. 몇몇 목록의 불완전성은 일부 사용자가 정보를 찾기 위해 목록을 사용하지 않게 만들 만큼 불신을 조장하기 때문에 심각한 문제다.”

IAR의 메타데이터가 검색 엔진이 효과적으로 동작할 수 있도록 포괄적이어야 한다는 점은 매우 중요하다. 열린 정부 데이터 정신에 근거해 공공 기관은 일반 대중에게 IAR을 원천 데이터의 형태로 오픈 라이선스에 따라 공개해야 하고, 이를 통해 시민 해커는 예를 들어 검색 엔진과 사용자 인터페이스의 개발을 통해 데이터를 이용할 수 있게 된다.

정보의 자유 [Permalink]

FOI로도 알려짐. 특정 예외가 적용되는 경우(예, 데이터가 기밀인 경우)를 제외하고 국민이 요청하면 공공기관이 보유한 데이터를 제공해야 한다는 법적 요구사항(예, 2000년 제정된 영국의 정보자유법 또는 2005년 제정된 인도의 정보권리법). 정보가 배포되지 않고 오픈 라이선스로 공개되지 않을 수 있다는 등의 이유로 일반적으로 FOI 법에 따라 정보가 반드시 제공돼야 한다는 사실이 정보를 오픈 데이터로 만드는 것은 아니다.

정부 데이터 [Permalink]

정부의 업무는 거대한 양의 데이터 수집을 포함하고, 이렇게 수집된 데이터 중 상당수는 기밀이 아니다(경제 데이터, 인구 통계학적 데이터, 지출 데이터, 범죄 데이터, 교통 데이터 등등). 이러한 데이터의 상당수는 오픈 데이터로 개방되고, 기업, 연구소, 시민 사회, 데이터 저널리스트 등등으로부터 자유롭게 재사용될 수 있도록 만들어질 때 그 가치가 크게 높아질 수 있을 것이다.

지리 데이터 [Permalink]

데이터 항목이 위치(예, 위도와 경도 또는 또 다른 표준 인코딩)를 포함하는 모든 데이터 세트. 지도, 운송 경로, 환경 데이터, 지적 데이터, 그 밖에 많은 종류의 데이터가 지리 데이터로 발행될 수 있다.

지식 [Permalink]

개인(또는 인류)의 세상에 대한 정보와 세상을 이해하기 위한 능력의 총합. 데이터를 참조.

지적재산권 [Permalink]

지적 창작물에 대해 개인에게 부여되는 독점권.

질의 [Permalink]

보유하고 있는 데이터에 대해 데이터베이스가 받아들이는 질문의 한 가지 종류. 복잡한 질의는 데이터베이스에 어떤 조건에 따른 레코드의 선택이나 그러한 레코드에 걸친 어떤 수량의 집계 등을 요구할 수 있다. 많은 데이터베이스는 전문 언어인 SQL 또는 그 방언으로 된 질의를 받아들인다. 웹 API을 통해 데이터베이스에 질의를 보낼 수 있도록 한다. 데이터를 내려받거나 처리하는 것과 비교하면 질의는 앱의 연산 부하 및 필요한 대역폭을 모두 줄인다.

차원 [Permalink]

일반적인 표나 스프레드시트는 두 개의 데이터 차원을 쉽게 나타낼 수 있다. 이때 각 데이터 항목은 행과 열을 가진다. 하지만 현실 세계의 많은 데이터가 더 많은 차원을 갖고 있다. 예를 들어, 위치와 시간에 따라 바뀌는 지구 표면 온도에 대한 데이터 세트는 위도와 경도처럼 지구에서의 위치를 나타내기 위해 필요한 두 개의 좌표와 함께 시간을 나타내기 위한 하나의 차원이 더 필요하다.

크라우드소싱 [Permalink]

엄청난 양의 데이터 수집 작업을 지원자들에 의해 수행될 수 있는 작은 과업으로 나누는 것. 몇 가지 예: 위키백과(Wikipedia)는 크라우드소싱으로 만들어진 백과사전이고, 갤럭시 주(Galaxy Zoo)는 지원한 비전문가들에게 시각적 모습에 따라 은하를 분류하도록 한 과학 데이터 크라우드소싱의 초기 예이다. NOVAM은 일반 대중이 영국 버스 정류장의 위치에 대한 공식 데이터를 확인 또는 수정할 수 있도록 한 서비스였으며, 크라우드소싱을 통해 약 18,000개의 수정이 이뤄졌다.

크리에이티브 커먼즈 [Permalink]

2001년 설립된 비영리 단체로 몇 가지 표준 라이선스의 발표를 통해 재사용 가능한 콘텐츠 보급을 장려함. 발표된 라이선스 중 일부는 오픈 라이선스이며, 비영리 조항을 포함한 라이선스도 존재함. 표준 라이선스는 재사용을 위한 콘텐츠를 라이선스의 의미에 대한 명확한 설명과 함께 공개하고자 할 때 사용될 수 있음.

클라우드 [Permalink]

‘클라우드 안에’ 저장된 데이터는 호스팅 회사에 의해 다뤄지고, 그 결과 물리적 저장공간을 데이터 소유자가 관리해야 할 필요가 없어진다. 데이터는 하나의 기계에 저장되는 것 대신 다른 장소에 있는 여러 기계에 나눠 저장되거나 그 사이를 이동할 수 있지만, 데이터 소유자나 사용자는 이런 자세한 사항에 대해 알 필요 없다. 호스팅 회사는 데이터가 가용하고 인터넷을 통해 접근할 수 있도록 유지할 책임이 있다.

탭으로 구분된 값 [Permalink]

탭으로 구분된 값(TSV)은 표 형태의 데이터를 공유하기 위한 매우 일반적인 텍스트 파일 포맷의 형태이다. 이 포맷은 매우 단순하며 기계가 잘 읽을 수 있다.

투명성 [Permalink]

정부 및 기타 기관은 운영과 의사 결정 과정이 잘 알려지고, 올바르게 기록되며, 검증이 가능하도록 열려있을 때 투명하다고 일컬어진다. 투명성은 열린 정부의 한 가지 측면이다. 투명성의 증가는 오픈 데이터가 가져오는 장점 중 하나이다.

트리플 저장소 [Permalink]

RDF 데이터의 ‘트리플(triple)’은 트리플 저장소라 불리는 특별한 데이터베이스에 저장될 수 있고, 이 데이터베이스에는 SPARQL이라는 질의 언어로 질의가 가능하다.

파일 포맷 [Permalink]

컴퓨터 디스크에 파일이 어떻게 표현되는가에 대한 명세. 포맷은 일반적으로 파일명의 마지막 부분(‘확장자’)에 해당한다. 예를 들어, CSV 포맷의 파일은 schools-list.csv라 불릴 수도 있다. 파일 포맷은 파일의 내부 포맷을 가리키며, 파일이 사용자에게 어떻게 보이는지를 말하는 것은 아니다. 예를 들어, CSV와 XLS 파일은 굉장히 다른 디스크 구조를 갖지만, 엑셀과 같은 스프레드시트 프로그램으로 열었을 때 비슷하거나 같은 모습으로 보인다.

퍼블릭 도메인 [Permalink]

저작권이 적용되지 않는 콘텐츠로 예를 들어, 저작권이 만료되었거나, 사용 방법에 상관없이 누구나 자유롭게 사용할 수 있거나, 퍼블릭 도메인에 있다고 선언된 경우 등이 이에 해당한다. 크리에이티브 커먼즈 라이선스 중 하나인 CC0는 저작물에 대한 모든 권리를 포기하고, 이를 퍼블릭 도메인에 두기 위해 가능한 한 노력하는 ‘퍼블릭 도메인 기증’이다.

표준 [Permalink]

예를 들어, 특정 파일 포맷의 구조, 특정 분야에서 사용되는 추천 용어 체계, 공통 메타데이터 필드의 집합 등과 같은 것을 위해 출판된 명세. 관련된 표준에 따르면 데이터를 기계가 더 잘 읽을 수 있고, 데이터 통합도 쉬워져 발행된 데이터의 가치가 증가한다.

프라이버시 [Permalink]

사생활에 대한 개인의 권리는 자신에 대한 개인 정보가 대중에게 알려지지 않도록 할 권리를 포함한다. 프라이버시에 대한 권리는 세계 인권 선언(Universal Declaration of Human Rights)과 유럽 인권 협약(European Convention on Human Rights)에 의해 인정된다. 데이터 보호법을 참조.

한계 비용 [Permalink]

어떤 자원(예, 데이터)에 대한 사본 하나를 공급할 때 발행하는 추가적인 비용. 열린 정의에 따르면 데이터가 오픈되기 위해서는 절대 한계 비용 이상이 청구되면 안 된다. 인터넷을 통해 데이터를 내려받을 수 있는 경우 일반적으로 한계 비용은 영이다. 예외의 경우에 작은 한계 비용이 존재할 수 있다. 예를 들어, 크기 때문에 데이터를 디스크에 넣어 우편 발송해야 하는 경우.

해커톤 [Permalink]

특정 분야의 문제를 해결하기 위한 응용, 시각화, 프로토타입을 만들기 위해 개발자, 주제 전문가, 그 밖의 사람들이 함께 모여 보통 하루 또는 이틀에 걸쳐 진행되는 행사로 일반적으로 데이터를 많이 사용함. 특정 데이터 집합에 초점을 맞춘 해커톤은 데이터 발행자에 의한 커뮤니티 참여의 가능한 모습 중 하나이다. 해커톤은 오픈소스 커뮤니티에서 매우 유명한 형식이다.

호스트 [Permalink]

고객의 데이터를 자사(호스트)의 컴퓨터에 저장하고 인터넷을 통해 이를 사용할 수 있도록 하는 회사. 호스팅을 받는 서비스는 서비스 제공자의 컴퓨터에서 데이터를 운영하고 저장하며, 네트워크를 통해 이에 접근하는 서비스이다. SaaS를 참조.