guide

어떻게 데이터를 공개할 것인가

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

본 섹션은 핸드북의 핵심으로 데이터 소유자가 데이터를 공개하는 방법에 대한 구체적인 조언을 제공한다. 기초에 대한 자세한 검토와 문제점을 동시에 살펴본다. 마지막으로 발생할 수 있는 미묘한 이슈들에 대해 논의할 것이다.

데이터를 공개할 때 따르도록 추천하는 세 가지 규칙이 있다:

  • 단순명료. 작고, 간단하고, 빠르게 시작한다. 모든 데이터셋이 지금 당장 공개될 필요는 없다. 하나의 데이터셋이나 규모가 큰 데이터의 일부를 공개하는 것으로 시작하는 것도 좋을 수 있다. – 물론 많은 데이터셋을 공개할 수 있다면 더욱 좋다.

오픈 데이터는 혁신에 대한 것임을 기억해야 한다. 가능한 신속히 진행하는 것이 좋은데 이는 모멘텀을 만들고 경험을 통해 배울 수 있기 떄문이다. - 혁신은 성공만큼 실패가 있으며, 모든 데이터 집합이 항상 유용한 것도 아니다.

  • 초기에, 자주 참여. 시민들, 기업들 또는 개발자들가 되어 데이터를 적극적이며 잠재적으로 활용할 수 있는 사용자 및 재사용자로 참여한다. 이런 활동은 다음 버전의 서비스에서 관련이 있을 수 있는 가능성을 보장할 것이다.

대다수의 데이터가 최종 사용자에게 직접 도착하기 보다 ‘정보-중개자’를 통해 전달된다는 것을 기억할 필요가 있다. 이런 사람들은 데이터를 보유하면서 표현된 데이터를 변환하거나 혼합한다. 예를 들어, 많은 사람들이 규모가 큰 GPS 데이터베이스가 필요하지 않을 수 있기 때문에 지도를 선호할 수 있다. 따라서, 우선 정보 중개자가 참여하여 자료를 재사용하고 재목적화할 것이다.

  • 일반적인 우려와 오해에 대한 설명. 정부와 같이 규모가 큰 조직과 함께 또는 조직내에서 일 할 때 매우 중요하다. 데이터를 공개할 때 수많은 질문과 우려에 마주치게 될 것이다. 이 때 (a) 가장 중요한 점을 구체화하고, (b) 가능한 빠른 단계에서 문제를 조정하는 것이 중요하다.

데이터를 공개하는 4 단계가 있으며 각 단계에 대해 아래에서 상세하게 설명할 것이다. 이것은 대략적인 순서이며 대부분의 단계는 동시에 이루어질 수 있다.

  1. 데이터셋 선택하기. 공개할 계획이 있는 데이터셋을 선택한다. 후속 단계에서 문제가 있을 때 이 단계로 복귀할 수 있거나 복귀할 필요가 있다는 것을 주의해야 한다.
  2. 공개 라이센스의 적용.
    1. 데이터에 어떤 지적재산권을 명시할 것인지 결정한다.
  1. 모든 지적재산권을 허용하는 적절한 ‘공개’ 라이센스를 적용하고, 위에 있던 ‘어떤 데이터를 오픈할 것인가’ 섹션에서 논의했던 공개성의 정의를 지원한다.
  2. NB: 첫번째 단계로 돌아갈 수 없다면 다른 데이터셋을 선택한다.
  1. 데이터를 이용할 수 있게 하기- 대량으로 유용한 형식으로. API를 이용하여 데이터를 이용하는 것도 대체 방법으로 고려할 수 있다.
  2. 데이터를 탐색할 수 있게 하기 - 웹에 게시하고, 공개 데이터의 목록을 중앙의 목록에 조직화한다.

데이터셋 선택

첫번째 단계는 공개할 데이터셋을 선택하는 것이다 - 데이터 공개의 전체 프로세스가 반복적이기 때문에 문제가 발생하면 이 단계로 돌아올 수 있다.

공개할 데이터셋을 명확히 알고 있다면 다음 섹션으로 이동할 수 있다. 그러나, 대부분의 경우, 특히 규모가 큰 조직에서 공개할 데이터셋을 선택하는 것 자체가 어려운 문제이다. 이런 문제를 어떻게 처리할 것인가?

목록을 만드는 것은 공개할 데이터셋을 확인하기 위해 신속한 과정으로 진행되어야 한다. 후속 단계에서 개별 데이터셋이 적합한지 검토할 수 있는 기회가 있다.

보유하고 있는 모든 데이터셋의 목록을 만들어야 되는 요구사항은 없다. 모든 데이터를 발행하는 것이 실현 가능한 것인지 판단하는 것이 중요하다 (공개적으로 또는 다른 방법으로) - 이전 섹션

커뮤니티에 묻기

먼저 커뮤니티에 문의하는 것을 추천한다. 커뮤니티에 있는 사람들은 데이터에 접근하여 사용할 수 있으며, 데이터의 가치에 대해 잘 이해할 수 있다.

  1. 피드백을 원하는 잠재적인 데이터셋의 목록을 준비한다. 목록이 기대치와 반드시 일치될 필요는 없으며, 데이터에 대한 수요를 파악하는 것이 목적이다. 다른 나라들의 {term:열린 데이터} 목록을 기반으로 만들 수 있다.
  2. 코멘트를 위한 요청 만들기
  3. 요청을 웹페이지를 통해 공개한다. 해당 요청은 고유한 URL을 통해 접근할 수 있어야 하며, 소셜 미디어를 통한 공유는 요청사항을 쉽게 발견할 수 있게 해준다.
  4. 응답을 쉽게 제출할 수 있는 방법을 제공한다. 등록을 요구하는 것은 응답 수를 감소시킬 수 있기 때문에 피하는 것이 좋다.
  5. 메인 페이지로 돌아올 수 있도록 요청사항을 관련있는 메일링 리스트, 포럼 및 개인에게 퍼트려라.
  6. 자문 이벤트를 운영하라. 이벤트는 일반적인 비즈니스 담당자, 데이터 wrangler (데이터를 돌보는 사람), 공무원이 참여할 수 있는 편한 시간에 운영하는 것이 필요하다.
  7. 기관을 대신할 수 있는 정치인에게 요청하라. 열린 데이터는 정부 정보에 접근을 확대할 수 있는 폭 넓은 정책의 일부분이 되어야 한다.

비용 근거

얼마나 많은 예산을 정부기관이 보유하고 있는 데이터의 수집과 유지관리를 위해 지출하는가? 특정한 데이터셋에 지출이 많다면, 사람들이 해당 데이터에 접근하고 싶은 가능성이 높을 수 있다.

이러한 논쟁은 무임승차에 대한 이해관계에 상당히 민감한 경향이 있다. “다른 사람들이 왜 비싼 정보를 무료로 얻어야 하는가?”라는 질문의 답은 해당 비용이 특정한 기능을 수행하기 위해 공공 부분에 의해 흡수되기 때문이다. 그러나 데이터가 한번 수집된 후, 해당 데이터를 제 3자에게 보내는 비용은 거의 없다. 따라서 공공기관은 비용을 청구하지 않아야 한다.

공개의 용이성

때론 가장 가치있는 데이터가 무엇인지 결정하는 것보다 대중에게 쉽게 줄 수 있는 데이터를 살펴보는 것이 유익할 수 있다. 작고, 쉬운 데이터 배포는 조직내의 큰 행동 변화를 이끌어내는 기폭제 역할을 할 수 있다.

그러나 소규모 공개 방식에서 주의할 것은 이러한 데이터를 통해 구축할 수 있는 없어 가치를 찾기 힘들 수 있다는 것이다. 이러한 일이 발생하면 전체 프로젝트의 신념이 약화될 수 있다.

동료 살피기

열린 데이터는 점점 확산되는 움직임이다. 다른 분야에서 하는 것을 이해하는 사람들이 당신의 분야에서 많을 수 있다. 정부 기관이 하는 일에 대한 기준 목록을 만들어야 한다.

오픈 라이센스 적용 (법률적 개방성)

대부분의 관할권에서 데이터의 지적재산권은 명시적 허가가 없을 때 제 3자의 데이터 사용, 재사용 및 재배포를 허용하지 않는다. 지적재산권의 존재여부가 명확하지 않은 경우에도 투명성을 위해 라이센스를 적용하는 것이 중요하다. 따라서, **데이터를 사용할 수 있게 할 계획이 있다면 해당 데이터에 라이센스를 부여해야 한다” - 데이터를 공개_ 할 경우 이것은 더욱 중요하다.

어떤 라이센스를 사용할 수 있을까? ‘열린 데이터’를 위해 ‘오픈 정의’_를 따르는 라이센스에서 하나를 선택하고, 해당 데이터에 적절한 라이센스를 표시하는 것이 좋다. 참고할 수 있는 라이센스 리스트는 (사용 지침에 함께) 다음을 참조할 수 있다.:

오픈 데이터 라이센스를 적용하기 위한 요약된 1-페이지 지침 가이드는 Open Data Commons 사이트에서 찾을 수 있다:

데이터를 활용 가능하게 만들기 (기술적 개방성)

{term:열린 데이터}는 기술적, 법적으로 공개되어야 한다. 특히, 데이터는 {term:기계가-읽을 수 있는} 형식에서 대량으로 이용 가능해야 한다.

Available

데이터의 재생산은 합리적인 비용내에서 책정되어야 하며, 가능하면 인터넷을 통해 자유롭게 다운로드받을 수 있어야 한다. 이러한 가격 모델이 가능한 것은 정부 기관이 데이터를 제공할 때 어떤 비용도 책임질 필요가 없기 때문이다.

In bulk

데이터는 완전한 셋으로 이용할 수 있어야 한다. 법령에 의해 어떤 데이터를 수집되어 등록한다면, 전체 목록이 다운로드될 수 있어야 한다. 웹 API 또는 유사한 서비스가 유용할 수 있지만, 대량 액세스의 대체제는 아니다.

In an open, machine-readable format

공공 부분이 보유하고 있는 데이터의 재사용은 특허 제약을 받지 않아야 한다. 더욱 중요한 것은, 기계가 읽을 수 있는 형식은 재활용을 극대화시킬 수 있다는 것이다. 이에 대한 예로써 고품질 인쇄에 사용되는 PDF (Portable Document Format) 문서로 발행된 통계치를 고려해 볼 수 있다. 이 통계치는 사람에 의해 해석될 수 있지만 컴퓨터에 의해 사용되기 매우 어려우며, 다른 사람이 해당 통계 데이터를 재사용하는 것을 제약시킨다.

큰 혜택이 될 수 있는 몇 가지 정책이 있다:

  • 간단명료.
  • 빠르게 이동
  • 점진적으로

지금 당장 가공되지 않은 데이터를 주는 것이 6개월 후 완벽한 데이터를 제공하는 것보다 휠씬 좋다.

다른 사람에게 데이터를 활용할 수 있게 하는 다양한 방법이 있는데, 인터넷 시대에 가장 보편적인 방법은 온라인 게시이다. 이 모델에는 다양한 형태가 있다. 가장 기본적인 방법은 정부 기관의 홈페이지를 통해 데이터를 활용할 수 있게 하고, 중앙의 목록은 방문자들을 적당한 자료에 접근할 수 있도록 유도해주는 것이다. 물론 대안도 존재한다.

{term:연결성}이 제한되거나 데이터의 크기가 매우 크다면, 다른 포맷을 통한 배포가 정당화될 수 있다. 이 섹션은 비용을 낮게 유지할 수 있는 선에서 고려할 수 있는 대안에 대해 논의할 것이다.

온라인 방법

이미 갖고 있는 웹사이트를 통해

웹 컨텐트 팀에게 가장 익숙한 시스템은 웹페이지로부터 파일을 다운로드 받을 수 있게 만들어주는 것이다. 현재 토론 문서에 접근권을 주는 것과 마찬가지로 데이터 파일도 이와 같은 방식으로 제공되는 것이 좋다.

이 방식의 한가지 어려움은 제3자가 업데이트된 정보를 탐색하기 어렵다는 점이다. 이것은 데이터를 활용하여 새로운 도구를 만드는 사람들에게 부담을 줄 수 있다.

제3자의 사이트를 통해

많은 저장소들이 특정 분야의 데이터 허브가 되고 있다. 예를 들어, pachube.com는 센서를 갖고 있는 사람들을 데이터에 접근할 수 있는 사람들과 연결하기 위한 것이다. Infochimps.com 및 Talis.com 와 같은 사이트는 공공 부문의 기관들에게 규모가 큰 데이터를 무료로 저장할 수 있게 해 준다.

제 3자 사이트는 관심있는 사람들의 커뮤니티와 데이터셋을 보유하고 있다는 측면에서 매우 유용하다. 데이터가 이와 같은 플랫폼의 일부가 될 때, 긍정의 복리 형식이 창발될 수 있다.

도매 데이터 플랫폼은 이와 같은 수요를 수용할 수 있는 인프라를 이미 제공하고 있다. 이 플랫폼은 종종 정보의 분석 및 사용에 대한 기능을 제공하며, 일반적으로 공공부문 기관들에게 무료로 제공된다.

이러한 플랫폼은 두 가지 비용을 수반하는데 첫번째는 독립성이다. 정부 기관은 다른 사람들에게 통제권을 양보할 필요가 있지만, 정치적, 법적, 또는 운영상의 이유로 항상 어려운 문제이다. 두번째 비용은 개방성이다. 데이터 플랫폼은 데이터에 접근하는 사람들에게 관대해야 한다. 소프트웨어 개발자와 개발자는 스마트폰에서 슈퍼컴퓨터에 이르는 다양한 운영 체제를 사용한다. 이러한 조건에서도 데이터에 접근할 수 있어야 한다.

FTP 서버를 통해

FTP (File Transfer Protocol)를 통해 파일에 접근하는 방식은 소프트웨어 개발자 또는 연구자와 같이 이용 대상이 기술자라면 적절할 수 있지만 유행은 아니다. FTP 시스템은 HTTP에서 동작하지만, 파일 전송을 위한 목적으로 설계되었다.

FTP는 관심을 잃고 있는데 FTP 서버를 통해 정보를 보는 것은 웹사이트와 다르게 컴퓨터에 있는 폴더를 찾는 것과 유사하다. 따라서, 특정한 목적에 적합할 수 있으나 특화된 웹 개발 회사의 요구에 미치지 못하는 수준이다.

토렌트로

BitTorrent는 지적재산권 침해에 대한 관련성으로 인해 정책 수립자에게 익숙해진 시스템이다. BitTorrent는 토렌트라는 파일을 사용하며, 특정한 파일에 접근하려는 사람들 사이에서 파일을 분산시킴으로써 비용을 분배시키는 방식으로 동작한다. 서버는 과부화되지 않게 수요가 증가할수록 공급도 증가한다. 이 때문에 토렌트 시스템은 영화 파일을 공유하는데 매우 성공적이었다. 이와 같은 방식은 규모가 매우 큰 데이터를 배포하는데 놀랄만큼 효과적이다.

API로

최근 매우 인기를 끌고 있는 Application Programming Interface (API)로 데이터를 발행할 수 있다. 개발자는 크기가 큰 파일에서 모든 데이터를 얻지 않고 API를 통해 데이터의 일정 부분을 선택할 수 있다. 일반적으로 API는 실시간으로 업데이트되는 데이터베이스와 연결되어 있기 때문에, API로 정보를 이용할 수 있다는 것은 최신의 데이터를 확보할 수 있다는 것을 의미한다.

대규모로 가공되지 않은 데이터를 발행하는 것은 모든 오픈 데이터 이니셔티브의 주된 관심사이다. API를 제공하는 것은 많은 비용을 수반한다:

  1. 가격. 파일을 제공하는 것보다 개발과 유지관리에 더 많은 비용이 요구된다.
  2. 기대치. 해당 시스템을 사용하는 커뮤니티의 촉진을 위해 확실성을 제공하는 것이 중요하다. 이것이 잘못되면 수정하기 위한 비용이 발생할 것이다.

대량 데이터에 접근은 다음을 보장해야 한다:

  • 최초 데이터 제공자와 의존성이 없어야 하는데, 이는 데이터의 재구조화 또는 예산 사이클로 인해 상황이 변경되어도 해당 데이터는 여전히 이용 가능함을 의미한다.
  • 누구나 데이터의 복사본을 얻을 수 있고 재배포할 수 있다. 이것은 데이터 제공 기관의 배포 비용을 감소시키며, 단일 접속 포인트 에러를 해결하는 수단이 된다.
  • 사용자들은 데이터가 사라지지 않을 것이란 확신을 갖고 해당 데이터를 이용하여 서비스를 개발할 수 있다.

대량으로 데이터를 제공하는 것은 사용자들이 최초의 목적을 넘어 데이터를 사용할 수 있게 해준다. 예를 들어, 데이터는 새로운 포맷으로 변환될 수 있으며, 다른 리소스와 연결되거나, 다수의 공간에서 버전이 관리되고 저장될 수 있다. 데이터의 최신 버전이 APIㄹ를 통해 이용가능한 반면, 가공되지 않은 데이터는 규칙적인 기간에 대량으로 이용 할 수 있게 만들어야 한다.

예를 들어, Eurostat 통계 서비스_ 는 4000개가 넘는 데이터 파일에 대해 대량 다운로드 기능을 제공한다. 이 데이터는 Tab-separated values (TSV) 형식으로 하루에 두 번 업데이트되며, 데이터 파일과 더불어 다운로드 기능에 대한 문서가 포함되어 있다.

또 다른 사례로 District of Columbia Data Catalog는 CSV와XLS 포새을 다운로드 받을 수 있게 해주며, 데이터 피드를 실시간으로 제공한다.

데이터를 검색 가능하게 만들기

:term:’열린 데이터’는 사용자가 없다면 아무런 의미가 없다. 사람들이 소스 자료를 찾을 수 있도록 해야 한다. 이 섹션은 3가지 다른 방법을 소개한다.

가장 중요한 것은 정부기관 사이의 정치적 관계와 미래의 예산 사이클에 의존하지 않는 중립적인 공간을 제공하는 것이다. 구역별이든 지리학적이든 관할권에 대한 울타리는 협업을 어렵게 만든다. 그러나 세력을 만드는 중요한 장점은 있다. 제3자가 데이터를 탐색하는 것이 수월해 질수록, 새롭고 유용한 툴이 더 빠르게 만들어 질 것이다.

활용 가능한 도구

데이터를 더 쉽게 찾을 수 있게 만들어 주는 도구들이 웹에 많다.

가장 대표적인 예중에 하나인 DataHub_는 세계 각국의 데이터셋을 위한 목록이며 데이터 저장소이다. 데이터허브 사이트는 개인과 조직이 자료를 쉽게 발행하고, 데이터 사용자들이 필요한 자료를 찾을 수 있게 해 준다.

더불어, 서로 다른 분야와 장소를 위한 전문가 목록이 있다. 수 많은 과학 커뮤니티들은 해당 분야를 위한 목록 시스템을 개발하고 있으며, 데이터는 종종 발행을 위해 요구된다.

정부를 위한

전통적인 실천 방법은 주요 기관이 정부의 데이터를 위한 목록을 만드는 것이다. 목록을 만들 때, 많은 부서들이 정보를 쉽게 최신화할 수 있도록 일정한 구조를 만들어야 한다.

스크래치부터 목록을 지원하는 소프트웨어 개발에 반대한다. 다수의 정부에 의해 수용된 무료 및 오픈소스 소프트웨어 솔루션 (CKAN 같은)이 있으며, 별도의 플랫폼에 투자하는 것이 필요하지 않을 수 있다.

다수의 열린 데이터 목록이 놓치고 있는 몇 가지 이슈가 있다. 계획에 다음을 고려할 수 있다:

  • 개인 및 커뮤니티 부문에서 그들의 데이터를 추가할 수 있는 여지를 제공해라. 지역별 정부의 목록이 아닌 지역의 목록을 고려하는 것이 가치 있을 수 있다.
  • 목록화되는 데이터셋의 파생버전을 허용하여 데이터의 개선을 촉진시킨다. 예를 들어, 지역코드를 기록하고 모든 사람에게 결과를 공유하기 원할 수 있다. 데이터셋에 대해 한가지 버전을 허용하다면 데이터의 개선은 묻혀질 것이다.
  • 데이터가 퍼져 나가는 것에 인내심을 가져라. 즉, 콘텐트는 관심이 있는 커뮤니티에 의해 복제될 수 있다. 강의 수위 모니터링 데이터가 활용 가능하다면, 해당 ㄷ데이터는 수문학자를 위한 목록에 보여질 것이다.
  • 접근의 합리성을 보장한다. 공무원 또는 정년이 있는 연구자를 위한 특권이 있는 접근 권한을 만들는 것을 피해야 한다. 이것은 커뮤니티의 참여와 지원을 약화시킬 것이다.

시민 사회를 위한

비공식 데이터를 위한 부가적인 목록을 적극적으로 생성한다.

정부가 비공식적이거나 권위가 없는 자료와 관련이 있는 것은 매우 드물다. 공무원은 데이터의 오용과 균형없는 사용으로 인한 피해 또는 정치적 방해가 없다는 것을 확인시키기 위해 큰 비용을 지불한다.

더불어, 정부는 영리 목적으로 그들의 데이터를 결합하는 활동을 지지하는데 소극적이며, 명실공히 이익 추구에 회의적이다. 따라서 커뮤니티 그룹, 비즈니스, 다른 사용자의 독립적인 목록이 정당화될 수 있다.