如何將資料開放釋出
這一章是這本手冊最核心的部分。在這裡我們將說明資料擁有者如何能將資料開放釋出,同時提出具體並詳盡的建議。除了對基本的作法和概念提出說明,我們也會提醒你一些該避免的陷阱。最後我們將討論你可能會遇到,但也較難捉摸的問題。
在將資料開放釋出的過程中,我們強烈建議你遵守下面三個主要的原則:
- 保持簡潔 . 先從小巧,簡單,可快速處理的資料開始。沒有人規定所有的資料都必須現在就開放釋出。所以先從單一一個資料集的開放做起,或者選擇一個大資料集中的某一部分開始就好。當然,如果能釋放出越多資料集,那就會越棒。
請記得這一切都是和創新有關。執行上是越快速會越好,因為這意味著你可以促成一股風潮,同時從做中學,學中做 – 在創新中,失敗就跟成功一樣重要。同時你將會意識到,並不是每一組資料集都是可用的。
- 盡早與頻繁地吸收有興趣的人 盡可能早點將對於資料的使用或是重複使用的族群或是可能的對象吸收進來,同時越頻繁越好。不管他們是一般公民,商業人士或是程式開發者。這將確保您接著要推出的服務能有最大的效能和影響。
請時時提醒自己一點,許多資料是無法直接送到最終使用者的手上,這中間需要經過 ‘info-mediaries’ (資訊中間人) 的協助。透過資訊中間人來將資料彙整,轉換,混和後將成果呈現出來。例如,大部分的人應該都不會想要直接閱讀一份紀錄著不同 GPS 座標的龐大表格,一張標記這些地點的地圖應該會比較受歡迎。所以,你應該盡可能先與這些資訊中間人建立關係。他們能把你所釋出的資料重新使用,並整合進其他服務中。
- 正面挑戰常見的抗拒與誤解 。如果你需要面對的是如政府一般的龐大的組織,這一點尤其重要。當你開始要把資料釋出時,你將會面臨許多質疑與抗拒。所以你必須 (a) 找出最重要的幾個問題與抗拒, (b) 盡早地面對這些問題並做出回應。
將資料開放釋出的程序中,一共有四個主要步驟,在下面的章節,我們將對這四個步驟逐一詳細說明。這四個步驟在順序上並沒有硬性規定,很多步驟都可同步進行。
- 選擇你要開放的資料集 dataset(s) . 選出你計畫要開放釋出的資料集Dataset(s)。如果在接下來的步驟中遇到困難,請記得你可以(可能你常會需要)回到這一個步驟。
- 選用一個開放的授權聲明
- 先找出這些資料在智慧財產權方面的相關法令。
- 選用一個適當的開放 (‘open’) 授權,一個清楚說明使用者的權利,並符合我們在上一章節 (什麼是開放資料 ‘What Open Data’) 中所討論到的開放定義與原則。
- 請注意 : 如果你無法找出適用的開放授權,請回到步驟一,然後重新選擇其他的資料集。
- 將資料公布釋放出來 - 將資料整批釋出,並採用適用的檔案格式。你也可將資料以其他方式開放釋出,例如透過 API 的呼叫。
- 讓資料可被搜獲 - 將資料公布於網站上,也可建立一個統一的資料目錄中心,來列出所有開放出的資料集。
選擇資料集
選擇你想要開放釋出的資料集,是整個程序的第一步 – 但是請記住,資料開放的程序並不是一個依序要完成過程。在任何時候當你遇到無法處理的困難時,都可以回到第一個步驟重新開始。
如果你已經知道接下來要開放的資料集是哪些,你可以直接跳到下一個章節繼續閱讀。但是,在很多情況下,尤其是在一個龐大的機構中,資料集的選擇就是一個不小的挑戰。在這情況下,我們該如何開始呢?
找出哪些資料集可以開放釋出和設定一個相關的清單不應該佔去你太多的時間。在接下來的步驟中,我們可以用更多時間來詳細檢查你列出的清單中的資料集是否符合我們的需求。
建立一個綜合的資料集清單 並沒有什麼特別的要求 。重要的是,你需要知道這些資料是否可以公開出來(不管是否遵守資料開放的原則) - 請參考上一章節關於「你所說的資料是?」 的說明。
向相關社群徵詢
我們建議你在一開始就先向相關的社群組織徵詢。這些人會是你把資料開放出來後的第一批使用者,所以他們很可能對哪些資料是比較有價值的已經有自己的想法。
- 先準備一份登記著可開放,和你希望能從社群中得到回饋的資料清單。這份清單並不需要完全符合你期望開放的資料名單。這份清單的主要作用是讓我們能瞭解社群對資料的需求。你可以參考其他國家已經整理好的「開放資料目錄 (open data)」來列出你的清單。
- 邀請大家對你的清單提出評論與回饋。
- 將這個邀請放上網站。並確定這個邀請有自己獨立的網頁與網址 (URL)。這樣一來,當我們把這個頁面透過社群媒體來分享時,就能更容易的找到這些邀請。
- 設定一個使用簡單的回饋機制。不要放一堆註冊與登記的要求,因為這些多餘的步驟會減低每個人填寫回饋的意願。
- 將這些回饋邀請發送到相關的信件討論群組、論壇,和相關的個人信箱,並在信件中把連結指回你的邀請首頁。
- 舉辦一個諮詢討論會,並確定討論會舉辦的時間能讓一般的商業人士,資料處理專家和政府官員都可出席。
- 尋求一位政治人物願意為你的單位來發言。因為「開放資料」如果從法令上來看,應該是包含在一個範圍更廣並且和政府資訊公開有關的政策內。
成本考量
政府單位一般會編列多少預算來收集、保存與管理他們業務上需要的資料?如果某個單位對於特定的某一組資料,花了很大的功夫來建立與管理,那很可能其他人與組織也會想要取得這些資料。
但是這種論點可能會引發「免費享受」(freeriding) 的爭議。你可能需要面對的問題是:「我們花了如此龐大的經費與資源建立的資料,為什麼其他人可以免費享用?」。答案是,用來建立這些資料的「如此龐大的經費與資源」,應該都在每個部門為了完成他們業務時就編列並支付了。當資料收集建立後,將資料轉交給第三者並不需要太多額外的費用。所以,這些資料的開放不應該再要求額外的付費。
資料釋出難易考量
有時候,與其決定那些資料可能比較有價值,我們或許可以先看看有哪些資料,比較容易釋出送到公眾的手上。少量、簡單就能釋出的資料可以扮演催化劑的角色,讓組織內部在面對資料開放的議題能出現更大的改變。
但是請注意一點。如果你選擇釋出的資料的效用與價值真的非常微薄,或是無法以此開發出任何新的產品與服務,那就可能會打擊到他人對整個計畫的信念與支持。
觀察其他組織與政府
開放資料是一個蓬勃發展的運動。很可能在你所在的地區,也有人對開放資料有研究,並知道其他地區的發展狀況。我們建議你把其他單位目前正在進行的相關計畫放進一份名單中。
選用一個開放授權 (法令面的開放)
在大多數的法令管轄中,如果沒有特別的聲明與允許,第三方對資料的使用與散佈等權利都會受智慧財產權的限制。就算我們不清楚有哪些法令限制,為了避免不必要的爭議與混淆,最好還是選擇一個適用的授權聲明。所以, 如果你計畫要把一些資料釋出,你就需要選用一個適用的授權 – 同時如果你希望資料是「開放」(open) 釋出,你更需要謹慎選擇授權。
有哪些授權是你可以選用的?對於開放資料,我們建議你使用一個符合 Open Definition (開放定義) 並適用於資料的授權。這一份符合開放標準的授權清單 (和這些授權的使用說明) 可以在下面找到 :
你也可以在 Open Data Commons 網站上找得一份關於如何選用適合的開放授權的簡單說明 :
將資料釋放出來 (技術面的開放)
Open data 開放資料不只在法令面上要開放,在技術面上也一樣需要開放。尤其要注意的是,資料釋出必須是完整(整體),同時採用機器可讀取 ({term:machine-readable}) 的檔案格式。
Available
資料取得的費用應該以資料複製的成本來合理計算,較好的方法是經由網路免費下載。採用這種收費模式的原因是,將資料釋出提供他人使用時,你的部門並不需要編列什麼額外的經費。
In bulk
資料必須是以完整的資料集形式釋出。如果你的資料是依照法令要求來收集,所有收集到的資料都該完整提供下載和釋出。使用網站 API 或是類似的服務是很有用的方式,但是你不能以此來取代完整資料。
In an open, machine-readable format
公部門資料的重新使用,不應該受到專利等的限制。更重要的是,為了達到資料重新使用的最大效益,你必須確保資料是以機器可讀取的檔案格式釋出。舉例來說,為了達到較高品質的列印效果,大部分的統計報告都是使用 pdf 的檔案格式釋出。對我們來說,閱讀這些資料並沒有什麼問題。但因為檔案的格式,這些資料很難直接使用電腦來處理。所以對其他想要重新使用這些資料的人而言,就形成一種限制。
下面這些策略對於資料的釋出會有很大的幫助:
- 盡量保持簡單
- 快速執行
- 要務實。
基本上我們認為現在先把原始的完整資料 (raw data) 釋出,會比六個月後才將整理好的完美資料丟出來會更好一點。
我們有許多方法可以將資料釋出给他人。在一個數位網路時代,最簡單自然的方法就是把資料放上網路。但就算是將資料放上網路,也有數種不同的方式。最基本的一種就是,將資料直接放上你們部門的網站,然後建立一個統一的目錄,讓網站的訪客能清楚知道他們尋找的資料在哪。不過,除此之外還有許多其他的方法。
當網路連線 (connectivity) 條件不佳,或是資料量過於龐大時,可以考慮採用其他的方式來將資料釋出。在這個章節我們將會討論到其他方法,並特別注重如何將經費壓到最低。
線上模式
透過你現有的網站
對於現有的網站經營團隊來說,最簡便的方式就是把資料以檔案下載的方式放上網頁。就如網站上其他內容一般,資料檔案也可以用這種方式來釋出。
採用這種方式比較麻煩的是,對於一個外人來說,他們比較難以找到更新後的資料。這對於使用你的資料來開發工具與服務的人來說,都是額外的負擔。
透過第三方網站
現在有許多網路的儲存服務已經成為特定資料的集散中心。例如, cosm.com 網站提供了一個讓那些使用探測儀器的人能將資料分享給其他人的網路空間。而其他如 Infochimps.com 或是 Talis.com 的網站,對於公部門單位也都提供了儲存大量資料的免費服務。
使用第三方網站提供的服務是個不錯的選擇。主要的原因是,這些網站已經建立一個凝聚許多有共同興趣的人的社群。同時他們也集合了許多來自不同源頭的資料集。把你的資料加進這個平台後,我們可預期會看到許多正面的回應和影響。
資料集散平台透過其完善的架構可以對資料的需求提供支援。這些平台通常也會提供資料使用的分析報告等功能。這些服務通常也都對公部門單位提供免費使用的優惠。
使用這些平台時有兩個地方需要注意一下。第一是「獨立性」。你的部門必須願意將資料的掌控權交出去。這一點在政策上,法令上或是實際執行上都可能出現困難。第二是「開放性」。你必須確定平台對於誰能讀取你提供的資料是不限制的。軟體開發者和一些科學家可能會使用數種不同的作業系統。這可能包含從智慧型手機到超級電腦。不管是使用哪一種系統,任何人都應該有權利讀取這些資料。
經由 FTP 伺服器
使用檔案傳送伺服器 FTP (File Transfer Protocol) 來分享是一個目前已經退流行的資料檔案分享方式。如果你的對象是技術導向的一群人,例如程式開發者或是科學家等,那這依然不失為一個好方法。FTP 伺服器的運作就如同 HTTP 一樣,但是架構上則是特別為檔案傳送而設計。
FTP 現在已經沒有那麼多人使用。FTP 伺服器所提供的介面和網站不同,透過 FTP 伺服器我們看到的是一個又一個的資料夾,就如同是瀏覽自己電腦內的資料夾一樣。所以,雖然FTP很適合提供檔案傳送的服務,但是它的架構也讓我們很難在介面上做出什麼客製化的改變。
使用 torrents
BitTorrent 是一個最近幾年來政策制訂者開始比較熟悉的系統。因為這種分享方式常常與版權侵犯的議題綁在一起。BitTorrent 使用的檔案被稱為 torrents。其運作模式是將分享檔案時所需使用的資源做切割,並由每一個下載這個檔案的使用者共同分擔。如此一來,我們就不需要擔心伺服器出現超載的問題,因為只要越多人下載,就會有越多人分享。這也是為什麼使用這種方式來分享電影是如此受歡迎。如果我們需要分享大量資料,這會是一個很好用的方法。
透過 API 的呼叫
我們可以透過呼叫 API ( Application Programming Interface ) 的方式將資料散佈出去。現在越來越常見到透過這種方式來散播資料。透過 API 的呼叫,程式設計師可以選擇資料中要讀取的特定部分,而不需要把整批資料事先完整下載回來。API 一般都是直接連接到一個資料庫,而資料庫內儲存的都是即時更新最新版本的資料。這意味著,透過 API 的呼叫來釋出資料,我們可以提供最即時的新資訊。
把原始資料 (raw data) 以完整整批的方式釋出對所有推廣開放資料的計畫來說都該被當作最重要的目標。如果你想透過 API 的呼叫來釋出資料,有幾點需要特別注意:
- 成本。使用這種方式比起單純的提供資料檔案下載,需要投入更多的資源在開發與系統維護上。
- 使用者的期待。要建立一個願意使用這個系統的社群,我們必須確切的回應使用者的需求與期待。當系統出現問題時,你必須不計代價趕快想辦法把他修復。
直接提供完整資料檔案的下載則可確保:
- 我們不需要一直依靠資料的原始提供者,這意味著如果資料原始提供者的部門出現重組或是經費刪減的狀況時,這些資料依然可從其他地方取得。
- 任何人都可取得一份完整的資料備份,同時繼續將資料散播出去。這樣一來,除了可減少資料原始提供者在資料散播時所需的成本,並可確保在整個過程中,不會因為某個節點出現狀況,而影響到資料的散播。
- 其他人可以使用這些資料來開發自己的服務,因為他們可以確定這些資料不會在之後某天,忽然從他們手中被奪走。
當我們將資料完整釋出時,其他人就可以找出有別於原始用途的方法來使用這些資料。例如,將資料轉為其他格式、與其他資源做整合,或是編列建檔存放在不同的地方。透過 API 呼叫的方式,我們可以提供最新版本的資料,但是每隔一段時間原始資料也必須更新和提供完整下載。
For example, the Eurostat statistical service 例如,Eurostat 的統計資料服務 (Eurostat statistical service),提供包含了 4000 多筆的完整資料可供下載。這些資料每天更新兩次。資料除了使用 Tab-separated values (TSV) 的格式釋出,還可在網站上找到關於資料本身和資料下載的說明文件。
在網路上我們現在可以找到許多特別設計,讓資料更容易被尋獲的網站服務。
讓人們能找到你的資料
{term:開放資料}無法自外於使用者。你必須確保使用者能夠找到來源素材。這一節將會談到如何著手。
最重要的是,提供一個可以克服不同部門因為政策歧見,或是未來可能出現的經費調整所引起的問題的中立空間。不管是行政單位上的或是地域性的,法令的管轄範圍都可能讓不同部門之間的合作關係出現阻礙。但是,我們知道確定團結就是力量。只有當資料越容易被外人所尋獲,我們就能越快看到新的和有用的工具被建造出來。
可用的工具
網路上有許多工具存在,這些工具經過特別設計,讓找資料的過程更容易。
這些工具裡面最著名的應該是 DataHub 。這個服務為來自世界各處的資料集提供一個網路儲存空間,和建立一個完整的資料目錄。透過網站的服務,不管是個人或是團體組織,都能輕易地將資料釋出。同時需要資料的使用者也可快速的找到他們尋找的資料集。
除此之外,目前網路上還有其他工具也提供類似的服務和針對特定領域所建立的資料目錄。許多學術研究社群也都各自建立他們自己的目錄系統,裡面的資料常在許多學術論文發表上都可見到。
政府部門方面
目前我們常可見到比較正統的作法,是交由一個主管部門來為政府的資料建立一個統一的目錄。建立目錄時,也試著透過資料架構的規劃,讓不同部門與單位能輕易地繼續匯入他們掌管的資料的更新。
我們建議你不要急著想要從零開始,重頭建構自己的系統來管理這個目錄。目前在網路上有不少免費的自由軟體可以使用 (例如 CKAN),許多政府機關也已經開始使用這些軟體。所以,或許你並不需要將有限的資源擺在新平台的建立上。
目前絕大部分的開放資料目錄都還缺少一些東西。在你的規劃中,或許可以考慮一下下面這幾點:
- 提供一個管道,讓私人與社群團體可以上傳他們自己的資料集。或許我們可以將目錄範圍定義為當地整個地區的資料目錄,而不是只是侷限在地區政府資料的目錄。
- 在目錄中允許加入複製後修改過的資料集,並藉此來有效改善資料的品質。例如,或許有人會把住址用地理座標的方式標記出來,同時希望能把這些資料分享給他人。如果每個資料集你只允許單一版本的紀錄,那這些修改過和加強的資料就無法被看到。
- 允許你的資料被存放到其他地方去。也就是,我們預期資料內容會被複製轉貼到其他對這些資料有興趣的組織團體的網站或是其他網路空間。如果你提供了關於河流水位的監督記錄,那這些資料就可能會出現在與水利相關的團體所整理的資料名單上。
- 確認每個人對資料的取得有一樣的權利。避免設定特殊的資料讀取權限,例如特別開放給公部門官員或是具有終身職資格的資深學者的權限。因為這樣一來將會降低社群參與與回饋的意願。
公眾社會方面
請為非官方的資料建立一個額外的目錄。
一般來說,政府部門很少會將來自非官方或是非權威組織的資料結合進來。政府官員一般都會花很大的資源與精力來避免因為對資料的不當使用,或是對資料的過度信賴而可能造成的政治危機或是其他的傷害。
尤其是,政府可能不太願意回應那些使用了他們的資料並搭配使用 (mesh) 來自商業機構的資料的運動參與者的要求。政府當然有理由質疑這些人背後的動機。所以,建立一個給社群團體,企業商家與其他人專屬的獨立資料目錄是必要的。
- Improve this page Edit on Github Help and instructions
- Translate this page Translation guide
-
Donate
If you have found this useful and would like to support our work please consider making a small donation.