紐約市警局公開自2011年8月以來紐約市的車禍資料,包括肇事地點(哪個路口)、肇事原因(闖紅燈、超速…等等)、傷亡的人數與交通身份(乘客、騎士、路人…)等等。但是其原始提供的 PDF 或 Excel 格式,不利於用程式做資料處理。一位黑客 John Krauss 從這些 PDF 檔案紀錄當中抽取出資料,整理成便於做資料處理的 CSV 檔案格式,自己建了一個「紐約警局車禍資料OK繃」(NYPD Crash Data Band-aid)的公佈網站供大家使用。
英國廣播公司 BBC 2012年成立的研發單位「BBC 新聞實驗室」,今年正式推出綜合計畫「新聞風向旗」(#newsVane)。這項計畫想解決的核心疑問是:「要如何整併我們擁有的資料源來創造可延展的工具,才能在數百萬種內容項目與主題之間達成最恰當的連結方式?」新聞實驗室希望能活用 BBC 包括新聞檔案在內所有自身創造的所有內容資源,甚至整合網路上其他資料,創造出新的應用契機。 在眾多陸續推動的子計畫當中,有一項是從2013年初就已經開始建構的「新聞榨汁機 」(News Juicer,簡稱 The Juicer)。這套工具希望應用鍵結資料(linked data)的概念,以語義標注(也就是加標籤 tag)的方式建立檔案中各筆新聞資料之間的關聯性,當人們查找時,The Juicer 就能依據關聯標籤「榨」出相關的資料。目前 The Juicer 已經囊括了 BBC 新聞檔案中六十五萬篇以上的文章,加入超過十五萬種標籤。它能夠自動辨識新聞中的人物、組織、地點、主題,並且與語意網服務「DBpedia」進行比對,確認這些詞彙確實存在並且對應到文章裡代表的意義(而不是某個同名的事物),再加回這篇文章的標籤資料庫當中。而使用者也可以手動增刪標籤,來完善程式分析的疏漏之處。新聞實驗室還希望提供新聞事件的資料庫,與標籤資料庫緊密連結,讓人可以簡易編寫新聞事件的時空與發展,讓查找新聞演變更加容易。
News Juicer 的結構圖
這套工具於2013年四月在 Yahoo! 歐洲黑客大會當中已先行示範過,目前正在積極測試中,預計近期內將會公開首次的實驗成果。 這樣利用標籤聯繫來找出各新聞資料之間的關聯性,除了使用者(無論是給記者用、或者開放給外部使用者)查找方便之外,還可以應用在包括新聞議題人氣度等等各種後續分析上。而它也銜接到新聞實驗室的另一項子計畫,企圖用程式分析抓取出一則新聞的敘事重點(storylines),讓新聞的查找與分析更加多樣化,未來甚至可以創造出簡易的資料性新聞製作平台,包括時間軸、消息發展等等的資訊圖表統整,記者都可在這個平台上完成。 新聞實驗室透過語意分析,讓資料庫標注自動化的研發,對於擁有龐大新聞檔案的 BBC 而言特別有長遠的助益。當前一般資料庫還只能使用少數「關鍵字」來作搜尋、蒐集個別的文章,要了解這些文章之間的關聯,仍需要後續大量的分析工作。而且關鍵字的查詢結果多半太過模糊,仍然需要花費時間去過濾搜尋結果。The Juicer 的語意網系統,能夠讓新聞在撰寫公開的同時就已經自動與其他過去的消息產生關聯,大大減低查找的心力。當需要快速對於新聞事件過去的歷史脈絡有所了解、以促進深入報導時,這樣的系統對於記者而言就成了強而有力的資料新聞武器。
昨日心血來潮,到之前多次提及的國際串媒體組織Power-to-the Pixel臉書社團留言自我介紹,意外得到一位來自法國的串媒體製作人Jerome Fihey留言回應,並介紹了去年於法國南特市發動的大型串媒體案例:《The Tales of the Estuary》。喜歡電影藝術的人對南特這城市應該不陌生,除坎城之外,南特影展也是國際矚目的重要影展,尤其特別強調在歐美之外的電影,也常常是亞洲、非洲等獨立製作人躍上國際舞台的前哨站。向我留言的這位Jerome Fihey與台灣也有淵源,曾於2002年來台灣待過兩個禮拜參與蔡明亮的短片製作,本週再一次串媒體番外篇,簡單介紹《The Tales of the Estuary》,希望逐漸地,我們能推動一些串媒體的國際性交流合作。