2014年3月17日 星期一

知識庫的下一步:BBC 新聞實驗室的新聞榨汁機

News Juicer 的標籤加註預想圖

文/wolf


英國廣播公司 BBC 2012年成立的研發單位「BBC 新聞實驗室」,今年正式推出綜合計畫「新聞風向旗」(#newsVane)。這項計畫想解決的核心疑問是:「要如何整併我們擁有的資料源來創造可延展的工具,才能在數百萬種內容項目與主題之間達成最恰當的連結方式?」新聞實驗室希望能活用 BBC 包括新聞檔案在內所有自身創造的所有內容資源,甚至整合網路上其他資料,創造出新的應用契機。

在眾多陸續推動的子計畫當中,有一項是從2013年初就已經開始建構的「新聞榨汁機 」 News Juicer簡稱 The Juicer)。這套工具希望應用鍵結資料(linked data)的概念,以語義標注(也就是加標籤 tag)的方式建立檔案中各筆新聞資料之間的關聯性,當人們查找時,The Juicer 就能依據關聯標籤「榨」出相關的資料。目前 The Juicer 已經囊括了 BBC 新聞檔案中六十五萬篇以上的文章,加入超過十五萬種標籤。它能夠自動辨識新聞中的人物、組織、地點、主題,並且與語意網服務「DBpedia」進行比對,確認這些詞彙確實存在並且對應到文章裡代表的意義(而不是某個同名的事物),再加回這篇文章的標籤資料庫當中。而使用者也可以手動增刪標籤,來完善程式分析的疏漏之處。新聞實驗室還希望提供新聞事件的資料庫,與標籤資料庫緊密連結,讓人可以簡易編寫新聞事件的時空與發展,讓查找新聞演變更加容易。


News Juicer 的結構圖

這套工具於2013年四月在 Yahoo! 歐洲黑客大會當中已先行示範過,目前正在積極測試中,預計近期內將會公開首次的實驗成果。 這樣利用標籤聯繫來找出各新聞資料之間的關聯性,除了使用者(無論是給記者用、或者開放給外部使用者)查找方便之外,還可以應用在包括新聞議題人氣度等等各種後續分析上。而它也銜接到新聞實驗室的另一項子計畫,企圖用程式分析抓取出一則新聞的敘事重點(storylines),讓新聞的查找與分析更加多樣化,未來甚至可以創造出簡易的資料性新聞製作平台,包括時間軸、消息發展等等的資訊圖表統整,記者都可在這個平台上完成。

新聞實驗室透過語意分析,讓資料庫標注自動化的研發,對於擁有龐大新聞檔案的 BBC 而言特別有長遠的助益。當前一般資料庫還只能使用少數「關鍵字」來作搜尋、蒐集個別的文章,要了解這些文章之間的關聯,仍需要後續大量的分析工作。而且關鍵字的查詢結果多半太過模糊,仍然需要花費時間去過濾搜尋結果。The Juicer 的語意網系統,能夠讓新聞在撰寫公開的同時就已經自動與其他過去的消息產生關聯,大大減低查找的心力。當需要快速對於新聞事件過去的歷史脈絡有所了解、以促進深入報導時,這樣的系統對於記者而言就成了強而有力的資料新聞武器。

1 則留言:

  1. 24小時全臺服務 曉單外送茶/ line; xxaa33



    無套內射 肛交 後門 奶砲 毒龍 喇舌空姐 護士 學生妹 混血 名模

    台灣喝茶找小姐加曉單line:xxaa33正妹類型:台灣各行各業本土純兼職正妹特別類型:中日.巴.荷.韓.俄混血/空姐/麻豆/二線/三線藝/AV等

    回覆刪除