2014年3月14日 星期五

新型態資料新聞學工具:紐約時報的 streamtools

文/wolf

網路時代有越來越多的資料是隨時更新、即時發布,像是天氣資訊,或是公車等交通資訊。過去對於這樣的資料,處理者只能擷取某個時間的片段,或者需要撰寫相當複雜的程式來處理。紐時研發實驗室正在開發一套圖像式程式語言「streamtools」,能夠用簡易的流程圖架構,即時處理各種資料。

紐時研發實驗室的 Mike Dewar 表示,streamtools 奠基在他們所預見的資訊趨勢:由於資料量越來越龐大、各種探測資料的感應器越來越精準並且能夠即時反映,資料的呈現形式會越來越趨近不斷流動的串流。因為這種串流不息的性質,過去先定量蒐集資料再行分析的方式,會越來越顯出不足之處。(就像要監控河流當下溫度,撈出一部分再行測量,總不如直接在水流中測量一般。)援引信號處理、演算的概念,直接對串流本身的性質作處理、分析,這樣的需求會逐漸提昇。streamtools 可以作為傳統資料蒐集、驗證假設的工具,但也同時可以是輔助資料分析、從資料的觀察中取得假設的工具。其功能模組化的設計,能創造更靈活的資料處理空間。

streamtools 的基本架構,是將各有不同功能的「區塊」組合起來,以線條聯繫來表示資料在各區塊間流動的順序,由此也就可以直接從圖形訂出各種資料處理程序的先後。資料的流動會即時以點狀圖像表示在線條上,讓即使不懂一般程式語言的人也可以很容易理解整個資訊處理的流程。同時這樣的介面也使得程式組合充滿彈性,隨時可以根據需要來改動流程間任何一個區塊。Mike Dewar 舉了一個組合範例:紐約市的 Citi Bike(類似台北的 Ubike 自行車租借服務)網站系統,可以即時顯示各自行車放置點的可租借、已出借數量。運用 streamtools ,可以從網站的地圖資訊當中特別抽取出特定的、例如離紐時研發實驗室最近的自行車放置點,隨時監控還剩多少輛車。



在這串簡易的區塊串連範例當中,每個區塊功能剛好各有不同:

「ticker」區塊每十秒送出一次資料處理流程的啟動訊號;
「map」區塊送出 Citi Bike 的網址;
「gethttp」區塊擷取網址,抓取網址當中儲存所有自行車放置點資料的 JSON 檔案;
「unpack」區塊將 JSON 當中的位置、數量資料,依據放置點分離開來;
「filter」區塊將特定放置點的資料過濾出來。

當然,這只是最基礎的示範而已,運用不同的區塊組合方式,streamtools 還可以達成觀測網站流量等更為複雜的資料處理程序。整套 streamtools 仍然持續研發當中,紐時研發實驗室也公開原始碼歡迎大家一同參與。

圖像化程式語言在其他領域已經十分普遍,如藝術界使用知名的 Max/MSP、Pute Data 來處理影音電子數據已行之有年。這樣的程式語言大幅減低了程式寫作的門檻,讓非資訊領域的人士也能透過資訊處理創造出前所未有的內容。非常喜見在文字資料類也能出現同類型的應用,相信當 streamtools 發展完備時,會充分促進資料新聞學的普及。

1 則留言:

  1. 台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com
    台灣外送茶line:16x18 看照網:www. soog141. com

    回覆刪除