2018年元月 公視《開鏡 》季刊

新潮魔法雙翼

──大數據與機器學習

趙坤茂 (台灣大學資訊工程系教授)

「機器學習」讓電腦有能力從資料中學習,以做出更精準的預測,

而預測能力又隨資料量增多而提升,彼此猶如新興數位魔法的雙翼。

當前「大數據」分析乃兵家必爭之地,各種機器學習方法輪番上陣。

數位媒體帶來空前未有的大數據,

而機器學習剛巧也演化到足擔大任的程度,正要大展人工智慧的威力。

一場大數據分析的馬拉松競賽才剛起步!

美國的數位廣告營收,在2016年成長了22%,首度超越了傳統電視廣告營收,而繼Google之後, Facebook2017年第三季廣告營收,也首度超越了所有的傳統媒體公司。穿越交叉線後,數位廣告營收將持續攀高,大大拉開與傳統電視廣告營收的差距。

Google每日的用戶搜尋總量逾五十億次,Facebook每月活躍用戶逾二十億人,AmazonTweeter每季活躍用戶皆逾三億人,LINE每年活躍用戶逾二億人……,如此豐沛的人潮,除了在數位空間醞釀了氣勢磅礴的商機外,也累積了頗為可觀的大數據。

Facebook為例,每日上傳的照片張數及下載的視訊時數皆以億計,每分鐘按讚的次數以百萬計,其所累積的資料量以萬兆位元計。

在數字系統中,萬萬為億,萬億為兆,萬兆為京。如今「五日京兆」有另類解釋了。 

大數據具3V特質,解讀得留意2V

大數據(big data),又稱為巨量資料,通常具備了3V特質:巨量(high volume)、高速(high velocity)及多元(high variety)。

其巨量已非傳統單機硬體所能儲存,也非傳統電腦軟體所能分析;它的資料浪潮源源不絕,彷彿時時如海嘯來襲,必須即時吸納及處理;它的資料常來自多種平台,且型態包括文字、聲音、音樂、圖片、影像、動畫及視訊等。

另外,解讀大數據時還得留意2V:真實度(veracity)及價值度(value),亦即要先過濾偽造錯誤、重複計數的資料,以確保資料品質,並且善用分析工具創造大數據的附加價值。

當前大數據分析乃兵家必爭之地,各式各樣的機器學習方法輪番上陣,尤其多層次的深度學習方法更是其中的常勝軍。

機器學習讓電腦有能力從資料中學習,以便能做出更精準的預測,而且預測能力隨資料量增多而提升。因此當大數據時代來臨時,機器學習方法就如虎添翼了。

機器學習模式依應用需求各有所長

機器學習方法有的需先靠大量人為標注的訓練資料來練功,出師後再就測試資料評斷其預測能力;有的可無師自通,無需仰賴人為標注即可依資料彼此間的相似程度,自動將其分成若干群組;有的介於兩者之間,既有師父引入門,又得修行在個人。

這些模式各有所長,專家們得依應用領域的需求,套用或開發最合宜的機器學習方法。另外,機器學習所呈現的學習曲線,可用來選定優化的參數,以及訓練所需要的資料量。

201611月改版的Google Translate,使用一種能夠深度學習的大型人工神經網路,再搭配Google所儲存的巨量語言例句及語料庫,其翻譯精準度已直逼人工翻譯。

例如,我輸入「這一切太神奇了!」後,自動翻譯為「It's all amazing!」,真不賴。我再輸入「我明天太陽下山前要交一篇文章給《開鏡 》。」後,得到「I have to submit an essay to "open the mirror" before the sun goes down tomorrow.」,如果"open the mirror"改為"Action",那就無懈可擊了。

另外,Apple Siri的語音辨識能力,也極為神乎其技,聽力已不輸人類。它與Google Translate一樣,「原力」來自大數據解析,因此都必須連上網路才能執行。

Google Flu Trends提醒人們小心「大數據的傲慢」

大數據雖然很有用,但如果使用不當,小心陰溝裡翻船。Google Flu Trends即為一例。

當我們生病時,常常會去Google搜尋病徵資訊及治療方法,於是Google Flu Trends就根據Google網站輸入的關鍵字資料,預測該季流感案例個數的起伏變化,比疾管局能更早掌握流感趨勢。剛推出時預測還頗精準,不過到了2013年,科學家發現Google Flu Trends預測的案例較實際多很多,失準的原因包括搜尋引擎的動態變化、未精準釐清關鍵字與流感的關聯差異等,Google Flu Trends只得終止線上運作。這事件提醒人們運用大數據時,應如臨深淵,絕不能有「大數據的傲慢」(big data hubris)。

卷積神經網路開發電腦視覺及語音識別

初夏時,Facebook人工智慧研究院(FAIR)院長楊立昆(Yann LeCun)來台訪問,他所設計的卷積神經網路,具備多層次的特徵擷取節點及連結,可由簡入繁逐步完成識別任務,並輔以減少失誤的反饋機制,只要有充分的資料量及運算資源支撐,就能大大提升預測的正確性,近年來在電腦視覺及語音識別等領域大放異彩。

電腦視覺教電腦如何「看」。每天上傳到Facebook的照片有上億張,每一張照片都會經過四組卷積神經網路處理,第一組自動產生標注,將照片物件歸類:風景照、慶生活動、婚禮、人物照……;第二組辨識照片裡的各個物件,將可辨識的物件全框出來;第三組自動產生照片內容說明,讓盲人也能掌握照片內容;第四組以3D建模的DeepFace,自動做照片人物的臉部識別。

電腦自動產生照片內容說明,是近幾年才達到的里程碑。早期的物件識別常藉由規則描述來輔助,例如要教電腦從圖像中辨識貓咪,就告訴電腦「貓有圓圓的臉蛋、胖胖的身體、兩個挺挺的耳朵和一條長長的尾巴……」,一般狀況下的辨識雖不成問題,但如果圖像中的貓咪姿勢扭曲,或者只有局部現身,通常電腦就無法辨識。史丹佛大學李飛飛團隊觀察到小孩能夠認出物件是因為眼睛已看過很多圖像了,因此結合網路群眾外包力量,建構了一個數千萬幅人工標注的圖像資料庫ImageNet,其中幾萬幅圖像裡有貓咪,以這筆大數據訓練卷積神經網路,結果非常出色。電腦視覺如今已非昔日吳下阿蒙,阿狗阿貓都難不倒它﹔更令人振奮的是,李飛飛團隊將圖像內的物件逐一辨識,再搭配自然語言處理技巧,居然能讓電腦像三歲小孩一般看圖說故事。

AmazonNetflix成功運用推薦系統

賈伯斯曾說:「很多時候,人們並不知道自己想要什麼,直到你展示給他們。」近來當我們在網路上活動時,推薦系統已處處可見,它試圖提供你可能想去或該去的網站、需要或想要的商品,以誘發你的好奇心,並刺激你的購買慾。拜大數據的精準分析之賜,推薦系統可根據用戶在網路留下的大量足跡,如購買過或評價過的商品等資訊,預測每一位用戶的偏好。

Amazon網路購物和Netflix串流影音的推薦系統為例,Amazon會推薦你瀏覽你經常駐足的貨架,依你的閱讀習慣推薦一些相關的商品給你﹔而Netflix則引導你瀏覽尚未接觸過的新鮮領域,探索你可能會喜歡的影片。這兩個系統透過大數據分析,深入了解用戶本身及用戶之間消費行為的關聯性,掌握了促銷先機,推出後都相當成功。

在了解到用戶的觀賞習慣及喜愛偏好後,Netflix更進一步製作了首部原創劇集《紙牌屋》,由廣受用戶喜愛的凱文·史貝西主演,第一季全部十三集於2013年二月一日首播,以滿足用戶一次看到爆的追劇偏好,播出後果然大獲好評。Netflix乘勝追擊,靠網站統計數據就續訂了後面幾季。本來運作得相當成功,然而人算不如天算,原訂於2018年上線的第六季節目,近日因史貝西爆發醜聞而暫緩製作。

數位媒體帶來空前未有的大數據,而機器學習剛巧也演化到足擔大任的程度,正要大展人工智慧的威力。有的專注於從視訊中自動插入相關的廣告,有的專注於跨螢用戶的身分認定及消費行為分析,有的專注於整合用戶的數位體驗於一個全通路(omni-channel)……,這場大數據分析的馬拉松競賽才剛起步!

【2018/1 公視《開鏡 》季刊】