「大數據」與我何干?

「大數據」這個概念近來很火。和朋友飯聚,來個不甚科學的「民意調查」,卻原來不少人(尤其非科技界人士)對這個概念其實仍然一知半解。

談「大數據」的定義、背景、科技因素,可能比較抽象。原來「大數據」已經和我們的生活息息相關,先舉幾個例:

  • Google Translate:你以為 Google 為甚麼曉得翻譯?翻譯對於 Google來說不是一個語言的問題,而是數學問題。Google Translate Team 正迅速擴張,他們的團隊卻基本上全部都是電腦科學家出身,沒有一名語言學家,他們甚至並不擅長語言學習。Google Translate 並不會去模仿人工翻譯的方式,而是給它的系統生吞活剝的啃下各種不同語言的文本,例如書本、網頁之類,然後不斷把不同語言的相同的的內容進行比較、優化,達到翻譯的目的。Google運用「大數據」的方式去進行翻譯,啃的文本越多,翻譯的效果便越精良。索引全球網頁的 Google 還能夠依靠互聯網上已經存在的翻譯內容改善自己的翻譯系統。Google Translate 目前已經支援 71 種語言的互譯,去年用戶的使用次數已經達到 2 億次。
  • Amazon:假如你曾經在com 買書或者購物,你應該見過這句: “Customers Who Bought This Item Also Bought…”和收到過 Amazon 根據你的購買或瀏覽習慣為你度身訂造的促銷電郵。其實,現時Amazon 有超過三分一的銷售是來自以數據為基礎的個人化促銷。簡單如更改網頁上的一個按鈕,Amazon都會先作 A/B Testing 才作決定。Amazon凡事以數據為依歸的商業模式,顛覆了傳統的零售模式。
  • Linkedin:這個專業人士版的「面書」,各位應該不會感到陌生。這個每秒鐘有兩個新用戶加入的社交媒體,坐擁其全球二億多用家的覆歷、以及他們的職場人際網絡。它對其用家的職場和人際網絡的發展潛力,往往比用家本人更為了解。現在為僱主發掘、配對合適的招聘人選,已經成為Linkedin 其中一個主要收入來源,威脅了不少獵頭公司的生意。(不少「交友網站」,也運用類似技術以提高配對的成功率。)
  • 垃圾郵件過濾: 為何你的郵箱曉得把垃圾郵件過濾?電郵系統根據歷史數據、和用戶的回饋,收集和分析垃圾郵件通常包含的關鍵字、電郵地址結構等等,把電郵分類,將可能的垃圾電郵自動過濾。與Google Translate 類似,系統擁有越多數據,得出正確結果的機會便越大。

因為「大數據」的出現,有兩個我們非常熟悉的概念,將會被顛覆:

  • 統計:政府的人口普查,大家應該並不感到陌生。為了可以比較準確掌握香港的人口資料,政府每十年進行全面的人口普查,採用「抽樣調查」的方式,透過問卷和家訪,收集全港大約十分一人口的資料,然後推算香港整體的狀況。除著「大數據」的發展和普及,專家預言抽樣調查、人口普查等等的統計手段,將會日漸息微。的確,當你可以擁有全部數據,又何須再透過統計學以局部的數據推算整體的結果呢?
  • 因果關係Causality:無論是個人,還是機構,很多時都是以(自以為的)因果關係作決定。問題是,我們都容易武斷、主觀,因果關係可能只是偏見、盲點的結果,而非事實 (詳見暢銷書《快思慢想》,或者博客區家麟的有關博文。)因而所作決定,並不一定明智。有了「大數據」,我們可以不理會主觀的因果關係,而是透過相對客觀的「關聯性」 Correlations作決定。例如 Google便發現透過檢視流行的搜尋字,甚至可以比衛生當局更準確預測疾病,例如流感,的爆發時間和地區[1]。"With enough data, the numbers speak for themselves.”透過觀察數據,我們無需再去猜度可能的因果關係,而是可以透過比較相關歷史經驗的數據得出結論。

還記得湯告魯斯的《未來報告》(Minority Report)嗎?湯飾演的故事主人翁逃亡期間走進 Gap Store,店中的3D 廣告 billboard 隨即向他發出個人化的廣告訊息的技術已非天方夜談。隨着數據庫、互聯網、雲計算、流動通訊等等技術日趨成熟,「大數據」已經漸漸由當日科幻電影對未來的預言,走進我們的日常生活。

Why Big Data Is About Making Better Decisions

Can Big Data Do Good?  – BBC

 [1] Google Flu Trends http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/papers/detecting-influenza-epidemics.pdf