2018年4月27日

Google、縱橫字謎與大數據

游森棚/任教於臺灣師範大學數學系及空軍官校。


前陣子與韓國學者聊天,他們說現在在數學界找工作不易,因為什麼都要跟「大數據(big data)」扯上關係。的確,大數據儼然是現在很夯的詞,臺灣的數學系所一共就這麼多,而我知道的就有6、7 間打算要成立大數據中心,想要延聘的新人都需要有大數據的背景。


大數據時代
什麼是大數據?顧名思義就是處理極大量資料的一門學問。電腦與網路出現與普及後,大量資料的處理變成新的挑戰。但這不是什麼新鮮的東西,幾十年來,歐洲核子研究組織(European Organization for Nuclear Research, CERN) 的高能實驗物理學家早已習慣每秒要處理超過1 千兆位元組(terabyte, TB)的巨量資料。

然而,現今網路的普及,使Google、Facebook、Line 和Tweet 等社交網路與廣告滲透到每一個人的生活,網路上宏觀的大量數據變得非常有趣。2012 年12 月11 日紐約時報有一篇專欄文章,標題是「The Age of Big Data(大數據時代的來臨)」。

TED 的一個演講簡明地介紹了大數據的概念〔註一〕, 相當值得一看。現在普遍接受的定義是,大數據處理的資料有4 個特點,又稱4V,分別是多(volumn)、快(velocity)、雜(variety)與真偽難辨(veracity)。面對一堆資料,如何處理、如何擷取出有用的部分、 如何分析相關性、找到模式並預測趨勢等,這些大概就是大數據要做的事。

以上的解釋都是概念性的,說實在還是很模糊。關於細節我不是專家,也無法深談。不過最關鍵的是,這些和數學有什麼關係呢?底下舉2 個我覺得有趣的例子。第一個例子講要發展大數據背後真的需要高深的數學,第二個例子是用大數據分析後最近得到的意外結果。


搜尋引擎系統
第一個是Google 的搜尋引擎的運作。網路上有上千億個網頁,Google 搜尋的強項就是它能很快找到有用的網頁,而關鍵就是把網頁排序。以下的例子......【更多內容請閱讀科學月刊第581期】

沒有留言: