Big Data: A Revolution That Will Transform How We Live, Work, and Think
作者 | Viktor Mayer-Schönberger/ Kenneth Cukier |
---|---|
出版社 | 遠見天下文化出版股份有限公司 |
商品描述 | 大數據: 數位革命之後, 資料革命登場 巨量資料掀起生活、工作和思考方式的全面革新 (新版):亞馬遜「資訊管理」暢銷書第一名亞馬遜「電腦文化」暢銷書第一名元智大學校長、 |
作者 | Viktor Mayer-Schönberger/ Kenneth Cukier |
---|---|
出版社 | 遠見天下文化出版股份有限公司 |
商品描述 | 大數據: 數位革命之後, 資料革命登場 巨量資料掀起生活、工作和思考方式的全面革新 (新版):亞馬遜「資訊管理」暢銷書第一名亞馬遜「電腦文化」暢銷書第一名元智大學校長、 |
內容簡介 亞馬遜「資訊管理」暢銷書第一名亞馬遜「電腦文化」暢銷書第一名汽車烤漆的顏色能告訴你,這輛二手車的故障率高低嗎?市政府要怎樣清查,才能迅速找出有致命危險的人孔蓋?從谷歌的搜尋字眼,怎麼預測流感疫情的蔓延?要回答這些問題,關鍵就在於巨量資料(俗稱大數據)。「巨量資料分析」是一門新興科技,能夠解讀和預測無數的現象,包括預測機票的價格、好萊塢新片的票房、你家裡的青少年是否未婚懷孕!也能協助診斷早產兒的健康情況,探查收入高低與幸福快樂的相關程度,幫忙規劃快遞的送貨路線、電動車的充電站應該設置在哪裡,還能用來發展自動導航的無人駕駛汽車、以及「從駕駛人的臀部形態判斷是否為車主」的防盜系統,也能夠快速進行多種語文的互譯……兩位最頂尖的大數據專家,真正掌握到巨量資料思維的精髓,在這本書裡,清晰曉暢的解釋了巨量資料是什麼,它將如何改變我們的生活,對經濟、社會和科學會帶來什麼影響,我們又能夠做些什麼,趕搭上這波新潮流,同時也懂得保護自己,避免個人資料和隱私受到侵害。
各界推薦 ◎聯合推薦元智大學校長、資訊工業策進會董事長/張進福趨勢科技董事長/張明正《Wired》雜誌中文版總編輯/程九如「每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。 」--哈佛法學院網路智慧財產權教授 /萊斯格(Lawrence Lessig)「《大數據》開闢了新境界,告訴我們巨量資料如何從根本上,轉變我們對世界的基本理解……這本書清楚說明了,企業如何釋放潛藏的價值,決策者如何因應新局,以及每個人的認知模式需要如何改變。 」--麻省理工學院媒體實驗室主任/伊藤穰一(Joi Ito)「任何人如果想要保持領先地位,確定未來的商業發展趨勢,都必須閱讀《大數據》。 」--salesforce.com董事長兼執行長/貝尼奧夫(Marc Benioff)「《大數據》很樂觀而務實的看待巨量資料革命——你只要伸頭看看周遭發生的大變化,就會明白這場革命已然開始了,更大的變化即將衝擊而來。 」--boingboing.com/多克托羅(Cory Doctorow)我們敢肯定的是,《大數據》將是在討論這方面的未來時,一言九鼎的文本。 」--富比士網站「有太多書籍在頌揚資訊社會的技術奇蹟,但是唯有這本《大數據》對資訊的本質,進行了原創的分析。 」--《柯克斯書評》(Kirkus Reviews)「這本書充滿了偉大的見解、駕馭資訊的新途徑,並且對於未來趨勢,提供了很有說服力的願景,這是任何使用巨量資料的人、或受到巨量資料影響的人,都不可或缺的讀物。 」--IBM首席科學家/喬納斯(Jeff Jonas)「這本出色耀眼的書,撥開了圍繞在巨量資料周邊的迷霧。不論你從事的是商業、資訊科技、公共行政、教育、醫療,或者你只是單純對未來趨勢感到好奇,都必須閱讀這本《大數據》。 」-- 全錄帕羅奧圖研究中心主任/布朗(John Seely Brown)「正如水是濕滑的,然而單個水分子卻不是;巨量資料也能顯現個別資料無法揭露的訊息。作者向我們展示了龐大、複雜、凌亂的資料,若是集合起來,竟能用來預測購物行為、流感爆發……的一切模式,真是令人驚駭。 」-- 社會媒體理論家/薛奇(Clay Shirky)「作者讓『巨量資料』這個名詞的內涵變得非常清晰,重要性也遠遠超過矽谷的其他流行語彙……沒有哪一本書能夠提供了這樣的可讀性和平衡報導,告訴我們繼續迷戀數據和資料的諸多好處及缺點。 」--《華爾街日報》「『巨量資料』是企業管理階層、技術官僚的流行語之一,如果你想知道他們都在談論些什麼,那麼《大數據》正是為你而寫的。這本書深入淺出、而且很意思的切入這個大題目…… 」--《波士頓環球報》
作者介紹 ■作者簡介麥爾荀伯格(Viktor Mayer-Schönberger)牛津大學網路研究所教授,並擔任微軟、世界經濟論壇等大公司和組織的顧問,是大數據(巨量資料)領域公認的權威,寫過八本書以及上百篇專論。庫基耶(Kenneth Cukier)《經濟學人》雜誌資料編輯,巨量資料思潮評論員,經常於《紐約時報》、《金融時報》、以及《外交事務》期刊發表財經文章。■譯者簡介林俊宏師範大學翻譯研究所碩士。喜好電影、音樂、閱讀、閒晃,覺得把話講清楚比什麼都重要。譯有《英語的秘密家譜》、《建築為何重要》、《大科學》、《群的智慧》、《天空的女兒》等書。現就讀於師大譯研所博士班。
產品目錄 第1章 現在該讓巨量資料說話了第2章 更多資料「樣本=母體」的時代來臨第3章 雜亂擁抱不精確,宏觀新世界第4章 相關性不再拘泥於因果關係第5章 資料化當一切成為資料,用途無窮無盡第6章 價值不在乎擁有,只在乎充分運用第7章 蘊涵資料價值鏈的三個環節第8章 風險巨量資料也有黑暗面第9章 管控打破巨量資料的黑盒子第10章 未來巨量資料只是工具,勿忘謙卑與人性資料來源延伸閱讀謝辭
書名 / | 大數據: 數位革命之後, 資料革命登場 巨量資料掀起生活、工作和思考方式的全面革新 (新版) |
---|---|
作者 / | Viktor Mayer-Schönberger Kenneth Cukier |
簡介 / | 大數據: 數位革命之後, 資料革命登場 巨量資料掀起生活、工作和思考方式的全面革新 (新版):亞馬遜「資訊管理」暢銷書第一名亞馬遜「電腦文化」暢銷書第一名元智大學校長、 |
出版社 / | 遠見天下文化出版股份有限公司 |
ISBN13 / | |
ISBN10 / | 3510945050 |
EAN / | 4713510945056 |
誠品26碼 / | 2681563346002 |
頁數 / | 318 |
開數 / | 25K |
注音版 / | 否 |
裝訂 / | S:軟精裝 |
語言 / | 1:中文 繁體 |
級別 / | N:無 |
內文 : 第1章
現在:該讓巨量資料說話了
2009年又冒出了一種新的流感病毒,稱為H1N1。這種新菌株結合了禽流感和豬流感病毒,迅速蔓延。短短幾星期內,全球的公共衛生機構都憂心忡忡,擔心即將爆發流感大流行。有些人發出警訊,認為這次爆發可能與1918年的西班牙流感不相上下,當時感染人數達到五億人,最後奪走數千萬人的性命。雪上加霜的是,面對流感可能爆發,卻還沒有能派上用場的疫苗,公共衛生當局唯一能努力的,就是減緩其蔓延的速度。為了達到這項目的,必須先知道當前流行感染的範圍及程度。
在美國,疾病管制局(CDC)要求醫生一碰到新流感病例,就必須立刻通報。即使如此,通報的速度仍然總是慢了病毒一步,大約是慢上一到兩星期。畢竟,民眾覺得身體不舒服之後,通常還是會過個幾天才就醫,而層層通報回到疾管局也需要時間,更別提疾管局要每星期才整理一次通報來的資料。但是面對迅速蔓延的疫情,拖個兩星期簡直就像是拖了一個世紀,會在最關鍵的時刻,讓公共衛生當局完全無法掌握真實情況。
巨量資料初試啼聲
說巧不巧,就在H1N1躍上新聞頭條的幾星期前,網路巨擘谷歌(Google)旗下的幾位工程師,在著名的《自然》科學期刊發表了一篇重要的論文,當時並未引起一般人的注意,只在衛生當局和電腦科學圈裡引起討論。該篇論文解釋了谷歌能如何「預測」美國在冬天即將爆發流感,甚至還能精準定位到是哪些州。谷歌的祕訣,就是看看民眾在網路上搜尋些什麼。由於谷歌每天會接收到超過三十億筆的搜尋,而且會把它們全部儲存起來,那就會有大量的資料得以運用。
谷歌先挑出美國人最常使用的前五千萬個搜尋字眼,再與美國疾病管制局在2003年到2008年之間的流感傳播資料,加以比對。谷歌的想法,是想靠著民眾在網路上搜尋什麼關鍵詞,找出那些感染了流感的人。雖然也曾有人就網路搜尋字眼做過類似的努力,但是從來沒人能像谷歌一樣掌握巨量資料(big data,直譯為大數據),並具備強大的處理能力和在統計上的專業技能。
雖然谷歌已經猜到,民眾的搜尋字眼可能與流感有關,像是「止咳退燒」,但相不相關其實不是真正的重點,他們設計的系統也不是從這個角度出發。谷歌這套系統真正做的,是要針對搜尋字眼的搜尋頻率,找出和流感傳播的時間、地區,有沒有統計上的相關性(correlation)。他們總共用上了高達4億5千萬種不同的數學模型,測試各種搜尋字眼,再與疾管局在2007年與2008年的實際流感病例加以比較。他們可挖到寶了!這套軟體找出了一組共四十五個搜尋字眼,放進數學模型之後,預測結果會與官方公布的全美真實資料十分符合,有強烈的相關性。於是,他們就像疾管局一樣能夠掌握流感疫情,但可不是一、兩星期之後的事,而是幾近即時同步的掌握!
因此,在2009年發生H1N1危機的時候,比起政府手中的資料(以及無可避免的通報延遲),谷歌系統能提供更有用、更及時的資訊。公衛當局有了這種寶貴的資訊,控制疫情如虎添翼。
最驚人的是,谷歌的這套方法並不需要去採集檢體、也不用登門造訪各家醫院診所,而只是好好利用了巨量資料,也就是用全新的方式來使用資訊,以取得實用且價值非凡的見解、商機或服務。有了谷歌這套系統,下次爆發流感的時候,全球就有了更佳的工具能夠加以預測、並防止疫情蔓延。
巨量資料功能強大,可以讓許多領域改頭換面,公共衛生領域不過是其中之一,而商業領域也正在經歷這個過程。例如買飛機票就是個很好的例子。
2003年,伊茲奧尼(Oren Etzioni)打算從西雅圖飛往洛杉磯參加弟弟的婚禮。早在幾個月前,他就已經上網買了機票,一心認為愈早預訂,票價就愈划算。但在航程中,他出於好奇,問了坐在隔壁的乘客票價以及購票時間,結果那個人明明是最近才買,票價卻是便宜得多。一氣之下,伊茲奧尼一個又一個的問下去,發現大部分人的票價都比他的更便宜。
對於大多數人來說,等到收回托盤、豎直椅背、準備下機的時候,這種覺得被敲竹槓的火氣,也差不多消了。但伊茲奧尼身為美國頂尖的資訊科學家,可沒這麼好打發。在他看來,整個世界就是由一連串關於巨量資料的問題構成的,而這正是他拿手的領域。追溯到1986年,伊茲奧尼可是哈佛大學第一位主修資訊科學的畢業生,之後進入華盛頓大學任教;而且早在巨量資料這個詞出現之前,他就已經開了數家處理巨量資料的公司。例如,他曾協助打造了最早期的網路搜尋引擎之一、於1994年推出的MetaCrawler,不久便由當時的網路巨擘InfoSpace公司買下。另外,他也共同創立了史上第一個大型比價購物網站Netbot,後來出售給Excite公司。至於他的另一間公司ClearForest,則是處理如何從文件中取得語義資訊,後來由路透社收購。
客機著陸之後,伊茲奧尼已經下定決心,要讓人能夠知道自己在網上看到的票價,究竟是撿到便宜還是被人坑了。如果把飛機機位看成商品,同一航班的座位基本上也沒什麼不同,但票價卻是天差地別。這裡有許多因素,只有航空公司自己才曉得。
伊茲奧尼認為,這種系統並不需要真的去解出票價背後千絲萬縷的糾纏因素,只要能預測出未來票價是漲是跌就夠了。這其實不困難,只要先取得特定航線售出的所有票價資訊,再與出發前天數做比較即可。
如果平均票價呈現下跌趨勢,買票這件事當然就可慢慢來。如果平均價格呈現上漲趨勢,系統則會建議馬上以目前顯示的價格購票。換句話說,當初伊茲奧尼是在三萬英尺高空詢問其他乘客的票價,而現在這個系統就是個加強版。雖然說這絕對還是個資訊工程的龐大問題,但與過去一樣,這對他而言仍然能夠迎刃而解。於是,他動工了。
伊茲奧尼花了四十一天,從某個旅遊網站取得超過一萬兩千筆票價資料,做為樣本,並建立一個預測模型,讓模擬的乘客都省下了大筆鈔票。這個模型並不懂「為何如此」(why),只知道「正是如此」(what)。換言之,模型完全不知道各種影響票價的因素,像是未售出的機位數、淡旺季、或是星期幾的機票較便宜之類;模型所做的預測,都是基於手中確實的資訊,也就是從其他航班所蒐集到的相關資料。
伊茲奧尼思思念念的,就是「要買還是不買」的問題——像極了莎翁名劇《哈姆雷特》的經典獨白:「生存還是毀滅,這是個問題。」正因如此,伊茲奧尼把這個研究計畫命名為「哈姆雷特」。
原本的小小研究計畫,後來發展成投入大量資金的創業計畫「Farecast」,藉著預測機票票價可能上漲或是下跌,Farecast就能讓消費者知道是否該立刻點選「購買」鍵。在過去,消費者從來不可能得知這些資訊。Farecast堅持一切應該透明,所以甚至還會對自己的預測加上可信度評分,提供給使用者參考。
預測系統要有效,就必須有大量的數據資料。為了提升效能,伊茲奧尼從航空業的一個航班預訂資料庫下手。資料庫存有全年美國商業航空各航班、各座位的資料,能做為系統預測的基礎。現在,Farecast手中大約有近兩千億筆票價紀錄,用以做出預測。如此一來,消費者就能省下大筆的金錢。
伊茲奧尼有一頭黃褐色的頭髮,露齒微笑、一臉天真,看起來實在不像是會讓航空業損失數百萬美元潛在收入的人。但事實上,他的目標甚至還不止於此。到了2008年,伊茲奧尼打算將這套辦法再應用到其他商品,像是飯店客房、音樂會門票、二手車等等,只要是產品差異性小、價格變化大、而且有大量數據資料的商品,都能適用。但他還沒來得及讓計畫成真,微軟就已經找上門來,用大約一億一千萬美元買下Farecast,結合到Bing搜尋引擎之中。到了2012年,該系統平均有75%的預測準確率,讓每位旅客省下50美元。
Farecast正是一個巨量資料的公司縮影,也是世界未來的走向。如果是五年或十年前,伊茲奧尼絕不可能建立起這種公司。他說:「這本來是不可能的任務,」所需要的計算能力和儲存容量都還太過昂貴。然而,讓計畫成真的原因當中,雖然科技進展是關鍵因素,但還有一個更微小、卻也更重要的因素,就是關於該如何使用資料的思維,已有所改變。
過去認為資料是靜態、靜止的,一旦完成原本蒐集的目的(例如飛機已降落、或谷歌完成了一次搜尋),便不再有用處。但現在,資料是新的商業生產原料、重要的經濟資源投入,可以創造出新形式的經濟價值。如果心態正確,就能巧妙重複運用資料,不斷帶來創新和不同的服務。只要夠謙卑、有意願、也有工具傾聽,資料就能讓種種祕密躍然眼前。
讓巨量資料說話
不論是每個人口袋裡的手機、背著到處走的電腦、又或是辦公室所使用的伺服器系統,都是資訊社會明顯而豐碩的果實。但相較之下,「資訊」本身就不那麼引人注意。自從電腦在半世紀前進入主流社會以來,累積的資料已經到了一定程度,開始帶來全新而特殊的改變。現在,世界上不僅是資訊量前所未見,資訊成長的速度更是一日千里。規模的改變已經開始導致狀態的改變;換句話說,就是從量變引發了質變。譬如天文學、基因體學之類的科學學門,在二十一世紀開始後的十年之間爆炸性成長,因而創造出「巨量資料」這個詞;至今已經又擴展到所有人類活動領域。
對於「巨量資料」,目前還沒有明確的定義。最早的概念,是因為資訊量已經太過龐大,無法完整儲存在處理資訊的電腦系統中,所以工程師必須重新設計工具來分析資訊。因此,新的電腦處理技術應運而生,像是谷歌的MapReduce、或是同類的開放碼軟體Hadoop(出於雅虎),都讓使用者能夠管理遠比先前更大的資料量,而且更重要的是,資料不再需要先整理成整齊的行列或是資料表。
除此之外,也慢慢出現其他資料處理技術,能夠擺脫過去種種僵化的資料層級和同質性限制。同時,網路公司一方面能夠蒐集大量的資料,另一方面又有強大的財務誘因、必須盡快從中解讀出意義,因此也就成為頂尖資訊處理技術的先端使用者;相較之下,某些經營非線上業務的傳統公司,雖然可能歷史要多上幾十年,但腳步卻不及網路公司這般迅速。
針對這項議題,現在的思考方式(也是本書的切入方式)如下:巨量資料所指的,是一定要達到相當規模才能做的事(例如得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、組織、公民與政府間的關係等等。
這還不過是開始而已。在這個巨量資料的時代,挑戰的是我們生活的方式,以及與世界互動的方式。最重要的是,我們必須拋下對因果關係的執著,轉而擁抱簡單的相關性。(A現象與B現象有相關性,不表示A現象是因、B現象是果,或B現象是因、A現象是果。)你我都不用知道「為何如此」,只要知道「正是如此」就行了!這種概念等於是要用新的方式來瞭解現實、做出決定,推翻了過去幾百年來的既定做法和基本思維。
巨量資料可說是開始了一項重大轉變。就像許多新科技一樣,巨量資料也必然會落入矽谷著名的炒作循環:先是大動作登上雜誌封面、成為產業會議的焦點,接著再急轉直下,許多新創公司無法承擔這些資料,落得只能掙扎求生。
但不論哪種趨勢,其實都沒有真正看清巨量資料的重要性。就像是望遠鏡能讓我們探索宇宙,顯微鏡能讓我們微觀細菌,這種蒐集分析龐大資料的新技術,也能協助我們用新的方式來瞭解世界,而且我們才剛起步而已。
這本書並不會宣揚「信巨量資料得永生」,只是要傳達相關資訊。此外,真正的革新之處也並不是在於處理資料的機器,而是在於資料本身、以及使用的方式。
全球資料總量有多少?
如果想知道現在這場資訊革命已經發展到什麼地步,你可以從整體社會的觀點出發。
我們的數位宇宙正在不斷擴張。以天文學來舉例,史隆數位巡天計畫(Sloan Digital Sky Survey, SDSS)始於2000年,計畫用的望遠鏡位於美國新墨西哥州,計畫開始不過幾星期,所蒐集的資料量就已超過了過去所有天文學歷史的總和。到了2010年,這個計畫蒐集的資訊已經堂堂超越140TB(1 terabyte約等於1,000 gigabyte)。但是接檔的新計畫——位於智利、2016年上線的「大型綜合巡天望遠鏡」(Large Synoptic Survey Telescope, LSST),只要五天,就會得到這個資料量。
這種天文數字,讓人也覺得負擔沉重。2003年,科學家首次破解人類基因組密碼,當時足足花了十年時間全力投入,才完成三十億個鹼基對(base pair)的定序。而在十年後的今天,單一機構只要花上一天,就能完成同樣數量的DNA定序。
就金融領域而言,美國股市每天大約會成交七十億股,其中有大約三分之二,是由電腦用數學模型分析大量資料後自動交易,一方面預測獲利、一方面也試著降低風險。
網路公司特別會碰上這種問題。像是谷歌,每天就得處理超過24 PB的資料(1 petabyte大約等於1,000 terabyte),是美國國會圖書館所有紙本資料量的數千倍。臉書(Facebook)這家十年前還不存在的公司,現在使用者每小時就會上傳超過一千萬張新照片。每天,臉書所有使用者會按「讚」或留言超過三十億次,從這些使用紀錄,就能讓臉書追蹤使用者的喜好。
同時,谷歌旗下的YouTube服務也有八億名用戶,每秒上傳的影片總長度超過一小時。至於推特(Twitter)的訊息量也以每年200%的速度成長,到了2012年,已經突破每天四億則。
從科學到醫療保健、從銀行到網路,涵蓋的行業各式各樣,但講的是同一件事:世界上的資料量正在迅速增長,不僅超過機器能處理的量,甚至超過我們的想像。
有很多人希望,能把全世界的資訊量定出個明確的數字,好計算成長的速度。由於每個人看的面向不同,得到的數字也各異其趣。其中一項比較全面的研究,出自南加大安納堡傳播學院的希爾伯特(Martin Hilbert)教授。希爾伯特教授希望能把世界上所製造、儲存和流通的一切資料都定出數字,不只是書籍、繪畫、電子郵件、照片、音樂、影片(類比和數位),甚至連電玩、電話、汽車導航、紙本信件,也都包含在內;另外,還依據閱聽眾接觸率,計入了各種廣播媒體,例如電視和電台。
根據希爾伯特的計算,在2007年,全世界儲存了超過300 EB的資料(1 exabyte大約等於1,000 petabyte)。讓我們把這件事講得更像人話一點:如果把一部電影壓縮成數位檔,大約大小就是1 GB(gigabyte);而1 EB就是十億GB。總之,就是很多很多就對了。
有趣的是,在2007年,全球的資料大約只剩下7%為類比形式(像是紙張、書籍、相片等等),其他都是數位資料。然而,其實在不久之前,情況還相當不同。雖然早在1960年代就已經開始出現「資訊革命」和「數位時代」的概念,但還不能說是已經完全真正實現。就算到了2000年,全球資訊仍只有四分之一是以數位方式儲存。至於其他四分之三,則是以紙張、膠卷、黑膠唱片、磁帶之類的類比型式儲存。
雖然早已有人開始上網、在線上買書,但他們可能沒想到,當時的數位資訊量其實不大。(說真的,在1986年,全球的袖珍型計算機總共占了全球一般運算能力的40%左右,所占比例要高過個人電腦。)然而,由於數位資料增長實在太過迅速了——希爾伯特認為每三年多就會加倍,情勢很快便風雲變色。相對的,類比資料幾乎沒什麼成長。因此根據預測,到了2013年,全球資料量大約是1,200 EB,非數位資料所占比例將不到2%。
這個資料量大到難以想像,如果印成書、堆在美國表面,能夠鋪上五十二層;如果燒成CD再疊起來,可以分成五疊、一路堆到月球。在西元前三世紀,埃及托勒密二世希望能將世上所有的文字作品都保留一份,於是造就偉大的亞歷山大圖書館,是當時世界上所有知識的總和。現今席捲全球的數位浪潮,相當於是讓每個現代人,都擁有三百二十座亞歷山大圖書館的資料量。
從科學和社會兩面向,開始改變一切
一切真的正在加速。目前,資訊儲存量的成長率是世界經濟成長率的四倍,而電腦的處理能力成長率更是世界經濟成長率的九倍。這也難怪,總是有人要抱怨資訊超載,每個人也都深陷在改變的風暴之中。
讓我們把眼光放遠,看看先前的資訊革命與現在這波資訊洪流有何不同。我們要比較的,是1439年的古騰堡印刷術。根據歷史學者埃森斯坦(Elizabeth Eisenstein)的研究,從1453到1503這五十年間,大約印製了八百萬冊書籍,這個數字足足超過了自從西元四世紀君士坦丁堡建立以來、整個歐洲所有產出的文字量。換言之,不過花了五十年的時間,歐洲的資訊量就成長了一倍。但在今天,大約每三年,資訊量就會翻倍。
這樣的成長代表著什麼?谷歌的人工智慧專家諾威格(Peter Norvig)喜歡用圖像來做比喻。首先,他要我們回想一下法國拉斯科洞穴的壁畫,該處著名的野馬圖像大約可追溯至一萬七千年前的舊石器時代。接著,再回想一下現代馬的圖片、或甚至是畢卡索畫的馬,會發現和洞穴壁畫並沒有太大不同。其實,有人給畢卡索看過拉斯科的圖像,而他打趣說:「原來我們根本沒發明出什麼新玩意嘛。」
畢卡索這句話也對、也不對。先想想馬的圖片,過去想畫一匹馬得花上很長的時間,但現在要呈現出馬的形象,速度可快得多了。雖然說這確實是個改變,但還不見得是最重要的改變,因為這在本質上仍然相同:就是「馬」的形象罷了。諾威格再接著要我們做的,則是先取得一匹馬的圖像,再加速到每秒二十四個影格,成了動畫,於是量變就產生了質變。巨量資料的道理也是如此:由於量的不同,我們也改變了其本質。
讓我們再以奈米科技來打比方。奈米技術的重點在縮小,也就是在達到只有分子大小的等級時,就能讓物理性質有所變化。而瞭解新的性質之後,也就能設計出全新的材料,做出過去做不到的事。例如,在奈米等級的情況下,能夠讓金屬更有彈性、而陶瓷也能夠伸縮。相對的,巨量資料的重點在放大,只要擴大資料量的等級,就能做出小量資料不能完成的事。
有時候,我們對某些限制習以為常,以為別無他法,但其實都只是囿於規模不足而已。我們再來打第三個比方,也是由科學來切入。對於人類來說,最重要的一項物理定律就是重力:重力掌握一切、無所不在。然而,對於微小的昆蟲來說,重力幾乎是無關緊要。例如對水黽來說,最重要的物理定律反而是表面張力,能讓牠在水面上移動、而不沉入水中。
資訊也就像物理,尺度大小確實會造成不同。因此,谷歌判斷流感流行,準確度能夠不下於政府的官方就診資料。透過爬梳數百億的搜尋字眼,谷歌便能幾乎即時提供問題的答案,速度遠遠快於政府。同樣,伊茲奧尼的Farecast也因此能夠預測機票價格的波動,使相關經濟權力轉移到消費者手中。這兩件事,都得分析上千億的資料點,才有達成的可能。
從以上兩個例子,可以看出巨量資料在科學和社會上的價值,以及瞭解巨量資料如何能帶來經濟效益。同時,也可看出在這個巨量資料的時代,巨量資料將從科學和社會這兩個層面,開始改變一切,無論是醫療、政府、教育、經濟、人文,或是其他各個方面。
現在巨量資料方興未艾,但我們的生活早已不能沒有它。例如垃圾郵件過濾器,現在已能夠自動因應各種垃圾郵件的變化。過去的過濾軟體設計,就算知道該擋下像「viagra」之類的字,卻無法在一開始就知道該擋下「via6ra」或是其他數不盡類似的變形字。約會網站也得要分析每個人許許多多的資料,再與過去成功配對的資料比較,才知道怎樣配對機率更高。至於智慧型手機的「自動更正」功能,則會追蹤我們的輸入動作,根據輸入的內容,加入新的拼字規則。
然而,這些用途都不過是開頭而已。不論是能夠偵測何時該轉彎或煞車的汽車,或是在益智節目「Jeopardy!」擊敗人類對手的IBM華生電腦,巨量資料都將讓生活中的許多面向改觀。
巨量資料的核心重點在於預測。我們一般將巨量資料看做是資訊工程中「人工智慧」的一支,或者更具體的說是「機器學習」的一部分,但這其實會造成誤導。巨量資料並不是要「教」電腦如何像人類一樣「思考」,而是要計算大量的資料,以此推斷機率:某封電子郵件是垃圾郵件的可能性;輸入的「teh」應該是「the」的可能性;以及如果有某個人隨意穿越馬路,就要分析他的路線和速度,如果判斷他能夠及時通過,車速就只需要稍稍放慢即可。
如果希望這些系統效能卓著,最關鍵的一點就是要能有大量的資料做為預測的基礎。此外,這些系統也必須能夠隨著時間自動改進,從新增的資料中,判斷出最佳的信號和模式。
在未來(而且可能比想像要早得多),許多現在依靠人腦判斷的事務,都將由電腦取代,而且不只是開車或配對,更複雜的任務也可迎刃而解。畢竟,亞馬遜(Amazon)已經能夠推薦你最想要的書,谷歌也能夠排序出最相關的網站,臉書知道我們按了什麼讚,LinkedIn則能夠猜出我們認識什麼人。同樣的科技,也將應用到診斷疾病、建議療法,甚至是在罪犯犯罪之前,就先將他們逮出來。
網路讓電腦有了「溝通」的功能,進而徹底改變了世界;巨量資料也將為人類生活帶來前所未有的量化面向,進而使生活全然改觀。