大數據(Big Data)的發展

在美國加州大學戴維斯分校任教的馬丁‧希爾伯特(Martin Hilbert)教授,回顧約180篇關於大數據分析的期刊論文,並於2016年發表了一篇文章1《 Big Data for Development: A Review of Promises and Challenges》,其中談到大數據分析的前景與挑戰。

作者:prettysleepy (圖片取自 pixabay,如有侵犯到您的權益,歡迎來信告知,我們會立即刪除。)

1. 資訊流通(Information Flow)
廣義的資訊流通,指的是人們利用各種方式來做資訊交流,從每天面對面的直接交談,到使用行動電話、電子郵件或是Line等各種現代化的傳播媒體都算是資訊流通。而如果再往深處探究,則又可分成資訊的傳遞、蒐集、貯存、檢索和分析的管道與過程。
至於狹義的資訊流通,則是從現代資訊技術研究、發展、應用的立場來看,指的是資訊處理過程中,資訊在電腦系統和通信網路中的流動。
希爾伯特指出,從1986至2007年之間,全球資訊交流的數量提升了近220倍。其中這些資訊數位化的程度自1986年的20%,成長至2007年的99.9%。而這中間的過程,人們把傳統的膠捲相機換成數位相機,將自己的影像資料貢獻出來,對於資訊流通,有著莫大的幫助。
資訊流通在2007年之後,成長量更是驚人,因為智慧型手機、平板電腦的出現,配合內建GPS功能,更是大量記錄下各類資訊,還有物聯網IoT的加入,各種感測器亦加入記錄資訊的行列,更讓資訊流通量如洪水滾滾而來。
此外,資訊本身也會自我成長,在人工智慧中,機器學習是很重要的一支,意思是開發電腦程式,讓數據能在電腦系統中,自動變成資訊或知識。舉例來說,在自動駕駛車輛的電腦輸入所有交通規則,讓電腦自動學習,車子一上路之後,它就知道碰到十字路口要停等紅燈,碰到行人、幼童要避讓,原來的規則,經過電腦的自我處理變成駕駛知識,等於資訊也自我成長。
2. 資訊儲存(Information Stock)
以往大家會把學校作業或者辦公室的文件儲存在電腦的硬碟,但現在大家已開始習慣將檔案丟到谷歌的雲端硬碟,或者丟到Dropbox裡來相互修改加工,資訊的儲存已透過網路來完成。
希爾伯特指出,資訊儲存的空間,大約每三年就成長一倍。資訊儲存的數位化程度,由1986年的1%,增加到2007年的94%。
3. 資訊處理(Information Computation)
為了處理巨量的資料,世界大廠發展出分散式的資料處理方式。例如:Google的GFS、 MapReduce與Bigtable,即是因應這樣的發展趨勢而誕生。而民間或者個人也不必擔心巨量資料無法處理,現在也有許多開放軟體讓個人可以處理大數據,像是Hadoop等。
今日的大數據,就在資訊流通、資訊儲存、資訊處理這三項的發展中誕生。
蘇宇暉(台科大管研所博士生)、羅凱揚(台科大兼任助理教授)
1 Hilbert, Martin (2016), “Big Data for Development: A Review of Promises and Challenges,” Development Policy Review, Volume 34, Issue 1, January 2016, Pages 135–174.

留言

這個網誌中的熱門文章

淺談資料類型 — 初級資料與次級資料

淺談資料類型 — 研究資料

淺談資料類型—企業內部資料和外部資料