淺談資料格式—結構化與非結構化資料

進入大數據時代,資料成為挖掘商機的礦脈,對資料的管理不夠,想要利用大數據來開創新生意等於緣木求魚。請思考一下,自己公司有刻意收集甚麼樣的資料嗎?有善待貯存下來的各式資料嗎?有專人管理嗎?還是坐看它們放在倉庫中,隨著歲月崩解殆盡? 在過去,許多企業認為資料庫裡的銷售資料、生產資料、財務資料…等量化資料,特別具有價值。事實上,真的是如此嗎?我有個朋友,十多年前就開始在網路上,架設網站收集網友關於美妝的討論資料,而網友的留言都是一些文本(Text)資料,沒有固定格式,也不容易發掘出什麼內容來。當年他的員工就曾經問他,收攬這些資料到底要幹麻?他說他也不知道,反正先收集下來再說,只要收集到一定的規模,就一定會發現「什麼」。 現在,靠著網友的支持,他的網站現在已經是台灣最大的美妝網站之一,幾乎所有的化妝品要上市前,都會先到網站發佈試用資訊、徵求試用者、然後再逐一測試、改善,收集意見後,才敢正式上市。對歐美、日系、韓系,甚至是台灣的本土美容業者來說,他的網站已儼然成為美妝界「資料」的寶庫。 從以上的說明中,無論是銷售、生產、財務等量化資料,或是網友討論的文本資料,都是屬於資料型態的一環。而了解資料型態,正是踏入行銷資料科學領域的第一步。那到底資料是如何分類的? 我們先來看一下維基百科如何定義「資料」,它指的是「未經過處裡的原始記錄」,包括:數字、文字、聲音、影像…等。而在電腦裡的資料,最終可分解成0與1,進行儲存與計算。 而一般在資料科學裡,最重要的資料儲存方式,本文將可用SQL查詢結構化的資料稱為「SQL資料」,並將SQL以外可查詢非結構化資料稱為「NoSQL資料」,分成SQL資料與NoSQL資料兩大類(見圖1): 圖1 SQL資料與NoSQL資料 繪圖者:張庭瑄 SQ...