發表文章

目前顯示的是 3月, 2018的文章

淺談資料格式—結構化與非結構化資料

圖片
        進入大數據時代,資料成為挖掘商機的礦脈,對資料的管理不夠,想要利用大數據來開創新生意等於緣木求魚。請思考一下,自己公司有刻意收集甚麼樣的資料嗎?有善待貯存下來的各式資料嗎?有專人管理嗎?還是坐看它們放在倉庫中,隨著歲月崩解殆盡?         在過去,許多企業認為資料庫裡的銷售資料、生產資料、財務資料…等量化資料,特別具有價值。事實上,真的是如此嗎?我有個朋友,十多年前就開始在網路上,架設網站收集網友關於美妝的討論資料,而網友的留言都是一些文本(Text)資料,沒有固定格式,也不容易發掘出什麼內容來。當年他的員工就曾經問他,收攬這些資料到底要幹麻?他說他也不知道,反正先收集下來再說,只要收集到一定的規模,就一定會發現「什麼」。         現在,靠著網友的支持,他的網站現在已經是台灣最大的美妝網站之一,幾乎所有的化妝品要上市前,都會先到網站發佈試用資訊、徵求試用者、然後再逐一測試、改善,收集意見後,才敢正式上市。對歐美、日系、韓系,甚至是台灣的本土美容業者來說,他的網站已儼然成為美妝界「資料」的寶庫。         從以上的說明中,無論是銷售、生產、財務等量化資料,或是網友討論的文本資料,都是屬於資料型態的一環。而了解資料型態,正是踏入行銷資料科學領域的第一步。那到底資料是如何分類的?         我們先來看一下維基百科如何定義「資料」,它指的是「未經過處裡的原始記錄」,包括:數字、文字、聲音、影像…等。而在電腦裡的資料,最終可分解成0與1,進行儲存與計算。         而一般在資料科學裡,最重要的資料儲存方式,本文將可用SQL查詢結構化的資料稱為「SQL資料」,並將SQL以外可查詢非結構化資料稱為「NoSQL資料」,分成SQL資料與NoSQL資料兩大類(見圖1): 圖1 SQL資料與NoSQL資料 繪圖者:張庭瑄         SQL是Structured Query Language的縮寫,意指「結構化查詢語言」,其資料為結構化資料。結構化資料在資料庫裡意指:它擁有固定欄位、固定格式與順序...等。例如:企業銷售資料庫裡的欄位,通常有「會員編號」、「購買日期」、「購買品項」、「購買金額」...等。類式目前企業最常用的excel格式檔案。         至於NoSQL的英文

行銷新顯學︰行銷資料科學(Marketing Data Science)

圖片
美國零售業先驅約翰‧汪納麥克(John Wanamaker)曾經說過:「我花在廣告上一半的經費都浪費掉了,麻煩的是我完全不知道是哪一半。」後來,這句話又被人引申成「我有一半的廣告經費都沒有效,我卻不知道是哪一半。」多年來,行銷界人士之所以有廣告經費不知道花到哪兒去,以及明知無效卻還得投入這樣的喟歎,其實都是因為過去的廣告行銷,都很難做到「明確區隔、準確行銷」所致,然而現在隨著社群網路(Social Network)、物聯網(Internet of Things)、開放資料(Open Data)、大數據(Big Data)等概念的出現,加上行銷管理學的領域不斷地發展出新的研究方法與工具,已經為行銷領域帶來「精準行銷」的全新的機會。 過去企業界想要知道市場概況,最普遍的方式就是展開一系列的市場調查,從產品開發、設計、消費者口味調查,都得歷經不斷的研究與測試,上市前還得經過更全面的人口變數的查訪、市場開闢、銷售點研究、鋪貨等連串的活動,可能在初期就得投下大筆經費,然後靜待消費者的感受與接納,想想看裡面有多少「嘗試錯誤(trial and error)」的成份,說難聽一點,有點像是在「賭博」。 再看看最近十幾廿年,社群網路(Social Network)上鉅細靡遺地記錄著虛擬世界的消費者口碑;物聯網(Internet of Things)設備協助偵測實體世界的消費者行為;開放資料(Open Data)則提供行銷人員更多的次級資料(二手資料)來源,而這些都隨著網際網路的推演不斷進步,不斷累積出大量的數據(Big Data),同時也不斷產生新的行銷概念,讓企業更能洞悉消費者的心。 在此背景之下,傳統行銷研究(Marketing Research)的方法與工具,已不足以因應現在行銷管理者所需。現在的行銷管理者要有能力,也需要新的分析工具來做決策支援。 透過網路爬蟲(Web Crawler)技術與物聯網技術,收集消費者的初級資料(一手資料)。再配合所收集到的開放資料,行銷人員要有能力運用資料探勘(Data Mining)、文字探勘(Text Mining)、巨量資料分析(Big Data Analysis)等技術,對資料進行分析。之後,再藉由資料視覺化(Data Visualization)技術,將行銷研究結果做最佳的呈現,並讓決策者做出快速且正確的判斷。以上所提到

行銷資料科學的起步—塔吉特了解你的故事

圖片
   2012年2月,美國一家新聞電視台播放了一則新聞,標題為《Target 知道你何時懷孕》(Target knows when you're pregnant) (請見QR Code),內容在說明全美第二大連鎖量販店塔吉特公司透過數據分析,能預測消費者何時會懷孕。電視台之所以會有這則新聞的原因,主要來自於紐約時報New York Times 2012 2.16的一篇報導《企業如何得知你的秘密》(How Companies Learn Your Secrets)。該篇報導的撰文者查爾斯.杜希格(Charles Duhigg),在文中描述一個匿名的故事。 Target knows when you're pregnant     故事大概是這樣,一位生氣的父親,跑去跟塔吉特找主管理論。那位爸爸說︰「我女兒收到這封信」「她還在念高中,你們竟然寄有關嬰兒用品的折價券給她,你們是要鼓勵她懷孕嗎?」當時不明就裡的經理,先看了一下折價券的內容,隨即跟父親道歉,並於幾天後,再一次打電話跟對方致歉。 結果,在電話裡,這位爸爸告訴經理,他回家後與女兒詳談,才發現女兒真的懷孕了,他為此向店經理道歉。這則新聞後來引起軒然大波,甚至引發了資料科學與道德倫理之間的論戰。但塔吉特公司究竟是如何獲知少女懷孕的? 杜希格在報導中提到,塔吉特公司的資料分析專家安德魯.波爾(Andrew Pole)指出,他透過數據分析,發展出一個大約由25項孕婦會採買的相關產品所組成的「懷孕預測分數」。 首先,塔吉特公司透過提供消費者「寶寶用品清單的服務」,讓填答者留下是否懷孕,甚至是預產期的資料。接著,塔吉特公司將這些資料,與填答者的其他零售資料進行整合,再透過機器學習(Machine Learning)工具,產生預測模型。如此一來,塔吉特公司就可以透過這個模型,預測消費者是否懷孕,並且讓塔吉特的行銷部門在顧客從懷孕到預產期間,提供相關產品的資訊與折價券給顧客(如圖1所示)。 圖 1 塔吉特 ( Target ) 如何預測消費者懷孕 繪圖者:張庭瑄     後來,有人對此事再加以調查,發現事實上,整起事件乃是「事件行銷」(Event Marketing)的手法。原來是紐約時報在幫作者杜希格打書,

別把「大數據」想得太難!100多年前的英國醫生,如何用資料科學防止霍亂擴散?

圖片
數位化數據分析 2018-03-08 17:10  台科大企管系教授   林孟彥 在 AI 、大數據當紅的近年,常有 EMBA 學生和業界朋友問我,他們時常看到或聽到,某跨國企業又利用「大數據」開發出新商機的新聞。這其中有些概念很有趣,也很實用,但整體而言,「大數據」對他們公司來說似乎還是抽象模糊、可望而不可及,想要運用卻不知該如何著手。大數據真的有那麼神嗎?公司所擁有的客戶或營業資料,算是大數據嗎?該如何有效地運用這些資料呢? 碰到這些問題,我總是請他們稍安勿躁,先靜下來想想:公司有哪些數據?累積多久了?資料格式大致如何?有專人負責維護或分析嗎?過去都拿數據做什麼用途?公司的決策多數倚靠經驗,還是數據? ...... 這一系列的提問,很適合拿來問大部份的公司,因為這些問題就是大數據的入門,而相關的數據也經常存在你我身邊,能否掌握這些數據資料,關係著公司的成長和未來。現在,且先聽我說幾則故事。 大數據的存在:俯拾皆是 「早上起床發現喉嚨痛,可能是昨天被隔壁感冒的同事傳染了。這兩天也一直聽到有人掛病號。這一波流感有什麼症狀?該去看哪位醫生?」念頭至此,習慣性地打開電腦,先向「谷歌」大神求診。 當你在 Google 「搜尋欄」打上「喉嚨痛」三個字時,其實你已經在幫谷歌大神產生大數據了。因為一個人喉嚨痛可能沒什麼,但如果同時段內,你居住的台北市也有一萬個人正在搜尋「喉嚨痛」時,你大概可以猜到:台北市的流行感冒已經是山雨欲來了。 這時候,如果將這一萬人用來搜尋的電腦位址,全部以「光點」方式套疊在 GPS 地圖上,又發現光點幾乎都集中在大安區,衛生單位是不是就可以初步研判 ─ 大安區極可能是這一波流行感冒的「熱區」?如果感冒疫情還沒開始流行肆虐,是否就能未雨綢繆地宣導、建議民眾在大安區的公共場所戴上口罩,防止病情擴散? 事實上, Google 還真的透過大數據分析,對美國 5,000 萬個使用者常用的搜尋字串,以及 2003~2008 年間季節性流感的傳播資料進行比對,並透過機器學習的方式,發展出預測流感的模型。有趣的是, Google 透過大數據進行的分析結果,其準確性遠勝於公部門運用專屬資料所獲得的預測結果。 大數據的由來:歷史已久 其實類似上述光點套疊地圖的概念,早在十九世紀就有了。