一、資料挖採、資料倉儲與決策支援系統(或線上分析處理系統OLAP)
在整體資料倉儲系統中,除了實體上的資料庫外,最重要的莫過於最後階段的『資訊產出』。對企業而言,原始資料(data)並不具任何意義,真正能輔助決策制訂的乃是隱藏在這些資料背後的商業知識與商業智慧(business intelligence, BI),而資料挖採(data mining)正扮演此一點石成金的重要角色;究竟資料挖採之資訊與統計技術,是如何為企業創造出競爭優勢?資料挖採在決策支援系統中,如何產生對企業最有價值之商業智慧?
資料挖採、資料倉儲與決策支援系統或是OLAP三者間事實上存在著一種同棲共榮的關係,資料倉儲系統是決策支援系統架構的基礎,並提供資料挖採更有效率的使用環境,雖然資料挖採不一定非得在資料倉儲系統中進行,然而,不可否認地,資料倉儲卻也大幅提升了資料挖採的成功機率與執行效益。這點我們可由資料倉儲的資料特性加以說明:
- 整合性的資料
在資料倉儲一剛開始的資料載入階段,來自於異質資料庫中的資料都必須先經過資料轉換、過濾、資料結構標準化等整合程序後,才能放入資料倉儲系統中,因此資料倉儲能直接提供挖採者純淨且完整的資料,挖採者不需費心蒐集、過濾與整理,只需全心致力於挖採資料背後的寶貴資訊(即商業智慧)。
- 詳細且摘要性的資料
挖採者想要清楚地瞭解資料背後所隱藏的資訊,常常需要大量且詳細的資料(big data)以供分析,有時非常細微的資料,卻隱含著相當重要的模型,因此唯有透過地毯式的分析,才能鉅細靡遺地找出這些商業智慧。而摘要性的資料可避免挖採者重複已做過的分析,只需進行尚未開發過的工作。資料倉儲強大且簡易的存取能力,替挖採者省下了許多不必要的前置工夫。
- 歷史資料
歷史資料對挖採者而言可說是相當重要,因為內藏著重要的知識金塊,除此之外,歷史資料亦可幫助挖採者瞭解企業的長期模式,看看是否具有季節循環或是特有的商業循環週期。
- 中介資料
中介資料之於挖採者而言,就好比是他們手上的地圖,負責說明資訊的內容,換句話說,挖採者若不知道資料所代表的意義,是很難真正去進行知識挖採的,就好比探險者連地圖都看不懂,又如何能在深山叢林中覓得出路?
二、接續案例之資料挖採與統計分析過程
根據上述對諸如資料挖採、資料倉儲、決策支援系統、商業智慧以及線上分析處理系統之意義、價值及其相對關聯性所作的分析,筆者接續2013年9月3日在中國生產力中心MKC知識網站,發表有關利用資料挖採技術在日用商品流通量販店之輔導案例,嘗試再將該例中有關如何使用資訊與統計技術,在資料中挖採商業智慧的過程,進一步加以分析說明,以饗讀者。
本接續案例,著重於(1)不同地區別,時間段,消費群不同年齡層購買之不同業種佔比分析,最終獲致有行銷價值之(2)商業知識。
1-3月30-49歲業種消費佔比(依不同消費年齡層區格出下述四個餅圖)
發現就30-49歲業種消費前五項佔比(主力消費年齡)
- 30-34歲:嬰用(20.5%)、一般食品、清潔、南北雜貨、日常用品
- 35-39歲:一般食品(18.5%)、嬰用、南北雜貨、清潔、日常用品
- 40-44歲:一般食品(20.1%)、南北雜貨、清潔、嬰用、日常用品
- 45-49歲:一般食品(21.2%)、南北雜貨、清潔、日常用品、嬰用
另就消費區域別分析(如下述兩個餅圖),就南港、汐止區業種消費前五項佔比(主力消費區域),發現:
- 南港區:一般食品(20.1%)、南北雜貨、日常用品、嬰用、清潔
- 汐止區:一般食品(20.5%)、南北雜貨、嬰用、清潔、日常用品
再就1-3月會員消費各業種筆數成份加以分析後,順利區隔出兩個不同之消費模組,此即:
- 普遍家用型:(佔比74.91%)
較明顯商品為內衣、寢具、毛巾、冷凍食品、塑品、一般食品、五金、玻璃、日常用品、汽車百貨、家庭DIY、南北雜貨、美妝、化妝品等業種。
- 幼兒家用型:(或特殊用途)(佔比7.85%)
文具、孕婦保健、嬰用、清潔、嬰紡、運動用品、小家電、冷藏食品。
三、本例經資料挖採分析後得到之商業智慧
就其中以主力消費區域及消費年齡在本賣場消費重心較貼近,日常食用品及採購嬰兒用品較多的年齡,以30-34歲族群,且居住在汐止地區居多,蓋因汐止地區小家庭或新開發社區佔比較多。
本輔導案例,繼續以1-3月對不同業種採購筆數初步取樣,將業種區分為五個群組,各類定義為日常必需品、化妝品、婦幼用品、嬰兒衣物及外出用品,其中各商品購買關係如上述主成分分析及群數凝聚過程表。
四、結語
本例,最終嚐試,歸納前述幾種發現,判定該量販店主力消費群(即主力顧客)之條件。筆者以三月份主顧客及普通顧客群區隔分析,發現當前區分主顧客及普通顧客的方式,原以貢獻當月業績80%之會員消費金額為主,但我們要如何得知何種會員可能成為我們未來流失或能晉升成主顧客,就以三月份顧客消費資料得到上述計算公式,取其較大值,便可判知會員的級數。
而上述公式對三月份消費群之主力或普通顧客,有效鑑別出其中普通顧客有691人,這些人有可能晉升為主顧客,在主顧客中則有514人流失或降為普通顧客;若以該月份主顧客及普通顧客平均消費分別為6029及968元的角度加以觀察,維持主顧客忠誠是絕對必要,也是在商業流通競爭激烈的環境下,一項利用資料挖採與統計技術在行銷研究更具說服力之典範案例。
【延伸閱讀】
- myMKC經管知識中心,資訊科技在流通服務業的應用資料挖採(Data Mining)在量販店之輔導案例介紹。