大數據的前奏曲-簡單作資料探勘

瀏覽數:13139


前  言

  自從2002年以來,資料探勘(Data Mining)剛被列為改變未來的十大創新技術,當全世界的學術研究單位正準備風起雲湧的開始認真研究如何應用之際,大數據一詞馬上就以迅雷不及掩耳之勢,取而代之變成當今網路世界的顯學。

  其實當深入研究了解後,就會發現這一切都是有脈絡可循的,自知識管理以降,人們開始知道,知識、資訊是可以從一大堆的數據信息所得;拜科技之賜,人們得以大大地超越自身的限制,大量的處理信息,並研究如何轉化成資訊,讓芸芸眾生快速的吸收;隨之迎著洶湧網路的浪頭上,如何讓網路巨流信息,瞬間產生有意義的資訊,便是現在大數據正在探討的課題。

知識管理

  資料、資訊、知識乃至智慧(決策),是眾所皆知的知識形成脈絡,但由於早期資訊科技的相對不發達,一旦原始資料的結構化程度不高,基本上電腦對於此類信息均難以處理。可惜的是,在資料電子化迅速累積的同時,結構化資料的比例仍然相對偏低。

  幸得力於文字探勘、語意辨識的研究逐漸成形,讓網路上大量的非結構化資料,透過辨識轉譯成後設資料(Metadata)產生了屬性意義。

資料探勘VS 統計分析

  資料探勘也稱為資料採礦,主要意義就是從一大堆資料信息中,找出脈絡關係,形成知識管理中的偽資訊。資料探勘發展之初,常有人誤解為這不就是統計分析,從這段定義中,「從一個大型的資料庫中,在無預設立場的情況下,找出資料型樣以及資料間關係的一個過程。(Mohamed L. Hambaba, 1996)」,可以了解資料探勘與統計分析最大的差異就是在於研究假設與分析結果的不同。

  統計分析通常是先建立研究假設的模式,也會給予分析結果一般性的預測;但資料探勘則相反,如同前述的無預設立場,也就是不建立任何假說,只指定分析演算方法,而往往也無法預測最終的結果。因此統計分析的步驟,是先從建立假設、收集資料、分析資料、結論應用;而資料探勘的步驟,則是先取的資料、 分析資料、找出假設、再結論應用。

資料探勘步驟

  步驟 1:資料選取(Data Selection)

  選擇資料蒐集目標及資料挖掘程序,確認被挖掘的資料,然後選擇適當的輸入屬性和輸出資訊,以呈現工作結果。

  步驟 2:資料轉換(Data Transformation)

  以所需的方式來組織資料,轉換資料成另一種型態(如從文字符轉成數值),且定義新的屬性,減少資料維度,移去雜訊(noise)、特異數值(outliers)等資料,決定處理遺失資料的策略並進行資料一般化。

  步驟 3:資料探勘(Data Mining)

  資料經過轉換後,使用者可以藉著事先預定好的步驟,並藉由一種或多種的技術,來萃取出資料中隱含的重要訊息及模式。

  步驟 4:結果解釋和確認(Result Interpretation and Validation)

  資料經由萃取,並經由統計或其他技術來確認其結果,且所萃取資訊描述範圍可以擴展到資料庫中未曾察覺或包含的資料。

  步驟 5:知識的合併(Incorporation of the Discovered Knowledge)

  包含將結果呈現給決策者,用以查核及解決先前認定和挖掘得來知識的潛在分歧,並嘗試實際應用挖掘所得的新模式。

資料探勘於工程管理之應用

  列舉以下五種資料探勘分析,結合工程管理範例做為參考:

分類(classification)

  定義:將資料分成幾個有意義的類別,按照分析對象的屬性分門別類加以定義,藉由檢視現有的分類項目(class) ,推論出一套規則,來描述群組的型態。

  範例:將工程專案的風險程度分為高度、中度、低度及無風險,以檢視其他屬性的影響。

  方法:決策樹(decision tree),判別分析(discriminant analysis)等。

推估(estimation)

  定義:根據既有連續性數值之相關屬性資料,以獲致某一屬性之數值規則,和分類最大的不同點,分類的目標是類別,推估的目標是連續的。

  範例:根據工地既有的相關資料,以推估專案的勞工生產力或材料耗損率。

  方法:相關分析、迴歸分析及類神經網路方法。

預測 (prediction)

  定義:根據對象屬性之過去觀察值,來推估該屬性未來之值,將分類或估計的模型用於對未來其他屬性的相關預測。

  範例:根據分類所建立的風險模型,或是由工地推估的所得的生產力或材料耗損率,用來預測其他工地專案的可能投資報酬率。

  方法:迴歸分析、時間數列分析及類神經網路方法。

關聯分組(affinity grouping)

  定義:從所有物件決定那些相關物件應該放在一起。關連(Association):指單一事件的連結發生。順序(sequence):指事件隨著時間而連結。

  範例:在總時程5%時即出現進度落後的工地,有85%的可能會出現工程爭議。三天以上連續假期後的一個月內,工程進度會下降10%。

  方法:迴歸分析、時間數列分析及類神經網路方法。

同質分組(clustering)

  定義:將異質母體中,區隔出較具同質性之群組(clusters)。由資料中應用演算法自然產生區隔,事先未對於區隔加以定義。

  範例:將工地現況的資料,利用同質分組自動產生區隔分組,以作為風險程度或工程爭議的適用案例解釋。

  方法:k-means法、agglomeration法。

資料探勘應用實例

  筆者於2007年試作將資料探勘分析,應用於研究影響不動產價格模式之探討,當年並無OpenData的開放資料管道,僅能透過內政部地政司全球資訊網的網站,取得房地產交易價格的粗略資訊。

  由於無大量數位資料的取得管道,筆者自行撰寫程式,擷取網頁畫面資料後,取得6,493筆民國94年台北市房地交易資料,使用StatSoft公司的產品『STATISTICA 7 中文版』分析軟體,以CART決策樹技術作為分析應用。

  透過兩次不同屬性資料分類結果,顯示行政區位為最主要決策因素,樓房形式次之,以上初步結論均符合一般現況的理解。

結語

  資料探勘確實是一門值得學習的技術,無論在各個領域的應用上,都能藉由紀錄的完整收集,呈現出資料的架構模式。

更多資訊請參考...
{{item.title}}
生產力中心提供的活動資訊
{{item.title}}
相關出版品...