Data Mining Getting Started!

Last updated on 01/04/2012
home . back

  1. 何謂資料探勘?
  2. 資料探勘的興起應歸功於哪些技術的成熟?
  3. 比較資料庫、資料倉儲與資料探勘之間的不同。
  4. 資料探勘與決策支援系統有何不同?
  5. 資料探勘與統計分析有何不同?
  6. 知識發現的過程可分為哪六大步驟?
  7. 知識發現過程的六大步驟當中,哪一個步驟需要花最多的精力?為什麼?
  8. 資料探勘常用的技術有哪些?
  9. 資料探勘的主要模式有哪些?
  10. 分類法的應用有哪些?
  11. 關連法則探勘的應用有哪些?
  12. 群集分析的應用有哪些?
  13. 循序樣式探勘的應用有哪些?
  14. 列舉出資料探勘在零售業的應用。
  15. 列舉出資料探勘在金融業的應用。
  16. 列舉出資料探勘在製造業的應用。
  17. 列舉出資料探勘在醫療業的應用。
  18. 列舉應用資料探勘的成功案例。
  19. 請列舉出資料探勘的工具。
  20. 資料探勘未來有哪些發展與挑戰?

(資料參考: 曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯, 資料探勘 (Data Mining), 旗標, 2005.)

 


1. 何謂資料探勘?

資料探勘可以分為兩種角度去定義:

學者定義

  1. Frawley:認為所謂的資料探勘就是指從資料庫中挖掘出潛在、明確、而且非常有用資訊的過程。
  2. Grupe & Owrang:則認為資料探勘是指從已經存在的資料庫當中挖掘出專家仍未知的新事實。
  3. Fayyad:定義知識發掘(knowledge discovery)為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程,也就是說資料探勘只是知識發掘過程當中的一個步驟。
  4. Berry & Linoff:定義資料探勘為使用自動或半自動的方法,對大量資料作分析,找出有意義的關係或法則

廣義定義

可解釋為資料庫之知識發掘(Knowledge Discovery in Databases,簡稱KDD)。也就是說可以從一個大型資料庫裡頭所儲存的大量資料當中萃取出有趣知識,這個大型資料庫有可能是線上作業的資料庫 (on-line database),也有可能是資料倉儲 (data warehouse)。

 

2. 資料探勘的興起應歸功於哪些技術的成熟?
  1. 大量資料的收集技術由於網際網路的發達、關聯式資料庫(relational database)的應用廣泛、再加上全面性的資料整合技術成熟,使得資料的收集變得輕而易舉。
  2. 高效能的多處理器電腦架構透過平行處理的多處理器架構,可促使大量資料的處理及運算能在可容忍的時間內完成。
  3. 資料探勘演算法的成熟諸如統計學(statistics)、人工智慧(artificial intelligence)和機器學習(machine learning)等已發展近十幾年的理論,以及近年來深受矚目的基因演算法(genetic algorithms)等技術。

 

3. 請比較資料庫、資料倉儲與資料探勘之間的不同。

演進步驟

目標企業問題

應用技術

系統供應商

系統特性

檔案系統

(1960年代)

“1990年12月個人電腦的銷售明細為何?”

電腦、磁帶、磁碟

IBM, CDC

傳遞歷史性的靜態資料

資料庫系統

(1970年代)

“IBM X31筆記型電腦目前的售價是多少?”

階層式資料庫(hierarchical database)、網路式資料庫(network database)、關聯式資料庫(relational database)、結構化查詢語言(SQL) 、開放性資料庫連結協定(ODBC)

Oracle, Sybase, Informix, IBM, Microsoft

傳遞即時性的單層次動態資料

資料倉儲系統

(1990年代)

“去年北部地區筆記型電腦的總銷售量是多少?其中台北市的銷售量是多少?”

線上分析處理 (OLAP) 、多維度資料模型(multidimensional data model) 、資料倉儲(data warehouse)

Pilot, Comshare, Arbor, Cognos, Microstrategy, Microsoft

傳遞歷史性的多層次動態資料

資料探勘系統

(現代)

“明年筆記型電腦的預估銷售量為何? 為什麼?”

進階演算法、多處理器電腦系統、大量資料儲存技術、人工智慧

Pilot, Lockheed, IBM, SGI

傳遞預知的、鑑往知來的資訊

 

4. 資料探勘與決策支援系統有何不同?

資料探勘系統:可提供自動化的資料分析與預測。

決策支援系統:依照內定的決策模型或推論規則提供決策上的建議,所使用的決策模型或推論規則可以來自於領域專家 (Domain Expert) 的經驗法則,也可以運用知識工程(knowledge engineering)的技術自專家腦中擷取而得。

 

5. 資料探勘與統計分析有何不同?

統計分析 (Statistical Analysis):

  1. 以假設及驗證為基礎,僅能針對較少量的資料,就其資料之間的關連性或統計學上不同之標的加以分析。
  2. 需要由具專業統計背景的專家針對統計結果加以檢測。

資料探勘則

  1. 以發現為基礎,著重於「樣式辨認」,找出資料中所隱含的具體規則。
  2. 供不具專業統計背景的末端使用者(通常是高層決策人員,如經理、總經理或執行長等)據以制定決策。

 

6. 知識發現的過程可分為哪六大步驟?

知識發現過程的六大步驟為資料收集、資料前置處理、資料倉儲建立、資料探勘、樣式評估與結果展示。

 

7. 知識發現過程的六大步驟當中,哪一個步驟需要花最多的精力?為什麼?

  1. 有80%的時間精力是花費在資料前置作業階段。
  2. 因為在真實世界的資料其實是非常雜亂的,一方面來自於收集資料的來源管道太多了,而收集資料的工具本身也許並沒有做精確的檢查,導致收集到非常多的資料,但是這些資料並不見得全部都可以用。

 

8. 資料探勘常用的技術有哪些?

傳統技術:是以統計分析為代表,包括統計學中的敘述統計、機率論、迴歸分析、類別資料分析等等。由於資料探勘的對象大多是變數繁多而且筆數龐大的資料,因此可用高等統計學裡所含括的變因分析 (factor analysis) 來精簡變數、用區隔分析 (discriminated analysis) 來做分類,以及用群集分析 (cluster analysis) 來區分資料的群體等等。

改良技術方面:運用了各種人工智慧的方法,例如類神經網路 (artificial neural network)、決策樹 (decision tree)、基因演算法 (genetic algorithms)、規則推論法 (rules induction) 以及模糊理論 (fuzzy logic) 等。

 

9. 資料探勘的主要模式有哪些?

資料探勘的模型主要有四種:資料分類 (data classification)、資料關連 (data association)、資料分群 (data clustering) 以及循序樣式探勘 (sequential pattern mining)。

 

10. 分類法的應用有哪些?請舉出三個範例。

  1. 將信用卡申請者的風險屬性,區分為高度風險申請者、中度風險申請者及低度風險申請者。
  2. 醫療診斷也是分類法的典型應用之一,可利用這些病例建立SARS病患的分類模型,找出SARS病患的屬性特徵。
  3. 以目標行銷 (target marketing) 而言,可以利用分類法找出潛在顧客的屬性,以針對目標族群規劃出精準的行銷策略。

 

11. 關連法則探勘的應用有哪些?請舉出三個範例。

關連法則特別適合用在購物籃分析 (market basket analyses),主要是用來幫助零售業者瞭解客戶的消費行為

應用範例:

  1. 哪些產品客戶會一起購買,客戶在買了某樣產品後,多久之內會買另一產品。
  2. 可透過分析學習者的學習成績並了解試題間的關連性,進而推導出相對應於試題之概念間的關連,找出可以幫助領域專家建構學習概念圖的法則,進而構建適切的課程概念圖,來規劃學生的學習路徑
  3. 在店裡要如何擺設貨品,同時也可以用來評估店裡的促銷活動的成效。

 

12. 群集分析的應用有哪些?請舉出三個範例。

  1. 找出網路學習環境中哪些學生的學習特徵比較近似,據此將學生分組進行群組學習。
  2. 應用於資料精簡化時,可將資料群集找出之後,以每個群集的中心點來代表該群集的所有資料特徵。
  3. 將空間上的特徵加以分群,以獲得地理資訊系統中較具主題性的地圖。

 

13. 循序樣式探勘的應用有哪些?請舉出三個範例。

  1. 從目前客戶購買筆記型電腦的數量,預測三個月後隨身碟的銷售量,以便準備足夠的隨身碟庫存量,以免屆時面臨無貨可賣的窘境。
  2. 從目前客戶正在瀏覽的網頁,預測客戶下一步會瀏覽的網頁;應用在通訊品  質不佳的無線網路環境中時,此舉尚可提供客戶在離開, 無線網路涵蓋區時,仍能離線瀏覽網頁的功能。
  3. 運用循序樣式探勘了解顧客在購買某種商品後會接著購買何種商品,可據此贈送折價卷以提升顧客的回籠機率。

 

14. 列舉出三樣資料探勘在零售業的應用。

分店設點區位分析、銷售產品組合分析、促銷商品組合分析等等。

 

15. 請列舉出三樣資料探勘在金融業的應用。

信用卡客戶信用評等、客製化金融服務、授信利率額度決策等等。

 

16. 列舉出三樣資料探勘在製造業的應用。

生產良率分析、庫存因素分析、物流整合及配置輔助決策等等。

 

17. 列舉出三樣資料探勘在醫療業的應用。

院內感染分析、臨床病徵分析、基因定序等等。

 

18. 列舉三個應用資料探勘的成功案例。

  1. 美國著名超級市場Wal-Mart,針對其經年累月所累積的銷售資料分析之後發現,每到星期四尿布和啤酒就經常會被一起購買,於是行銷人員將這兩樣商品放在鄰近的陳列架上一起做促銷,結果兩樣商品得到了意想不到的業績成長。
  2. 美國銀行(Bank of America)從其客戶資料中,找出既有客戶申請貸款的時機,並且找出規則,規劃出全新的行銷方案;該方案推出後,美國銀行的房屋質押貸款接受率立即成長兩倍以上。這兩個案例的成功經驗,都是拜資料探勘所賜。
  3. LTV是全美第三大的鋼鐵公司,使用資料探勘偵測潛在的品質問題,使得不良品減少了99%。

 

19. 列舉出三種資料探勘的工具。

可分成三種軟體來舉例:

整合型系統

  1. 資料倉儲、資料探勘、專家系統、決策支援系統全部整合起來的系統
  2. 例如IBM-Cognos出品的SCENARIO (http://www.cognos.com) 以及Business   Objects出品的BusinessMiner (http://www.businessobjects.com)

一般性套裝軟體

  1.  單純只做資料探勘工作的工具
  2. 例如: IBM的Intelligent Miner,IBM-SPSS的Modeler (Clementine), Oracle 的 DB Miner, Microsoft 的SQL Server 2008

客製化軟體

  1. 依照某企業體或是某行業的需要所量身訂做的軟體
  2. 例如針對零售業開發的KD1,以及針對信用卡詐欺或呆帳偵測所開發的HNC。

 

20. 資料探勘未來的發展與挑戰?

  1. 處理不同型態的資料
  2. 提昇資料探勘演算法的效能
  3. 提高資料探勘結果的可用性及正確性
  4. 以多樣化的圖形介面呈現資料探勘結果
  5. 多重抽象層次中的互動式知識發掘
  6. 不同來源資料的整合
  7. 隱私保護與資料安全議題
  8. 更具預測能力的模型
  9. 更具延展性的模型
  10. 更具成本效益的模型
  11. 不斷進化成長的資料探勘標準
  12. 與關聯式資料庫的整合