1 / 101

資料探勘 (Data Mining)

資料探勘 (Data Mining). 蔡懷寬 D7526010@csie.ntu.edu.tw. Please tell me. Why you are here? Make a definition of Data Mining. ?. Input. Output. 道. Input. Output. Input. ?. Linear System. Input. Input. ?. Nonlinear System. Input. Input. ?. Chaotic System. Input. Introduction.

peri
Download Presentation

資料探勘 (Data Mining)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 資料探勘(Data Mining) 蔡懷寬 D7526010@csie.ntu.edu.tw

  2. Please tell me • Why you are here? • Make a definition of Data Mining

  3. Input Output

  4. Input Output

  5. Input

  6. Linear System Input

  7. Input

  8. Nonlinear System Input

  9. Input

  10. Chaotic System Input

  11. Introduction • What is data mining? • Why data mining? • How to do data mining? • Data Mining: On what kind of data? • Data preprocessing • Association rules • Clustering • Classification

  12. DATA?

  13. “Data Structure” Wisdom Knowledge Information Data

  14. “Data Structure” • 資料(Data) • 未經處理的資訊 • 資訊(Information) • 經某人組織,展現的資料 • 知識(Knowledge) • 資訊經過讀,看,聽後理解而得到了知識 • 智慧(Wisdom) • 知識經過精煉,整合後萃取出的精華

  15. 文字 書籍, 期刊, WWW, 備忘錄, … 刊載/參考 膠捲 照片, 其它影像 廣播, 電視 電話通訊 資料庫 有哪些資料 ?

  16. 資料量:以美國國會圖書館為例 • 國會圖書館藏書量 (1999) • 書: 約20 Terabytes(1012 bytes) • 20M books • 1 MB per book • 其他資料 • 13M 影像照片, 1MB each = 13 TB • 4M 地圖, say 200 TB • 500K 檔案, 1GB each = 500 TB • 3.5M 有聲資料, ~2000 TB • 總計: 約3 petabytes (3000 terabytes)

  17. 網路世界... • 在1999年有約800 Million Web Page在網際網路上 • Faulker’s Cyberscape Digest 08/06/99 • 網路的交通流量是每 100 天成長二倍 – 估計有62 Million美國人已經在使用網際網路(US Commerce Dept 1998) • 廣播節目花了 38 年才得到五千萬聽眾, 電視節目花了 13 年, 而網際網路才花了 4 年...

  18. Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive 資訊生命週期(Information Life Cycle)

  19. 資訊產生的問題 • 資訊儲存 • 如何且在哪裡儲存資訊 ? • 資訊擷取 • 如何從儲存的資料還原成資訊 • 如何找到所需要的資訊 • 如何和 存取(Accessing)/過濾(Filtering)的方法連結

  20. Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Key Issues

  21. Data Mining ?

  22. DEFINITION • DATA MINING 就是從資料中裡,將隱含的、潛在性有用的及不清楚的資料,挖掘、淬取出來的過程。也就是說從資料中挖掘以前不知道的知識。 • 相關名詞 :知識淬取(knowledge extraction)資料打撈(data dredging)資料考古學(data archaeology)

  23. 遠古至今即存在Data Mining • 月暈知風 • 礎潤知雨 • 晚上起霧第二天晴天 • 看到媽媽拿鞭子落跑 • 這些在我們的傳統用法稱之為: • 經驗法則

  24. Data Mining 之演進過程 Statistics ~1800? Expert Systems ~1970 Pattern Recognition ~1970 Rule induction Machine learning ~1980 Relational Databases, Triggers ~1980 Knowledge Discovery for Databases (KDD) ~1990 MIS decision support ~1990 Data Mining ~1995

  25. Why Data Mining • Necessity is the Mother of Invention!

  26. Data Mining 為何興起? • 商品條碼之廣泛使用 • 企業界之電腦化 • 數以百萬計之資料庫正在使用 • 多年來累積了大量企業交易資料 Data Knowledge

  27. Data Mining 之同義詞 • Knowledge Discovery in Databases (KDD) • Knowledge Extraction • Data archaeology • Data Patten Analysis

  28. 主要功用 • 從資料庫中挖掘知識 • 了解使用者行為 • 幫助企業作決策 • 增進商機 • Too much!!!

  29. Data Mining 應用例子(1) • 樂透

  30. Data Mining 應用例子(2) • 超級市場 • 牛奶與白麵包 • 啤酒與香菸 • 啤酒與尿布

  31. Data Mining 應用例子(3) • NBA 美國職籃 • 1996, 紐約尼克隊 總教練 Pat Riley • 運用Data Mining • 發現: 出戰芝加哥公牛隊,尼克中鋒尤恩被包夾時,得分率偏低

  32. 一般被包夾防守時,有一人空出來,可輕鬆投籃得分一般被包夾防守時,有一人空出來,可輕鬆投籃得分

  33. Data Mining 應用例子(4) • 搜尋網站 • GOOGLE

  34. Data Mining 應用例子(5) • 公司對客戶的市場分析,例如: • 消費習慣、客戶分群、消費預測 • 例子: • 超級市場、錄影帶出租店、信用卡…

  35. Data Mining 應用例子(7) • 大宇宙的預測: • 天氣預測 • 地震預測 • 土石流預測 • 慧星撞地球 • …

  36. Data Mining 應用例子(8) • 小宇宙的預測 • 疾病預測 • 基因功能預測 • 結構預測 • …

  37. How to Do Data Mining? • First of all, you have to learn • How to put your data Database • Then, you have to do • data preprocessing • Finally, you should have some weapons : • Data mining techniques

  38. Typical Data Mining System

  39. Data Warehouse

  40. Why Data Preprocessing? • Data in the real world is dirty • incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data • noisy: containing errors or outliers • inconsistent: containing discrepancies in codes or names • No quality data, no quality mining results! • Quality decisions must be based on quality data • Data warehouse needs consistent integration of quality data

  41. Major Tasks in Data Preprocessing • Data cleaning • Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies • Data integration • Integration of multiple databases, data cubes, or files • Data transformation • Normalization and aggregation • Data reduction • Obtains reduced representation in volume but produces the same or similar analytical results • Data discretization • Part of data reduction but with particular importance, especially for numerical data

  42. Data Mining 主要方法介紹 • 關聯規則 (Association rule) • 屬性導向歸納法(Attribute Oriented Induction) • 資料分類 (Classification) • 資料分群 (Data Clustering) • 模式導向相似性搜尋(Pattern-BasedSimilarity Search) • 資料方塊法 (Data Cube) • Sequence Pattern Mining

  43. 關聯規則 Association Rule • 同一個交易中,一個item出現也會引起另一個item的出現 • Association rule例子 • 若顧客購買麵包,則他很可能也會購買牛奶 • Association rule: 麵包 => 牛奶 • P(牛奶|麵包) 的機率值高

  44. 關聯規則之 可信度(confidence) • 關聯規則 A => B • 可信度為: 在A出現之條件下出現B之機率 • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問 麵包 => 牛奶 之可信度為多少?

  45. 關聯規則之 可信度(Confidence) • 資料庫中的交易紀錄 t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 可信度= P(B|A) = P(A,B)/P(A) • P(牛奶|麵包) = P(麵包 ,牛奶) N(麵包 ,牛奶) = P(麵包) N(麵包)

  46. 關聯規則之 支持度(Support) • 關聯規則 A => B • 支持度為: A與B同時出現之機率 P(A, B) • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問 麵包 => 牛奶 之支持度為多少?

  47. 練習 • 交易編號 購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 關聯規則 A=> D 之 可信度 為多少? • 關聯規則 A=> D 之 支持度 為多少?

  48. 練習 • 交易編號 購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 請找出可信度 >= 60% 支持度 >= 50%之關聯規則

More Related