資料探勘 (Data Mining)

資料探勘(Data Mining) 蔡懷寬 D7526010@csie.ntu.edu.tw

Please tell me • Why you are here? • Make a definition of Data Mining

？ Input Output

道 Input Output

Input ？

Linear System Input

Input ？

Nonlinear System Input

Input ？

Chaotic System Input

Introduction • What is data mining? • Why data mining? • How to do data mining? • Data Mining: On what kind of data? • Data preprocessing • Association rules • Clustering • Classification

DATA?

“Data Structure” Wisdom Knowledge Information Data

“Data Structure” • 資料(Data) • 未經處理的資訊 • 資訊(Information) • 經某人組織,展現的資料 • 知識(Knowledge) • 資訊經過讀,看,聽後理解而得到了知識 • 智慧(Wisdom) • 知識經過精煉,整合後萃取出的精華

文字書籍, 期刊, WWW, 備忘錄, … 刊載/參考膠捲照片, 其它影像廣播, 電視電話通訊資料庫有哪些資料 ?

資料量:以美國國會圖書館為例 • 國會圖書館藏書量 (1999) • 書: 約20 Terabytes(1012 bytes) • 20M books • 1 MB per book • 其他資料 • 13M 影像照片, 1MB each = 13 TB • 4M 地圖, say 200 TB • 500K 檔案, 1GB each = 500 TB • 3.5M 有聲資料, ~2000 TB • 總計: 約3 petabytes (3000 terabytes)

網路世界... • 在1999年有約800 Million Web Page在網際網路上 • Faulker’s Cyberscape Digest 08/06/99 • 網路的交通流量是每 100 天成長二倍 – 估計有62 Million美國人已經在使用網際網路(US Commerce Dept 1998) • 廣播節目花了 38 年才得到五千萬聽眾, 電視節目花了 13 年, 而網際網路才花了 4 年...

Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive 資訊生命週期(Information Life Cycle)

資訊產生的問題 • 資訊儲存 • 如何且在哪裡儲存資訊 ? • 資訊擷取 • 如何從儲存的資料還原成資訊 • 如何找到所需要的資訊 • 如何和存取(Accessing)/過濾(Filtering)的方法連結

Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Key Issues

Data Mining ?

DEFINITION • DATA MINING 就是從資料中裡，將隱含的、潛在性有用的及不清楚的資料，挖掘、淬取出來的過程。也就是說從資料中挖掘以前不知道的知識。 • 相關名詞 :知識淬取(knowledge extraction)資料打撈(data dredging)資料考古學(data archaeology)

遠古至今即存在Data Mining • 月暈知風 • 礎潤知雨 • 晚上起霧第二天晴天 • 看到媽媽拿鞭子落跑 • 這些在我們的傳統用法稱之為： • 經驗法則

Data Mining 之演進過程 Statistics ~1800? Expert Systems ~1970 Pattern Recognition ~1970 Rule induction Machine learning ~1980 Relational Databases, Triggers ~1980 Knowledge Discovery for Databases (KDD) ~1990 MIS decision support ~1990 Data Mining ~1995

Why Data Mining • Necessity is the Mother of Invention!

Data Mining 為何興起? • 商品條碼之廣泛使用 • 企業界之電腦化 • 數以百萬計之資料庫正在使用 • 多年來累積了大量企業交易資料 Data Knowledge

Data Mining 之同義詞 • Knowledge Discovery in Databases (KDD) • Knowledge Extraction • Data archaeology • Data Patten Analysis

主要功用 • 從資料庫中挖掘知識 • 了解使用者行為 • 幫助企業作決策 • 增進商機 • Too much!!!

Data Mining 應用例子(1) • 樂透

Data Mining 應用例子(2) • 超級市場 • 牛奶與白麵包 • 啤酒與香菸 • 啤酒與尿布

Data Mining 應用例子(3) • NBA 美國職籃 • 1996, 紐約尼克隊總教練 Pat Riley • 運用Data Mining • 發現: 出戰芝加哥公牛隊，尼克中鋒尤恩被包夾時，得分率偏低

一般被包夾防守時，有一人空出來，可輕鬆投籃得分一般被包夾防守時，有一人空出來，可輕鬆投籃得分

Data Mining 應用例子(4) • 搜尋網站 • GOOGLE

Data Mining 應用例子(5) • 公司對客戶的市場分析，例如： • 消費習慣、客戶分群、消費預測 • 例子： • 超級市場、錄影帶出租店、信用卡…

Data Mining 應用例子(7) • 大宇宙的預測： • 天氣預測 • 地震預測 • 土石流預測 • 慧星撞地球 • …

Data Mining 應用例子(8) • 小宇宙的預測 • 疾病預測 • 基因功能預測 • 結構預測 • …

How to Do Data Mining? • First of all, you have to learn • How to put your data Database • Then, you have to do • data preprocessing • Finally, you should have some weapons : • Data mining techniques

Typical Data Mining System

Data Warehouse

Why Data Preprocessing? • Data in the real world is dirty • incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data • noisy: containing errors or outliers • inconsistent: containing discrepancies in codes or names • No quality data, no quality mining results! • Quality decisions must be based on quality data • Data warehouse needs consistent integration of quality data

Major Tasks in Data Preprocessing • Data cleaning • Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies • Data integration • Integration of multiple databases, data cubes, or files • Data transformation • Normalization and aggregation • Data reduction • Obtains reduced representation in volume but produces the same or similar analytical results • Data discretization • Part of data reduction but with particular importance, especially for numerical data

Data Mining 主要方法介紹 • 關聯規則 (Association rule) • 屬性導向歸納法(Attribute Oriented Induction) • 資料分類 (Classification) • 資料分群 (Data Clustering) • 模式導向相似性搜尋(Pattern-BasedSimilarity Search) • 資料方塊法 (Data Cube) • Sequence Pattern Mining

關聯規則 Association Rule • 同一個交易中，一個item出現也會引起另一個item的出現 • Association rule例子 • 若顧客購買麵包，則他很可能也會購買牛奶 • Association rule: 麵包 => 牛奶 • P(牛奶|麵包) 的機率值高

關聯規則之可信度(confidence) • 關聯規則 A => B • 可信度為: 在A出現之條件下出現B之機率 • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問麵包 => 牛奶之可信度為多少?

關聯規則之可信度(Confidence) • 資料庫中的交易紀錄 t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 可信度= P(B|A) = P(A,B)/P(A) • P(牛奶|麵包) = P(麵包 ,牛奶) N(麵包 ,牛奶) = P(麵包) N(麵包)

關聯規則之支持度(Support) • 關聯規則 A => B • 支持度為: A與B同時出現之機率 P(A, B) • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問麵包 => 牛奶之支持度為多少?

練習 • 交易編號購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 關聯規則 A=> D 之可信度為多少? • 關聯規則 A=> D 之支持度為多少?

練習 • 交易編號購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 請找出可信度 >= 60% 支持度 >= 50%之關聯規則

資料探勘 (Data Mining)

資料探勘 (Data Mining)

Presentation Transcript

Data Mining

DATA MINING

DATA MINING

Data Mining

DATA MINING

Data Mining

Data Mining

Data Mining: Data

Data Mining

DATA MINING

Data Mining: Data

Data Mining

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

Data Mining: Data

Data Mining: P enelitian Data Mining

Data Mining

Data Mining

Data Mining

Data Mining

Data Mining: Data

Data Mining