Đồ thị khoảng cách của văn bản và một số ứng dụng

1 Đồ thị khoảng cách của văn bản và một số ứng dụng HàQuangThụy PhòngThínghiệmCôngnghệ Tri thức - KTLab Trường ĐHCN, ĐạihọcQuốcgiaHàNội, Ngày 31/5/2014 KTLab

Nội dung • Đồ thị khoảng cách và ứng dụng • Độ đo Google chuẩn và ứng dụng • Tin học xã hội 2

Đồthịkhoảngcách: giớithiệu • Charu C. Aggarwal, Peixiang Zhao (2013). Towards graphical models for text processing. Knowl. Inf. Syst.36(1): 1-21. • Charu C. Aggarwal • Research Scientist, IBM T. J. Watson Research Center in Yorktown Heights, BSc. IIT Kanpur (1993). PhD. MIT (1996). • Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research Division (2008), IBM Outstanding Technical Achievement (2009). • Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery, ACM SIGKDD Explorations, and the Knowledge and Information Systems. • http://www.informatik.uni-trier.de/~ley/pers/hd/a/Aggarwal:Charu_C=: 60 bàitạpchí, 135 bàihộinghị, 2 sách, … • Peixiang Zhao • Assistant Professor, Florida State Univ. at Tallahassee • Bsc (2001), MSc (2004), PhD (2007) HK, PhD (2012) UIUC • http://www.informatik.uni-trier.de/~ley/pers/hd/z/Zhao:Peixiang.html”: 4 bàitạpchí, 16 bàihộinghị

Đồthịkhoảngcách: địnhnghĩa • Phátbiểu ở đâykhácđôichút so vớibàibáo • Cho ngữliệu C = {tàiliệumiềnứngdụng} và V ={từcónghĩatrong C}. Vídụ, V = {từtrong C} \ {từdừng} • Vớimộttàiliệu D: “đồthịkhoảngcáchbậc k” của D trên C làđồthị G(C, D, k) = (N(C), A(D, k)) với N(C) làtậpđỉnh, A(D,k) làtậpcung • N(C) = {nút v: vV và v xuấthiệntrong D}. vV: xuấthiện ≤ 01lần ở N(C). Trong N(C): gọi “nút i” hoặc “từ i”. • D’ nhậnđượctừ D saukhiloạibỏmọitừV, giữnguyênthứtựcáctừ. • TậpcungA(D,k) chứacung (i ,j) cóhướngtừnút i tớinút j nếunhưtừ i đitrướctừ j vớikhoảngcách≤ k từtrong D’. Cung (i, j) cótrọngsố m nếucó nhiều nhất m lầntừ i xuấthiệntrướctừ j vớikhoảngcách≤k ở trongD’.

Đồthịkhoảngcách: vídụtừbàibáo • V = {từ tiếng Anh} \ {từ dừng} • D lấy từ bài đồng dao “Mary had a little lamb” là “Mary had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow”. D’=“Marylittlelamb, littlelamb, littlelamb, Marylittlelamb, fleecewhitesnow”. Các đồ thị khoảng cách bậc 0,1,2: • Bậc 0: các từ đơn tự kết nối. Bâc k+1: thêm cung và thêm trọng số

Đồthịkhoảngcách: tínhchất • Tínhchất “thưa”: • f(D): sốlượngtừcónghĩatrong D’ kếcảbội • n(D): sốlượngtừphânbiệttrong D’ chínhlàsốnútcủađồthị |N(C)| • n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1) Chứng minh trongbàibáo. • Tínhphẳngcủatàiliệuchỉchứatừphânbiệt • Đồthịkhoảngcáchbậckhôngquá 2 tươngứngvớicáctàiliệuchỉchứacáctừphânbiệtlàcácđồthịphẳng (planar). • Tínhđơnđiệu • D1 làđoạn con của D2  G(C, D1, k) làđồthị con của G(C, D2, k). • Chứng minh trongbàibáo. • Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k) không  D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ thị khoảng cách! • Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả hơn trình diễn không gian vector đánh chỉ số theo từ khóa.

Đồthịkhoảngcách: tínhchất • Tính bảo tồn đoạn giao • D1, D2 có xâu chung F  G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con G(C, F, k). Suy diễn trực tiếp từ tính đơn điệu. • Tìm kiếm tài liệu có đoạn về một chủ đề • Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên thông •  xây dựng clique_có hướng_hai chiều chứa các nút (từ) này. • clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ thị đầy đủ) và  một chu trình đơn nối mọi đỉnh clique. • Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết số lần các từ khóa tương ứng xuất hiện trong D  hành vi cục bộ của chủ đề. • Tính chất xuất hiện clique hai chiều • Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C. Cho E là giao theo cung của tập các cung của G(C, D, k) được chứa trong F1. Gọi q là tổng các tần số của các cung trong E thì q chính là số lần các từ khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách  k trong tài liệu.

ĐTKC: Xác định chủ đề khác nhau • Xác định các đoạn liên quan các chủ đề khác nhau • S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau. • F1, F2: hai clique tương ứng với S1 và S2 • Gọi F12 là clique chứa các nút của S1+S2 • Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với F1, F2, F12. E12 (D) là bao đóng các cung của E1 (D)  E2 (D) • Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D) lớn nhưng tần số các cung E12(D)-(E1(D)  E2(D)) là nhỏ. • Bài toán xác định tính cục bộ các chủ đề • Tím các tài liệu D mà tần số theo cung của (E1(D)  E2(D)) là lớn hơn s1 và tần số theo cung trong E12(D)-(E1(D)  E2(D)) là nhỏ hơn s2.

ĐTKC: phương án vô hướng • Định nghĩa • Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C, D, k) = (N(D), A(D, k)): • N(D) như trường hợp có hướng • A(D,k) là tập cung tương tự như trường hợp có hướng song được tính cả hai chiều (về trước và về sau). • Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước: Đồ thị KC vô hướng nhận được bằng cách đổi cung có hướng thành vô hướng. • Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự . • Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii)

Đồthịkhoảngcách: ứng dụng KPDL • Hai phương án áp dụng • kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách: dề dàng thi hành. • Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các phương pháp khai phá cấu trúc • Độ phức tạp tính toán • Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có • Có thể làm chậm song không quá nặng nề.

Đồthịkhoảngcách: các ứng dụng KPDL • Phân cụm • Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”. • Thuật toán EM. • Phân lớp • .Phân lớp Bayes thơ ngây • Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm • Phân lớp dựa trên luật. • Đánh chỉ số và truy hồi • entire structural fragments • Tìm kiếm chính xác: đã đề cập • Tìm kiếm gần đúng • Tìm kiếm đồ thị con thường xuyên • Phát hiện đạo văn (Plagiarism detection) • GA, GB đồ thị khoảng cách hai tài liệu • MCG (GA, GB) là đồ thị con chung lớn nhất giữa hai tài liệu • ..

Đồthịkhoảngcách: Một số bàn luận • Khoảng cách • Tính sau khi loại bỏ từ dừng ? • Lý do ? • Nên chăng tính khoảng cách giữ nguyên từ dừng. • Áp dụng tìm kiếm mẫu trong nhật ký sự kiện • Các hành động là “từ khóa”. • Xây dựng đồ thị khoảng cách • Mẫu tuần tự: Phân cụm • Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên. • Áp dụng cho các bài toán xử lý văn bản • Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng cách, tính độ quan trọng, tương tự hai cầu … • Thay nút được chỉ số bằng chủ đề.. • Áp dụng cho phân lớp đa nhãn, đa thể hiện văn bản • Biểu diễn văn bản qua đồ thị khoảng cách • Áp dụng tính chất cục bộ của chủ đề

Áp dụng khai phá mẫu từ nhật ký sự kiện • Hai thách thức của KPQT • C2. Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa dạng • C4. Đối phó với sai lệch khái niệm • ~ đối phó với nhật ký sự kiện quá lớn • Một số tài liệu nghiên cứu • [Aalst13] Wil M. P. van der Aalst (2013). A General Divide and Conquer Approach for Process Mining. FedCSIS 2013: 1-10. • [BA12a] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst (2012). Process diagnostics using trace alignment: Opportunities, issues, and challenges. Inf. Syst. 37(2): 117-141. • [BAZP11]c R. P. Jagadeesh Chandra Bose, Wil M.P. van der Aalst, Indre Zliobaite and Mykola Pechenizkiy (2011). Handling Concept Drift in Process Mining. CAiSE 2011: 391-405. • [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands. [Manifesto12] Wil van der Aalst et al. (2012). Process Mining Manifesto, BPM 2011 Workshops (Part I, LNBIP 99), pp. 169–194.

Khai phá mẫu: Trừu tượng hóa sự kiện • Trừu tượng hóa sự kiện • Abstractions of Events • dữ liệu sự kiện nội tại vết quy trình quá cụ thể hoặc/và có nhiều mức trừu tượng • Xâu hành động cụ thể  hành động gắn với quy trình hơn [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Khai phá mẫu: Phân cụm vết • Phân cụm vết • Trace Clustering • Các vết có tính tương đồng [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Khai phá mẫu: Tiến hóa quy trình • Tiến hóa quy trình • Concept Drift • Quy trình thay đổi theo thời gian • Các vòng đời quá trình kinh doanh khác nhau [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Trừu tượng hóa quá trình kinh doanh [Smir11] Sergey Smirnov (2011). Business Process Model Abstraction.PhD Thesis, The University of Potsdam.

2. Khoảng cách Google chuẩn và ứng dụng • Các tài liệu liên quan • Rudi Cilibrasi, Paul M. B. Vitányi (2004). The Google Similarity Distance “Automatic Meaning Discovery Using Google”. CoRR abs/cs/0412098. • Rudi Cilibrasi, Paul M. B. Vitányi (2007). The Google Similarity Distance. IEEE Trans. Knowl. Data Eng. 19(3): 370-383. Có 1036 citation trong Google Scholar. • Paul M. B. Vitányi (2012). Information Distance: New Developments. CoRR abs/1201.1221. • Andrew R. Cohen, Paul M. B. Vitányi (2013). Normalized Google Distance of Multisets with Applications. CoRR abs/1308.3177. • Các tác giả • Paul M. B. Vitányi: DBLP có 76 bài tạp chí, 69 bài hội nghị, 69 bài thông báo, … http://www.informatik.uni-trier.de/~ley/pers/hd/v/Vit=aacute=nyi:Paul_M=_B=.html • Rudi Cilibrasi: 4 bài hội nghị, 6 bài hội nghị, 9 bài thông báo, . http://www.informatik.uni-trier.de/~ley/pers/hd/c/Cilibrasi:Rudi.html

Khoảng cách Google chuẩn • Lập luận • Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. • Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”.  đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì. • Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP)vàBiomedical Summarization (BiomedSumm). • Khoảng cách thông tin chuẩn • Cho hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản ra xâu x, y., xy.. • E(x,y) thực sự là một khoảng cách: ba tính chất

Khoảng cách Google chuẩn • Lập luận • Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. • Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”.  đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì. • Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP)vàBiomedical Summarization (BiomedSumm). • Khoảng cách thông tin chuẩn • Khoảng cách thông tin hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản ra xâu x, y., xy.. • E(x,y) thực sự là một khoảng cách: ba tính chất • Khoảng cách thông tin chuẩn:

Khoảng cách Google chuẩn • Khoảng cách nén chuẩn • Khoảng cách thông tin chuẩn là chưa tính toán được (uncomputable) . • Dùng chương trình nén dữ liệu có sẵn để “thay thế K”. • Cho bộ nén C: C(x) là độ dài nén của x • Khoảng cách nén chuẩn • Khoảng cách Google chuẩn • G(x), G(x,y) là “mã hóa Google” của x và (x,y) • x= {trang web chứa xâu x}; xy={trang web chứa cả 2 xâu} • Mã hóa Google

22 CÁM ƠN KT-SISLAB

Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách của văn bản và một số ứng dụng

Presentation Transcript