130 likes | 308 Views
ontological based webpage classification 以本體論為基礎的網頁分類. 指導老師 :陳志達 老師 報 告 者:戚嘉蓁 日期 : 2012/08/14. 大綱. 研究背景 研究動機與目的 用於此方案的技術及 演算法 方法論 Visual Boundaries DOM Tree Breadth First Search (BFS) Algorithm Ontology-based Webpage Classification 實驗 結論. 研究背景. 當前的網頁分類方式. 關鍵字比對 替代 技術 尋找鄰近頁面.
E N D
ontological based webpage classification以本體論為基礎的網頁分類 指導老師:陳志達 老師 報 告 者:戚嘉蓁 日期:2012/08/14
大綱 • 研究背景 • 研究動機與目的 • 用於此方案的技術及演算法 • 方法論 • Visual Boundaries • DOM Tree • Breadth First Search (BFS) Algorithm • Ontology-based Webpage Classification • 實驗 • 結論
研究背景 • 當前的網頁分類方式 • 關鍵字比對 • 替代技術 • 尋找鄰近頁面
研究動機與目的 • 由於強行比對整個文檔,分類速度往往很緩慢 • 當出現拼寫不同,但意思相同的詞語時,無法正確比對分類 • 目前的技術無法有效識別及比對片語 • 當出現岐義詞,及一字多義的狀況時,也會造成比對的困難 • 當前網頁分類所遇到的問題
用於此方案的技術及演算法 • 區域分割技術 • 廣度優先搜索(BFS)演算法 • Ontological Techniques (本體論技術)
建議方法論 • Visual Boundaries
建議方法論 • DOM Tree • 文件物件模型(Document Object Model,簡稱DOM),是W3C組織推薦的處理可延伸標示語言的標準程式介面。 • 為了查明使用的電腦程式的可視化邊界,我們需要先取得網頁的DOM樹。要做到這一點,我們需要利用一個開放源始碼的HTML語法分析庫來取得DOMTree。
建議方法論 • Breadth First Search (BFS) Algorithm • 是一種圖形搜索演算法。簡單的說,BFS是從根節點開始,沿著樹的寬度遍歷樹的節點。如果所有節點均被訪問,則演算法中止。
Ontology-based Webpage Classification • WordNet • WordNet 是一個英語字典。由於它包含了語義信息,所以有別於通常意義上的字典。 • 在WordNet中,名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網路,每個同義詞集合都代表一個基本的語義概念,並且這些集合之間也由各種關係連接。
Ontology-based Webpage Classification • 本體論技術 • 我們使用本體論來衡量兩個字詞之間的語義相似度,衡量後會傳回0.0到1.0之間的值,其傳回值越接近1.0代表語義越相似,0.0則反之。 • 例如:’汽車‘和’轎車‘兩個詞評比時,將得到近似0.9的值,而’橘子‘和’摩托車‘這兩個詞評比,得到的值將低的多。
實際測試 • 人力手動分類 • 系統評估
結論 • 此方案能以關鍵字的語意屬性來進行比對,將分類的準確性提高。 • 實驗結果表明,這是一個與現有的網頁分類不同,更加快速、準確的網頁分類技術。