700 likes | 840 Views
网页检索质量的提高 -- user space mining & search result organization. 计算所软件室 郭嘉丰. 0.0 网页检索 vs 信息检索. 网页检索技术源自于信息检索技术 基本的索引技术、搜索技术 不少搜索引擎使用越来越广泛 网页检索与传统的文本检索有很多不同之处 如何进一步提高网页检索的质量?. 0.1 用户空间挖掘和检索结果组织. 提纲 研究背景 用户空间挖掘的探索( query classification/clustering ) 检索结果组织的探索( search result clustering ) 结论.
E N D
网页检索质量的提高--user space mining & search result organization 计算所软件室 郭嘉丰
0.0 网页检索vs信息检索 • 网页检索技术源自于信息检索技术 • 基本的索引技术、搜索技术 • 不少搜索引擎使用越来越广泛 • 网页检索与传统的文本检索有很多不同之处 • 如何进一步提高网页检索的质量?
0.1 用户空间挖掘和检索结果组织 • 提纲 • 研究背景 • 用户空间挖掘的探索(query classification/clustering) • 检索结果组织的探索(search result clustering) • 结论
1.0 研究背景 • 当前的网页检索技术源自于传统信息检索技术 • 传统信息检索技术概述: 用户查询 空间 文本 空间 Document Query Similarity
1.1.0 网页检索vs传统信息检索 • 新的信息源 • Document -> page , blog 2 • 新的媒介类型 • Text -> image, video , speech 1 不同之处 • 新的应用 • Crawler, email spam filter , MP3 search 3 4 • 新的组织结构 • Plain text file -> hypertext , P2P
1.1.1网页检索vs传统信息检索 • 传统信息检索 • 用户查询:7~15 terms • 返回结果:按相关性排序的结果 • 网页检索 • 用户查询:中文:3.55 character/query 英文:2.35 words/query • 用户一般只浏览第一个结果页面 网页检索中查询很短 用户一般并没有耐心浏览大量的返回结果
1.1.4 当前网页检索的不足之处 以一敌百--“One size fits all” 1 用户 空间 挖掘 仅仅依赖于很短的查询项 2 查询 结果 组织 查询不具有个性化 3 查询结果不方便用户浏览 4
2.0.0 经验 • 不同用户有不同的信息需求 • 同一个用户不同时期的信息需求也不同 • 查询的侧重点不同 • 查询词有多重意思 Home site Java link Britney’s Fan Club Query classification Program language content Island Yahoo web page
2.0.1 经验 • 不同的用户有相同的信息需求,但是查询项却不相同(潜在相关) • 用户的查询常常需要辅助 • 对一些不良查询项应该有所控制 Query clustering 手提电脑 笔记本
2.1.0 查询分类探索(1) e.g. 娱乐新闻 • 主题相关的任务(informational) 传统的检索任务,网页文档匹配用户提供的信息需求并按相似度降序排列 e.g. 中科院计算所 • 查找主页的任务(navigational) 查找用户查询项所描述的网站的主页 • 查找服务的任务(transactional) e.g. 飞机票购买 查找提供在用户查询项中描述的所需服务的网页
2.1.1 网页查询的多种信息源 1.普通的内容文本表示 2.锚文本表示:主体信息除外 内容信息 URL信息 链接信息 1.Root 2.Subroot 3.Path 4.File 有优先级评分 1.pagerank
2.1.2 主题相关任务和主页查找任务 • 使用TREC数据分析不同查询任务的区别 • 内容信息的得分: • 组合三个得分(CMB): • 两种操作:and & sum URL priority pagerank
2.1.3 分析结果 0.730
2.2.0 用户查询分类 • 语言模型 • TREC-2000 topic relevance task queries:QUERYT-TRAIN • Queries for randomly selected 100 homepages:QUERYH-TRAIN • WT10g分为两部分:DBTOPIC和DBHOME • 定义一个查询Q为词的集合:
2.2.1分类中用到的一些概念 • 1.查询项的分布 • 2.互信息 • 3.作为锚文本的使用率 • 4.POS信息(是否含有动词)
2.2.7 分类中用到的一些概念(续) • 多种方法的结合 • 不同的方法覆盖的query不同 • S(Q)足够大时可以确定把query分到哪个类别,否则不对query分类
2.3.1 实验结果(2) 未使用 查询分类 的结果
2.3.2 实验结果(3) 对未指明分类的query所选的默认类别
2.4.0 查询分类探索(2) query 问题: 1.分类不准确 2.性能提高不大 Topic relevance Home Finding Service finding Different strategy for retrieval
2.4.1 查询分类探索(2) • 对查询进行准确的主题分类 query Exact match A Manual list Supervised machine learning Mining query logs Topic-specific Query reformulation Query Routing Accurate topic categorization
2.5.0 framework • 1.精确匹配 • 使用有一些AOL编辑手工分类的流行的网页查询的18个列表 • 提供高精度 • 2.机器学习分类 • 用1中的手工分类查询项作为训练集进行学习 • 感知分类器,召回率很高,准确率稍低 • 3.挖掘用户log • 引入计算语言学的概念:选择性偏好 • 我们从一个很大的未非类的query log集中来挖掘选择性偏好,作为预测方法
2.6.0 实验数据分析(1) • 三种分类方法对于正确分类的query差别很大,所以把三种方法结合起来可以提高效用性
2.6.0 实验数据分析(2) • 结合的方法超过了任何一种单一的方法 • 有很高的召回率,而且准确率也不差 • 结合了对未分类数据的挖掘,可以紧跟变化
2.7.0 用户查询的聚类 • 不同用户有相同的需求,但是给出的查询项不相同 • 相同的查询项,用户访问的URL却不相同
2.7.1 用户查询的聚类 Observation: Users rely on search engine to help them home in an optimal representation of their information need
2.8.0 用户查询聚类探索(1) Clickthrough data:query and URL selected 二分图 Clustering: Clustering URLs Clustering queries
2.8.2 算法复杂度 • 终止条件可以不必那么严格 • 如果有nw个白点和nb个黑点,那么粗略估计复杂度为每个循环O(nw2+nb2) • 但是我们可以定义邻居节点来简化算法,那么设G中任意一个点的最大邻节点数是|N|max,那么第一部分为nw |N|max2 • 而且每次汇聚所需修改项也只是修改一部分相似度值 • 所以最终复杂度为
2.8.3 用查询聚类来增强网页检索 • Baseline:standard Lycos query-suggestions • Full-replacement: replace all suggestions • Hybrid: replace the weakest, skip repeat
2.9.0 用户查询聚类探索(2) Query clustering • Principles: • (1)if users clicked on the same documents for different queries, then these queries are similar • (2)if a set of documents is often selected for the same queries, then the terms in these documents are, to some extent, related to the terms of the queries Construction of a live thesaurus
2.9.1 用户查询聚类探索(2) • 利用用户日志进行查询聚类 • 目标: • 发现FAQ,使用于问答系统 • 如果对某个FAQ没有很好的答案,那么可以手工添加 • 对于某个时间段非常多人问的FAQ,可以手工检查其答案的正确性
2.9.2 主要方法 • 数据模型: • 使用的聚类方法:DBSCAN(R*-tree)时间复杂度O(n*logn) • 1.using query contents: • Keywords or phrases • 2.using document clicks: • 只有1,我们没法把没有相同关键字但意思一致的词聚类,e.g. atomic bomb 和 nuclear weapon • 不是用查询返回的前几个文档,而是用用户点击的文档,这样提高准确性
2.9.3 相似度定义 • 1.similarity based on keywords: • 2.similarity based on string match: • 3.similarity based on cross-references: 查询中的词数 共同点击的文件数 单独点击的文档数
2.9.4 多种相似度的结合 • Combination: • 参数的确定要看目的的不同,要通过一段时间使用不断调整
3.0.0 现存系统 • 按是否有人工参与分: • 个性化分类检索结果:LiveMotif • 自动分类检索结果:vivisimo
3.0.3 现存系统 • 按结果聚类的结构来分: • Single words and flat clustering: SCATTER/GATHER • Sentences and flat clustering: GROUPER • Single words and hierarchical clustering: FIHC、CREDO • Sentences and hierarchical clustering: VIVISIMO、SNAKET
3.0.4 现存系统 • 按聚类基于的元素的类型分: • 基于term的 • 基于link的 • 结合term和link的
3.1.0 检索结果聚类探索(1) • GROUPER • 目标: • Relevance:聚类结果要把和用户查询相关的文档与不相关的文档分开 • Browsable Summaries:要精确描述类别,用户一眼能看出 • Overlap:一个文档可以在多个类别中 • Snippet-tolerance:只用摘要就能很好的聚类 • Speed:聚类速度要快 • Incrementality:只要得到摘要就开始聚,节省时间
3.1 主要方法 • 使用后缀树(STC) • STC把摘要看作是string而不是words • 利用suffix tree有效的辨认文档中共同的phrases • 使用这个信息来进行聚类和提取类别总结