网页检索质量的提高－－ user space mining & search result organization

网页检索质量的提高－－user space mining & search result organization 计算所软件室郭嘉丰

0.0 网页检索vs信息检索 • 网页检索技术源自于信息检索技术 • 基本的索引技术、搜索技术 • 不少搜索引擎使用越来越广泛 • 网页检索与传统的文本检索有很多不同之处 • 如何进一步提高网页检索的质量？

0.1 用户空间挖掘和检索结果组织 • 提纲 • 研究背景 • 用户空间挖掘的探索（query classification/clustering） • 检索结果组织的探索（search result clustering） • 结论

研究背景

1.0 研究背景 • 当前的网页检索技术源自于传统信息检索技术 • 传统信息检索技术概述：用户查询空间文本空间 Document Query Similarity

1.1.0 网页检索vs传统信息检索 • 新的信息源 • Document -> page , blog 2 • 新的媒介类型 • Text -> image, video , speech 1 不同之处 • 新的应用 • Crawler, email spam filter , MP3 search 3 4 • 新的组织结构 • Plain text file -> hypertext , P2P

1.1.1网页检索vs传统信息检索 • 传统信息检索 • 用户查询：7～15 terms • 返回结果：按相关性排序的结果 • 网页检索 • 用户查询：中文：3.55 character/query 英文：2.35 words/query • 用户一般只浏览第一个结果页面网页检索中查询很短用户一般并没有耐心浏览大量的返回结果

1.1.2 每个查询的标引项

1.1.3 每个用户查看的页面数

1.1.4 当前网页检索的不足之处 以一敌百－－“One size fits all” 1 用户空间挖掘仅仅依赖于很短的查询项 2 查询结果组织查询不具有个性化 3 查询结果不方便用户浏览 4

用户空间挖掘

2.0.0 经验 • 不同用户有不同的信息需求 • 同一个用户不同时期的信息需求也不同 • 查询的侧重点不同 • 查询词有多重意思 Home site Java link Britney’s Fan Club Query classification Program language content Island Yahoo web page

2.0.1 经验 • 不同的用户有相同的信息需求，但是查询项却不相同（潜在相关） • 用户的查询常常需要辅助 • 对一些不良查询项应该有所控制 Query clustering 手提电脑笔记本

2.1.0 查询分类探索（1） e.g. 娱乐新闻 • 主题相关的任务(informational) 传统的检索任务，网页文档匹配用户提供的信息需求并按相似度降序排列 e.g. 中科院计算所 • 查找主页的任务(navigational) 查找用户查询项所描述的网站的主页 • 查找服务的任务(transactional) e.g. 飞机票购买查找提供在用户查询项中描述的所需服务的网页

2.1.1 网页查询的多种信息源 1.普通的内容文本表示 2.锚文本表示：主体信息除外内容信息 URL信息链接信息 1.Root 2.Subroot 3.Path 4.File 有优先级评分 1.pagerank

2.1.2 主题相关任务和主页查找任务 • 使用TREC数据分析不同查询任务的区别 • 内容信息的得分： • 组合三个得分（CMB）： • 两种操作：and & sum URL priority pagerank

2.1.3 分析结果 0.730

2.2.0 用户查询分类 • 语言模型 • TREC－2000 topic relevance task queries:QUERYT-TRAIN • Queries for randomly selected 100 homepages:QUERYH-TRAIN • WT10g分为两部分：DBTOPIC和DBHOME • 定义一个查询Q为词的集合：

2.2.1分类中用到的一些概念 • 1.查询项的分布 • 2.互信息 • 3.作为锚文本的使用率 • 4.POS信息(是否含有动词)

2.2.7 分类中用到的一些概念（续） • 多种方法的结合 • 不同的方法覆盖的query不同 • S(Q)足够大时可以确定把query分到哪个类别，否则不对query分类

2.3.0 实验结果（1）

2.3.1 实验结果（2） 未使用查询分类的结果

2.3.2 实验结果（3） 对未指明分类的query所选的默认类别

2.4.0 查询分类探索（2） query 问题: 1.分类不准确 2.性能提高不大 Topic relevance Home Finding Service finding Different strategy for retrieval

2.4.1 查询分类探索（2） • 对查询进行准确的主题分类 query Exact match A Manual list Supervised machine learning Mining query logs Topic-specific Query reformulation Query Routing Accurate topic categorization

2.5.0 framework • 1.精确匹配 • 使用有一些AOL编辑手工分类的流行的网页查询的18个列表 • 提供高精度 • 2.机器学习分类 • 用1中的手工分类查询项作为训练集进行学习 • 感知分类器，召回率很高，准确率稍低 • 3.挖掘用户log • 引入计算语言学的概念：选择性偏好 • 我们从一个很大的未非类的query log集中来挖掘选择性偏好，作为预测方法

2.6.0 实验数据分析（1） • 三种分类方法对于正确分类的query差别很大，所以把三种方法结合起来可以提高效用性

2.6.0 实验数据分析（2） • 结合的方法超过了任何一种单一的方法 • 有很高的召回率，而且准确率也不差 • 结合了对未分类数据的挖掘，可以紧跟变化

2.7.0 用户查询的聚类 • 不同用户有相同的需求，但是给出的查询项不相同 • 相同的查询项，用户访问的URL却不相同

2.7.1 用户查询的聚类 Observation: Users rely on search engine to help them home in an optimal representation of their information need

2.8.0 用户查询聚类探索（1） Clickthrough data：query and URL selected 二分图 Clustering： Clustering URLs Clustering queries

2.8.1 算法演示

2.8.2 算法复杂度 • 终止条件可以不必那么严格 • 如果有nw个白点和nb个黑点，那么粗略估计复杂度为每个循环O(nw2+nb2) • 但是我们可以定义邻居节点来简化算法，那么设G中任意一个点的最大邻节点数是|N|max，那么第一部分为nw |N|max2 • 而且每次汇聚所需修改项也只是修改一部分相似度值 • 所以最终复杂度为

2.8.3 用查询聚类来增强网页检索 • Baseline：standard Lycos query-suggestions • Full-replacement: replace all suggestions • Hybrid: replace the weakest, skip repeat

2.9.0 用户查询聚类探索（2） Query clustering • Principles: • (1)if users clicked on the same documents for different queries, then these queries are similar • (2)if a set of documents is often selected for the same queries, then the terms in these documents are, to some extent, related to the terms of the queries Construction of a live thesaurus

2.9.1 用户查询聚类探索（2） • 利用用户日志进行查询聚类 • 目标： • 发现FAQ，使用于问答系统 • 如果对某个FAQ没有很好的答案，那么可以手工添加 • 对于某个时间段非常多人问的FAQ，可以手工检查其答案的正确性

2.9.2 主要方法 • 数据模型： • 使用的聚类方法：DBSCAN（R*-tree）时间复杂度O(n*logn) • 1.using query contents: • Keywords or phrases • 2.using document clicks: • 只有1，我们没法把没有相同关键字但意思一致的词聚类，e.g. atomic bomb 和 nuclear weapon • 不是用查询返回的前几个文档，而是用用户点击的文档，这样提高准确性

2.9.3 相似度定义 • 1.similarity based on keywords： • 2.similarity based on string match: • 3.similarity based on cross-references: 查询中的词数共同点击的文件数单独点击的文档数

2.9.4 多种相似度的结合 • Combination： • 参数的确定要看目的的不同，要通过一段时间使用不断调整

2.9.5 工作流程图

2.9.6 评价

检索结果组织

3.0.0 现存系统 • 按是否有人工参与分： • 个性化分类检索结果：LiveMotif • 自动分类检索结果：vivisimo

3.0.1 vivisimo

3.0.2 LiveMotif

3.0.3 现存系统 • 按结果聚类的结构来分： • Single words and flat clustering: SCATTER/GATHER • Sentences and flat clustering: GROUPER • Single words and hierarchical clustering: FIHC、CREDO • Sentences and hierarchical clustering: VIVISIMO、SNAKET

3.0.4 现存系统 • 按聚类基于的元素的类型分： • 基于term的 • 基于link的 • 结合term和link的

3.1.0 检索结果聚类探索（1） • GROUPER • 目标： • Relevance：聚类结果要把和用户查询相关的文档与不相关的文档分开 • Browsable Summaries：要精确描述类别，用户一眼能看出 • Overlap：一个文档可以在多个类别中 • Snippet-tolerance：只用摘要就能很好的聚类 • Speed：聚类速度要快 • Incrementality：只要得到摘要就开始聚，节省时间

3.1 主要方法 • 使用后缀树（STC） • STC把摘要看作是string而不是words • 利用suffix tree有效的辨认文档中共同的phrases • 使用这个信息来进行聚类和提取类别总结

网页检索质量的提高－－ user space mining & search result organization