第 1 章搜索引擎概述

第1章搜索引擎概述

主要内容 • 1.1 搜索引擎的概念 • 1.2 搜索引擎的发展史 • 1.3 搜索引擎的分类 • 1.4 搜索引擎的信息检索模型 • 1.5 建立搜索引擎的关键技术 • 1.6中文搜索引擎的发展趋势

1.1 搜索引擎的概念

基本知识 • 搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。 • 真正意义上的搜索引擎，通常指的是收集了Internet上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。 • 当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

搜索引擎的原理 • 可以分为四步：从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序、对搜索结果进行处理和排序。 • ①从互联网上抓取网页 • 利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

搜索引擎的原理 • ②建立索引数据库 • 由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

搜索引擎的原理 • ③在索引数据库中搜索排序 • 当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的原理 • ④对搜索结果进行处理排序 • 所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

1.2搜索引擎的发展史

1994年初，Washington大学的学生 Brian Pinkerton 开始了他的小项目 WebCrawler （ Brian Pinkerton Announces the Availability of WebCrawler ）。 • 1994年1月，第一个既可搜索又可浏览的分类目录EINet Galaxy（Tradewave Galaxy）上线。除了网站搜索，它还支持Gopher和Telnet搜索。

1994年4月，Stanford University的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo！。 • 1994年7月20日，数据量为54000的Lycos正式发布。除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要。

Infoseek（Steve Kirsch Announces Free Demos Of the Infoseek Search Engine）是另一个重要的搜索引擎。Infoseek沿袭Yahoo!和Lycos的概念，它具有友善的用户界面和大量的附加服务，而使它成为一个强势搜索引擎。 • 1995年，第一个元搜索引擎出现。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

1995年12月DEC的 AltaVista登场亮相，大量的创新功能使它迅速到达当时搜索引擎的顶峰。AltaVista是第一个支持自然语言搜索的搜索引擎，AltaVista是第一个实现高级搜索语法的搜索引擎。 • 1995年9月26日，加州伯克利分校CS助教Eric Brewer 、博士生Paul Gauthier创立了Inktomi。

1998年10月之前，Google只是Stanford大学的一个小项目BackRub。1995年博士生 Larry Page开始学习搜索引擎设计，于1997年9月15日注册了google.com的域名，1997年底，在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下，BachRub开始提供 Demo。1999年2月，Google完成了从Alpha版到Beta版的蜕变。

1999年5月，挪威科技大学的Fast公司发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎，Fast（Alltheweb）的网页搜索可利用ODP 自动分类，支持Flash和pdf搜索，支持多语言搜索

北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果，由北大计算机系网络与分布式系统研究室开发，于1997年10月29日正式在CERNet上提供服务。 • 2000年1月，前Infoseek资深工程师李彦宏与好友徐勇在北京中关村创立了百度（Baidu）公司。2001年8月发布Baidu.com搜索引擎Beta版，2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索。

1.3 搜索引擎的分类

搜索引擎按其工作方式主要可分为3种： 全文搜索引擎（Full Text Search Engine）目录索引类搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。

全文搜索引擎 通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。

目录索引搜索引擎 目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词（Keywords）查询，仅靠分类目录也可找到需要的信息。与全文搜索引擎的区别在于它是由人工建立的，通过“人工方式”将站点进行了分类，不像全文搜索引擎那样，将网站上的所有文章和信息都收录进去，而是首先将该网站划分到某个分类下，再记录一些摘要信息。

元搜索引擎 元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的有北斗搜索。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。

1.4 搜索引擎的信息检索模型

布尔逻辑模型 • 布尔型信息检索是最简单的信息检索模型，用户利用布尔逻辑关系构造查询并提交，搜索引擎根据事先建立的倒排文件确定查询结果。 • 标准布尔逻辑模型为二元逻辑，并可用逻辑符“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高，查准率低。 • 目前大多搜索引擎均使用布尔逻辑检索模型，查询结果一般不进行相关性排序。

模糊逻辑模型 • 这种模型在查询结果处理中加入模糊逻辑运算，将检索的数据库文档信息与用户的查询要求进行模糊逻辑比较，按照相关的优先次序排列查询结果。 • 模糊逻辑模型可以克服布尔型信息检索模型在查询中其结果具有无序性的问题。例如，查询“搜索引擎”，则出现关键词“搜索引擎”多的文档将排列在较前的位置上。

向量空间模型 • 向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。 • 向量空间模型可方便地产生有效的查询结果，能提供相关文档的文摘，并对查询结果进行分类，为用户提供准确的信息。

概率模型 • 基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法，获取匹配函数，这是一种较复杂的检索模型。

1.5 建立搜索引擎的关键技术

信息收集和存储技术 • 信息收集和存储一般分为人工和自动两种方式。 • 人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调查、筛选、分类、存储。由专业人员手工建立关键字索引，再将索引信息存入计算机相应的数据库中。 • 自动方式通常是由网络机器人来完成的。“网络机器人”是一种自动运行的软件，其功能是搜索因特网上的网站或网页。

信息预处理技术 信息预处理包括信息格式支持与转换以及信息过滤。目前，因特网上的信息发布格式多种多样，这就要求搜索引擎支持多种文件格式。从实际情况看，所有的搜索引擎都支持HTML格式，而对于其他文件格式的支持则不同的搜索引擎有不同的规定，最多的能支持200多种文件格式。

信息索引技术 • 信息索引就是创建文档信息的特征记录，以使用户能够快速地检索到所需信息。建立索引主要涉及到几个以下问题： • ① 信息语词切分和语词词法分析 • ② 进行词性标注及相关的自然语言处理 • ③ 建立检索项索引 • ④ 检索结果处理技术

1.6 中文搜索引擎的发展趋势

中文搜索引擎的发展趋势 • 1．支持目录式分类结构和全文检索 • 2．检索方法多样、查找手段完备 • 3．不仅提供受控语言检索，还支持自然语言检索 • 4．提供自动换库检索 • 5．提供多媒体检索功能 • 6．自动识别多种汉字编码 • 7．能够区分搜索结果的相关性 • 8．增加服务功能，提供全方位的信息服务

1.7 主要搜索引擎介绍

谷歌（Google）搜索 • 1．Google的功能与特点 • （1）界面简洁 • （2）资源丰富、内容广泛 • （3）相关性高 • （4）技术先进、搜索结果精确、排序公正 • （5）搜索快速 • （6）使用方便 • （7）功能齐全

谷歌（Google）搜索 • 2．Google的检索方式 • （1）简单搜索 • （2）高级搜索 • （3）查询结果

谷歌（Google）搜索 • 3．Google的不足 • （1）其数据的更新速度无法进一步提高 • （2）无法搜索动态生成的网页 • （3）中文状态下的Google没有成人内容过滤功能 • （4）目前对中国的用户还不支持“OR”和“＊”等符号的使用

雅虎（Yahoo!）搜索 • Yahoo！的特点： • （1）界面简洁。雅虎的网站简介相当简练、严格，一般用很少的文字做客观描述，没有主观评论和类似于广告的夸张语言。网站界面友好，并且很人性化。 • （2）分类目录准确、合理。中文 Yahoo！提供了一份规范、科学、层次丰富的中文网站分类目录，并且是通过一大批工程师手工编制的，使得在归类方面较其他网站更为准确、合理。

雅虎（Yahoo!）搜索 • （3）数据量大，内容丰富。 • （4）反应速度快、查准率高。由于分类是通过计算机专家手工完成的，因此所收录的网页经过筛选和系统组织，质量较高，条理性较强，检索结果接近用户的信息需求。 • （5）功能齐全。Yahoo！提供了不同的查询功能。用户可以单击“目录”按钮，进入按目录查询的方式，在输入关键词后，单击“搜索”按钮，即刻就会得到全部相关网站的目录。

百度（baidu）搜索 • 1．核心技术：超链分析 • 超链分析技术，是新一代搜索引擎的关键技术，已为世界各大搜索引擎普遍采用。在学术界，一篇论文被引用得越多就说明其越好，学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量，这保证了用户在百度搜索时，越受用户欢迎的内容排名越靠前。

百度（baidu）搜索 • 2．搜索速度更大、更新、更快 • 百度在中文互联网中，支持搜索8亿中文网页，是世界上最大的中文搜索引擎。 • 3．为中文用户度身定做 • 关键词自动提示：用户输入拼音，就能获得中文关键词正确提示。 • 中文搜索自动纠错；如果用户误输入错别字，可以自动给出正确关键词提示。 • 百度快照

百度（baidu）搜索

天网搜索 • “天网资源检索系统”（即天网搜索）是中国教育和科研计算机网示范工程应用系统课题之一，是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果，由北京大学计算机系网络研究室设计开发，并于1997年10月29日正式在中国教育和科研网（CERnet）向广大Internet用户提供Web信息导航服务。

天网搜索 • 主要功能与特点 • （1）界面简洁 • （2）资源丰富，信息量大 • （3）检索质量高 • （4）响应速度快 • （5）相关性强，查准率高 • （6）使用方便

第 1 章 搜索引擎概述