770 likes | 962 Views
信息检索课的目的在于培养学生良好的信息素质即具有信息意识,掌握信息获取的方法,并通过各种检索手段,把获得的信息融合到学习以及所从事的工作中去,使得学生具备终生学习的能力。也就是教学生“知道在哪里找到关于某问题的知识”。. 绪论 1 学习本课程的目的. 信息检索是实施信息素养教育的重要手段 信息检索是创新人才必备的基本技能 节省科技人员收集信息资料的时间 信息检索是知识更新的手段 信息检索是科学研究的重要组成部分 信息检索能够协助管理者做出正确决策. 2 信息检索的意义.
E N D
信息检索课的目的在于培养学生良好的信息素质即具有信息意识,掌握信息获取的方法,并通过各种检索手段,把获得的信息融合到学习以及所从事的工作中去,使得学生具备终生学习的能力。也就是教学生“知道在哪里找到关于某问题的知识”。信息检索课的目的在于培养学生良好的信息素质即具有信息意识,掌握信息获取的方法,并通过各种检索手段,把获得的信息融合到学习以及所从事的工作中去,使得学生具备终生学习的能力。也就是教学生“知道在哪里找到关于某问题的知识”。 绪论1 学习本课程的目的
信息检索是实施信息素养教育的重要手段 信息检索是创新人才必备的基本技能 节省科技人员收集信息资料的时间 信息检索是知识更新的手段 信息检索是科学研究的重要组成部分 信息检索能够协助管理者做出正确决策 2 信息检索的意义
从20世纪中叶进入信息化社会以来,信息日益成为社会发展的决定性力量和主导因素。信息化社会要求社会群体和个体都必须具有高度的信息觉悟、强烈的信息需求和正确的信息价值观等良好的信息素养。信息素质是对人的信息行为能力的整体描述的一项基本素质。从20世纪中叶进入信息化社会以来,信息日益成为社会发展的决定性力量和主导因素。信息化社会要求社会群体和个体都必须具有高度的信息觉悟、强烈的信息需求和正确的信息价值观等良好的信息素养。信息素质是对人的信息行为能力的整体描述的一项基本素质。 3 信息检索与信息素质教育
信息需要; 获取信息; 信息评价; 信息利用; 信息道德; 具有信息素质的五个标准
第一章 科技文献信息概述 第一节 信息、知识、情报、文献 第二节 科技文献的类型
信息的专业定义: • 定义——物质存在的一种方式,一般指数据、消息中所包含的意义。可以使消息中所描述的事件的不定性减少。 • (*注:中国《情报与文献工作词汇基本术语》(GB48944-85)有关信息的定义。
信息的基本特性和属性 • 普遍性与无限性 • 客观性与相对性 • 抽象性与依附性 • 动态性与异步性 • 传递性与共享性 • 价值性与可加工性
与信息相关的概念 • 信息 • 知识 • 文献 • 情报 • 四者之间关系
信息、知识、文献、情报及它们之间的逻辑关系信息、知识、文献、情报及它们之间的逻辑关系 信息 知识 文献 情报
文献的种类 1.按文献的加工层次划分:零次文献、一次文献、二次文献、三次文献等。 2.按文献载体物理类型划分为:印刷型文献、缩徽型文献、电子型文献、声像型文献等。 3.按文献的载体的出版类型划分:图书、期刊、报纸和特种文献(科技报告、会议文献、专利文献、学位论文、标准文献、政府出版物等)。
文献结构示意图 原始文献 (零次、一次文献) 重组、浓缩 文献整理 三次文献 二次文献 书目 题录 索引 文摘 词典 名录 指南 手册 年鉴 述评 论文丛集 百科全书
按文献的出版形式划分 (1)科技图书 (6)科技报告 (2)科技期刊 (7)政府出版物 (3)会议文献 (8)标准文献 (4)专利文献 (9)科技档案 (5)学位论文 (10)产品样本
《中国图书馆分类法》 《中图法》是我国当代具有代表性的图书分类法,是一部大型的综合性的图书分类法。它是根据文献各级类目之间的逻辑关系(如从属关系、并列关系、相关关系、交叉关系等)编排而成的一个逐级展开的排列表。 《中图法》由五大基本部类和22个基本大类、简表、详表、通用复分表组成。 《中图法》的标记符号,采用拉丁字母与阿拉伯数字相结合的混合号码制,拉丁字母用来表示大类,其他各级类目则用阿拉伯数字表示。
连续出版物 定义:采用统一名称,统一开本,定期或不定期出版的连续性出版物,包括报纸、期刊、年刊、年鉴等。其中报纸和期刊是快速传播各类信息、进行学术交流的重要工具。 特点:是科技信息的主要来源,是科学技术成就的正式记录。 能及时反映各学科的发展水平及动向,出版周期短、速度快、量大、内容新颖、固定、核心性强,质量水平不等,相差悬殊。
科技会议文献conference paper 定义:是指在国内外学术会议上发表的论文或报告(通称为proceedings)。由于会议都是有特定的议题,因而会议文献论题集中,内容新颖、专深,文献的针对性强,反映了当前某学科的最新成就和发展趋势,是了解各国科技发展水平和动向的重要文献源。 特点:不仅是提供信息的重要来源,而且是迅速获得最新技术信息的一个重要途径。获得信息直观,反馈迅速。科学技术的新发现、新成果和新见解很多是在学术会议上首先公布。简言之:传递信息及时、针对性强、内容新颖、学术性强。 一部分科研成果就是通过学术会议首次发表的。
专利文献 patent document 定义:是实行专利制度的国家和地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。如专利申请书、专利说明书、专利公告、权利要求书、摘要、附图等一切与专利有关的法律文件。专利说明书是公开的文献,但只能由各国专利局发行,它反映了当前最新的技术成果。专利文献的核心是专利说明书。 根据专利的技术水平和应用情况分为发明专利(invention)、实用新型(utility patent)、和外观设计(design patent)。
科技报告 science & technical report 定义:是指科研过程进展发问的阶段性记录和科研成果的报告。科技报告一般单独成册,有具体的篇名、机构名称和统一的连续编号(报告号)种类有技术报告、札记、论文、备忘录、通报等。 内容具体、专深,有科研项目的研究方案,实验记录,实验数据,图表10等; 科技报告在一定程度上反映了一个国家或某个学科的科研水平,对科研工作能起直接借鉴作用,是不可多得的信息源。目前全球每年约有10万种科技报告产生。其中以美国四大报告著名。科技报告有些是由政府部门再版的,所以科技报告也是的政府报告一种。
学位论文dissertation 学位论文是指高等院校的博士研究生、硕士研究生、本科生毕业时所撰写的学术性研究论文。学位论文(博士论文、硕士论文)是经过审查的原始成果,并有一定的独创性,学位论文探讨的问题专深,论述的系统详尽,,有较高的参考价值。学位论文一般不公开出版,只有部分在期刊上摘要发表,所以较难收集。 定义:著者为获得某种学位而撰写的科学论文
标准文献standard 定义:主要是对工农业产品和工程建设的质量、规格及其检验方法等方面所作的技术规定,是人们在设计、生产和检验过程中共同遵守的技术依据。它是一种规章性文件,具有一定的法律约束力。每件标准都是独立、完整的资料,有统一的编号。技术标准的主要收藏单位是省级以上的技术监督研究所和科技信息情报所。
政府出版物government document 定义:是各国政府部门及其所属机构颁布并由政府专设机构统一出版的文件资料。如政府公报、会议文件和记录、法令汇编等等。 所包括的内容范围广泛,几乎涉及整个知识领域,但重点则在政治、经济、法律、军事等方面。 政府出版物按其性质可分为行政性文献(如法令、统计等)和科技性文献。它具有正式性和权威性的特点。
产品资料 定义:是制造厂商为了推销产品而发出的以介绍产品性能为主的出版物。 主要是对定型产品的性能、构造原理、规格、尺寸、用途、使用方法和操作规程、维修方法等所做的具体说明。产品样本是制造商和销售商出版发行的。产品样本往往配有外观照片,结构图,直观性强、技术成熟、资料具体、数据可靠,甚至看后可以仿制。它既反映了企业的技术水平和生产动态,又促进了新产品、新工艺的推广应用。 检索途径: 1. 各厂家的网站 2. 万方数据库《中国企业与产品数据库》
科技档案 定义:指生产建设、科技部门和企事业单位针对具体的工程或项目形成的技术文件、设计图样、图表、照片、原始记录的原本及复制件。包括任务书、协议书、技术经济指标和审批文件、研究计划、研究方案、试验记录等。它是生产领域、科学实践中用以积累经验、吸收教训和提高质量的重要文献。科技档案具有保密性,常常限定使用范围。 是科学研究和生产过程中的真实记录,包括生产任务书、协议书、技术指标、审批文件、研究计划方案、技术措施以及有关技术调查材料、设计图纸、工艺记录、数据图表等。是从事科研和生产所倚重的参考资料。P10
文献演变示意图 实验室笔记 日 记 通 讯 研究 发展 书目之书目 非正式 交流 备忘录 文献指南 简 讯 百科全书 二次 替代 初步 交流 专 著 快 讯 评 论 知识 综合 发明 保护 专利文献 教科书 手 册 预印本 知识 重组 学术 会议 表 格 会议录 研究 报告 替代 名 录 期刊 论文 科技报告 书 目 词 典 学位论文 文 摘 预印本 论 文 索 引 情报 利用 时间0 三年 一年 二年
长春工业大学 第二章 信息检索原理 2.1 信息检索概述 2.2 信息检索系统与数据库 2.3 文献信息检索语言 2.4 文献信息检索技术 2.5 文献信息检索的方法、途径和具体步骤 2.6 检索效果的分析及评估 2.7 文献检索的基本流程
长春工业大学 2.1 信息检索概述 2.1.1信息检索的概念 2.1.2信息检索的原理 2.1.3信息检索的类型
长春工业大学 2.1.1. 信息检索的概念 信息检索起源于图书馆的参考咨询和文摘索引工作。西汉目录学家刘歆撰写了我国第一部系统目录《七略》。信息检索作为一个学科始于1949年。 1)信息检索 信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,信息检索的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查询(information search)。 信息存储是对信息进行收集、标引、描述和组织,并进行有序化编排,形成信息检索系统的过程; 信息查找是指通过查询机制从各种检索系统中查找出用户所需的特定信息的过程。 信息的存储与检索存在着相辅相成、相互依存的辩证关系。存储是为了检索,没有存储就无法实现检索。 长春工业大学
信息存储过程 检 索 标 识 系 统 原始 文献 信息特 征提取 信息特 征标识 检索系统 标识匹配 检 索 结 果 信息 需求 检索提 问表达 检索提 问标识 信息检索过程 长春工业大学 信息检索原理示意图
2.1.3 信息检索的类型 按照不同的标准,信息检索可以分为不同的类型: 1)按检索对象划分: 长春工业大学
长春工业大学 2)按检索方式划分 (1)手工信息检索(manual retrieval) 手工信息检索指以手工操作的方式,利用印刷型检索工具书进行信息检索。手工信息检索是信息检索的传统方式,已经历了一个多世纪的发展过程。 • 优点是直观、灵活,便于控制检索的准确性; • 缺点是查找过程较复杂,检索速度慢,查找工作量较大。
长春工业大学 3)按检索要求划分 • 强相关检索:特性检索,强调向用户提供高度对口的信息。强调检索的准确性,只要检索的文献能够满足用户的需求即可,对于检索结果的数量多少不做要求。 • 弱相关检索:称族性检索,强调向用户提供系统、完整的信息。这种检索注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。
长春工业大学 4)按检索的时间跨度划分 • 定题检索(Selective Dissemination of Information,SDI):定题检索是根据用户的需要,预先将制订好的检索式存入检索系统中,定期对检索系统中的信息进行查询。系统更新时进行。特点是只检索最新的信息,时间跨度小。便于及时了解有关主题领域的最新发展动态。 • 回溯检索(Retrospective Search,RS):追溯检索,是查找一段时间内有关特定主题信息的检索,并将检索结果一次性提供给用户。特点:每个回溯检索一般只运行一次,可新,可旧。
长春工业大学 5)按检索对象的信息表现形式划分 • 文本检索(text retrieval)是查找含有特定信息的文本文献的检索,结果以文本的形式反映。是传统的方式也是至今占主要地位的方式。 • 多媒体检索(multimedia):是根据需求对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取有关信息的过程。(离散媒体和连续媒体) • 超文本检索(hyper text)将诸多文本信息通过超级链接联系起来而形成的一种非线性的文本结构。(组成元素是结点和结点间的逻辑链接,每个结点中所存储的信息以及信息链接被联系在一起构成相互交叉的信息网络。 • 超媒体检索(hyper media)是对超文本检索的补充。
长春工业大学 2.2 信息检索系统与数据库 信息检索系统是根据一定的社会需要,面向一定的用户群体,为达到特定信息检索需求目的而建立的一种有序化的信息资源集合体。它是一个具有收集、整理、加工、存储和检索信息的设备与方法能为用户提供信息服务的多功能开放系统。
(1)文献检索工具 • 根据文献著录特点、著录款目的内容和揭示文献的深度不同,文献检索工具可以进一步细分为目录、题录、索引和文摘4种检索工具。 长春工业大学
长春工业大学 目录(catalog) • 也称为书目,目录是对一批相关文献外部特征的揭示和报道。多以一个完整的出版单位或收藏单位作为著录的基本单位,是将一批著录款目(item),如图书的书名、著者、版本 、收藏处所等,按照一定的次序编排而成的一种揭示与报道文献的工具。每一条款目记录着一种文献的内容特征和外部形态特征,供用户识别和选择文献。从已知的某种文献线索入手,查找到所需相关文献的款目及文献的获取线索。 • 目录一般按分类或字顺编排,主要供人们了解出版或收藏机构是否拥有所需图书、期刊等出版物。 • 目录型检索工具又常划分为出版目录、馆藏目录和联合目录。
长春工业大学 题录(title) • 是在目录的基础上发展起来的一种检索工具。题录和目录的主要区别在于著录的对象不同。它报道和揭示单篇文献的外部特征,目录的著录对象是单位出版物,而题录的著录对象是单篇文献。它由一组著录项目构成一条文献记录。实质上它是一种不含文献正文的文摘款目,在揭示文献内容的深度方面,比目录做得深入些,但又比文摘款目浅。特点是报道速度快,覆盖面较大,多用于查找最新文献。常作为文摘性检索工具的先导和补充。可独立使用,附有索引。 • 目前,题目型检索工具主要以篇为单位揭示期刊、报纸、会议录中包含的论文,著录项目包括题名、作者、出处等。我国出版的《全国报刊索引》就是一种按类编排的题录型检索工具。
长春工业大学 索引(index) 也称辅助索引,是按某种可查顺序排列的,将某一信息集合中相关的信息系统地指引给读者的一种检索工具。索引的功能主要是用来检索,通常从属于某种出版物或文档,自身独立性差。 与目录型相比索引型检索工具可用来报道和检索各类文献的的内容单元。 与题录型相比,主要揭示对象是文献单元的某一特征信息对文献内容的揭示程度上要专、深、具体,所提供的检索途径也比较详尽、完善、系统。
长春工业大学 文摘( abstracts) • 以简练的文字将文献的主要内容准确、扼要地摘录下来,按一定的著录规则与排列方式系统地编排起来的检索工具,通常不包括对原文的补充、解释和评论。 • 是系统著录、报道、积累和揭示文献外部特征和内容特征的检索工具,是二次文献的核心。它是对一篇文献的内容所做的简略、准确的描述,文摘的著录项目除了著者、篇名及出处等外,还有表示文献内容特征的摘要。文摘的主要作用是供快速而准确的阅读和检索,对查全率和查准率要求较高。因此文摘的编撰远比目录、题录来得艰巨、复杂,但所含的信息量远高于目录和题录。
数据库构成 文档 • 从使用者观点观察, 数据库主要由“文档——记录——字段”三个层次构成。 记录 字段 长春工业大学
长春工业大学 数据库的分类
长春工业大学 文献信息检索语言 • 信息检索语言(information retrieval language)又称为标引语言、索引语言等,是应文献信息的加工、存储和检索的共同需要而发展起来的专门语言,是用于描述信息系统中信息的内容、外部特征及其相互关系和表达信息用户需求提问的概念标识体系。
长春工业大学 按照结构原理检索语言分类如下
长春工业大学 1)分类语言(classification language) • 分类语言是用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科体系的逻辑次序将信息资源系统地加以划分和组织的语言。分类语言能反映事物的从属派生关系,便于按学科门类进行族性检索。 • 分类语言的使用和规范工具是分类表,它是由众多类目按照一定的知识分类和概念逻辑次序,并考虑分类不同信息资源的特定需要而构成的体系。分类法如下图所示。
长春工业大学 • 《中图法》 基本部类
长春工业大学 2)主题语言(subject language) • 主题语言又称主题法,是直接运用名词性术语作为表达主题概念的标识,并按字母顺序排列标识和参照系统等方法来间接表达各种概念之间的相互关系的检索语言。
长春工业大学 3)代码语言 • 代码语言是用某种符号代码系统来标引信息特征、排列组织和检索信息的语言。常用的符号代码有元素符号、化合物分子式、专利号、标准号、报告号、合同号等。 • 这些符号代码在相应的专业领域内有显著的检索价值。人们往往用它们作为标引和检索的标识,编制出不同的专用索引。这些索引常常附在与之关系密切的检索工具中,给特定专业的行家提供一条简洁的检索途径。
长春工业大学 2.4 文献信息检索技术
长春工业大学 2.4.1 布尔逻辑检索 • 布尔逻辑检索是一种开发早、比较成熟、在信息检索系统中广泛应用的技术。它是采用布尔代数中的布尔关系运算符来表达检索词与检索词之间的逻辑关系的检索方法。 • 布尔逻辑运算符主要有三种: • 逻辑与(and *)、逻辑或(or +)、逻辑非(not —) 。 三个逻辑运算符中,NOT运算优先级最高,AND次之,OR最低
长春工业大学 2.4.2 截词检索 • 截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。 • 凡满足这个词局部中的所有字符的文献,都为命中文献。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。