版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索原理与技术第1章 信息检索概论(1) 一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。(2) 二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。(3) 三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。(4) 文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。(5) 构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。(6) 文献的特征:知识性(
2、文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着)(7) 信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改
3、变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。(8) 文献信息流有序化阶段的三个环节:替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体
4、系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。 文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。(9) 信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索
5、的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。(10) 信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。(11) 信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。(12) 信息检索的一般原理:P7(13) 检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)(1
6、4) 检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。(15) 检索系统的功能:报道功能、存储功能、检索功能。(16) 信息检索理论:标引理论、检索模型、检索结果的可视化。(17) 现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。第2章 信息检索模型(1) 最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求
7、,能够很方便快捷地组建信息检索模型。(2) 信息检索模型的类型:P18(3) 布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。(4) 布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)(5) 布尔运算的运算次序:P24(6) 传统布尔检索模型的优缺点: 优点:1)逻辑运算符较少,便于用户学习。2)模式较易构造,可以通过简单的关系来体现检索项的联系。 3)可以将复杂的检索过程以简单的检索式表达出来。4)检索提问式较灵活,方便修改。 缺点:1)布尔检索中的关键词没有权重区别。2)检索结果分输出没有重要性是排序。3)查全
8、率很难控制。 4)布尔检索要求用户具有很高的素质和语义提取能力。(7) 向量空间模型:一种基于统计学方法的数学模型。(8) 向量空间模型的工作原理:P27(9) 向量空间模型的优缺点优点:1)采用自动标引技术与文献提供标引词。2) 采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。3) 改变了布尔检索只有两种情况0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。4) 由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。5) 检索结果可以按照与提
9、问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。6) 布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。7) 向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。缺点:1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。2) 由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。3) 由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。4) 有很多是假定的,在实际工作中有时会不能解决。(10) 扩展布尔检索模型:P31(11) 扩展布尔检索模型的工作原理:P32(12) 扩展布尔检索模型
10、的优缺点:优点:拥有矢量处理的思想,体现了加权的特点;继续保留布尔检索的直观的操作符,具有很强的描述能力;对于输出结果可以很好的控制和排序;通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;与传统倒排文档一致,更易接受。缺点:扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。(13) 概率模型:一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。(14) 贝叶斯定理:P37(15) 概率模型的优缺点:
11、优点:文档可以按照他们相关概率递减的顺序来计算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。缺点:索引词权值计算方法没有考虑到词频加权因素。沿用了索引词之间相互独立的基本假设。开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。(16) 概率模型在处理实际问题时的困难:初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。(17) 古典逻辑模型的特点:1)逻辑模型不是一个经典模型。2)逻辑检索要借助外部信息进行评价。3)逻辑检索对关键词的语境更加重视。4)对信息的联想法控制。5)逻辑检索具有不确定性。6)对多词一义的把握。7)适应
12、信息的不完全性。(18) 逻辑模型的优点:逻辑理论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、(19) 逻辑模型的缺点:在逻辑模型中,信息的重要程度这一特征并不
13、能很成功地被表达出来。基于实质蕴涵的情报检索古典逻辑模型自然也并不能完全表达出文献d与信息需求q之间的真实联系。它关注的仅是前后件之间在真假方面的逻辑关系,而并不关心前件和后件中所涉及的信息延展性问题。由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。(20) 限词检索模型:通过限制检索范围,达到优化检索结果的方法。(21) 字段检索:把检索词限定在某个或某些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。第3章 自动索引和文档组织1、索引:著录书刊中的题名、语词、主题、人名、地名、事件及其他
14、事物名称,并把它们按照一定的方式编排起来,指明出处是一种检索工具。2、索引的发展历程:人工索引阶段、机辅索引阶段、自动索引阶段3、索引的功能:检索功能、分解功能、梳理功能、聚类功能、追踪功能、导航功能、预测功能4、常见索引的类型:主题索引、著者索引、名称索引、地名索引、题名索引、数字或代码索引、分类索引5、索引的过程:为了方便查询而对信息指定索引款目的过程。包括信息采集、信息标引、建立索引。6、索引建立的步骤:选题,建立主索引文件;对主索引关键词进行抽词倒排,建立目标格式文件;排序与归并。7、信息标引分为受控标引和自然语言标引。受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标
15、引和主题标引;自然语言标引是指采用自然语言语词作为标识来表达主题概念的标引方式。8、分类标引:依据一定的分类语言,对信息资源的内容特征进行分析、判断和选择,赋予分类标识的过程。9、分类标引的要求:准确性、充分性、一致性、适用性。10、分类标引规则:基本标引规则、一般标引规则、特殊标引规则。11、主题标引:对信息内容进行主题分析、确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。12、标引方式:根据文献或信息特点和使用需要确定的标引和揭示主题的形成。包括整体标引、全面标引、对口标引、综合标引和分析标引等。13、标引方法:标题法、元词法、叙词法。14、标引规则:(1)选
16、用标引词的基本规则:正式词标引规则;相对专指标引规则;标引方案优先顺序规则;适度标引规则;一致标引规则(2)叙词组配标引的基本规则:叙词组配必须是概念组配;组配结果要求所表达的概念清楚;叙词组配中要注意次序。15、自然语言标引:是一种采用自然语言作为标识表达主题概念的标引方式。16、汉语语词的切分方法:词典分词法、切分标记的分词法、基于语法语义理解的分词方法、基于神经网络的分词方法。17、自动标引:指利用计算机从各种文献信息中自动提取有关标识的过程。18、层次聚类法:依据一种事先决定的相似性或非相似性度量和类间距离,经过计算建立聚类图,在根据聚类图决定分类结果。19、文献自动分类:指首先分析被
17、分类对象中的特征,将其与各种类别中对象所具有的共同特征或一定的分类标准、分类参数进行比较,然后将被分类对象划归为特征最相近的一类,并赋予相应的分类好的过程。20、自动分类的基本流程:文本的预处理、文本特征的选取、分类模型的构建等。21、决策树:P8222、顺排文档(主文档):按照某一属性(字段)的字符顺序存入了数据库的全部记录。23、顺排文档的检索:将用户检索表达式与顺排文档中的文献记录依次比较,就可以判断是否有匹配的文献记录。检索可以使顺序检索,也可以使分块检索和折半检索。24、顺排文档组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护。但在查询的时候需要对所有的文档进行扫描以确保
18、没有遗漏,这样就使得检索时间大大延长,检索效率低下。25、倒排文档:将主文档中的可检字段(如主题词、著者)抽出,按某种顺序重新排列起来所形成的一种索引文档。26、倒排文档的建立:索引词选择;对抽出的内容进行排序,便于归并相同内容;对相同内容进行归并,把合并后的内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。27、倒排文档的更新:P86第4章 词汇控制1、词汇控制:通过对词形、词义和词间关系等的控制,达到信息源语言、标引语言和检索语言三者之间的有效沟通,从而实现信息的有效组织以及用户对信息的有效检索和利用。2、词汇控制的原则:正确性、单义性、简
19、明性、兼容性、系统性、稳定性、族性3、词汇控制的内容:(1) 词量控制:对词表所收词汇的数量的控制。(2) 词量控制的方法:词汇组配、词汇替代、语义分解法、词汇合理选择(3) 词类控制:对词表所收词汇的种类的控制。(4) 词类控制的方法:确定选词范围、设置停用词表(5) 词形控制:根据主题标引和检索的需要对字面形式不同,但含义相同的词汇加以控制使一个主题概念只具有一个语词形式。(6) 词形控制的方法:控制语词形体、控制外来语和数字的用法、控制外文的词形、控制词序、控制语词长度。(7) 词义控制:对多义词或同形异义词加以控制,使其意义明确,含义单一。(8) 词义控制的方法:加限义词、加注释、加定
20、义(9) 词间关系控制:对语词之间的等同关系、属分关系和相关关系等加以控制,以形成一个便于揭示词间关系的语义网络。(10) 先组度控制:对语词先组程度的控制。(11) 句法关系控制:按照事先确定的句法关系,把若干词汇组合起来表示某一特定的论题,以避免产生语义含混的现象。(12) 句法控制的方法:P944、词汇控制工具包括分类词表、主题词表、分类主题一体化词表。(1) 分类词表:杜威十进分类法、国际十进分类法、冒号分类法、中国图书馆分类法(2) 主题词表:医学标题表、汉语主题词表(3) 分类主题一体化词表:是指分类系统与主题系统实现完全兼容,既能充分发挥各自特有的功能,又能互相配合,发挥最佳的整
21、体效应。5、词表评价体系:P115/6、受控词表的使用:P119第5章 自动文摘技术(1)文摘:用浓缩、简明的短文,描述信息载体的主要内容和原始数据,向使用者报道、传递最新信息和信息查询线索的一种工具。(2)自动文献:利用计算机自动地从原始文献中提取文摘。按照文本分析方法的不同,自动文摘分为基于统计分自动文摘、基于理解的自动文摘、基于结构的自动文摘、基于模板的自动文摘。(3)自动文摘的处理过程:第一步是文本分析,这个阶段是自动文献的基础,主要是寻找最能代表原文内容的成分;第二步是转化过程,通过摘录或概括的方法压缩原文;第三步是重组原文内容,生成文摘。(4)基于统计的自动文摘(摘录型文摘):根据
22、统计学的方法将权重高的句子作为文摘句。不足:摘要内容不完整;摘要内容不简洁;语句不连贯。(5)基于统计的自动文摘一般步骤:待摘文本信息录入;词频信息统计;计算句子权重;选取候选句子;加工生成摘要。(6)基于理解的自动文摘:建立在人工智能、自然语言处理的基础上的,它利用语言学知识对文字进行复杂的语法分析,语义分析和语用分析,获取语言结构,还利用相关学科领域知识进行分析、推理和判断,最后生成文摘。优点:简洁精炼、全面准确、可读性强。不足:语料范围限制;框架的拟定。P136(7)基于理解的自动文摘步骤:待摘文本信息录入;文本分析(语法分析、语义分析、运用分析和信息提取);文摘初稿形成。(8)基于结构
23、的自动文摘;:将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句子即可侯成摘要。(9)基于结构的自动文摘不足:P140(10)自动文献的评价P140(11)自动文献技术的研究进展P147第6章 用户接口(1)用户接口,全称是系统-用户接口,又称用户界面、人机界面或人机接口,是指用户使用计算机系统的综合操作环境,它是由人、计算机硬件和软件三者结合而成,承担用户与系统之间的交流功能,是两者之间实现通信不可缺少的模块。(2)用户接口模块流程:识别用户;接收提问;提问校验;转化问题;检索;输出结果。(3)用户接口的特征:支持多种类型的用户;支持多种用户认证方式;支持灵活的机构管理;支持灵活的
24、用户授权管理;支持灵活的用户信息管理;支持对收费用户的计费。(4)用户接口的功能:自动登录功能;访问多个数据库的功能;数据库选择功能;帮助功能;检索式构造功能;查询功扩展;相关反馈功能;下载和上载功能;用户视图定义功能;后处理功能;自然语言处理功能。(5)用户接口的组成:面向用户部分(负责直接与用户交互,也称外部界面)、面向系统部分(负责与系统内部各部分交互,也称内部界面)、转换部分(负责内部界面与外部界面之间的信息转换)(6)用户接口的主要形式:命令语言形式、菜单选择方式、表格填充方式、直接操纵方式、自然语言的人机对话方式(7)用户接口设计的原则:易用性、一致性、易学性、宽容性、有效性、美观
25、性、针对性(8)用户接口设计的内容:用户接口需求分析;用户接口使用的便利性;用户向系统提问的查询方式;查询中的交互性;用户查询接口的简易型和检索能力的矛盾;多媒体查询接口的特殊性。第7章 信息检索系统的评价(1) 信息检索的相关性:检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。(2) 相关性的本质特征:关系;直觉的;多维的;动态的。(3) 相关性判断:指信息检索中判断者在某一时刻对某种相关性的一种赋值操作。(4) 相关性判断标准:二元的判断标准、多元的判断标准、多维的判断标准。(5) 相关性的影响因素:信息源、信息需求的表示、时间与环境、用户判断者的特性。(6)
26、 信息需求的表示的四个层次:真正的信息需求、感觉到的信息需求、查询请求、查询表达。(7) 信息检索系统评价的步骤:确定系统评价对象及目的;选择系统评价方式;制定系统评价方案;实施系统评价方案;评价结果生成评价。(8) 检索试验评价法的实施过程:抽样;测试;评价数据的收集和记录;数据处理与分析。(9) 查全率:衡量系统在实现某一检索作业时检出相关文献能力的一种测量指标。(10) 查准率:衡量系统在实施某一检索作业时检索精确度的一种测度指标。(11) 影响查全率与查准率的因素:相对值的的影响;检索方式的影响;时限的影响;检索过程中的影响因素。(12) 涵盖率:用户已知的相关文档集合中被检索出的相关
27、文档所占比率。(13) 新颖率:用户检索出的相关文档集合与以前未知的相关文档所占比率。(14) 相对查全率:检索系统检出的相关文档数量和用户期望得到的相关文档数量的比率。(15) 查全效果:用户期望得到的相关文档数量与为了得到这些相关文档而在检索结果中审查文档数量的比率。(16) 搜索引擎的性能评价指标:P203(17) 信息检索系统评价试验:P206第8章 联机信息检索1、 联机信息检索:指用户利用检索终端,使用一些特定的指令和检索语词,提供通信网络与存储大量信息的检索系统联机,以人机对话方式从检索系统的数据库中查找所需的特定信息的过程。2、 联机检索与其他计算机信息系统相比的特点:信息质量
28、好;检索效率高;多、快、全的检索功能;检索功能强大;检索结果输出方式灵活多样;检索内容新、实时性强。3、 联机信息检索系统的构成:检索终端、通信网络、联机信息检索中心。P2264、 联机信息检索系统的服务范围:回溯检索;定题服务;联机订购原始文献;传递电子邮件。5、 DIALOG系统具有的显著优势:信息量大;数据库的质量比较高;检索迅速方便;具有较强的回溯检索功能。6、 DIALOG检索实例:P2427、 联机信息检索系统的新发展:联入Internet、推出光盘产品、调整收费制度、利用网改进用户界面。8、 未来的信息检索系统应具有的特征:系统模式客户机/服务器化;完善的网络通信平台;智能化人机
29、接口;具有多媒体采集、存储、加工、检索、传递能力;具有较强的网络互联能力;提供多种信息服务功能。第9章 因特网信息检索1、 因特网信息资源:以数字化形式记录的,以多种媒体形式表达的,分布式存储在因特网不同主机上的,并通话计算机网络通信方式进行传递的信息资源的集合,是从计算机技术、通信技术、多媒体技术相互融合而形成的、在因特网上可查找、可利用的资源。2、 网络信息资源的种类:(1) 按人类信息交流方式分为非正式出版信息、半正式出版信息和正式出版信息。(2) 按时效性分为网上出版物、动态信息、联机馆藏书目数据库、国际联机数据库。(3) 按IDG Book Word Wide 1996年出版物的WW
30、W指南(4) 日本的户田慎一把网络信息资源分为7类。(5) 按因特网信息资源的组织应用形式分为万维网(WWW)信息资源、电子邮件信息资源、FTP信息资源、Telnet信息资源等3、 因特网信息系统的组织形式:P250优势和劣势(1) 文件方式:网上数字化信息资源的一种主要存储形式,以文件方式组织的网上数据化信息主要有文档文件、图像文件、音频文件与视频文件等四种类型。(2) 超媒体方式:超文本与多媒体技术的结合,它将文字、表格、声音、图像和视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库自动航行,找到所需要的任何媒体的信息。(3) 数据库方式:就是将因特网信息资
31、源以固定的记录格式存储,并提供一些检索入口。用户通过检索入口,就可以找到所需要的信息线索,并利用超级链接功能直接链接到相关站点或一次信息本身。(4) 搜索引擎方式:因特网上对网上二次信息进行组织的主要形式,其实质是一种报道、存储网上一次信息的检索工具,(5) 主题树方式:将所选定学科领域的所有已获得的信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历。直到找到所需要的信息线索,进而通过信息线索直接找到相应的网络信息资源。(6) 图书馆编目方式:图书馆人员搜索、识别和注释那些对读者有用的资源,再根据针对网上资源的选择政策进行选择,然后编目成基
32、于MABC格式的记录,使之成为图书馆集成管理系统的一部分。(7) 数字图书馆方式:P253(8) 虚拟图书馆方式:P2544、 因特网信息资源的特点:信息存储与传递的数字化和网络化;数量巨大,增长迅速;内容丰富,形式多样;变化频繁,价值不一;结构复杂,分布广泛。5、 因特网信息检索工具的结构:自动索引程序;数据库;检索代理软件。6、 网络信息检索工具的原理:P2577、 因特网信息检索工具的类型:(1) 按网络信息资源类型划分:WWW检索工具、非WWW检索工具(2) 按检索机制划分:关键词检索工具、分类目录检索工具、混合型检索工具(3) 按包含检索工具数量划分:单一型检索工具;多元型检索工具(
33、4) 按检索内容划分:综合型检索工具、专题型检索工具、特殊型信息检索工具8、 因特网信息检索工具的功能:(1) 基本检索功能:布尔检索、截词检索、邻近检索与短语检索、字段检索、区分大小写检索(2) 高级检索功能:加权检索、自然语言检索、相关信息反馈检索、模糊检索、概念检索、智能化检索9、与检索相关的功能:检索提问的修改与限制;按相关度排列结果;检索与浏览相结合;检索结果的翻译和多语种检索。10、因特网信息检索工具的局限性:搜索引擎对信息的标引深度不够;搜索引擎的信息占有量不足;搜索引擎的查准率不高;搜索引擎自身的技术局限;检索功能单一、缺乏灵活性;索引数据库更新困难;大量挤占昂贵的网络宽带和C
34、PU资源;搜索引擎的分工协作有待加强。11、因特网信息资源检索工具的发展方向:WWW检索工具主流化;搜索引擎的集成化;服务区域的全球化;服务领域的两极化;检索语言的一体化;检索功能的多样化;检索内容的深入化;系统维护的动态化;检索技术的智能化;用户界面的友好化。第10章 数字图书馆的信息检索1、 跨库检索:也称联邦检索、数据库检索、集成检索,是以多个分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式并发地检索本地和广域网上多个分布式异构数据源,并对检索结果进行整合,在经过去重和排序等操作后,以统一结果呈现给用户。2、 跨库检索的必要
35、性:数字资源数量的增加,增加了读者选择和熟悉数据库的时间;数据库内容的交叉重复,增加了读者信息鉴别和去重的时间;数据库知识的关联度较低,增加读者知识衔接的负担。3、 跨库检索的技术模式与基本原理:运用元搜集引擎的基本原理,即利用数据库的Web客户端进行统一检索;通过数据库接口软件与不同的数据库直接连接,即通过数据库接口软件直接访问异构数据库;不同数据库间的格式转换,即将不同数据库导入一个新的集成数据库中并提供服务;建立索引库,即将多个数据库的索引数据整合到一个索引库中;利用SFX实现数据库的无缝链接。4、 跨库检索的相关技术:(1)公共网关接口技术CGI (2)开放式数据库互联网技术ODBC
36、(3)JAVA数据库互联技术JDBC(4)ASP技术和JSP技术 (5)CORBA技术 (6)XML中间件技术5、 跨库检索的基本过程:(1) 用户构造并提交检索式;(2) 提问等待过程,即系统依据用户的检索式对各异构数据库进行查询的过程;(3) 返回结果的加工策略,首先去除表面相关而本质不相干或相关度不大的数据,以提高检索的精确度;其次去除重复信息;最后对返回的不同格式、结构的数据进行处理,并按照统一的、符合用户需求的方式呈现给用户。6、 跨库检索策略应注意的方面:分析检索目的;选择信息资源;确定检索词;构造检索表达式;检索策略的转换;个性化服务的功能。7、 跨库检索实例分析:P2818、
37、跨语言信息检索技术(CLIR):指用户以自己所掌握的某一种语言构造检索提问式,计算机根据用户的检索要求在其他不同语种的信息中进行自动搜索,得到的检索结果甚至可以翻译成用户指定的语种。9、 源语言:在跨语言信息检索中,用户用以表达自己的信息需求、构造检索提问式的语言。目标语言:被检索的信息资源所使用的语言。10、 跨语言信息检索的类型:双语言信息检索、多语言信息检索、特定领域的跨语言信息检索、跨语言的多媒体信息检索。11、 双语言信息检索:用户用某种语言从另外一种语言表达的文献集中检索出所需文献信息的方式。12、 多语言信息检索:用户用某种语言从另外多种语言表达的文献信息集中检索出所需文献信息的
38、方式。13、 特定领域的跨语言信息检索:检索对象设定为某一学科或某一主题领域的跨语言信息检索。14、 跨语言的多媒体信息检索:如跨语言的语音信息检索,其内容不仅包括文献信息检索技术、跨语言翻译技术,还有语音识别技术等。15、 跨语言信息检索在数字图书馆应用的必要性:数字图书馆信息资源的多样性;信息形式的多样性;用户的广泛性;服务的便捷性。16、 跨语言信息检索的主要方法:同源匹配、提问式翻译、文献翻译、中间语言技术、不翻译。17、 同源匹配:根据两种语言的语词拼写形式或读音相似度来判断其中一种语言语词的语义,不进行任何翻译。18、 提问式翻译:将用户提交的查询请求翻译成系统支持的多种语言,然后
39、对不同语言的信息集进行查询。19、 提问式翻译的模式:基于词典的模式;基于双语语料库模式;字典语料库混合方法;提问式构造方法;提问词再赋权方法20、 跨语言信息检索存在的主要问题:原始询问的歧义性和目标询问的多义性;提问中词的切分;检索结果的合并;专有名词的解释;语言的识别;检索结果的充分显示。21、 数字图书馆中的跨语言检索系统模型包括6个模块:用户查询服务模块、资源调度模块、跨语言检索模块、信息资源数据库模块、信息数据加工模块、元数据库模块。22、 数字图书馆中的跨语言检索系统模型的特点:(1) 元数据库相对集中,提供数据标准协助各模块完成相应的功能。(2) 数据加工系统实现对原始图书文献
40、资料的采集、整理、数字化、标准化,最后将标准化多种语种数字存储到信息资料数据库中,形成有序的组织。(3) 信息资料数据库中数据采用分布式存储,可以根据信息语种的不同将整个多语种信息数据库划分为下一层各语种信息库,各语种信息库可以根据学科或研究领域进一步划分形成更下一层信息库。(4) 用户查询服务系统则根据用户提交的检索请求或服务请求,实现数字化信息资料的分布和利用。(5) 资源调度系统则实现网络环境下用户提问式和数据库中信息资料数据的识别统一调度。(6) 跨语言信息检索系统通过资源调度系统得到源自用户查询服务系统的提问检索式,首先实现提问式源语种的辨析,并选择合理的翻译器将提问语种检索式转化成信息语种提问式,然后在资源调度系统的调度下根据信息搜索引擎从多种语种信息数据库中得到符合要求的结果提交给用户,最后根据用户的反馈进一步提高翻译的准确性和完整性,进而得到更有效、更能满足用户需求的结果数字化信息资料。23、 基于内容的检索技术:利用媒体对象的语义、媒体的视觉特征进行检索,它利用图像
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 腹部损伤护理课件
- 开业庆典合同协议书范本
- 股权转让协议模板工商办理变更登记用
- 2024年度工程公司安全生产责任保险合同3篇
- 乙公司租赁2024年度甲方办公楼合同协议书
- 2024年度服装设计委托加工合同
- 2024版特许经营合同经营范围与管理规定3篇
- 2024年度店铺专利权买卖合同2篇
- 石膏脱水系统课件
- 2024年度饭店及店内设施租赁与购买合同
- 沉浸式展览-技术催生的新体验
- 琵琶演出策划方案
- 车辆动态监控员培训课件
- 毛概讨论全面建设小康社会
- 煤矿职工安全生产的权利和义务
- 2024年基金应知应会考试试题及答案
- 银行客户经理竞聘演讲课件
- EMS中国邮政速递物流
- 初中九年级音乐课件外婆的澎湖湾
- 医疗器械经营客户投诉处理培训
- 法律逻辑案例分析
评论
0/150
提交评论