北大情报学考研资料-现代信息检索_第1页
北大情报学考研资料-现代信息检索_第2页
北大情报学考研资料-现代信息检索_第3页
北大情报学考研资料-现代信息检索_第4页
北大情报学考研资料-现代信息检索_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索概述问题:什么是信息检索?主要有哪些类型?试分析阐述信息检索的基本原理信息检索主要经历了哪些不同的发展时期?各时期特点和人们关注主要问题是什么?信息检索领域主要研究问题有哪些?它主要涉及到哪些相关学科和研究领域?当前信息检索领域的前沿问题有哪些?信息检索广义上是信息存储与检索,是指按照一定的方式组织和存储起来,并能根据用户的需求要找出其中相关信息的过程。因此从本质上,信息检索是一种有目的和组织化的信息存取活动。“存”:面向来自各种渠道的大量甚至海量信息资源而进行的高度组织化的存储“取”:要求面向随机出现的各种用户信息需求所进行的高度选择性的查找,并且尤其强调查找的快速与便利。早期的信息检索分为:文献检索、事实检索、数据检索文献检索:以文献(包括文摘、题录、全文)为检索对象的一类信息查询活动。是一种“相关性检索”,相关性是指系统不直接解答用户所提出的问题本身,而只是提供与问题相关的文献供用户参考。直接提供用户所需要的事实检索:针对从文献中提取出来的各种事实(或知识项)所进行的检索活动。数据检索:针对经过选择、整理、鉴定的各种数据信息。事实/数据检索是一种“确定性检索”,确定性的含义是系统直接提供用户所需要的确切的数据或事实。当前信息检索出现了新的三分方法:文本检索、数值检索、音频与视频检索文本检索:以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。是传统(文献)检索方式的延续,目前在信息检索领域仍占据主要地位并不断获得新的发展。数值检索:针对数值型数据的查询而发展起来的一类较有特色的信息检索活动。数值检索不仅能检索出符合特定需求的数据信息,而且可以在此基础上提供一定的数据运算与推到能力,以及制表、绘图功能。音频与视频检索:针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。信息检索的基本原理:对信息资源集合与信息需求集合的匹配与选择信息资源集合:有关某一领域的、经选择性采集和组织加工的信息集合体。信息资源集合是一种公共知识结构,它可以弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的信息,知识或获取知识的线索,或者提供某种信息区激活人脑中存储的知识。信息需求集合:众多用户不同形态的信息需求的汇集,早就了信息需求集合的存在。匹配与选择匹配机制主要功能是能够把信息需求集合与信息资源集合依据某种相似性标准进行比较与判断,进而选出符合用户需要的信息。匹配机制至少包含2个要素:匹配标准(即相似性标准)、执行匹配的动因为了保障信息检索的快速与高效,匹配操作还要求在检索匹配之前,分别对信息资源集合和信息需求进行某种形式化的加工,形成它们的特征化表示。同时,对用户的信息需求也要进行类似的加工处理,即分析需求的内容,提出主题概念或其他属性,并利用与信息资源集合相同的表示系统(即检索语言)来表示需求中所包含的概念和属性,从而得到用户需求的特征化表示结果——提问式。信息检索主要研究问题:信息检索活动设计信息资源的采集、整理、存储与查找,其研究范围包括了一切与信息存储和检索相关的系统、过程、理论和方法。信息检索理论:检索语言(分类语言、主题语言、引文语言、代码语言)、检索模型(集合论模型、代数论模型、概率论模型)、标引理论(有关自动标引的理论和方法)、相关性理论(关于匹配标准的理论)、知识组织与表示理论(概念检索、语义检索与推理需要解决的理论问题,设计到知识的形式化表示方法、知识单之间的语义关联和逻辑推理)信息检索工具/系统:是有序化的信息资源、设备、检索技术和检索方法等组成的有机整体,构成实现信息检索活动的物质基础。主要设计信息检索系统的结构、功能、设计开发、管理运营、应用评价。信息资源极其收集、加工:目的是建立和形成可供检索服务的各类机读数据库。检索技术与方法:网络信息自动采集技术、网页超链接分析技术、搜索结果排序技术、元搜索技术以及各种网络挖掘与个性化服务技术用户研究与检索策略:系统的研制开发、管理维护、功能和服务的扩展,还是系统评价等,离不开用户研究工作。需要研究用户的查询心理,检索需求以及类型、用户查询信息的行为特征等,以便建立用户模型,制定系统等额设计依据、营销方略以及用户培训计划。主要内容包括用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等。其他密切相关的自动化处理技术:目前研究比较丰富,具体设计到自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互。相关学科及领域:计算机科学、数学、系统科学、语言学与计算语言学、认知心理学信息检索的发展历史手工检索时期:以印刷文献为主要检索对象;以各类文摘、题录和目录型工具书为可利用的主要检索工具;以图书馆的参考咨询部门为开展信息检索负的中心机构;计算机化检索时期:以各类机读数据库为检索对象;各类情报所、联机服务中心作为新兴的信息服务部门而存在;信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散,信息检索的社会普及化程度日益提高。脱机批处理检索阶段:“国际科学情报会议”的召开、KWIC索引的编制与应用、MEDLARS系统的研制联机实时检索阶段:信息检索中心的主机借助于电话线与远距离检索终端相连,形成联机实时检索系统,用户通过检索终端与检索系统进行对话,并可以再中高端屏幕上及时获得检索结果。联机网络化与多元化检索阶段:家庭化检索的出现、光盘检索的发展、联机系统的购并与产权转移网络化检索阶段网络化:新兴的基于WEB的搜索引擎系统,伴随着网络资源的爆炸性增长,不断问世并获得日益广泛的需求,且新技术层出不穷,发展进步迅速;传统的联机检索系统、各类数据库检索系统及其信息服务业务,也逐渐扩展、转移到具有分布式网络结构特性的web平台上。网络搜索引擎的兴起于发展:竞价排名、网络广告、股票发型与上市等商业因素渗透传统联机检索系统的网络化发展:首先是改进和优化自设的联机服务功能与质量;其次是数据库生产商由单纯的数据加工生产逐渐向数据加工生产和联机检索服务于一身发展的方向。网络化时期面临的主要研究问题:超文本/超媒体技术的应用、基于内容检索与多媒体信息检索系统的开发、自然语言理解/处理、海量规模的网络信息组织与检索、语义检索与推理、知识检索与服务、语义化检索时期。信息检索的数学模型数学模型:为了某种特定目的或研究需要,对现实世界的某一特定事物或现象通过进行一些必要的简化与假设,并用适当的数学工具加以表达而得到的一种数学结构。信息检索的数学模型:就是运用数学语言和工具,对信息检索系统中的关键要素及重要操作(例如信息资源集合的表示、用户信息需求表示、匹配选择)等进行抽象和编码而建立起来的某种数学表达模式。信息检索数学模型的分类(根据用户查询信息的基本方式不同,分为检索型和浏览型)检索型模型:基于文档内容特征的检索模型(集合论模型、代数论模型、概率论模型)和基于文档结构特性的检索模型(非重叠链表、临近节点)。浏览型数学模型:平面、结构导航、超文本信息资源集合(D)文档逻辑视图:从文档中抽取的、能表达文档内容的特征项(如索引词)所构成的,是文档的一种形式化表示。文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。例如:剔除停用词、识别并使用名词与名词性词组、进行词干提取与加工用户信息需求集合(Q)用户信息需求的产生是信息检索活动与信息检索系统存在的基础,而满足用户需求,则是建立信息检索系统的出发点潜在真实需求(RIN)——意识或感知到的需求(PIN)——表达出的需求(Request)——提问(Query)信息资源与信息需求的匹配处理框架(F):信息检索的根本任务就是D和Q之间基于某种相似度规则的匹配处理,匹配处理框架(F)正式在寻求二者之间建立一种沟通规则与联系机制,提供对文档视图、提问式以及它们之间关系进行模型化处理的框架和规则。布尔模型:匹配规则为二值相关性判断,匹配运算主要基于集合论的集合基本运算。向量空间模型:匹配规则为多值相关性判断,匹配处理建立在代数论的多维向量空间操作基础之上概率模型:依赖集合论、概率运算和Bayes法则来完成检索匹配处理,其匹配规则也是多值性相关性判断。匹配函数(R(dj,q)):用于计算任一文档dj(djD)与任一提问q(qQ)形成的文档-提问对(dj,q)之间的相似度大小。一般的,R(dj,q)的函数值为一实数,其区间取值为[0,1]。从数学上来讲,匹配函数的选取,要求能具备以下特点:计算方法简单,计算量小;函数值在取值区间分布均匀针对某一提问所获取的相关文档集合,能够实现合理的排序输出集合论检索模型布尔模型:建立在经典集合论和布尔代数基础上,简单易理解,简洁的形式,但是存在精确匹配问题和表达用户信息需求能力的问题模糊集合模型扩展布尔模型:是常规布尔检索精确匹配的严格性和向量处理模式提问的无结构性的折中,它用代数距离方式来解释并放松了布尔操作的要求,因而有效地融合了传统的布尔、向量等检索模型的处理思想。主要特点:与传统布尔检索中倒排文档技术相兼容,支持使用标准布尔逻辑表达的提问式结构;允许在文档和提问式中进行加权处理;支持按相似度的大小排序输出检索结果;通过调整参数P的取值,可以灵活选择得到不同的检索结果。代数论检索模型向量空间模型源于文本信息检索实践,将非结构化的文本信息表示成向量形式采用部分匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现;采用基于统计学方法的词加权处理模式,使检索效果得到显著改善;采用对检索结果排序输出的策略,使对检索结果数量的控制欲调整具有相当大的弹性与自由度。基于VSM理论的文本信息处理主要包括以下几个分支领域:文本检索、文本分类、文本过滤、文本挖掘、文本浏览与可视化隐含语义索引模型神经网络模型概率论检索模型:经典概率模型、推理网络模型、信念网络模型经典概率模型基本指导思想:给定一个用户提问,检索系统中存在着一个与该提问相关的理想命中结果集合(R)。如果能已知集合R的主要特征及其描述,则用户的检索要求便不难实现。但是一开始用户并不知道这个集合的特性,为此需要在检索伊始进行猜测,根据反馈信息,系统可以再后续的检索处理中不断做出优化与改进,从而多次交互操作之后使检索逐步接近该提问的理想命中结果集合R。关键是如何进行初始的猜测以及如何通过相关反馈与交互来不断调整,改善检索性能。推理网络模型信念网络模型信念网络模型有一个清晰定义的样本空间,并采用集合论观点看待信息检索的排序问题,而推理网络模型却没有定义这样的空间由于文档部分和提问部分被分开,将有利于对以往的提问和相关信息的统计/经验数据进行综合处理并建模由于文档/提问空间的分离,信念网络模型能够再现推理网络模型中产生的各种排序策略,但反过来不行。其他检索模型与数学理论都建立在对信息内容特征的标引与匹配上。随着信息资源类型的不断丰富,信息就爱你所的匹配机制与标准液在不断发展。除传统的信息内容特征外,信息的结构特征及其提取成为建立新型信息检索系统的另一种可供选择的匹配标准。另外,随着WWW网络环境的日益普及,信息检索的方式也发生着变化与调整。在超文本技术下,用户的信息检索处理通过索引文档的查询与快速匹配外,浏览方式再度兴起并流行。另外,在计算机科学领域中,有关遗传算法和粗糙集理论的研究和应用活动非常活跃。结构化检索模型:综合考虑了文档内容和文档结构两方面特征匹配的检索模型成为“结构化(文本)检索模型”。基于非重叠链表的模型基本思想:把每个文档的全部文本划分为非重叠的文本区域,并用链表把这些文本区域连接起来。因为有多种不同方法把文档划分为非重叠的区域,所以,对于同一文档来说,会产生许多不同的链表。同一链表中,各文本区域没有重叠,不同链表中,各文本区域可能重叠在非重叠链表中,为了同时支持对文本内容(索引词)和文本区域(结构性单元)的查找,除了传统的索引词倒排文档之外,还需要建立一个结构性单元的倒排文档。在这个结构倒排文档中,每个结构性单元都是一个索引款目项,与它相联系的出处项,则包含一系列文本区域。基于临近节点的模型基本思想:允许在同一文档上定义独立的(非平坦)等级索引结构。在这样的结构中,结构性单元被称为“节点”,它们之间相互连接,构成一个严格的等级结构。并且,每个节点都与一个文本区域相关联,不过,两个不同的等级(或层次)结构可能涉及到重叠的文本区域。该模型允许用户构造更为复杂的查询提问式。为了加快提问式的匹配处理速度,每次仅在邻近节点中进行搜索,这对检索结果来说,是增加了一种限制。浏览模型:检索和浏览是用户查找和发现信息资源的两种结拜呢手段。一般情况下,检索方式需要通过特征提取和索引机制来实现,在用户的信息需求比较明确时,可以直接从检索系统中获取检索结果,检索效率高;而浏览方式则主要依靠系统中预定义的某种信息组织和导航机制,通过用户的访问和探寻,来发现一些相关的或未曾预料的有用信息。因此,检索是“系统主导”方式,浏览是“用户主导”方式。平面式浏览:用户对平面化组织和文档结构进行探寻结构导航式浏览:把众多文档或信息资源组织到一个树状类目等级体系中,用户在查找信息时可以在这样的类目引导下,从上到下,从宽泛到具体,逐步接近或找到所需要的有用信息。超文本式浏览:主要指基于超文本技术的交互性浏览模式,一般地,超文本被看做是一种由节点相互链接而形成的有向图结构。对于导航问题提出的解决方案已有很多,如:宏观结构导航法、鱼眼视图法、浏览路标法、附加检索机制的方法。遗传算法和粗糙集理论遗传算法操作算子:选择或复制;交叉;变异基本要素:参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定粗糙集是一种新的处理模糊性与不确定性问题的数学工具,其基本特征是将分类与知识联系在一起,使用等价关系来形式化地表示分类;在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。信息检索系统及其构成信息检索系统的特性:整体性、关联性、层次性、目的性、适应性信息检索系统的定义:具有信息存储和信息查询功能的一类信息服务设施或工具。其更为精确的定义有明确的目标、不可缺少的资源、技术装备、方法与措施、功能。信息检索系统的类型按照设备划分书本式检索系统:文摘杂志、题录或索引刊物、书本式目录、参考工具书卡片式检索系统:包括一切以普通卡片存储和查找信息的工具穿孔卡片系统:是一种长方形卡片,通过在其边缘或中央部分穿孔来表示和记录信息,并借助手工活及其对穿孔卡片集合进行分拣(检索)。缩微式检索系统:以缩微照相制品等感光材料为信息存储介质的检索系统。计算机化检索系统:使用电子计算机来处理和查找信息的自动化检索系统,通常由计算机、数据库、检索软件、检索终端及其他外部设备构成。网络检索系统趋势:信息标识的代码化;扫描匹配过程逐渐变成由检索机具独立完成的过程,逐渐同人的参与相分离;检索策略相对固定化、形式化及可运算化,即逐渐由人脑存储记忆转为可由机器来分部执行的运算式。按照功能划分文献检索系统数据库管理系统自动问答系统管理信息系统决策支持系统信息检索系统的物理结构:硬件部分、软件部分、信息资源集合(多为数据库:参考数据库、源数据库、混合数据库;文字数据库、数值型数据库、图像型数据库;集中式检索系统、分布式检索系统)常见信息资源的类型:依据存储载体的不同,可供检索系统采集、加工的信息资源主要有印刷型和电子型两种。印刷型信息资源主要是指以纸张为存储介质、以手写或印刷为记录而产生的一类传统信息资源;印刷型信息资源主要有图书、期刊、报纸、会议录、学位论文、科技报告、专利文献、技术标准、政府出版物等不同类型。电子型信息资源是指以数字化存储技术,把文字、图形、图像、声频、视频等多种形式的信息存放在光、电、磁等非印刷型介质上,以电信号、光信号的形式传输,并通过相应的计算机和其他外部设备再现出来的一类信息资源。电子信息资源的特征:系统依赖性、复杂性、共享性、不安全性信息标引处理标引是对信息资源的各种检索特征进行分析并使之显性化,以便为存储和检索这两个环节提供某种连接的一种重要的信息加工操作。标引将决定着数据库的标引深度和检索点,并直接影响到系统的检索方式和检索功能。所谓“标引深度”,又称“网罗度”,是衡量标引详尽性的指标,其含义是标引词对数据库每条记录各方面内容表达和识别的详尽程度。衡量标引工作质量和有效性的另一个指标是“专指度”,用于衡量标引词对信息记录特定内容描述的精细程度。网罗度越高,越有利于提高检索的查全率;专指度越高,则越有利于提高检索的查全率。要求是全面准确简洁。标引可以区别为自动抽词标引和自动赋词标引自动抽词标引:利用计算机直接从文献的题名、文摘或正文中抽取关键词来标识文献内容,并自动生成关键词索引文档(或倒排档)。自动标引中的词语加权方案:绝对词频法、逆文档频率法、词区分值法中文自动标引研究:词典切分法(主题词表法、关键词词典法、部件词典法)、切分标记法、单汉字法、N-gram法自动赋词标引:让计算机模仿标引员的赋词标引方法,通过分析文献内容,从词表中选取与文献主题相符或密切相关的词语符号做索引词。赋词标引不是简单的、机械的词语抽取与切分,而是涉及到概念的识别、映射和转换。数据库主文档MF:主文档索引MX:倒排文档IF:主要反映词典文档中包含的每个检索词在文献中的出现位置信息,这种安排可以使系统在倒排文档检索阶段就能实现比较完备的位置检索功能。词典文档IX:检索系统利用“停用词表”进行自动抽词标引后生成的文档,可由全体可检特征构成。信息查询各功能模块用户检索接口基于两个基本假定:用户的信息需求是静态不变的;信息查询是一个对提问式不断修改并逐步获取理性检索结果的过程。用户与检索系统之间的主要交互任务/需求:查询提问式的表达与提交、检索结果的获取与评价、相关反馈与提问式修改用户(检索)接口模块的基本构成:用户模型(由检索系统设计人员简历的用户认知模型)、信息显示(检索系统以屏幕显示形式提供给用户的各种操作信息)、交互语言(系统提供给用户使用的检索命令集合和其他对话工具)、反馈机制(检索系统对用户操作及其反馈信息所作出的一种反应机制)对于检索系统接口来说特别重要的设计原则主要有:提供信息反馈(提问式与被检索文档之间的关系、检索结果集合中文档与文档之间的关系、检索结果文档与描述该文档的元数据之间的关系)、减轻记忆负担、为不同用户提供不同接口提问处理与检所匹配:接受并处理用户输入的检索词或提问式,将它们与数据库倒排索引文档中存储的数据项进行匹配运算,然后把运算结果返回给用户。表展开法:在脱机批处理检索时期提出并应用,这种方法通过“前处理”和“后处理”将布尔逻辑提问式转换成展开表,该表规定了检所匹配的走向和是否命中的判断,具体检索时不需要建立倒排文档,而是用展开表的内容直接针对数据库的主文档(顺排文档)进行检索匹配。逆波兰法:把提问式(中缀形式)变换为等价的逆波兰式(后缀形式),然后依此形成检索指令表,并在倒排文档中进行检索匹配。准波兰法:基于逆波兰的一种改进。析取范式变换法:依据数据逻辑基本原理,先将布尔提问式变换为等价的析取范式,然后再在倒排文档中进行检索匹配。基于布尔模型的检索系统,其采用的匹配策略通常是精确匹配;以向量空间模型为基础的检索系统,其采用的匹配策略是部分匹配。“知识组织与管理工具”模块处在一个极其重要的位置上,作为联系信息存储与信息查询的桥梁和中介,它同时对“信息标引处理”、“用户(检索)接口”、“提问处理与检索匹配”直至“检索结果”等多个处理流程产生作用和影响。事实上,对于一个信息检索系统来说,拥有何种知识组织与管理工具,以及如何使用这些知识组织与管理工具对检索流程进行控制和管理,将从根本上决定该检索服务系统的功能与效率。知识组织与管理工具类型集合或线性结构工具树形结构工具:树形结构工具强调知识单元或概念术语之间的某种单一关系的反映,例如等同关系E(同义词表)或等级关系H(网络分类表、范畴表、词族表、利用文本聚类技术生成的类目体系)。网(图)状结构工具:大型分类表、叙词表、语义网络、本体检索类型划分的好处如果检索系统中只拥有和使用集合或线性结构类型的工具,那么大多只能实现或完成常规的关键词检索与匹配,因为它们普遍缺乏对概念或属于之间关系的表示。对于树形结构的知识组织与管理工具来说,由于工具中包含有对概念或术语之间等级关系的反映,因此可以支持概念检索,如基于概念上位类替换的扩展检索和基于概念下位类替换的限制检索。这些检索功能可以有效得改善检索操作的查全率或查准率。作为强结构典型代表的各种网(图)状结构工具,由于它们不仅涵盖了信息检所语料中涉及到的概念或术语,而且还全面反映了这些概念之间的多种语义关系,因此拥有这类工具的检索系统不仅可以实现功能强大的概念检索,而且还可以针对某些概念之间的语义关系进行查询和匹配,或者完场一定的逻辑推理功能,从而真正实现知识级检索。知识组织与管理工具的应用方式经典应用方式:在信息标引阶段和信息查询阶段都会使用叙词表(“全控制方式”)标引应用方式:只在信息标引阶段使用叙词表(“先控制方式”)查询应用方式:只在信息查询阶段使用叙词表(“后控制方式”)无表应用方式:整个信息检索系统实行自然语言标引和关键词查询,完全不使用叙词表。全控制方式是叙词表工具的一种理想应用方式,同时在信息标引阶段和信息查询阶段使用叙词表工具,能使叙词表的作用得到最大程度的发挥,不仅有利于标引人员或标引程序在系统后台对信息的概念标引处理,提高标引的一致性,而且有助于用户在系统前台的信息查找,保证其查询质量。是一种理想的方式,但是应用方式需要较大的代价先控制方式是指将叙词表仅用于信息查询过程。这种应用模式在实践中一般较少出现或采用。文本信息检索技术与方法文本是基于一定的语言符号系统而形成的一个有限符号序列。词汇的频率与齐普夫分布模型词汇的数量与Heaps分布模型文本信息预处理文本词汇分析:所谓“文本词汇分析”,主要是指对文档中的文本(字符)进行识别或转换为词的过程,这些词可以作为标引词的候选对象。停用词去除:停用词又称为嗓音词,可以通过建立一个停用词集合来完成。词干提取:英文检索系统中,经常会出现文本中包含用户查询词的变异词,将造成在检索匹配过程中两者不能完全匹配。词干是指去掉词的附加部分所剩下的部分,提取词干操作可以把许多变异词都映射到一个公共的概念词上,以此来建立索引,不仅可以减少索引文档的体积,而且可以明显改善检索的性能。名词(或名词性短语)识别布尔检索:以索引倒排文档为基础,通过布尔逻辑算符对检索词或检索代码进行组配,形成检索提问式,进而以此提问式作为匹配依据完成对倒排文档的匹配处理并获取查询结果。截词检索:截词是检索者将检索词汇在他认为合适的地方截断,而截词检索是指使用被截断的词汇进行检索匹配,并认为凡满足这个词局部中的所有字符串要求的记录,都为命中结果。使用*表示无限截断,使用?表示有限截断。限制检索:为了提高或保证检索的准确率,常提供一些缩小或约束结果的检索技术,称为限制检索。最主要的是通过限制检索词在命中结果记录中的出现位置来实现的,因此被称为字段检索。表达文献内容特征的主题字段和表达文献外部(或形式)特征的非主题字段。主题字段(或主要字段)又称为“基本检索字段”,具体包括标题、主题词、关键词、文摘、分类号;非主题字段也叫“辅助检索字段”,包括作者、作者工作单位、连续出版物编号、以及代码、文献类型、使用语言、出版者联机检索时,用户的某一检索要求通过指定检索词在主题字段和非主题字段的出现情况,即可实现字段检索。字段检索的实现技术比较简单,只需要在布尔检索的基础上稍作改进即可。具体的措施是:对于采用混合型倒排索引文档的检索系统,在标引处理过程中,不仅要记录下所提取的检索词出现的文献编号,还应该记录该检索词出现的字段位置编号或代码,以支持检索时的字段位置匹配。当然,在有些文本检索系统中,采用的是对不同字段信息分别建立各自倒排索引文档的处理方法,那么,检索时只要根据用户的查询要求,到相应字段的倒排索引文档中匹配就可以了,并不需要在标引时做特别处理。位置检索:是一类针对自然语言文本检索词与检索词之间特定位置关系而进行的检索匹配技术。位置检索允许用户使用自然语言作为检索入口,并可深入到原文的章、节、段、句等文本范围内进行信息的查找和匹配,因此这种检索技术可以显著提高文本信息的检索精度,改善布尔检索等既有技术对特定信息的筛选能力。又被称为原文检索、全文检索、自由文本检索。聚类检索相关反馈是系统中的一种人机交互机制。系统可以根据初始检索结果的相关性判断,对用户的检所要求或提问式进行适当的修改的修改和扩展,并据此再次进行检索,从而得到改进的查询结果。相关反馈的实现主要有两类方式:一类是需要检索用户主动配合和参与的方式,另一类则不需要用户的参与,可以由系统通过自动分析技术来完成。前者可称为显示相关反馈(用户反馈法),后者是隐式相关反馈(系统自动反馈)。实现:增加新的查询特征或词语,扩展原始提问;重新计算或调整提问式中各查询项或检索词的权值。基于用户反馈法的提问式扩展:基于向量空间模型的提问式扩展、经典概率模型的相关反馈与提问式扩展;基于局部自动分析的提问式扩展:基于局部策略的相关反馈和基于全局策略的相关反馈。信息可视化包括:数据变换、可视化映射、试图变换多媒体信息检索技术与方法什么是多媒体?它有哪些基本特征?从技术角度来理解,多媒体是指利用计算机及相关信息技术对多重媒体进行一体化处理并实现交互应用的技术,它具有继承性、交互性和独立性等基本特性。集成性:表现为对多重类型信息与数据的集成化处理以及处理各种媒体设备的集成。多媒体的内涵不仅仅在于信息与数据类型的多种多样,重要的是各种类型的信息与数据在计算机内不是孤立和分散存在的,它们之间存在着密切的相互关联。交互性:多媒体最重要的特性是人机交互性。多媒体技术是向用户提供更有效的使用和控制多媒体信息的手段,用户面对计算机时,不但可以充分享受其提供的丰富的信息资源,还能主动进行检索、提问与回答。独立性:是指多媒体系统中使用的各媒体是相对独立的。音频信息的检索特征有哪些?其主要查询方式有哪些?检索特征:音频信息在计算机内部以文件格式存储,文件属性包括文件名、创建时间、创建者、文件格式,这些都属于音频信息的外部特征。外部特征大多以元数据方式出现,需要人工著录或者使用元数据标准由程序自动生成。物理层声学特征层:音强、基音、音调典型的音乐特性:节奏、事件、乐器标识语义层:语音识别、检测的结果、音乐旋律和叙事的说明、对音频对象及其概念的描述。查询方式图像信息的检索特征有哪些?其主要查询方式有哪些?检索特征:创建日期、创建设备、文件格式、数据大小。物理层:颜色特征、纹理特征、形状特征逻辑层:包含图像的逻辑属性(表示图像所描述的对象以及对象之间的空间关系)和图像的逻辑结构(逻辑属性的转换)语义层:图像的语义层特征主要用于表达作者的创作意图、图像描述主题或用户需要检索的语义内容等。查询方式:通过人工或自动的方式的著录、加工,把它们作为图像检索的外部特征入口。另外,对于图像描述的对象、对象的空间关系和逻辑结构、图像所揭示的予以内容以及作者的创作意图等深层次特征信息,在传统文本检索环境下,也可以通过人工的标引处理,形成文本数据库,并以文本检索方式来实现或满足用户的查询请求。对图像语义特征的提取和描述,可以加工成知识库,提供智能性的检索服务。视频信息的基本结构是什么?其检索特征有哪些?视频信息的基本结构:帧、镜头、场景检索特征:对于视频的外部特征,可以使用与音频、图像同样的处理方法,利用元数据标准进行著录。帧级镜头和场景级视频级多媒体信息基于内容检索(CBR)的基本思想是什么?CBR主要针对多媒体信息,其含义是指根据多媒体对象的听、视觉特征及其中的内容和语义特征进行检索,并希望能够借助模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体数据的听、视觉特征和语义进行自动的分析表达和组织。主要研究数据模型、特征处理和语义获取、用户接口模式、索引结构及性能、压缩域检索与基于内容的编码、性能评价基本框架对象标识:通过工具箱的辅助,以全自动或半自动的方式对音频、静态图像、视频镜头等数据中包含的对象进行标识,以便针对对象进行特征提取、描述和查询。对象标识属于局部特征处理,如果是针对多媒体数据进行整体内容检索,通常只需要提取全局特征,而不需要用对象标识功能,因此,对象标识模块是可选的。特征提取:指对音频、视频、图像等多媒体数据自动或半自动地提取用户感兴趣的、合适检索要求的特征。数据库:主要是媒体库、特征库和知识库等组成。其中,媒体库存储具体的多媒体原始数据,特征库中既包含人工著录的文本描述特征,也包含预处理过程中自动获取的感知特征和内容特征;而知识库则包含一些领域知识和通用知识,其中的只是表达可以更换,以便适应不同领域的应用要求。检索接口:应提供适当的、便于用户使用的人际交互形式,其中,以示例查询和模糊描述等可视查询形式最为重要。检索引擎:主要是利用特征之间的距离函数或其他匹配标准来进行相似性匹配,并模仿人类的认知过程,得到尽可能理想的检索结果输出序列。索引和过滤器:旨在是检索引擎达到快速匹配与检索的目的,以便适应大型的多媒体数据库。其中,过滤器作用于全部数据,过滤出的数据集合再用高维(数据含有属性较多的)特征匹配来检索;索引则用于低维特征,索引结构可以选择R树索引等形式,以加快检索进程。语音信息有何特点?其检索技术主要有哪些不同的研究类型?语音识别技术及其研究现状:词汇表大小、讲述方式、服务对象、其他常见的语音检索方法:利用大词汇语音识别技术进行检索、基于子词单元进行检索、基于关键词确认进行检索、基于说话人辨认进行语音分割和索引。图像信息基于内容检索的主要类型有哪些?图像信息基于内容检索的主要查询方式:示例、描绘、属性和特征说明、浏览基于颜色特征的图像检索:颜色模型/颜色空间及其选择、颜色特征的分析与表达、颜色特征的匹配。基于纹理特征的图像检索:统计法、频谱法和结构法基于形状特征的图像检索基于空间关系的图像检索基于组合特征的额图像检索视频信息基于内容检索的主要类型有哪些?基于关键帧的检索基于运动特征的检索基于语义特征的检索当前比较著名或有影响力的图像检索实验或示范系统有哪些?请通过搜索引擎进行调查,并实际使用这些系统进行图像查询。QBIC、哥伦比亚大学的WebSeek、上海交大音乐数据库检索系统、国防科技大学的多媒体数据库检索系统Web与网络搜索引擎请简述WWW网信息资源的主要特点海量规模分散无序:网络信息资源分散在服务器中,服务器分散在世界的各个角落,由用户驱动的网络信息资源原本就缺乏统一的控制,这种地域上的分散更加加剧了网络信息资源的无序与混乱。动态更新(不稳定性)种类/形式多种多样(多媒体性)非结构化或半结构化:体例格式、表述方法缺乏统一语义冗余和质量控制缺乏:由于镜像技术的使用和信息的广泛传播复制,web信息一般重复率较高;另一方面,信息发布主要由用户驱动,并且来源复杂,大量虚假错误陈旧低劣的信息有可能不经任何筛选和过滤即可提交,造成信息资源质量控制的损失。需求与使用方式个性化:网络用户数量众多,年龄不同,职业和文化背景千差万别,信息需求五花八门,对信息资源的检索和使用特备强调个性化服务。再加上网络资源的海量规模,如何有针对性地向用户提供他们感兴趣的信息成为一项迫切的任务。网络搜索引擎的发展经历了哪几个不同的阶段?搜索引擎的前身:FTP类检索工具早期的搜索引擎:关键词检索方式、分类目录浏览方式全文搜索引擎的普及:由于标题搜索引擎只能通过标题、URL等信息进行检索,新一代的机器人程序开始关注网页全文的自动采集与索引问题,以便支持全文检索。元搜索引擎的出现:使用元搜索引擎时,用户主要依赖与其他独立搜索引擎而存在,但它们集成了不同性质和不同风格的搜索引擎,且发展了一些新的查询功能,因此逐渐成为用户喜爱的一种新型网络检索工具。元搜索引擎主要依赖与其他独立搜索引擎而存在,但它们集成了不同性质和不同风格的搜索引擎,且发展了一些新的查询功能。垂直搜索引擎的发展搜索代理系统的研制搜索引擎主要有哪些不同类型?按照检索机制不同划分:关键词检索型搜索引擎和目录浏览型搜索引擎按照数据收录范围不同划分:综合型搜索引擎和垂直型搜索引擎按照包含检索工具的数量不同划分:独立搜索引擎和元搜索引擎按照开发背景不同划分:学术型搜索引擎和商业型搜索引擎什么是独立搜索引擎?简述它的基本结构和工作原理独立搜索引擎就是通常意义上我们所说的搜索引擎,主要通过自身的数据采集于标引机制、数据组织机制和数据检索机制提供网络信息的检索服务。基本结构:数据采集(人工采集质量高、速度慢、覆盖窄、无法及时更新;多为自动采集)、数据分析与标引(人工方式主要用于目录浏览型搜索引擎,而自动方式即利用自动标引软件对收集到的网页信息进行内容分析,从中提取有检索或查询价值的特征项——网页关键词等,并将它们组织成倒排索引文档)、数据检索(数据检索模块主要负责通过用户界面的人机交互,根据用户的信息查询请求,或者去索引数据库进行查询匹配,或者利用分类目录结构进行浏览选择,最后将获取的符合用户需要的WWW信息显示输出)、信息挖掘(源于用户对个性化服务的迫切需求)工作原理:从网络分层的宏观结构上看,独立搜索引擎系统是处于应用层(即用户层)和网络层(即WWW层)之间的一个中间层次。在这样的体系结构中,不妨把独立搜索引擎看成是一个双层的客户机/服务器结构体系。当用户访问搜索引擎时,用户端为客户机,向搜索引擎发出尖锁请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户;当搜索引擎采集数据时,搜索引擎为客户机,向WWW站点等实际资源系统提出页面搜索请求,各类实际资源系统为服务器,并将有关数据作为应答提交给搜索引擎。Indexer工作过程分析:为了实现对采集到的海量规模信息的快速匹配与查询,搜索引擎必须对它们进行自动分析与标引,提取检索标识,并把它们组织成倒排索引。对于一个indexer来说,其工作过程中主要考虑的问题有:全文标引还是部分标引是否过滤停用词是否使用META标记中的信息是否支持词干提取技术是否对图像标记中的替换文本或页面中的注解建立索引搜索引擎自动采集软件Robot的工作原理是什么?试分析说明设计中注意的事项(1)robot工作原理精选一批高质量的URLs作为初始搜索地址,并将这些地址放入待搜索的地址列表中;取出待搜索地址列表中的第一项,依据并遵循HTTP协议,向有关的WWW服务器发出请求,等待并抓取到相应的HTML文件(网页),下载到本地后进行预处理,并在该HTNL文件中抽取指向其他HTML文件的超链接;对抽取出的超链接地址逐个进行处理,按照是否已被搜索过分别放入近期已搜索的web站点列表和尚未搜索的地址列表中去;判断程序是否结束,如果没有结束,返回第二步继续执行。结束的条件是待搜索的站点地址列表为空,或抓取的HTML文件已经达到了预订的最大值或管理员强制终止。(2)设计robot程序考虑的问题遍历策略的选择(顺序搜索、深度优先搜索、广度优先搜索、深度-广度结合搜索);优化策略(兴趣驱动策略、流行驱动策略、网址驱动策略)Robotexclusion协议的遵守网页采集效率与保持WWW服务器正常工作状态的平衡机制镜像站点的识别动态网页的困扰网页更新问题中英文网页信息的标引处理有区别吗?中文网页标引处理的难点在哪里?什么是元搜索引擎?请简述它的基本结构和工作原理元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。基本结构:用户接口(用户浏览器与元搜索引擎交互的界面)、查询代理(负责元搜索引擎与相应的独立搜索引擎的交互)、结果汇总输出(结果汇总输出负责收集各查询代理送交来的检索结果,并对这些结果进行必要的加工与整理,去重、重排,再以标准的页面形式呈献给用户)工作原理搜索引擎为何要将检索结果按相关度大小排序输出?计算相关度的主要依据是什么?基于web网页内容特征的方法:主要考虑用户所查询的关键词在结果网页中的出现情况,包括出现频率(即词频)和出现位置等因素,并以此来评价命中网页和用户查询请求的相关度大小,进而作为结果输出时的排序依据。基于网页链接结构的方法:主要根据网页被链接或被引用的情况来判断页面信息的权威性(或质量),以此来优化对搜索结果的排序,使排序结果能够更加客观和公正。基于用户信息需求和需求行为的方法:主要通过跟踪、统计并挖掘用户的查询需求和需求行为信息,例如:使用的查询关键词、对结果页面的点击行为、浏览网页及浏览时间等,以发现和识别用户的真正兴趣和真实查询意图,进而对搜索结果实施个性化排序。目前,主要有3个方式:检索前主动询问用户、利用用户对搜索结果的评测与反馈、通过其他途径较广泛地收集用户个人信息,建立用户的偏好模型,进行统计分析。基于付费排序的方法请简述PageRank算法和HITS算法的基本思想,并比较两者的异同PageRank算法的基本思想:如果一个页面多次被使用,那么这个页面可能很重要;如果一个页面尽管没有多次被引用,但却被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被均分,并传递到它所用的页面。HITS算法的基本思想:不是每一个链接都具有注解性,有些链接是为了其他目的而创建的。如果大部分链接具有注解性,才能用于页面的权威性判断。基于商业方面的考虑,很少web页面会指向其竞争领域的权威页面。权威页面很少有特别描述。相同点:都是利用网页之间的相互连接关系进行递归计算,并赋予它们一定的重要性值,但两者也存在显著区别。不同点HITS算法是一种query-dependent算法,计算的网页权威值只是相对于某个提问式的权重;而PageRank算法是一种query-independent算法,是独立于检索提问式的HITS算法是实时在线进行的,仅为每个已执行的查询构建根集合并扩展,然后对其中的网页进行排序计算;PageRank算法而是预先离线进行的,对数据库中所有的网页都计算权值,在结果排序时直接取用即可。从网页权重值的传播模型来看,HITS算法基于网页的双向链接,网页权重会在权威页面与hub页面之间相互加强;PageRank算法基于网页的单向链接,网页权重(PR值)只从一个页面传递到另一个页面。从算法的稳定性上来看,HITS算法的计算只针对一个很小的子图,并对该子图的结构非常敏感,子图的微小改变可能会带来最终结果的很大变化;而PageRank算法是对整个web的链接结构图进行计算,算法的稳定性相对而言要好得多。什么是个性化搜索?解决个性化搜索服务的主要适用技术有哪些?所谓个人化搜索,指的是不同用户搜索相同的关键字,看到的排名不相同。技术:用户兴趣模板的生成、PSA结构及工作流程试对并行元搜索引擎的若干关键技术问题进行分析和说明在一个小规模web网络上,尝试利用PageRank算法思想进行编程,并调整衰减因子的值进行对比试验。结合个人使用搜索引擎的体会和经验,试分析独立搜索引擎目前存在的主要问题、产生根源及相关改进措施。如何理解SemanticWeb的框架结构?它对未来搜索引擎的发展会产生什么样的影响?Web2.0时代基于标签技术产生了互联网自由分类法,它对于网络搜索问题会产生什么影响?请分析说明之。是否了解PeopleRank算法?信息检索评价研究简述信息检索评价研究的发展历史及各阶段的主要特点。(1)20世纪50年代——20世纪60年代中期:主要集中在对各种检索寓言和标引方法的比较和评测上。磁带是信息存储的主要载体,检索处理结果一般不能立刻获得,必须等待成批或定期的检索匹配。(2)20世纪60年代——20世纪70年代:进入联机实时检索时期,用户可以通过检索终端与系统进行人机对话,并可在检索屏幕上迅速浏览到检索结果。(3)20世纪70年代——90年代初期:信息检索进入了网络化和多元化检索时期。(4)20世纪90年代至今:基于TREC平台的评价检索有效克服了以往评价研究中的诸多缺陷。同时,web搜索引擎的发展和评价标准的研究。作为www网络环境下的一种新型检索系统,搜索引擎评价有其独特的要求和标准,简单的沿用传统的评价方法和指标已经不再适宜。另外,前一阶段开始的旨在摆脱Cranfield模式笼罩、关注用户在真实检索环境与检索与检索过程中的作用与影响的评价研究。什么是相关性?信息检索中的相关性判断标准主要有哪些?相关性是信息检索中的一个非常基本的概念,对这一概念的使用在各类研究文献中也是随处可见。简单的说,信息检索的相关性是指检索系统针对用户的信息需求从文档集合中检索出的文档与用户需求之间的一种匹配关系。相关性评价的标准:二值相关性判断标准、多值相关性判断标准、多维相关性判断标准什么是信息检索的查全率和查准率?它们的计算公式分别是什么?查全率R是衡量系统在实施某一检索作业时检出相关文献能力的一种测度指标,计算方法为R=检索出的相关文献量/检索系统中的相关文献量查准率是衡量系统在实施某一检索作业时检索准确度的一个测度指标,P=检索的相关文献量/检出的文献总数查全率无法计算,查准率难以计算目前主要有哪些查全率和查准率的替代性计算指标?平均查全率和平均查准率调和数F:F=2/(1/R+1/P)E测度指标:E=1-(1+B2)/(B2/R+1/P)面向用户的性能评价指标:与用户的知识状态、待处理/解决的问题、任务及所处的情境或者用户的目标、动机等众多因素。这些指标有涵盖率、新颖率、相对查全率、查全努力信息检索评价研究的基本方法和程序:确定评价范围和目标、选择评价方式、设计或制定评价方案、实施评价方案、总结与评价结论的形成。搜素引擎的性能评价指标主要有哪些?数据库规模与内容:收录范围、数据库内容、更新频率、重复率、死链接率索引方法:索引方式、索引范围与深度检索功能:基本检索功能(布尔检索、截词检索、位置/短语检索、限制检索)和高级检索功能(概念检索、相似检索、多语种检索)检索结果处理:排序方式、显示内容/格式、后处理功能(摘要、聚类、翻译)分类功能:分类类目体系的深度、数量、合理性用户界面:界面布局、联机帮助、界面定制、界面广告汉字处理:此与切分、多内码处理/转换、中英文混合检索等其他:响应时间、系统稳定性文本信息处理自动化技术文本挖掘:从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式(或知识)的过程,目前大多基于web技术平台从三个不同方向进行研究,即文本内容挖掘、文本结构挖掘和文本使用记录挖掘。文本聚类与文本分类有何区别和联系?文本聚类是根据文本文档内容相关性来组织文档集合,将整个聚集成若干个类,并使得属于同一类别的文档尽量相似,属于不同类别的文档差别明显。是一种“无监督的学习”,它的特点可以概括为“现有文档后有类”。目前,常用的文本聚类技术主要有两类,即基于系统树状图的等级聚类技术和基于平面划分的动态聚类技术。主要应用价值表现在以下三个方面:发现与某文档相似的一批文档,以帮助用户发现相关知识可以将一个文档集合聚集成若干个类,提供一种组织文档集合的方法可以作为一种文本分类的辅助技术,使用聚类技术可以生成用于文本自动分类的类目体系表文本分类是在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。由于事先已经存在关于这些文本信息的可以使用的分类表,所以文本的分类处理常被看做是一种“有监督的学习”,特点是“先有类后有文档”。文本等级聚类算法的基本思想是什么?请用实例数据对其聚类过程进行模拟指导。基本思想:通过建立并逐步更新距离系数矩阵(或相似系数矩阵),找出并合并最接近的两类,直到全部聚类对象被合并为一类为止。流程:计算文档距离系数矩阵、合并两个最相似的文档类、更新相似矩阵聚合策略:最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法(同类元素的离差平方和应当较小,类间的离差平方和应当较大)文本动态聚类方法的基本思想是什么?其中有哪些问题需要特别关注?产生原因:等级聚类法在进行文本聚类处理时,其聚类策略建立在对待聚类文本集合的全面分析与统计基础之上,要求各文档对象相互独立,彼此之间地位平等。虽然聚类的结果比较准确,但当文档数量比较大时,因为需要进行全面的两两比较,往往导致相关的计算量十分巨大,有时甚至难以承受。基本思想:文本动态聚类法又称“逐步聚类法”,主要致力于在一个平面层次上分割所有的样本点,并通过算法的迭代执行,得到一个比较合理的,有K个类的聚类结果。主要基于这样的假设,即类的中心可以代表整个类,并且一般由该类包含对象的平均值来描述。聚类中心或凝聚点可以理解为类的重心。刚开始时,在参加聚类的文档集合中选取若干有代表的文档作为凝聚点,相当于把这些文档单独成类,然后按照一定的原则使其他文档向凝聚点聚集,即合并于已有的类中,从而实现了文档的初始聚类处理。注意初始聚类中心的选取:重心法、密度法、调用等级聚类法聚类参数K的选取与调整简述K-means聚类算法的基本思想。以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。在聚类的开始,使用随机方式选择K篇文档作为初始的聚类中心,按照前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论