版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索系统(xtng)及评价南京中医药大学文献检索教研室共八十二页教学内容信息检索工具/系统的类型信息检索工具/系统的结构(jigu)信息检索系统评价共八十二页信息检索工具/系统(xtng)二者关系从功能上看: 检索工具和检索系统都用于信息的存储和检索,两者之间没有严格的、绝对的界限。从使用背景上看:检索工具是个比较传统的概念,而检索系统是个比较现代的概念 从检索机制上看:两者是一脉相承的,检索工具的编制原理和方法在检索系统中都有体现,检索工具是检索系统的基础,至今仍然在发挥其重要作用。检索系统是检索工具发展的必然结果,并逐渐占据主导地位很多教材将检索工具作为检索系统的一种特例本课程(kch
2、ng)将检索工具定位为传统的手工印刷型检索工具,信息检索系统则定位于机器或计算机检索系统共八十二页信息检索工具(gngj)/系统类型信息检索工具/系统种类繁多,可以从功能、设备、资源等划分按照(nzho)信息存储与检索操作所使用的设备分:手工检索工具(包括书本式与卡片式)、穿孔卡片系统、缩微式检索系统、计算机检索系统、网络检索系统按资源划分:书目信息检索系统、全文信息检索系统、多媒体信息检索系统按功能划分:文献检索系统、数据库管理系统、自动问答系统(QAS)、管理信息系统(MIS)、决策支持系统按服务划分:回溯检索、定题检索、随机问答、联机订购共八十二页共八十二页信息检索工具/系统(xtng)
3、印刷型检索工具文献检索工具:目录(如全国书目)、题录(如全国报刊索引)、索引(如SCI)、文摘(如CA),它们主要用来对某一课题相关(xinggun)文献进行查找,其结果大多是获得一批文献的线索,少有全文,它们是题录型机读数据库的基础数值/事实检索工具:如百科全书、传记资料、年鉴、地理资料、统计资料、手册等 共八十二页检索(jin su)工具体系结构编辑说明与使用说明、凡例目次表(多为分类表或主题表)正文(有序的信息集合)辅助索引(suyn)(如主题索引(suyn)、著者索引(suyn)等)附表(资料来源目录与附录等)共八十二页信息检索工具(gngj)/系统计算机检索系统单机检索系统:如穿孔卡
4、片系统以及磁带数据库系统,20世纪60年代使用联机检索系统:20世纪70年代发展起来的一种集中式的信息检索光盘检索系统: 20世纪80年代,以光盘为介质的检索系统,有单机光盘和网络(局域网)光盘检索网络检索系统:主要(zhyo)指Internet网络,大量的电子化信息资源,如电子图书、电子期刊、图书馆联机馆藏目录、联机数据库等。 共八十二页信息检索系统(xtng)的体系结构文本数据库数据库管理建索引索引查询操作搜索排序排序后的文档用户反馈文本操作用户界面检出的文档用户需求文本提问逻辑视图倒排文档分词删除停用词(yn c)Stemming(提取词干)为文档建立倒排索引表根据倒排索引表检索出与提问
5、相关的文档将检索出的文档根据相关性排序Query输入和文档输出相关反馈结果的可视化对query进行变换,以改进检索结果共八十二页信息检索系统基本(jbn)结构简介系统结构:指系统的组成及各组成部件之间的关系系统的结构可以从不同的角度和层次(cngc)来讨论本课程主要从物理层面和逻辑层面来考察其内部构成共八十二页信息检索系统基本结构(jigu)物理结构(jigu)计算机检索系统的物理结构指系统的硬件、软件、信息资源等构成的实体系统结构硬件部分:主机、外存储器、输入与输出设备(shbi)、数据处理及数据传输设备(shbi)软件部分:系统软件(操作系统、语言处理程序等)和应用软件(数据采集程序、自动
6、标引程序、建库与索引程序、词汇管理程序、检索匹配程序等)信息资源:主要指以数据库(还有模型库、规则库、本体库等)形式存储在检索系统的有序信息集合同时按照物理空间的分布情况,信息检索系统的物理结构还可以分为集中式和分布式共八十二页信息检索系统基本结构(jigu)-逻辑结构信息源选择与采集子系统标引子系统建库子系统用户接口子系统提问处理子系统词表管理子系统共八十二页信息组织各功能模块信息资源(zyun)及其采集在创建信息系统之前,需要先根据检索系统经营方针和服务对象的需要从各种信息源和信息渠道中完成信息资源的采集工作(gngzu)它决定了信息检索系统中数据库的类型及收录范围目前的信息检索系统多采用
7、计算机为主导的资源采集方法,如扫描、复制、链接、合并以及格式转换都有计算机完成共八十二页信息组织(zzh)各功能模块标引处理对之前采集的信息进行各种检索特征(tzhng)的分析并使之显性化的过程,其实就是信息组织过程中描述著录以及揭示标引的工作标引工作决定数据库的标引深度和检索点标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理自动标引分为自动抽词和自动赋词 共八十二页信息组织(zzh)各功能模块自动标引思路分析自动抽词标引思路标引词往往会选择高频词,考虑(kol)词的绝对数、与文本长度有关的数、词频超过一定阈值的词数、或根据算法计算出的重要短语。在西文文献
8、中,抽词标引时还可以选择标引词根。如单复数、动词状态等自动赋词标引思路预先编制词表,如叙词表需要有将被引文献中的词和词表中词进行匹配计算的算法有概率模型和基于概念的模型共八十二页信息组织各功能模块基于词汇(chu)分布特征的标引统计标引法:词频统计标引法:齐夫定律加权统计标引法:逆文档频率法:词的文献频率和词权有互逆关系.词区分值法:本质和逆文档频率法一致,但采用向量模型计算文献去掉(q dio)某词后的文献空间密度的变化来决定是否标引词N-Gram法共八十二页信息组织各功能模块中文(zhngwn)自动标引的研究中文自动标引的难题词典切分法:主题词表、关键词词典和部件词典法(部件词通常是建立一
9、个二字部件词典和一个一字部件词典,其标引过程类似最大匹配法)切分标记法:将能够(nnggu)断开句子或表示汉字之间关系的汉字集合组成切分标记机内字典,如词首字、词尾字、不构词的单字、非用字等单汉字法:单汉字位置标引法(从文本中将汉字逐一取出,同时赋上文献号、字段号以及汉字所在位置,将这些信息写入单汉字索引文件文档)和首字直接匹配法共八十二页信息组织各功能模块数据库创建(chungjin)与维护依据上述步骤形成(xngchng)的有序信息一般以数据库的形式存储在检索系统中,常见的数据库有文献型数据库和非文献型数据库文献型数据库包括书目(如索引、文摘等)和全文数据库,非文献型数据库包括指南数据库(
10、如人物传记、公司名录、机构指南数据库等)、数值数据库和术语等特殊类型的数据库共八十二页数据库结构(jigu)概念:数据库是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。数据库的结构:由文档、记录(jl)和字段三个层次构成共八十二页数据库的构成(guchng)文档:数据库中一部分记录的集合(其实质是数据库中的表)。许多大型数据库为了方便用户,常常(chngchng)把数据库分割成若干文档,如Medline数据库分为现期文档和若干个回溯文档。文档是数据库的结构。数据库是由一个顺排文档和若干个倒排文档所构成。共八十二页顺排文档顺序文档:文档中的全部记录按顺序一个接
11、一个地存放,记录的物理位置通常按照存取号由小到大排列特征:记录间的逻辑顺序和物理顺序一致基于其他(qt)特征看文档处于无序状态检索时间与物理位置有关修改和删除容易,插入难顺序文档的检索过程分析检索方法:表展开法、逻辑树法顺序文档检索在脱机批处理的定题检索中应用共八十二页倒排文档倒排文档:将顺序文档中的可检索字段(如作者名、关键词、分类号等)取出,按照一定(ydng)的规则排序,归并相同词汇(如姓名、类号等),并把在顺序文档中相关的记录的记录号集合赋予其后而形成的文档,也称索引文档。目的:保证通过某一特征词快速、方便地获取相关记录倒排文档结构:索引词(如作者、主题词等)、目长(含有该索引词的记录
12、条数)、记录号集合(还有该索引词的所有记录号)倒排文档检索方法:逆波兰展开法共八十二页随机(su j)文档随机文档:文档中的记录按随机方式存放在支持直接存取的磁盘或者内存中,查找记录依赖于记录的关键码和存放该记录的地址之间建立的某种关系特征:文档中记录可以随机存放,不考虑其在记录集合中的排列次序数据的存取时间与数据的存储位置无关(wgun)实现随机文档快速存取的关键是寻址技术共八十二页数据库的构成(guchng)记录(Record)是构成数据库的一个完整的信息单元,每条记录描述了原始(yunsh)信息的外部和内部特征。书目数据库中的一条记录通常代表一篇文献,其它类型数据库中的记录则是某种信息单
13、元,如一种治疗方案、一组理化指数等。共八十二页数据库的构成(guchng)字段比记录(jl)更小的单位是字段,是组成记录(jl)的数据的信息项。例如在书目数据库Medline中一条记录代表一篇文献,在这条记录中有题名(TI)、著者(AU)、来源(SO)、主题词(MH)等字段。共八十二页数据库的构成(guchng)字段记录(jl)文档数据库共八十二页记录(jl)字段【分类号】 R-05; R459.9; R735.705.8【标题】 中药在原发性肝癌介入栓塞治疗方面的研究进展【著者】 楚建设; 孙伟芬(指导)【著者单位】 泉州福建中医学院附属泉州市中医院 362000【出处(chch)】 山西中
14、医 2005.06.15; 21(3): 58-59【关键词】 肝癌; 介入栓塞治疗; 研究进展; 中药; 综述【主题词】 肝肿瘤/*中西医结合疗法; *栓塞, 治疗性; 综述文献类型共八十二页数据库类型(lixng)文献型数据库书目(shm)型数据库全文数据库非文献型数据库指示型数据库数值型数据库术语数据库共八十二页书目(shm)数据库又称二次文献数据库检索结果是所需文献的线索而非原文。依照二次文献的不同类型又可分为题录型和文摘型CBM Web(中国(zhn u)生物医学文献数据库)、Pubmed、web of science、CA(美国化学文摘数据库)、BA(生物学文摘数据库)共八十二页全
15、文(qun wn)数据库存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率(xio l)中国学术期刊数据库、万方数据库、维普数据库等全文数据库。国外有springerlink、ebsco、ovid、sciencedirect数据库共八十二页共八十二页指示(zhsh)型数据库存储实体(如机构、人物)的一般指示描述的一种参考数据库。又称字典型数据库,用于用户参考和指南的各类文献信息(xnx)公司名录数据库、人物传记数据库、技术标准数据库、产品指南数据库和大学指南数据库。万方数据库机构人物数据库、医生咨询数据库(PDQ)
16、共八十二页数值(shz)数据库以数值型数据为主的数据库从文献资料中分析提取出来数据、或是实验、观测和统计中得到的数据建立的数据库分为纯数值型数据库和文字/数值型数据库。万方公司的CSTPC(中国(zhn u)科技论文统计与分析库),中国(zhn u)科学院的工程化学数据库和图谱数据库,以及中国(zhn u)统计数据库都是此类共八十二页术语(shy)数据库由主文档和相应索引文档组成字段结构反映术语的各种属性主要用于辅助翻译(fny)和辞书编撰的工具如中国知网的术语数据库共八十二页信息检索各功能模块理解(lji)用户界面用户界面主要承担用户与系统之间的通讯任务,完成人机交互和对话界面设计一定要强调
17、人的因素,是界面适应人而不是用户适应界面功能:帮助用户理解和表达(biod)信息需求帮助用户构造检索式,拟定检索策略帮助用户选择有效的信息源帮助用户理解和控制检索结果帮助用户跟踪检索过程共八十二页信息检索各功能模块用户(yngh)获取信息的特性和能力人的特性(txng):人获取信息的多通道性人的易出错性和易疲劳性用户的层次和发展性 人获取信息的能力优势:人能通过感觉器官十分敏感地接受综合信息,识别物体状态、大小、颜色,阅读文件,分别声音,并能将这些信息通过大脑进行分析和决策;人有较高的创造性、智能性,具有适应、学习、自动维修、应急等能力不足:信息通道小,内存数量有限;大脑计算、思维和决策的速度
18、不及计算机;感觉器官信息接受能力有限,完成机械、单调和重复工作的效率不高;功能发挥可靠性差计算机获取信息的能力界面功能分配原则:比较分配原则;剩余分配原则;宜人分配原则 共八十二页信息检索各功能模块用户的检索(jin su)行为用户的检索行为指用户为获取所需信息,在与检索系统交互过程中的一系列身体活动和心理活动主要包括:检索前提问式的构造、重构检索式、提问式的长度、布尔算符的使用、短语的使用等研究表明:一定检索经验的专业检索人员(rnyun)更常使用多种检索功能,并使用复杂的技巧;熟悉系统的专业技术人员更倾向使用专业术语进行检索;检索知识和技能较低的人往往会使用较长的检索句进行检索,且多从宽泛
19、词开始检索,在检索结果出现后再逐步缩小检索范围共八十二页信息检索各功能模块用户界面构成(guchng)要素文本:结果输出文本(突显技术)、联机用户手册和帮助(超链接)、系统提示文本信息(可以采用小图标的伴随)。力求文本的格式一致统一窗口:单一窗口、多窗口框架、重叠窗口布局菜单:下拉式菜单最常用,常被用于选择数据库、选择索引词、选择检索字段、选择布尔逻辑算符、选择检索限制范围(fnwi)、选择输出方式等。另外也有一些树形菜单表框:文本框、单选框、复选框和列表框图形图像动画:一般用于信息提示、警告、操作提示和指示操作状态 共八十二页用户界面(yn h ji min)遵循原则保持界面直观简洁(jin
20、ji)保持协调一致界面布局合理提示信息完整设计完善的帮助体系共八十二页信息检索各功能模块用户界面(yn h ji min)种类和风格按照界面元素划分字符文本界面图形化界面按照人机交互式划分命令语言(yyn)界面表格填充和菜单选择界面直接操纵界面自然语言界面按照检索过程的不同阶段分:作为检索起点的界面作为检索过程的界面(提问界面与检索控制界面)作为检索结果显示的界面 共八十二页信息检索各功能模块理解(lji)可视化可视化:运用计算机图形学和图像处理(chl)技术,将数据、信息或知识转换为图形或图像在屏幕上显示出来并进行交互处理(chl)的理论、方法和技术常见模式:图象、曲线、二维图形、三维体和动
21、画 可视化技术的应用除了信息的表达外,充分调用了用户的感知能力和想象力能力 共八十二页信息检索各功能模块提问(twn)处理与检索匹配该模块负责处理用户输入的检索式并将他们与数据库中存储的文档进行(jnxng)匹配运算,然后将结果返回给用户该模块是系统的技术核心共八十二页信息检索系统的热点(r din)研究语义网语义检索智能检索知识挖掘异构信息(xnx)整合共八十二页信息检索系统(xtng)评价评价(Evaluation):发现和收集关于某种活动的数据,从中判断该项活动的质量及达到预期目标程度的行为。简单地说,评价就是对系统的价值和效率进行测评。信息检索系统评价:根据给定的指标体系,采用一定的方
22、法和程序,对信息检索系统的功能、特性和运营状况进行评测,或对有关假设、预期效益、性能(xngnng)值进行验证,以确定系统达到了何种水平、投入成本是否值得、是否可以改进和如何改进,乃至系统是否应生存下去。共八十二页信息检索系统(xtng)评价信息检索系统的评价研究,一直是信息检索领域的一项重要(zhngyo)研究内容。多年来人们进行了大量的评价试验和多角度的探索。原因在于,检索系统评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等方面,都具有不可替代的作用。共八十二页信息检索系统(xtng)评价针对一个检索系统,可以从功能和性能两个方面对其进行分析
23、评价功能评价:可通过测试系统来判定是否支持某项功能,因此相对来说较容易检索功能的评价:是否易于(yy)使用、是否具有用户学习平台、信息的可视化水平、结果的相关度输出、源信息获取的难易程度。性能评价:对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序性能评价内容包括:资源的收录状况、数据的质量、检索的功能和效率、系统的功能以及检索结果的反馈形式等。资源的收录状况的评价:“全”、“精”、“快”数据的质量评价:一是数据的录入质量(错误率、数据结构、完整性著录完备性),二是数据加工的质量(加工深度、标引质量、分类是否合理)检索的功能和效率评价:考察检索入口能否满足
24、用户的需求、检索的组配是否合理、检索的响应速度如何?共八十二页评价(pngji)意义了解已有检索系统的功能,找出缺陷并改进;比较各种检索系统的优劣;提高提高效率和效益;有助于新的检索系统的设计(shj);丰富信息检索的理论。共八十二页评价范围(fnwi)与类型信息检索系统是一个有众多功能模块组成的集合体。评价可以从不同角度、基于不同目的和方法来进行。评价范围:各种类型的检索系统及组成要素。评价类型:宏观评价:着眼于检索系统的宏观方面,如情报源类型、系统结构、收录范围、利用率等。个别评价:仅对系统的某一性能、功能进行评价。性能评价(performance evaluation):面向用户的评价,
25、测定检索系统的质量或服务效果。也称为检索效果评价(effectiveness evaluation)。效益评价(benefits evaluation):测定系统或用户(yngh)获得的的经济效益和社会效益。 (有直接的、潜在的;难以直接计量)费用/效果评价(cost effectiveness evaluation):考察系统达到的性能与费用消耗之间的关系。(用户、系统两方面)费用/效益评价(cost benefits evaluation):考察系统的服务效益与费用消耗间的关系。(计量难度较大)共八十二页相关性相关性理论假定:对于一个给定的文档集合和一个用户(yngh)查询,存在并且只存在
26、一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档共八十二页评价(pngji)指标体系共八十二页主要(zhyo)性能指标及分析查全率(召回率)(Recall ratio,R):衡量一次检索中与提问相关的文献(wnxin)有多少篇被检出。(衡量检出相关文献的能力)查准率(准确率)(Precision ratio,P):衡量被检出的文献中有多少篇与提问相关。 (衡量检索的精确度)共八十二页相关(xinggun)文本检索(jin su)出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关查全率和查准率关系图共八十二页查全率和查准率的关系(g
27、un x)101查准率查全率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾共八十二页示例(shl)例: 设某检索系统的数据库中共有相关(xinggun)文献20篇。针对某一个提问,检出文献总数为30篇,其中相关(xinggun)文献数为15篇。求查全率R、查准率P。共八十二页小结(xioji)为便于分析,我们给出数学(shxu)语言描述:设某文献库所存储的文献总量为L。对某一给定提问, a表示被检出的与提问相关的文献数;(前例 a=15) b表示被检出的与提问无关的文献数;(误检,前例 b=15) c表示与提问相关,但未被检出的文献数(漏检,前例 c=5)显
28、然,p共八十二页查全率和查准率的相互(xingh)关系一个理想的检索系统,应是、。但实际上是不可能的。一般说来,二者之间存在着反变关系,即:若要提高查全率,查准率往往就会下降(xijing);若要提高查准率,查全率又就会下降(xijing)。 (二者相互制约)共八十二页影响查全率、查准率的相关(xinggun)因素文献库编制质量:文献收集是否齐全,索引体系是否完善,检索途径的多少,都会影响到查全率。对情报需求的理解:要达到较高的查全率和查准率,应较好地理解情报需求,制定好检索策略。检索语言的一致性:检索的实质就是提问标识与文献标识的异同比较。 为此,需要不同人员表达文献主题的语言一致,更需要标
29、识提问与标识文献的语言一致。即,标引语言和检索语言的一致性,对查全和查准起着支配作用。标引的网罗(wnglu)性:对文献主题分析得越透彻,抽出的检索词越多,检索时可检出的相关文献就越多,即查全率越高。但检出的文献并非全部适用,因而查准率降低。 反之,如果标引时只标出中心主题,检出的文献必然比较适用,即查准率较高。但漏检会增多,从而降低查全率。共八十二页影响查全率、查准率的相关(xinggun)因素检索词的专指性:检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口,查准率就越高。但命中文献就越少,查全率就会降低。 相反,如果检索词定得较笼统(lng tng)、较宽泛,检出的文献就会增多,
30、查全率会提高。但不相关的文献也会增多,查准率会降低。检索策略和提问构造:对检索词的选取,需恰当地确定网罗度和专指度。当采用布尔组配时,若使用AND较多,即限制严,则下降,而上升;反之,若使用OR较多,则上升,而下降。检索软件的功能:检索软件功能是否完善,结构是否合理,影响到是否会漏检和误检。检索者的熟练程度:检索人员的专业知识水平、使用系统的熟练程度,对R和P影响很大。往往是系统一方的检索者自拟定检索式时查准率高,而检索用户编制检索式时,因不熟悉系统和不善于使用系统,就容易造成误检、漏检。共八十二页对查全率和查准率的要求(yoqi)作为一个检索系统,应同时具备较强的查全能力和查准能力。但并不是
31、每个用户在任何时候都需要高查全率和高查准率,不同用户有不同要求。 通常,根据不同的情报需求,可分为四种要求:a要求查全率= 如申请专利、发明或评定某项成果,需要对世界范围的有关情报作全面了解,才能作出客观的评价。此时往往要求=的检索。b要求较高查全率 例如编写教材、综述某学科或技术领域的发展,往往需要较全面地获得有关文献或情报。此时对查全率有较高要求,但不一定要求。c要求较高查准率 例如要了解某种具体产品的有关信息,解决某一具体问题或查新等,往往只需了解某一方面或某一时期的有关情报。此时要求查准率较高。d对查全率、查准率无具体要求 有些情报需求,用户本身不能作出确切(quqi)表达。因此,用户
32、对查全率和查准率也无法提出具体要求。共八十二页提高(t go)查全率方法1.选择在文摘字段中检索;2.减少用“AND”或“NOT”算符联结的概念;3.增加用“OR”联结检索词;4.选用上位词或近义词、同义词;5.采用截词检索法。6.删除(shnch)某个不重要的检索词。7.扩大检索时间跨度和信息源种类共八十二页提高(t go)查准率方法1.充分利用下位类检索词,提高检索词的专指度。2.增加AND连接,进一步限定主题词。3.在检出记录中选取新的检索词对结果进行再次限制。4.把检索词限定在主要字段,如标题字段、主题词字段等。5.缩短检索年限,或限定某些刊物(knw)。6.利用逻辑“非”进行限制。7
33、.采用加权检索。共八十二页响应(xingyng)时间(response time)对任何计算机应用系统,响应时间都是一个重要指标。信息检索的响应时间可分为两种情形: (1)委托检索,表示从用户(yngh)送交提问到收到检索结果所花的时间; (2)非委托检索,表示用户实际的检索时间。计算响应时间一般都是针对某一个提问而言,不同的提问对应的响应时间不同。(因提问式长短、复杂程度而不同) 有时给出平均响应时间T。ti表示对第i个提问的响应时间,k为提问个数共八十二页影响响应时间(shjin)的因素(1)文献库规模:规模越大,检索时间越长,响应时间值也就越大。(2)机器速度:主机运行速度越快,响应时间
34、越短。(3)检索软件:检索软件是关键,其性能越好,检索时间就越短。(4)存储设备类型和数据的存贮结构:存储设备的访问速度越快,数据的存贮结构(外存贮)越合理,检索越容易,响应时间也就越短。(5)提问组配形式:检索式的构造需要有一定的专业技能和检索经验,是一个不断修改和完善的过程。(6)信息中心与检索者的距离(jl):通信传输时间与距离(jl)有关。共八十二页存贮空间开销(ki xio)包括系统所占用的内存空间和外存空间。对内存空间,当检索系统采用大、中型计算机时,一般不必考虑;而当系统采用小型、微型机时,因内存空间有限,就需合理分配。对外存空间,不同的文档结构所需存储空间差别很大。例如,顺排文
35、档检索和倒排文档检索所需空间不同;而对倒排检索,系统仅提供布尔检索功能与提供正文(zhngwn)检索功能相比,所需的空间也大不一样。共八十二页其它(qt)指标新颖率(Novelty ratio,N):指一次检索中检出的相关文献有多少篇是新文献。(反映文献库更新程度) 检出的新的相关文献量 N = 检出的相关文献总量信息覆盖率(Coverage,C):也称收录范围,是指文献库复盖的学科范围、信息类型、数量(shling)和时间跨度。 给定时间内系统收录的文献总量 C = - 同期相关领域中的实际文献量 共八十二页图示覆盖率和新颖(xnyng)率相关(xinggun)文献|R|结果集|A|用户已知
36、的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|共八十二页国外的评测TREC评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索(IR) 界为进行检索系统和用户评价而举行的活动(hu dng), 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 NTCIR评测NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics
37、,简称NII)主办的搜索引擎评价型国际会议 CLEF评测CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 共八十二页TREC评测(Benchmark)TREC: Text REtrieval Conference (/)1992年开始,每年一次由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standar
38、ds and Technology (NIST)联合发起(fq)参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者组织者对各参赛者的结果进行评价包括检索、过滤、问答等多个主题共八十二页TREC的目标(mbio)通过提供大型的语料库、统一的测试程序及系统整理评测的结果数据,来促进信息检索技术的发展;强调检索技术的先进性与实用性的有机结合(jih);倡导以大规模数据为基础的信息检索研究;为学术界、工业界、政府部门等提供交流研究思想的公开论坛,促进各部门之间的合作与交流;便于从实验室研究成果到商品化产品的技术转换。共八十二页TREC的运行(ynx
39、ng)方式TREC由一个程序委员会管理。这个委员会包括来自政府、工业界和学术界的代表。TREC以年度为周期运行。过程为:确定任务参加者报名参加者运行任务返回运行结果结果评估大会交流一开始仅仅面向文本,后来逐渐加入语音、图像、视频方面的评测确定任务:NIST提供测试(csh)数据和测试(csh)问题报名:参加者根据自己的兴趣选择任务运行任务:参加者用自己的检索系统运行测试问题,给出结果返回结果:参加者向NIST返回他们的运行结果,以便评估结果评估:NIST使用一套固定的方法和软件对参加者的运行结果给出评测结果大会交流:每年的11月召开会议,由当年的参加者们交流彼此的经验共八十二页国内863评测介
40、绍(jisho)全名:863计划中文信息处理与智能(zh nn)人机接口技术评测组织者:国家高技术研究发展计划(863计划)方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别共八十二页863评测介绍(jisho)信息检索评测项目:相关网页检索任务定义:给定主题,返回(fnhu)数据中与该主题相关的网页。 数据:CWT100g (中文Web测试集100g)根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,594,521)包括网页内容和Web服务器返回的信息真实容量为90GB。共八十二页主题(zht)主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于(ziy):主题是对信息需求的陈述,查询则是信息检索系统的实际输入。主题由4个字段组成:编号(num)标题(title)描述(desc)叙述(narr)共八十二页主题(zht)实例 下载香奈儿 描述:mp3格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度LED屏幕亮度调节与节能改造合同
- 2024年度知识产权保护合同:MLB棒球帽正品知识分享
- 2024年度物业服务合同标的及安全生产责任书
- 2024年多功能空调维修合作协议
- 2024装修合同该如何写范文
- 2024办公家具购买合同
- 2024年城市基础设施建设合同 with 工程质量与投资预算
- 2024年出版发行代理合同
- 【初中生物】脊椎动物(第2课时两栖动物和爬行动物) 2024-2025学年七年级生物上学期(人教版2024)
- 2024加工贸易合同
- 超市营运培训教案公开课
- 尊重学术道德遵守学术规范学习通超星期末考试答案章节答案2024年
- GB/T 44693.2-2024危险化学品企业工艺平稳性第2部分:控制回路性能评估与优化技术规范
- 2024年新华社招聘笔试参考题库附带答案详解
- 肺癌(肺恶性肿瘤)中医临床路径
- 天津市2023-2024学年高一上学期语文期中考试试卷(含答案)
- 证券投资学期末考试卷及答案2套
- 十七个岗位安全操作规程手册
- 12 光的传播 (教学设计)-2023-2024学年五年级上册科学人教鄂教版
- 3.9.1 增强安全意识-2024-2025学年初中道德与法治七年级上册上课课件
- 2024年“泰山杯”山东省网络安全职业技能竞赛理论试题库(含答案)
评论
0/150
提交评论