版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论第一节信息一、信息概念哈特莱:信息是选择通信符号方式申农:信息是使不确定性消除某种东西维纳:信息是我们适应外部世界,并把适应反作用于外部世界过程中同外部世界进行相互联络、相互作用、相互交换一个内容第一章绪论《中国大百科全书》:狭义:用来消除对客观事物认识不定性东西,是符号、信号或消息所包含内容。广义:本体意义说,信息泛指一切事物(物质、精神)运动状态和方式,包含事物内部状态和方式以及与外部联络状态和方式。认识论意义说,信息是关于事物运动状态和运动方式反应,它能够用来消除人们认识上对应不确定性。第一章绪论二、信息特点
1、依附性2、传递性3、共享性4、价值不确定性5、可开发性6、可存放性7、时效性第一章绪论三、相关概念1、数据是未经整理,可判读描述事物特征符号序列,统计或载荷信息。如:图书馆上六个月电子期刊利用人数2203004566117238311月2月3月4月5月6月信息:在特定背景下,经过整理,能够表示一定意义一组数据。第一章绪论2、知识是人们对客观事物存在和运动规律认识。如:一个苹果+一个苹果=二个苹果一间教室+一间教室=二间教室
……1+1=2
知识是信息一部分,即反应客观世界规律性认识那部分信息才是知识第一章绪论3、情报《辞海》《辞源》:“战时关于敌情之汇报”情——情况报——报道、交流、传递通常解释:为处理特定问题,传递给特定对象有用知识,含有知识性、针对性、传递性、及时性。情报是特定知识,是知识一部分。第一章绪论4、文件《论语》“八佾”古代:文——典籍献——贤者当代:统计有知识一切载体。详细讲,用文字、图形、符号、声频、视频等伎俩统计下来人类知识一切物质载体。两个要素:知识物质载体第一章绪论5、资料广义上,对人有帮助物质材料。狭义上,是对生产、科研、教学、管理决议起参考借鉴作用文件。如:写论文查找相关资料第一章绪论请思索:信息、数据、知识、情报、文件和资料这六者之间关系是什么?第一章绪论第二节信息源与信息资源一信息源
1、概念产生信息事物,信息生成源。第一章绪论2、分类按照起源形式分:
1)个人信息源
2)实物信息源
3)文件信息源
4)数据库信息源
5)组织机构第一章绪论按照生产过程分一次信息源二次信息源三次信息源第一章绪论一次信息:一次文件是人们直接以自己生产、科研、社会活动等实践经验为依据生产出来文件,也常被称为原始文件(或叫一级文件),其所记载知识、信息比较新奇、详细、详尽。第一章绪论一次文件特点:一是内容含有独创性。二是内容叙述详细、详尽,有参考学习利用价值。三是一次文件数量庞大、分散在期刊、论文集、图书、会议论文、学文论文等等各种文件中,检索困难。第一章绪论二次文件:二次文件又称二级次文件,是对一次文件进行加工整理后产物,即对无序一次文件外部特征如题名、作者、出处等进行著录,或将其内容压缩成介绍、提要或文摘,并按照一定学科或专业加以有序化而形成文件形式,如目录、文摘杂志(包含介绍式检索刊物)等第一章绪论二次文件特点:1.浓缩性,是对原始文件内容浓缩,是情报工作主要工具,成为一个信息文体;2.聚集性,二次文件经过情报工作者加工,把相关内容聚集在一起,能比较全方面地反应某个学科、专业或专题在一定时空范围内文件线索;
3.系统性,因为二次文件是经过情报工作者加工,所以它能系统地反应某个学科、专业或专题在一定时空范围内最新研究结果第一章绪论三次文件:指对相关一次文件、二次文件进行广泛深入分析研究之后综合概括而成产物,人们常把这类文件称为“情报研究”结果,包含综述、专题述评、学科年度总结、进展汇报、数据手册、以及文件指南等。第一章绪论注:一次文件和三次文件都融入了作者智力劳动,是信息分析过程。而二次文件只是信息有序化过程,是信息加工过程。第一章绪论二信息资源概念狭义:指信息本身。广义:指信息及其相关原因集合。详细讲:即信息及信息搜集、加工、存贮、处理、传输和利用相关技术、设施、资金和人。第一章绪论
三信息源与信息资源信息源包含信息资源,信息资源是其中一个信息源。不过,信息资源是有用而且经过组织、有序、可存取信息集合,并非全部信息源都是信息资源。所以,信息资源一定是信息源,信息源不一定是信息资源。第一章绪论第三节信息素质一、信息素质概念这一概念是1974年由美国信息产业协会主席保罗·泽考斯基首次提出。“利用大量信息工具及主要信息源使问题得到处理技能”第一章绪论内涵:一是处理问题需要信息。二是含有利用信息技能。三是利用信息能够处理问题。举例:要买房子问题???第一章绪论信息素质不但蕴含着客观性发掘和利用信息基本技能,还包含主观性认识和判断信息基本品质。主要包含信息意识、信息能力和信息道德
第一章绪论二、信息意识
对信息含有特殊、敏锐感受力和长久注意力,是人对各种信息自觉心理反应。举例:就业信息敏锐感受力科学研究长久注意力第一章绪论三、信息能力详细包含信息获取能力、信息评价能力、信息组织能力、信息利用能力和信息交流能力。
信息获取能力:利用现有信息资源和检索工具,查找并获取所需信息能力。第一章绪论信息评价能力:对信息进行筛选、判断、甄别和评价能力。信息组织能力:对无序信息,依据一定规则和方法,使其成为有序信息。信息利用能力:对掌握信息进行深层次加工,从中获取所需特定信息,进而产生新信息能力。信息交流能力:交换信息和传递信息能力。第一章绪论四、信息道德人们在信息活动中应恪守行为规范,如保护知识产权、尊重个人隐私、抵制不良信息等。第一章绪论1、处理好信息产权和信息共享关系。2、处理好信息准确性和信息自由关系。3、抵制信息犯罪,信息窃取和盗用、信息敲诈和勒索、信息攻击和破坏、信息污染和滥用等等。第一章绪论五、信息素质评价标准:美国:《美国高等教育信息素养能力标准》英国:“信息素养7个支柱模型”澳大利亚:《澳大利亚信息素养标准》第一章绪论六、信息素质教育指为启发人信息意识、提升人信息能力、提升人信息道德水平所进行一系列社会教育和培训活动。
目标不但是培养人们信息检索技能和计算机应用技术,更主要是培养人们对当代信息环境了解能力、应变能力以及利用信息自觉性、预见性和独立性,从而提升人们综合素质。
第一章绪论1、教学内容基础层次:图书馆入馆教育、计算机网络基本知识等普通层次:信息检索、信息加工等高级层次:信息分析、知识管理等第一章绪论2、教学模式(1)基于资源协作式教学模式(2)基于问题情景教学模式(3)自主学习模式(4)参加式教学模式第一章绪论练习:以小组为单位,依据《美国高等教育信息素养能力标准》评价指标,设计《常州大学大学生信息素质》调查问卷。第二章信息检索基础原理第一节信息资源检索概述一概念与类型1、概念广义和狭义第二章信息检索基础原理
从广义上讲,信息资源检索包含两个过程,一是信息资源存放,既是对相关信息进行选择,并对信息特征进行著录、标引和组织,建立信息数据库过程。二是信息资源检索,既是依据提问制订检索策略和表示式,利用数据库查找信息资源过程。从狭义上讲,信息资源检索指后部分。第二章信息检索基础原理2、类型按检索结果内容划分:文件信息检索,数据信息检索,事实信息检索。第二章信息检索基础原理文件信息检索:以文件原文为检索对象一个检索。通常经过目录、索引、文摘等二次文件,以原始文件出处为检索目标,能够向用户提供原文件信息。举例:图书馆书目查询系统第二章信息检索基础原理数据检索:以文件中数据为对象一个检索。这种检索将经过选择、整理、判定数据存入数据库中,依据需要查询处理,以回答某一问题。这些数据包含物理性能常数、国民生产总值统计数据、外汇之处等等。惯用工具书有年鉴、地方志等。举例:1996年广州人口和面积情况第二章信息检索基础原理事实检索:以文件中事实为对象,检索某一事件发生时间、地点或过程。主要使用工具书有年鉴、大事记、百科全书、史料汇编等。比如:“安史之乱”相关材料。第二章信息检索基础原理3、信息检索示意图信息源主题概念数据库检索标识命中文件信息需求主题概念信息检索语言检索提问第二章信息检索基础原理二、信息检索发展阶段1、脱机检索阶段(1954-1964)2、联机检索阶段(1965-1991)3、网络化联机检索(1991至今)第二章信息检索基础原理
1946年世界上第一台计算机问世后,在50年代初就应用在信息检索领域。脱机检索是用户不与检索系统发生直接联络,只需把检索要求送往检索中心,由检索人员进行文件检索一个检索方式。第二章信息检索基础原理1965年美国系统发展企业研制成功联机情报检索软件ORBIT,开始了联机检索阶段。与此同时,美国洛克希德企业研制成功了Dialog检索系统,至今,任然为世界上最著名信息检索系统。第二章信息检索基础原理第二节信息检索方法和策略一、传统信息检索普通方法1、常规检索方法又称直接法,是直接利用检索系统检索文件信息方法。又分为顺查法、倒查法和抽查法。第二章信息检索基础原理(1)顺查法按照时间次序,由远而近检索文件方法。这种方法能搜集到某一课题系统文件,适合用于较大课题文件检索。比如:已知某课题起始年代,现在需要了解其发展全过程,就能够用顺查法从最初年代开始,逐步向近期查。第二章信息检索基础原理(2)倒查法由近及远,从新到旧,逆着时间次序进行文件检索方法。此法重点是放在近期文件上。第二章信息检索基础原理(3)抽查法针对项目标特点,选择相关项目标文件信息最可能出现或者最多出现时间段,进行重点检索方法。这种方法较少时间取得最多文件。第二章信息检索基础原理2、回溯检索法又称引文法,是利用已经有文件末尾所附参考文件进行追溯查找方法,是一个跟踪查找方法。第二章信息检索基础原理3、循环检索法又称交替法,是交替使用常规检索方法和追溯检索方法方法。注意:在实际检索中,要视条件可能和课题需要来选择对应检索方法第二章信息检索基础原理二、计算机信息检索策略1、最专指面优先策略是指检索时首先查找全部概念组面中最专指一个概念组面,然后依据用户需求及初步检索结果,决定是否需要加入以及怎样加入其它概念组面。第二章信息检索基础原理如果命中文件数量远远大于用户期望值,或者初步检索范围过于宽泛,则要用AND或NOT加入其他概念组面,或者条件更加严格。如果命中文件数量小于用户期望值,或者初步检索范围过于狭窄,则用OR加入其他概念组面,或者条件更为宽松。如果命中文件数量接近用户期望值,且结果也满意,就结束此次检索;倘若结果不理想,要调整检索。第二章信息检索基础原理2、积木式策略是指检索时首先逐一查找各个概念组面,然后将各个组面组配起来,得到最终检索结果。
缺点:检索结果不理想时,不知问题出在哪里。第二章信息检索基础原理3、引文珠形增加策略是指首先以一个较为关键概念组面进行试检验,并仔细浏览初步检索结果,尤其是尤其符适用户需要文件统计,从中选择更多、更适当检索词再进行检索,然后再浏览命汉字献,从中选择检索词,接着检索,如此重复操作,直至得到理想检索结果。第二章信息检索基础原理4、连续分割策略是指检索时首先建立较大初始文件集,然后利用各种检索限制,逐步缩小检索范围,直至符适用户需要为止。第二章信息检索基础原理三、信息检索操作步骤1、分析检索任务2、选择检索工具3、确定检索路径4、选择检索方法5、制订检索策略6、获取检索结果分析研究课题主题内容、学科范围,然后分析出所需要信息主题概念及其特征,提取关键词、包括语种、分布地域、年代范围、相关著者和机构等作为检索词,再确定课题对查新、查准、查全指标要求。(1)目录:著录一批相关图书或其它类型出版物,并按照一定次序编排而成一个检索工具。(2)索引:统计一批图书、报刊等所载文章篇名、著者、主题、人名等,并表明出处,按一定次序组织起来一个检索工具。(3)文摘:以提供文件内容梗概为目标,不加评论和补充解释,简明记述文件内容短文,并按一定方法编排检索工具。(4)百科全书:概述人类一切门类或某一门类知识完备工具书。(5)年鉴:按年度聚集一定范围重大事件工具书。(6)手册、名目:手册是聚集专业知识工具书;名目是提供相关(人名、地名、机构名)等信息工具书。(7)词典(字典)(8)表谱、图录:表谱是采取图表、谱系形式编写工具书;图录就是地图目录。(9)类书、政书:类书是一个古典文件工具书,使中国古代特有工具书;政书是中国古代记述典章制度图书。确定检索词选取主题词选取专业术语选取同义词或相关词第二章信息检索基础原理第三节信息检索效果一、信息检索评价指标1、查全率2、查准率
查全率和查准率是美国学者佩里和肯特在20世纪50年代最先提出。是信息检索效果评价两个指标。第二章信息检索基础原理相关文件非相关文件检出文件未检出文件abcd第二章信息检索基础原理查全率=a/a+c*100%查准率=a/a+b*100%注意:理论上,利用公式对每一次信息检索,都可计算出查全率和查准率,对检索效率做出定量化评价。但在实际量化操作中,根本不可能浏览全部文件信息,未被检出相关文件数量和文件总量等都极难统计。第二章信息检索基础原理查全率和查准率相互关系一个理想检索系统,应是R=1、P=1。
但实际上是不可能。普通说来,二者之间存在着反变关系,即:
若要提升查全率,查准率往往就会下降;若要提升查准率,查全率又就会下降。
(二者相互制约)第二章信息检索基础原理R与P关系可由下列图描述:(称为R-P图)第二章信息检索基础原理提升查全率方法:扩大检索课题目标,使用主要概念,排除次要概念跨库检索逐步扩大检索路径检索范围取消限定条件降低检索词专指度,使用上位词或相关词补充到检索式外文单词使用截词检索,汉字使用更简短检索词第二章信息检索基础原理提升查准率方法:准确确定检索课题目标,使用专业词汇选择专业性检索工具逐步缩小检索路径检索范围使用限定条件提升检索词专指度第二章信息检索基础原理同时兼顾查全率和查准率方法(1)跨库检索(2)分类路径和主题路径等结合使用(3)尝试屡次检索(4)预防操作错误第二章信息检索基础原理影响查全率注意事项:(1)对课题分析不要望文生义(2)检索工具收录范围有缺漏(3)正确常规检索方法也有疏漏(4)检索工具选择有误(5)遗漏隐含概念(6)遗漏同义词西部地域社会发展情况西部地域指哪些地域?社会发展情况是哪些情况?文化教育、医疗卫生、工业水平、农业水平等某教授在1994-发表论文有20篇被印刷型检索工具收录,而CNKI只收录16篇。A有些数据库没有提炼主题词,功效有缺点B有些数据录入错误造成检索失败C有些作者有意隐藏真实身份D网络上垃圾信息、坑骗性网站等利用谷歌检索专利白灵菇多糖(阿魏蘑多糖)检索著名作品《飘》乱世佳人,随风而逝,Gonewiththewind,gonewiththewind第二章信息检索基础原理影响查准率注意事项:(1)检索词专指度要高(2)增加限定字段(3)增加检索词(4)检索工具检索精度差检索关于啤酒及其生产汉字专利
生产概念表示为“配制”、“生产方法”、“酿造”等关键词先查“啤酒酿造”,命中300多条统计,再用关键词缩小检索范围。用搜索引擎检索含有硕士考试文件网页首先输入“硕士考试”查到500多万条网页,限制站点,缩小为2800多个网页有些人创造了一个能够用在公用浴缸上一次性薄膜罩,以防交叉感染,需检索相关专利。浴缸or浴盆or澡盆1659条膜or罩or套471条一次性66条权威专利和期刊数据库查准率较高,网络搜索引擎、汉字图书数据库精度较差第二章信息检索基础原理3、响应时间
对任何计算机应用系统,响应时间都是一个主要指标。信息检索响应时间可分为两种情形:(1)委托检索,表示从用户送交提问到收到检索结果所花时间;(2)非委托检索,表示用户实际检索时间。计算响应时间普通都是针对某一个提问而言,不一样提问对应响应时间不一样。(因提问式长短、复杂程度而不一样)
第二章信息检索基础原理有时给出平均响应时间T,ti表示对第i个提问响应时间,k为提问个数第二章信息检索基础原理问题:检索响应时间与哪些原因相关?第二章信息检索基础原理经过对检索响应时间分析,我们可归纳出影响该指标原因:
(1)文件库规模规模越大,检索时间越长,响应时间值也就越大。
(2)机器速度主机运行速度越快,响应时间越短。
(3)检索软件检索软件是关键,其性能越好,检索时间就越短。第二章信息检索基础原理(4)存放设备类型和数据存贮结构存放设备访问速度越快,数据存贮结构(外存贮)越合理,检索越轻易,响应时间也就越短。(5)提问组配形式检索式结构需要有一定专业技能和检索经验,是一个不停修改和完善过程。(6)信息中心与检索者距离通信传输时间与距离相关。第二章信息检索基础原理二、网络信息检索效果评价指标体系1、索引数据库评价指标(1)索引数据库规模和内容(2)标引深度和标引准确率(3)数据库更新频率思索:人际关系数据库索引设计。第二章信息检索基础原理2、检索功效评价指标网络检索工具普通都提供布尔检索、截词检索、限制范围检索等基本检索功效。除此之外,有工具还提供高级检索功效,如多语种检索等。第二章信息检索基础原理3、相关性排序相关度计算是相关性排序优劣基础,普通是经过计算检索词在每个结果中出现次数和出现位置来计算相关度。
一个检索词在网页中出现次数越多、出现位置越主要,则网页相关度越高。第二章信息检索基础原理经典相关度排序方法:(1)按频次排序(2)按网页被访问度排序(3)基于超链接排序按频次排序思想是:假如一个网页包含了越多关键词,其搜索目标相关性越好。这是一个非常合乎常理方法在这种方法中,搜索引擎会统计所搜索到网页被搜索次数,从而判断该页面被访问频率,被访问较多网页,应该包含信息较多。网页之间链接反应了某种引用关系,经过结构网页引用图,综合考虑页面被引用次数以及所引用页面相关度来判断本页面相关度。第二章信息检索基础原理4、重复链接和死链接率假如在检索结果中同一结果重复出现,尤其是那些网页标题或描述不一样重复结果所占百分比很大时,尤其是当这种情况出现在最前面10个结果中是,会浪费用户时间和精力,甚至影响用户对检索工具印象。死链接率是检索结果中死链接结果数占全部检索结果百分比。死链接找不到原始文件,即使命中统计再多也没有用。第二章信息检索基础原理5、用户满意度主要指标:(1)用户界面设计(2)含有信息过滤功效(3)含有灵活输出格式(4)提供灵活输出格式(5)提供各种内容显示格式第三章检索语言第一节检索语言概述一、概念传统意义上检索语言,是应文件信息加工、存贮和检索共同需要而编制专门语言,它是表示概括文件信息内容概念及相互关系一个概念标识系统。广义上检索语言,指信息检索过程中包括人工语言和自然语言。人工语言是依据一定规则人为编制而成检索语言,有严格使用规则,可用于表述文件主要内容,建立信息检索系统。自然语言是人类交流时使用语言,不受任何限制,未经加工和规范。狭义上检索语言,仅指依据信息检索需要,按照一定规则对自然语言进行规范,并专门用于信息标引和用户检索人工语言。第三章检索语言检索语言又称情报语言、情报存放与检索语言、文件语言、索引语言、标引语言、标示系统等。1.从自然语言中精选出来并加以规范化词汇;2.代表某种分类体系一套分类号码;3.代表类事物特征一套代码;第三章检索语言世界常见检索语言主要有:《杜威十进制分类法》《国际十进制分类法》《冒号分类法》《中国图书馆分类法》《中国人民大学图书馆分类法》《汉语主题词表》第三章检索语言
二、检索语言所具备功效(1)对文件信息内容及其外表特征加以规范化标引;(2)对内容相同及相关文件信息加以集中或揭示其相关性;(3)可使文件信息存贮集中化、系统化、组织化,便于检索者按一定排列次序进行有序化检索;(4)便于将标引用语和检索用语进行相符性比较。第三章检索语言
三、检索语言类型按不一样标准,检索语言划分为:(1)描述文件特征(2)结构或原理(3)信息标识组配方式(4)语言规范程度第三章检索语言(1)描述文件特征描述文件外表特征检索语言
文件外表特征:文件篇名、作者姓名、出版者、协议号、汇报号、引文等;据此作为文件标识和检索依据而形成检索语言。描述文件内容特征检索语言
是检索语言研究关键内容主要包含:分类语言:体系分类语言、组配分类语言主题语言:标题词语言、关键词语言、单元词语言、叙词语言代码语言:分子式索引、结构式索引、专利号索引比如:题名索引、著者索引、协议号索引、汇报号索引、引文索引等第三章检索语言(2)结构或原理分类语言:用分类号表示各种概念,将各种概念按学科性质进行分类和系统编排。体系分类语言(等级体系分类语言)、组配分类语言(分析-综合分类语言)主题语言:采取表示某一事物或概念名词术语,用于标引、存放、检索一个检索语言。标题词语言、关键词语言、单元词语言、叙词语言代码语言:普通只是就事物某首先特征,用某种代码系统来加以标引和排列。分子式索引、结构式索引、专利号索引引文语言:利用文件之间相互关系而建立一个自然语言,其标引词来自于文件主要著录项目。特点:选词方便、词汇丰富,往往看作检索语言一个特殊类型。第三章检索语言(3)信息标识组配方式先组式检索语言:
表述文件主题概念标识在检索之前就已固定检索语言。后组式检索语言:
表述文件主题概念标识在检索之前未固定组配,而是在检索时依据实际需要按组配规则暂时组配检索语言。散组式语言:
对于复杂主题标识,在此表中不组配,而在标引阶段将表示主题概念若干标识,依据规则组配在一起检索语言。优点:语言标识明确,系统性很好,适合用于传统文件单元方式目录索引,是检索用户比较习惯形式。缺点:表示专指概念和新概念较困难,灵活性较差,检索路径少,词表体积庞大。优点:语言采取概念分析和综合原理,可实施多路径、多原因检索乃至准确检索,相当灵活,检索效率较高。缺点:标识明确性不强,造成检索用户使用不习惯。第三章检索语言(4)语言规范程度人工语言:主题法(标题词、单元词、叙词、关键词)、分类法(体系分类法、组配分类法)和(语义代码、化学代码)等种类。自然语言:直接取自文件信息本身,不经过加工或规范词语或句子。第三章检索语言第二节检索语言理论基础一、概念逻辑
经过明确各种概念及其相互关系而揭示事物本质属性及事物之间联络与区分,是一个科学思维方法。概念包含内涵(本质属性)与外延(反应范围)。第三章检索语言1、概念间关系(1)相容关系:同一关系;属种关系;交叉关系;整体与部分关系;全方面与某一部分关系、不相排斥并列关系。(2)不相容关系:相排斥并列关系;矛盾关系;对立关系比如:计算机与电脑;酒精与乙醇比如:自然科学是化学属概念,化学是自然科学种概念部分外延相重合,如“团员”与“党员”比如:汽车与汽车发动机比如:文学家、书法家、军事家比如:公共图书馆这个属概念下,省图书馆、市图书馆含有不相容并列关系比如:金属材料和非金属材料比如:17世纪哲学和18世纪哲学,其上位类是“近代哲学”第三章检索语言2.概念逻辑关系(1)概念划分与概括(分类)经过概念划分与概括形成概念等级体系。利用划分和概括过程中所产生概念隶属关系和并列关系,组成检索语言结构体系。(2)概念分析与综合(组配)经过概念分析与综合形成概念组配体系。提供多路径信息检索功效,能够依据需要扩大、缩小或改变检索范围。第三章检索语言二、知识分类1.知识分类实质是划分知识单元、组织知识体系2.知识分类主要包含学科分类:以信息学科属性为分类标准,依据各门学科研究对象区分和联络对学科进行区分和组织,确定学科在科学整体中位置,揭示科学内部结构,建立符合科学发展规律分类体系。事物分类:依据事物属性异同将事物划分成类,组成事物分类体系。3.知识分类遵照标准:客观性和发展性4.假如说概念逻辑是检索语言基础,知识分类便是概念逻辑基础第三章检索语言三、术语学术语学:研究概念、概念定义和概念命名规律学科。术语是传输知识、技能,进行社会文化、经济交流等主要工具。检索语言是概念标识系统组成,而概念是术语来表示,所以,术语是分类表、词表基本组成要素。第三章检索语言第三节分类检索语言一、分类检索语言概念分类检索语言也称分类法,是将许多类目依据一定标准组织起来,经过标识符号来代表各级类目和固定其先后次序分类体系。第三章检索语言分类检索语言主要包含:1、体系分类法
指将文件信息类目按等级层层展开并详尽列举一个分类法。2、组配分类法依据概念分析和综合原理编制文件分类法,它是将主题概念分解为简单概念或概念原因,按照它们所属方面或范围,分别编列成表;标引时用两个或多个简单概念分类号组合来表示一个复杂主题概念。《中国图书馆分类法》《杜威十进分类法》《美国国会图书馆分类法》《中国人民大学图书馆图书分类法》组配法可分为全方面分类法和半面分类法两种。全方面分类法普通仅仅应用较小学科或专业范围。半面分类法是全方面分类法与体系分类法相结合混合式分类法,如《冒号分类法》第三章检索语言二、体系分类法1、体系分类法结构(1)微观结构
是指分类法中类目标组成结构。
类目体系是分类法关键。第三章检索语言A、类目划分类目划分过程通常是由大到小、由属到种、由整体到部分、由总论到分论、由全方面到各方面。被分类目是上位类,分出来类目是下位类。第三章检索语言B、引用次序
是在体系分类法中表现为分类标准使用次序,当某一类事物连续划分需要采取几个分类标按时,分类标准使用次序是否合理,直接影响分类体系,决定着类目体系展开方式。合理引用次序应该满足逻辑性标准、符合检索需要标准和表示性标准。第三章检索语言C、类目标排列
同位类是由一个上位类直接划分出各个下位类,它们之间不隶属,相互排斥,处于同等地位。同位类排列主要采取序列方法,有按照逻辑次序排列,按照客观事物发展次序、按照时间发展次序、按照空间排列次序。第三章检索语言D、类名确实定
坚持科学性、确定性、简练性。
注意:如有必要,可将同义词、俗称、旧称等用括号加注在类目名称之后,如《中国图书馆分类法》中B82伦理学(道德学)第三章检索语言E、类目之间相互关系处理第一隶属关系第二并列关系第三交替关系
使用类目和交替类目之间关系。有学科或事物分别属于两个门类,编制时确定归入一个门类,同时在另一个门类设交替类目,以适应学科交叉关系。交替类目不用来类分文件。第四相关关系有些类目之间亲密相关,而这些类目又不属于同一个类系,这种类目之间关系称为相关关系。比如:【B035】国家理论宜入D03(“政治理论”下“国家理论”类)O212数理统计参见C8(统计学)第三章检索语言(2)宏观结构A、类目体系大多数体系分类法由主表和复分表组成。
主表有基本部类、基本大类、简表、祥表组成。
复分表又称为辅助表或者附表,是将祥表中按相同标准划分一些类所产生一系列相同子目抽出来,配以特定号码,单独编列,供主表相关类目深入细分类目表。可分为通用复分表和专用复分表。第三章检索语言B、标识系统可分为次序制、层累制、混合制、分面标识制。特殊标识法:第一,八分法第二,双位法第三,借号法第四,组配法第五,空号法第三章检索语言C、说明与注释主要包含编制说明、大类说明和类目注释。类目注释是对类目标性质或类名补充说明文字。比如:D631.42户籍管理流感人口管理入此.
参见C921.3第三章检索语言D、类目索引主要作用是帮助不熟悉分类表使用者从主题名称快速找到对应类目。注意:类目索引不能用来分类标引,只能是辅助工具。第三章检索语言2、体系分类法特点(1)提升查全率。以科学分类为基础,以逻辑方式进行划分,体系比较严密,强调知识系统化组织,便于按学科或专业检索相关文件。(2)便于浏览领域内相关信息。采取等级列举式概念标识系统来揭示概念间相互关系。(3)不受语种限制。采取分类号作为主题标识,防止了语种限制。体系分类法不足:(1)修订不便。无法及时增加反应新知识主题类目(2)采取先组式标识,难以进行组配检索。(3)缺乏直观性。以分类号作为主题标识。(4)学科交叉渗透困难。第三章检索语言三、组配分类法组配分类表:普通由编制说明、基本类表、分面类表目次和分面公式、索引等组成。世界上最主要组配分类法词表是阮岗纳赞创建ColonClassification。组配分类表由两个层面结构组成。第一层是分面结构是对整个知识领域进行分面所形成基本分面结构;第二层面分面结构是以第一层次分面结构为依据,对某一知识领域深入进行分解形成分面结构。《冒号分类法》第一层次分面是:本体、物质、能量、空间、时间。教育类第二层次分面结构:受教育者、课程、教学方法、教师、教育环境、共同操作及施动者、理论观点、地点和时间、通用复分等第三章检索语言组配分类法特点:(1)类目较少,但标引文件能力较强;(2)各种路径检索文件。能够自由地扩大或缩小检索范围,能从各种路径检索文件,还能进行较准确组配检索和轮排检索,在检索性能、检索效率和检索灵活性方面都优于体系分类法;(3)分类表增补和修订方便灵活。采取分段标识制度,便于分类表增补和修订新主题概念。第三章检索语言《冒号分类法》冒号分类法(Colonclassification),印度图书馆学家阮冈纳赞1933年创制图书分类法。它是通用而不是专用分类法,可经过使用“分面”或“冒号”来建立复杂新范围。计108个大类(原33类)和10个概括性类目(大致于人文科学与自然科学之间分类),其类号由阿拉伯数字、拉丁字母,希腊字母混合标识所组成。比如牙医外科编号为L124:4:7,它用字母L代表医学,数码124为牙齿,数字4表示疾病,数字7即外科等一系列字母与数字组配而成。第三章检索语言第四节主题检索语言一、概述主题检索语言又称主题法,采取语词直接作为文件主题标识,按子顺排列主题标识,提供各种检索语词路径。类型:1、标题词语言2、单元词语言3、叙词语言4、关键词语言第三章检索语言二、关键词语言关键词语言原理是:利用关键词语言编制关键词索引,关键词按子顺排列组成索引款目,所抽选关键词都能够作为标引词在索引中进行轮排,最为检索“入口词”进行检索。第三章检索语言关键词索引类型:1、题内关键词索引2、题外关键词索引3、词对式关键词索引第三章检索语言
题内关键词索引(简称KWIC),又称上下文关键词索引。是最早出现机编索引,首先应用于1960年美国化学文摘社创办《化学题录》。题内关键词索引标目在款目标中部,左右均为该标目标上下文;索引款目按位于款目中部作为标目标关键词字顺排列。格式如:
KWIC设计思想是:①文件题名通常含有揭示文件主题内容作用,从题名中抽取关键词能有效地将用户指向相关主题文件;②保留题名中关键词前后上下文,有利于说明关键词含义,可用作限定标目含义说明语。
KWIC编制步骤包含:①把经过人工处理文件题名(包含增补关键词)输入计算机。②计算机用“非用词表”剔除题名中介词、连词、冠词等,筛选出有检索意义关键词。③将每个关键词依次轮番用作索引标目,同时保留其上下文。若题名过长,能够截断或移位。④编成索引款目,并进行编排加工,最终交付印刷。上述工序除第一步由人工完成外,其余皆由计算机完成。上文关键词下文文件地址第三章检索语言比如,一篇题为Playtherapyformaladjustedchildren(《孤僻儿童游戏疗法》)论文,输入计算机后可产生以下几条索引款目:上文关键词下文文件地址maladjustedchildrenPlaytherapyfor3000therapymaladjustedChildren/Play3000childrenPlaytherapyformaladjusted3000Playtherapymaladjustedchildren3000第三章检索语言题外关键词索引(简称KWOC)。最早出现KWIC改进形式。与KWIC相比,其标目标位置不在款目标中部而是在款目标左端或提行至左上方,标目之后(或之下)仍保留完整文件题名。其款目格式为:编制时依次轮番将题名中每个关键词置于标目标位置,原题名中关键词也可用一符号(如星号)代替,题名之后注明文件地址,最终款目按关键词字顺排列起来。上比如按KWOC编制,可产生以下几条款目:或者
关键词标题文件地址关键词标题文件地址第三章检索语言children
playtherapyformaladjusted*3000maladjusted
playtherapyfor*children3000play*therapyformaladjustedchildren3000therapy
play*formaladjustedchildren3000第三章检索语言词对式关键词索引
由一对关键词组成索引。其原理与双重关键词索引相同,只是不带上下文。因为款目轮排时采取数学中排列原理,所以又称为轮排主题索引。1967年美国费城科学情报研究所(ISI)首创,最先用于编制《科学引文索引》主题索引。格式如:如第一例编成词对式关键词索引,能够产生以下6条款目(款目按标目标字顺排列):
第一关键词第二关键词文件地址第三章检索语言children
maladjusted3000children
playtherapy3000maladjusted
children3000maladjusted
playtherapy3000playtherapy
children3000play
maladjusted3000第三章检索语言三、叙词语言叙词语言是以单元概念规范化语词为基础,以概念组配为基本原理,对文件主题进行描述后组式检索语言。
比如:怎样培育香蕉苹果香蕉口味水果苹果第三章检索语言1、叙词表普通由主表和若干个附表组成。主表是叙词字顺表,该表将叙词完全按字顺排列,并有标注事项和参考系统。附表主要包含:叙词分类索引、词族索引、轮排索引、双语种对照索引、专有叙词索引等。也称分类表或者范围索引,便于从学科或者专业分类角度选词。也称等级索引,含有属分关系一组称为一族,组成一个从泛指叙词到专指叙词等级系统比如:广播系统电视广播系统多伴音乐无线电广播系统也称轮排表,将有相同单词词组叙词集中在一起,排列这个单词之下如地域索引、人名索引、机构索引等第三章检索语言2、主题词之间关系显示同义关系用“用(Y)”“代(D)”来表示属分关系用“属(S)”“分(F)”来表示相关关系用“参(C)”来表示第三章检索语言《汉语主题词表》我国第一部大型综合性叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范围数58个,二级674个,三级1080个。第三章检索语言
Xianxiangguan——汉语拼音
显像管【56E】——叙词和范围号
Kenescope——英译名PicturetubeD电视显像管——非叙词(代项)监视管
F彩色显像管——下位词(分项)固体显像管黑白显像管
S电子塑管——上位词(属项)Z电子管——族词首(族项)C显示管——相关词(参项)指示管第三章检索语言第五节分类主题一体化检索语言一、分类主题一体化检索语言概念分类主题一体化检索语言又称为分类主题一体化词表,指在一个检索语言系统中,对他们分类表部分和叙词表部分术语、标识及索引实施统一控制,使二者有机地融合为一体,从而能够同时满足分类和主题标引、检索需要,发挥其最正确整体效应。分类语言与主题语言是两种不一样类型检索语言,二者各有优势和不足。分类检索语言是按学科、专业集中信息或文件,以分类号作为主题概念标识,经过类目标层层划分与排列,形成了等级式学科与逻辑体系。主题检索语言:是按照事物来集中信息或文件,以受控主题词直接作为主题概念标识,经过参考系统和范围索引、词族索引来揭示主题词相互关系系统。第三章检索语言二、分类主题一体化检索语言原理分类主题一体化检索语言是建立在分类检索语言与主题检索语言相通原理基础上。1.理论基础相同。建立在概念逻辑、知识分类、术语学理论基础上,都使用了概念划分、概念分析与综合方法。2.标识在本质上是相同。所采取表示信息或文件主题概念标识在本质上是相同,只是表示形式不一样,(分类检索语言用分类号作标识,而主题检索语言用主题词作标识)3.分类检索语言和主题检索语言处理对象都是语义单元,表示都是主题概念。第四章信息著录和标引第一节信息著录含义和标准一、信息著录含义是指在组织检索系统时对文件内容和形式特征进行选择和统计过程。信息著录结果是款目。款目是有许多著录项目组成。第四章信息著录和标引如:我国国家标准《文件著录总则》要求了9大著录项目,题名和责任者项、版本项、文件特殊细节项、出版发行项、载体形态项、从编项、附注项、文件标准编号及相关记载项、提要项。都柏林关键元数据涵盖15元素:题名、创作者、主题及关键词、描述、出版者、其它贡献者、时间、类型、格式、标识、起源、语言、关联、范围、版权。第四章信息著录和标引二、信息著录作用1.信息著录是揭示文件内容特征及相关信息有效方法2.信息著录是编制目录和建立数据库基础3.信息著录结果是信息检索主要依据第四章信息著录和标引第二节机读目录与元数据一、机读目录机读目录(MARC)即机器可读目录简称,来自英文Machine-ReadableCataloging,利用计算机识读和处理目录。它是文件编目内容(数据)经过计算机处理,以代码形式记载在一定载体上而形成一个目录。机读目录是描述文件著录项目标国际标准格式,是实现计算机处理书目信息及资源共享基础。第四章信息著录和标引1963年,美国G.W.金等人发表关于美国国会图书馆书目系统自动化汇报,1965年1月提交了关于机读目录初步汇报。1966年1月,美国国会图书馆开始实施MARC试验计划,吸收了16个图书馆参加,制订了MARCⅠ格式;试编了机读目录,同年9月,生产出机读目录试验磁带。参加馆用这种磁带试验生产目录卡片、书本目录、新书通报等,取得了很好效果。经过两年多试验,又设计了适合书目信息交换用MARCⅡ格式,扩充了字符集,调整和改进了加工系统,1968年7月开始了正式MARC计划。1969年3月向全国发行MARCⅡ格式英文图书机读目录磁带。机读目录出现,有力地推进了图书馆技术自动化和标准化。到80年代末,已经有英国、联邦德国、法国、加拿大、丹麦、意大利、挪威、瑞典、澳大利亚、日本以及拉丁美洲和非洲共20多个国家和地域进行了机读目录研究和开发,建立了机读目录系统,生产和发行机读目录产品。1977年国际图书馆协会和机构联合会还主持制订了《国际机读目录格式》(UNIMARC)。中国国家图书馆即北京图书馆于1987年开始了中国机读目录开发工作,1991年1月正式发行机读目录《中国机读目录通讯格式》,即CNMACK。第四章信息著录和标引二、元数据元数据英文为Metadata,意为关于数据数据。在因特网中,元数据是指描述任何因特网数据和资源,促进因特网信息资源组织和发觉数据,可帮助对网络资源进行识别、描述并指示其位置。第四章信息著录和标引三、都柏林关键元数据和机读目录比较
1.著录对象不一样2.数据形式不一样3.著录主体不一样4.著录详简程度不一样5.标识方法不一样第四章信息著录和标引第三节信息标引含义与步骤一、信息标引含义与类型标引是对信息内容进行分析,并利用一定语言和方法,依据信息内容学科属性等特征给予标识(如主题词,分类号),并所以作为信息组织、存贮和检索依据过程。第四章信息著录和标引标引种类标引可分为分类标引(分类法)和主题标引(主题法)两大类。以分类符号作为描述信息检索标识一类标引称为分类标引;以语词符号作为描述信息检索表示一类标引称为主题标引。第四章信息著录和标引从另一角度,标引还能够分为受控标引和自由标引。在标引过程中所使用检索标识若必须按检索词典及对应标引规则来规范,则这类标引为受控标引,如叙词法,不然成为自由标引,如关键词法。另外,按是否有机器介入分人工标引、半自动标引和自动标引;按标引深度分为浅标引和深标引;按标引信息类型分为概括标引和分析标引。第四章信息著录和标引二、
标引过程普通而言,标引分为三大步。(1)主题分析(2)标引(3)标引结果统计第四章信息著录和标引主题类型能够从不一样角度划分:1、依据主题数量多少能够分为:单主题和多主题。2、依据主题显露程度可分为:显性主题和隐性主题。《加压素治疗休克引发冠心病》这一文章,除了休克、加压素和冠心病这些直接主题概念外,还隐藏着致病化学原因和药品副作用等主题概念第四章信息著录和标引第四节分类标引和主题标引一、分类标引分类标引工作是以标引对象特征分析为基础、以分类标引工具为依据、为标引对象赋予类别标识工作。它是信息组织统计分析、存贮和检索不可缺乏加工处理程序。第四章信息著录和标引基本标准(1)学科属性标准图书分类应以图书内容学科性质作为主要标淮,必要时再以图书其它属性作为辅助标准。如《农村医生手册》,首先按其内容性质分入“R医药、卫生”类。第四章信息著录和标引(2)专指性标准要将文件分入最恰当类,而不能分入范围大于或小于文件实际内容类目。比如:《信号处理》是叙述信号处理普通原理著作,入TN911.7;《防火墙与网络安全:预防黑客侵入》应入TP393.08,而不是泛指类TP309。第四章信息著录和标引(3)实用性标准要依据读者需要将文件分如最大用图类。比如:《莫泊桑短篇小说选》是法汉对照读物,依据“最大用图”如法汉对照读物H392.4:I565.44。第四章信息著录和标引(4)系统性标准凡是归入下位类文件必须含有上位类属性,表达他们之间隶属关系。比如:《神经网络》从人体生理角度叙述神经网络原理,如R383;《神经原理原理》从科学计算角度叙述人工神经网络原理,入TP183第四章信息著录和标引(5)一致性标准要将内容相同文件集中归入同一个类目,而不是分散在相关各类。比如:《老年经济学》入F069.9,不入C913.6第四章信息著录和标引详细规则:1.不一样主题图书分类
(1)单主题书①只叙述该主题一个方面书。单主题只叙述该主题一个方面书,按该方面学科性质归类。②叙述该主题二个方面书。单主题叙述该主题二个方面书,按著者写作目标归类。③叙述该主题三个或三个以上方面书。单主题叙述该主题三个或王个以上方面书,按主题学科性质归类。第四章信息著录和标引(2)多主题书①并列关系各主题是并列关系图书,如属不一样类列,有重点依重点主题归类,无重点依在前或篇幅较多主题归类。如属于同一类列,则归入其上位类。第四章信息著录和标引②隶属关系各主题是隶属关系图书,内容包括学科是上下位类关系,普通应归入其上位类。如图书内容重点是叙述较小主题,则按较小主题性质归类。第四章信息著录和标引③因果关系各主题是因果关系图书,普通按结果主题归类。假如一个原因主题产生几个结果主题书,则按原因主题归类。第四章信息著录和标引④影响关系各主题是影响关系图书,普通依受影响主题归类。但如论及一个主题在各方面影响书,则依发生影响主题归类。第四章信息著录和标引⑤应用关系各主题是应用关系图书,普通按被应用主题归类。但一个主题综合阐述在各方面应用书,则按该主题学科性质归类。第四章信息著录和标引⑥对立或比较关系各主题是对立或比较关系图书,普通按著者所要说明或赞同主题归类。第四章信息著录和标引二、主题标引主题标引是依据一定主题词表或主题标引规则,将信息资源中含有检索意义特征转换成对应主题词,赋予信息资源语词标识过程。按照是否使用词表,主题标引能够分为受控标引和自由标引两类,依据特定词表赋予检索标识,称为受控标引;直接采取自然语言语词进行标引,称为自由标引。前者在手工系统中使用较多,后者在计算机系统中使用较多。第四章信息著录和标引基本规则:1.主题标引查词规则(1)采取正式叙词标引。即用来标引文件主题概念叙词必须是《汉表》中正式叙词其书写形式必须与词表中词形一致。非叙词不得直接用来进行标引。采取最专指叙词标引。当词表中没有对应专指叙词时,可选取词表中最靠近、最直接关联两个或两个以上叙词进行组配标引。第四章信息著录和标引(2)上位叙词标引。当词表中没有最专指叙词,也无法以词表中最靠近、最直接关联叙词进行组配标引时,可选取上位叙词标引。(3)增词标引。如待标引主题概念为未收入词表新概念,不宜采取上述任何方法标引,同时本身又含有较大研究价值和检索意义时,可采取增词标引。增词标引普通包含下述情况:词表中显著漏收主题概念词。第四章信息著录和标引2.主题标引组配规则为了确保在组配标引时尽可能取得一致,防止出现标引误差,在应用《汉表》进行组配标引时,普通应遵照下述组配规则:(1)叙词组配必须是概念组配,而不是字面组配。参加组配叙词之间必须符合一定逻辑关系,而不是简单字面分拆或语词组合。第四章信息著录和标引
(2)叙词组配应优先采取交叉组配,当不能用对应叙词进行交叉组配时,才选取限定组配。(3)叙词组配必须选取与文件主题关系最亲密、最邻近叙词进行。第四章信息著录和标引第五节自动标引一、自动标引概况自动标引指直接经过计算机操作处理,赋予检索标识活动。自动标引是依据检索需要发展起来,是电子环境下出现一个新标引形式。第四章信息著录和标引自动标引意义:1.适应信息资源快速增加需要加利福尼亚大学伯克利分校研究人员发觉,仅1999-三年中,全球新生产出信息量就翻了一番。新产生信息中92%统计在硬盘等磁存放介质上。信息资源快速增加,造成信息相对过剩。只有提升信息组织效率,才能摆脱信息相对过剩带来迷惑,所以信息标引显得非常主要。自动标引适应了这一需要。第四章信息著录和标引2.相对手工标引存在很大优势,克服了手工标引难以克服缺点。与熟练标引人员相比,自动标引准确性不如手工标引,但在其它指标方面自动标引含有没有可比拟优势:处理能力强处理速度快成本低一致性好,稳定性好第四章信息著录和标引美国Cleverton曾作过一些试验,结果:两组人员为同一主题编出叙词表中词同一率仅60%;两位有经验标引员用同一叙词表对同一篇文件进行标引,其标引词同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题用户,检索出结果同一率仅40%;两位科研人员依据同一提问判断一组指定文件相关性,其同一率不会超出60%。第四章信息著录和标引自动标引不受标引人员状态和情绪影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不一样时间标引同一文件,一致率为15.8%;由同一标引人员在不一样时间标引同一文件,一致率为16.19%。采取计算机自动标引,不论何时对同一篇文件总能标引出相同主题词。第四章信息著录和标引
美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单自动文本分析系统在文件检索环境中产生检索结果,其质量不亚于受控标引通常所能到达水平。第四章信息著录和标引自动标引流程:机读文件语句分析语词加权确定阈值选出标引词概念转换受控词停用词处理抽词关键词文档与索引生成手检或机检用户相关性判断反馈二、自动标引方法统计标引法(课堂只讲这种方法)概率标引法:依据文件满足提问概率来预计句法分析标引法语义分析标引法人工智能标引法第四章信息著录和标引Zipf’sLaw齐普夫定律是由美国学者G.K.齐普夫于上世纪40年代提出词频分布定律。
它能够表述为:假如把一篇较长文章中每个词出现频次统计起来,按照高频词在前、低频词在后递减次序排列,并用自然数在这些词编上等级序号,即频次最高词等级为1,频次次之等级为2,,频次最小词等级为D。若用f表示频次,r表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。
第四章信息著录和标引与文件标引关系把全部词分高频词、中频词和低频词。高频词:传递信息能小,多为虚词,标引能力低。中频词:传递信息能大,多为惯用术语。为标引时选词最正确对象,专指度适中。低频词:传递信息能力极强。产生原因较复杂。可能是冷僻词,也可能是新引进概念。能够选中频词和个别低频词标引作为文件标引候选词。第四章信息著录和标引1、绝对频率加权法20世纪50年代Luhn在Zipf定律基础上提出主要步骤给定m篇文件组成一个集合,设第k个词在第i篇文件中发生频率fik。决定该词在整个文件集上发生频率:fk=∑fik按照fk大小将词降序排列,用试错法确定高频词和低频词阈值。去掉高频词和低频词后,将余下中频词选作标引词。第四章信息著录和标引2、相对频率加权法1959年,Edmundson与Oswald提出基于相对频率加权法自动标引方法。考虑原因:词在某个特定文件内使用频次词在特定领域内使用频次方法: 建立相关领域全部词汇相对频率表;对待标引文件进行处理,排除停用词,计算每个实词在特定文件中出现频次;将每个实词在特定文件内频次与相对频率表进行比较。第四章信息著录和标引二、自动分类自动分类是指由计算机系统自动提取信息特征项,依据一定算法,将信息按内容或属性归到一个或多个类别过程。主要包含自动归类和自动聚类。第五章文本信息检索第一节基本信息检索一、布尔逻辑算符逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)1、基本运算次序在有括号情况下:括号内逻辑运算先执行,括号多层时最内层括号中运算先执行;在没有括号情况下:NOT最先执行,AND其次执行,OR最终执行。
第五章文本信息检索注意事项:(1)OR逻辑比如:检索相关欧洲能源问题文件。假如编写表示式是:欧洲AND能源,就会漏检很多文件。因为,欧洲包含很多国家,如英国、法国、意大利、西班牙等等,能源也包含很多,如石油、煤矿、天然气等等。所以表示式是:(欧洲OR英国OR法国OR德国OR……)AND(能源OR石油OR天然气OR煤矿OR……)第五章文本信息检索(2)NOT逻辑比如(计算机AND软件)NOT硬件,目标是检索出见算计软件文件,不过有文件中同时含有软件和硬件话,就被漏检了。第五章文本信息检索二、截词符(1)后方截词,可分为无限截词和有限截词。
a无限截词是在一个词尾加一个问号(?)表示气候可添加任意个字符。比如:Smok?,可检索出来smokesmokysmokedsmokersmokessmokingsmokeless等第五章文本信息检索b有限截词是在一个词尾加有限个问号,n个问号表示其后可添加字符数少于等于n个。比如,Smok??,smokesmokedsmokysmokersmokes第五章文本信息检索(2)中间截词,只允许有限截词。比如,analy?er,analyzeranalyser.(3)前方截词,将截词符放在一个词前面,表示其左边不论截去有限或无限个字符,只要数据库中含有与截词符后面部分字符串相同检索词信息,就是命中信息。比如,?Computer,computermicrocomputer.第五章文本信息检索三、字段限制符字段代码与检索词之间可用后缀符“/”和前缀符“=”链接起来。比如:信息服务/TiAu=周三多第五章文本信息检索四、位置算符位置算符是全文检索中要求检索词在原始文件中相对位置限定性检索。包含4种级别检索:统计级检索:限制检索词在数据库中同一统计中。字段级检索:限定检索词在数据库统计相同字段范围内。第五章文本信息检索
子字段或自然句级检索:限定检索词在同一子字段或自然句中。词位置检索:限定检索词相互位置满足一些条件。第五章文本信息检索(1)同字段检索符
a(F)算符是“Field(字段)”缩写,表示在算符两侧检索词同时出现在同一字段中,词序能够变。
b(L)算符是“Link(连接)”缩写,表示检索词之间有一定隶属关系。第五章文本信息检索(2)子字段检索算符(S)指定算符两侧检索词出现在同一个子字段中,在文摘中能够用来限定在同一句子中检索,而且检索词之间词数能够不确定,前后关系不限。
第五章文本信息检索(3)词位置检索算符
a(W)和(nW)
(W)是“With”缩写,表示此算符两侧检索词必须按以前后边接次序排列,次序不可颠倒,而且检索词之间不允许有其它词或者字母,但允许有空格和连字符。第五章文本信息检索
(nW)表示此算符两侧检索词之间允许插入几个实词或虚词,但两个检索词次序还是不能颠倒。
第五章文本信息检索b(N)和(nN)(N)算符是“Near”缩写,表示算符两侧检索词必须相邻,但前后次序能够颠倒。(nN)表示算符两边检索词之间能够插入n个词,而且两个检索词次序能够颠倒。第五章文本信息检索五、检索功效1、加权检索基本方法:在每一个检索词后面给定一个数值表示其主要程度,这个数值称为权值,在检索时,先查找这些检索词在数据库统计中是否存在,然后计算存在检索词权值总和。权值总和到达或超出预先给定,改纪录即为命中。第五章文本信息检索2、相同检索在检索过程中,人们会发觉某个结果非常符合自己需要,所以希望能深入检索到这结果类似结果。也称为相关信息反馈检索。第五章文本信息检索3、含糊检索允许被检索信息与检索信息之间存在一定差异。4、概念检索可借助一个同义词表对用户输入检索词自动添加同一概念词聚集合,有利于提升检全率,又不降低检准率。5、自然语言检索6、多语种检索第五章文本信息检索第二节全文检索一、全文检索概述1、概念全文检索:是指以全文本信息作为检索对象,建立全文数据库,除了含有布尔逻辑检索功效外,还含有文本检索功效,并允许用户以自然语言检索,直接取得原文中相关章节和段句。第五章文本信息检索2、全文检索发展历程始于1959年,美国匹兹堡大学卫生法律中心。我国在70年代末开始这一技术研究1989年科技部立项重庆维普1996年教育部主管CNKI1998年国家“九五”重点科技攻关项目万方数据第五章文本信息检索3、全文检索研究内容全文检索主要指研究对整个文档信息表示、存放、组织和访问,即依据用户查询要求,从信息数据库中检索出相关信息资料。全文检索中心步骤是文件内容表示、信息查询取得以及相关信息匹配。全文检索关键是文档索引,即怎样将源文档中全部基本元素信息以适当形式统计到索引库中。第五章文本信息检索4、全文检索优势查全率高于普通计算机检索系统全文检索系统能实现计算机自动标引检索界面友好全文检索系统提供各种检索功效全文检索系统愈加灵活第五章文本信息检索5、全文检索问题对同一页面重复检索查准率还有待提升数据更新已成为检索不容忽略问题检索结果过多第五章文本信息检索6、全文检索发展趋势智能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 刀具课程设计6
- 儿童长高计划课程设计
- 体育面试课程设计
- java语言课程设计atm机
- STM32接口课程设计
- 乌江渡水电站课程设计
- 凸轮课程设计解法
- c语言课程设计疫苗预约系统
- XXX省技术合同认定登记自查及整改情况报告(模版)
- 装修实施合同范例
- 再生资源回收合同协议
- 2024年浙江省初中学业水平考试社会试题(解析版)
- 中国智慧与中国方案智慧树知到答案2024年宁夏大学
- 2024年安徽合肥肥西县山南镇招考村级后备干部35人(高频重点复习提升训练)共500题附带答案详解
- 新版高中物理必做实验目录及器材-(电子版)
- 2024版七年级下册数学模拟试卷
- (正式版)QC∕T 625-2024 汽车用涂镀层和化学处理层
- 携手共育静待花开家长会课件
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读
- 人物往来与中日文化交流史智慧树知到期末考试答案章节答案2024年浙江工商大学
- 青岛版五年级数学上册第七单元《绿色家园-折线统计图》(大单元教学设计)
评论
0/150
提交评论