下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论信息检索效率
信息是现代社会的三大支柱之一。它是经济和商业发展的动力,也是21世纪竞争的集中体现。信息资源电子化、数字化、网络化浪潮方兴未艾,信息检索系统日趋完善,Internet已成为人类有史以来最大的知识宝库和信息海洋。网络信息是离散的和动态的,并具有不均匀性和潜在的失控性。奈斯比特告诫人们:“大量但无序的信息,不但不是资源,反而是灾难”。网络信息检索,是指从浩如烟海的网络信息中全面、快速而准确地查找有效信息,是开发与利用信息资源,进行科技创新的前提条件。1网络环境下的检索效率1.1检索效率的概念1960年莫斯(Moors)在莫斯定律(MoorsLaw)中指出:“当读者在使用某信息检索系统时,若取得信息时手续的麻烦和不便程度大于其得到该信息时,该检索系统就会趋向于无人使用。”信息检索效率,不仅是影响信息检索系统价值的主要因素,还是人们评价信息检索质量的重要指标。信息检索效率是指全、准、快、便、省(检全率、检准率、检索方便性、检索成本与效益),最主要的是全和准。简而言之,信息检索效率,主要是指查找所需信息的全、准程度,即检全率和检准率。检全率是指检出相关信息记录数与系统中全部相关信息记录数之比,检准率是指检出相关信息记录数与检出全部信息记录数之比。如下所示:1.2检全率、检准率与检准率的关系检全率和检准率是信息检索效率的两个基本点。在信息检索中,检全率与检准率之间的关系与检索提问的结构有关。不同的检索条件,决定检全率与检准率之间存在如下关系:检全率不变,检准率不变或上升或下降;检准率不变,检全率不变或上升或下降;检全率与检准率之间呈互逆关系;检全率与检准率之间呈互顺关系。制定恰当的检索策略,使检全率和检准率达到互顺关系的峰值,尽可能地剔除虚假信息,最大限度地命中相关信息,是信息检索的理想目标。2影响搜索效率的因素2.1网络外部公民信息短短四五十年,信息检索从脱机检索发展到现在网络环境下的信息检索。计算机技术、数字化技术、多媒体技术和现代通信技术是网络信息检索的技术保障。在目前的网络环境下,信息传递缓慢,信息失真严重,信息噪声量大,信息检索及通信费用过高,信息检索结果良莠不齐,仍然影响着信息检索效率。2.2信息搜集限制数据库信息收录范围主要指时间跨度、学科范围和文献信息档次等三个方面。网络环境下,任何数据库都有一个信息收录范围,不可能包含所有用户需要的全部信息。譬如,即使是规模最大、集成我国6600种中英文期刊的中国期刊网,文献年报导量为300万篇,也只占国内年出版的学术文献的75%。信息收录范围的时间段、完整性和相关度,是影响信息检索效率的重要因素。2.3科技文献信息呈指数关系增长信息更新周期越长,最新信息利用的时滞就越大,查新率和查全率必然大打折扣。科技发展日新月异,文献信息呈指数关系增长,一般10年增长一倍,科技文献平均7年增长一倍,原子能等尖端科技文献2—3年增长一倍;信息半衰期越来越短,时滞是对最新信息进行有效检索的大敌。信息更新周期,不可避免地影响着信息检索效率。2.4标引方式的确定信息标引,就是根据信息的特征,赋予信息检索标识的过程,标引词是信息检索的入口。在信息标引工作中,主题分析的准确性、标引的一致性、标引词的网罗度、标引的专指度等总会因人而异、因文而异,整体标引、全面标引、对口标引、综合标引及分析标引等方式的不同也会造成标引结果有所差别。统一信息标引尺度,提高信息标引质量,使标引结果既不遗漏又准确恰当,这将直接关系信息检索系统价值和影响信息检索效率。2.5检索策略及其制约因素信息检索人员素质主要包括专业与外语水平、计算机操作能力、学科知识结构、信息检索知识、工作经验及敬业精神等,它们在很大程度上制约着检索策略的制定。检索策略就是在分析课题内容实质的基础上,选择检索系统、检索文档、检索途径,确定检索词及相互间的逻辑关系,直到给出检索顺序的最佳实施方案等一系列的科学措施。信息检索人员,肩负着把用户提问转化为检索式的任务,是影响信息检索效率的一个重要因素。3提高检全率的方法提高信息检索效率,就是要提高检全率和检准率。一般来说,提高检全率主要从扩检入手,扩大检索式表达概念的外延;而提高信息检索的检准率,是要在有一定检全率的基础上再进行缩检,增加检索式表达概念的内涵。3.1提高检查率的技能3.1.1有助于提高检全率检索词专指度越低,其概念外延越广,反映信息的详尽程度和精确程度就越低。分析上位类概念与相关概念,使用上位类、同义词、参见词等专指度较低的词进行信息检索,检全率必然会提高。例如检索彩色电视机,可从电视机着手查找;检索“肺癌”,可从“吸烟”着手查找。3.1.2由整体匹配检索表的局部编码,截词检索,也称模糊检索,利用截断词的一个局部进行前向一致、中间一致或后向一致匹配检索,凡满足截断词局部字符串的文献,都为命中的文献。例如,用“市场经济”进行中间一致检索,只要包含“市场经济”这个主题词的信息都为命中信息。3.1.3不同大小说的结果是否区分大小写检索检索时,计算机对检索词与标引词进行逐一匹配。计算机编码中大小写字符是不同的,因此,是否区分大小写检索,对结果必然有较大的影响。譬如,英文中首字母大写、标题中字母的大写以及某些特定的大写等,它们与小写时所表达的概念是等价的。忽视大小写检索,可以避免漏检,提高检全率。3.1.4检的范围用逻辑或“OR”组配检索词,扩大检索式概念的外延,拓宽信息检索的范围,有利于提高检全率。例如,有关情报检索方面的论文,可用检索式“情报检索OR信息检索”来查找。3.1.5提高检全率利用主题词的等级(分层)联系,进行族性检索、同位类检索、聚类检索及相关检索,把上位类词、近义词或相关词以及非主题词等用OR连接在检索式中,能够有效地提高检全率。例如“百日维新OR戊戌变法”。3.1.6定词、删除或删除其他概念面通过去掉用逻辑“与”(AND)连结的非主题限定词(文献类型、出版年代、文种等)、删除某个不重要的概念面(组面)以及去掉部分限制条件的方法,降低检索式的网罗度,达到提高检全率的目的。3.1.7检索途径的确定数据库检索系统提供了主题、关键词、题名、分类号、著者、出处等多种检索途径。从不同的检索入口出发进行检索,扩大检索结果的输出,有助于检全率的提高。3.1.8隐性主题检索对信息用户提问进行主题分析时,既要注意显性主题概念的表达,又不能忽视隐性主题概念的提取,特别是当显性主题专指度过高,检全率不理想时,使用隐性主题检索往往能够获得良好的效果。例如,“印度政府对解决克什米尔问题的态度”,其隐性主题是:“印巴关系”、“印巴领土问题”等。3.1.9信息跟踪检索。人类知识是生产力发展的体现和概括,它的产生有一个特定的历史背景,是人类利用已有知识创新的结果。因此,追根溯源,“打破砂锅问到底”,是提高检全率的有效办法。查找专著、论文中的“参考文献”和点击Internet上的“超级链接”,往往有意想不到的收获。3.2提高检测率的技能3.2.1提高检准率的方法检索词专指度越高,其概念内涵越广,反映信息的详尽程度和精确程度就越高。用下位类专指度较强的词进行信息检索,检准率必然会提高。例如,查有色金属时,可用具体的金属名称:金、银、铜……3.2.2不相关信息的检出利用逻辑非“NOT”剔除不符合要求的信息,限制与用户提问不相关信息的检出,进行概念的否定检索,使得到的检索结果更加准确。例如,检索不包含花生油的食用油,可用检索式“食用油NOT花生油”来描述。3.2.3限定主题概念检索词用逻辑与“AND”连接,可以进一步限定主题概念,增加相互制约,缩小命中范围。例如,查找工业用的彩色电视,可用检索式“工业电视AND彩色电视”来描述。3.2.4索词的加权计算从定量角度控制检索输出,赋予检索式中检索词表示其重要程度的数值(即“权”),检索时,对符合检索式的信息进行加权计算,凡总权值达到预定的阀值的信息,才算命中。3.2.5只搜索外观特征根据信息外表特征,利用限制符、前缀符等限制输出文献的外部特征,加强针对性,约束检索结果,达到预定的检准率要求。3.2.6时期等字段检索词之间的垂直关系限定检索词出现的可检字段(如主题词、题名、作者、年代等字段),用位置符[(W)、(nW)、(nN)、(S)、(F)、(L)]控制检索词的词间顺序与位置。避免虚假组配及无关组配,提高检索的准确度。3.2.7合作的对象应为中国外文检索式中,有些检索词是有大小写区别的,所表达的意义也会截然不同。例如,China的准确含义是:中国,中国的,中国产的;而china所表达的概念是:瓷器,瓷料。因此,在检索有关瓷器、瓷料的信息时,无疑用小写的china进行搜索,检索结果更加准确。3.2.8词汇一义和词义模糊的情况未经规范化处理的自然语言,不可避免地存在一词多义、多词一义和词义含糊的情况,信息的误检和漏检率高。提高检准率,必须尽量地使检索词和标引词相一致,把信息用户提问的自由词转化为规范的主题词,在检索式中避免使用非受控词。3.2.9提高检准率,提高检准率信息检索系统提供了多途径检索和二次检索。综合多途径和多因素进行二次检索,误检的情况能够得到有效的控制。譬如,检索关于机床设计的信息,先用“机床设计”检索,然后用其“分类号”、“著者”等途径进行二次检索,甚至还用“时间”、“地域”、“文献来源”、“文献类型”等因素综合再进行二次检索,检准率无疑会大大提高。理想的检索效率是信息检索人员能够及时、方便、节省、全面而准确地得到信息检索结果,尤其是能够全面与准确地得到检索结果。在实际操作过程中,检全率和检准率可以互顺上升,但是达到一定高度后,它们就必然会成一种互逆关系;我们应当追求在互顺关系与互逆关系这个临界点时的高检全率和高检准率。当然,根据用户实际情况,在合理的范围
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茶叶行业鉴赏技巧培训总结
- 冶金销售工作总结
- 文化创意行业宣传策略总结
- 2021年黑龙江省哈尔滨市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2022年内蒙古自治区锡林郭勒盟公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2023年湖北省咸宁市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2021年河南省周口市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2024年河北省张家口市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2024年江西省景德镇市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 财务人员辞职报告
- 监察法学智慧树知到期末考试答案2024年
- 糖尿病酮症酸中毒PPT小讲课
- 百香果的栽培条件
- 2024版国开电大法学本科《商法》历年期末考试总题库
- 湖北省荆州市荆州八县市区2023-2024学年高一上学期1月期末联考物理试题(原卷版)
- 小程序商场方案
- 班组年终总结
- 广西桂林市2023-2024学年高二上学期期末考试物理试卷
- 内蒙古赤峰市2023-2024学年高一上学期期末考试物理试题【含答案解析】
- nfc果汁加工工艺
- 慢性胃炎的康复治疗
评论
0/150
提交评论