文献的检索与利用_第1页
文献的检索与利用_第2页
文献的检索与利用_第3页
文献的检索与利用_第4页
文献的检索与利用_第5页
已阅读5页,还剩280页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文献信息检索与利用

2013.04

绪论课程设计一、考核办法平时出勤情况+随堂考试占50%,期末考核50%(提交一份文献信息检索报告),无故出勤少于1/3者,取消考试资格。二、计划学时:共24学时,考试2学时,20学时授课,4学时实习(手检实习2学时,上机实习2学时)。

◆课程性质

◎一门技术,一门素质教育课◎操作性强◎实用性强

↙核心

如何查寻利用信息课程目的授人以鱼只供一饭之需教人以渔则终身受用无穷有用的信息——鱼信息检索与利用的技能——捕鱼法“彼此交换苹果,你我仍各有一个苹果;彼此交换思想,每人各有两种思想”论文写作——养鱼信息素质的培养(informationliteracy)

信息素质是指在各种信息交叉渗透、技术高度发展的社会中,人们所具有的信息意识、信息处理的各种能力或技能,包括信息需求的意识、查找和利用信息的意愿,信息搜集、鉴别、综合分析的能力,信息技术运用能力,以及积极的信息心理和良好的信息道德。信息素质的构成信息意识信息知识信息能力信息道德信息素质的内涵认识准确和完整的信息是明智决策的基础,认识信息的重要性;认识信息需求及问题所在;制订信息检索策略,掌握信息检索(计算机检索)技术;能评价信息,根据实际用途组织信息;将新信息融会到现有知识结构中,在批评性思考、解决问题和交流的过程中使用信息。信息素质教育的意义终生学习的需要;是全面提高受教育者自身素质的需要有利于缓解信息压力有利于改善人们的生活质量人类社会各时期富有的特征原始社会---占有更多的生活资料奴隶社会---占有更多的奴隶封建社会---占有更多的土地资本主义社会--占有更多的生产资料当今社会---占有更多的信息查询资料计划思考实验研究撰写报告查询资料50%撰写报告10%实验研究30%计划思考10%(美国科学基金会凯斯工学院基金委员会和日本国家统计局)文献信息检索在学习研究中所占的比例《文献信息检索与利用》课程的发展20世纪60-70年代,发达国家开设本课程;80年代后,我国高等学校开始普及,当时为《文献检索》;90年代后,逐渐发展为《文献信息检索与利用》课,引入现代信息技术,如:光盘和网络技术;21世纪以信息素质能力培养密切结合◆教材、教参推荐(G252.7)

[1]安新华.信息检索基础.西安:地图出版社,2007[2]王知津.信息存储与检索.北京:机械工业出版社,2009

[3]焦玉英等.信息检索.武汉:武汉大学出版社,2001

[4]陈焱,张龙滨.信息检索与利用.北京:北京大学出版社,2011

本课程主要内容1、信息概述2、文献信息检索3、图书馆的利用4、计算机信息检索5、数据库应用6、学术论文的写作指出每一条农谚中哪些是信息?哪些是知识?天上钩钩云,地下雨淋淋蜘蛛结网,天必晴;蚂蚁搬家,雨必下天上鲤鱼斑,明天晒谷不用翻树叶黄了:秋天到了;缺乏微量元素;病害

人类社会进步的三大资源信息、能源、物质第一章

信息概论

第一节

信息、知识、情报、文献

一、信息及其基本属性“信息”一词的来源:在中国历史文献中最早见于唐代诗人李中的诗词《暮春怀故人》中:“梦断美人沉信息,目穿长路依楼台”信息:音讯;消息

《辞源》(2009第六版)中对“信息”有两种解释。其第一种解释为:音讯;消息。其第二种解释为:通信系统传输和处理的对象,泛指内容和信号的具体内容和意义。泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。

“信息”的拉丁词源是information英文词义是information20世纪中叶以后,信息的本质才被揭示,并被引入哲学、信息论、系统论、控制论、传播学、情报学、管理学、通信、计算机科学等领域。所以,站在不同的角度,对信息的定义是不同的。

据不完全统计,信息的定义有100多种,它们都从不同的侧面、不同的层次揭示了信息的某些特征和性质。不同学科对信息的解释(1)信息是通信的内容,是“两次不确定性的差异”,信息的多少反映了消除了的不确定性的大小。(申农)信息:消除不确定性的因素

——信息论

不同学科对信息的解释(2)信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换内容的名称。(相互交换的内容)

——控制论不同学科对信息的解释(3)信息被定义为事物(thing)或记录(record)。(巴克兰德)图书情报领域

信息是事物运动的状态与方式,是物质的一种属性。(钟义信)认识论信息是存在于意识之外的东西,它存在于自然界、印刷品、硬盘以及空气之中。(桑盖特)心理学信息的概念是:信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。2、信息的基本属性

1)客观性2)可存储性3)可传递性4)时效性

5)可扩散性

6)共享性信息社会最为基础的理论体系三大论:信息论申农1948年创立控制论维纳1984年创立系统论贝塔朗菲1952年创立三者关系:系统论提出系统概念并揭示其一般规律,控制论研究系统演变过程中的规律性,信息论则研究控制的实现过程,因此信息论是控制论的基础,二者共同成为系统论的研究方法。

二、知识及其基本属性1、知识的含义

知识是人类在认识和改造世界的社会实践中获得的对事物本质认识的成果、观点、经验等。

知识可分为理性知识和感性知识。

2、知识的属性

1)意识性2)信息性3)实践性4)继承性5)渗透性3、知识的类型

根据国际经合组织(OECD)的定义,人类现有的知识可分为四大类:1)knowwhat(知道是什么)——关于事实方面的知识。2)knowwhy(知道为什么)——关于自然原理和规律方面的知识。3)knowhow(知道怎么做)——关于技术或能力方面的知识。4)knowwho(知道谁有知识)——关于到哪里寻求知识的知识。

在这里我们可以看到,知识的五种演进层次,可以双向演进。从噪音中分拣出来数据,转化为信息,升级为知识,升华为智慧。这样一个过程,是信息的管理和分类过程,让信息从庞大无序到分类有序,各取所需。这就是一个知识管理的过程,也是一个让信息价值升华的过程。

反过来,随着信息生产手段的极大丰富,当信息达到一定量的时候,我们发现噪音出现了,信息生产的过程其实也是一个不断衰退的过程,从智慧-传播为知识,从知识普及为信息,从信息变为记录的数据,到数据这里已经失去了应用价值,只有记录价值了,从数据衰退到噪音,就已经是纯粹无效的东西了。

三、文献及其基本属性1、文献的定义

文献是记录有知识的一切载体,即知识、信息必须通过文献载体进行存储和传递。构成文献的三个最基本的要素是:

1)构成文献内核的知识信息;2)负载知识信息的物质载体;3)记录知识信息的符号和技术。

2、文献的基本属性

1)知识性

2)传递性

3)动态性

四、情报

情报:与信息在英文中为同一个词“Information”,即人们在一定时间内为一定目的而传递、收集的有使用价值的知识或信息。按应用范围可分为:科学情报经济情报技术经济情报军事情报政治情报情报的特征:竞争性、传递性、效用性五、智慧1、智慧的定义:创造性的处理和解决问题的能力(智慧就是力量)。包括解决问题的方案、广度、难度、速度。2、特征:动态性、针对性、多维性、开拓性。六、信息知识情报文献的关系信息>知识>情报情报是对用户有效用的知识信息,而文献又是记录有关知识信息的一切载体。信息、知识和文献的相互关系图自然现象社会想象信息知识情报表征反映加工序化传递利用文献记录记录记录第二节信息资源及其类型

一、信息资源的含义与特点如前所述,信息是事物的一种普遍属性。信息并非都能成为资源,只有经人类开发与重新组织后的信息才能成为信息资源,即信息资源是信息世界中对人类有价值的那一部分信息,是附加了人类劳动的、可供人类利用的信息。因此,构成信息资源的基本要素是:信息、人、符号、载体。与其他资源相比,具有可再生性和可共享性的特点。

信息资源的使用价值

一是真实度。科学研究的客观性和科学实验的可再现性,是信息资源真实度的具体体现。

二是时效性。信息资源的时效性主要体现在它的滞后性和超前性。信息资源的滞后性体现了认识总是落后于客观存在,如不能及时地使用最新信息,信息的价值就会随其滞后使用的时差而减值。信息资源的超前性体现出在把握客观事物规律的前提下,能够对可能发生的事物进行预测。二、信息资源的类型与特点从不同的角度出发有不同的分类方法:1、以载体材料、存储技术和传递方式划分

1)刻写型古代的甲骨卜辞、帛书,也含现代的篆刻、雕刻、雕塑等等,这类信息资源在研究历史、艺术等方面具有很高的价值

2)印刷型以纸质材料为载体,采用各种印刷术把文字或图像记录存储在纸张上而形成。它既是文献信息资源的传统形式也是现代文献信息资源的主要形式之一。主要特点是便于阅读和流通,但因载体材料所存储的信息密度低,占据空间大,难以实现加工利用的自动化。

3)缩微型

以感光材料为载体,采用光学缩微技术将文字或图像记录存储在感光材料上,如缩微胶卷、缩微卡片等。

主要特点有:存储密度高、体积小、重量轻,便于收藏;生产迅速,成本低廉。但是,其缺点是必须借助缩微阅读机才能阅读,设备投资较大。4)声像型

以磁性和光学材料为载体,采用磁录技术和光录技术将声音和图像记录存储在磁性或光学材料上,主要包括唱片、录音录像带、电影胶卷、幻灯片等。主要特点是存储信息密度高,内容直观,表达力强,易被接受和理解,但须借助于一定的设备才能阅读。

5)电子型

按其载体材料、存储技术和传递方式,主要有联机型、光盘型和网络型。6)网络型

是直接利用计算机技术、通信技术、多媒体技术相互融合形成的网络上出版、流通和传播的各种信息资源的总和。是电子出版物的高级形式。

它集中了声像型、电子型文献的所有优点,内容表现具有多样性和直观性,并有人--机交互的友好界面。如:多媒体数据库。2、按文献的出版形式划分(十大信息资源)图书期刊、报纸连续出版物科技报告会议文献专利文献标准文献政府出版物特种文献学位论文产品资料技术档案(1)图书(一次文献但具有三次文献的性质)将文字、图画或其它符号书写或印刷于纸张上的具有完整装帧形式的非连续出版物。特征:内容主题突出、系统全面、观点成熟。但编辑出版周期长,报道速度相对较慢。按版本形式有单卷书、丛书、专著、参考书等外在特征:通常由封面、书名页、版权页、目次、正文组成。图书的识别主要依据:

ISBN号、书名、作者、出版社名称、出版地址、出版年、页数等识别。ISBN国际标准书号(InternationalStandardBookNumber)每种书的书号是唯一的,由13位数字组成,分5部分,例如:《信息检索基础》ISBN978-7-80748-167-6分别为欧洲图书商品的代码、语区号、出版社号、书次号、校验号。(2)连续出版物我国《连续出版物著录规则》中的定义:“印刷或非印刷形式的出版物,具有统一的题名,定期或不定期以连续分册的形式出版,有卷期或年月标识,并且计划无限期地连续出版。”与图书相比,具有出版迅速、内容新颖、信息量大、时效性强的优点。①期刊(最重要的一次文献)又称杂志,它是有比较固定的名称和出版时间、比较一致的开本及稳定的栏目的连续不断的出版物。特点:出版周期短、有国际连续出版序号、有固定的编辑机构、学术观点新颖、信息含量大、种类多等特点。期刊情报占整个信息源的60-70%。所以,受到科技工作者的高度重视。

期刊形成于罢工、罢课或战争中的宣传小册子。这种类似于报纸注重时效的手册,兼顾了更加详尽的评论。所以一种新的媒体随着这样特殊的原因就产生了。其中最早出版的一本期刊是于1665年1月在阿姆斯特丹由法国人萨罗(DenysdeSallo)出版的《学者期刊》。1704年,伦敦出版了第一种介于报纸和期刊之间的定期刊物,发行者是《鲁宾逊漂流记》的作者丹尼·笛福。刊物名叫《评论》,篇幅为四小页,共发行九年。

数字期刊相比传统期刊,具有多终端、多渠道发行,覆盖更广阔地域、影响更广大人群的特点,尤其在过刊内容的利用方面也拥有传统纸媒无法比拟的优势。同时,搜索技术也为数字期刊提供了良好的应用,用户可以通过标题、人名、关键词等检索,找到最符合自己阅览需求的刊物和文章。

据数据统计,同等时间内数字内容的阅读效果是传统阅读的5倍以上。更重要的一点,是数字期刊具有节能、降耗、减排的绿色环保概念。为刊社节约印刷装订成本、物流运输成本、发行成本、滞销库存风险等。

iebook第一门户龙源期刊网

ISSN(国际标准连续出版物编号InternationalStandardSerialNumber)是根据国际标准ISO3297制定的连续版物国际标准编码,其目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识。

ISSN有八位数字组成,前7位是数字序号,是刊名代号,最后一位是计算机校验号。8位数字分为前后两段各4位,中间用连接号相连,如:Science(printISSN0036-8075;onlineISSN1095-9203),前7位数字为顺序号,最后一位是校验位。ISSN通常都印在期刊的封面或版权页上例如②报纸以刊载新闻和时事评论为主的定期连续向公众发行的连续出版物,是大众传播的重要载体,具有反映和引导社会舆论的功能。主要特点:出版周期短,能以最快的速度报导国内外发生的新事件和科技的最新研究成果,信息量大。

初期的报纸和杂志是混同的,有新闻,也有各种杂文和文学作品,简单地装订成册。对于这个时期的报纸和杂志,通常笼统地称“报刊”,英国、法国、中国早期的“报刊”概念,便是在这个意义上使用的。在我国出版的第一张汉文日报,是1858年在香港创办的《外中新报》。林则徐所办的《澳门新闻纸》,是我国最早的译报。《澳门新闻纸》和《澳门月报》(魏源在《海国图志》中所用名)虽然名为报纸,但不公开发行。

报纸不论大小,都由报头、报眼、版位、栏目组成。报头总是放在最显著地位,大都放在一版左上角,也有的放在一版顶上面的中间。报头上最主要的是报名,一般由名人书法题写,也有的作黑体字。报头旁边的一小块版面,通称“报眼”。对“报眼”的内容安排没有定规,有的用来登内容提要、日历和气象预报,有的用来登重要新闻或图片,有的用来登广告。由于“报眼”位置显著广告费特别高。

报纸的版面位置叫版位。对一份报纸来说,第一版是要闻版,排在这一版上的新闻比其他版重要。在横排报纸的版面上,左上角要比右上角重要。报纸新闻标题所用的字号大小也能显示它是否重要。栏目是报纸定期刊登同类文章的园地,经常在报纸上看到的有“科技天地”、“国际瞭望”、“读者来信”等。除栏目外,还有一些不定期的专版,范围比专栏更大一些。比如庆祝什么节日,组织一批征文专版;什么问题引起读者广泛的兴趣,组织一些讨论专版。

网络报纸在因特网上建立网站发布网络版报纸的实践起始于1994年,至1994年底,共有78家报纸发行了网络版。到1997年,网络报纸已发展到1900多家。

关于报纸的职能,从不同角度,会得出不同的看法,例如从政党机关报的角度,报纸的职能如毛泽东所说:“报纸的作用和力量,就在它能使党的纲领路线,方针政策、工作任务和工作方法,最迅速最广泛地同群众见面。”法国新闻学者贝尔纳.瓦耶纳关于报纸职能的概括,可以被各方面接受:主要的报道职能,随之而来的辩论职能(即传播观点的职能),附带的娱乐职能。

(3)学术论文学术论文:指作者为发布其学术观点或研究成果而撰写的论述性文章。论文内容一般是某一学术课题在理论性、实践性或预测性上具有新的研究成果或创新见解,或是某种已知原理应用于实践中取得新进展的科学总结,向使用者提供有所发现、有所发明、有所创造的知识信息。

特点:信息新颖、论述专深、学术性强,是人们交流学术思想的主要媒介,也是开展科学研究参考的主要信息源之一。学术论文按撰写的目的可分为以下四种:科学论文、技术论文、专题论文、学位论文(体现毕业生能力的一次文献)。

(4)专利说明书(集技术、经济、法律于一体的一次文献)

专利说明书特指专利申请人向专利主管部门呈交的有关发明创造的详细技术说明,是具有知识产权特性的信息资源,包含技术领域、背景技术、发明内容、附图说明、具体实施方法等项目。

专利说明书的主要作用一是清楚、完整公开最新的发明创造;二是请求或确定法律保护的范围。

(5)科技报告(既像书又像刊的一次文献)

科技报告:是科研工作的系统总结。特点:连续出版,内容专深具体,数据完整;往往是最新技术研究成果信息的重要信息资源。比期刊论文发表早。

科技报告是继图书、期刊、档案等类型文献之后出现的一种文献,它是人类科技发展和信息文化发展的产物,在人类的知识信息传播和利用中起着越来越重要的作用,世界各国在科技文献信息交流中都将它列于首位。美国四大报告最为著名AD(军用工程)、PB(民用工程)DOE(能源工程)、NASA(航空航天工程)(6)技术标准(促进社会产品质量的三次文献)

技术标准是对产品和工程建设的各个方面所作的技术规定,是进行科研和生产的共同依据。特点:计划性、协调性、法律约束性。

根据使用的范围:国际标准、区域标准、国家标准和企业(行业)标准。按内容:技术标准包括基础技术标准、产品标准、工艺标准、检测试验方法标准及安全、卫生、环保标准等。(7)会议文献(报道最新科技动向的一次文献)

会议文献:是指在学术会议上和专业学术会议上宣读或交流的论文、材料、讨论记录、会议纪要等文献。特点:会议文献的特点是传递情报比较及时,内容新颖,专业性和针对性强,种类繁多,出版形式多样。它是科技文献的重要组成部分,一般是经过挑选的,质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是一种重要的情报源。(8)政府出版物(体现政府科技政策的三次文献)政府出版物:由政府机关负责编辑印制的,并通过各种渠道发送或出售的文字、图片、以及磁带、软件等。是政府用以发布政令和体现其思想、意志、行为的物质载体,同时也是政府的思想、意志、行为产生社会效应的主要传播媒介。特点:正式性和权威性,对了解各国政治、经济、科技法有独特的参考作用。(9)档案(最忠实的一次文献)

档案:我国古代的档案,在各个朝代有着不同的称谓。商代称为“册”,周代叫做“中”,秦汉称作“典籍”,汉魏以后谓之“文书”“文案”“案牍”“案卷”“簿书”,清代以后多用“档案”,今统一称作“档案”。

档案是直接形成的历史纪录。“直接形成”说明档案继承了文件的原始性,“历史纪录”说明档案在继承文件原始性的同时,也继承了文件的记录性,是再现历史真实面貌的原始文献。所以档案具有凭证价值的重要属性,并以此区别于图书情报资料和文物。

档案具有历史再现性、知识性、信息性、政治性、文化性、社会性、教育性、价值性等特点,其中历史再现性为其本质属性,其他特点为其一般属性。因此,可将档案的定义简要地表述为:档案是再现历史真实面貌的原始文献。(10)产品资料(提供产品技术规格的一次文献)产品资料:是指国内外厂商为推销产品而出版发行的各种商品性宣传品。如公司介绍、产品目录、样本、说明书等。意义:开发新产品,进行市场竞争。小结上述的十类主要文献中,除图书和期刊外,其余八种被称为特种文献—非书非刊出版物,一般单独成册,有些不公开发表,难于获取。有专门的检索工具和获取途经。3、以加工文献的深度划分文献信息资源以信息加工深度划分,可分为零次文献信息、一次文献信息、二次文献信息、三次文献信息和高次文献信息。

1)零次文献信息资源

零次文献信息资源是指未以公开形式进入社会流通使用的实验记录、会议记录、内部档案、论文草稿、设计草稿、笔记、手稿、BBS帖子、博客等,记录在非正规物理载体上。具有原始性、新颖性、分散性等特征,而且没有公开交流,难以获得。

2)一次文献信息资源一次文献是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也常被称为原始文献(或叫一级文献)。一次文献信息资源包含了新观点、新发明、新技术、新成果,提供了新的知识信息,是创造性劳动的结晶;具有创造性的特点,有直接参考、借鉴和使用的价值,是人们检索和利用的主要对象。

一次文献在整个文献中是数量最大、种类最多、所包括的新鲜内容最多、使用最广、影响最大的文献,如期刊论文、专利文献、科技报告、会议录、学位论文等等,这些文献具有创新性、实用性和学术性等明显特征。

3)二次文献信息资源二次文献又称二级次文献,是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等。

二次文献信息资源仅是对一次文献信息资源进行系统化的压缩,无新的知识信息产生,具有汇集性、检索性和系统性的特点。能系统地反映某个学科、专业或专题在一定时空范围内的最新研究成果。它的重要性在于提供了一次文献信息的线索,是打开一次文献信息知识库的钥匙,可节省人们查找知识信息的时间。

4)三次文献信息资源

三次文献信息资源是根据一定的目的和需求,在大量利用一、二次文献信息资源的基础上,对有关知识信息进行综合、分析、提炼、重组而生成的再生信息资源。如各种教科书、技术书、参考工具书、综述等都属三次文献信息的范畴。三次文献信息资源具有综合性高、针对性强、系统性好、知识信息面广的特点,有较高的实用价值,能直接提供参考、借鉴和利用。

5)高次文献信息资源

高次文献信息资源是在对大量一、二、三次文献信息资源中的知识信息进行综合、分析、提炼、重组的基础上,加入了作者本人的知识和智慧,使原有的知识信息增值,生成比原有知识品位更高的知识信息新产品。如专题述评、可行性分析论证报告、信息分析研究报告等,具有参考性强、实用价值高、社会效益和经济效益显著的特点。6)零次、一次、二次、三次文献的的相互关系A、从零次文献、一次文献、二次文献到三次文献,是一个从分散到集中由无序到有序由博到略对知识进行不同层次加工的过程。B、零次文献是一次文献的素材;C、一次文献是二次文献的基本来源,科技文献信息检索的对象;D、二次文献是一次文献的集中、提炼和有序化,是文献检索的工具,故又称之为检索工具。E、三次文献是把分散的零次文献、一次文献、二次文献,按照某一特定目的进行综合分析,加工而成的成果。三次文献既是文献信息检索和利用的对象,又可作为检索文献的工具。第二章信息检索信息检索的基本原理信息检索系统信息检索语言第一节

信息检索基本原理

一、信息检索概论

1.信息检索概念

信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需信息的过程,也就是我们常说的信息查寻(InformationSearch或InformationSeek)。广义信息检索1)信息的标引和存储过程

对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储,组成检索工具或检索文档,即检索系统的组织过程。2)信息的需求分析和检索过程分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程。2、信息检索的特点

1)逻辑性信息检索作为信息管理的核心,具有非常强的逻辑性。检索语言、检索策略足以体现。

2)相关性相关性表明用户文献是否与问题相吻合。

3)不确定性在标引和检索词的选用中都存在不确定性

3.信息检索的重要意义和作用1、信息检索是获取知识的捷径美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计。

2、信息检索是科学研究的向导

美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上。

3.信息检索是终身教育的基础学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。教育已扩大到一个人的整个一生,唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。二、信息检索基本原理

是检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比,取得一致即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可根据此线索对原文进行判断、筛选,以获取自己所需要的信息。

信息检索的原理(示意图)

信息集合需求集合特征化表示表示特征化选择与匹配存储查询

由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等。首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。文献检索原理1.文献替代2.文献整序3.文献特征标识与检索提问标识的匹配1.文献替代一次文献的文献特征标识(外部特征和内容特征)按一定的标准格式著录成它的替代文献(二次文献)的过程。著录项目与格式:中图分类号题名/著者(著者所在单位邮政编码)//刊名/主办单位.—出版年,卷(期).—所在页码文摘……。图x表x参x(文摘员)2.文献整序

将杂乱无章的替代文献(二次文献)按一定的顺序(通常按学科类目)排列,并编制各种索引的过程。经过文献替代和文献整序后,完成了文献存储的过程。3.文献特征标识与检索提问标识的匹配文献检索的过程就是文献特征标识与检索提问标识两者匹配的过程为了实现这种匹配,标引人员和检索人员必须采用一种共同的语言,即检索语言。

三、信息检索效率

信息检索效率是研究信息检索原理的核心,是评价一个检索系统性能优劣的质量标准,它始终贯穿信息检索和信息存储的全过程。衡量检索效率的指标有查全率、查准率、漏检率、误检率、响应时间等。目前,人们通常主要以查全率和查准率这两个指标来衡量。

1、查全率利用检索系统进行某一课题检索时,检索出的相关信息量(w)与该系统信息库中存储的相关信息量(x)的比率称为查全率(R),用公式可表示为:

R=×100%2、查准率利用检索系统进行某一课题检索时,检出的相关信息量(w)与检出的信息总量(m)的比率称为查准率(p),用公式可表示为:

p=×100%

从检索要求来说,希望查全率和查准率都同时达到100%,即系统中存储的所有相关信息都被检索出(w=x=m),这是最为理想的效果。但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比,总会出现一些漏检和误检。因此,在实际检索过程中,必须同时兼顾查全和查准,不可片面追求某一方面。

四、信息检索的类型与特点

1.根据检索的目的和对象不同,信息检索分:文献检索(书目信息和全文信息检索)事实检索数值检索主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。

1)书目信息检索

以标题、作者、摘要、来源出处、专利号、收藏处所等为检索的目的和对象,检索的结果是与课题相关的一系列书目信息线索.

书目信息检索是一种相关性检索。

2)全文信息检索

以论文或专利说明书等的全文为检索的目的和对象,检索的结果是与课题相关的论文或专利说明书的全部文本,检索结果也不直接解答用户提出的技术问题本身。因此,全文信息检索也是一种相关性检索

3)数据信息检索

以具有数量性质,并以数值形式表示的数据为检索的目的和对象,检索的结果是经测试、评价过的各种数据,可直接用于比较分析或定量分析。因此,数据信息检索是一种确定性检索。

4)事实信息检索

以事项为检索的目的和对象,检索的结果是有关某一事物的具体答案。因此,事实信息检索是一种确定性检索。

相关性检索以图书、期刊、资料、数据库中的篇章或全文为检索对象的一种检索检索结果为文献线索(包括题名、著者、出处)或全文以二次文献(检索刊物或数据库)或全文数据库为检索工具

确定性检索根据检索对象不同又可分为

事实检索

数据检索检索结果为某一个具体的答案以三次文献(参考工具书)为检索2.按处理信息的手段划分1)手工检索,简称手检,主要是应用传统的检索工具和手工检索方法。检索源包括各种印刷型或缩微型的检索书刊及参考工具书。2)计算机检索,简称机检,是利用计算机及各种辅助设备从计算机检索源中查找所需信息。有联机检索、光盘检索、网络检索。

第二节信息检索系统

一、信息检索系统概念信息检索系统是用来存储、报道、查找文献的工具。也称检索工具。它具有存储和检索的功能。四个基本条件:(1)能够详细著录文献的外部特征和内容特征(2)具有即定的检索标识(3)全部文献必须根据标识,系统科学地排列成为一个有机的整体(4)能够提供多种检索途经

二、检索系统的基本类型1.按收录范围划分:综合性检索系统

综合性检索系统收录范围和涉及学科广,信息类型和语种多,是科研工作最常用的检索系统。世界著名的综合性检索系统有美国的《工程索引》、《科学引文索引》、英国的《科学文摘》等。

专业性检索系统

专业性检索系统的收录范围限于某一学科领域,适应于检索专业信息。例如,《中国石油文摘》、《英国化学化工文摘》等都是专业性检索系统。

单一性检索系统单一性检索系统只限于收录某一种特定类型文献,学科范围可宽可窄。检索特定类型信息,检索效果往往比综合性、专业性检索系统好。单一性检索系统包括专利索引、科技报告文摘、学位论文索引、会议文摘、标准目录等。

网络检索系统是将若干计算机检索系统用通信线路联结以实现资源共享的有机体,是现代通信技术、网络技术和计算机技术结合并高度发展的产物,它使各大型计算机信息系统变成网络中的一个节点,每个节点又可联结很多终端设备,依靠通信线路把每个节点联结起来,形成纵横交错、相互利用的信息检索网络。

2.按存储内容划分目录型题录型文摘型全文型索引、参考工具书、搜索引擎

目录型目录型检索工具是以整本图书或期刊的外部特征为报道对象。报道内容:图书:书名/著者//出版地:出版者,出版时间期刊:刊名/编著出版地:出版者,创刊年

题录型

题录型检索工具是以书刊中的某篇文献(或章节)的外部特征为报道对象报道内容:文献篇名/著者//刊名出版年、月(卷、期)、页码文摘型

报道对象与题录相同,但对文献内容揭示的程度较题录更深入更具体,增加了文献的摘要文摘按其内容特征可分:指示性文摘、报道性文摘、指示—报道性文摘

例:文摘型【题名】中国淡水蛏(chēng)的形态学研究【作者】饶小珍陈寅山

【机构】福建师范大学生物工程学院

【刊名】福建师范大学学报.1998,14(4).-71-75,102

【ISSN号】1000-5277

【CN号】CN35-1074

【关键词】中国淡水蛏形态学淡水蛏蛏科【分类号】Q959.194

【文摘】报道了以解剖法对中国淡水蛏外部形态和内部结构研究的结果。并与蛏科的缢蛏和刀蛏科的尖刀蛏的形态进行了比较索引、参考工具书等索引:揭示具有重要检索意义的内容特征标识或外部特征标识,按照一定顺序排列,并注明文献条目线索的检索工具。

参考工具书:是分析和著录大量具体常用的科学数据与事实,以备查找使用的各种常用工具书的总称。搜索引擎:通过网络机器人建立网络数据库全文型报道对象与题录相同,但增加了文献的全文按载体不同:

全文数据库(中文、外文)期刊等印刷型3.按物质形态划分

印刷型检索系统它是将科技文献的各种特征按照一定的规则和格式,记录在书上的检索系统。电子型检索系统它是经数字存储技术为基础出版的检索系统,目前主要包括光盘检索系统、学术资源数据库、网络检索系统等。其他类型的检索系统包括卡片式检索系统、缩微式检索系统等三、检索系统的结构组成:1.编辑使用说明

2.目次表

3.正文部分

4.索引

5.附录第三节

信息检索语言

检索语言是一种人工语言,用于各种检索工具的编制和使用,并为检索系统提供统一的、作为基准的、用于信息交流的符号化或语词化的专用语言。它是连接存储和检索两个过程的桥梁,也是连接标引者和检索者的桥梁,

检索语言的结构一、描述文献的外表特征(书刊篇名——题目索引,著作姓名——著作索引,文献序号--序号索引,引用文献--引文索引)二、描述文献内容特征1、体系分类语言——分类索引2、主题语言(标题词——标题词索引。单元词——单元词索引,关键词——关键词索引,叙词——叙词索引)3、代码语言(分子式等——分子式索引等各种专用索引,结构式——结构式索引)检索语言按表述信息内容特征划分:分类语言和主题语言。分类语言包括体系分类语言、组配分类语言和混合分类语言。主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。在信息的标引存储和检索应用过程中,目前应用得最广的是体系分类语言和关键词语言。一.

分类检索语言用分类号表达各种概念,将各种概念按学科性质进行分类和系统排列。体系分类语言以《中图法》为例《中图法》:以拉丁字母与阿拉伯数字相结合的混合制号码作为类目的分类号,将人类的文献分为五个基本部类,22个基本大类。《中图法》组成《中图法》是一部大型综合性图书分类法,有以下五部分组成:

五大部类

二十二个基本大类

简表

详表

复分表

《中图法》基本部类和基本大类表基本部类基本大类1、马克思主义、列宁主义、毛泽东思想A.马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学B.哲学、宗教3、社会科学C.社会科学总论D.政治、法律E.军事F.经济G.文化、科学、教育、体育H.语言I.文学J.艺术K.历史、地理4、自然科学N.自然科学总论0.数理科学和化学P.天文学、地球科学Q.生物科学R.医药、卫生S.农业科学T.工业技术U.交通运输V.航空、航天X.环境科学、安全科学5、综合性图书Z.综合性图书T工业技术

TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TL原子能技术TK能源与动力工程TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程简表举例B哲学、宗教一级类目B0哲学理论二级类目B1世界哲学二级类目B2中国哲学二级类目B21古代哲学三级类目B22先秦哲学三级类目详表举例分类号类目名称级次F经济一级F7贸易经济二级F71国内贸易经济三级F713商品流通与市场四级F713.8广告五级F713.80广告理论与方法论六级复分表又称辅助表,附表。是由共同性的子目构成,单独编制,供有关类目进一步区分时共同使用的表。总论复分表、世界地区复分表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表、通用时间、地点表索书号的组成图书分类:是图书分类人员依据一定标准,对入馆图书进行分析、辩别、归类,结合本馆特色,给每一种文献一个索书号的过程。索书号由分类号+种次号图书分类的作用:利于组织分类排架、编排分类目录、进行分类统计馆藏图书

图书的分类与排架

C53/126=2:4或C53126=2:4C53:分类号126:种次号=2:第二版4:第四辑(丛书)不同类别的图书按字母顺序排列同一类别的图书按数字顺序排列例如:A561/3、B848/64、C53/12F270/79、F270.4/5、F272.3/67图书分类排架实例I242.4I246.5I247.5I712.45213158185第1组TQ2R22K81O13Q956103557第2组图书分类排架实H32H33H34H31H3182151818=2第3组TP393.08TP393.08TP393.089807818

第4组高级查询在题名、著者、丛书名、主题词、出版社、ISBN(书)、ISSN(刊)、索取号、起始年代中填入自己确定的内容,其余的可以不填写,然后进行检索。结果可检索到所需文献的题名、著者、出版信息、索取号查看选中图书的相关信息二.

主题检索语言标题词:经规范化处理的词或词组,先组式语言,它是以标题作为文献内容表示和检索依据的一种主题语言,描述文献内容特征的词和词组。

叙词:经规范化处理的词或词组,后组式语言,可自由灵活组配,它是以叙词作为文献内容表示和检索依据的一种主题语言,用以表达文献基本内容的概念单元。

关键词:未经规范化处理,直接从文献题名、原文或文摘中选取的能反映原文主题内容的自由词汇。单元词:是从文献正文、摘要或题目中抽取出来的最基本、其概念不可再分的词,它是以单元词作为文献内容标识和检索依据的一种主题语言。关键词语言作为信息存储和检索依据的一种检索语言。运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索“入口词”进行检索。但是,关键词索引不显示词间关系,不能进行缩检和扩检,对提高检索效率有一定的限制。关键词表达事物、概念直接、准确,不受词表控制,能及时反映新事物、新概念。目前,关键词语言已被广泛地应用于手工检索和计算机检索系统来编制索引,关键词索引的主要类型有题内关键词索引、题外关键词索引、双重关键词索引等。如美国《化学题录》(CT)中的“题内关键词索引”,《化学文摘》(CA)中的“关键词索引”,就是其主要代表。第三章信息检索方法、途径和步骤一、检索方法检索方法是为实现检索计划或方案,而采取的具体操作方法或手段的总称。信息检索的方法主要有以下几种:1.常规法(检索工具法)

(1)顺查法:以课题研究的起始年代为起点,由远而近按时间顺序逐年查找的方法(2)倒查法:由近而远按时间顺序逐年查找的方法(3)抽查法:针对学科发展的高峰期,选取一定时间段进行查找的方法2.追溯法是指利用已知文献后所附的参考文献入手,逐一追查原文,再从此原文后所附的参考文献逐一查找下去,直到获得满意的结果。3.分段法又称循环法、交替法、综合法。即利用检索工具法和追溯法交替使用的一种方法。4.浏览法指直接在一次文献中查找所需的文献,也称直接检索法。该方法带有盲目性,一般只作为对上述各种检索方法的补充,主要用于查找新近发表的文献。二、检索途径1.分类途径2.主题途径3.著者途径4.其它途径1.分类途径是从学科分类角度来查找文献的一种途径。利用目次表或目录来查找。检索文献的关键:分析课题,确定课题所属的类目与检索工具目次表中的类目相匹配,才能查准。特点:族性检索

(适合从学科体系出发泛指性比较强的课题的检索,但不适合专指度高的课题以及新兴学科、交叉学科、边缘学科的课题的检索)2.主题途径从文献主题内容角度来检索文献的一种途径。利用检索工具后所附的主题索引,以主题词作为检索入口。检索文献的关键:分析课题,选准主题词,并了解主题索引的结构和编排。特点:特性检索(适合比较具体专深的课题以及新兴学科、交叉学科、边缘学科的课题的检索)3.著者途径在已知著者姓名的情况下,利用著者索引作为工具检索文献的途径。一般著者索引(个人或团体)均按著者姓的字母顺序编排,姓在前,名在后,姓用全称,名用缩写。4.其它途径分子式途径序号途径文献题名途径三、检索步骤信息检索过程是一种逻辑推理的过程,全过程分以下几个步骤:文献检索的具体步骤和方法确定检索工具检索匹配制定检索策略选择检索途径检索结果用户评价选择检索手段信息需求信息分析用户检索输出不满意满意分析研究课题,明确检索要求

1、分析课题的实质内容以及所涉及的学科范围及相互关系,抽出主题概念,确定逻辑组配2、明确需要的文献种类、语种、年代以及文献量。3、明确检索的侧重点:对查新、查准、查全的指标要求。查找文献线索1、做好检索记录2、文献类型的识别确定检索策略1、选择检索工具:内容、专业性、技术手段、更新、性价比等2、确定检索途经3、优选检索方法4、制定、调整检索策略索取原始文献信息1、掌握两种还原法:缩写与全称转换、非拉丁语系出版物名称还原2、向著者索取原始文献3、利用馆藏目录、公共查询系统、联合目录获取原始文献4、利用网上全文数据库获取原始文献5、利用网上全文传递服务检索原始文献6、利用网上出版社、杂志7、利用文摘数据库的原文服务检索结果评价1、提高查全率和查准率2、降低漏检率和误检率检索时常见问题分析

造成误检或漏检的原因:1)课题分析不透;“学科归属”不清。2)“语言”不通。3)主题概念不是大了,就是小了。4)“同义词库”不全5)核心词太多6)选择的检索工具专业性不够。E-journalorsearchengine?

1)课题分析不透;“学科归属”不清对课题的真正含义和学科归属不清楚,会造成最大的失误。如果没有认真分析课题的真正含义和学科归属,就匆匆着手检索,往往会欲速不达,或多走弯路,甚至导致失败。2)“语言”不通基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。往往检索工具使用的是标引语言,而检索者使用的多数是自由词,未经规范化,这样在表达方式上有差异,造成了检索障碍。3)主题概念不是大了,就是小了检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。主题概念的范畴太大造成大量没用的文献被误检,太小造成重要的的文献被漏检。4)“同义词库”不全往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不是那么全,造成漏见就不足为怪了。例:艾滋病——艾滋病、爱滋病碳纤维——碳纤维、炭纤维设备——apparatus,equipment,device……汽车——car,automobile,vehicle……5)核心词太多对于由A、B、C、D、E多个主题组合的多主题概念课题,如果将所有主题混在一起同时组配,会造成“零结果”现象。因为,只要A、B、C、D、E其中之一的检索结果为零,则经过布尔逻辑“和”的运算,检索结果=A*B*C*D*E=0。6)选择的检索工具专业性不够E-journals:中文:中国期刊网、万方数据库系统、维普…….英文:Elsevier……Searchengine:

北大天网,百度,

GooGle,Yahoo!Openfind,…….

解决上述问题的方法1、掌握文献和文献检索的基本知识2、熟悉各种文献信息的分布3、掌握文献检索的基本技巧:检索算符、检索语法、常用搜索引擎和数据库的特殊技巧4、不断实践、不断归纳总结

如何提高查全率?选择上位词和相关词;如:查找关于孙中山的文献,先用孙中山查,再用孙文、国父查找。调节检索式的网罗度,删除不必要的组面,如and(并且);进行族性检索(分类检索或用or连接相关检索词);截词检索;com*代替computer增加检索途径。如何提高查准率?提高专指度(用下位词或换专指性强的自由词)

用逻辑乘“*”(and)或not相关检索项;如查找克林顿,但不要关于莱温斯基的信息。检索式:克林顿not莱温斯基用文献外部特征限制输出结果(在中文图书中查找);

用“二次检索”“条件检索”排除误检

限制检索字段,指定邻接和优先关系。

第四章实体图书馆利用一.图书的分类及索书号二.各书库的分布及馆藏内容三.借阅规则四.网上借还查询及公共检索机的利用第五章网络信息资源检索网络信息资源基本知识点:

☆概念和发展历程

☆基本技术☆

常用网络搜索引擎的原理和使用技巧一、网络信息资源检索:

是利用计算机通过网络来查找、利用和获取各种信息资源。包括图书馆的公共书目(OPAC--OnlinePublicAccessCatalogue)、各种联机数据库、Internet上的信息资源等。

网络信息资资源检索的发展历程

脱机检索

联机检索

国际联机检索

单机光盘检索光盘网络检索网络信息资源检索1.脱机检索(50年代末~60年代中期

)是计算机检索的原始时期。只能进行简单的检索。为满足专业检索人员定期批量处理用户的情报要求。用户不能立刻获得检索结果。2.联机检索(60年代末~70年代初)1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了”人-机“对话的联机情报检索系统(DIALOG的前身)

用户可随时浏览检索结果由于这个阶段的计算机网络主要是通过电话线联接,因而联机检索受到地区的限制3.国际联机检索(70年代中期-)卫星通讯技术的出现,使得联机检索系统打破了地域限制。而数据库生产的迅速发展及微机大量的涌现,更使得国际联机检索蓬勃发展。联机检索系统进入发展的黄金时期。实现了人类情报资源的共享。4.单机光盘检索(80年代--)CD-ROM技术促使计算机检索成本迅速下降

(一张光盘可存贮600〔MB〕兆字节机读数据、成本价格便宜,而一张DVD光盘的容量最少可达4.7G)5.光盘网络检索(90年代-)

光盘网络是一种计算机网络,如图书馆局域网实现多用户光盘资源共享6.网络信息资源检索(90年代末-)

进入90年代后,随着网络技术的发展,尤其是互联网的迅猛发展,使计算机检索进入一个崭新的时期。检索方法更简单,检索结果更全面网络信息资源检索的特点检索速度快检索途径多更新快资源共享检索更方便灵活检索结果可以直接输出二、网络信息检索系统的构成从物理构成来说,包括计算机硬件、软件和网络数据库、通讯网络和检索终端五部分数据库的结构文档(file):数据库中一部分记录的有序集合记录(record):数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征。字段(field):比记录更小的单位,是组成记录的数据项目

三、网络信息资源的类型1.参考数据库(database):为用户提供线索的数据库包含各种数据、信息或知识的原始来源和属性的数据库,主要包括书目数据库、文摘数据库、索引数据库

2.全文数据库(Fulltextdatabase)收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息为主

3.事实数据库(Factualdatabase):

指包含大量数据、事实,直接提供原始资料的数据库。又分数值数据库(Numericdatabase)、指南数据库(directorydatabase)、术语数据库(terminologicaldatabase)等

4.电子图书(electronicbooks)

指供在电脑上阅读的一种新型的数字化书籍,是多媒体技术和超文本技术发展的产物。5.电子报纸(electronicnewspaper)纽约时报(Http://)华盛顿邮报(http://泰晤士报(Http://www.thetimes.co.uk)人民日报(Http://)光明日报(Http://)中国日报(Http://)四、网络信息资源检索的基本技术

布尔逻辑检索(booleanlogic)布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求计算机检索式(逻辑表达式):检索词+有关算符

1、布尔逻辑算符

2、截词算符

3、位置算符

4、字段限定符

逻辑运算符有三种:

逻辑与(AND)逻辑或(OR)逻辑非(NOT)

逻辑与:AND

常用“*”“&”表示,检索时,命中信息同时含有两个概念,专指性强。可以缩小检索范围,提高查准率

逻辑或:

OR例如:colororcolour常用“+”、“/”表示,检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B,可以扩大检索范围,提高查全率。逻辑非:

NOT例如:humannotanimal常用“-”表示,命中信息包含逻辑A、不包含逻辑B或同时有A和B的,排除了不需要的检索词,可以排除不必要的信息,提高查准率。优先级运算()>NOT>AND>OR截词检索

(truncation)—

截词符

截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。

按截词的位置划分前截断:又称左截断,截词符在词的左边,例如:*magnetic中截断:截词符在词的中间,例如:organi?ation,可以检索organisationorganization后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*根据截断的数量不同

无限截断:不限制被截断的字符数量有限截断:限制被截断的字符数量,例如educat**,可以检索educator、educated

*、?、&均可以表示截词的截断符号,各检索系统有不同的规定,没有统一标准。词位置检索(positionaloperator)

—位置运算符

利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能

(Fulltextsearching)。

为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。下面介绍几种数据库经常使用的位置运算符:

1.W-With

W算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。

例:intelligent(W)robot?(Ei

CompendexPlus)

Wn(或nW)表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。

例:intelligentw1robot*(OCLCFirstSearch)

2.N–Near

N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。例:intelligentNEARrobot*(EiCPXWeb)

Nn(或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。

例:intelligentN1robot*(OCLCFirstSearch)3.Adj-adjacency

邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。

4.F-Field

同字段邻接例:

environment(F)protection

5.P-Paragraph

同自然段邻接

例:

environment(P)protection

6.S-Sentence

同句邻接词序可以颠倒,两词必须出现在同一句子(子字段)中例:

environment(S)protection五、搜索引擎(searchengine)从1995年开始,搜索引擎以一定的策略从网络收集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎站---“网络门户”搜索引擎的工作原理

信息的收集处理信息的检索输出搜索引擎的分类目录式搜索引擎:以人工或半自动方式收集信息,按某种分类法进行加工整理机器人搜索引擎:由一个称为Spider的机器人程序以某种策略来…….

元搜索引擎

将用户的查询请求同时向多个搜索引擎递交,将返回的信息进行重复排除、重新排序等处理后,作为自己的结果返回用户。常用的一些搜索引擎网址(一)

http://

雅虎是中国最著名的目录索引,是搜索引擎开山鼻祖之一。它收录了全球资讯网上数以万计的中文网站,不论你要找的网站是用国标码简体字、大五码繁体字还是图形中文,都可以在这里找到

检索途径通过分类目录、关键词检索检索方法与技巧支持布尔逻辑检索、可以使用引号,强调“+”、“-”、指定关键字出现的段落常用的一些搜索引擎网址(二)http://

1998年创立,搜狐“分类与搜索”已收录网站四十多万,已形成庞大的中文网站数据库。搜狐的目录导航式搜索引擎完全是由人工加工而成,相比机器人加工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论