第2章计算机检索基础及Internet信息检索_第1页
第2章计算机检索基础及Internet信息检索_第2页
第2章计算机检索基础及Internet信息检索_第3页
第2章计算机检索基础及Internet信息检索_第4页
第2章计算机检索基础及Internet信息检索_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章计算机检索基础及Internet信息检索内容安排(一)掌握:数字资源的种类和特点;计算机检索的技术与方法;搜索引擎的分类及使用。(二)理解:数字资源及数字图书馆的发展;搜索引擎的工作原理及使用技巧。(三)了解:数字图书馆的发展;数据库的概念;计算机检索的主要类型与方式方法;主要搜索引擎的异同。3.1.1数字资源相关概念3.1.2数据库的基本概念3.1.3计算机检索的技术与方法3.1计算机检索基础3.1.1数字资源相关概念定义特点类型一、数字资源的定义以数字化的形式把文字、图像、声音、动画等多种形式的信息储存在光磁等非纸质载体上,并通过网络通信和终端方式再现的信息资源。(1)多种信息形式:文字、图像、声音、动画等;(2)以电子数据的方式存放;(3)载体为光磁等非印刷介质;(4)通过网络通信、计算机或终端等方式再现出来。二、数字资源的特点数字图书馆的兴起数字图书馆是指以数字资源为主体馆藏的图书馆。现有的实体图书馆在逐渐地朝数字化方向发展。实体馆藏与虚拟馆藏共存:读者不仅需要了解图书馆的实体馆藏,也要了解和学会使用虚拟馆藏。虚拟馆藏:图书馆订购的或从网上收集和组织的,通过网络远程或局域网方式访问的数字资源。按信息获取的方式可分为:万维网(WWW)信息资源,FTP信息资源(FileTransferProtocol),Telnet信息资源,USENET/Newsgroup信息资源,LISTSERV/Mailinglist信息资源等。按对应的非网络信息资源分:联机馆藏目录(OPAC),电子期刊,电子图书,电子报纸,参考工具书,数据库。三、数字资源的类型按信息资源传播范围分:光盘局域网信息,传统的联机网络信息,Internet网络信息资源。按数据库类型分:(1)书目、索引、文摘二次文献数据库,(2)查阅知识条目的三次文献数据库,(3)期刊文献型数据库,(4)其他文献型数据库。按发布机构可分:(1)企业站点信息资源,(2)学校、科研院所站点信息资源,(3)信息服务机构站点信息资源,(4)行业机构站点信息资源3.1.2数据库的基本概念定义类型文档结构字段与记录、文档与数据库一、数据库的定义数据库是可以共享的某些具有共同存取方式的相关数据,以一定的组织方式的集合。通俗地说,数据库是以某一特定方式组织和存放数据的仓库。三要素:相关数据、共同存取方式和一定的组织方式、共享。二、数据库的类型从检索角度,以数据库所含信息记录的内容结构为标准,分为:1.

文献参考数据库(简称文献数据库,ReferenceDatabase)。著名的文献数据库有CASearch,MEDLINE,INSPEC,SCI,EI,BIOSISPREVIEWS2.

源数据库(也称非文献型数据库,SourceDatabase)(1)

数值数据库:数据库的记录含有大量的原始调查数据和统计数据。(2)

文字与数值数据库:同时包括文献与数值的数据库。(3)

特性数据库:通过网上免费数据库也可查到大量化合物的物性数据及光谱数据。(4)

全文数据库三、数据库的文档结构1.

顺排文档(linearfile):是按记录的编号顺序排列的文档。为主文档。2.

倒排文档(invertedfile):是将数据库中具有某些特征的字段值和具有该字段值的记录号按顺序排列构成的文档。也称为索引文档四、字段与记录、文档、数据库1.记录(Record):数据库的主要部分由一系列的记录所组成,每个记录对应于一篇原始一次文献。2.字段(Fields):每条记录由不同的数据项目组成。我们将记录中的数据项目称为字段。3.文档(File):是记录及其索引等的集合,是传统的检索工具在计算机检索中的同义物。如CA及其有关索引就相当于机检系统(如Dialog)中的一种文档(如399文档,即CASearch)4.数据库(Database):是文档的集合。最小的数据库可由一个文档组成,所以有时文档和数据库同义。字段字段标识符:一般由两个字母组成,如TI,AB,AU,PY,LA等。每个字段都是一条检索该记录的途径。子字段(Subfield):如文摘中的每一个句子可为一子字段。

基本检索字段:各种数据库提供的字段检索默认值;反映与文献内容特征有关的信息。如主题词,关键词,文献标题,文摘等字段。在DIALOG系统中用DE,ID,TI,AB表示。?SCOMPUTER?SCOMPUTER/TI(后缀限定)辅助检索字段:根据文献的外部特征抽取的检索字段。常用的辅助索引字段有:作者字段(AU)、期刊名称字段(JN)、出版年字段(PY)、文献类型字段(DT)、语种字段(LA),作者所在机构名称字段(CS)等。辅助检索字段常用前缀限定,如:SAU=WANG,JPSPY=20013.1.3计算机检索的技术与方法检索原理检索技术检索类型与方法一、检索原理计算机信息检索:用户利用计算机设备和通讯网络,与计算机信息检索系统相连接,运用系统特定的指令和检索方法,组织检索策略,从储存了大量记录的数据库中检索出所需信息的过程。把检索提问转化为布尔逻辑表达式,其表达式由三项组成:1.检索指令2.检索项(主题词、分类号、作者等)3.逻辑运算符(AND、OR、NOT)二、检索技术1.分类导航检索2.布尔逻辑检索3.截词检索4.字段限制检索5.全文检索1.分类导航检索(SubjectDirectory)通过文献的主题类目,引导用户从主题等级分类的途径来浏览数据库记录。2.布尔逻辑检索技术(Boolean)逻辑运算符(AND、OR、NOT)逻辑算符的优先顺序为NOT,AND,OR,也可以根据需要,用括号规定或改变执行顺序。逻辑“与”(AND)逻辑“与”组配是具有概念交叉关系和限定关系的一种组配。通常用AND或“*”作为算符表示。缩小检索结果如“AANDB”,即表示被检索的文献记录中必须同时含有A和B两个概念才算命中。逻辑“或”(OR)逻辑“或”是并列概念关系的一种组配,通常用运算符为“OR”或“+”表示.扩大检索结果如“AORB”,则表示在一篇文献记录中只要含有A和B中的任何一个即算命中。逻辑“非”(NOT)逻辑“非”组配是指不包含某种概念关系的一种组配。它可以从原检索范围中排除一部分文献记录,逻辑“非”的运算通常用“NOT”或“-”作为运算符。可以缩小检索范围如“ANOTB”则表示从含有A的文献中去掉其中也含有B的文献记录。3.截词检索技术(truncation)就是将检索词在合适的地方截断,用截出的片断进行检索。截词符号通常用*或?(用于英文中)主要针对近义词、同一词根、单复数等词汇的变化按所截取的位置分为:前截词、中间截词和后截词三种,最常用的是后截词

截词符“*”、“?”1.无限截词(前方一致):不指明具体截去的字符数如:comput*或comput?comput*Compute,computer,computing,computerize

2.有限截词:指有具体截去的字符数如:comput??(截2个字符)computer??<=1Computer,computerscomput??<=2compute,computercomput???<=3compute,computer,computingalumin??m<=2aluminum,aluminium3.中间屏蔽wom?n如:woman,women4.字段限定检索技术(fieldlimit)为了提高检索的查准率,缩小检索的范围,将检索词限定在特定的字段中进行检索。对检索词范围(时间、国别、语种、信息类型等)进行约束或压缩限定字段通常包括:题名、作者、机构、关键词/主题词、分类号/分类名、出版社、出处(期刊刊名、卷期信息)和文摘分:限制字段和不限制字段1.限制字段前缀限制:AU=Johnson,A.R.PY=2003后缀限制:information/TIlibrary/DE2.不限制字段如:EIVillage2中,不限制字段则在以下字段中检索:Ei主题词、标题、作者、自由词、作者单位、出版物名称、文摘、出版者。5.全文检索技术数据库记录中的每个词都可以作为检索入口,以原始记录中词与词之间特定位置关系为检索对象的运算,它不依赖主题词表而直接使用原文中的自由词进行检索,它是通过位置算符来确定词与词之间的特定的位置关系的。位置算符也叫全文查找逻辑算符。位置算符检索多个单元词之间位置逻辑的比较,即在检索词之间使用位置算符(或称邻近算符)来规定算符两边的词出现在文献中的位置。可指定两词之间至多可相隔几个词(即在比较时,对文献中出现的这两个检索词之间所插入的位置算符所规定之内的其他词可忽略不计),两词出现的先后次序可以指定位为可对换或不能对换等。如在DIALOG系统,用检索词computer(1w)crime进行检索,可命中文中出现computercrime或computer-relatedcrime等词组的文献记录。常用的位置算符有:With,Near,Field,Subfield,Link,NOT等。如:(W),(1W),(nW)Computer(w)aided(w)designElectric(1w)vehicle——electricrailvehicle常见的另外表达形式:WnPRE/nN,1N,nNinformation(n)search——informationsearch;searchinformation常见的另外表达形式:NnW/nNOTW,NOTN,NOTF,NOTS,NOT

L三、检索类型与方法1.主要类型2.检索方法1.主要类型联机检索光盘检索INTERNET网络检索联机检索指用户利用计算机终端设备,通过通信线路(网络),从大型商业数据库中检索出所需信息的过程。具有检索范围广、速度快、检索功能强等特点。光盘检索应用计算机及激光技术在光盘上存取信息的方式,提供廉价方便的信息检索途径。分单机方式与光盘网络方式。INTERNET网络检索通过各种INTERNET网络搜索引擎等进行信息检索的过程。2.检索方法计算机计算机检索的方式从设计系统的用户界面与操作方式上可分为三种:命令检索,菜单检索,超文本检索。命令检索(COMMANDSEARCH)使用一些特殊的操作命令(包括指令和检索式)来实施检索。菜单检索(MENUSEARCH)将各种检索指令转化成菜单选项,系统的功能和检索指令通过菜单和子菜单的选项来实现。超文本检索(HYPERTEXTSEARCH)超文本的内容排列式非线性的,它按信息单元及其关系建立起知识结构网络,用鼠标点击相关的知识单元,检索便可追踪下去。禁用词areforofthewithanasFromonthiswouldandbyinThatto等等。3.2搜索引擎(SearchEngine)3.2.1搜索引擎概况3.2.2常用著名搜索引擎举要3.2.3webDirectory(网络目录)3.2.1搜索引擎概况在Internet的信息检索发展过程中,先后产生了如Archie,Gopher,WAIS检索工具和基于WWW方式的SearchEngine(搜索引擎)。一、定义搜索引擎是指通过网络机器人(网络信息挖掘系统)在网际某一空间、某一领域中寻找和发现有用或相关的信息,并在此基础上建立检索数据库并不断更新,通过简单友好的界面提供给用户查询的工具。具有三大功能:在因特网上漫游收集信息(人工的、自动的两种);对收集到的信息标引并建立或更新数据库;提供多种检索服务,接待用户的访问。二、分类(1)根据搜索引擎的数据检索机制.分为关键词检索型(AltaVista)、分类检索型(Yahoo!)。(2)根据搜索引擎的数据内容,分为综合型(AltaVista、Yahoo!)、专题型(555—1212,MapBlast,WebSEEK,Archie,DejaNews)。(3)根据搜索引擎检索的数据库,可分为独立搜索引擎(SingleSearchEngine)(A1taVista,Yahoo!)、元搜索引擎(MetaSearchEngine)(MetaCrawler)。三、工作原理搜索引擎并不真正搜索互联网,它搜索的实际上是相关的网页索引数据库。真正意义上的搜索引擎,首先通过网络自动索引程序收集信息,建立网页索引数据库,当用户提交搜索关键词后,所有在页面内容或HTML代码中包含了该关键词的网页都将作为搜索结果被搜索出来。再经过搜索引擎网站自身的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,返回给用户。分为四个步骤:1.信息的采集存储2.索引数据库的建立3.检索界面的建立4.检索结果的相关性处理四、搜索技巧1.选择正确的搜索引擎2.学会使用减号“-”3.使用组合搜索4.使用自然语言搜索5.注意单词拼写和错别字6.注意布尔算符的使用7.不要使用过于常见的关键词3.2.2常用著名搜索引擎举要最有名的学术搜索引擎有:Scirus等;较有影响的英文搜索引擎有:Google,Yahoo!,A1taVista等;较有影响力的中文引擎有百度、天网等。一、Scirus学术搜索

http://Scirus网页来源网页来源于:大学网站科学家主页会议信息专利信息公司主页产品信息美国专利局等,共有6900万个网页;Scirus期刊来源包括:140万

篇ScienceDirect(SDOS)全文;20万篇IDEAL(美国理想工业公司)

全文;190万篇份Beilstein(世界上最全的有

机和无机化学数值与事实库)摘要;1200万篇MEDLINE(医学文献资料库)摘要;17万种预印本;370篇BioMed全文;80万篇来自美国专利局的专利。特定字符限定检索

关键词前加“+,-”号和“”(1)+:检索结果里包含该关键词;(2)-:检索结果里不包含该关键词;(3)“”:表示将几个关键词定义为一个词组。

查询选项

(1)Allofthewords;(2)Anyofthewords;(3)Exactphrase。

支持布尔逻辑:AND,OR,ANDNOT字段限制检索au—Author;ti——Title;jo——Journaltitle;ke——Keywords;url——URL;dom——Domainname;af——Authoraffiliation。

字段限制方法一是在所需限制的字段名称后加“:”,一是选用“高级检索”界面,下拉字段选择框,选中所需限制的字段。二、Google

()基本搜索键入检索词并回车键(或者点击搜索”按钮)即可;要求“一字不差”。如:“贵宾饭店”和“贵宾酒店”会出现不同的结果;关键词之间自动添加“AND”,缩小搜索范围只需输入更多的关键词;“缩小搜索”加减号“-”或“在结果中搜索”;不使用“AND”、“OR”,不用“词干法”,“通配符”*;Google搜索不区分英文字母大小写。高级搜索窍门用“”双引号,进行准确查询,“-”、“\”、“+”、“=”、“,”“‘”可作短语连接符。忽略“http”和“com”,以及数字和单字。能用“+”“-”。某些词后面添加冒号,如:link:特殊功能:图像搜索,信息挖掘,手气不错,网页快照,类似网页,按链接搜索,指定网域,语句搜索等。site:使用空格缩小范围词组使用双引号“”link:“安徽师范大学”的链接三、百度

拥有目前世界上最大的中文信息库,总量达到6000万页以上,并以每天超过20万页的速度增长众多中文网站上可以看到“poweredbybaidu”标志收集范围涵盖了中国、新加坡等华语国家和地区以及北美、欧洲的中文站点。中文信息的理解具特色(专业术语,通俗用法,中外文检索词混用)检索特点百度搜索引擎检索方式多,支持普通检索、高级检索和二次检索。目前提供中文(简/繁体)网页搜索服务,默认以关键词精确匹配方式搜索,使用+(AND),-(NOT),|(OR),“site”和“link”等搜索语法和特殊搜索命令。另:在关键词之间插入“空格”、“+”或“&”亦表示“且”。提供关键词分类搜索,即将常用关键词进行组合分类,方便用户直接查找有关资料。四、天网中英文搜索引擎http://于1997年10月29日正式在CERNET上向广大Internet用户提供Web信息导航服务。由于是教育网内的搜索引擎,对校园网的用户来说,比用其他搜索引擎速度要快。基本搜索提供WWW网页搜索和FTP检索,有简单查询和复杂查询。WWW网页的简单查询:输入关键词,按下“搜索WWW网页”按钮;复杂查询:逻辑与(“&”),逻辑非(“-”),逻辑或(“|”),空格等同与“&”。FTP搜索:支持截词算“*”号、“?”号、空格(与),过滤文件大小、文件日期,限定文件类型、搜索的站点范围。搜索结果显示FTP搜索结果显示:图标(表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”等),文件名,文件的创建时间和文件的大小,文件名下方是该文件所在的目录WWW搜索结果显示:标题、网址、文件大小、更新时间与摘要信息。FTP搜索文献检索五、AltaVista

http://www.altavista.com关键词型搜索引擎的典型代表,是Internet上资源采集范围最广、功能最强大和最受用户欢迎的检索工具之一。它有详细和全面的网络资源全文索引,索引的内容包括标题、文摘、关键词、META标记、图像、链接、URL(统一资源定位地址),所以检索人口较多。检索提供简单检索和高级检索,并有检索修改方法以修正检索词和检索策略。输入几个检索词时,视为OR;用双引号括起则为词组检索。支持截词检索*,可用“+”、“-”;可限制检索字段,即你所需要检索的词必须出现在你指定的网页部分3.2.3webDirectory(网络目录)网络目录(WebDirectory)——因特网上的目录型检索工具,又称分类站点目录、专题目录或主题指南、站点导航系统等。最著名的网络目录:雅虎Galaxy搜狐3.3其他免费资源检索FTPTelnet、BBS信息资源USENET/NewsgroupLISTSERV/Mailinglist3.3.1FTPFTP(FileTransferProtocol)是TCP/IP协议的一种,是用于Internet上的控制文件的双向传输的协议,也是使用最广泛的一种服务。允许人们通过协议利用FTP客户端程序连接到因特网的一个远程主机(FTP服务器)上读取所需文件并下载到自己的计算机上。登陆方式:匿名和特许登陆两种。组织方式:/bin目录,/etc目录,/pub目录,Incoming目录,/lib或/usr/lib目录获取方法:使用FTP搜索引擎搜索FTP站点;利用专用FTP软件中“站点管理器”。利用FTP信息资源的主要方法(1)FTP内部命令(2)利用Web浏览器访问FTP。(3)利用专用FTP软件(WS-Ftp、Cute-Ftp,Bp-Ftp),不用记UNIX命令。访问FTP站点。登陆方法(1)匿名登陆(Anonymous为用户名,E-mail为口令)(2)向FTP站点管理员申请帐号登陆。FTP搜索引擎FTP搜索引擎的功能:搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。相对WWW搜索引擎,FTP搜索引擎专门针对各种文件,因此查找软件、图像、电影和音乐等类文件时,使用FTP搜索引擎更加便捷。

3.3.2Telnet、BBS信息资源(1)Telnet(2)BBS(1)Telnet允许用户将自己的计算机作为某一个因特网主机的远程终端与该主机相连,从而使用该主机上的硬件、软件和信息资源。各类图书馆的公共目录系统、信息服务机构的综合信息系统、商业化数据库系统大都可供远程登陆。也有特许和公开两种登陆方式。(2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论