本科信息检索与利用NO6教学课件_第1页
本科信息检索与利用NO6教学课件_第2页
本科信息检索与利用NO6教学课件_第3页
本科信息检索与利用NO6教学课件_第4页
本科信息检索与利用NO6教学课件_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、YCF正版可修改PPT(本科)信息检索与利用NO6教学课件信息检索与利用第6章 计算机与互联网信息检索计算机信息检索的发展过程和网络基础知识搜 索 引 擎计算机信息检索技术6.4电子信息资源6.5百度和谷歌6.6计算机检索过程与基本功能6.7网络信息检索策略与技巧了解计算机信息检索的发展过程及网络基础知识。了解搜索引擎有关知识。了解计算机信息检索技术。掌握百度和谷歌的使用方法。了解计算机检索过程与基本功能。掌握网络信息检索策略和技巧。第6章 计算机与互联网信息检索6.1 计算机信息检索的发展过程和网络基础知识 计算机信息检索的发展过程6.1.1 (1) 20世纪50年代末至6

2、0年代末,国外研制和建立了许多信息检索系统,并取得了一定的进展。其工作方式是传统的批处理检索方式。这一阶段数据的存取与通信能力比较差。 (2) 20世纪70年代初至80年代末,产生并发展了联机情报检索系统。其中,美国国家医药图书馆中心建立的在线计算机图书馆中心OCLC、SDC公司建立的System Development Company及Lockheed Corporation的Dialog系统都是在线商用数据库查询系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据库通信能力较差。 (3) 20世纪90年代以来,系统大多采用分布式的网络化管理,其信息资源的主要特点

3、是:数字形式表达、多媒体和多载体、内容覆盖社会各领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求较高等。这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终端主机方式到客户服务器结构方式;网络环境从局域网到广域网等开放网;应用接口从封闭界面到WWW和Z39.50等;信息结构从结构化到非结构化;系统功能从单纯信息检索到综合信息管理和服务等。其中较著名的系统有Altavista、Yahoo、Web Crawler等。6.1 计算机信息检索的发展过程和网络基础知识Internet1) 网络基础知识6.1.2 Internet(因特网)是一个以TCP/IP网络协议连接各个

4、国家、各个地区、各个机构的计算机网络的数据通信网,它将数万个计算机网络、数千万个主机互联在一起,覆盖全球。从信息资源的角度讲,Internet是一个集各部门、各领域的信息资源为一体的,供网络用户共享的信息资源网。6.1 计算机信息检索的发展过程和网络基础知识WWW2) WWW(万维网)是近年来在Internet上广泛使用的网络信息查询系统,是一个相互连接在一起,通过Web浏览器来访问的超文本文档系统。浏览器中看到的网页,可能包含文本、图像及其他的多媒体,通过文档之间的超链接,可以从一个网页浏览到其他网页,它采用Client/Server(客户/服务器)结构。Server一般建在Windows

5、NT或UNIX等操作系统上,提供浏览器浏览所需的资源。其中在Windows系统上运行的WWW浏览器主要有IE、360浏览器、火狐浏览器、搜狗浏览器等。6.1 计算机信息检索的发展过程和网络基础知识HTML3) HTML(超文本标识语言)是为WWW建立超文本文件的语言。普通文本文件和印刷型文献的内容以线性排列,知识点之间固有的网状联系无法予以体现。在超文本文件中,文本中的某些内容通过链接项(由高亮度、下画线或编号等进行标示的一些词和其他文本或文件)连接起来,即超文本文件是指含有多个指向其他文本、图像、声音或动画文件的指针,使它们连接在一起的文件,由此实现在Internet上的漫游。6.1 计算机

6、信息检索的发展过程和网络基础知识网站和网页4) 网页是用HTML等语言写成的文本文件,而网站则是有独立的域名,由若干相关的网页组成的一个站点。一般情况下,一个网站都有一个被称为主页的页面,起着引导访问者浏览网站的作用,或者说是用户通过超链接访问其他web页或服务器的起始点。6.1 计算机信息检索的发展过程和网络基础知识WWW浏览器5) 浏览器是WWW用来浏览网站和页面信息的客户程序。要获取WWW服务,用户必须使用合适的浏览软件。通过浏览器,用户可以十分方便地在Internet上获取所需要的信息。目前最为普遍的浏览器有微软公司开发的Internet Explorer。6.1 计算机信息检索的发展

7、过程和网络基础知识互联网协议地址、域名和URL6) 互联网协议(简称IP)地址是互联网信息定位必需的地址,一般为4段数字,中间用圆点隔开,如1。每台上网计算机都有一个唯一的IP地址,它的作用类似于上网计算机在信息高速公路上的门牌号码。6.1 计算机信息检索的发展过程和网络基础知识6.2 搜 索 引 擎 搜 索 引 擎6.2.1 搜索引擎也称为蜘蛛或者爬虫,这是因为它们会派出一个机器人到各个网站上去搜索特定的内容。它们将找回来的内容编成索引,方便用户在用关键字检索时,能够快速查到相应结果,并呈现在用户面前。 搜索引擎是一种利用网络自动搜索技术采集、索引Internet上的

8、各种信息资源,并为用户提供检索服务的工具,其功能包括信息采集、信息加工、信息检索;或者说搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。简言之,搜索引擎就是一种在 Internet上查找信息的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要、超链接文件大小、检索结果总数、相关度估计、评论等,如图6-1所示。图6-1 百度搜索引擎页面(示例)6.2 搜 索 引 擎 搜索引擎的检索方法6.2.2搜索引擎的常用检索方法1)(1) 简单搜索 简单搜索是指输入一个单词(

9、关键词),提交搜索引擎检索并反馈结果。它也称为单词搜索。这是最基本的检索方法。6.2 搜 索 引 擎(2) 词组搜索 词组搜索是指输入两个单词以上的同组(短语),提交搜索引擎检索并反馈结果。它也称为短语搜索。现有搜索引擎一般都约定把词组或短语放在引号(“”)内。如果查找的是一个词组或多个汉字,最好的办法是将它们用双引号括起来,这样得到的结果最精确。这就称为使用双引号进行精确查找。一般来说,在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。6.2 搜 索 引 擎(3) 高级搜索 高级搜索是指用布尔逻辑组配方式检索或在高级搜索界面将检索策略输入检索框中进行检索。常用的逻辑算符为A

10、ND(与)、OR(或)、NOT(非)。恰当应用这些逻辑运算,可以使搜索结果非常精确,而且可以用括号将搜索词组合起来,如(火星)OR金星AND探测NOT(行星探测)。6.2 搜 索 引 擎搜索引擎的其他检索方法2)(1) 语句搜索 语句搜索是指输入任意自然语言文句,提交搜索引擎检索并反馈结果,这种方式也称为任意检索,实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索,而且不同搜索引擎对语句中词与词之间的关系处理方式不同。6.2 搜 索 引 擎(2) 目录搜索 目录搜索是指按搜索引擎提供的分类目录逐级检索。用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索。它也

11、称为分类搜索6.2 搜 索 引 擎 搜索引擎的检索方法6.2.3独立搜索引擎1)(1) 国外搜索引擎Google雅虎Ask eeves Excite6.2 搜 索 引 擎(2) 中文搜索引擎搜狗 百度360搜索天网中搜6.2 搜 索 引 擎元搜索引擎2) 元搜索引擎又称为多元搜索引擎、集成搜索引擎、集合型搜索引擎,是指在一个统一的检索界面下,可选择多个搜索引擎同时进行查询。元搜索引擎把用户输入的关键词以特定的格式发送至多个独立搜索引擎,将多个独立搜索引擎返回的结果按一定次序和格式再返回到用户。6.2 搜 索 引 擎目录式搜索引擎3) 目录式搜索引擎一般又称为网络目录、分类式搜索引擎、主题指南等

12、,它是将所搜集的网络信息按一定的分类方法进行加工整理,建立以分类查询和分类导航为主,并集成关键词检索方法的搜索引擎,如Yahoo()。6.2 搜 索 引 擎其他搜索引擎4)FTP搜索引擎 Blog(博客)搜索引擎 答案搜索引擎和咨询服务系统BT搜索引擎(1)(2)(4)(3)6.2 搜 索 引 擎6.3 计算机信息检索技术 全文检索技术6.3.1 全文检索(full-text retrieval)是指以文本信息作为检索对象建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。 在信息检索领域,全文检索一直是一个比较复杂的问题。

13、与普通数据库检索所涉及的结构化数据查询不同,全文检索不仅要查询结构化数据,而且还要查询非结构化数据,这就必然会涉及自然语言的理解、分词、切词技术以及人工智能技术等。 全文检索技术的出现促使了信息领域的一场革命。与标引检索相比,全文检索提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源;全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。6.3 计算机信息检索技术 多媒体信息检索技术6.3.3 超文本信息检索系统是以超文本网络为基础的文献检索系统。正文

14、信息是以节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献时,节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信息的需要,通过链从一个节点跳到另一个节点,由此形成随着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。6.3 计算机信息检索技术 检索多媒体信息早期的方法是基于文本描述(对多媒体信息添加文本说明),现在主要研究基于内容的多媒体检索技术。基于内容的检索是指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相

15、似性。 对多媒体内容的分析、自动摘要、索引和查询方法的研究已取得较大的进步。为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术、语义传播技术以及交互学习技术把这两种方法有机地结合起来,从而大幅提高检索系统的检索效率。6.3 计算机信息检索技术 多媒体信息检索技术6.3.3 多媒体信息检索是对图像、文本、声音、动画等多媒体信息进行识别和获取所需信息的过程。多媒体信息检索与传统信息检索相比,具有信息类型复杂、交互、同步、实时、界面友好、操作简单等特性。多媒体信息检索系统并不是简单地对多种媒体进行检索,它必须既能对以文本信息为代表的离散媒体

16、进行检索,也能对以图像、声音等为代表的连续媒体的内容进行检索。6.3 计算机信息检索技术 基于内容的检索技术6.3.4 基于内容的检索(简称CBR)是随着多媒体技术的发展而出现的多媒体数据库查询与检索技术。基于内容的检索是指根据媒体对象的语义、特征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索是一项实用性强的高技术,能广泛用于遥感图像处理和空间探测、医疗图像、建筑工程图、天气预报、公安、艺术馆藏资料管理等许多领域。尤其随着Internet的发展,视频、音频、图形、图像将成为网上的主要资源,基于内容的检索技术则是不可缺少的检索手段

17、。6.3 计算机信息检索技术6.4 电子信息资源 搜索引擎的检索方法6.4.1机编文献目录数据库信息阶段1) 电子信息资源的真正起源是美国国立医学图书馆在20世纪60年代中期用电子计算机建立的MEDLARS系统,用于医学文献的检索。随后,美国其他一些机构也相继使用电子计算机编辑文摘期刊,从而客观上编制成了机器可读的书目文档,称为文献目录型数据库。这种文献目录型数据库由于使用计算机来编辑、检索文献信息,因此可以将机编文献目录型数据库的研制视为电子信息资源形成的开端。机编文献目录数据库信息阶段2) 国际联机检索就是用户使用终端设备,远距离地从国际联机检索中心迅速而准确地获取电子文献信息,使知识信息

18、得到广泛而有效的传播和利用,其实质是数据库和通信的结合。6.4 电子信息资源光盘信息阶段3) 由于光盘在存储电子信息资源方面具有记录密度高、容量大、成本低、体积小、寿命长、可实现随机存取和检索费用低廉等优点,因此,光盘被广泛用于存储、检索电子信息资源,并产生了一批生产系列光盘的公司,如美国UMI公司和银盘公司等。光盘记载的电子信息资源并不局限于文献信息,还包括各种软件,但可用于检索的仍以文献信息为主。6.4 电子信息资源网络信息阶段4) Internet是网络的网络,是网络通过互联而形成的全球网,已延伸到地球上几乎每个国家。在Internet上的所有主机都采用TCP/IP连接和通信,网上各种计

19、算机都以该协议规定的方式进行数据交换,使Internet信息资源主要包括电子报刊、电子新闻、电子报告、电子论坛、会议资料、各种软件资料、图像文件、声音文件和电子游戏等实现共享。总之,Internet是目前世界上资料最多、门类最全、规模最大的信息库,是人们获取信息的重要来源。6.4 电子信息资源 电子信息资源的类型和特点6.4.2电子信息资源的类型1)(1) 按信息的载体分类联机网络信息资源单独发行的信息资源,以光盘出版物为主。6.4 电子信息资源(2) 按信息的媒体形式分类文本信息资源超文本信息资源多媒体信息资源超媒体信息资源6.4 电子信息资源电子信息资源的特点2) (3) (2) (4)

20、(1)信息存储形式为文本超文本多媒体超媒体。以现代信息技术为记录手段,是一种数字化的信息资源。内容丰富。存储介质发生转换。6.4 电子信息资源 (7) (6) (8) (5)数据结构具有通用性、开放性和标准化的特点。便于各种媒介信息的一体化。交互式性能增强。 具有高度的整合性。6.4 电子信息资源6.5 百度和谷歌 百度6.5.1百度简介1) 百度于2000年1月创立于北京中关村,是全球最大的中文搜索引擎之一。 百度是中文搜索引擎中的后起之秀,其目标是成为全球最大的中文搜索引擎,目前的数据库中收录的中文页面已经过亿,而且还在以每天数十万的速度增加。 百度提供相关搜索和网页快照等功能,高级搜索中

21、还可以按地区(中国的省、市、自治区)进行相关搜索,以限定网站(site:)、限定地址(url:)、限定在网页标题(intitle:)搜索。 百度搜索帮助中心可以帮助用户解决许多问题。百度帮助中心包括新手指南、百度产品、搜索特色、搜索技巧等。 百度搜索中比较常用的有网页搜索、新闻搜索、图片搜索、博客搜索、视频搜索、文档搜索等。在百度的“知道”里可以寻求某一问题的答案。工具书有万年历、成语词典、汉语字典、百科词典等。百度首页如图所示。6.5 百度和谷歌网页搜索特色功能2)(1) 百度快照 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮助解决问题。每个被收录的网页,在百度上

22、都存有一个纯文本的备份,称为“百度快照”。百度速度较快,可以通过“快照”快速浏览页面内容。不过,百度只保留文本内容,所以对于图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果无法连接原网页,那么快照上的图片等非文本内容就无法显示。6.5 百度和谷歌(2) 相关搜索 有时候搜索结果不佳是因为选择的查询词不妥,可以通过参考别人是怎么搜索的来获得一些启发。百度的“相关搜索”,就是和想要的搜索很相似的一系列查询词。百度相关搜索排列在搜索结果页的下方,按搜索热门度排序。6.5 百度和谷歌(3) 专业文档搜索 很多有价值的资料在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF

23、等格式存在。百度支持对Office文档(包括Word、Excel、PowerPoint)、Adobe PDF文档、RTF文档的全文搜索。要搜索这类文档,需要在普通的查询词后面加一个“filetype:文档类型”限定。“filetype:”后可以跟以下文件格式:doc、xls、ppt、pdf、rtf、all。其中,all表示搜索所有这些文件类型。6.5 百度和谷歌(4) 高级搜索语法把搜索范围限定在url链接中inurl。把搜索范围限定在特定站点中site。精确匹配双引号和书名号。要求搜索结果中不含特定查询词。 把搜索范围限定在网 页标题中intitle。6.5 百度和谷歌 谷歌6.5.2谷歌简

24、介1) 谷歌是当今最流行的搜索引擎,自1999年创立以来,很快超过了其他的搜索引擎,业界排名第一,据目前的统计表明,谷歌占据了搜索市场的80。同时,谷歌也为其他搜索站点提供服务,其中包括著名的Yahoo和网易。6.5 百度和谷歌 谷歌拥有巨大的检索数据库,支持包括中文简体和中文繁体在内的43种语言,并能根据用户的浏览器设定自动使用本地语言界面;谷歌的搜索速度极快,其专利网页级别技术PageRank能够提供准确率极高的搜索结果;智能化的“手气不错”功能,可尽可能提供最符合要求的网站;“网页快照”能从谷歌服务器里直接取出缓存的网页,使被查网站在出现故障时,用户仍能获得一部分资料;谷歌可直接搜索图片

25、、新闻组及多种二进制文件。6.5 百度和谷歌 谷歌支持布尔逻辑“与”“或”“非”运算,支持“+”“”“( )”符号操作,支持词组精确检索。谷歌最大的检索特性还在于提供了丰富的字段检索功能,而且为不同资源类型提供了不同字段的限定检索功能。 谷歌的高级检索功能包括限定网站检索(包括某网站或排除某网站)、限定语言检索、检索链接指向某个网页的所有页面、相关网页检索等。 G网站只支持简体中文界面。如果要使用其他语言的界面,可访问。谷歌的搜索服务包括网页搜索、图片搜索、资讯搜索、地图搜索、博客搜索、视频搜索、大学搜索、图书搜索、学术搜索、网站导航等。6.5 百度和谷歌 在使用偏好界面(见图6-3)中可根据

26、个人的情况选择界面语言、搜索语言、结果数量、结果视窗、简繁转换、查询建议等,此界面实际上提供了一种个性化的设置。图6-3 谷歌使用偏好界面6.5 百度和谷歌 在语言工具界面(见图6-4)中可以设置搜索用某一特定语言编写的网页或搜索某一特定国家的网页,还可翻译文字和网页以及在字典里查找字词。图6-4 谷歌语言工具界面6.5 百度和谷歌检索方法2)(1) 简单搜索 简单搜索是谷歌的基本搜索,检索简洁且方便,仅需输入检索内容并按回车键,或者单击“Google搜索”按钮,即可得到相关资料。简单搜索界面如图6-5所示。图6-5 谷歌简单搜索界面6.5 百度和谷歌(2) 词组搜索 谷歌搜索引擎使用英文双引

27、号。在谷歌中,可以通过添加英文双引号来搜索短语。 为提供最准确的资料,谷歌不使用“词干法”,也不支持“通配符”(*)搜索。也就是说,谷歌只搜索与输入的关键词完全一样的字词。 谷歌搜索也不区分英文字母大小写,所有的字母均当成小写处理。 谷歌运用智能型汉字简繁自动转换系统,进行中文检索时可找到更多相关信息。6.5 百度和谷歌(3) 高级搜索 可以将检索策略输入谷歌主页面的检索框中进行检索,也可以进入高级检索界面(见图6-6)后,将检索策略输入检索框中。图6-6 谷歌高级搜索界面6.5 百度和谷歌谷歌的特殊功能3)(1) 信息挖掘 如果要查找网络上的PDF、DOC、PPT、XLS、RTF、SWF等类

28、型的文件,只需在检索词后加上PDF、DOC、PPT、XLS、RTF、SWF等信息,谷歌会自动到服务器,甚至数据库中搜索这些文件,体现了新颖的信息挖掘功能。6.5 百度和谷歌 谷歌可以支持13种非HTML文件的搜索。除了PDF文档,谷歌现在还可以搜索 Microsoft Office(DOC、PPT、X1S、RTF)、Shockwave Flash(SWF)、PostScript(PS)和其他类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。 谷歌也提供用户不同类型文件的“HTML版”,方便用户在即使没有安装相应应用程序的情况下,也能阅读各种类型文件的内容。6.5 百度和谷歌

29、(2) 手气不错 单击“手气不错”按钮会自动进入谷歌查询到的第一个网页,完全看不到其他的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。6.5 百度和谷歌(3) 网页快照 谷歌在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,可看到谷歌将该网页编入索引时的页面。谷歌依据这些快照来分析网页是否符合用户的要求。6.5 百度和谷歌(4) 类似网页 单击“类似网页”时,谷歌侦察兵便开始寻找与这一网页相关的网页。 谷歌侦察兵可以“一兵多用”。如果对某一网站的内容很感兴趣,但又嫌资料不够时,谷歌侦察兵会找到其他有类似资料的

30、网站;如果要寻找产品信息,谷歌侦察兵会提供相关信息,供用户比较,让用户尽可能货比三家;如果用户在某一领域做学问,谷歌侦察兵会成为助手,帮助快速找到大量资料。6.5 百度和谷歌(5) 相关搜索 谷歌能够提供与原搜索相关的搜索词。这些相关的搜索词是根据过去谷歌所有用户的搜索习惯和谷歌提供的计算两个搜索词之间相关度的独家技术而产生的。这些相关的搜索词一般比原搜索词更常用,并且更可能产生相关的结果。点击提供的相关搜索词就会自动进入这个词的结果页。谷歌相关搜索将帮助用户更快地找到更有价值的结果。6.5 百度和谷歌(6) 按链接搜索 有一些词后面加上冒号对谷歌有特殊的含义。其中的一个词是“link:”。查

31、询“link:”显示所有指向该网址的网页。例如,“link:wwwgooglecom”将找出所有指向谷歌主页的网页。不能将“link:”搜索与普通关键词搜索结合使用。6.5 百度和谷歌(7) 指定网域 有一些词后面加上冒号对谷歌有特殊的含义。其中的一个词是“site:”。要在某个特定的域或站点中搜索,可以在谷歌搜索框中输入“site:xxxxxcom”。6.5 百度和谷歌(8) 定义 要查看字词或词组的定义,输入“define”,接着输入一个空格,然后输入需要其定义的词。如果谷歌在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们。6.5 百度和谷歌6.6 计算机检索过程

32、与基本功能 检索策略的构造与执行过程6.6.1 所谓检索策略,即为达到检索目标而确定或采取的途径、程序、方法和步骤。光盘检索策略由逻辑提问式表达。逻辑提问式由布尔代数的逻辑算符号与检索词、位置符号和截词符号等合理组配而成。在检索过程中,检索策略还须根据检索效果的评价来修正。因此,一个完整的检索策略应是一个动态的执行过程,如图6-7所示。图6-7 检索策略的构造与执行过程示意图6.6 计算机检索过程与基本功能 机检基本功能6.6.2布尔逻辑1)(1)(2)(3)“与”逻辑乘。“或”逻辑和。“非”逻辑差。6.6 计算机检索过程与基本功能位置逻辑2)(L)“Link”。(C)“Citation”。(

33、F)“Feild”。(nw)“n words”。(W)“With”。(1)(5)(4)(3)(2)6.6 计算机检索过程与基本功能截词与屏3)(1) 截词 无限截词。无限截词是在检索词的词干后加一个“?”,表示不限制词尾部可变化的字符位数。 有限截词。有限截词在检索词的词干后加一个或一个以上的(最多不超过4个)“?”,然后空一格,再加一个“?”。前面的14个“?”表示限定所截字符的位数,最后一个“?”表示截词停止的符号。6.6 计算机检索过程与基本功能(2) 屏蔽 屏蔽检索是在检索词的一串字符中插入一个或多个“?”(屏蔽符号),表示在问号的相应位置上可置换数目相当的字符。对一些单、复数变化异常

34、或英、美拼法不同的词,采用屏蔽法可减少输入步骤,提高检索效率。6.6 计算机检索过程与基本功能字段检索4) 字段检索是限定检索词在数据库内查找区域的一种检索技巧。数据库中的字段是指数据库文献记录中包含某一专门信息的部分。例如,作者字段就全部由作者的姓和名组成,见表6-1。6.6 计算机检索过程与基本功能6.6 计算机检索过程与基本功能检索项5) 索提问式由检索项和逻辑运算符构成。检索项主要有语词性检索项和非语词性检索项两种形式,语词性检索项是各种数据库中必不可少的基本检索项,常用的语词性检索项分为受控词和非受控词两大类,它们均显示在不同数据库的不同字段里。 语词性检索项主要包括主题词、单元词、

35、关键词、标题词、叙词、自由词等。 非语词性检索项主要包括分类号、专利号、年代号、登记号、期刊代码等。6.6 计算机检索过程与基本功能6.7 网络信息检索策略与技巧 分析检索的主题6.7.1 要确切了解所要查询的目的和要求、确定需要的信息类型(全文、摘要、名录等,文本、图像、声音)、查询方式(浏览、分类检索、关键词检索)、查询范围(所有网页、标题、新闻组文章、FTP、软件、中文、外文)、查询时间(所有年份、最近几年、最近几周、最近几天、当天)等。 选择合适的检索工具6.7.2 各种搜索引擎在查询范围、检索功能等方面各有千秋,不同目的的检索应选择不同的搜索引擎。选择合适的检索工具主要从工具的类型、

36、收录范围、检索问题的类型、检索具体要求等方面综合考虑。 如果渴望有一个比较完美的搜索引擎,不妨使用Ask Jeeves(),这是一个能提供回答问题的确切网页的搜索引擎。6.7 网络信息检索策略与技巧 对搜索引擎的了解与选择,可以借助于各搜索引擎主页的介绍与联机帮助(about us、help、搜索建议等),或利用搜索引擎的集合与评价站点。 最重要的评价和介绍搜索引擎的英文站点是搜索引擎跟踪()。 搜索引擎汇总(search engine collection)的网站还有,和。6.7 网络信息检索策略与技巧 抽取适当的关键词6.7.3 (3) (2) (4) (5) (6) (1)使用名词或物体

37、做关键词。使用截词检索。通过OR连接同义词、近义词、相关词或同一术语的不同表达方式。检索式中使用23个关键词。对专有名词。“对固定短语,用“”引起进行短语检索。 (7)用括号将各个概念分开。6.7 网络信息检索策略与技巧 正确构造检索式6.7.4 构造检索式时,要充分利用检索工具支持的检索运算(网上一流的搜索引擎几乎都支持布尔逻辑检索)、允许使用的检索标识、各种限定,这是进行有效检索的基础。 许多搜索引擎都提供简单查询和高级查询,建议使用后者,如组合使用布尔逻辑运算符AND(+)、NOT()、双引号、使用日期与语种限定等,可使检索结果控制在一定范围内。OR可能是用处最小的,因为它检索出的信息太

38、多,有许多网上服务器甚至不对带有这种运算符的请求进行加工,但当检索术语有两种或两种以上的表达方式时,一般可用OR。充分利用进阶检索,即某些工具提供的refine、search within these results等功能,在前一次检索产生结果的基础上做进一步的检索。6.7 网络信息检索策略与技巧 及时调整检索策略6.7.5扩大检索范围1)利用某些搜索引擎的自动扩检功能进行相关检索。 使用多个搜索引擎。 使用截断技术。使用同义词、近义词或相关词。使用元搜索引擎。(5)(4)(3)(2)(1)6.7 网络信息检索策略与技巧缩小检索范围2)(1) 使用逻辑“与”。 使用逻辑“非”。(2)(3) 位置算符。固定词组检索(短语检索)。(4)(5) 使用缩写与全称。利用某些搜索引擎的进阶检索功能限制查询范围。(6)6.7 网络信息检索策略与技巧 及时调整检索策略6.7.6直接进入相关站点1) 检索不一定每次都要从搜索引擎入手,可以利用平时积累的有用网址

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论