第五章计算机检索策略和搜索引擎的使用_第1页
第五章计算机检索策略和搜索引擎的使用_第2页
第五章计算机检索策略和搜索引擎的使用_第3页
第五章计算机检索策略和搜索引擎的使用_第4页
第五章计算机检索策略和搜索引擎的使用_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索的基础知识一、计算机信息检索的发展二、计算机信息检索系统的构成三、计算机信息检索基本原理四、计算机信息检索的基本方法12/15/20231一、计算机信息检索的发展50年代:科技信息界开发了文献处理自动化系统,为计算机检索系统和机读数据库的研制奠定了技术基础。脱机信息检索60-70年代:人造卫星的诞生,促使了国际联机检索的产生。联机检索范围日益扩大,数据库数量成倍增长。国际联机信息检索80-90年代:迅速发展。①全世界的联机主机系统从59发展到644个,数据库从400个发展到4465个。②数据库的开发重点开始转向财政金融、经济管理、法律、新闻、广告、专利等领域。③光盘在计算机检索中的应用。光盘信息检索90年代以来:Internet网络信息检索p35012/15/202321、硬件部分

二、计算机检索系统的构成

系统软件2、软件部分应用软件

p35312/15/20233系统软件和应用软件(1)、系统软件系统软件是为了计算机能正常、高效工作所配备的各种管理、监控和维护系统的程序及其有关资料。系统软件主要包括操作系统软件,这是软件的核心。系统软件的任务,一是更好地发挥计算机的效率,二是方便用户使用计算机。⑵、应用软件包括:1、文字处理软件,2、信息管理软件,3、辅助设计软件,4、实时控制软件。如最常用的:micsoftoffice开发的wordexcelpowerpointadobe公司开发的photoshop

12/15/202343、数据库是计算机检索基础,是各国经济实力、文明程度和科技水平的重要标志数据库(系统)1、参考数据库2、源数据库3、混合型书目数据库指南数据库数值数据库全文数据库术语数据库图像数据库兼具上述两类数据库特点,同时存储多种不同类型数据库p35412/15/20235三、计算机信息检索基本原理

计算机检索:指从任何信息集合中识别和获得所需信息的过程,它包括信息的存储与检索两方面,分别对应数据库的建立和利用数据库的建立过程:按一定的标准,从文献源中选择合适的文献,对其内容进行分析,并将每个概念用系统词表中的词加以标引,对被标引的文献款目进行系统排列,从而形成有序可供检索的数据库。p35512/15/20236

计算机存储方式:

顺序文挡存储和倒排文挡存储顺序文挡存储:按文献的输入次序,顺序存储在存储介质上,记录之间的逻辑顺序与物理顺序一致,相当于书本式工具书的正文部分.倒排文挡存储:是从以文献为单位的顺序文挡中派生出来的一种存储方式.它是将顺排文挡中一切可检字段或属性值(如著者名.主题词)等抽出,重新组织排序形成的一种文挡存储,也称索引挡.12/15/20237四、计算机信息检索基本方法2、构成检索策略就是运用计算机信息检索系统可以接受的方法包括:

布尔检索法

截词检索法字段检索法词位置检索法1、检索策略:又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序作出某种安排。p35612/15/20238例如检索题“跨国公司经营管理研究”,跨国公司的同义词有跨国企业、跨国经营、国际化经营等;检索题“论中国特色的社会保障制度”,社会保障的相关词是社会保险、社会救助和社会福利等;检索题“当代伊斯兰复兴运动的起因与特点”,伊斯兰复兴运动一词,有些文献表述为伊斯兰运动、伊斯兰复兴、伊斯兰教的复兴等。1、分析检索课题、选择概念表达词社科全文数据库检索实例(1)注意选择同义词和相关词检索技巧P383-38712/15/20239检索题“当代西方法律秩序思想论述”一般来说,研究西方法律秩序主要应围绕其代表人物来展开,所以最好选择当代西方对法律秩序有过论述的代表人物作为检索词,就能检出一批相关文章。检索题“实现工人运动的团结和统一——论党对劳协的统战工作”(2)注意适当控制检索词的内涵与外延社科全文数据库检索实例12/15/202310(3)注意选词的规范性

例如上述检索题中的“劳协”是“中国劳动协会”的简称,所以还应将“中国劳动者协会”作为检索词,否则会漏检。(4)注意使用分类浏览法采用分类途径进行专题浏览,选择有关分类专题进行查询,在检索出的记录中找出相关的词汇,再利用这些专业词汇进行检索。

社科全文数据库检索实例12/15/2023112、编制检索提问式(1)

逻辑与:例如检索题“跨国公司经营管理研究”提问式:跨国公司=检索结果712篇提问式:跨国公司*管理=检索结果55篇提问式:跨国公司*管理*E=1996=检索结果12篇(2)逻辑或:例如检索题“当代伊斯兰复兴运动的起因和特点”提问式:伊斯兰=检索结果11篇提问式:伊斯兰复兴+伊斯兰运动=检索结果16篇提问式:伊斯兰复兴+伊斯兰运动+伊斯兰教的复兴=检索结果19篇A、逻辑算符的单独使用方法社科全文数据库检索实例12/15/202312(3)逻辑非:例如检索题“国外社会保障制度研究”,若以“社会保障制度”为检索提问式,检出工695篇。若以“国外*社会保障制度”为检索提问式,检出16篇。提问式:社会保障制度-中国

=检索结果638篇提问式:社会保障制度-中国-我国

=检索结果499篇提问式:社会保障制度-中国-我国-G=中国=检索结果259篇社科全文数据库检索实例12/15/202313B、逻辑算符的组合使用方法

例如检索题:“跨国公司经营管理研究”检索提问式:(跨国公司+跨国企业+跨国经营)*管理=检索结果90篇检索提问式:(跨国公司+跨国企业+跨国经营)*管理*(E=1997+E=1996)=检索结果35篇

例如检索题:“论中国特色的社会保障制度”检索提问式:(社会保障制度+社会保险制度)(我国+中国)*(E=1997+E=1996)=检索结果99篇检索提问式:(社会保障制度+社会保险制度)*(我国+中国)*(E=1997+E=1996)=检索结果83篇社科全文数据库检索实例12/15/202314检索提问式:(社会保障制度+社会保险制度+养老保险+医疗保险+失业保障)*(我国+中国)*(E=1997+E=1996)=检索结果160篇

例如检索题:“国外社会保障制度研究”:

检索提问式:(社会保障制度+社会保险制度)-(我国+中国)*(E=1997+E=1996)=检索结果129篇

(e.g

:新疆财大图书馆主页“中国财经报刊数据库”)

金融AND期货

6

社科全文数据库检索实例12/15/202315Internet信息检索一、 基本概念:(1)TCP/IP(TransmissionControlProtocol/InternetProtocol)

传输控制协议/国际互联协议。是Internet的核心部分。TCP/IPFTP://FileTransferProtocol文件传输协议访问anonymous(不知名,匿名的)服务器HTTP://HyperTextTransferProtocol超文本传输协议访问www的http服务器的HyperText文件Mail://E-mail协议访问e-mail服务器

(2)IP地址(InternetProtocol)和DNS域名(Domainnamesystem)它起唯一标示计算机的作用

。区图书馆域名:

http://

IP地址新疆财经学院图书馆域名http://

IP地址:612/15/202316常用的机构性质域名一览表域名含义域名含义.comcommercial.netInternetServiceProvider.edueducational.orgnon-profitmakingorganizations.govgovernmental常见的部分国家、地区域名一览表

域名国家、地区名域名国家、地区名域名国家、地区名.caCanada.frFrance.twTaiwan.cnChina.intInternational.ukUnitedKingdom.deGermany.jpJapan.usUnitedStatesp100r12/15/202317(3)URL(UniformResourceLocator)统一资源定位器,是一种统一格式的Internet信息资源地址表达方法。通过URL连接到新页面可以使用两种方法:①在地址栏直接输入URL按回车键②单击菜单中的“文件”,选子菜单中的“打开”项,在对话框中输入URL,最后按回车键或单击打开按纽

(4)HTML和XML(HyperTextMarkupLanguageandeXtensible

MarkupLanguage)超文本标识语言和可扩展标识语言。是为WWW

建立超文本文件的语言。

(5)网站和网页:网页是用HTML或XML等语言写成的文本文件。网站则是有独立的域名,由若干相关网页组成的一个站点。

(6)WWW浏览器:WWW浏览器是用来浏览网站和页面信息的客户程序。目前使用最为普遍的浏览器有IE和NetscapeNavigator(NN)RUL由五个部分组成:协议Protocol、主机地址host、端口port、路径path和文件名filenamee.g

网址/demoweb/url-primer.含义是浏览器采用http协议,从的WWW服务器的80端口(缺省)上的denoweb子目录下去寻找url-primer.html这个文件。p98r12/15/202318二、Internet信息资源的特点资源丰富、数量庞大、增长迅速。

有人估计,Internet上的信息约占全部信息资源的20%以上,已成为全球最大的信息资源基地。社会科学信息量极大,增长速度十分惊人。人类知识迅速增长,联入的计算机增多,人们贡献给网上的信息量也在与日俱增。更新频繁、变化无常、分布散乱。网上的信息源是不稳定的,许多网站不断更新网址,有的昨天还工作的很出色,今天就会突然销声匿迹。这些给利用带来许多不便。由于Internet上的信息来自任何连接到网上的计算机,而不管计算机属于什么组织、单位或个人,也不管以什么形式把信息贡献于网上,没有统一的管理机构,因此信息十分的散乱。良莠混杂。Internet上的资源,一部分是人类只是的精粹,是人类的巨大财富,还有相当一部分是处于某种目的的信息或是未经任何审核的数据信。p96r12/15/202319三、Internet信息资源的类型按出版类型区分:Internet信息资源有着和印刷型出版物类似的对应关系。例如,印刷型期刊、图书、报告有网络期刊、图书报告与其对应。按照是否具有原创性和是否经过审核区分:Internet信息资源有一次资源和二次资源的区分。一次资源是指首次发表的原创性信息,二次资源是转载已有的信息;按是否经过审核,可分为正是出版物和非正式出版物。网上正式出版物可以免费使用的很少。按照是否属于搜索引擎检索范围区分:Internet信息资源可分为可见资源和不可见资源。它是搜索引擎能搜索到的资源。这类资源要满足两个条件必须含有html超链接没有设置口令p97r12/15/202320四、Internet信息检索工具(SearchEngines)为什么要介绍网络信息检索工具?查找网络信息不像浏览期刊文献那样可以直接进行,它主要都是散布在计算机的主页上,查找主页信息要通过查找搜索引擎之类的中介数据库才能进行。而使用这些工具需要有一些专门的技术,高效率查找信息更是如此。据国外权威机构统计显示,目前任何一种搜索引擎所收录的网上信息都不足整个互联网的30%。而且各种搜索引擎覆盖范围的相互交叉比例很小,因此,一般情况下只使用一两种搜索引擎所得的结果往往是沧海一粟。主宰Internet信息生存的基本原则之一是信息需求量,没有人访问或者访问次数很少得网站将因缺乏生命力而难以生存。在这方面,学术类信息是无法与商业、生活和休闲类信息相抗衡的。据估计,互联网上学术类与非学术类信息得比例是1:10。再则,网上学术信息很多是以不可见资源形式存在着,因此,查找难度更大一些。p100r12/15/202321搜索引擎的类型1.按工作方式区分的搜索引擎2.按工作语种和检索内容区分的搜索引擎主题引擎目录引擎RobotIndex搜索软件多元引擎门户引擎垂直引擎

中文引擎外文引擎p101r12/15/202322

①主题引擎又称基于Robot的搜索引擎。这种引擎的信息主要为网页,其特点是利用一个称为Robot的程序自动访问Web站点,提取站点上的网页,并根据网页上的链接进一步提取其他网页。Robot收集的网页被加入到搜索引擎的数据库中,供用户查询使用。优点:信息量大、更新及时、无需人工干预缺点:返回信息过多有一定比例的死链接,用户必须从大量的信息中筛选。

各种引擎介绍12/15/202323国外主题引擎的代表:Google(http://)Lycos(http://www.L)Excite(http://www.E)Inktomi

(http://)国内主题引擎的代表:百度(http://)Openfind(http//www.O)网络信息检索工具12/15/202324网络信息检索工具②目录引擎又称目录指南型搜索引擎。目录引擎的信息大多面向网站,是依靠专职编辑或志愿人员人工建立起来的。目录引擎的用户界面基本上都为分级结构。首页提供了最基本的几个大类的入口,用户可以一级一级向下访问,直至找到自己感兴趣的类别。也可以目录引擎提供的搜索功能直接查找一个关键词。12/15/202325目录引擎的国外代表:

Yahoo!(http://www.Y)

雅虎中国(http://cn.Y)

OpenDirectory

()

LookSmart

(http://Looksmart.com)目录引擎的国内代表:新浪网、搜狐网络信息检索工具12/15/202326③多元引擎

又称元搜索引擎,服务方式为面向网页的全文检索。其本身没有存放网页信息的数据库,只能算是一种用户代理,而非真正的搜索引擎。多数多元搜索引擎在处理其他搜索引擎的返回结果时,只提取每个搜索引擎的结果中前面10-50条并将这些条目合并在一起,去除重复后返回给用户,因此最后结果的数量可能会远少于直接在一个搜索一起上查找所得到的数量,检索结果相对少而精。网络信息检索工具12/15/202327国外多元搜索引擎的代表:Metacrawler(http://)Profusion()Dogpile()国内多元搜索引擎的代表:万纬(http://)

网络信息检索工具12/15/202328几种主要搜索引擎的介绍财经大学图书馆主页:http:///利用谷歌利用百度利用雅虎一、今天你Google了么?—Google搜索引擎及其使用技巧(http://)1

Google的一般搜索功能2

Google的高级搜索功能3

Google的特殊搜索功能p36c12/15/202330检索技巧研究的关键词选择选择专指性强的词学科名称:“天体物理学研究进展"。事物名称和机构名称:“挑战者号爆炸”;或者”挑战者号失事”人物名称:“金庸武侠小说"多角度选词“搜索引擎发展的历史”

“Archie”

“蜘蛛”、“Lycos”、“Yahoo”等词选择限制主题的词:“图书馆-甘肃”

12/15/202331检索技巧研究(续)选择几个句型搜索用“什么是…..”句型查到名词和事:什么是BBS?用“如何…..”句型查找疑惑和解决问题的方法:

如何挑选显示器?如何进行网上交易?

用“……已成为”句型帮助用户扩展思路和启发想象力:“抑郁症已成为….”

合理地应用辅助词:我国生物技术在哪些地方比较发达?12/15/202332

的一般搜索功能

提供了利用“+”“-”“OR”三种布尔逻辑操作符对多个关键词组合进行搜索,从而缩小检索范围。例如,“+”想查询北京双安商场旁边都有哪些经营家常菜的饭馆,可以在文本框中键入“餐馆双安商场家常菜”,得到搜索结果4700页。例如,“-”自己感冒了,打算查找一些资料后决定吃什么药对症,但自己又没有发烧,那么查找这种病症的信息就可以键入“感冒-发烧”,得到结果有996000页。“OR”在google中一定要用大写。例如:“搜索引擎or历史”和“搜索引擎OR历史”。得到的结果数量完全不同。例如,以搜索“北京大学第一医院”为例,若加了双引号,Google将会仅搜索包含“北京大学第一医院”的网页,共得到结果46500页;如果不加双引号,Google则会将“北京大学第一医院”这个关键词拆分成“医院”、“北京大学”、“第一医院”等若干关键词分别搜索,共得到搜索结果180000页。12/15/202333

检索算符1、可以任意输入中、英文检索词2、不支持截词符,只能做精确查询3、不区分英文字符大小写4、如果需要检索词组,需要对词组使用双引号5、使用多个检索词时,相互间为逻辑“与”限制关系的,应直接使用空格(不允许使用and,但可在检索词前加“+”;相互间为逻辑“或”扩展关系的需要使用大写英语字母的“OR”;相互间为逻辑“非”剔除关系的使用减号“-”。在混合使用这些逻辑算符时,搜索引擎按照从左往右的顺序进行运算。但使用“()”优先算符可以改变运算顺序。6、字段检索12/15/202334字段算符功能说明语法规则注意事项用法举例filetype查找专门格式的文献Filetype:文件格式文件格式可以是以下任意一个:pdf,swf.txt,xml,ppt,gif,jpg,doc,bmp.等在文本框中键入:”filetype:doc个人简历”,搜索结果精确到203页。在文本框中键入:”birthdayfiletype:swf”,就能找到许多精美得flash。site搜索结果局限于某个具体网站或网站频道site:网站名.域名网站域名不能有“http”以及”www”前缀,也不能有任何带”/“的目录后缀在文本框中键入:“site:www.bjpu.edu.cn

招生计划。”在文本框中键入“site:it.sohu.com产品评测”,就可以得到52200页。inurl返回的网页链接中包含检索词Inurl:检索词”inrul:”后面不能有空格在文本框中键入:“inurl:mp3”沧海一声笑””,共有1130项符合搜索条件的查询结果。intitle要求在题目中出现检索词Intitle:检索词intitle:”后面不能有空格在文本框中键入“intitle:历史照片毛泽东”,共有228000页符合条件的网页。link返回所有链接到某个URL.地址的网页link:网站名.域名“”link”不能和其他算符混合使用,“link:”后面不能有空格搜索所有含指向Google链接的网页,可以使用检索策略:link::高级搜索功能p37c12/15/2023353.1中英文在线字典:想知mp3解释,结果:“Results1-10ofabout61,400,000formp3【definition】.(0.15seconds)。3.2图片搜索3.3手机号码归属地查询3.4在线计算器:80+60*45-sqrt(13)的结果;1英寸=2.54厘米3.5手气不错:“计算机世界”

的特殊搜索功能p38c12/15/202336

检索实例分析

1、《镜花缘》搜索语法:“酒贵贱之”

2、《黄花闺女》搜索语法:“黄花闺女黄花由来”

3、篮球明星姚明的胸围是多少?还应包括身高、体重、生日等一系列相关信息

4、《WinRAR》搜索语法:

①winrar8.0inurl:download②winrar8.0site:5、《布兰妮》图片搜索语法:

①“Britneyspears”inrul:photo②intitle:“Britneyspears”picture③“Britneyspears”filetype:jpgORfiletype:gif6、《唐吉珂德》搜索语法:堂吉珂德风车桑乔12/15/202337二、百度

(http://)p104搜索对象默认是“网页”搜索帮助高级搜索百度搜索引擎目前已经拥有世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天超过30万页的速度不断增长,这一切为用户得到最准确、最广泛、最具时效性的信息提供了基础。百度搜索引擎采用了基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的查询串相一致。

12/15/202338输入检索词:①“文学”、“literature”、“750.21比较文学”②“古代诗歌的现实主义传统”逻辑算符检索:①古代诗歌现实主义传统②“I”“唐代I唐代”③“古代诗歌-宋代”字段检索:A.在指定的网站内搜索①“影视site:cn”②刑法site:”③“期货site:”B.在标题中搜索①“intitle:知识产权”②“intitle:商标权侵权”C.在URL中搜索①“inurl:pdf”②”Inurl:artcle”③“inurl:Chinanews”4.特色功能:①

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论