版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 搜索引擎及网络信息检索了解搜索引擎的相关关知识识 理解搜索引擎中关键词检关键词检索的语语法规则规则 掌握百度、Google的高级级使用方法。 本章要求4.1 基本知识 4.1.1基本概念 1搜索引擎 1)搜索器 2)索引器 3)检索器 4)用户接口3搜索引擎的构成 搜索器 搜索器的功能是在Internet上漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档及生成文档库的索引表。 检索器 检索器的功能是根据用户的查询内容在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并
2、实现某种用户相关性反馈机制。 用户接口 用户接口的作用是输入用户查询内容、显示查询结果、提供用户相关性反馈机制;主要的目的是方便用户使用搜索引擎。4.1.2 搜索引擎的优点和缺点搜索引擎现在成为网络信息检索最重要的指路标,几乎达到了无所不搜的地步。但是目前的搜索引擎普遍存在着以下缺点,使得搜索引擎还无法完全代替专门的检索工具。例如质量参差不齐例如质量参差不齐,信息的分类加工欠规范,各搜索引擎在检索指令的输入格式与输入内容上存在差异并难以兼容,缺乏通行易用的检索方法与技巧;没有统一的网络信息分类标准没有统一的网络信息分类标准,令网络用户无所适从,而且网络信息分类难以与传统的文献分类融合,与常见的
3、学科及知识体系之间缺乏必要的内在联系,使得网络信息的分类体系对知识面或学科的覆盖率达不到要求,对专业性较强的深度信息的查全率较低;建立资源索引时针对性不强建立资源索引时针对性不强,搜索速度慢,死链接过多,重复信息及无效信息过多;对资源不具有选择和价值判断的能力对资源不具有选择和价值判断的能力,排序结果不理想,难以搜索根据用户访问而临时动态生成的网页,查全率下降。据调查,功能最强大的搜索引擎最多能覆盖16的网络信息资源。依照网络信息呈几何级的增长,搜索引擎覆盖的信息资源量还将有所下降。4.1.3 搜索引擎的类型 依据不同的原则,网络搜索引擎可划分成不同的类型。 根据搜索引擎的数据检索机制划分可分
4、为分类型、主题型。代表性的目录式分类搜索引擎是Yahoo、搜狐、新浪网站。代表性的主题型搜索引擎是Google、百度(Baidu)网站。Yahoo的分类搜索Yahoo的分类搜索按检索内容划分分为综合型、专题型和特殊型。综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。例如常见的Google、新浪、搜狐和网易,网罗百科,信息种类繁多。 专题型搜索引擎专门采集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行标引描述。例如针对生物专利的搜索引擎、科技信息搜索引擎Scirus、重点学科导航系统、学科信息门户。 特殊型检索工具指那些专门用来检索某一类型
5、信息和数据的检索工具,如查询地图的检索工具“Map Blast”、查询图像的webseek。 单一型(Singular search tools) :(前面所有的拥有所有搜索引擎,拥有自己的检索机制和数据库) 集合型(Collective search tools):类似hao123按来源划分4.2主题搜索引擎的关键词语法规则 1自动将关键词拆分进行模糊查询 直接输入“西南大学”,首先检索西南大学的内容 ,然后自动扩展到“西南财经大学”、“西南政法大学”和“西南交通大学”。 2按关键词进行精确查询 诸如“新浪”、“网易”、“搜狐”等以前实施精确检索,现在也添加了拆分词语的功能。 3检索式的运算
6、符号 如果想要得到最佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件。 信息检索信息检索的运算符号的运算符号(1) (1) 布尔逻辑检索布尔逻辑检索 逻辑逻辑“与与”-“ANDAND”或或“* *” 传统文化传统文化 AND AND 节日节日 传统文化传统文化* *节日节日 逻辑逻辑“或或”-“OROR”或或“+ +” 传统文化传统文化 OR OR 节日节日 传统文化传统文化 + +节日节日 逻辑逻辑“非非”-“NOTNOT”或或“- -” 传统文化传统文化 NOT NOT 节日节日 传统文化传统文化 - -节日节日(2 2)()(N N)与()与(nNnN)算符)算符 N N是是nea
7、rnear的缩写的缩写 如:如:informationinformation(1N1N)retrievalretrieval(信息(信息检索),命中的记录中会有检索),命中的记录中会有“information information retrievalretrieval”或或“retrieval of informationretrieval of information”等等形式形式。AltaVistaAltaVista使用位置算符使用位置算符“NEAR/nNEAR/n”,n n是两个词是两个词之间的单词的数目之间的单词的数目如:如:“Microsoft NEAR/5 InternetMic
8、rosoft NEAR/5 Internet”表示在表示在“MicrosoftMicrosoft”和和“InternetInternet”这两个关键字之间这两个关键字之间的单词数目不得超过的单词数目不得超过5 5个。个。前截断:如前截断:如* *computercomputer可表示可表示 minicomputerminicomputer、microcomputermicrocomputer。后截断:如后截断:如workwork* *,可表示,可表示workwork、 workerworker、workingworking等。等。 workwork* * *, ,表示表示workwork后可加
9、后可加0-20-2个字母。个字母。 中间截断:如中间截断:如wom?nwom?n可表示:可表示:womanwoman、 womenwomen等。等。(3(3) )截词符(截词符(* * ?)?)4.4.使用使用字段限定字段限定 intitleintitletitletitle是网页的标题,是网页的标题, intitleintitle: A: A指所有搜索结果的指所有搜索结果的titletitle中都要包含中都要包含“关键词关键词A”A”。 sitesitesitesite是限定在某类站点或某个网站内搜索。是限定在某类站点或某个网站内搜索。 例如例如“论坛搜索引擎论坛搜索引擎 site:site
10、: ” ”,是在,是在sowangsowang这个网站内搜索这个网站内搜索“论坛搜索引擎论坛搜索引擎”的网页。的网页。 filetypefiletype filetypefiletype是限定文件类型。是限定文件类型。 用法是用法是“关键词关键词A A filetypefiletype: :文件格式后缀名文件格式后缀名”。 如如“个人年终总结个人年终总结 filetype:docfiletype:doc”,搜索结果全都是,搜索结果全都是wordword文件的个人年文件的个人年终总结。终总结。 inurlinurl urlurl就是地址栏里的域名等。就是地址栏里的域名等。 inurlinurl常
11、见的使用方式是常见的使用方式是“关键词关键词A A inurlinurl: :英文字符英文字符B”B”。 例如例如“搜索引擎搜索引擎 inurl:ssyqinurl:ssyq ” ”,是检索在,是检索在urlurl中含有中含有ssyqssyq的网页中关于的网页中关于“搜索引擎搜索引擎”的信息。的信息。4.3典型的搜索引擎 1. Google 2)Google的搜索语法 Google的基本检索算符是:空格、减号和大写英文“OR”。 逻辑“与”(and)用空格表示。用减号“-”表示逻辑“非”。注意:这里的 “-”号,是英文字符,而不是中文字符的 “”。此外,操作符与关键字之间,不能有空格。 Goo
12、gle不支持通配符,如“*”、“?”等,关键字后面的“*”或者“?”会被忽略掉。Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。Google的关键字可以是词组(中间没有空格),也可以是句子,但是,用句子做关键字,必须加英文引号。 2. 百度()百度快照、文库。逻辑与用“+” 表示,逻辑或用“|”表示,逻辑非用“-”表示 3. 搜狐( 4. 新浪网( 6. 特殊型搜索引擎 网络上的信息资源丰富多样,为了查寻所需要的资料,用户往往使用Infoseek、Yahoo和Excite一类的检索引擎(查询英文信息时谷歌的替代品), 界 面 友 好 易 用 , 擅长限定媒体类型、
13、日期的复 杂 搜 索 ,结 果 高 度 准 确 。最 适 用 于购物。 对 泛 泛 搜 索 较 擅 长 www.AltaV :适 合 于 刨 根 问 底 式 的 搜 索 、多 语 种 搜 索 www.I:准 确 性 很高的搜索引擎。如果你 知道某个站点肯定存在, 但不知道具体地址,用 Infoseek 最 棒 。 Lycos:执行复杂搜索的功能强大,不过准确性差,适合于查找 Usenet 或按媒体类型搜索,也适用于购物。 但是,要查找一些专门的信息,如人名录、软件、新闻组、邮件列表、图像、视频、音频等,则必须使用特殊的检索工具。4.4搜索引擎的检索技巧 常规的检索技巧 1分类查询 想知道法律、
14、球类和金融方面的mutual funds(公共基金)信息,如果直接用AltaVista检索得到的是mutual funds乐队, 用雅虎(http:/ 2关键词查询 一般来说,首次检索时不要把条件限制得过于严格,最好是检索出一些结果后再使用其它限定条件,在结果中做二次检索。下面是百度的“在结果中找”的界面,就是二次检索。搜索引擎的检索技巧 3多次查找(反复尝试)看上去简单的问题并不一定是容易查找的问题。例如,我 们要查询1982年格兰美奖的得主是谁,有人建议用“Gram my awards 1982 Record of the Year”来查找,结果返回了137条信息,但经过检查前50条后发现
15、,那些主页都提到了那年的记录,也提到了1982 年,但就是没有该奖的确切得主。 在这类问题上,专家建议尽可能的多试一些关键字,这需要耐心, 而且需要一些技巧。经过几个尝试后,你发现可以把“1982 Record of the Year”作为一个短语,在加上“Gram my”来试试,结果发现一个主页,上面提到1982年获奖作品Always on My Mind, 但并没有具体提到获奖者的姓名。据此可以推断该页肯定是一个Beat les迷制作的,显然信息不可靠。但它也给了我们一些启示,我们可以用Record of the Year和Always on My Mind一起来查。这个查询终于带给了我们
16、所期望的结果,其中包括历年来的Grammy获奖名单, 并可以发现Toto获得了其中的Rosanna奖。 搜索引擎的检索技巧4按地域查询由于美国对Internet网的成长有重大贡献,所以网上的许多信息都是以美国为中心的,但也有好多其他的全球性信息,所以有时候查询还要满足全球性的要求。 例如,我们要查找讨论Euro的德国站点,最简单的办法就是去该国的典型查询站点查询。Yahoo现在已经拥有为日本、法国和其他10个国家服务的查询工具。 Excite和Info seek也在发展自己的为特定国家服务的版本。 5查询最新信息搜索引擎从抓网页、解析、索引到提供搜索需要一个周期,不是特别受关注的信息,都有一定
17、的滞后期,这个滞后期从1天到1个月不等。 6其它技巧 例如如果 7谷歌和百度技巧语法define:检索词(定义)语法filetype:文件类型 (查特定文件类型).ppt.pdf.ps.doc.txt.xls.swf.rtf.lwp.mw.wri.ans.wdb语法 site:网址(指定网域查找)指定网域查找).语法fy:(中英文词典翻译)现在现在翻译翻译功能功能效果效果不好不好语法 inurl:网址 (在指定的网址中搜索)语法 intitle:搜索词 (在网页标题中搜索)语法 intext:搜索词 (在网页正文中搜索
18、)高级搜索界面输入检索词限定网页为中文简体限定时间为过去1年内限定检索的网域为教育网检索过去1年教育网上有关北京数字图书馆的简体中文网页检索结果显示页面2 2百度的高级搜索技巧百度的高级搜索技巧 在url中搜索在inurl: 后加urlurl中的文字,可以限制只搜索url中含有这些文字的网页。 在标题中搜索在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题网页标题中含有这些关键词的网页。 在指定网站内搜索在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域具体网站、网站频道、或某域名内的网页。名内的网页。注意:搜索关键词在前,site:及网址在后;关键词与
19、site:之间须留一空格隔开;site后的冒号“:”可以是半角“:”也可以是全角“:”,百度搜索引擎会自动辨认。“site:”后不能有“http:/”前缀或“/”后缀,网站频道只局限于“频道名.域名”方式,不能是“域名/频道名”方式。 filetype是限定文件类型文件类型。用法是“关键词A filetype:文件格式后缀名”。 【实例实例1 1】输入输入“人民军队忠于党人民军队忠于党 inurl:mp3inurl:mp3”,搜索歌曲。搜索歌曲。 【实例实例2 2】输入输入“电影电影 intitle:friendshipintitle:friendship”查找查找电影的精彩站点。电影的精彩站
20、点。【实例实例3 3】输入输入“汽车汽车 site:site:”检索网站检索网站hao123hao123的汽车信息。的汽车信息。【实例实例4 4】输入输入“电路分析电路分析 pptppt”检索格式为检索格式为pptppt的文件的文件百度其他搜索技巧 1 1、百度快照、百度快照 每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度只保留文本内容,如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。2 2、相关搜索、相关搜索 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和
21、您的搜索很相似的一系列查询词。 3 3、拼音提示拼音提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。 4 4、错别字提示、错别字提示 由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。高级检索界面443.4 免费学术资源检索与利用免费学术资源检索与利用|1、利用搜索引擎搜索 1)Google Scholar 2)Google Book Search4.5 Internet免费科技信息检索示例452、利用Open Access搜索 随着网络技术的发展,Open Acces
22、s(简称OA)资源得到了空前的发展。但是,许多OA资源分散存放在世界各地不同的服务器和网站上,用户很难直接全面地检索到这些资源。目前在OA资源揭示方面,主要有DOAJ和OpenDOAR两个项目,分别在进行OA期刊和OA仓贮的整理工作。除此之外,国际国内一些高等院校、机构和个人也对OA期刊和OA仓贮在不同层面上做了类似的整理和揭示。46 Open Access:任何经由同行评论的电子期刊,以免费的方式提供给读者或机构取用、下载、复制、打印、发行或检索文章。作者可保有著作权,但在出版前需付 500 至 1500 美元予出版社。3.4 免费学术资源检索与利用免费学术资源检索与利用47The Nati
23、onal Academies Press(NAP)免费电子图书 The National Academies Press是美国国家科学院下属的学术出版机构,目前通过其主站点可以免费在线浏览3000多种电子图书,图书内容覆盖环境科学、生物学、医学、计算机科学、地球科学,数学和统计学,物理、化学、教育等诸多领域。48DOAJ开放获取期刊目录 DOAJ (Directory of Open Access Journals)是由瑞典隆德大学图书馆 2003 年 5 月推出的开放获取期刊的检索系统。DOAJ 按期刊的学科主题分为 17 类,包括 Agriculture and Food Sciences
24、 , Arts and Architecture , Biology and Life Sciences , Business and Economics , Chemistry , Earth and Environmental Sciences , General Works , Health Sciences , History and Archaeology , Languages and Literatures , Law and Political Science , Mathematics and Statistics , Philosophy and Religion , Ph
25、ysics and Astronomy , Science General , Social Sciences , Technology and Engineering 。 /49PloS 免费期刊 科学公共图书馆( The Public Library of Science ,简称 PLoS )成立于 2000 年,是一家致力于推动全球科技和医学领域文献的公开获取的非盈利性组织。 / HighWire Press 免费电子期刊 HighWire 出版社是 1995 年由美国斯坦福大学创立的,主要覆盖学科领域有生命科学、医
26、学、物理学以及社会科学。 / 50J-STAGE日本电子科技信息服务 J-STAGE ( Japan Science and Technology Information Aggregator , Electronic, )向全世界即时发布日本科学技术研究的杰出成果和发展,文献多为英文,少数为日文。 http:/www.jstage.jst.go.jp/browse/_journallist Oaister Oaister 由美国密执安大学数字图书馆制作服务部主办。提供电子图书、电子期刊、录音、图片及电影等数字化资料的 “ 一站式 ” 检索
27、的门户网站。 /51Scirus Scirus 是著名出版公司 Elsevier 开发的、专门面向科学家和科研人员的学术信息检索工具。目前 Scirus 可搜索 4.5 亿个与科学相关的网页,大多是网上开放获取资源,也含部分商业收费资源。学科领域以自然科学为主,也有部分社科资源。 http:/ 机构收藏库 MIT Dspace 是使用 Dspace 软件开发的一个数字化成果存储与交流知识库。收录该校教学科研人员和研究生提交的论文、会议论文、预印本、学位论文、研究与技术报告、工作论文和演示稿全文等。 /53剑桥大学机构收藏库( Cambridge Dspace ) 英国剑桥大学图书馆与该校的计算机服务中心合作,加入 MIT 的 Dspace 联盟项目,建立 DspaceCambridge 存储库。此系统用于存储剑桥大学图书馆自己数字化的资料和本校其他机构产生的数字资源,如学术交流资料、学位论文、技术报告、各个学部和大学档案等,以不同的格式如多媒体、交互式课件、数据集、数据库等形式存储。使用方法同 MIT Dspace 。 http:/www.dspace.cam.ac.uk/54加利福尼亚大学机构收藏库( eScholarship Repository of California Universi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【初中数学课件】圆复习课件
- 地心游记美术课件
- 2024年新高一物理初升高衔接《匀变速直线运动的位移与时间的关系》含答案解析
- 《欧亚商场安全培训》课件
- 练身手榴弹产业深度调研及未来发展现状趋势
- 治疗呼吸系统疾病的药物制剂产业深度调研及未来发展现状趋势
- 碳酸水用虹吸瓶市场洞察报告
- 医用热疗灯市场发展现状调查及供需格局分析预测报告
- 模型用湿黏土市场发展预测和趋势分析
- 橡皮膏市场洞察报告
- 环境设计原理全套教学课件
- (2023)高塔复合肥生产建设项目可行性研究报告(一)
- 国际人权法与强制劳动保护人权的法律框架
- 设立绿化养护服务公司商业计划书
- 简易劳动保障管理制度
- WTO《补贴与反补贴措施协议》中文翻译全文
- 第三单元一《伐檀》公开课一等奖创新教案-【中职专用】(中职语文高教版2023-2024-基础模块上册)
- 住院病案首页数据填写质量规范
- 酒店管理专业大学生职业生涯规划书
- 永椿化工新材料有限公司 年产 800 吨邻三氟甲基苯甲酰氯系列产品、1500 吨 2,6- 二氟苯甲酰胺系列产品、500 吨叔丁基二甲基氯硅烷、500 吨 3-氨基-2-溴-5-氟苯甲酸甲酯等产品项目环境影响报告书
- GB/T 21837-2023铁磁性钢丝绳电磁检测方法
评论
0/150
提交评论