第八章 Google搜索引擎_第1页
第八章 Google搜索引擎_第2页
第八章 Google搜索引擎_第3页
第八章 Google搜索引擎_第4页
第八章 Google搜索引擎_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章Google在信息检索中的应用主要内容第一节Google检索引擎介绍第二节Google的特色检索第三节Google关键词检索规则第四节Google的特殊搜索命令第五节Google的高级搜索第六节Google的搜索模块

Google(http://.hk/)是一个搜索引擎,由两名斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明,GoogleInc.于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。2010年1月13日,由于侵权问题,谷歌集团关闭“谷歌中国”网站以及中国办事处。

第一节Google检索引擎介绍Google检索网页数量达24亿,搜索引擎中排名第一;Google支持多达132种语言,包括简体中文和繁体中文;Google网站只提供搜索引擎功能,没有花里胡哨的累赘;Google速度极快,据说有15000多台服务器,200多条T3级宽带;Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;Google智能化的“手气不错”功能,提供可能最符合要求的网站;Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。提供多种形式的信息搜索服务,如网站、网页、新闻、图像、声音、讨论组、FTP(文件传输协议)、电话号码、邮件地址等等,搜索结果列出包含所需信息的网址列表,有的搜索引擎还提供网页文档的全文。第二节Google的特色检索1检索响应速度极快,0.5秒内应答2PageRank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果。3“网页快照”从服务器里直接取出缓存的网页。用不同颜色标记检索词。4最好用的图像搜索工具。

5智能化的“手气不错”功能,直接连接到Google网页搜索页面的第一个网站。

直接链接到Google认为最相关的网页第三节Google关键词检索规则在此框内录入关键词一、必须检索:无需“and”,两词间空格默认“and”匹配。

二、或者检索:OR必须大写。

三、“-”表示不希望搜索结果中出现包含该字词的网页,不能用“NOT”。(减号跟作用的关键词之间不能有空格,并跟前面的词以空格隔开。)例:“A-B”

四、“+”表示必须包含该运算符后面通常被忽略的词。

例:“A+B”

五、使用“”表示检索结果要包含与检索词完全匹配的内容,引号界定检索词,使检索词按相同词序出现。

例:“AgriculturalTechnology”(农业技术)

六、Google会忽略最常用的词和字符,这些词和字符称为忽略词。Google自动忽略“http”,“.com”和“的”等字符以及数字和单字。

七、不区分大小写:大小写检索结果是一样的。

八、禁用词:最常用的字符以及数字和单个字母等高频词,在检索时系统自动忽略不作检索。如果必须检索禁用词时可用“+”或“”。如:of,is,by,i,的,为,http,.com,3等……

例:“wordwari”;WordWar+I

九、通配符“*”:Google使用的通配符属于“全词通配符”,是指代替一个单词而不是单词中的某个或几个字母的键盘字符,一次检索可以使用若干个“*”。“*”也支持也中文搜索,一个“*”代替一个汉字,但在实际使用中其功能远不及英文搜索。

第四节Google的特殊搜索命令内文allintext

网址allinurl

链接allinanchor

标题allintitle限定检索词出现的位置

allinanchor(按链接搜索):限制搜索结果必须是那些在anchor(锚

)文字里包含了我们所有查询关键词的网页。

allintext(内文限制):限制搜索结果仅仅是在网页正文里边包含了我们所有查询关键词的网页。

allintitle(标题限制):限制搜索结果仅仅是在网页标题里边包含了我们所有查询关键词的网页。

allinurl(网址限制):限制搜索结果仅仅是在URL(网址)里边包含了我们所有查询关键词的网页。

filetype:文件类型限定,限制查询结果仅返回特定文件类型的网页。可用的特定文件类型格式有多文本格式:doc、pdf、txt、ppt、xls、rtf、swf

(flash格式)、ps(是PostScript格式,需要使用GhostView浏览)等。

link:link(url)返回跟此url做了链接的网站。如果你拥有一个个人网站,想知道有多少人对你的网站作了链接,link能让你迅速达到目的。

related:返回跟所查询的网站结构内容相似的一些其它网站。也可以通过点击搜索结果后面的类似网页或高级检索来查询跟当前网页类似的网页。define:返回包含查询关键词定义的网页。

Site:搜索结果局限于某个具体网站或者域,同时也是查看搜索引擎对网站页面的收录数,如果是要排除某网站或者域名范围内的页面,用“-网站/域名”。注意:

1、url前不能带http://

2、url后边不能带斜杠“/”,其实是哪里都不能带/。

3、url中不要用www,除非你有特别目的,用www会导致错过网站内的内容,因为很多网站是没有www。Site的用途:1、有的网站没有提供站内搜索,或者它的信息结构混乱,内容又多,不好找东西,那么可以用“site:”对这个网站进行检索。

Google的“site:”功能比多数网站自己的站内检索还要好用。2、搜索不欢迎你搜索和免费使用的网站、数据库的部分内容。3、用“site:”搜索死链接网站、已关闭网站内的信息。用组合命令来实现文档的搜索特殊搜索命令使用注意:指令后的冒号必须是英文的“:”,中文的“:”无效。第五节Google的高级搜索例:搜索最近一年海南大学主页内有关于毕业论文写作方面的DOC文档。

关键词:毕业论文范围:海南大学主页时间:一年内文献类型:DOC组合命令检索第六节Google的搜索模块一、Google学术搜索

Google学术搜索主要是提供维普资讯、万方数据等几个学术文献资源库的检索服务,通过Google学术搜索能够查找到这些学术资料的“报告、摘要及引用内容”,如果想要获得这些资料的原文,必须去这些内容提供商处下载。提供可广泛搜索学术文献的简便方法。从一个位置搜索众多学科和资料来源:来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要。可在整个学术领域中确定相关性最强的研究。每一个搜索结果都代表一组学术研究成果,其中可能包含一篇或多篇相关文章甚至是同一篇文章的多个版本。学术搜索的优势12341.标题——链接到文章摘要或整篇文章。2.被引用次数——提供引用该组文章的其他论文。3.相关文章——查找与本组文章类似的其他论文。4.同组文章——查找可能看到的同属这组学术研究成果的其他文章,可能是初始版本,其中有预印本、摘要、会议论文或其他改写本。

对列表中相关文章的排名主要依据文章与原始结果的相似程度,但也考虑每篇论文的相关性。找到一系列相关的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论