第四章网络信息检索.ppt.ppt_第1页
第四章网络信息检索.ppt.ppt_第2页
第四章网络信息检索.ppt.ppt_第3页
第四章网络信息检索.ppt.ppt_第4页
第四章网络信息检索.ppt.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章搜索引擎、学习目标、知识目标熟悉搜索引擎的基本知识各种搜索引擎的特征能力目标学会使用各种搜索引擎获取信息(1)网络基本知识1、网络通信协议互联网通信协议群集(TCP/IP): TCP传输控制协议IP internet协议:向指定的地址发送信息,负责信息传输时的定位和寻址。 2 .网站:互联网上计算机的地址。 IP地址:用32位的二进制表示,用“.”符号分为4段。 0255示例: 24域名:以英文字符串表示网络上计算机的地址,以便于读取和写入。 结构主机名.机构名.网络类型.顶级域名示例: URL (统一资源定位符) :确定特定信息资源在网络中的位置。 结构:应用协

2、议、主机地址、文件路径和文件名示例: (http是超文本传输协议吉林大学图书馆的主机地址/jsk/index.htm是目录路径和文件名。) (1)网络基本知识3、互联网上的信息资源(由其传输协议分开) WWW万维网:世界规模的信息网络。 是互联网上最主要最直观的信息资源。 互联网论坛:是最丰富、自由、开放的网络信息资源。 FTP文件传输服务:可以从远程计算机获取和下载文件,也可以将文件从本地计算机上载到远程计算机。 (2)网络信息检索的一般方法通过网络资源指南,利用搜索信息的网络信息检索工具,搜索信息的:网络检索工具搜索引擎。 有机地组织世界各地的相关信息资源,用户可以通过互联网获得所需的文本

3、、图像、电影、声音等信息。 (3)www搜索引擎,定义:广义的搜索引擎,是指基于互联网提供信息管理、查询、搜索等服务的工具、系统和网站。 狭义的搜索引擎是指为了利用ROBOT软件自动搜索互联网上的面对面和网站信息资源而特别修正的搜索服务软件。 常用的更严格的搜索引擎定义: (1)目录搜索引擎:初始搜索引擎收集因特网中的资源服务器的地址,按照所提供的资源的类型分类为不同的目录,进一步分级。 多数信息面向网站,提供目录阅览服务和直接检索服务。 优势:信息准确,导航质量高的缺点:需要人工干预,维护量大,信息量少,来不及更新信息。 代表:雅虎! 搜索狐分类目录,2个搜索引擎的类型,(2)全文搜索引擎:

4、大型机运行的程序按照某些策略自动在互联网上收集和发现信息,索引器将收集的信息建立索引,搜索器根据用户的查询输入建立索引服务方式面向全文检索服务。 优势:信息量大、更新及时、无需人工干预的缺点:返回的信息太多,可能有很多不相关的信息,用户必须从结果中过滤。 代表:谷歌,百度,天网系统结构信息收集子系统(搜索器)索引子系统(索引器)搜索子系统(搜索器)用户界面,2搜索引擎类型,(3)元搜索:没有自己的数据,用户的问题3搜索引擎的搜索功能和技术(常用语法规则),搜索技术选择合适的搜索工具,同时至少使用2个搜索工具进行搜索。提取合适的关键字是指检索关键字正确使用布尔逻辑或其他操作符号的作用来限制“域”

5、的功能、3检索引擎的检索功能和技术(常用语法规则)、修正器运算符1、使用逻辑运算符(布尔逻辑检索技术) (1)AND(* ) :逻辑上“and”。 搜索表达式表示:NC机床*目录(2)OR () :逻辑上表示“or”,如果用它连接两个词汇,或者表示该词汇或者该词汇出现在搜索结果中,当然可能出现两个词汇扩大检索范围,提高全检查率。 /检索修正算法和编程语言的文献。 检索式:补正机算法OR补正机编程语言。 (3)NOT(-) :逻辑上表示“不”,使用它连接两个词汇的话,就会检索包含NOT以前的词汇的文件,但包含NOT以后的词汇的文件除外。 例:检索互联网以外的补正机关文献检索式: computer

6、 - Internet或computer NOT Internet的优先顺序: NOT AND OR用括弧变更该检索式,构筑多层次检索式。 例如:“汽车使用和维护”用布尔逻辑关系表示其检索式汽车AND (使用OR维护),2、优先运算符: () 3、位置运算符: Nn(near):运算符两侧的检索词接近,词序必须颠倒。 Wn(with ) :运算符两侧的检索词必须接近,语序也不能颠倒。 4、切片检索技术:“?” “*”字符串检索也称为精密检索,需要双引号、引号的使用目的,是为了向检索引擎传达将几个关键字作为完整的组合字符串进行检索。 (检索句子和句子整体)字段限制检索(限定检索)加权检索扩展检索

7、,高级检索功能1,自然语言检索:将自然语言中的某个词,某个词,某个句子直接作为检索提问方式进行信息检索。 2 .模糊检索3、精密检索4、管道检索5、区分大小写的检索6、概念检索7、相关信息反馈检索8、检索范围的限制、检索引擎检索技巧简单检索双引号(“)检索加号()检索:某词汇必须出现在检索结果中减号(-)搜索:强调搜索结果中不显示单词。 括号()搜索:空间搜索通配符(*? 搜索:区分大小写进行搜索的布尔逻辑搜索元词搜索,(4)常用的中文搜索引擎和特点,1996年2月服务的台湾番茄芋藤搜索引擎,标志着中文搜索引擎的正式开始。 此后,华泽、奇摩、悠游等中文搜索引擎相继出现在港台的中国大陆上,四路利

8、方公司(新浪网前身)开发了国内最早的中文搜索引擎Richsurf后,又开发了网易、搜索客、常青藤、北极星、搜索狐、新浪、北大天网、百度等搜索引擎。 以下是一些著名的中文搜索引擎: 1、谷歌搜索引擎2、百度搜索引擎3、中文雅虎4、搜索狐搜索引擎5、新浪搜索引擎6、网易搜索引擎7、天网中文搜索引擎、(4)常用中文搜索引擎和特征谷歌在全球每天处理的搜索请求达到2亿次,谷歌数据库中存储了42.8亿个WEB文件。 不是第一个搜索引擎,而是当前最成功的搜索引擎。 03年全球市场占有率达到79,Yahoo! 中断合作后,市场占有率仍为51 . 2000年进入中国,迅速成为大众喜爱的搜索引擎。 谷歌学术搜索为

9、搜索学术文献提供了专业搜索工具。 1、谷歌搜索引擎,谷歌特征(1)提供常规和高级搜索功能。用户可以从10到100个信息条目中选择搜索结果页面中包含的条目数。 提供网站内的咨询、横向的相关咨询,提供特殊的主题搜索等。 (2)语言支持:允许用100种以上的语言进行检索。 (3)搜索规则:按关键字搜索时,短语搜索返回结果中包含的关键字的全部和部分,默认情况下不支持单词的多形态和断词搜索。 1、谷歌中文搜索引擎、基本搜索(1)布尔逻辑技术在谷歌的应用自动使用“and”进行查询,不需要在关键词之间加上“and”或“”。 如果想缩小搜索范围,可以输入更多关键词,在关键词之间留出空格。 例:圣诞老人2000

10、报价! 搜索结果必须不包含特定的信息。 减号“-”“表示逻辑”不是“动作”(-前面加空格)。 例:“历史-文化”! 您可以使用“”将这些单词压在搜索词上,但必须在“”前加空格。 不要! 支持“或”搜索。 archie OR蜘蛛”(2)谷歌不支持词干法、通配符。 (3)无视词问题可以自动忽略“http”、“com”、“www”、“的”和“*”、“”等符号无视词,用英语双引号将这些无视词压在检索项目上。 基本检索(4)用专用语询问。 用双引号括住术语可以进行准确的搜索。 用于搜索明文或专用名词。 /对社会的贡献等于价值。 (5)搜索不区分字母大小写,用小写处理所有字符。 (6)拼音汉字自动转换,支

11、持模糊的拼音检索。 搜索“万罗兴文”后,发现“您在找什么:网络新闻吗? 否则这些变更仅会影响目前的文件。 谷歌的特殊功能(高级检索) (1)限制检索的网站。 只需在搜索框中键入site:即可搜索中文教育科研网站()上包括古龙在内的所有页面。 搜索:“古龙site: (2)在某种文件中搜索信息。 要查找PDF、Microsoft(doc、ppt、xls、rtf )等各种格式的文件,输入“关键字filetype:doc”即可。 例:“电子商务filetype:doc” (3)订正计算机。 内置了提供简单的修正算法、复杂的科学修正算法、单位换算、各种物理常数等的修正算法机。 (4)相似页面。 单击“

12、类似于网页”后,搜索引擎将搜索与该网页相关的网页。 (5)链接搜索:搜索链接到某个URL地址的所有网页.在搜索框中输入 link: ,将显示指向该网站的所有网页. 但是,不能与关键词检索并用。 例如,“link:”指定要搜索的范围,并且“1”、“intitle (或title )”将搜索范围限制为页面标题中的页面标题,这通常是页面内容的抽出表达式的总结。 如果将询问内容的范围限定为网页标题,则有时得到良好的效果。 例如,intitle:刘德华注意不要在intitle:和后续关键字之间加空格。 例如:搜索刘德华的写真集:照片intitle:刘德华指定搜索范围,2,site将搜索范围限定在特定网站

13、的site,知道某个网站有自己想要搜索的内容,将搜索范围限定在这个网站,提高搜索效率使用方法是在询问内容后面加上“site:域名”。 例如,文献检索site 3360注意“site:”后面的站点域名不要有“http:/”,并且不要在site 3360和站点名之间加入空格或site。 site还可以搜索域中的示例内容。 关键字site:edu在教育网络(.edu )中搜索示例。 搜索中文教育科学研究网站()上的所有内容:“古龙site:注意:关键字和site之间必须有空格,冒号和点必须为半角,指定搜索对象的范围,3,inurl在url链接中的网页url中实现方法是“inurl:”,后面是出现在u

14、rl中的关键字。 例如:查找photoshop的用法搜索表达式: photoshop inurl:jiqiao上的此查询字符串的“photoshop”可以在网页上的任意位置显示,“jiqiao”必须显示在网页的url上inurl:语法和后续关键字不得包含空格。 搜索同义词-,可以在单词前面加上符号来搜索同义词。 例如,您可以搜索house,搜索house,搜索定义define。 define:关键字示例: define:css相当于搜索css的定义。 如果无法打开网页结果,请单击网页的快照以显示该网页。 (7)手的调子好:按下“手的调子好”按钮,谷歌就会自动进入搜索的第一页,完全看不到其他的搜

15、索结果。 (8)自动纠错功能:纠错软件系统自动扫描输入的关键字,检查是否有误字,提供纠正可能误字的提示。 (9)中英语词典。 只要输入“(翻译、FY、FY中的任意一个)想查的中(英)句的单词”即可。 (十)查询天气、股票、邮政编码、手机号码。 要查看天气,只需输入城市名称天气(天气、TQ、TQ之一)即可查询股价和股市行情,只需输入股名或代码股。要查询邮政编码或长途电话号码, 只需输入“想查的城市地名或者邮政编码或者电话号码或者区号”就可以常用的中文搜索引擎和特点2、百度搜索引擎百度公司于1999年底在美国的硅谷设立,回国发展。 百度()作为国内最大的商业化搜索引擎,其功能完整,搜索结果匹配度极

16、高,尤其是其MP3搜索功能,是目前国内技术水平最高的搜索引擎之一。 目前,全国有36个大网站采用百度引擎。 百度搜索引擎、百度产品(1)网页搜索:拥有世界上最大的中文搜索引擎,总量超过3.5亿网页。 (2)MP3检索:从每天更新的3亿5千万的中文网页中提取MP3下载链接,构筑MP3歌库。 提供歌曲名称歌词检索功能,还具有自动验证下载速度的功能,下载速度最快者排名靠前。 (3)新闻检索:是目前世界上最大的中文新闻检索平台,每天发布8万到10万条新闻。 新闻来源包括500多个权威网站(4)的帖子。 如果web搜索不能满足您的要求,请发布查询请求,用别人的知识、想法和经验来解决您的问题。 百度搜索引擎,(5)图片搜索:目前世界上最大的中文画廊。 可以直接输入任意关键字,搜索所需的图像数据,支持图像大小和图像格式的搜索,还可以快速分类图像阅览导航。 下车吧。 用户可以与互联网上的其他用户轻松、快速、安全地上传和下载大容量电影、游戏、音乐、软件和照片。 (7)网站:百度网站导航采用主题分类的方法,人工维持更新,推荐最优秀的网络资源,目前网站导航共分为4大类,60多个子类别。 (8)搜索风云榜。 基于每天数千万次的搜索数据,提供最有权威的中文搜索风云排行榜,例如金曲排行榜、小说排行榜、人物排行榜等。 (9)地区检索:通过选择某省、自治区、地区的信息资源进行检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论