因特网上的信息检索_第1页
因特网上的信息检索_第2页
因特网上的信息检索_第3页
因特网上的信息检索_第4页
因特网上的信息检索_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因特网上的信息检索第1页,共34页,2023年,2月20日,星期六改变关键词尽量少用通配符与含糊的词使用逻辑控制符AND,利用多个条件同时满足要求进行限制使用双引号“””(英文状态下)将连在一起的词变成短语来搜索用近义词代替关键词使用逻辑控制符OR使用其他的搜索网站讨论交流:哪些搜索技巧可以缩小搜索范围?第2页,共34页,2023年,2月20日,星期六3.2因特网上的信息检索第3页,共34页,2023年,2月20日,星期六3.2.1因特网信息检索方法因特网是全球性的分布式系统,信息组织处于一个无序的状态。基于超文本/超媒体的信息浏览基于目录服务的信息查询基于搜索引擎的信息检索第4页,共34页,2023年,2月20日,星期六1、基于超文本/超媒体的信息浏览能够灵活、方便地查找信息,但信息检索很大程度上取决于所提供的链接,搜索结果带有偶然性和片面性。音频资料视频资料图形图像网页网页网页第5页,共34页,2023年,2月20日,星期六2、基于目录服务的信息查询人们根据信息的主题将网络上的资源进行分类,并以目录的形式组织和表现。一级二级三级四级第6页,共34页,2023年,2月20日,星期六3、基于搜索引擎的信息检索查询请求搜索引擎:信息检索工具查询结果:非资源本身资源的链接第7页,共34页,2023年,2月20日,星期六3.2.2搜索引擎的发展与分类1994年4月斯坦福大学两名博士生美籍华人杨致远和美国人DavidFilo超级目录索引雅虎最早的搜索引擎?1、搜索引擎的产生成功地使搜索引擎的概念深入人心从此搜索引擎进入了高速发展时期第8页,共34页,2023年,2月20日,星期六1990年起搜索引擎发展举例产生时间搜索工具开发组或公司网站特点1990ArchieMcGillUnibersity可搜索FTP文件名列表1993GopherNevadaSystemComputingServicesUniversity一个分布式信息检索系统1994.4Yahoo斯坦福大学早期Yahoo数据是手工输入1995.12AltaVistaDEC公司第一个支持自然语言关键词和高级检索的引擎1997.10北大天网北大计算机研究室收录网页约6000万,有强大的FTP搜索功能1998.9Google斯坦福大学提供网页评级动态摘要、网页快照,每天更新、多文档格式支持2001.8Baidu百度公司快照、预览、相关词搜索、mp3、flash搜索功能第9页,共34页,2023年,2月20日,星期六2搜索引擎的分类目录式搜索引擎全文搜索引擎元搜索引擎垂直搜索引擎集合式搜索引擎门户搜索引擎免费链接列表第10页,共34页,2023年,2月20日,星期六搜索引擎的分类类型定义举例目录搜索网络信息资源按照主题分类,并以层次树状形式进行组织的一类搜索引擎.

优点:实实在在找到用户所关心内容分类,网站导航质量高缺点:分类不够细,需要人工介入,目录的维护量大,更新可能不够及时.第11页,共34页,2023年,2月20日,星期六搜索引擎的分类类型定义举例全文搜索使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎.

优点:信息量大、更新较及时、不需人工干预。缺点:返回信息过多,有很多无关信息。第12页,共34页,2023年,2月20日,星期六搜索引擎的分类类型定义举例元搜索引擎元搜索引擎就是通过一个统一的用户界面向多个搜索引擎同时递交用户查询,对结果去重合并再返回给用户.

优点:结果精确、全面,汇聚各大搜索引擎的结果。

缺点:检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2

第13页,共34页,2023年,2月20日,星期六如果你是搜索引擎公司的老总,谈谈什么是好的搜索引擎?搜索结果准确,搜索精度高响应速度快及时更新检索数据库,剔除“死链”思考第14页,共34页,2023年,2月20日,星期六搜索引擎技术的发展1、提高对用户检索提问的理解2、对检索结果进行进一步的处理3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性第15页,共34页,2023年,2月20日,星期六搜索引擎技术的发展1、提高对用户检索提问的理解自然语言的使用使网络交流更加人性化,让查询变得更加方便、直接、有效。案例:了解关于杀计算机病毒的方法。关键词1:计算机病毒关键词2:如何清除计算机病毒第16页,共34页,2023年,2月20日,星期六搜索引擎技术的发展2、对检索结果进行进一步的处理①基于链接评价的搜索引擎Google设计者认为:一个网页的重要性取决于他被其他网页链接的数量②基于访问大众性的搜索引擎这类搜索引擎的设计者认为大多数人选择访问的网站就是最重要的网站。③去掉检索结果中附加的多余信息第17页,共34页,2023年,2月20日,星期六搜索引擎技术的发展3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性1、垂直主题搜索引擎:高度的目标化和专业化第18页,共34页,2023年,2月20日,星期六搜索引擎技术的发展3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性1、垂直主题搜索引擎:高度的目标化和专业化2、非WWW信息搜索:提供FTP类信息的检索第19页,共34页,2023年,2月20日,星期六搜索引擎技术的发展3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性1、垂直主题搜索引擎:高度的目标化和专业化2、非WWW信息搜索:提供FTP类信息的检索3、多媒体搜索引擎:实现多媒体检索第20页,共34页,2023年,2月20日,星期六搜索引擎技术的发展1、提高对用户检索提问的理解2、对检索结果进行进一步的处理3、确定搜索引擎信息搜索范围,提高搜索引擎的针对性第21页,共34页,2023年,2月20日,星期六3.2.3搜索引擎的工作过程信息检索人工智能计算机网络分布式处理数据库数据挖掘数字图书馆自然语言处理……搜索引擎是一个交叉的研究领域,极具综合性和挑战性。第22页,共34页,2023年,2月20日,星期六目录式搜索引擎的工作过程以人工方式或半自动方式搜集信息,由编辑员查看信息后,人工形成信息摘要,并将信息置于事先确定的分类框架中。用户通过浏览分类目录来查看自己所需要的信息,再链接到信息资源所在的位置。目录页面Sodig分类“国家地区”……“四川”……“成都”……“川师附中”……第23页,共34页,2023年,2月20日,星期六全文搜索引擎的工作过程搜索器互联网初识数据索引器检索器索引数据库接口界面IE浏览器用户搜索输出查询信息系统定期搜索网络提取并组织、排序关键字对比、提取第24页,共34页,2023年,2月20日,星期六Spider系统程序:像蜘蛛一样在网络间爬来爬去,追踪互联网,捕获网址。第25页,共34页,2023年,2月20日,星期六第26页,共34页,2023年,2月20日,星期六用户接口第27页,共34页,2023年,2月20日,星期六课堂小结一、信息检索的方法基于超文本/超媒体的信息浏览基于目录服务的信息查询基于搜索引擎的信息检索二、主要二类搜索引擎1、目录式搜索引擎2、全文搜索引擎第28页,共34页,2023年,2月20日,星期六一、选择题1.以下选项中,不属于因特网中信息检索的主要方法是()A.基于超文本/超媒体的信息浏览B.基于搜索引擎的信息检索C.基于“我的电脑”文件搜索D.基于目录服务的信息查询答案:C2.(多选题)以下选项中,属于网络主要搜索引擎的分类是()A.全文搜索B.目录搜索C.专业搜索D.元搜索答案:AB第29页,共34页,2023年,2月20日,星期六一、选择题3.我们通过网页中的链接去访问另外一个信息资源的信息检索方法是()。A.基于超文本/超媒体的信息浏览B.基于目录服务的信息查询C.基于搜索引擎的信息检索D.特种搜索引擎答案:A4.使用全文搜索引擎,搜索的结果是()。A.我们所要找的全部信息B.互联网上客观存在的网页数据C.搜索引擎数据库中的数据D.以上都不是答案:C第30页,共34页,2023年,2月20日,星期六一、选择题5.全文搜索引擎一般采用什么原理来采集信息()。A.人工方式B.“蜘蛛”程序C.关键字检索D.检索工具答案:B6.如果要搜索桂林旅游景点,则应该在搜索框输入什么关键字才能高效地找到有用信息()。A.桂林or旅游景点B.桂林or旅游or景点C.桂林or旅游and景点D.桂林and旅游and景点答案:D第31页,共34页,2023年,2月20日,星期六二、判断题7.由于因特网是全球性的分布式系统,数以百万计的信息提供都难以按照一定的约定来提供信息,因此,整个因特网的信息组织处于一个无序状态。()答案:对8.搜索引擎是因特网上信息检索的软件系统,最早的搜索引擎出现于1994年4月,是由斯坦福大学的两名博士(其中包含美籍华人杨致远)创办的雅虎。()答案:对9.目录式搜索引擎是以人工方式收集信息,由编辑人员查看信息后并将信息分类置于事先确定的相应目录中。()答案:对第32页,共34页,2023年,2月20日,星期六二、判断题10.目录式搜索引擎是通过计算机进行分类和整理,不需要人工干预。()答案:错 分类不够细,需要人工介入,目录的维护量大,更新可能不够及时.11.全文搜索引擎的优点是信息量大、更新较及时、不需人工干预;缺点是返回信息过多,有很多无关信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论