网络信息检索(00001)课件_第1页
网络信息检索(00001)课件_第2页
网络信息检索(00001)课件_第3页
网络信息检索(00001)课件_第4页
网络信息检索(00001)课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息检索一、Internet的基本概念TCP/IP协议:TCP/IP是由美国国防部高级计划局资助的Internet技术和方法,也称为传输控制/网间协议,是一个标准协议集合,专门适用于广域网(WAN)。WWW:WWW的含义是“环球网”,是超文本方式的信息查询工具。WWW基于HTTP协议,用HTML语言将多媒体信息组织成超文本,并通过这种方式将全世界Internet上的不同地点的相关信息有机结合起来。HTTP超文本传输协议HTTP是基于TCP/IP之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。它不仅需要保证正确传送超文本文档,还必须能够确定传送文档中的某一部分,以及哪部分内容首先显示。URL(统一资源定位器)URL可以将世界上所有的联机信息资源组织成有序结构。它的格式有三部分组成:第一部分是协议(或称服务方式),大部分Internet文档用http,其他常用的协议有、gopher、telnet等;第二部分是存有该资源的主机IP地址;第三部分是主机资源的具体地址。IP地址和域名Internet上的众多计算机和信息资源必须通过名字和地址来进行识别。接入Internet的计算机或节点被赋予一个惟一的数字作为地址,称为IP地址,用小数点隔开的四组数字组成。IP地址通常由Internet服务机构从Internet网络信息中心注册申请(例如:中央财经大学图书馆的IP地址为01)。IP是网络中的重要资源,有多少个IP地址就意味着有多少台计算机能够连入Internet。由于IP地址由四组数字构成,不易记忆,所以Internet采用域名系统(DNS),作为表示Internet上特定主机的助记名称。Internet中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。常见的标准域名结构为:主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种:二、网络信息资源的特点(1)信息量大,传播广泛(2)信息层次多,品种多样(3)自由发布,交流直接(4)信息传播速度快,变化频繁(5)检索方便,价廉实惠

1、优点:2、缺点:(1)信息庞杂,分散无序(2)质量不一,缺乏管理(3)重复建设,缺乏宏观调控(4)网络通路不畅三、搜索引擎网络搜索引擎的历史最早可以追溯到1991年,尽管搜索引擎发展时间并不长,但其观念却是深入人心的。《第22次中国互联网发展状况统计报告》显示,在中国2.53亿网民中,搜索引擎的使用率为69.2%,达1.75亿。目前为中国第五大网络应用技术。从数据中不难看出,网络搜索引擎所发挥的作用是非常大的。搜索引擎概述截至2010年6月底,搜索引擎在网民中的使用率为76.3%,用户规模达到3.2亿人,与2009年6月相比,年增长8589万人,年增长率36.6%。

——《2010年中国搜索引擎用户行为研究报告》

搜索引擎概述全球搜索引擎用户使用搜索品牌

Google全球市场份额为68%,高居榜首。雅虎第二,市场份额为7%,百度第三,市场份额为6.5%,微软第四,市场份额为3%,其它依次为eBay、NHN、Yandex、Facebook、Ask和阿里巴巴。另:中国是全球第二大搜索市场,所占份额达到了10%。很多搜索引擎网站会从国际网站自动跳转成国内网址,如google自动跳转成cn

全球搜索引擎排名:1Google62%2雅虎12.8%3百度5.2%4微软2.9%5NHN2.4%(韩国搜索引擎)6eBay2.2%7时代华纳1.6%8A1.1%9Yandex0.9%(俄罗斯搜索引擎)10阿里巴巴0.8%搜索引擎概述百度首选用户使用搜索功能分析工作原理搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上,增加了自动收集和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。主要由信息采集器、查询表和检索接口三大模块组成。搜索引擎系统的分类1.全文搜索引擎通过从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库,检索器与用户查询条件匹配的相关记录,并将查询结果返回给用户。服务方式是面向网页的全文检索服务,是真正意义上的搜索引擎。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。21AltaVista

是功能全面的搜索引擎,曾经名噪一时,但现在其地位已被Google取代。即便如此,它仍被认为是功能最完善,搜索精度较高的全文搜索引擎之一。截止2002年6月,AltaVista宣称其数据库已存有11亿个Web文件,并且经过升级,其搜索精度已达业界领先水平。AltaVista提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、MP3/Audio&Video等。主页显示LookSmart的索引目录并提供LookSmart注册。高级搜索提供用户以日期、语种、布尔逻辑和近似条件搜索。常规及高级搜索均允许针对Title、URL或特定的域名进行检索。用户还可以在定制的搜索条件(包括Title、URL、Host、Links(如anchor、applet、image和text)等)输入框中填入文字,以此为条件进行搜索。22允许以25种不同的语言进行搜索,并提供英、法、德、意、葡萄牙、西班牙语双向翻译。其他特色服务包括重大新闻(发生于6小时至14天之间),新闻组及购物查询。搜索规则:进行精确匹配查询时可使用“”号,但多数时候即使不用“”号,AltaVista也默认以精确匹配方式查询;不支持自动断词查询,但允许使用通配符“*”。区分字母大小写。当以大写字母查询时,默认为精确匹配,即查询结果不包括小写的关键词;而以小写字母查询时,则同时查找大写和小写。2.目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确,导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。严格意义上算不上真正的搜索引擎。主页3.元搜索引擎也称集成搜索引擎。是对搜索引擎进行搜索的搜索引擎。它可以没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈后,进行综合相关度排序,然后把整理后的查询结果发送给用户。Dogpile共收集了26个搜索引擎,包括WEB检索、新闻组检索、FTP检索、新闻检索、股市检索、黄页检索、白页检索、地图检索、天气检索等。

Google的简要介绍Google的创立

Google是由2位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立的。LarryPageSergeyBrinGoogle的简要介绍Google的释义

Google是由英文单词“googol”变化而来。Google的特点作为目前世界上最大的搜索引擎,Google支持多达132种语言,包括简体中文和繁体中文;

Google提供了最便捷的网上信息查询方法。通过对20多亿网页进行整理,Google可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒,现在每天需要提供1.5亿次查询服务。

Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索.逻辑与:用空格或and或AND逻辑或:用大写的“OR”表示逻辑非:用“-”,减号之前须留一个空格Google()“手气不错”自动将您带到Google推荐的网页。对大小写不敏感专用词语上加上双引号“网页快照”从服务器里直接取出缓存的网页。检索结果按“重要性”排序Google的语法结构使用Google所提供的特殊的语法结构,能够帮助用户缩小检索范围,更有效地找到所需要的内容。在一般情况下,Google将整个网页进行收录和索引,通过专门的语法结构,可以让用户搜索网页的某些特定部分或者特定信息。Google的语法结构:检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻找特定格式的内容的时候,这项语法是必不可少的。例如,仅搜索关于经济的pdf文件,结果如下:Google的语法结构Intitle:将搜索范围限制在网页的标题内。即检索词仅匹配(在网页标题中)字词出现在检索结果的网页的链接内和打开网页后浏览器的标题栏内。Google的语法结构Inurl:将搜索结果限制在URL或者网站页面上,他可以查询网站的子目录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件。Google的语法结构Intext:只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等。Google的语法结构Inanchor:在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检索。Google的语法结构Link:检索所有链接到某个特定URL的页面列表。例如,搜索所有链向新浪的链接,其结果如下:Google的语法结构Site:将检索局限在特定网站或者网域内,即将搜索限制在某个特定站点或者顶级域名内。Google的语法结构Info:检索有关特定网页的信息,获得关于该URL更多信息的页面列表,包括指向该网页的网页快照、类似网页、链接到该URL的所有网页的列表、该URL相关的页面列表以及含有该URL的页面。例如,搜索关于新浪的信息,其结果如下:Google的语法结构Daterange:查找在一定的日期或者一定的日期范围内,Google索引的网页(该语法只关注被Google收录的时间,而不关注网页创建的时间)Related:检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助。

百度()“-”减除无关资料A|B代表AorB。相关检索:为您提供"其它用户搜索过的相关搜索词"作参考百度快照、同一网址的更多结果新闻搜索、MP3搜索、图片搜索、Flash搜索百度搜索引擎百度():百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。百度的字段限定检索同Google逻辑与:空格或“*”逻辑或:大写的“+”或“|”逻辑非:用“-”表示,减号之前须有一空格Baidu搜索引擎百度是中国互联网用户最常用的搜索引擎,每天完成上亿次搜索;也是全球最大的中文搜索引擎,可查询数十亿中文网页。主要内容1、搜索内容2、高级搜索语法3、常用搜索技巧搜索内容高级搜索语法把搜索范围限定在特定站点中——site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。高级搜索语法把搜索范围限定在网页标题中——intitle把搜索范围限定在url链接中——inurl精确匹配——双引号去除含有特定关键词的网页——减号书名号有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果。Baidu常用搜索技巧选择适当的查询词准确的表述

百度会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。一种不准确的表述就是在查询中出现错别字查询词的主题关联与简练目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。最好的查询词,应该是“时间名言”。Baidu常用搜索技巧软件下载日常工作和娱乐需要用到大量的软件,很多软件属于共享或者自由性质,可以在网上免费下载到。

1.直接找下载页面这是最直接的方式。软件名称,加上“下载”这个特征词,通常可以很快找到下载点。例:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论