第4章 网络信息检索2016_第1页
第4章 网络信息检索2016_第2页
第4章 网络信息检索2016_第3页
第4章 网络信息检索2016_第4页
第4章 网络信息检索2016_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络信息检索2022/7/134.1 网络信息检索4.2 搜索引擎4.3 学术搜索4.4 开放存取主 要 内 容2022/7/134.1 网络信息检索特点检索范围广用户界面友好且操作方便检索途径灵活且速度快捷人机交互检索效率不高主要检索技术智能代理技术网络信息挖掘技术信息推送技术2022/7/134.2.1 搜索引擎技术的发展4.2.2 搜索引擎的工作原理4.2.3 搜索引擎的分类4.2.4 Google小窍门4.2.5 Baidu小窍门4.2 搜索引擎2022/7/134.2.1 搜索引擎技术的发展 第一代门户成为终点 第二代以超链接分析为基础的机器抓取技术为基础 第三代综合性技术的应用20

2、22/7/13第一代搜索引擎第一代的搜索引擎公司都变成了门户网站,垂直化的搜索引擎也应运而生,如,专门做图形图像或MP3文件的搜索引擎。而最新的技术是动态的网页搜索和实时内容的检索,网络上越来越多的网页是根据程序生成的,而不是静态地存在。这些页面都是根据时间变化而变化的,比如查询股票的价格等。而实时的内容多是新闻与金融信息,这也是广大网民迫切需要的。 2022/7/13Excite () Excite是斯坦福大学的6位计算机系的本科生创办的。“免费让人搜索,用广告收入来补贴”,这是Excite率先提出来的。Excite搜索技术研发人员的计算机功底扎实,但对信息检索的认识不是很深,提出的概念搜索

3、(Concept Search),即用同义词推断来增加搜索的结果很快就宣告失败。2002年被Infospace收购,改用元搜索引擎Dogpile。 2022/7/13Altavista诞生于DEC研发中心,第一个支持自然语言检索,第一个实现高级搜索,它也是Yahoo!最早的搜索引擎技术的提供者。特点:速度快,可以提供许多不同格式内容,如音频、视频与多国语言的检索,可以说处于世界领先地位。缺点:更新频率不是很快。Altavista () 2022/7/13Lycos ()Lycos是早期搜索引擎中唯一诞生于美国东部的,其余的搜索引擎都在硅谷。它脱胎于卡耐基梅隆大学的一位博士生的一套互联网搜索程序

4、,此后被风险投资集团CMGI看中,并且在波士顿成立了公司。其搜索技术一直比较落后,但在商业上比较成功,Lycos很早就投资做社区网站。2022/7/13Infoseek () Infoseek以检索的相关程度高而知名。Infoseek请一位华人工程师William Chang设计了第一代Infoseek搜索引擎Ultraseek,其特点是速度快,检索结果的相关程度也很高。产品一推出在搜索引擎领域与华尔街都引起了很大的震动。1999年,Infoseek被Disney所购买,发展方向与定位都做了调整。Disney将其做为入门网站G的搜索引擎,在技术上的革新比较少,主要是做娱乐方面的索引。 2022

5、/7/13Yahoo!()创办于1994年,创办人为美籍华人杨致远和David Filo。因为数据为手工输入,只能支持简单的数据库搜索。2002年采用Google的搜索结果,2004年正式推出自己的全文搜索引擎。2022/7/13第二代搜索引擎第二代搜索引擎厂商的特点是只做后台技术的提供者,这是美国互联网发展的教训。因为作为一个公司,同时肩负两个任务,一是创建门户类的平台,二是开发搜索引擎,这两方面没有什么共同点,使得网站精力分散,不能全力投入搜索引擎技术的改进;而且两者合一意味着自己的产品不能卖给别人,搜索引擎的开发的成本相当高,又只能少数几家使用,这就不符合软件通用化的潮流与模式。第一代网

6、站中,只有Yahoo!不自己开发搜索引擎,所以它成功了。 2022/7/13Inktomi() Inktomi是加州大学伯克利分校Eric Brewer的教授最先研究,这位教授是并行处理研究的专家。后来他将技术卖给了Hotbot,作为后台技术的提供商。 Eric Brewer完成Inktomi的时候,市场竞争已经相当激烈,做门户已经不可能,所以他决定只做背后技术的提供商。Yahoo!以前使用的是Altavista的技术,但Altavista本身也是门户,与 Yahoo!处于竞争关系,所以Inktomi很快成了Yahoo!后台技术的提供商。目前已无此网站。 2022/7/13Askjeeves

7、() 从技术上讲,Askjeeves是一个比较简单的系统,但从创意来说是相当出色的,它维护了问题与答案相联系的数据库。从结构上说它比较简单,因为提问后并不是立即返回问题的答案,而是用逼近式的方法让你选择他知道的所有问题,再由用户分类来选择答案。这一点从技术上讲非常容易解决,但从实践来说需要大量的人力来干预,即问题与结果的数据库规则基本是靠人工来建立的。但由于它建立了一套可以让人以自然语言提问的系统,很多网民喜欢这样的形式。但由于其规则库太小,真正使用的人不是很多。 2022/7/13Goto ()从本身技术来说,G使用了超链分析与根据用户的点击行为来分析与重排序,搜索得到的结果相关性程度较高,

8、而且比较符合用户的点击习惯 。专攻手机应用。2022/7/13Google () Google由Larry Page和Sergey Brin设计,于 1998年9月发布测试版,一年后正式开始商业运营。使命:整合全球信息,供大众使用,使人人受益。 由于对搜索引擎技术的创新而获奖无数,如美国时代杂志评选的“1999年度十大网络技术”之一、个人电脑杂志授予的“最佳技术奖”、The Net授予的“最佳搜索引擎奖”等。Google现为全球80多家门户和终点网站提供支持,客户遍及20多个国家。特点:实用性、便利性和高相关性。 2022/7/13Google提供一系列革命性的新技术,包括完善的文本对应技术和

9、先进的PageRank排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。含义:“Googol”是一个数学名词,表示一个 1 后面跟着 100 个零。这个词汇是由美国数学家 Edward Kasner 的外甥 Milton Sirotta 创造的,随后通过 Kasner 和 James Newman 合著的“Mathematics and the Imagination”一书广为流传。Google 使用这一术语体现了公司整合网上海量信息的远大目标。2022/7/13第二代搜索引擎的问题第二代搜索引擎比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了

10、一些探索。一般的公共搜索引擎只能查到HTML格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。 2022/7/13第三代搜索引擎为了解决第二代搜索引擎的问题,第三代搜索引擎应运而生。第三代搜索引擎用到了信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计算机网络、分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,成为一种综合性的技术。新的标准、新的应用也促进着现代搜索引擎的发展。如,XML的出现及广

11、泛使用,P2P(peer to peer,点对点)及网格计算的发展等。2022/7/134.2.1 搜索引擎技术的发展4.2.2 搜索引擎的工作原理4.2.3 搜索引擎的分类4.2.4 Google小窍门4.2.5 Baidu小窍门4.2 搜索引擎2022/7/134.2.2 搜索引擎的工作原理运行特定的网络搜索程序,定期搜索Internet的各个站点,送回收集到的文献信息(包括Web页面和新闻组文章等),并利用索引软件对这些这些文献进行自动标引,加入集中管理的索引数据库;然后在其Web站点上提供检索界面,由用户输入提问检索式,通过特定的检索软件,查找其索引数据库,给出与检索式相匹配的查询结果

12、,供用户浏览。搜索引擎的运行,需要网络搜索软件、索引软件和检索软件的协同工作,它们是决定搜索引擎特性的最重要方面。2022/7/13搜索引擎工作原理示意图客户端浏览器检索软件Web服务器索引软件 数据库 搜索软件 Web站点 Web站点Web站点浏览Web页面检索过程更新数据库2022/7/13搜索引擎之搜索软件搜索引擎的Web数据库增加新文献的来源有二:其一,由Web站点的创建者,在搜索引擎的站点上登记其页面URL(Uniform Resource Locator,统一资源定位器)地址,以便搜索引擎去发现并加入数据库;其二,定期执行搜索引擎的网络搜索软件,自动收集网上的新文献。网络搜索软件,

13、常被称为Web“蜘蛛(Spider)”、“爬虫(Crawler)”或“机器人(Robot)”常规蜘蛛(Normal Spider)运行周期一般为13月;即时蜘蛛(Instant Spider)则随时运行。2022/7/13搜索引擎之索引软件索引软件的主要任务是,对网络搜索软件收集 并送回的文献信息进行自动标引(倒排),建立Web索引数据库。这种数据库的文献记录一般由文献标题、摘要或简短描述(通常是文本的前几行)、URL、文件大小、语种等构成。索引软件的处理方法,对于搜索引擎的检索性能具有决定性的影响。一般情况下,Web搜索引擎对每个页面索引的文本范围越大,其查全率就越高;反之,查准率就越高。另

14、外,从每个页面中抽取的索引词越多,每个页面的检索点就越多,使查全率相对较高,查准率相对较低。2022/7/13搜索引擎之检索软件检索软件主要与索引软件相配合,作为用户提问与数据库的接口,提供特定的检索功能,执行每一次的检索输入,并向用户返回检索结果。检索软件决定了搜索引擎的检索功能特性,如检索手段是否灵活多样,检索界面是否亲切友好,是否提供足够的字段限制,能否选择检索对象或范围,能否支持各种不同语种的检索等。2022/7/13Google查询全过程3. 瞬间返回用户需要的搜索结果。 1. 网络服务器将查询发送到索引服务器。索引服务器所包含的内容与书本末尾的索引目录相似,即说明哪些网页包含与查询

15、匹配的文字。 2.查询传输到文档服务器,由后者实际检索所存储的文档。然后,生成描述每个搜索结果的摘录。 2022/7/13百度搜索引擎体系结构图 百度搜索引擎由蜘蛛程序、监控程序、索引数据库、检索程序组成。2022/7/134.2.1 搜索引擎技术的发展4.2.2 搜索引擎的工作原理4.2.3 搜索引擎的分类4.2.4 Google小窍门4.2.5 Baidu小窍门4.2 搜索引擎2022/7/134.2.3 搜索引擎的分类综合性搜索引擎元搜索引擎多媒体搜索引擎垂直搜索引擎2022/7/13综合性搜索引擎谷歌Google 百度Baidu 搜狗 网易有道 必应 2022/7/13Google:图

16、片2022/7/13Google:更多Google 博客搜索: 从博客文章中查找您感兴趣的主题; Google 学术搜索: 站在巨人的肩膀上,搜索学术文章; Google 图书搜索: 对书籍进行全文搜索,并发现新书;2022/7/13Google:高级搜索2022/7/13Google基础须知忽略词:Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”, “.com”和“的”等字符以及数字和单字,这类字词会大大降低搜索速度。 英文双引号:可将这些忽略词强加于搜索项,例如,输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中,同时可用于短语检索

17、。简繁转换:Google运用智能型汉字简繁自动转换系统,运用简体和繁体文本之间的“翻译”转换。搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。2022/7/13Google基础须知词干法:Google会同时搜索关键词和与关键词相近的字词。词干法对英文搜索尤其有效。例如,搜索“dietary needs”, Google会同时搜索“diet needs”和其它该词的变种。用于搜索的原来用词的任何变化都将在搜索结果的简述文字中标示出来。 不区分英文字母大小写自动使用“and”进行查询:不需要在关键词之间加上“and”或“+”。如果想缩小搜索范围,只需输入更多的关键

18、词,只要在关键词中间留空格就行了。 2022/7/13 Google基础须知拼音汉字转换 :Google 运用智能软件系统对拼音关键词能进行自动中文转换并提供相应提示。例如,搜索“shang wu tong”, Google 能自动提示 “您是不是要找:商务通”。如果您点击“商务通”, Google 将以“商务通”作为关键词进行搜索。对于拼音和中文混和关键词, 系统也能做有效转换。最好在多个拼音中加空格能提高转换准确率和速度。由于汉语的多音字和方言众多,Google 的拼音汉字转换系统能支持模糊拼音搜索,为用户提示最符合的中文关键词,具有容错和改正的功能。2022/7/13Google 查询结

19、果的组成部分 统计行网页标题2022/7/13百 度百度(B,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的徐勇博士。百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持。2022/7/13百度:音乐2022/7/13百度:更多2022/7/134.2.1 搜索引擎技术的发展4.2.2 搜索引擎的工作原理4.2.3 搜索引擎的分类4.2.4 Google小窍门4.2.5 Baidu小窍门4.2 搜索引擎2022/7/13

20、 4.2.4 Google小窍门网页快照:即当搜索内容站点或网页不存在时,用户可以调用Google事先为用户储存的大量应急网页,经Google处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。实际上Google将检索的网页都做了一番“快照”然后放在自己的服务器上,这样,不仅下载速度极快,而且可以获得互联网上已经删除的网页。指定网域:其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:”。 2022/7/13Google小窍门查找不同类型文件:Google已经可以支持13种非HTML文件的搜索。

21、除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。 例如,查找Flash文件,只需搜索“filetype:swf” 。货币转换:Google有内置货币转换器,只需在 Google 搜索框中键入需要完成的货币转换。例如,3.5 USD =? GBP 又如,10新加坡元等于多少印度卢比 2022/7/13Google小窍门计算器:Google 为用户提供了一个内置计算器。这个计算器可以用来做所有简单的计算,一些复杂的科学计算,单位换算,以及

22、提供各种物理常数。 相关搜索 :Google 能够提供与原搜索相关的搜索词。这些相关的搜索词是根据过去 Google 所有用户的搜索习惯和 Google 提供的计算两个搜索词之间相关度的独家技术而产生出来的。这些相关的搜索词一般比原搜索词更常用,并且更可能产生相关的结果。2022/7/13Google小窍门类似网页 :单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。如果对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会找到其他有类似资料的网站;如果在寻找产品信息,Google 侦察兵会提供相关信息,供用户比较;如果在某一领域做学问,Google 侦察兵会成

23、为得力助手,快速找到大量资料。 手气不错 :按下“手气不错”按钮将自动进入 Google 查询到的第一个网页,完全看不到其它的搜索结果。 例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮即可。 2022/7/13Google小窍门错别字改正 :Google 的错别字改正软件系统会对输入的关键词进行自动扫描, 检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。多种语言翻译:语言工具的翻译功能天气查询例如,查找上海地区的天气状况,shanghai tq 或上海 天气股票查询:只需输入一

24、个关键词(“股票”,“gp” 和“GP” 任选其一)和想查询的股票证券名称或是其六位数代码。2022/7/13Google小窍门邮编区号:查询邮政编码或长途电话区号,只需输入关键词(“邮编”,“yb” 和“YB” 任选其一;“区号”, “qh” 和“QH” 任选其一)和要查的城市地名或邮政编码或电话区号即可。例如,查找拉萨地区的邮编区号或邮编100000,电话区号0891的归属地,可以输入:拉萨 邮编 区号 或者 邮编 100000 或者0891 qh 手机号码:用Google 查询手机电话号码归属地,只需直接输入要查的号码即可。搜索技巧参考/websearch/?hl=zh-Hans&p=h

25、ighlights2022/7/134.2.1 搜索引擎技术的发展4.2.2 搜索引擎的工作原理4.2.3 搜索引擎的分类4.2.4 Google小窍门4.2.5 Baidu小窍门4.2 搜索引擎2022/7/134.2.5 百度小窍门百度快照:相当于google的网页快照。不过,百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果无法连接原网页,那么快照上的图片等非文本内容,会无法显示。相关搜索拼音提示错别字提示英汉互译词典 结果页上有“词典”链接计算器和度量衡转换 3.5USD=?GBP (无空格)2022/7/13百度小窍门把搜索范围限定在网页标题中intitle 使用方式,把查询内容中特别关键的部分,用“intitle:”领起来。 例如,找林青霞的写真,查询:写真 intitle:林青霞 注意,intitle:和后面的关键词之间,不要有空格。把搜索范围限定在特定站点中site 使用方式,在查询内容的后面,加上“site:站点域名”。 例如,天空网,查询:msn site: 注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。 2022/7/13百度小窍门把搜索范围限定在url链接中inurl 实现方式,是用“inurl:”,后跟需要在url

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论