电子商务课件网络信息检索_第1页
电子商务课件网络信息检索_第2页
电子商务课件网络信息检索_第3页
电子商务课件网络信息检索_第4页
电子商务课件网络信息检索_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子商务课件网络信息检索第1页,共55页,2023年,2月20日,星期一本章内容搜索引擎原理和概况2门户网站和看不见的网站6网络信息检索原理31网页搜索引擎简介33网页搜索引擎使用方法34P2P搜索引擎使用方法35第2页,共55页,2023年,2月20日,星期一第一节

信息检索原理:

关键词匹配原则第3页,共55页,2023年,2月20日,星期一1、从“图灵实验”说起

大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。第4页,共55页,2023年,2月20日,星期一2、计算机检索的奥妙:关键词匹配计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢?原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。第5页,共55页,2023年,2月20日,星期一广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。

狭义的信息检索:一个匹配(Match)过程

即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。3、什么是信息检索?第6页,共55页,2023年,2月20日,星期一存储检索原始文献加工整理数据库提问检索输出“爱因斯坦论文”“论文”“爱因斯坦”“论文”“爱因斯坦”第7页,共55页,2023年,2月20日,星期一4、信息检索原理检索提问式信息的选择与收集信息特征标识语言检索工具匹配检索结果信息源用户信息需求检索提问数据库第8页,共55页,2023年,2月20日,星期一What?

Where?

How?5、信息检索的要领第9页,共55页,2023年,2月20日,星期一6、信息检索类型依信息存储和检索的方式手工检索(ManualRetrieval)

也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索(Camputer-basedRetrieval)

也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。第10页,共55页,2023年,2月20日,星期一7、主要计算机检索系统类型检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。联机检索(onlinesearch)脱机检索(offlinesearch)光盘检索(CDsearch)网络检索(Internet/Websearch)全球数字图书馆系统(digitalglobalsystem)第11页,共55页,2023年,2月20日,星期一8、“关键词原则”是信息检索的根本原则四次文献三大系列中文网站两类搜索引擎Keyword原则第12页,共55页,2023年,2月20日,星期一第二节

搜索引擎的原理和发展概况第13页,共55页,2023年,2月20日,星期一1、网络信息资源种类WWW信息资源:web网页FTP信息资源:远程计算机上的文件夹Blog信息资源:博客、播客等等信息资源Telenet信息资源:直接调用远程主机BBS、新闻组信息资源:相当于论坛信息P2P信息资源:私人计算机上的信息资源数据库和收费网站:如三大库三大馆(三大中文期刊数据库—清华库、维普库、万方库三大中文数字图书馆—超星、方正、书生之家)第14页,共55页,2023年,2月20日,星期一2、网络信息资源的特点信息量大、传播广泛信息类型多样、内容丰富信息时效性强、变化频繁信息分散无序、但关联程度高信息缺乏管理、良莠不齐所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。第15页,共55页,2023年,2月20日,星期一搜索引擎SearchEngineInternet网络信息检索工具3、搜索引擎的概念第16页,共55页,2023年,2月20日,星期一4、搜索引擎的发展历史第17页,共55页,2023年,2月20日,星期一搜索引擎发展历史元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目录搜索Google1996Baidu1999……第三代搜索网页搜索第18页,共55页,2023年,2月20日,星期一搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利尔的McGillUniversity三名学生发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。第19页,共55页,2023年,2月20日,星期一由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。早期的另一个搜索工具Gopher第20页,共55页,2023年,2月20日,星期一1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和DavidFilo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!几乎成为20世纪90年代的因特网的代名词。第二代搜索:目录式搜索Yahoo!第21页,共55页,2023年,2月20日,星期一1995年,一种新的搜索引擎形式出现了——元搜索引擎(MetaSearchEngine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生EricSelberg

和OrenEtzioni的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。好听不好用的元搜索引擎第22页,共55页,2023年,2月20日,星期一第三代搜索:网页搜索它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能第23页,共55页,2023年,2月20日,星期一搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:爬行器(即机器人、蜘蛛等搜索程序)索引生成器(即网页索引数据库)查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。5、搜索引擎的工作原理第24页,共55页,2023年,2月20日,星期一搜索引擎的工作原理就像超市索引生成器(网页数据库)输入爬行器(蜘蛛)查询检索器(用户查询)因特网第25页,共55页,2023年,2月20日,星期一利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

第一步:从互联网上抓取网页因特网第26页,共55页,2023年,2月20日,星期一第二步:建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。第27页,共55页,2023年,2月20日,星期一第三步:检索界面的建立当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。第28页,共55页,2023年,2月20日,星期一每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。第29页,共55页,2023年,2月20日,星期一第30页,共55页,2023年,2月20日,星期一第三节

两类搜索引擎及

网页搜索引擎第31页,共55页,2023年,2月20日,星期一两类搜索引擎的代表2以FTP和P2P资源搜索为主的搜索引擎1以网页搜索为主的搜索引擎百度、Google、Yahoo等迅雷、天网Maze等第32页,共55页,2023年,2月20日,星期一1、Google搜索引擎

Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过80亿个网址的索引。“Google”来自于数学名词“Googol”,Googol表示一个1后面跟着100个零。GoogleInt.使用这一术语体现了公司整合网上海量信息的远大目标。地址:/第33页,共55页,2023年,2月20日,星期一Google简介:LarryPage,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学EtaKappaNu荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是TerryWinograd博士。Google就是由Page在斯坦福大学发起的研究项目转变而来的。第34页,共55页,2023年,2月20日,星期一Google简介:SergeyBrin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29岁的Sergey是美国国家科学基金会的奖学金得主。他在斯坦福

遇到了LarryPage并参与了后来成为

Google的研究项目。他们于1998年

共同创立了Google。第35页,共55页,2023年,2月20日,星期一注意用“

”与*功能第36页,共55页,2023年,2月20日,星期一第37页,共55页,2023年,2月20日,星期一谷歌其他功能第38页,共55页,2023年,2月20日,星期一2、百度(baidu)全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。地址:/第39页,共55页,2023年,2月20日,星期一第40页,共55页,2023年,2月20日,星期一一、概况百度(B,Inc)于1999年底成立于美国硅谷,2000年,落户中国。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。李彦宏第41页,共55页,2023年,2月20日,星期一“百度”二字取自辛弃疾的《青玉案》“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。第42页,共55页,2023年,2月20日,星期一第43页,共55页,2023年,2月20日,星期一©北京正望咨询有限公司第44页,共55页,2023年,2月20日,星期一百度VSGoogle第45页,共55页,2023年,2月20日,星期一

目标信息一定含有的关键字:用双引号连起来目标信息不能含有的关键字:用“-”去掉目标信息可能含有的关键字:用“OR”或空格连起来重要提示第46页,共55页,2023年,2月20日,星期一关于搜索的一些思想不是互联网上所有的信息都能被搜索引擎搜集。动手前多动脑。不要盲目信任搜索得到的信息。不要期望一次搜索解决问题。互联网上并没有所有的东西!第47页,共55页,2023年,2月20日,星期一附加资料Baidu帮助中心Google帮助中心搜索引擎列表GoogleTutorial中文搜索引擎指南网第48页,共55页,2023年,2月20日,星期一本章作业实验一搜索引擎的使用【实验目的】掌握百度、Google和天网搜索引擎的基本知识和使用方法【使用环境】连接到因特网的实验室局域网环境【实验内容】通过以下作业掌握搜索引擎的基本知识和使用方法

作业1下载PPT模板

作业2寻找蒙娜丽莎

第49页,共55页,2023年,2月20日,星期一作业1

下载PPT模板

Powerpoint是目前应用最广泛的多媒体制作工具。如果能找到一套适合自己需要的漂亮的PPT模板,则制作各类演示课件就会事半功倍。

本作业要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论