第五章-网络信息检索概论课件_第1页
第五章-网络信息检索概论课件_第2页
第五章-网络信息检索概论课件_第3页
第五章-网络信息检索概论课件_第4页
第五章-网络信息检索概论课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章网络信息检索概论

Internet

网络信息资源网络搜索引擎

网络信息检索

1感谢你的观看2019年5月16第五章网络信息检索概论Internet1感谢你的观第一节、Internet

Internet的进入方式

IP地址

信息高速公路2感谢你的观看2019年5月16第一节、Internet

信息高速公路2感谢你的观看2019(一)Internet的进入方式3感谢你的观看2019年5月16(一)Internet的进入方式3感谢你的观看2019年5月(二)IP地址识别主机的身份证,唯一性形式:四组小于256的十进制表示。如:8

字符型的IP地址,即域名(DN),格式如:

主机名机构名网络类型最高域名最高层域名有两种类型:机构名称——最高层域名为3个以上字母。这些字母标明机构的类型。地理名称——高层域名为2个字母。这两个字母的代码确定了某个国家或地区。例如:cn-中国,ca-加拿大,DN与IP一般是一一对应,通过Internet上域名服务器可自动将DN转换成IP。4感谢你的观看2019年5月16(二)IP地址识别主机的身份证,唯一性4感谢你的观看2019美国的顶层域按机构性质分为:5感谢你的观看2019年5月16美国的顶层域按机构性质分为:5感谢你的观看2019年5月16此外,有关组织于1997年建议增加7个顶级域名,对有关域名空间作了进一步细分,以消除com域中出现的拥挤现象。所建议的顶级域名是:info(提供信息服务的组织),web(与WWW特别相关的组织),firm(商业公司),arts(文化和娱乐组织),nom(个体或个人),rec(强调消遣娱乐的组织),store(商业销售企业)。6感谢你的观看2019年5月16此外,有关组织于1997年建议增加7个顶级域名,对有关域名空第二节网络信息资源网络信息资源的含义网络信息资源的类型7感谢你的观看2019年5月16第二节网络信息资源网络信息资源的含义7感谢你的观看201一、网络信息资源的含义网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。有人认为是:通过计算机网络可以利用的各种信息资源的总和。8感谢你的观看2019年5月16一、网络信息资源的含义网络信息资源是指信息资源以电子数据的形二、网络信息资源的类型

1、按所采用的传输协议分万维网(worldwideweb,简称WWW或Web)信息资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息Telnet信息资源:telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。FTP信息资源:它使用ftp(filetransferprotocol)协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件.用户服务组信息资源:包括新闻组,电子邮件组等。Gopher信息资源:

9感谢你的观看2019年5月16二、网络信息资源的类型

1、按所采用的传输协议分万维网(wo2、按文献类型分电子报纸电子图书电子期刊动态信息如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。书目数据库,参考数据库等等10感谢你的观看2019年5月162、按文献类型分电子报纸10感谢你的观看2019年5月163、按媒体性质分文本信息如数据、论文、书刊、目录和数据库、广告。图形图像如图表、图形、影像、影视。声音包括各种网上发表的演讲、报告及音乐信息。软件如免费软件、赠送软件、商品软件及软件升级版本。11感谢你的观看2019年5月163、按媒体性质分文本信息如数据、论文、书刊、目录和数据库4、按信息内容的表现形式和内容分

全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等;事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息:主要是指各种统计数据、实验数据;数据库类信息:如DIALOG,万方等,是传统数据库的网络化;微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型:投资行情和分析,图形图象,影视广告等。12感谢你的观看2019年5月164、按信息内容的表现形式和内容分全文型信息:它指直接在第三节网络搜索引擎网络搜索引擎的类型检索结果的排序方法国内外主要搜索引擎简介搜索引擎的语法规则搜索引擎的检索功能搜索引擎的检索方法13感谢你的观看2019年5月16第三节网络搜索引擎网络搜索引擎的类型13感谢你的观看2全文索引,元搜索引擎,目录索引,垂直搜索引擎,集合式搜索引擎,门户搜索引擎与免费链接列表,等等。仅介绍前面两种主要的搜索引擎。一、搜索引擎的主要类型14感谢你的观看2019年5月16全文索引,一、搜索引擎的主要类型14感谢你的观看2019年51、独立(全文)搜索引擎:允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,Google,

WEB信息资源用户系统信息采集模块信息检索模块索引数据库信息标引模块15感谢你的观看2019年5月161、独立(全文)搜索引擎:允许用户递交查询,检索出与查询相关2、元搜索引擎16感谢你的观看2019年5月162、元搜索引擎16感谢你的观看2019年5月1617感谢你的观看2019年5月1617感谢你的观看2019年5月16二、检索结果的排序方法(1)自然排名——就是按相关度排名原则,对应的排名结果称“自然排名”。确定相关度的方法有:A、概率方法:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高);B、位置方法:根据关键词在文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高);C、网页被引用次数

google主要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。D、被匹配提问词的数量如果提问式中包含3个单词,那么全部包含3个单词的记录要比只包含2个或1个单词的记录分值要高。E、词的邻近度如果两个词紧挨着出现要比分开出现的分值高。18感谢你的观看2019年5月16二、检索结果的排序方法(1)自然排名——就是按相关度排名原则(2)付费排名近年来搜索引擎公司推出了一种“付费搜索”业务,打破了自然排名原则,把搜索引擎检索结果网页(searchengineresultpage,SERP)排名位置拍卖给从事网络推广的广告主。这些广告可以按“每次浏览”或“每次点击”等原则出价,出价越高则其结果在SERP中的排名越高,这一原则称为“竞价排名”原则,对应的排名结果叫“付费排名”,19感谢你的观看2019年5月16(2)付费排名近年来搜索引擎公司推出了一种“付费搜索”业务,三、常用中外搜索引擎简介常用中文独立搜索引擎(P76-)常用外文独立搜索引擎(P79-)常用中外元搜索引擎(P86-)20感谢你的观看2019年5月16三、常用中外搜索引擎简介常用中文独立搜索引擎(P76-)20

四、搜索引擎的语法规则(P1)(1)使用逻辑算符:AND、OR、NOT:如“计算机营销状况,但对IBM的情况不关心”,检索式为:“计算机营销NOTIBM”

。(2)使用“+”、“-”或should,shouldnot、must等:用来强调某个词汇必须(可能)出现或者不出现在搜索结果中,如查找“联想公司的计算机产品,但不是天琴系列”,检索式是:“计算机AND(+联想-天琴)”21感谢你的观看2019年5月16四、搜索引擎的语法规则(P1)(1)使用逻辑算符:A四、搜索引擎的语法规则(P2)(3)使用NEAR:其控制语句可以为NEAR/n(n>1),用于查找在一定范围n内同时出现关键字的文献,它既可以统计关键字出现的频率,还可检查关键字相隔距离,如:输入GoodNEAR/10Better。(4)使用连字符:e-business(电子商务22感谢你的观看2019年5月16四、搜索引擎的语法规则(P2)(3)使用NEAR:其控制语句四、搜索引擎的语法规则(P3)(5)使用逗号、括号、引号:一般情况下:逗号的作用和OR的作用一样;括号的作用和数学中的作用一样,如:计算机AND(杂志OR游戏),查出的是“计算机杂志”或“计算机游戏”;引号是告诉搜索引擎将几个关键字作为一个完整的组合字符串进行搜索。如:查找电子杂志方面的文献,可输入“electronicmagazine”(带引号),若不加引号,两字间的空格一般均作为“OR”解释。23感谢你的观看2019年5月16四、搜索引擎的语法规则(P3)(5)使用逗号、括号、引号:一四、搜索引擎的语法规则(P4)(6)使用通配符“*”:通配符可以用来指代词汇的某一部分。如com*,可以代表computer,communication,company等

24感谢你的观看2019年5月16四、搜索引擎的语法规则(P4)(6)使用通配符“*”:通配五、搜索引擎的检索功能(p1)1.布尔逻辑检索

几乎所有的搜索引擎都具有布尔逻辑功能。2.加权检索“+”号或选择“mustcontain”,:表示某个关键词“一定要出现”或“必须包含”在检索结果中;“-”号或选择“mustnotcontain”,“shouldnot”:表示某个关键词“一定不能出现”或“可能不包含”在检索结果中;不加符号或选择“shouldcontain”,“should”,表示某个关键词“可以出现”或“可以包含”在检索结果中。

3.词语检索

在一串词后加双引号(“”)或用连字符(-)连接,限定检索结果中的词语必须精确匹配。4.截词检索

25感谢你的观看2019年5月16五、搜索引擎的检索功能(p1)1.布尔逻辑检索几乎所有的搜五、搜索引擎的检索功能(P2)5.字段限定检索

如“titil:”、“abstract:”、“keyword:“、“主机名限制(host:)、超链限制(anchor:)、域名限制(domain:)、URL限制(url:)、链接限制(link:)、网址限制(site:)、新闻组限制(newsgroups:)、E-mail限制(from:)等。

26感谢你的观看2019年5月16五、搜索引擎的检索功能(P2)5.字段限定检索26感谢你五、搜索引擎的检索功能(P3)6.位置检索部分搜索引擎支持一定的位置检索功能。如AltaVista:能提供位置检索,但目前只有near一种.WebCrawler:如输入Anear3/B,表示两个词之间最多可有3个其它词。27感谢你的观看2019年5月16五、搜索引擎的检索功能(P3)6.位置检索部分搜索引擎支五、搜索引擎的检索功能(P4)7.字母大小写检索有些系统区分字母大小写,如AltaVista,Infoseek;有些系统不区分大小写,如Yahoo!、新浪等。有些系统对名词检索有特殊规定。如InfoSeek要求对人名或地名首字母大写。8.指定语种检索

等等28感谢你的观看2019年5月16五、搜索引擎的检索功能(P4)7.字母大小写检索有些系统六、搜索引擎的主要检索方法

分类检索基本检索(简单检索)高级检索地区检索29感谢你的观看2019年5月16六、搜索引擎的主要检索方法分类检索29感谢你的观看20191、分类检索每一个搜索引擎都收录了大量的网址地址(中文搜索引擎以中文信息为主,外文搜索引擎以外文信息为主),大多数搜索引擎在其首页都提供分类范畴表(或分类目录),有的还分好几级类目,只需用鼠标点击选中的主题,即可进入下一级类目,或直接显示相关的站点或文献名称。

30感谢你的观看2019年5月161、分类检索每一个搜索引擎都收录了大量的网址地址(中文搜索引如:分类栏目31感谢你的观看2019年5月16如:分类栏目31感谢你的观看2019年5月162、基本检索(简单检索)它是索引式搜索引擎,用户在搜索框中输入检索词,搜索引擎会返回一组指向相关站点的超级链接。它往往对检索提问式的构造要求较低,比较直观,检索过程相对简单。32感谢你的观看2019年5月162、基本检索(简单检索)它是索引式搜索引擎,用户在搜索框中输检索结果657000033感谢你的观看2019年5月16检索结果657000033感谢你的观看2019年5月163、高级检索高级检索:往往需要用户按照搜索引擎检索的语法规则,自行构造完整的检索式(在基本检索界面),或将检索词输入到相应的检索框中。

(在高级检索界面)。高级检索界面:34感谢你的观看2019年5月163、高级检索高级检索:往往需要用户按照搜索引擎检索的语法规则如:“公务员考试模拟试题”

公务员考试模拟试题输入检索式输入检索词35感谢你的观看2019年5月16如:“公务员考试模拟试题”公务员考试模拟试题输入检索式输入两种输入方式的检索结果11000036感谢你的观看2019年5月16两种输入方式的检索结果11000036感谢你的观看2019年又如:在标题中检索“完整关键词”104000Title:“公务员考试模拟试题”37感谢你的观看2019年5月16又如:在标题中检索“完整关键词”104000Title:“又如:google38感谢你的观看2019年5月16又如:google38感谢你的观看2019年5月164、地区检索A.通过“虚拟旅游者”检索信息“虚拟旅游者”(TheVirtualTourist)是按地区访问WWW的超文本页面,不便提供文字说明,配备含链接的世界地图。通过使用鼠标点击世界地图的不同部分,用户可能非常直观地进行按地区检索信息。它的URL地址为:http://WWW./webmap/。39感谢你的观看2019年5月164、地区检索A.通过“虚拟旅游者”检索信息“虚拟旅40感谢你的观看2019年5月1640感谢你的观看2019年5月16B.通过Gopher检索信息许多Gopher服务器都提供按地区检索信息的功能。可以通过URL地址的Gopher服务器按地区检索信息:C.用搜索引擎提供的地区(图)搜索检索如google提供的“地图”查询,中搜的地图搜索等等。。41感谢你的观看2019年5月16B.通过Gopher检索信息许多Gopher服务器都提供第四节网络信息检索

网络信息检索概念网络信息检索工具的类型网络信息检索技巧42感谢你的观看2019年5月16第四节网络信息检索网络信息检索概念42感谢你的观看2一、网络信息检索概念网络信息检索——指网络信息按一定的方式存储起来,用科学的方法,利用检索工具,为用户检索、揭示、传递知识和信息的过程。广义的网络信息检索包括网络信息整序和搜寻,整序是对网上的知识和信息进行加工,按学科、主题或字顺等方式排序,形成检索工具或检索系统;狭义的就是网络信息搜寻,指利用相应的检索工具或检索系统,运用科学的方法,从有序的信息集合中查出所需信息的过程。43感谢你的观看2019年5月16一、网络信息检索概念网络信息检索——指网络信息按一定的方式存二、网络信息检索工具的类型按不同方式可分为不同类型:1、按检索资源的类型分:(1)非Web资源检索工具即以非Web资源(如:FTP,Gopher,Telnet,Usenet等)为检索对象的检索工具,如:Archie,Veronica,WAIS等。(2)Web资源检索工具即以Web资源为主要检索对象,又以Web形式提供的检索工具。44感谢你的观看2019年5月16二、网络信息检索工具的类型按不同方式可分为不同类型:44感谢2、按检索时所包括的检索工具数量分①独立型(单一)搜索引擎:它拥有自己的索引数据库,提供基于自身索引库的查询,如Yahoo!搜狐、google等②集合型搜索引擎(元搜索引擎):它没有自己的索引数据库,只提供集成的查询界面,典型的有:3721、Metasearch,MetaCrawler,Bytesearch等.45感谢你的观看2019年5月162、按检索时所包括的检索工具数量分①独立型(单一)搜索引擎3、按索引方式分目录型搜索引擎:主要采用人工或机器搜索信息,由人工对信息进行分类加工整理,建立分类导航或分类编排网站目录,提供分类检索的引擎,如搜狐、全文型搜索引擎:又称索引型搜索引擎,由索引软件自动搜索信息,建立网页信息索引库提供全文检索,如百度,google等46感谢你的观看2019年5月163、按索引方式分目录型搜索引擎:主要采用人工或机器搜索信息,三、网络搜索引擎的检索技巧限定在网页标题中——intitle,title,或t:把查询内容中特别关键的部分,用“intitle:”领起来。

例如,找林青霞的写真,可以写成:写真intitle:林青霞47感谢你的观看2019年5月16三、网络搜索引擎的检索技巧限定在网页标题中——intitle2、限定在特定站点中——site

格式是:“查询词site:站点域名”。如,查“sina中旅游方面的资料”,可以输入:旅游site:注意,“site:”后面跟的站点域名,不要带http://.3、限定在url链接中——inurl

格式是“inurl:关键词”或:“url:关键词”。如,找关于“photoshop的使用技巧”,可以用:photoshopinurl:jiqiao,查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意:intitle:site:inurl:和后面所跟的关键词(或站点)不要有空格。48感谢你的观看2019年5月162、限定在特定站点中——site

格式是:“查询词site4.精确匹配——双引号和书名号A、双引号——可以达到让搜索引擎不拆分查询词。

如,搜索“贵州大学农学院”,B、书名号:一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。通常用于查名字很通俗和常用的电影或者小说。如,查电影《手机》,49感谢你的观看2019年5月164.精确匹配——双引号和书名号49感谢你的观看2019年5月50感谢你的观看2019年5月1650感谢你的观看2019年5月165.根据特征选择查询词如(1)找论文查找“烟草栽培方面的期刊论文”1)输入:主题词+文档格式(PDF,DOC等),如filetype:pdftitle:("烟草栽培")2)由于一般的论文,都有一定的格式,除了标题、正文、附录,还需有论文关键词,摘要等。其中,“关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。因此,可以输入:关键词摘要title:烟草栽培3)直接用搜索引擎提供的“学术搜索”或“论文搜索”51感谢你的观看2019年5月165.根据特征选择查询词如(1)找论文51感谢你的观看2019(2)找范文找市场调查报告范文:市场调查报告的特点。一是网页标题中通常会有“xxxx调查报告”的字样;二是在正文中,通常会有几个特征词,如“市场”、“需求”、“消费”等。于是,利用intitle即可以找到类似范文。例:市场消费需求intitle:调查报告找申请书范文:如入党申请书。比如入党申请书的最明显的特征词就是“我志愿加入中国共产党”。例:我志愿加入中国共产党title:入党申请书找工作总结范文:工作总结,总会写的象八股文一样,“一、二、三”,“第一,第二,第三”,“首先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论