版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章Internet信息检索
1
网络信息检索的一般方法
2网络信息检索工具
3相关网络信息检索技术
4搜索引擎及其原理1网络信息检索的一般方法1.1浏览
1.2通过网络资源指南来查找信息
1.3利用搜索引擎进行信息检索
1.1浏览
(1)偶然发现。这是在因特网上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,其不可预见性、偶然性使检索过程具有某种探索宝藏的意味,也许会充满乐趣,但也可能一无所获。(2)顺“链”而行。指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。有些类似于传统文献检索中的“追溯检索”,即根据文献后所附的参考文献目录去追溯相关文献,一轮一轮地不断扩大检索范围。这种方式可以在很短的时间内获得大量相关信息,但也有可能在“顺链而行”中偏离了检索目标,或迷失于网络信息空间中,而且找到合适的检索起点也并不容易。1.2通过网络资源指南来查找信息为了对因特网这个无序的信息世界加以组织、管理,使大量有价值的信息纳入一个有序的组织体系,专业人员做了许多努力和开发,比如基于专业人员对网络信息资源的产生、传递与利用机制的广泛了解和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握而开发可供浏览和检索的网络资源主题指南。1.3利用搜索引擎进行信息检索这是一种较为常规的、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持布尔检索、词组检索、截词检索、字段检索等功能。2网络信息检索工具
网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。近来较为流行的Web检索工具如Yahoo、百度、Google等。网络信息检索工具一般是由自动索引程序、数据库和检索代理软件组成的。自动索引程序现在大多数网络检索工具都是采用一种称为Robot(又称为:Spider,Worms,Wanders等)的网络自动跟踪索引程序。它实际上是一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件。不同的自动索引软件所采用的标引、搜索策略不同,自动索引软件搜寻、标引网页的方式对信息检索的质量有直接影响。数据库自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具提供检索服务的基础。不同网络检索工具的数据库收录范围不一样,有的收录Web及图像、有的收录WEB、FTP、Flash、新闻组等资源类型。不同网络检索工具的标引方式也不同,有的索引软件标引主页全文,有些则只标引主页的地址、标题、责任者、特定的段落和关键词。检索代理软件当用户提出查询要求时,由检索软件负责代理用户在数据库中进行检索。不同网络检索工具所采用的检索机制、算法有所不同,布尔逻辑检索是较普遍采用的一种机制。即按照检索项间的逻辑关系使用布尔逻辑符AND,OR,NOT等来组合检索项,形成检索式来提交查询。除了布尔检索外,许多网络检索工具还提供了一些其他的检索机制如:截词检索、概念检索、模糊检索、词组检索、字段检索、位置检索等。3相关网络信息检索技术涉及到网络信息检索的技术概念比较多,在这里介绍一些应用比较广的概念。分类检索、关键词检索、布尔逻辑检索、词组检索、加/减号检索、截词检索、字段检索、自然语言检索、位置检索、多语种检索、区分大小写的检索、过滤检索、多媒体检索。分类检索分类检索多用于目录搜索引擎。用户无需输入任何文字,只要根据目录搜索引擎提供的主题分类目录,层层点击进入,便会查找到用户所需的网络信息资源。关键词检索用户只需在搜索引擎的提问框中输入合适的提问关键词,按回车键之后,搜索引擎便会将与该提问关键词匹配的结果反馈于你。大多数的搜索引擎是以模糊检索原理实现关键词检索功能。布尔逻辑检索布尔逻辑检索一般指“与”、“或”、“非”三种运算:逻辑“与”的布尔运算符为“AND”、“and”,有时也可用“&”符号表示。(交集)逻辑“或”的布尔运算符为“OR”、“or”,有时也可用“|”符号表示。(并集)逻辑“非”的布尔运算符为“NOT”、“not”,有时也可用“!”符号表示。(差集)词组检索词组检索也称为短语检索,或字符串检索。它是将一个词组或短语用双引号“”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。加/减号检索加/减号检索是搜索引擎支持的常规功能,即在检索词前置“+”/“-”号,其作用相当于布尔逻辑“与”/“非”运算。截词检索在搜索引擎中,截词检索多为前方一致检索。截词符多采用通配符“*”,可以用它代表多个字符。因此,截词检索有时也称为通配符检索。举例:wom*n,可代表woman、women等。字段检索字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的检索方法,多以字段限定方式实现。搜索引擎常用的字段有:Title/t、Subject、Text、host(主机)、URL/u、domain(域名)、link(链接)等。自然语言检索自然语言检索就是一种直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。位置检索位置检索是指允许指定两个单词之间的词序和词距的检索。词序指单词之间前后顺序,词距指二个单词之间间隔单词数。其操作符多为“near/n”,n为数值,意为检索单词间距最大不超过几个单词。举例:informationnear/5retrieval多语种检索即提供多语种的检索环境供检索者选择,系统按指定的语种进行检索并输出检索结果。目前,有的搜索引擎提供多达30个自然语种的检索选择。此功能尤其适合于不同国家的检索者检索不同语种的网络资源。区分大小写的检索它主要是针对检索词中含有人名、地名等专有名词的。在区分大小写的情况下,大写检索词能被当作专有名词看待。而在不区分大小写的情况下,则无法区分该检索词是指专有名词还是普通词,从而在一定程度上会影响检索结果的准确性。过滤检索在检索中自动将一些网站信息过滤去掉,比如一些内容不健康的黄色网站信息,影响国家安全的政治反动网站信息等,这种检索服务技术可以避免未成年人上网时受到不健康影响。多媒体检索多媒体检索包括基于描述的多媒体检索和基于内容的多媒体检索。基于描述的多媒体检索就是用一个关键词来描述所要查找的图片或是音乐,比如可以用“刘德华”这个词来查找他的写真图片,也可以在MP3搜索引擎中查找他的相关音乐。基于内容的多媒体检索就是用一些视觉特征来查找多媒体信息,这些视觉特征包括颜色、形状、纹理等。(有待实现,涉及采集设备、算法等)4搜索引擎及其原理搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。【历史】
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。从用户角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。【组成】搜索引擎一般由四个部分组成:①搜索器:其功能是在互联网中漫游,发现和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。【著名搜索引擎网址】1、百度http:///
2、维基百科http://
3、雅虎http:///
4、Googlehttp:///
5、网易有道http:///
6、北京大学天网中英文搜索引擎http:///
7、搜狐http:///dir/
8、新浪网http:///
9、TOM搜索引擎http:///
10、21CN.COM/
11、搜一下http://
12、飞客BT搜索引擎http:///
13、Souyohttp:///
14、雅虎易搜http:///
15、麦布搜索引擎http:///
16、中华搜索http:///
17、酷亿
18、搜搜http:///
19、易搜查http://
20、北京搜索http:///
21、比比猫http:///
【工作原理】
1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 休闲农庄租赁合同草稿
- 防水工程咨询协议
- 施工升降机安全检测合同样本
- 保安押运服务:汽车租赁合同协议
- 2024至2030年压电涡街流量变送器项目投资价值分析报告
- 酒店式公寓外墙涂装合同
- 2024至2030年乾坤刀项目投资价值分析报告
- 2024至2030年业务密码安全系统项目投资价值分析报告
- 2024年工业用橡胶制品:胶管合作协议书
- 2024年防滑垫网布项目可行性研究报告
- “同享阳光快乐成长”心理健康特色项目
- LG plc 应用指令手册
- 鹬蚌相争课件
- PFMEA制程潜在失效模式及后果分析
- PMC(计划物控)面试经典笔试试卷及答案
- 契诃夫苦恼阅读训练及答案
- 抛石施工方案
- 食品安全约谈通知书
- 舒尔特方格A4直接打印版
- 淬火感应器的选用设计与制造
- cpvc管配方及工艺
评论
0/150
提交评论