下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜索引擎:所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从 互联网检索出制定信息反馈给用户的一门检索技术。搜索弓摩依托于 多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据 处理技术、自然语言处理技术等”为信息检索用户提供快速、高相关 性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索 和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网 络使用环境。搜索引擎基本工作原理:搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发 现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检 索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文 档与查
2、询的相关度评价,对将要输出的结果进行排序,并将查询结果 返回给用户。工作原理:搜索弓摩为了以最快的速度得到搜索结果,它搜索的内容通常是 预先整理好的网页索引数据库。普通搜索,不能真正理解网页上的内 容,它只能机械地匹配网页上的文字。真正意义上的搜索引擎,通常 指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个 文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用 户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页 都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结 果将按照与搜索关键词的相关度高低,依次排列。典型的搜索引擎三 大模块组成:()信息采集模块信息
3、采集器是一个可以浏览网页的程序,被形容为网络爬虫。 它首先打开一个网页,然后把该网页的链接作为浏览的起始地址,把 被链接的网页获取过来,抽取网页中出现的链接,并通过一定算法决 定下一步要访问哪些链接。同时,信息采集器将已经访问过的URL 存储至怕己的网页列表并打上已搜索的标记。自动标引程序检查该网 页并为他创建一条索引记录,然后将该记录加入到整个查询表中。信 息收集器再以该网页到超链接为起点继续重复这一访问过程直至结 束。一般搜索引擎的采集器在搜索过程中只取链长比(超链接数目与 文档长度的比值)小于某一阈值的页面,数据采集于内容页面,不涉 及目录页面。在采集文档的同时记录各文档的地址信息、修改
4、时间、 文档长度等状态信息,用于站点资源的监视和资料库的更新。在采集 过程中还可以构造适当的启发策略,指导采集器的搜索路径和采集范 围,减少文档采集的盲目性。(二)查询表模块查询表模块是一个全文索引数据库,他通过分析网页,排除 HTML等语言的标记符号,将出现的所有字或词抽取出来,并记录每 个字词出现的网址及相应位置(比如是出现在网页标题中,还是出现 在简介或正文中),最后将这些数据存入查询表,成为直接提供给用 户搜索的数据库。(三)检索模块检索模块是实现检索功能的程序,其作用是将用户输入的检索表 达式拆分成具有检索意义的字或词,再访问查询表,通过一定的匹配 算法获得相应的检索结果。返回的结果
5、一般根据词频和网页链接中反 映的信息建立统计模型,按相关度由高到低的顺序输出。工作机制:搜索引擎的工作机制就是采用高效的蜘蛛程序,从指定URL开 始顺着网页上的超链接,采用深度优先算法或广度优先算法对整个 Internet进行遍历,将网页信息抓取到本地数据库。然后使用索引器 对数据库中的重要信息单元,如标题,关键字及摘要等或者全文进行 索引,以供查询导航。最后,检索器将用户通过浏览器提交的查询请 求与索引数据库中的信息以某种检索技术进行匹配,再将检索结果按 某种排序方法返回给用户。工作擁:(1) 在互联中发现、搜集网页信息搜索弓摩首先负责数据采集,即按照一定的方式要求对网络上 的WWW站点进行
6、搜集,并把所获得的信息保存下来以备建立索引 库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其 他服务器要做的还有进行计算/分配/储存用户习惯等等。(2) 对信息进行提取和组织建立索引库首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照 网页中的字符特性予以分类,建立搜索原则,举例来说,对于”软件” 这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来 调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断 字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些 方式往往影响着未来搜索结果。接下来是数据组织,搜索引擎负责形 成规范的索引数据库或便于浏览的层次型分类目录结构,也就是计算 网页等级,这个原则特别是在Google非常重要,一个接受很多链接 的网页,搜索弓摩必然在所有的网页当中将这些连接多的网页提升上 来。(3) 在索引数据库中搜索排序由检索器根据用户输入的查询关键字,在索引库中快速检出文档, 进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查 询结果返回给用户。搜索引擎负责帮助用户用一定的方式检索索引数 据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户 相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 20464-2024农作物种子标签通则
- 四下18课知识课件
- 2024年度工程人才引进居间合同2篇
- 二零二四年度广告代理合同服务内容拓展协议2篇
- 4.1科学探究力的合成课件高一上学期物理
- 二零二四年度福州市外贸公司业务员劳动合同2篇
- 2024版技术咨询合同条款
- 人教版九年级化学第二单元复习课件
- 二零二四年度物业管理服务合同:物业公司管理与服务质量保证3篇
- 诊所合同模板
- 不同结构游戏材料与幼儿游戏行为的关系研究
- 北京市海淀区第二实验小学2022-2023学年度五年级上学期期末诊断数学试题
- 教科版五年级科学上册第三单元测试卷附答案
- 电梯高处施工方案
- 心理团体辅导的保密协议
- 高血压病教学查房教案
- 东方绿洲军训日记500字(八篇)
- 医院护理培训课件:《根本原因分析-RCA-从错误中学习》
- 门静脉高压个案护理查房
- 临床医学概论题库(含答案)
- Flash动画技术入门学习通章节答案期末考试题库2023年
评论
0/150
提交评论