![文献检索第二讲-基于搜索引擎的信息检索20_第1页](http://file4.renrendoc.com/view/a28e65222c5d71e09972fd88c8221642/a28e65222c5d71e09972fd88c82216421.gif)
![文献检索第二讲-基于搜索引擎的信息检索20_第2页](http://file4.renrendoc.com/view/a28e65222c5d71e09972fd88c8221642/a28e65222c5d71e09972fd88c82216422.gif)
![文献检索第二讲-基于搜索引擎的信息检索20_第3页](http://file4.renrendoc.com/view/a28e65222c5d71e09972fd88c8221642/a28e65222c5d71e09972fd88c82216423.gif)
![文献检索第二讲-基于搜索引擎的信息检索20_第4页](http://file4.renrendoc.com/view/a28e65222c5d71e09972fd88c8221642/a28e65222c5d71e09972fd88c82216424.gif)
![文献检索第二讲-基于搜索引擎的信息检索20_第5页](http://file4.renrendoc.com/view/a28e65222c5d71e09972fd88c8221642/a28e65222c5d71e09972fd88c82216425.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲搜索引擎搜索引擎概述搜索器索引器检索器网页排序技术搜索引擎的专门应用智能化搜索引擎开源搜索引擎网络搜索市场的发展最初互联网上的信息量较少,内容较简单,用户通过访问网页即可获取信息;随着网站数量和类别的增多,用户对信息的需求更加多样化,门户网站成为了用户的上网入口,它通过分类目录导航的形式对用户进行分流;随着网络信息爆炸式增长,用户需求更加具体化和细分化,搜索引擎开始出现,越来越多的用户利用搜索引擎查找信息。搜索引擎用户搜索频率
搜索频率的变化将在很大程度上显示网民在网络生活中对搜索的依赖程度。搜索引擎作为互联网海量信息的主要检索工具,成为人们获取信息的重要途径和入口,用户粘性较高。中国各搜索品牌的渗透率
用户使用搜索引擎搜索的内容
影视、视频、游戏搜索的使用需求增长较快,这一现象说明了人们消费影视、视频媒体的习惯正在快速发生改变,而音频、视频、图像搜索等成为未来搜索技术发展的主流。生活信息、商业信息、专业工具、知识信息等相关价值型搜索服务的使用率下降。价值型搜索相关的信息内容和搜索服务不到位,信息精准度无法满足用户的使用需求。首选用户使用的搜索功能
搜索得不到理想结果时的
行为选择
一方面,一次搜索失败后放弃搜索的用户减少,用户对搜索引擎依赖度进一步增强;另一方面,用户对搜索引擎的使用尝试更加多元化,这也为搜索引擎的技术发展提出更高的要求。
各首选搜索品牌主要功能的用户满意度分析
百度和谷歌相比,谷歌首先首选用户对其使用的谷歌搜索功能的评价中,网页搜索、视频搜索、地图搜索的满意度最高,而音乐搜索和新闻搜索的用户满意度评价低;根据用户的使用评价,改进技术,提高各项功能的服务水平,为用户提供更好的搜索服务体验,是增强用户粘性,获得用户支持的关键。发展视频、影视搜索的需求和使用增长快速,人们消费影视、视频媒体的习惯正在快速发生改变,未来搜索技术发展的重点突破领域之一。生活搜索、专业工具搜索、知识搜索等领域的信息内容和搜索服务不到位,信息内容匮乏无法满足用户的使用需求,信息的权威性、准确性导致用户信任基础的欠缺等,都成为搜索引擎价值型搜索的阻碍因素。因此,价值型搜索服务的数量和质量都有待于进一步提高。
搜索引擎的含义狭义:搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。即基于某种技术在整个网上自动执行网页全文搜索的网上指南工具。广义:搜索引擎是互联网上的一类网站,这类网站与一般的网站不同的是它是提供查询、搜索的网站,或称查询站点、导航站点,即互联网上具有检索功能的网页。搜索引擎:是以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎的种类搜索引擎分为两种:分类目录型:将信息资源形成目录一样的分类结构目录,用户通过逐级浏览目录来找寻信息基于关键词:用户可以用逻辑组合的方式输入各种关键词进行检索,搜索引擎反馈给用户的是网址链接发展趋势:基于关键字的检索为主、分类目录型检索为辅。搜索引擎的原理从互联网上抓取网页建立索引数据库在索引数据库中搜索排序搜索引擎与全文检索的区别数据量:搜索引擎的数据量为几十亿网页内容相关性:搜索引擎根据网页被链接次数作为重要性评判标准安全性:搜索引擎的数据都是网上的公开信息个性化和智能化:搜索引擎数据量和客户量巨大,且技术难点多,在智能化和个性化方面发展难度大搜索引擎的分类机器人搜索引擎目录式搜索引擎元搜索引擎机器人搜索引擎也叫全文搜索引擎通过自动搜索工具网络蜘蛛-spider采集网页,并提取网页信息(以网页文字为主),存储在数据库中,检索与用户查询条件匹配的相关记录,然后按照一定的排列顺序将结果返回给用户分为两种拥有自己的检索程序租用其他引擎的数据库功能
多样的范围限制功能“类似网页”检索功能“手气不错”检索功能检索词纠错功能
可以支持HTML及13种非HTML文件的搜索,如PDF、DOC、PPT、XLS、RTF、SWF、PS等。提供博客搜索;地图搜索;生活搜索;图片搜索;图书搜索;网页搜索;学术搜索;手机服务;翻译;资源共享、实验室等服务。特色
检索途径有网页、mp3、地图、视频、图片、百度知道、博客、教育网站、政府网站、统计数据、专利等,提供基本检索和高级检索两种检索方式,支持布尔关系“或”(用“|”表示)、“非”(用“—”表示),可将检索范围限制在指定的网站、标题、URL和文档类型。此外,高级检索可以定义要搜索网页的时间、地区、语言、关键词出现的位置以及关键词之间的逻辑关系等。另外,百度还提供手机搜索、硬盘搜索、hao123等服务。目录式搜索引擎其数据库依靠专职编辑或志愿人员建立起来。用户界面基本上都是分级结构。目录式搜索引擎只在已保存的站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中去。优点:结果更具有参考价值缺点:成本较高、信息涵盖量不大、更新能力有限元搜索引擎本身并没有存放网页信息的数据库,只是一种搜索引擎代理。优点:实现起来比较简单局限性:只能访问少数几个搜索引擎通常不支持这些搜索引擎的高级检索功能处理逻辑查询时常常会出现错误最早的多元搜索引擎之一,最初由华盛顿大学创建,现属于Go2Net网络公司。能自动使用单个检索工具检索,然后将检索结果汇集起来,去重后显示给用户不同类型搜索引擎比较目录式搜索引擎虽有成本高、信息量少的缺点,但它的信息准确这一优点是另两者无法比拟的,故在一定的领域,一定的时间,它仍会被使用机器人搜索引擎是当前各种搜索引擎的主流。随着网络信息量的不断增加,结合目录式搜索引擎、机器人搜索引擎的优势,以元搜索引擎核心的多层代理搜索引擎是搜索引擎的发展方向。搜索引擎的功能收集信息,建立索引数据库,自动跟踪信息源变动,更新索引记录,维护数据库。提供网络的导航与检索服务。
提供多种信息服务。
搜索引擎搜索引擎系统结构URL服务器爬行器存储服务器URL解析器索引器锚库资源库桶桶桶桶标引器分类器词典库链接库页级别评定器查询器搜索引擎的组成1搜索器:在互联网中发现和搜集信息索引器:理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表检索器:根据用户输入的查询关键字在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制搜索引擎的组成2用户接口:接收用户输入的查询字段、显示查询结果、提供用户相关性反馈机制结果存放:只将所有结果中匹配度最高的头100条结果的ID放到结果集缓存中并返回日志模块:用于跟踪用户行为,以提高搜索引擎的服务质量eg.查询分布统计搜索引擎工作步骤Robot从起始URL列表中取出URL并从网上读取其内容从每一个文档中提取某些信息并放入索引数据库中从文档中提取指向其他文档的URL,并加入到URL列表中重复上述3个步骤,直到再没有新的URL发现或超出了某些限制给索引数据库加上查询接口,向网上用户发布搜索引擎检索流程分析索引关键词关键词转换成wordID查找标引库得到docID列表遍历文档列表计算文档等级结果按相关度排序组织结果返回找到一遍文档列表末尾?YYNN搜索引擎的数据存储页面数据数目非常多、大小变化很大、更新周期通常以天为单位索引数据数目相对小、大小变化非常大、更新周期与页面数据类似URL数据数目非常大、大小变化不大、更新非常快三种数据都可以用数据库或自建文件来存储搜索引擎技术的发展趋势十分注意提高信息查询结果的精度,提高检索的有效性基于智能代理的信息过滤和个性化服务重视交叉语言检索的研究和开发多媒体搜索引擎专业化搜索引擎注重用户个性化搜索器Robot执行过程Robot站点爬行Robot寻找网页的算法内容提取搜索器Robot作为一个程序可以用多种语言编写,可以运行在多个环境下。Robot设计时应注意的问题:Robot程序设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量在设计Robot程序时还必须考虑它对网站和被访问站点的影响Robot程序还应遵守一些协议锚文本链接文本即锚文本。锚文本的作用可以作为锚文本所在的页面的内容的评估eg.服装行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接能作为对所指向页面的评估eg.能精确描述所指向页面的内容可以收集一些搜索引擎不能索引的文件eg.网站上增加一张XX的照片,格式为jpg,搜索引擎无法索引,若这张照片链接的锚文本为“XX的照片”,那么搜索引擎就能识别该照片了页面版式版式:<title>新浪首页</title><metaname="description"content="新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。"/>合理的利用网页的页面版式会提升网页在搜索结果页的排序位置。搜索引擎盈利模式发展第一阶段(1994-1997):将网站免费提交到主要搜索引擎,企业通过META标签优化设计获得比较靠前的排名。第二阶段(1998-2000):技术型搜索引擎的崛起引发的搜索引擎优化策略,这种营销方式仍以免费为主。第三阶段(2001-2003):搜索引擎营销从免费向付费模式转变,购买关键词广告出现在这个阶段。第四阶段(2003-至今):从关键词定位到网页内容定位的搜索引擎营销方式。搜索引擎盈利模式技术盈利搜索引擎通过技术授权的模式进行盈利搜索引擎可通过为各种公司、企业、门户网站以及政府机构和部门提供功能强大的搜索引擎服务,收取技术授权使用费收费排名搜索引擎的盈利模式,包括固定排名竞价排名混合排名收费排名已经最直接影响到了排序的公正性竞价排名按点击付费,广告出现在搜索结果中,如果没有被用户点击,不收取广告费。在同一关键词的广告中,支付每次点击价格最高的广告排列在第一位,其他位置同样按照广告主自己设定的广告点击价格来决定广告的排名位置。2001年10月百度在中国推出这种竞价排名的竞价模式。固定排名一次性投入费用高灵活性差混合排名是竞价排名和固定排名的混合型排名阿里巴巴的“网销宝”属竞价排名,适用于想提升产品曝光量的中小企业;“黄金展位”属固定排名,按年付费,适合为打造企业品牌、产品品牌的中小企业;“如影随形”也属于固定排名,按时长付费,适合于有营销活动推广需求的中小企业加盟盈利搜索引擎为联盟网站免费提供搜索引擎和来自搜索的收入。例如GoogleAdsense可以提供与网站主网站内容相匹配的广告,而网站主可以在访问者点击这些广告时获得收益,即Google与网站主一起分享客户的广告佣金,就是期望以会员的形式吸引更多的网站加盟Google广告发布平台。百度主题推广和阿里妈妈都是这种盈利模式。个性化服务盈利如Google对电子图书下载收费2005年,百度曾推出过实现包月收费方式的影视搜索服务,以及在七夕节前推出的供网民传递祝福的收费产品——百度传情。今后可能会在精确搜索、虚拟社区、内容发掘、信息推送等项目上实行收费服务SEOSEO:针对搜索引擎排序技术,通过修改网页结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排序。SEO是技术手段,更是网站推广的一部分,是针对网络的传播方式,把目标内容传递给目标受众的一种途径。中国搜索用户的特征SEO中的8个要素排序技术的不足没有真正解决相关性治本的方法是增加语意理解搜索结果的单一化对搜索结果做个性化分析搜索引擎的专门应用
垂直搜索:针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,它通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索的特点垂直搜索技术主题搜索的几种形式个性化搜索垂直搜索的内容1垂直搜索引擎提供的主要内容不仅包括普通的网页索引,还包括商业信息的加工、结构化的信息。垂直搜索引擎与普通搜索引擎的区别在于:对网页信息进行了结构化信息抽取,将网页的非结构化数据抽取成特定的结构化信息数据。垂直搜索是以结构化数据为最小单位。垂直搜索的内容2垂直搜索的内容:门户网站自身的资源以开放接口方式让行业用户提供的资源普通用户发布的资源抓取行业用户的资源热门的垂直搜索行业购物、旅游、汽车、工作、房产、交友等垂直搜索的特点结构化的搜索和非结构化搜索并用提供了一种广告模式抓取的数据倾向于结构化数据和元数据搜索行为是基于结构化数据和元数据的结构化搜索搜索结果及时、覆盖整个行业,相关性要高于通用搜索引擎设计时要提供收集用户数据的接口,同时提供tag、积分等机制,使搜索结果更加“垂直”目标是帮助用户解决问题本质上是对垂直门户信息提供方式的一次简化性的整合数据来源于;;等数据来源于;等股票站点网站上所有的垂直搜索引擎都是通过人工审核后发布的包括生活搜索、娱乐搜索、行业搜索、学术搜索、网络资源搜索、本地搜索、其他特殊资源搜索垂直搜索引擎的特点垂直搜索引擎的特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎更加专注、具体、深入。垂直搜索引擎和通用搜索引擎的定位、内容、用户、市场策略等都不相同。垂直搜索引擎也是通过关键字进行搜索,但是被放到了一个行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。垂直搜索技术分为两个层次:模板级和网页库级模板级:针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求。优点:快速、成本低、灵活性强缺点:后期维护成本高,信息源和信息量小网页库级:在信息源数量上、数据容量上、检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进行信息采集、信息抽取,但灵活性差、成本高。两种方式不是对立的,是相互补充的垂直搜索技术1信息采集技术:进行深度优先采集基于视觉网页块分析技术:根据人类视觉原理,把网页解析处理的结果进行分块,再根据需要对这些块进行处理结构化信息抽取技术:该技术水平是决定垂直搜索引擎质量的重要技术指标。对结构化信息的抽取包括网页的元数据(标题、作者、时间等)和内容中的结构化信息(人名、地名、组织机构名、电话号码等)垂直搜索技术2简单的语法分析信息处理技术:重复识别、聚类、比较等数据挖掘:找出信息的关联性分词技术:建立和行业相关的词库索引技术:分布式索引技术评估:应从全面性、更新性、准确性、功能性等几方面来判断国内八大垂直搜索引擎优秀的垂直搜索引擎电子商务搜索引擎/亨者搜索餐饮搜索引擎/咕嘟妈咪旅行搜索引擎/去哪儿求职搜索引擎/搜职网论坛搜索引擎/奇虎论坛搜索引擎/大旗
主题搜索的几种形式
主题搜索:指利用某种技术或工具,在Web上发现并获取与某个主题相关的资源的过程。手工搜索方式半自动方式通用爬行器方式主题爬行器方式元搜索方式手工搜索方式资源采集者与用户交流得到用户需要的概念领域并选择恰当的关键词通过用户提供的概念领域,下载搜索引擎目录下的相关主题资源,同时,向搜索引擎提供关键词汇总两方面采集的资源,并将专家和用户推荐的资源汇总资源采集者对结果进行评价反馈给用户根据满足度确定是结束任务还是修正检索策略,开始新的采集汇总半自动方式用户交互选择恰当的关键词自动采集相关资源形成主题资源数据库资源建设者对结果评价选择结果反馈给用户结束任务或修正检索式以开始新一轮的采集通用爬行器方式通用爬行器综合页面数据库主题识别和分类各类主题数据库通用爬行器技术难度大,对软硬件要求高,建设和维护成本高,除了大型搜索引擎的目录系统使用该方式外,一般主题资源建设不适合采取这种方式主题爬行器方式主题爬行器:只爬行与主题相关的网页主题页面数据库主题识别和分类各类主题数据库目前该方式多用于垂直信息门户的主题资源建设元搜索方式利用分类表作为关键词,向多个大型搜索引擎提交将每个搜索引擎的前若干个结果的并集作为搜索的原始结果对结果进行评价和反馈元搜索引擎方式的结果好坏,取决于主题对该方法的适应性,取决于单个搜索引擎的检索结果个性化搜索实现搜索引擎的个性化必须通过收集和分析用户信息来学习用户的兴趣和行为。用户兴趣信息的存放方案将用户的兴趣信息存放在搜索引擎服务器上将用户的兴趣信息存放在用户的机器上存放在其他服务器上搜索引擎个性化研究各大搜索引擎纷纷采用各种新技术为用户查询提供更多的选择信息:提供文档类别分层或搜索结果聚类元搜索引擎和分布式信息检索模型:通过选择合适的数据来源以及合理组织搜索结果来提高搜索准确度信息过滤技术:构建userprofile,并利用其向用户推荐文档个性化搜索技术:利用userprofile优化用户查询传统搜索引擎技术的局限性文海捞针信息丢失“忠实表达”的问题:用户表达困难“表达差异”的问题:统一概念的不同表达形式“词汇孤岛”的问题:无法获得与概念相关的信息“机械式匹配”的问题:只关注字形而非字意传统搜索引擎的问题缺乏对知识的处理能力和理解知识的能力不能对用户查询进行词意分析、扩展定义的关键字与文档的相关度存在很大的模糊性与不确定性:即使检索出用户所需文档也未必能放在最前面智能化搜索引擎的原理智能化搜索引擎方式在形式上可以采用“以网对网”的二级映射模式,即关键字-知识库-因特网映射模式。在实现上采用多级智能化搜索代理体系代替现在的单一搜索。二级映射模式能够提供比全文检索更为智能化、知识化的服务。智能化搜索引擎的根本原理在于拥有比全文检索更为丰富的知识库和能较好地进行文档相关度排序的多级搜索代理。智能化搜索引擎的特征网络蜘蛛的智能化为特定用户提供相关信息搜索引擎人机接口的智能化网络蜘蛛的智能化网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从因特网上自动收集、整理的信息。智能搜索引擎还应具有跨平台工作和处理多种混合文档结构的能力。智能搜索引擎还应具有高召回率和准确率。智能搜索引擎应该可以支持多语言搜索。为特定用户提供相关信息智能搜索引擎能通过观察用户的行为,了解用户的兴趣爱好,另外能通过不断的训练学习增长智能。智能搜索引擎可以根据用户的评价调整自己的行为。智能搜索引擎还能对搜索结果进行合理的解释。智能搜索引擎还应具有主动性,即信息推送能力。人机接口的智能化智能搜索引擎可以通过自然语言和用户交互。智能搜索引擎通过汉语分词、句法分析以及统计理论有效地理解用户的请求。智能化搜索引擎的技术汉语分词技术:利用语料库有效排除歧义短语识别:用短语描述查询请求处理同义词:人工构造同义词表或从语料库中自动取得同义词关系文档信息压缩:用矩阵分解技术进行文档压缩智能化搜索引擎的实现技术Innernet网的建立对汉语词语进行正确的切分自动文摘的生成检索结果的排序智能化多级智能检索代理的实现Innernet网的建立Innernet网:由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统。词典的建立词典维护工具语意分析器的建立关键字分析器词典的建立同义词典、上位词典、下位词典、派生词典都按统一方式建立,将词罗列出来即可。在建立词典的时候,为了提高查找词的速度,一般对词典按汉语拼音顺序和首字索引结构进行组织。词典维护工具词典生成工具:根据所定义的源文件生成所需要的词典词典导出工具:将词典里的内容,按预定的格式导出到指定的源文件中,导出的源文件与生成词典时所定义的源文件是一样的。词典连接工具:把生成的用户词典连接到相应的系统词典上去,从而使二者成为一个整体。语意分析器的建立语意分析器:由一个个词及对这些词按一定的规则所建立的索引两部分组成。从形式上来说,它由系统部分和用户部分组成。系统部分:用于定义稳定的、适合于各个领域的语意分析。用户部分:用于定义适合一段时间的或适合于某一个领域的语意分析。类名排序词表排序关键字分析器找出输入关键词中的主关键词分析修饰词,确定修饰词是否应该抛弃对主关键词作进一步处理:找同义词、派生词、同名词等对修饰词作进一步处理得到语意分析后的词语意扩展索引库的建立汉语切分在建立检索项时完成,切分出的检索项以倒排文件的形式添加到索引库中。分级检索代理检索代理系统负责检索请求的获取、分发,对检索结果进行合并、排序处理。系统的检索代理体系根据各个代理的繁忙情况来确定各自的负载,并自动地进行负载调节与检索任务的分配,因此它是一种分布式的负载均衡的结构。分级检索代理不仅提高了检索系统的覆盖范围,也提高了系统的检索性能。搜索器的实现打开搜索结果集读取搜索结果并排序释放系统资源自动文摘的生成1机械式文摘三个关键技术:统计文献中主题词的词频计算句子权值,选择值最高的若干句子为候选文摘句排序、润色候选文摘句,形成文摘适用于非受限领域,符合当前自然语言处理技术的趋势局限于文本的表层结构,很难做到全面、简洁、连贯自动文摘的生成2基于理解的文摘该方法不仅利用语言学知识获取语言结构,更利用领域知识对文本进行全面的判断、推理,得到文本的意义表示,最后生成文摘通过牺牲领域宽度,换取理解深度自动文摘的生成3复合式文摘首先根据统计信息挑出候选文摘句,再利用自然语言理解技术对其进行处理,生成文摘大大减轻了分析全文的负担生成的文摘缺少信息,未摆脱领域受限自动文摘的生成4自动摘录用对文本篇章结构的分析代替文本的语义分析,从而对文章达到在一个较深层次上的理解自动摘录将文本视为句子的线性序列,将句子视为词的线性序列计算词的权值计算句子的权值对文中句子按权值高低降序排列,权值高的若干句子被定为文摘句将所有文摘句按照它们在原文中的出现顺序输出检索结果的相关性问题1从系统角度看,相关性指检索系统检出的文档的主题与用户的信息需求相匹配。在文档本身固有的特征信息与用户提交的查询表达式中固有的特征信息之间进行比较在从文档中抽取的“主题词”与用户查询表达式中体现的“关键字”之间做比较该理解置用户于被动地位,研究重心为系统优点:比较简单、易于操作、可以直接观察问题文档中抽出的“主题词”与文档之间的“相关度”是否准确“相关度”大小的定义与用户判断是否一致检索结果的相关性问题2从用户角度看,相关性指文档所含信息与用户需求信息两者的概念之间的匹配。更好地描述用户对关键字和文档之间的相关性,使之能比较准确地反映大多数用户的判断用系统准确地实现这种表示多级检索代理现在的搜索引擎几乎都采用多级检索代理结构,在每一个检索代理搜索出自己的结果后,首先根据其主题词相关度大于预先设定的阈值,分成与摘要相关和与摘要无关两个部分,然后再将搜索结果分成两个批次提交到上一级,直至用户界面级。用户界面显示搜索结果的原则剔除相同的搜索结果与摘要相关的搜索结果优于与摘要无关的搜索结果当搜索结果的相关度相同时,将用分级代理优先算法来确定其排列顺序。分级代理优先算法分级代理优先算法是根据以往的搜索结果被用户命中的概率来决定文档的排列顺序。搜索结果的排序是以文档摘要为基准、主题词在文档中出现的概率为辅,同时还参考了以往的被命中的统计结果,从而能够比较准确地将用户最需要的结果排在最前面。Agent的起源20世纪70年代起源于人工智能的领域20世纪80年代开始研究Minsky在1986年出版的《思维的社会》一书中提出了Agent,认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是Agent,Agent应具有社会交互性和智能性。20世纪90年代中期才得到广泛的认同Agent的发展国际上有关Agent的研究可以分两个时期1977-1990年,主要集中于智能Agent研究1990年以后,有关Agent的研究和应用更广泛,并出现了一系列达到实用的系统1993年首次召开Agent形式化模型的国际会议;AOP概念被提出(面向Agent编程)1994年Agent软件被美国GeneralMagic公司公开Agent的概念弱定义:一般用以说明一个具有自主能力、社交能力、反应能力、预动能力的软硬件系统。强定义:一种实体可以被看成由许多心智状态(如知识、信念、意图等)所组成,还具有流动性、真实性、仁慈性、合理性等。一般意义:代理用户去处理各种各样的事物的软件。Agent的特性交互性:与用户交互和与其他Agent交互自主性:运行时不直接受他人控制,对自己的行为与内部状态有一定的控制力适应性:能适应动态网络、调整自身规程目的性:为达到某种目的,根据自身的行为规则主动采取一系列行动,直至达到目的连续性:能够连续执行机动性:可以在网络上灵活机动地访问各种资源和服务,甚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年路面清洁装备合作协议书
- 如何制定品牌宣传计划
- 2025年优良动植物新品种项目合作计划书
- 班主任与学科教师协作计划
- 2025年钴粉系列合作协议书
- 2025年中国页岩气行业市场现状及投资态势分析报告(智研咨询)
- 2025年气体掺混设备合作协议书
- 2025年动叶可调轴流电站用风机项目发展计划
- 2025年基础软件设计服务项目建议书
- 新产品发布指南与市场推广策略
- 《社会主义市场经济理论(第三版)》第八章社会主义市场经济调控论
- 交流伺服系统常见故障及处理分解课件
- 化工厂员工电气安全教育培训课件
- 圣三国蜀汉传攻略
- 建设项目竣工环境保护验收政策法规课件
- 2021届高考英语887核心词(打印、词频、出处、例句、背诵)
- 天津市乡镇卫生院街道社区卫生服务中心地址医疗机构名单
- 公司机关管理类责任矩阵
- 钉钉考勤休假规定
- 慢性肾病知识讲座课件
- 山东省青岛市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
评论
0/150
提交评论