(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf_第1页
(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf_第2页
(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf_第3页
(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf_第4页
(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)智能搜索在水库信息管理中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的迅速发展,特别是w w w 技术的进步,i n t e m e t 已经成为全球最大 的分佃式信息资源库。越来越多的人们把网络信息检索作为日常获取信息的重要手 段。而互联网上巨大的科技信息资源也已经成为教育科技界用户获取学术或专业领 域信息的主要途径。 目前,互联网信息资源的庞大和用户获取所需信息手段的有限已经成为突出的 矛盾。并且随着互联网上面向特定领域的主题网站和网页的不断增多,普通的商用 搜索引擎越来越难以满足用户专业化、个性化的信息需求。如何满足人们这一需求, 已经成为摆在人们面前的一大难题。更准确、更有效地查找到自己所需的特定网络 信息,建立专门针对某一类型或某一专业信息的专业化的搜索引擎,成为网络时代 信息检索的迫切需要,也成为近年来研究的热点。智能搜索技术正是利用人工智能 的理论来解决丰富的信息资源和低效的信息获取手段之间的矛盾,对于提高网络信 息资源利用率、增进网络建设的经济效益和社会效益有着非常积极的意义,正成为 开启w e b 信息宝库的关键之匙。 本文首先介绍了智能搜索的理论,对比介绍了目前的通用搜索引擎与领域主题 搜索引擎在系统架构、工作原理、关键技术等方面的异同,论述了搜索专题信息的 重要性和关键技术。并以水文水利科学领域方面的水库信息检索为专题,提出了领 域搜索引擎如何应用在检索水库信息方面的问题,研究了对搜索结果过滤及排序的 重要算法,由向量空间算法提出了利用通用搜索引擎索引和用户个性化信息加权的 个性化排序方法。并通过程序验证了智能搜索与水库信息管理系统的合理整合。为 水文水利专业人才管理水利水库信息和专题检索水利方面信息提供了有效途径。 关键词搜索;人工智能;j 2 e e ;水库 河北科技大学硕士学位论文 a b s t r a c t w i t ht h er a p i d d e v e l o p m e n to f t h e i n t e m e t e s p e c i a l l yt h ep r o g r e s so fw w w t e c h n o l o g y ,i n t e r a c th a sb e c o m et h ew o r l d sl a r g e s t l i b r a r yo fd i s t r i b u t e di n f o r m a t i o n r e s o u r c e s m o r ea n dm o r ep e o p l et l l i i 墩n e t w o r ki n f o r m a t i o na sa ni m p o r t a n tm e a n so f d a y t o d a y i n f o r m a t i o ns e a r c h i n g e n o r m o u ss c i e n t i f i c a n dt e c h n i c a li n f o r m a t i o n r e s o u r c e so nt h e i n t e m e th a v eb e c o m et h em a i nc h a n n e l so fs e a r c h i n gi n f o r m a t i o nf o r e d u c a t i o n a ls e c t o ru s e r st oa c c e s st oa c a d e m i co rp r o f e s s i o n a lf i e l d so fi n f o r m a t i o n a tp r e s e n t ,t h ei n t e r n e t 。sv a s ti n f o r m a t i o nr e s o u r c e sa n dt h eu s e r s l i m i t e dm e t h o d st o o b t a i nt h er e q u i r e di n f o r m a t i o nh a v eb e c o m ec o n s p i c u o u sc o n t r a d i c t i o n s a n dw i t ht h e s p e c i f i ca r e a s o rt h e m e so fs i t e s g r o w i n g ,t h eg e n e r a lb u s i n e s s s e a r c he n g i n e sa r e i n c r e a s i n g l yd i f f i c u l tt om e e tt h ep r o f e s s i o n a l ,p e r s o n a l i z e du s e r sn e e d s h o wt om e e t p e o p l e sf a s t ,a c c u r a t ea n dc o m p r e h e n s i v er e q u e s t ,h a sb e c o m eab i gp r o b l e m h o wc a n m o r ea c c u r a t e l ya n de f f e c t i v e l yt of i n dt h e i ro w ns p e c i f i cr e q u i r e m e n t so ft h en e t w o r k i n f o r m a t i o n ,s p e c i f i c a l l yf o r t h ee s t a b l i s h m e n to fac e r t a i nt y p eo fi n f o r m a t i o no r a p r o f e s s i o n a ls p e c i a l i z e ds e a r c he n g i n e ,h a sb e c o m eh o ti nr e c e n ty e a r s i n t e l l i g e n ts e a r c h t e c h n o l o g yh a su s i n ga it h e o r yt os o l v et h ec o n t r a d i c t i o nb e t w e e ni n f o r m a t i o nr e s o u l c e s a n di n e f f i c i e n tm e t h o d so fs e a r c h i n g t h i si si m p o r t a n tt oi m p r o v et h en e t w o r k r e s o u r c e s u t i l i z a t i o na n de n h a n c ee c o n o m i ca n ds o c i a lb e n e f i t si nn e t w o r k b u i l d i n ga n di sb e c o m i n g ak e yt oo p e nt h et r e a s u r eo fi n f o r m a t i o n f i r s to fa l l ,t h ea r t i c l ed i s c u s s e st h et h e o r yo fi n t e l l i g e n ts e a r c h ,t h ec o n t r a s tf o rt h e c u r r e n tg e n e r a ls e a r c he n g i n ea n dt h es p e c i f i ca r e a s s e a r c he n g i n e n e x t ,t h ea r t i c l e e m p h a s i z e so nt h ek e yt e c h n o l o g yo nt h es p e c i f i ca r e a s s e a r c he n g i n e f i n a l l y ,t h ea r t i c l e d i s c u s s e st h ea r e a so fw a t e rr e s o u r c e s s c i e n c ea n dr e s e r v o i ri n f o r m a t i o n , a n dh a s a c h i e v e dt h e r a t i o n a li n t e g r a t i o nw i t ha ni n f o r m a t i o nm a n a g e m e n ts y s t e m sa n da n i n t e l l i g e n ts e a r c he n g f n e t h i sp r o v i d e sa l l e f f e c t i v ew a yf o rs e a r c h i n gp r o f e s s i o n a l i n f o r m a t i o n k e yw o r d ss e a r c h ;a i ;j 2 e e ;r e s e r v o i r i i 第1 章绪论 第1 章绪论 1 1引言 在网络发展的初期,网络用户通常依靠浏览的方式就可以寻找到自己所需的信 息,但随着互联网的迅猛发展,网络信息呈现爆炸式的增长,因特网规模越来越大, 发布和传播的信息越来越多,信息的查找和获取也就变得越来越困难,仅仅依赖人 类自身生理范围内的检索能力在互联网中查找信息,我们几乎等同于生活中的盲人, 而无所适从。用户迫切需要有效的网络信息导航工具,来帮助他们在网络信息的海 洋里来准确、快捷地查找用户所需的信息。不断发展的数据收集、数据存储、数据 睑索以及等等若干技术因素催生了搜索引擎这个“网络精灵”的出现。 搜索引擎正是为了解决这个“迷航 问题应运而生的技术,正在成为互联网上 业界和学术界争相研究、开发的热点对象。从最初搜索引擎的出现到现在己有二十 余年时间,搜索引擎在收集页面的数量、速度、准确率方面己得到了长足的进步, 诞生了g o o g l e 、百度为代表的一系列基于传统信息检索技术的成功的通用搜索引擎, 并得到了广泛应用。因特网的发展在为人类提供低成本发布和交流信息的平台的同 时,无疑也加大了人类从信息的海洋中查询和获取有用信息和知识的成本,人们特 别是各个专业领域的专家、学者和科技人员迫切需要高效、准确的信息处理工具来 迅速定位自己感兴趣的信息和知识。而现有的网络信息检索技术还很难满足用户的 要求,研究开发出功能强大、精确度高、接口友好的网络信息检索工具是目前我们 面临的工作重一t l , 所在。 在此期间,基于网页超链分析算法的提出,典型的如g o o g l e 的p a g e r a n k 算法 根据简单的投票原则,可以被用于统计网络中任何一个网页的重要程度,成为了一 个在海量数据中迅速提取有价值信息的快捷途径,该算法在搜索引擎领域内取得了 巨大成功。但是,这些传统的通用搜索引擎还存在一些缺陷和问题:网页覆盖率在 不断降低;索引的及时性很难保持;返回结果相关度低。同时通用搜索引擎的搜索 目标往往只是一个单一的h t m l 网页,它忽略了网页信息之间的链接关系对信息服 务的影响及网站作为专业信息的集结点对信息资源集成的重要作用,使得单纯依靠 通用搜索引擎难以满足构建专业信息服务的需求。并且随着社会分工向专业化细分 方向的发展,专业化、精细化、深度化的信息搜索服务需求日益增大,这些都促使 搜索引擎技术从通用搜索向专业搜索演变。 目前搜索引擎正向专业化、个性化、智能化的方向发展。专业化指为用户群体 提供专业化、领域化、主题化的信息检索服务并且过滤掉与专业或领域无关的信息: 两北科技大学硕七学位论文 对于不同类型的用户群搜索相同的内容将得到不同的更适合用户的搜索结果,这就 是搜索引擎的个性化;而智能化则指搜索引擎具有自我学习的功能,能自动地适应 用户的查询需求,并能对用户进行智能分类从而为搜索引擎的个性化提供依据。 面向特定领域,获取网站专题概念,以提供特定领域信息检索为服务目标的智 能搜索技术( d o m a i n s p e c i f i ci n t e l l i g e n ts e a r c h ) 便是这种背景下提出的一个探索性的 研究课题。 1 2 国内外的研究现状 基于领域主题的搜索引擎被人们称为第四代搜索引擎,即某一特定的专门信息 检索的范围。随着信息多元化的增长,给所有用户提供同一个搜索引擎入口显然已 经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件 条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况, 我们需要一个分类细致精确、数据全面深入、更新及时的面向领域和主题的搜索引 敢 辛。 由于基于领域主题的搜索引擎技术运用了文本自动分类以及特征提取等各种智 能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类 完善的主题搜索引擎称为第四代搜索引擎。领域主题型搜索引擎与普通搜索引擎存 在着很大的差别: ( 1 ) 服务目的不同普通搜索引擎面向任何用户提供对任何信息的查询,领域 主题型搜索引擎则面向专业用户向他们提供对其所在专业的信息检索。 ( 2 ) 搜索方式不同普通搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。 而领域主题型搜索引擎则采用一定的策略预测相关网页的位置,动态的调整网页爬 行方向,使系统尽可能的在与主题相关的网页集中的地方爬行,这节约了大量的网 络资源。 ( 3 ) 对硬件和网络的要求不同普通搜索引擎需求过大,领域主题型搜索引擎 由于没有遍历整个w e b 节约了大量网络资源,且没有自己的大型索引数据库,所以 硬件需求也比较低。领域主题型搜索引擎的实现难点有两点:第一,起始种子站点 和词库的设置。因为该引擎并不遍历整个w e b ,所以起始站点集合就显得格外重要。 词库作为评价网页是否相关的标准关键词的集合,它的合理配置直接影响到检索结 果的准确性。这两个方面的设置是否合理共同决定了引擎能否找到所有的相关内容。 第二,既然是有选择性的抓取信息,那么这个有选择性的遍历w e b 的算法就直接影 响了这类引擎的工作效率。 此外,信息的表示、信息抽取、信息过滤和下一个搜索站点的选择策略都是系 统实现的难点。 2 第1 章绪论 面向领域主题的网络信息搜索主要有两种技术。 ( 1 )基于内容的搜索这类搜索方式是传统的信息检索技术的延伸。它的主要 方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设 的词表对网上的信息进行索引。各个不同的系统其词表建设的复杂度也大不相同。 现在这种词表的建设越来越多地引入了知识表示的方法。基于本体论( o n t o l o g y ) 的搜 索引擎开始出现。一个本体强调相关领域的本质概念,同时也强调这些概念间的本 质联系。以o n t o l o g y 为基础建立的词表能更好地显示一个领域主题中各个概念( 即搜 索系统的检索词) 之间的关系,能更好地表现一个主题。在w w w 的智能信息检索应 用中,o n t o l o g y 通常作为用户感兴趣领域的领域模型,同时还作为文档统一注释的知 识表示语言。一些学者也提出了概念空间的理论,用概念空间来实现语义索引。所 谓概念空间是某个领域中一组抽象概念的集合,并且这组概念之间存在一定的语义 上的关联。基于概念空间的文本检索系统也较好地解决了信息检索过程中的词汇不 匹配问题以及信息过载问题,大大提高了信息检索的效率和质量f i s h 算法是一种基 于内容的搜索算法,它很巧妙的采用了一种启发机制引导搜索引擎的网页爬行器优 先检索与主题最相关的网页。 ( 2 ) 基于链接分析的检索2 0 世纪9 0 年代末期,国外信息检索界开始以s o c i a l n e t w o r k 为模型对互联网进行模拟。一些学者认为网页之间的链接指引关系同社会网 络中的关系有相似之处,特别的与传统的引文索引非常相似。通过对链接进行分析, 可以找出各个网页之间的引用关系,由于引用网页与被引用网页间内容上一般都比 较相关,所以就可以很容易地按照引用关系将大量网页分类。在美国,很多基于这 种超链分析的检索系统原形己经产生,应用于他们的数字图书馆系统中。一些特定 领域和主题的w e b 搜索引擎使用w r e b 爬虫( c r a w l e r ,有时也称做r o b o t ,s p i d e r 等) 来只收集特定主题的w e b 页面。一个例子是c o r m s ,一个特定主题的搜索引擎,适 用于计算机科学研究论文的搜索。它的爬行器从主页的计算机科学系和实验室开始, 使用机器学习技术有效地找到研究论文。s p i r a l 也使用爬虫。这些系统提供复杂的 搜索的功能,因为它们建立了自己的本地数据库并对数据采用了多种机器学习或者 知识表示技术。具体研究成果有如下几个: ( 1 ) b e r k e l e y 的f o c u s ep r o j e e t 是由印度裔科学家s c h a r b a b a r t i 带头从事, 他是最早从事这方面研究的人之一。该系统通过使用两个程序来指导爬行器:一个 是分类器c l a s i f i e r ,用来计算下载文档与预定主题的相关度。另一个程序是净化器 d i s t i l e r ,用来确定那些指向很多相关资源的页面( 在h i t s 算法中,称之为中心网页) 。 ( 2 ) n e c 研究院的c i t e s e e rc i t e s e e r 是一个非常有名的针对计算机科学领域 论文的检索系统。c i t e s e e r 的核心是a c i ( a u t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动 地对网上的电子文件( p o s t s c r i p t 和p d f 等格式) 进行索引并分类, 3 河北科技大学硕士学位论文 ( 3 ) 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o g r a m ( c b p ) 这个项目 旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究在某一主 题上资源自动建设的可能性。c b p 具有自己的特点:第一,因为c b p 是面向教育、 面向教学,主题精确度( p r e c i s i o n ) 比覆盖度( r e c a l l ) 更为重要:第二,c b p 不存储资源 原文,而只是提供u r l 。第三,c b p 只需要用户最少量的输入,如关键词,系统就 可以全自动的将有关该主题的最相关的有限数量u r l 返回给用户。 国内的研究与国外相比还处于一个初步发展阶段,主要侧重于整个系统功能的 实现,在领域主题搜索上研究的层次还很浅,目前有下面几个较著名的系统: ( 1 ) i n t e r n e t 科技门户网站s t i pi n t e m e t 科技信息门户网站s t i p ( s c i e n c ea n d t e c h n o l o g yi n f o r m a t i o n p o r t a l ,s t i p ) 是中科院文献情报中心实_ 施中科院文献信息共 享系统的一个子课题,旨在开发和利用i n t e m e t 上的科技信息、资源,它通过搜索、 发现、组织、加工、整理i n t e m e t 上的科技信息资源并借助i n t e m e t 网络向用户提供 网络资源导航、检索等信息服务。该系统有一个类似于自动主题搜索系统的科技信 息、资源采集系统,该系统采用通用爬行器模型来实现资源采集,为资源建设者提 供一种方便灵活的接口,利用人工来判断是否与主题相关、标引相关数据。该项目 在自动主题搜索上面,基本上没作深入研究,但它所提供的功能体系还是具有一定 的先进性。 ( 2 )南京大学的i d g s 南京大学软件新技术国家重点实验室张福炎、潘金贵教 授等一直在从事i n t e m e t 上的信息挖掘技术研究,设计了一个互联网数据采集系统 i d g sf i n t e r a c td a t ag a t h e rs y s t e m ) 。该系统旨在对w 曲上中英文技术资料进行自动 搜集。i d g s 根据用户提交的挖掘目标样本,在w e b 上自动查找用户所需的信息, 它采用向量空间模型和基于词频统计的权重评价技术,由特征提取、源站点查询、 文档采集、模式匹配等4 个部分组成。 该系统的关键技术在于它的一个模式匹配模块,其任务是计算实际采集到的网 页与用户兴趣之间的相关度。它的文档采集模块相当于一个爬行器,采用了兴趣漫 游的模型,其基本思想是:如果某网页满足用户兴趣,则继续往下找,否则就终止 该方向的查找。该模型类似于f i s h 算法,“哪儿有草,鱼儿就往哪儿游 。但它只是 简单地用父结点的主题相关度来判断是否下载孩子结点,并且只在用户给出的有限 种子站点基础之上爬行,搜索的深度很有限,更多地强调准确度,在一定程度上忽 视了覆盖度。 此外现有的很多搜索引擎己经带有领域主题特征的搜索功能,如雅虎的层次化 分类目录搜索就带有领域主题的性质,还有如百度搜索引擎中非常受用户欢迎的 m p 3 歌曲搜索,g o o g l e 的学术搜索等。 4 第1 章绪论 1 3 研究的目的及意义 水利是国民经济的基础产业,水利的发展是保证国民经济和社会可持续发展的 基础建设工程。新中国成立后,经过半个多世纪的建设与发展,水利工程建设取得 了巨大成就,尤其是担负调峰、调频、防洪、灌溉、航运及工业和居民用水等特殊 功能和任务的水库工程建设,为中国的现代化建设提供了强大的安全防汛和水资源 利川的保证。 中国水利信息化工作“七五”期间起步,“九五”期间启动“金水工程”,取得了可 喜的成绩,主要表现在:全国水利系统初步实现了从水情雨情信息的采集、传输、 接收、处理、监视,到联机洪水预报:在全国范围内开始建设国家水文数据库,并 取得了部分成果:水利部门办公自动化的水平也在逐步提高,开始实行远程文件传 输、公文管理和档案联机管理;一些水利部门建立了网站并进入了互联网络;建成 了连接全国各流域机构和各省( 自治区、直辖市) 的水情计算机广域网,并相继进行了 一些流域和地方的防洪减灾、水资源管理的决策支持系统的研究开发工作。但数字 化、网络化技术应用不够,开发应用水平较差,低水平重复开发和重复建设问题仍 很突出,条块分割现象依然存在。中国水利行业的现代信息技术应用工作起步较早。 目前,信息技术在某些业务信息采集、传输、存储、处理、分析和服务的部分环节 中已发挥了显著作用。但从总体上看,业务处理仅实现了部分数字化,相关技术规 范不完善,在硬件实施的研发与可靠性的提高方面有待进一步的完善,信息共享机 制不健全,有限的数据资源总体质量不高,使用效率较低。水利信息化总体仍在起 步阶段,地区发展极不平衡。 在我国水利信息采集方面,全国水利系统已有5 0 的雨量监测数据采集近4 0 的水位监测数据采集实现了数字化长期自动记录,而且流量和其他水文要素的自动 测验研究开发工作也在进行积极的探索。部分重点防汛地区建成了水文信息自动采 集系统,工情、旱情、灾情、水资源、用水节水、水质、水土保持、工程建设管理、 农村水利水电、水利移民、规划设计和行政资源等信息采集也具有一定的方法。航 空航天遥感、全球定位等技术在水利信息的部分业务中也得到了应用。 随着计算机网络与信息传输的发展,目前从水利部到各流域机构和各省( 自治区、 直辖市) 水文部门之间,初步形成了基于中国分组交换网的全国实时水情计算机广域 网i 能进行实时水情信息传输。部分地区建成了宽带计算机广域网,全国部分省级 以上水利行政主管部门建立了信息发布网站,并连入因特网,开始向社会提供部分 水利信息。 部分重点防洪省( 自治区、直辖市) 已初步实现了水情信息传输网络化、接收处理 自动化和信息管理数字化,提供水情信息服务的水平与能力就有了一定的改善。 5 :可北科技大学硕士学何论文 1 4 本论文的主要工作 本课题研究内容,是研究智能搜索在基于j 2 e e 架构的水库信息管理系统中的应 用,采用浏览器- n 务器模式,实现功能的模拟。本课题深入挖掘人工智能理论在 专题搜索领域中的应用,在水库信息管理系统中集成了智能搜索模块,智能搜索模 块的设计是为了更好的完成水库系统的在水文水利领域的专题搜索功能,实现智能 化,提高查准率,查全率。为此,应用人工智能中的理论。通过产生式系统的产生 式规则库,来增加检索的智能性。 设计基于j 2 e e 架构的水库信息管理系统主要研究水利信息管理的各组成模块, 包括系统管理、水库信息注册、安全鉴定等基础部分。 设计智能搜索模块主要建立了水文水利专业同义词库和专题库,有效扩大了用户的 实际搜索范围。另外,还建立了用户知识库,在用户检索的过程中记录用户的搜索 规律和搜索习惯及兴趣等,来实现个性化搜索。在检索引擎中,采用元搜索的办法, 集成现有的多个搜索引擎并以统一的界面展示搜索结果。并且对元搜索的搜索结果 进行过滤处理,摒弃无效信息。 1 5 章节安排 全文共分4 章。 章节安排如下: 第1 章绪论,介绍本文的主要研究内容。讨论互联网信息检索存在的各种问题 和目前国内外的研究现状。表明论文的研究意义和目的。 第2 章智能搜索理论及相关技术,论述本文用到的搜索理论与人工智能相关 概念和技术。 第3 章系统各模块的设计。 第4 章系统关键模块的实现及实验结果。 最后总结本论文的研究成果和进行后期工作的展望。 6 第2 章智能搜索理论及相关技术 第2 章智能搜索理论及相关技术 本章主要论述本系统所重点研究的智能搜索模块涉及到的关键理论,对系统架 构和具体实现提供理论依据。 2 1搜索概述 2 1 1 搜索引擎的分类 从基本原理上讲,搜索引擎都包含爬行器、索引器和检索器等三个部分,但是 在实现方式上可以采用不同的解决方案,所以它们具有各自不同的特点。按照搜索 引擎采集w e b 网页的方式来划分,目前的搜索引擎大致可以分为目录式搜索引擎川、 爬行器式搜索引擎,元搜索引擎和客户搜索引擎等四类。 f 1 )目录式搜索引擎目录式搜索引擎是以y a h o o 为代表的搜索引擎,它们主要 依靠人工维护网站索引。关于目录式搜索引擎,需要关注的是开放目录( o p e n d i r e c t o r y p r o j e c t ,o d p ) 。目录式搜索引擎通过人工浏览各站点的信息,按照一定的分 类规则或分类体系,对网站进行分类。目录式搜索引擎的优势在于内容比较好的站 点更容易被编辑所认同,更容易被索引,所以它们的索引质量比较高。目录式搜索 引擎分类结构清晰、错误较少,比较符合人们的阅读习惯。缺点是工作人员多、整 理周期长、速度慢、人工干预成份多,不能适应w e b 资源的规模发展。 ( 2 )爬行器式搜索引擎爬行器( c r a w l e r ) 是指可以在w e b 上漫游并按照一定规 则自动从w e b 上下载网页的计算机程序。它对应的同义词有“蜘蛛 ( s p i d e r ) ,“机 器人”( r o b o t ) 等。本论文统一采用爬行器来代表该类计算机程序。 爬行器式搜索引擎的全部工作基本上由程序自动完成,人工参与成份很少。它 通过爬行器在网上爬行,将搜索到的网页自动地加入到本体索引数据库中,用户可 以很快从索引数据库查到更新后的信息。如果某个网站的网页内容更新了,搜索引 擎会自动发现这些变化,并很快更新本地索引数据库,及时反映到用户的检索结果 中。它的优势在于自动化程度高、维护费用低,更强调技术上的创新和提高,也更 适合于开展研究工作,因而成为当前研究的热点。 现代搜索引擎一般将上述两种方法结合,形成混合式搜索引擎。如g o o g l e 、北 大天网等等,它们在爬行器式搜索引擎的基础上,提供目录服务。 ( 3 ) 元搜索引擎对于现在i n t e m e t 上拥有的几十亿的页面来说,任何一个独立 的搜索引擎都无法穷尽所有的w e b 资源。而且据研究,对于同一个查询请求,不同 的搜索引擎因其工作机制的不同,得到的结果中重复率也较低。因此,在很多情况 下人们为了获得更高的查全率,利用搜索引擎查询信息时需要同时使用多个具有不 7 可北科技大学硕士学位论文 同数据收集范围的搜索引擎,因而增加了检索的不便。元搜索引擎就是为了解决这 种情况而诞生并发展起来的。 元搜索引擎( m e t a :s e a r c h e r ) 是一种多个搜索引擎的集成式查询工具,可以在不降 低系统效率的前提下,同时对多个搜索引擎进行并行或串行操作,把多个搜索引擎 的检索结果综合起来,按照相关性大小重新排序,以统一的界面呈现给用户。 元搜索引擎的优势是让用户不需要记忆不同搜索引擎的地址和查询语法:查询 多个索引数据库,可以大大提高查询结果的覆盖度;不用维护庞大的索引数据库, 而将工作重心放在检索结果的整合上,提高查询的准确度。但是元搜索引擎的网络 资源开销比较大,从多个搜索引擎返回的结果中常常有很多重复信息,相关度排序 十分困难。 本系统平台的智能搜索模块的设计主要为在元搜索引擎的基础上,建立了专业 同义词库、专题库、个人信息知识库和网络信息检索库。将系统划分为查询系统模 块、信息检索模块、元搜索引擎模块、信息过滤模块、信息提交模块等实现。系统 的检索可分为一般用户检索和注册用户检索等。 ( 4 ) 客户搜索引擎客户搜索引擎是把搜索机器人的爬行算法内置于客户端, 从已知w e b 网页出发,沿着网页中的超链,不断发现更多的网页,重复上述动作直。 至满足结束条件时。客户搜索引擎不需要第三方的搜索接口,可以使用任意的本地 搜索爬行器,且不一定要通过w e b 浏览器。这就意味着客户搜索引擎可以方便地提 高用户接口性能;同时,由于是实时搜索,搜索结果中基本不存在无效连接的信息, 但存在的突出问题是搜索速度很慢,如果每个w e b 客户程序都使用它们自己内嵌的 搜索引擎,这将带来很大的网络负载和服务器负载,导致i n t e m e t 不堪重负,因此难 以在较大范围内推广使用。客户搜索引擎更适合建立具有交互功能的个性化搜索服 务。 这四种搜索引擎各有优缺点,在不同的领域有不同的应用。目录式搜索引擎和 爬行器式搜索引擎现在己经紧密结合在一起;没有搜索引擎也就没有元搜索引擎: 客户搜索引擎则更强调与用户的交互和个性化定制。它们互为补充,基本不会出现 一种搜索引擎完全取代另一种的可能。 2 1 2 搜索引擎的原理 搜索引擎【2 l 是目前最常用的w e b 信息检索工具,只要在搜索引擎网页上输入关 键词组进行查询,用户就可以得到相关w e b 信息的列表,从而得到自己需要的信息。 自从第一个搜索引擎w w w w ( w o r l dw i d ew e bw o r m ) 在c o l o r a d o 大学开发成功 以来,w e b 上的搜索引擎已经发展到上千个。虽然各个搜索引擎的具体实现不尽相 同,但一般都包含5 个基本部分:r o b o t 、分析器、索引器、检索器和用户接口。如 8 第2 章 智能搜索理论及相关技术 图2 1 所示。 图2 l 搜索引军系统模型 f i g 2 - 1 s e a r c he n g i n es y s t e mm o d e l 机器人程序也称为网页抓取工具,已采用广度优先( 或者深度优先) 的策略对w e b 进行遍历,将w e b 页面从互联网上取回到本地机器。 分析器对r o b o t 下载的文档进行分析,抽取出特征项以用于索引,所谓特征项 是指能表征文档内容的一些特征属性描述。 索引器将文档表示为一种便于检索的方式存储在索引数据库中。索引的质量是 w e b 信息检索系统成功的关键因素之一,一个好的索引模型应该易于实现和维护, 检索速度快,。空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,它包 括:倒排文档、签名文件、后缀树与后缀数目等。 检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相似的 方法来处理用户查询请求。常用的检索模型有布尔模型、矢量空间模型( v s m 向量空 间模型v e c t o rs p a c em o d e l ) 、概率模型、概率推理络模型等。 2 1 3 搜索的核心技术 自1 9 9 4 年起至今,伴随着因特网的日益发展壮大以及w e b 信息量的迅速膨胀, w e b 搜索引擎技术为了不断满足人们对w e b 信息检索的需求,己经经历了三个发展 阶段。第一代搜索引擎【3 】出现于1 9 9 4 年。这类搜索引擎一般都索引少于1 , 0 0 0 ,0 0 0 个 网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待1 0 秒甚至更长的时间。在实现技术上也基本沿用较为成熟的i r ( i n f o r m a t i o nr e t r i e v a l ) 、 网络、数据库等技术,相当于利用一些己有技术实现的一个w w w 上的应用。在1 9 9 4 年3 月到4 月,网络爬虫w o r l dw i d ew e bw o r m ( w w w m 平均每天承受大约1 5 0 0 次查询。 大约在1 9 9 6 年出现的第二代搜索引擎系统大多采用分布式方案( 多个微型计算 机协同工作) 来提高数据规模、响应速度和用户数量,它们般都保持一个大约5 0 , 0 0 0 ,0 0 0 网页的索引数据库,每天能够响应1 0 ,0 0 0 ,0 0 0 次用户检索请求。1 9 9 7 年1 1 月,当时最先进的几个搜索引擎号称能建立从2 ,0 0 0 ,0 0 0 到1 0 0 ,0 0 0 ,0 0 0 的网页索 9 河北科技大学硕士学位论文 引。a l t a v i s t a 搜索引擎声称他们每天大概要承受2 0 0 0 0 ,0 0 0 次查询。 自1 9 9 8 年到现在,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的 搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点。索引数据库 的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。除了一般 意义上的搜索以外,开始出现主题搜索和地域搜索【4 】。很多小型的垂直门户站点开始 使用该技术。由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相 关的研究又可以分为两类:一类是对超文本链接【5 】的分析,在这方面s t a n f o r d 大学的 g o o g l e 系统做出了很大的贡献;另一类是用户信息的反馈,d i r e c t h i t 系统采用的就 是这种方法。开始使用自动分类技术,n o r t h e m l i g h t 和i n k t o m i 的d i r e c t o r ye n g i n e 都在一定程度上使用了该技术。2 0 0 0 年搜索引擎大会上,按照g o o g l e 公司总裁 l a r r y p a g e 的演讲,g o o g l e 正在用3 ,0 0 0 台运行l i n u x 系统的个人计算机在搜集w e b 上的网页,而且以每天3 0 台的速度向这个微机集群里添加电脑,以保持与网络的发 展相同步。每台微机运行多个爬虫程序,搜集网页的峰值速度是每秒1 0 0 个网页, 平均速度是每秒4 8 5 个网页,一天可以搜集超过4 ,0 0 0 ,0 0 0 个网页。 2 2 人工智能概述 智能理论【6 】的研究分为两个方面j 一方面是对智能的产生、形成和工作的机制的 直接研究:另一方面是研究如何用人工的方法模拟、延伸和扩展智能。前者称为自 然智能理论,主要是生理学和心理学研究者所从事的工作:而后者称为人工智能理 论,主要是理工学研究者所从事的工作。在前者的领域中,“智能多取名词的用法, 因为研究的是“脑力劳动 本身的机制:在后者的领域中,“智能 多取形容词的用 法,因为人们主要考察人工智能的功能与自然智能的功能相比,像不像、高不高、 强不强。 人工智能理论以自然智能理论为基础。如果搞清了各种自然智能的工作机制及 其各个功能部件的结构关系,那么就可以通过已经高度发达的电子的、光学的和生 物的器件构筑类似的结构对其进行模拟、延伸和扩展,从而实现人工智能。但遗憾 的是,由于人类的头脑结构高度复杂,也由于实验这一现代科学的锐利武器在研究 人脑机制和结构时不能随意使用,直到今天,自然智能理论并没有搞清一些基本智 能活动的机制和结构,总体进展十分有限。因而人工智能理论的主流已经从结构模 拟的道路走向了功能实现的道路。所谓功能实现就是将自然智能的结构看作黑箱, 而只控制黑箱的输入输出关系,只要从输入输出关系上看实现了所要模拟的功能即 可。 功能实现的道路使人工智能理论摆脱了自然智能理论进展缓慢的束缚,通过几 十年的发展,已经形成了较为系统的理论体系,包含了极为丰富的内容,并在实际 1 0 第2 章智能搜索理论及相关技术 中得到了广泛的应用,发挥了显著的作用。 问题求解【7 】是经典人工智能的核心问题,当机器有了对某些问题的求解能力之 后,在应用场合遇到这类问题,便能自动找出正确的解决策略a 这种问题求解能力 是基于规则的,能举一反三。有了问题求解能力的机器就能比普通机器更灵巧地分 ! 斤问题和处理问题,从而适用于更加复杂多变的应用场合。推理是人的思维的一个 重要方面,推理的三种主要形式是归纳推理,演绎推理和模糊推理。经典人工智能 中推理的研究是要模拟这三种推理形式,实现诸如故障诊断,数学定理证明,模糊 问题判断等功能。经典人工智能是基于知识的,而知识通过符号进行表示和运用, 被具体化为规则。但是,知识并不都能用符号表示为规则,智能也不都是基于知识 的。人们相信,自然智能的物质机构神经网络的智能是基于结构演化的。因此,2 0 世纪8 0 年代在经典人工智能理论发展出现停顿,而人工神经网络理论出现新的突破 时,基于结构演化的人工智能理论计算智能理论迅速成为人工智能研究的主流。计 算智能的主要方法有人工神经网络,遗传算澍引,遗传程序,演化程序,局部搜索, 模拟退火等等。这些方法具有以下共同的要素:自适应的结构,随机产生的或指定的 初始状态,适应度的评测函数,修改结构的操作,系统状态存储器,终止计算的条 件,指示结果的方法,控制过程的参数。计算智能的这些方法具有自学习,自组织, 自适应的特征和简单,适用于并行处理的优点。在并行搜索,联想记忆,知识自动 获取等方面得到了广泛的应用。事实上人工智能在某种程度上可以看作时一个数据 库加上搜索,这句话也确实可以说明人工智能的现状。无论是在知识库这一方也好, 还是在推理机那一方也好,都要涉及到搜索这一过程。 搜索大体分两种,一种是盲目搜索【9 l ,一种是启发式搜索【i 。盲目搜索是指在 不具有对特定问题的任何有关信息的条件下,按固定的步骤依次或随机调用操作算 子进行的搜索,它能快速地运用一个操作算子,但是由于没有可以参考的信息,因 此只要能匹配的操作算子都必须运用,这会搜索出更多的状态,生成较大的状态空 间显示图,因此盲目搜索盲目性大,效率差,应用小型问题还可以,用于大型问题 则不行:而启发式搜索则考虑特定问题领域可应用的知识,能动态地确定调用操作算 子地步骤,优先选取较合适地操作算子,尽量减少不必要地搜索,以求尽快地到达 结束状态,提高搜索效率。盲目搜索,随着搜索地进行,搜索空间会急剧扩大,对 于一些大点的问题往往导致n p 完全但是增加的幅度远远小于盲目搜索所增加的搜 索空间。问题空间中许多地方因为中间结果的获得,而不用搜索,这样就极大的减 少了搜索的复杂度。 在实际问题中,最优解往往比较难得到,因而在能够节省较大的时间复杂度和 空间复杂度的情况下,往往用次优解来代替。人工智能也一样,对于一个问题机器 所表现出的智能化有多种多样,只要能够在要求的时间内在不用告诉它如何处理该 河北科技大学硕士学位论文 问题的情况下,能基本正确的给出解答,就可以认为人工智能己经达到。 2 3 智能代理技术 2 3 1 代理的定义和特点 从应用的角度来看,智能代理又称智能体【l 。是人工智能研究豹新成果,它是 在用户没有明确具体要求的情况下,根据用户需要,能自动执行用户委托的任务的 计算实体。它有着极其广泛的应用像邮件过滤代理、信息获取代理、桌面自动代理 等等,将使w e b 站点、应用程序更加智能化和实用化。 从技术的角度来看,智能代理应当是由各种技术支撑着的,许多实用的应用特 性的集合,开发者正是使用这些应用特性来扩展应用的功能和价值,从而达到应用 能自动执行用户委托的任务的目的。智能代理有如下一些特点: ( 1 ) 智能性具有丰富的知识和一定的推理能力,能揣测用户的意图,并能处 理复杂的难度高的任务,对用户的需求能分析地接收,自动拒绝一些不合理或可能 给用户带来危害的要求,而且具有从经验中不断学习的能力,适当地进行自我调节, 提高处理问题能力。 ( 2 ) 代理性在功能上是用户的某种代理,它可以代替用户完成一些任务,并 将结果主动反馈给用户。 ( 3 ) 移动性可以在网络上漫游到任何目标主机,并在目标主机上进行信息处 理操作,最后将结果集中返回到起点,而且能随计算机用户的移动而移动。 ( 4 ) 主动性能根据用户的需求和环境的变化,主动向用户报告并提供服务。 ( 5 ) 协作性能通过各种通信协议和其它智能体进行信息交流,并可以相互协 调共同完成复杂的任务。 2 3 2 智能代理的主要特征 智能代理的两个主要特征是代理的智能性和代理能力【1 2 】。代理的智能性是指应 用系统使用推理、学习和其它技术来分析解释它己接触过的或刚提交给它的各种信 息和知识的能力。这个特征因素主要围绕着从边缘智能到高维智能的几个层次展开。 第一个层次就是参数选择表示层,这个层次的主要内容是将需要的一个或一组应用 系统的潜在复杂的行为表示成相对标准的形式。其次就是提供推理能力层,在这一 层次中,参数选择以一套标准的规则来表示,同时,同推论或决策过程中的长期知 识和短期知识结合,这种结合将使产生某种特定的动作或至少将产生新的知识片。 第三个层次就是代理应用以获取的新知识为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论