智能搜索系统个性化服务的研究_第1页
智能搜索系统个性化服务的研究_第2页
智能搜索系统个性化服务的研究_第3页
智能搜索系统个性化服务的研究_第4页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、       智能搜索系统个性化服务的研究                     文孙颖 邓康桥摘 要:随着互联网技术的不断发展与成熟,人们进入了信息爆炸的时代。人们想要更加方便快捷的获取所需要的信息。因此,能够提供个性化服务的超级门户也就孕育而生。人们可以在此随时获取自己所需要的信息,随时更改自己的定制。同时,在搜索信息时,搜索引擎将会根据用户平时搜索的领域和内容

2、,更加准确的搜索到用户所需要的信息。智能化搜索提供的个性化服务将形成以用户为中心的服务模式,本文介绍了个性化聚类与推荐的k-mean 算法。关键词:智能搜索 个性化服务 超级门户 k-mean 算法一、引言门户网站的产生和发展极大地推动了互联网事业的发展,并已成为网络发展史上的一个重要里程碑。以“雅虎”为代表的门户网站,在不断创造网络神话的同时,逐步形成了“内容+ 导航”的服务模式。但是,从用户获取信息的基本规律来看,无论是用户职业需求还是研究兴趣爱好,在internet 上获取信息一般都是在不同的网站上查看同样的信息资源内容,而不是在同一网站上查看同样的信息。门户网站的搜索引擎虽然力求穷举所

3、有网上可用的信息资源,但是很难适应网上信息的动态变化,保证用户查询结果的正确性和全面性;其次,在使用门户网站进行资源检索的过程中,因为面对的是不确定的网上用户,无法将用户的个人信息需求考虑进来。再次,目前95% 以上的网站都是把内容放在web 服务器上,用户只有通过访问了web 服务器才能享受网站提供的信息资源和信息服务。如果用户不访问网站,那么即使网站拥有的信息量再大、内容再丰富,这所有的一切也会变得毫无价值。所以说,现在极大多数的门户网站都没有很好地利用internet 即时、互动的特点,而只是把internet 作为新的传播介质而已。因此,把web 挖掘技术引入到个性化服务中,改变以往的

4、网络服务模式,形成以用户为中心,基于用户兴趣挖掘的个性化服务系统,从而提高了门户网站的智能化性能。二、个性化服务的理念智能检索系统的个性化服务就是在现有门户网站的基础上建立一个属于用户自己的超级门户,它的真正含义,就是将以网页为中心的服务方式转变为以用户为中心的服务方式。智能检索系统的个性化服务的技术把internet 即时、互动、个性化的特点发扬光大,其表现方式更多地体现了internet 的传播,因此我们称之为在internet 上驾驭信息。它能帮助用户在个人pc 机上建立一个属于用户自己的超级门户,用户可能不需要进入任何一家门户网站,就能找到想要的任何信息。这些信息可能来自雅虎、新浪,也

5、可能来自搜狐、网易,这都无关紧要,关键是这是用户自己想要的,也是最实时的信息。在以往的信息服务模式中,几乎所有的网站都是将自己能够得到的内容信息按照自己的理解,分门别类地堆放在网站上,再由用户自己去挑选个人所需要的信息。过多地考虑了拥有多少信息量而忽略了不同用户对不同信息的需要,也忽略了用户如何最方便、快捷地得到它。而理想的网上信息服务模式应该是,用户打开计算机浏览器时就可以得到他所需要的相关信息资源。这时用户不再关心信息是从哪里来的、怎样来的,因为绝大多数用户关心的是信息的本身。这就是后门户时代的网络信息服务理念个性化服务理念。三、个性化服务的实现(一)智能搜索搜索引擎的目的就是帮助用户在因

6、特网外寻找信息资源。在门户时代,搜索引擎的典型实现是基于关键词或分类目录的,如yahoo、alta 和infoseek;或是基于概念的,如excite。但无论是哪一种搜索引擎,它们都是在标题中或正文里进行基本的字或词的匹配操作,这种处理方法无法避免检索结果不尽人意的现象。据专家预测,目前主要的搜索引擎返回的相关结果的比率不足45%,其原因是现有的搜索引擎拥有极少量的知识,而且是面向最一般的用户模型。不划分知识领域,不对用户建立任何描述,以及使用关键词匹配的交互方式都限制了搜索引擎的使用效率。在后门户时代,搜索引擎将进一步得到人力发展,产生一种引入了人工智能、知识工程等先进技术的智能搜索引擎,它

7、不仅可以预期用户的需求,而且可以有效地抑制关键词的多义性,如eastman、 kodak 都在尝试在它们的内联网中使用更加智能化、知识化和专业化的搜索引擎使检索结果更能反映用户的信息需求。后门户时代的网络信息的智能搜索涉及到两个关键问题:一是搜索知识的具体内容与表示,二是搜索知识的有效获取方法。为了有效地解决这两个问题,有关专家提出了一种新的搜索知识表示方法。这种方法采用了一种准层次结构来描述页面搜索所需的网站与网页两方面的知识。其具体内容描述表现为以下两个方面:一是信息网页内容特征的描述知识(如标题内容、网链内容和其它文字内容等);二是在同一网站内,网页之间相互关联特征的描述知识。这种将同一

8、网站中网页之间相互关联特征的描述知识作为网页搜索所需知识的重要组成部分的方法,将有助于更加准确有效地搜索出所需要的目标网页。另外,智能搜索引擎通过采用边搜索边学习的工作方式,对已结束的搜索过程及其结果进行反馈学习,这样不仅可以不断地更新完善搜索知识,而且可以最终准确有效地搜索出各目标网站中所有需要的信息。同时,智能搜索在传统搜索的基础上结合了用户的个人信息、收藏记录等信息与心理学的知识相结合更准确的理解用户所要搜索的信息,有效的抑制关键词的多义性。(二)即时互动随着网络时代技术及服务的日渐深化,互动的用户服务方式将成为网络信息服务全面解决方案中不可或缺的部分。信息资源的高度共享和即时传递服务将

9、是现代网络发展中信息服务系统的重要标志。基于i-service (internet-search) 即时互动技术的即时信息服务系统,可以使用户跨点享受即时信息服务和其他各种相应的服务,它很好地体现了internet 即时互动的特征。这种技术可以使用户实时快捷地得到相应信息和服务,而不是等到用户登录相关网站才能获取信息资源;更重要的是,它能极大地保持用户的忠诚度,这在重视服务的信息时代相当重要。后门户时代网络信息服务的即时互动性,具体表现形式有以下几个方面:1、从以web 为中心转向以用户为中心的全新服务方式门户时代的信息服务都是以web 服务器为中心的方式来进行的,操作的发起者是用户,web

10、服务器的服务是被动的,用户只有登录相应的web 网站,才能接受相应的信息服务,用户与服务器双方无法通过网络进行即时互动。而在后门户时代信息技术的支持下,用户可以通过i-service 即时信息服务系统选择和订制用户个人最需要的信息及其他相关服务,信息服务的方式从传统的web 服务器为中心转变得到以用户为中心,这是信息服务领域的一场意义深远的变革。2、实时信息追踪与任意信息定制服务发布即时发布用户订制的个性化信息,可以方便用户随时了解相关专业的文献资源的发展变化。同时,为用户进行个性化信息定制服务,更好地考虑了用户的需求。3、即时信息发布和随时获得服务器端的最新服务web 网站提供的最新服务可以

11、被用户即时使用,而不像传统方式的只有当用户访问了web 服务器之后,才能发现服务器所提供的最新信息服务。(三)个性化网络技术个性化服务要求从服务内容到服务风格都直接面对每一个用户。这样的技术和服务目前没有被很多网站采用。但当前已经出现了许多这样的技术。my-info 就是一种个性化网络技术,它能够实现对内容、风格、功能进行充分选择。my-info 是一个完整的个性化信息订制获取和个人信息编辑处理系统,同时它也是极具个性化的个人信息web 页面。其主要目的是与i-search (智能化全文检索)技术相结合,帮助用户从网络资源中订制用户所需要的各类个性化信息,建立internet 上的个人信息用户

12、。my-info 的具体应用形式有个性化用户信息网和个性化用户信息主页两点。首先是个性化用户信息网,它主要包括:订制用户感兴趣的信息、实现用户快速检索的内嵌i-search 的智能化中全文全检索系统,为用户提供站内搜索、internet 搜索、各类事件提示等常用功能。其次是个性化用户主页,主要根据用户的爱好订制用户个性化页面、帮助用户建立个人信息库,实现个性化用户信息数据的实时更新,真正实现用户完全独享的个性化信息空间。总之,my-info 作为用户的个性化信息服务系统,可以帮助用户自主订制符合用户个人偏好的网页、定制用户所需要的信息分类栏目、建议用户感兴趣的信息专题,在帮助用户建立完全个性化

13、的信息空间的同时,系统还提供了信息浏览、信息定制、个人收藏、通讯簿、日程管理、个性定制、个人信息等应用服务。(四)特殊的整合服务一个网站的价值不仅在于它有多少原创信息,在于它有足够引力的信息,更在于信息有没有被有效阅读和使用,以及它们何时、怎样被使用。因此,在以用户服务为中心的后门户时代,“整合”具有特殊的价值,而后门户时代的有效的技术手段也使网络整合服务成为可能。比如,慧聪科技的i-news 系统就是采用了新闻实时采集技术,后台可同时采集数千家网站信息,是一种极端有效的网络获取技术。四、个性化信息的聚类与推荐聚类分析是将具体或抽象的数据集划分为若干组或类的过程, 聚类产生的每一组数据称为一个

14、簇, 簇中的每一数据称为一个对象。聚类的目的是使同一簇中对象的特性尽可能相似, 不同的簇中对象间的特性差异尽可能地大。所谓基于用户的聚类分析, 是在个性化服务中, 通过对网站用户进行聚类, 把具有相似浏览模式的用户聚成一簇, 聚类产生之后, 根据簇中其他用户浏览行为, 预测目标用户的浏览行为, 最终对目标用户做出个性化的推荐。本文将采用基于用户的k- means 算法对网站的日志进行分析,从而对网站用户进行群组划分,产生良好的个性化推荐服务。k- means 聚类算法, 也被称为 k- 均值算法, 是一种得到广泛应用的算法。k- means 算法以 k 为参数, 把 n 个对象分为 k 个簇,

15、 使得同一个簇中的对象之间具有较高的相似度, 而不同簇中的对象之间具有较高的相异度。相似度的计算根据一个簇内对象的欧几里德距离的平均值来进行。简单来说, 聚类就是找到 k 个簇中心, 使得数据点与离其最近的簇中心的距离的均方差(mse) 最小。传统的k- 平均算法的步骤如下:输入:簇的数目k 和包含n 个对象的数据库。输出:k 个簇,使平方误差准则最小。5、 while e 不再明显地改变或者聚类的成员不再变化。传统 k- means 算法实际上是一个逐渐接近的过程, 通过不断地迭代, 更新簇中心, 使得 mse 变小。已经证明这个算法总是能以局部最优结束, 而且迭代的次数和最终得到的聚类结果

16、都与初始的簇中心有关。但是传统的k-means 聚类算法的初始簇的中心是随机选取的,常常会出现较多的孤立点。然而在个性化服务中孤立的点无法对其进行推荐。研究发现,访问量高的用户可以代表一部分用户,这些用户作为聚类中心具有很好的代表性。五、结束语后门户时代的个性化服务,从技术上,它融合了智能搜索引擎技术、网络即时互动技术、个性化网络技术和特殊的整合技术等技术;从服务上,它力求提供一种全新的信息服务平台,以实现从门户网站的以网页为中心的服务向以用户为中心的服务方式的转变,这种个性化服务模式将成为internet 上网络信息服务的主要模式。参考文献:1 董斐、张晓刚、李雄锋、李明树,基于知识管理的个性化服务机制研究,计算机工程与应用,2003 年10 月。2 张望、王辉,个性化服务中的并行k-means 聚类算法,微电子学与计算机,2007 年第10 期。3 刘红泉,后门户时代的网络信息服务个性化服务,现代情报,20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论