版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎的群体个性化研究
关键词:个性化信息采集;个性化查询;搜索引擎;群体个性化1.引言近年来,随着网络的流行和互联网信息的爆炸性增长,整个网络正在堆积成一个前所未有的超级大型数据库。传统的搜索引擎由于其通用性,越来越不能满足不同背景、不同目的和不同时期用户的个性化需求。传统搜索引擎,只要使用相同的关键词检索,返回的结果必然是相同的,它并不考虑不同用户的特殊需要和信息偏好,所有用户都面对着同样的信息空间。而且在传统的搜索引擎中,随便的关键字搜索都会有成千上万条的返回信息,其中不乏大量的过期和损坏的信息和链接,用户要从这些信息中找到需要和有用的信息,又是一个巨大的工程。用户急需一个可以理解用户的个性化需求,并根据用户个性化需求快速准确的提供用户真正感兴趣的信息的个性化搜索引擎。如今,搜索技术遭遇的最大挑战,是如何根据每个用户的细微差别,为他们提供最妥帖的搜索内容,而这项新技术,将为搜索引擎使用方式注入全新的内涵[1]。本文在个性化研究的基础上,通过进一步扩展用户需求和优化搜索过程,提出了一种更为详细客观的群体个性化的信息搜索服务。2.个性化搜索引擎个性化搜索引擎是指按照特定用户的个性化需求,为其提供人性化的互联网搜索服务。具体来说,首先应该获取用户的个性化信息,通过对个性化信息的组织和分析得到用户的个性化模式,然后将用户的个性化模式附加到用户的搜索过程中,侧重获取符合用户个性化需求的网络信息,最后对搜索到的信息进行组织排列,为每个用户提供符合其个性化要求的搜索结果。2.1个性化搜索引擎的体系架构个性化搜索引擎针对传统搜索引擎在用户个性化方面的不足,通过加入个性化模块,获取用户的个性化信息,为用户提供符合其兴趣习惯的搜索结果。[2]其体系架构主要由通用搜索引擎、查询接口、个性化客户端三部分组成。通用搜索引擎部分与传统搜索引擎的功能与结构一样,主要由网络爬虫、索引器、索引数据库、检索器等模块组成,负责网络信息资源的搜索、连接、传输和分析,并根据其中的超链接继续处理其它资源,将分析结果存入索引库,供检索使用。查询接口是用户能看到的部分,通过它为用户提供友好的搜索引擎输入、输出界面。个性化客户端是个性化搜索引擎最为关键的部分,也是区别于传统搜索引擎的主要特征。一般包括个性化信息库模块、查询优化器、中英文词典以及机器的智能学习模块等,其中还包括个性化信息库的更新与维护模块。在用户的使用过程中,机器可以通过用户的浏览行为自主学习,动态更新用户的个性化信息库,并在用户搜索过程中,通过查询优化器连接个性化信息库和中英文词典自动对用户的搜索进行优化,从而达到提高查询质量的目的。2.2个性化信息采集系统个性化搜索引擎与传统搜索引擎的主要区别就在于,个性化搜索引擎可以通过用户的个性化信息,为不同的用户提供符合其兴趣和习惯的人性化搜索结果。每个用户都有他的个性,只有充分理解用户的个性化需求,才能为用户提供更好、让用户更满意的个性化的服务。所以如何收集用户的个性化信息,建立一个健全的、动态的用户个性化信息库,是实现个性化搜索引擎的关键。个性化信息采集模型,根据这个模型我们可以建立一个个性化信息采集系统来收集用户的个性化信息,系统可以通过与用户交互和检测用户的行为习惯,建立和完善一个健全的用户个性化信息库。每个用户都会有其相关的个性化信息,个性化信息采集有两种方式。用户可以直接将个人兴趣或者感兴趣的关键词提交给个性化的信息采集模块,这种称为显式收集。用户也可以对搜索引擎的返回结果进行选择,选择的结果提交给个性化信息采集模块,系统通过分析用户已访问过的站点信息、用户对链接的选择和用户在网页上停留的时间等,也可以获得用户的兴趣反馈,这种称为隐式收集。2.3目前个性化搜索引擎的不足现在的搜索引擎还不能提供令人满意的个性化服务。造成这种现象的主要原因如下:首先,用户的需求难以得到有效的表达。这主要有两个方面的因素:一方面由于用户的文化水平和表达能力上的差异,往往不能通过关键词有效的表达自己的需求信息,而过长而累赘的搜索请求更加得不到需要的搜索结果。另一方面,由于不同用户在思维方式和表达方式上的差异,搜索引擎没有用户相关的个性化信息,也不具备智能的纠正和联想功能,系统往往无法正确理解用户的搜索请求。由于用户与搜索引擎系统在“交流”上的这些障碍,使得用户的需求无法准确的表达,用户的表达也无法被搜索引擎准确的理解和执行,从而导致搜索引擎效率和准确率的低下。其次,检索结果的准确率和检索速度之间存在矛盾。在搜索引擎处理海量数据时,传统的个性化技术常常会产生严重的性能问题,这是由于之前主要适用于传统小型商务网站中的个性化算法和技术往往缺乏良好的缩放性,而且某些语义分析功能,在处理时间和空间的上的耗费很大,在商用搜索引擎上难以普及。3.群体个性化搜索引擎3.1群体个性化搜索引擎概述由于显式收集和隐式收集都存在一定的局限性,个性化研究的基础上,根据每个用户的细微差别,为他们提供最妥帖的搜索内容,这就提出了群体个性化的概念。群体个性化搜索引擎就是将所有的搜索引擎用户根据其用户特征和网络行为特征划分为若干的个性化群体,然后根据不同的用户群体的群体个性制定不同的个性化搜索计划,为其提供相应的个性化、人性化的服务。当有新用户加入时,只要根据其提供的个性化信息,将其归类到各个个性化群体中,就可以为其提供相应群体的个性化服务。3.2群体个性化搜索引擎的体系结构群体个性化搜索引擎是将用户划分为若干群体,然后为每个群体提供专门的搜索引擎,来实现个性化服务的目的,其实现方式类似于前面介绍的多元搜索引擎。多元搜索引擎中,主搜索引擎之下包含众多的专业搜索子引擎,分别处理各个领域的搜索请求。当用户发出搜索请求时,主搜索引擎结合用户的个性化信息对搜索请求进行分解,然后将分解后的搜索请求分别提交给相关的专业搜索子引擎。与多元搜索引擎类似的,群体个性化搜索引擎也是包含众多针对各个用户群体的个性化搜索引擎。当用户使用群体个性化搜索引擎之前,群体个性化搜索引擎会根据收集的用户个性化信息,将用户划分到相应的个性化群体中;当用户发出搜索请求时,群体个性化搜索引擎会根据用户所属的个性化群体,将搜索请求进行分析和优化,然后提交给相应的个性化搜索引擎。群体个性化搜索引擎也分为客户端与服务器端两部分。客户端主要包括用户的群体个性化信息库和优化模块。用户群体个性化信息库主要负责收集用户的个性化信息,并根据用户的个性化信息对用户进行分类,将其归入相应的个性化群体;而优化模块主要负责根据用户所属群体的个性化信息,对用户的搜索请求进行分析和优化,提交给群体个性化搜索引擎,并且对搜索引擎返回的搜索结果进行优化,返回给用户。而服务器端也是主要包括两部分,群体个性化搜索引擎分析器和众多的个性化搜索引擎。群体个性化搜索引擎分析器主要负责对客户端传过来的搜索请求进行分析归类,并分别提交给相应的个性化搜索引擎,然后对各个搜索引擎返回的结果汇总返回给客户端;而众多的个性化搜索引擎则是根据群体个性化搜索引擎分析器传过来的搜索请求对web信息进行搜索,并将搜索结果返回给群体个性化搜索引擎分析器。3.3搜索引擎的精准度分析群体个性化搜索引擎的理论依据是现实世界“人以类聚,物以群分”的原则,它根据搜索引擎用户群体的共性和差异,将整个用户群体划分为若干的个性化用户群,然后以个性化群个性化群体的划分是影响群体个性化搜索引擎搜索质量(也就是查全率和查准率)的关键性因素,个性化群体划分的越多越详细,群体个性化搜索的服务质量就越好。我们可以想象,当用户只划分为一个群体时,群体个性化搜索引擎就成了传统的搜索引擎;当用户群体划分到极致的时候,就成了将每个用户个体作为一个群体。就像世界上没有两片完全相同的叶子,世界上也没有两个人的行为和思维模式是完全相同的,群体个性化搜索引擎的理想状态是为每个个性化搜索引擎的用户量身定制一个专属的个性化搜索引擎。显然对于群体个性化搜索引擎来说,个性化用户群体的划分越详细、个性化用户群体越多,其服务质量就越好;但同时的,个性化群体划分的越详细、个性化群体的数量越多,需要制作的个性化搜索引擎的数量也越庞大,相应的制作难度和制作成本也越高。4群体个性化搜索引擎服务质量与制作成本间的关系个性化群体的划分越详细、个性化群体数量越多,群体个性化搜索引擎的服务质量也就越好,但随着个性化群体数量的进一步增多,群体个性化搜索引擎的服务质量的增长呈现越来越缓慢的趋势;而随着个性化群体数量的增多,群体个性化搜索引擎制作成本基本上呈线性增长趋势。显然这其中有一个最优点,即服务质量与制作成本的交点,当个性化群体的数量达到这个点时,与服务质量相对应的制作成本的价值达到最大化。总的来说,当群体个性化搜索引擎个性化群体的划分粗略而笼统时,群体个性化搜索引擎相对于传统搜索引擎并没有太多的优势,一旦个性化群体的划分细致到一定程度时,群体个性化搜索引擎就会体现出极大的优势来。群体个性化搜索引擎的个性化群体划分的越详细,其服务就越好,但是当个性化用户群体的划分细致到一定程度是时候,这样一件看似简单是事情也会变成一件极为庞大的工程,其相应的制作成本也是极其可观的。所以在制作群体个性化搜索引擎的时候,把握好制作成本与服务质量之间的关系是很重要的。4.总结群体个性化搜索引擎是基于一种理想状态下个性化搜索引擎的普遍和推广,理想状态下的个性化搜索引擎是为每一位搜索引擎的用户提供一个量身订造的个性化搜索引擎,而群体个性化搜索引擎是将用户个体的概念放大为具有相同个性化特征的用户群体,转而为个性化用户群体提供适合其群体个性化的个性化搜索引擎。这种观念的转变是对传统个性化搜索引擎概念的一种突破,它使得理想状态下的个性化搜索引擎在一定程度上得以实现。[1]李晓明,闫洪飞,王继明.搜索引擎--原理、技术与系统[M].北京:科学出版社,2005.[2]李树青,韩忠愿.个性化搜索引擎原理与技术[M].北京:科学出版社,2008.[3]蒋萍,崔志明.智能搜索引擎中用户兴趣分析模型与研究[J].微电子学与计算机,2004,21(11):24-26.[4]曹元大,贺海军.全文检索字索引技术的研究与实现[J].计算机工程,2002,28(6):260一262.ResearchofthesearchengineinpersonalizationofgroupsWenYiDepartmentofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan,Hubei,PRC,(430070)AbstractWebinformationisgrowingmassofInternetinformationonhowtofindtheinformationtheyneedtobecomeimpededdevelopmentoftheInternetamajorchallenge.Whiletraditionalsearchengineshavegreatlyimprovedtheappearanceofnetworkinformationretrievalspeed.Acertainextent,solvedthisproblem,butstillcannotmeetpeople'sinformationservicethegrowingdemandforpersonalization.Atthesametime,inthispayattentiontopersonalityandpeople-orientedera,personalizedanduser-friendlysearchengine,becametheneedsofthetimes.Inthispaper,atraditionalsearchengineintheuserinterface,personalizationofthedefects,theuseofpersonalizedinformationacquisitionsystemtocollectandextracttheuser'spersonalizedinformation,throughtheexpansio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年快消品寄售合同样本
- 2024年携手研发服务协议
- 2024年安全厂房租赁责任书
- 2024年房屋建筑合同
- 2024年指定产品广告代理协议
- 2024年政府车辆维修独家协议
- 线上英语网课教学总结
- 2024年新型劳务派遣合作框架协议
- 2024学校商店摊位租赁合同书(详细规定租赁条件)
- 高一升高二暑假计划(10篇)
- 《节能监察的概念及其作用》
- 综合布线系统竣工验收表
- 蔬菜会员卡策划营销推广方案多篇
- 导管滑脱应急预案及处理流程
- (精选word)三对三篮球比赛记录表
- 尿道损伤(教学课件)
- 大型火力发电厂专业词汇中英文翻译大全
- 火电厂生产岗位技术问答1000问(电力检修)
- 八年级思想读本《4.1“涉险滩”与“啃硬骨头”》教案(定稿)
- 高中语文教学课例《荷塘月色》课程思政核心素养教学设计及总结反思
- 度湖南省建设工程造价参考指标
评论
0/150
提交评论