(计算机应用技术专业论文)基于网络日志挖掘的个性化搜索.pdf_第1页
(计算机应用技术专业论文)基于网络日志挖掘的个性化搜索.pdf_第2页
(计算机应用技术专业论文)基于网络日志挖掘的个性化搜索.pdf_第3页
(计算机应用技术专业论文)基于网络日志挖掘的个性化搜索.pdf_第4页
(计算机应用技术专业论文)基于网络日志挖掘的个性化搜索.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 于两斐 通用的搜索引擎接到不同用户输入查询词后,按照统一模式处理,搜索引擎 返回一样、成百上千、与用户兴趣不相关、重复甚至是过时的信息。个性化技术 针对不同的用户采取不同的服务策略,提供不同的服务内容,提供满足其个性化 需求的服务。 由于网络曰志记录着用户访问网页的信息,用户的访问日志可以反映用户的 浏览模式和浏览兴趣,通过该日志及用户浏览网页的内容,可以发现用户的兴趣, 根据用户的兴趣,建立用户兴趣模型,在用户使用网络搜索引擎进行搜索时,参 考用户的兴趣,对查询词进行修正和查询扩展,对查询结果重新排序,提高用户 查询信息的准确率,节省用户查询信息所需的时间。 本文在对搜索引擎、个性化搜索等相关原理与技术分析的基础上,深入分析 了用户网络日志挖掘和基于网络日志挖掘的用户兴趣提取等关键技术,具体研究 成果如下: ( 1 ) 开发一个插件,在客户端收集用户访问网络的日志,清洗用户访问网 络的日志,分析用户的网络访问日志,挖掘用户访问网络的习惯。对 用户访问的网页内容根据其u r l 特征对网页进行分类。统计分析用 户访问网络日志,挖掘用户的兴趣类。对相同类别的网页内容进行聚 类分析,对兴趣分类集进行挖掘提取用户的兴趣特征。 ( 2 ) 挖掘用户网络访问曰志,统计分析用户访问网络日志中u r l 的有效 信息,提取用户的兴趣类并且对用户访问网页的内容进行“专业性” 的分类,对相同类别的网页内容进行聚类挖掘分析,根据用户的兴趣 类信息挖掘出用户的兴趣特征集。 ( 3 ) 通过挖掘和识别用户访问网络的最大向前引用路径,结合用户兴趣特 征的位置语义信息,挖掘提取用户兴趣特征的固定搭配,提取出用户 兴趣特征的最大扩展短语集合,建立用户兴趣的查询扩展集。 ( 4 ) 根据挖掘网络日志建立的用户兴趣类,用户兴趣特征,用户兴趣特征 的查询扩展集等信息,建立树状的用户兴趣模型。 ( 5 ) 参考用户的兴趣模型,在用户使用搜索引擎进行信息检索的时候,对 用户提交的查询词进行扩展和修正,将修正好的查询词提交给搜索引 擎接口,反馈给用户个性化的信息。 在进行上述理论分析和研究的基础上,对用户使用搜索引擎的记录进行了跟 踪,结果发现,通过挖掘用户访问网络日志及用户访问内容建立的用户兴趣模型, 提高了用户查询信息的效率。 关键词日志挖掘:文本聚类;特征提取;查询扩展;个性化搜索 a b s t r a c t a b s t r a c t t h es e a r c he n g i n eh e l p su st os e a r c he x p e d i e n t l yi ns o m ed e g r e e ,b u tt h e s e a r c he n g i n ew i l ls h o wt h es a m el i n k st ot h ep e o p l ew h o ms e n dt h es a m es e a r c h w o r d t h es e a r c he n g i n ed i d n tc o n s u l tt h ec u s t o m e r sb a c k g r o u n da n di n t e r e s t t h es e a r c he n g i n ea l w a y ss h o wm i l l i o n so fw e bp a g e sw h e nt h ec u s t o m e rs e n da s e a r c hw o r d m a n yo ft h ew e bp a g e sa r et h a tt h ec u s t o m e rd i d n tl i k e i no r d e rt o r e t u r nb a c kd i f f e r e n ti n f o r m a t i o nt ot h ed i f f e r e n tc u s t o m e r , t h ep e r s o n a l i z e dw 曲 s e a r c ht e c h n o l o g i e sw e r es t u d i e da r d e n t l y t h ew e bl o gr e g i s t e rt h ec u s t o m e rs c a nt h ew e bi n f o r m a t i o n ,t h ew e bl o g i n c l u d et h ec u s t o m e r ss c a nm o d e la n dt h ec u s t o m e r si n t e r e s t m i n i n gt h el o g a n dt h ew e b s c o n t e n t ,c o u l dg e tt h ec u s t o m e r s i n t e r e s ta n dt h ei n t e r e s te x p a n s i o n w o r d s w h e nt h ec u s t o m e ru s et h ew e bs e a r c he n g i n et os e a r c hi n f o r m a t i o n ,t h e s e a r c hw o r dc o u l de x p a n d e da n dm o d i f yb yt h ec u s t o m e r si n t e r e s tm o d e l a r r a y i n gt h er e t u r nb a c kl i n k sb a s e do nt h ec u s t o m e r si n t e r e s t s ,t oh e i g h t e nt h e c u s t o m e rs e a r c hi n f o r m a t i o n t l l i sd i s s e r t a t i o ni n t r o d u c e st h ew 曲s e a r c ht h e o r y , p e r s o n a l i z e dw e bs e a r c h e t c is t u d i e dt h ew e bl o gm i n i n ga n dt h ec u s t o m e r si n t e r e s t sb a s e do nt h ew r e b l o g t h e y a r e : ( 1 ) t od e v e l o pab u i l t i np r o g r a m ,c o l l e c tt h ei n t e r e s to ft h ec u s t o m e r a n a l y z i n gt h ec u s t o m e r sw 曲l o g ,g e t t i n gt h ec u s t o m e r sh a b i to f b r o w s i n gt h ei n t e m e t m i n i n gt h ew e bl o g ,g e tt h ei n t e r e s tc l a s so f t h ec u s t o m e r t oa n a l y z et h ew e bc o n t e n tb a s e do nt h ei n t e r e s tc l a s s , t og e tt h ec u s t o m e r si n t e r e s t ( 2 ) m i n i n g t h ec u s t o m e r sw e bl o g a n a l y z i n gt h ee f f e c t i v ei n f o r m a t i o n f r o mt h ew e bl o gu r l g e t t i n gt h eh a b i tc l a s so ft h ec u s t o m e ra n d c l a s s i f yt h ew e bc o n t e n tb a s e do ni t su r l c l u s t e r i n gt h ew e b c o n t e n tb a s e do nt h ew 曲c l a s s ,t og e tt h ec u s t o m e r si n t e r e s t s ( 3 ) t om i n et h ew r e bl o ga n di d e n t i f yt h ec u s t o m e r sb r o w s i n g s e q u e n c e t oi d e n t i f yt h ec u s t o m e r sl o n g e s tb r o w s ep a t h m i n i n g t h eh i e r a r c h yw e bc o n t e n tb a s e do nt h el o n g e s tb r o w s ep a t h g e t t i n gt h ec u s t o m e r si n t e r e s t sa n dt h ei n t e r e s te x p a n s i o nw o r d s c o n s u l tt h ec u s t o m e r si n t e r e s t s ( 4 ) t on e wt h ec u s t o m e r si n t e r e s tm o d e lb a s e do nh i so rh e ri n t e r e s t s c l a s s e s ,i n t e r e s t s ,a n di n t e r e s te x p a n s i o nw o r d s i i i 北京t 业大学t 学硕 j 学位论文 ( 5 ) m e nh eo rs h eu s e st h ew e bs e a r c he n g i n es u c ha sg o o g l e ,b a i d u ; t h en e ws e a r c he n g i n em o d i f i e sa n de x p a n d st h es e a r c hw o r d s c o n s u rt h ei n t e r e s tm o d e l t om e e tt h ec u s t o m e r sp e r s o n a l i z e d s e a r c h c o l l e c t i n g t h ei n f o r m a t i o no ft h ec u s t o m e r su s i n gw e bs e a r c he n g i n e i n f o r m a t i o n ,a n a l y z i n gt h ei n f o r m a t i o ni n d i c a t et h a tt h ee f f i c i e n c yo ft h ec u s t o m e r u s i n gt h es e a r c he n g i n ei n c r e a s e s i ti ss a v e dt h ec u s t o m e r st i m et o f i n dt h eu s e f u l i n f o r m a t i o n k e yw o r d sw e bl o gm i n i n g ;t e x tc l u s t e r i n g ;q u e r ye x p a n s i o n ;p e r s o n a l i z a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:撞弛l 日期到 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交 论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部分内容,可以采用影 印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定 日期: 第1 章绪论 第1 章绪论 1 1 课题背景及研究意义 目前,搜索引擎技术成为仅次于门户网站的第二大核心网络技术。它是以一 定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理, 为用户提供检索服务,从而实现快速检查信息的一种网络工具。但是,随着w w w 信息资源的不断丰富,现有搜索引擎越来越不能满足人们的查询要求。而由于 w w w 信息的爆炸式生长和人们对搜索引擎关注点的转变( 从如何找到更多的 信息转移到如何找到准确、有用的信息) ,搜索引擎技术面临着前所未有的挑战 u j 。人们想要在w w w 上找到自己真正想要的东西犹如大海捞针。另一方面,迄 今为止,查询工具的查询能力有限,特别是缺乏识别、理解和使用深层信息的能 力,使得搜索引擎的个性化较差。目前,现有搜索引擎的不足越来越明显,主要 体现在以下几个方面: ( 1 ) 信息过量,返回太多的无关内容若干个关键词构成的一个查询组合 可能返回上万个相关页面链接,很多检索结果和用户查询毫无关系,而且返回的 信息很少具有个性化的相关度排序,用户最满意的信息并不是最先推荐给用户。 研究指出,大概有7 5 的搜索结果可能是和查询条件无关的。 ( 2 ) o n e s i z e - f i t - a l l 模式现有的传统搜索引擎基本上都采用基于一般意图 的索引方法,即对每个用户都提供统一的模式叫n e s i z e f i t a l l 模式,也就是 不同的用户提交相同的关键字进行查询时,搜索引擎返回的结果相同,毫无个性 而言。然而,搜索本身是一个个性化的活动,不同用户由于年龄、性别、职业、 学历、爱好等不同,在不同的时期各自感兴趣的领域也随之不同,各自对词义的 理解也不尽相同,不同的用户对同一检索请求得到的检索结果常常有不同的评 价,而目前的传统搜索引擎不能体现用户的信息需求个性,即传统搜索引擎提供 的服务是“面向检索的,而不是“面向用户”的。 ( 3 ) 关键词匹配大部分搜索引擎仅仅需要关键字( t e r m s ) 的匹配来收集信 息,用户在检索信息时,用户的查询表示与实际的检索意图往往存在较大的差异, 常常不能准确地描述所要查询的内容,而且,由于中文关键字一词多意的特性, 使得搜索返回的结果中常常包含着许多无关的信息,因此,提高查准率已成为改 进搜索引擎的关键所在。 ( 4 ) 短查询 当前的搜索引擎在查询中所包含的词汇较少时,查询效果则 更差。而且,由于大部分用户进行信息检索时,一般仅仅使用1 2 个关键词描 北京工业大学工学硕七学位论文 述他们的查询意图,这就造成无法准确地检索出用户需要的内容,这就是所谓的 “短查询 问题。 ( 5 ) 用户选取结果行为的利用传统的搜索引擎很少提供对用户的查询结 果进行反馈的渠道,没有对用户选取结果的行为加以利用,没有记录用户对搜索 引擎返回信息的关注度,不能提取用户的兴趣。因此,传统的搜索引擎不能提供 个性化服务【2 j 。 总之,传统的搜索引擎无法处理随用户不同而变化的个性化知识,随地域不 同而变化的区域性知识以及随领域不同而变化的专业性知识等,也不能解决因 “短查询”和“查询词不明确而造成的检索结果准确率不高的问题,因此,作 为第三代搜索引擎中的个性化查询扩展技术的研究及其实现成为必然。在当前主 流的搜索引擎和未来一代搜索引擎的设计中,信息检索的个性化和智能化将成为 下一代搜索引擎的重要特征。 网络日志可以反映用户的浏览模式和兴趣,w e b 中包含了w e b 页面的内容 信息、丰富的超链接信息,以及w e b 页面的访问和使用信息,为数据挖掘提供 了丰富的资源。w e b 挖掘利用数据挖掘的原则和思想,针对w e b 信息的特性, 对传统的挖掘方法进行扩展和改进,将其应用到w e b 信息上进行挖掘,得到有 用的知识。网络日志挖掘也是w e b 信息挖掘的一个研究方向,网络日志挖掘旨 在通过对网络日志进行有效的数据挖掘,发现隐藏在日志数据背后的w e b 用户 访问模式,挖掘出蕴含在w e b 访问过程中的规律,即用户的访问兴趣。 所以对用户的网络日志进行挖掘,建立用户的兴趣模型。在用户使用搜索引 擎进行搜索时,参考用户的兴趣模型,对用户的查询词进行修正和扩展,对搜索 结果进行处理和重新排序,提高用户检索信息的精确度,提高用户检索信息的查 准率和查询效率。 1 2 本文的研究内容 本文的主要工作是用户的兴趣提取及用户兴趣模型的建立,通过开发一个插 件,收集用户浏览网页的日志和网页内容,首先分析挖掘用户访问网络的日志, 根据网络日志内容对网页进行分类,对相同类别的文本进行聚类分析,挖掘用户 的兴趣。 根据基于日志挖掘的用户兴趣类,聚类挖掘基于用户兴趣类的网页,抽取用 户的兴趣特征。挖掘用户浏览网页的最大向前引用路径,参考用户的兴趣特征, 挖掘提取基于用户兴趣特征的查询扩展集。 用户兴趣建模,根据基于日志挖掘的用户兴趣类和聚类挖掘用户访问w e b 的文档内容而提取的用户兴趣特征,建立三层树状的用户兴趣模型。通过分析提 第1 章绪论 取基于用户兴趣的查询扩展集。 用户个性化搜索应用,参考用户的兴趣模型,当用户使用搜索引擎查询信息 的时候,对用户提交的查询词进行修正和查询扩展【2 1 ,实现个性化搜索。 1 3 本文的组织结构和内容安排 第一章绪论,首先针对现有搜索引擎的特点,总结了目前的搜索引擎存在的 主要问题,并由此提出了个性化搜索的概念,介绍了个性化服务,然后阐述了目 前网络日志挖掘在搜索引擎中的应用及本文研究的内容和研究意义,最后介绍了 论文的主要工作和本文的组织结构。 第二章日志挖掘和个性化搜索,首先介绍了日志挖掘及个性化搜索的研究现 状,然后分析了目志挖掘和个性化搜索的关系,最后介绍了基于日志挖掘的个性 化原理及研究重点。 第三章研究了基于日志挖掘的兴趣类、兴趣特征、兴趣特征的查询扩展集的 挖掘和提取。 第四章研究了用户兴趣模型的建立,建立了基于日志挖掘的树状兴趣模型, 第五章研究了基于用户兴趣模型的个性化搜索应用,在参考用户兴趣类、兴 趣特征集和用户兴趣的查询扩展集的基础上,对用户在使用搜索引擎时,对其搜 索词进行查询扩展和修正。对搜索引擎返回的结果,根据用户的兴趣模型进行重 新排序,实验证明,基于日志挖掘的用户兴趣集有利于提高用户查询信息的效率。 最后对全文进行总结,并对今后的研究工作进行展望。 第2 章日志挖掘和个性化搜索 第2 章日志挖掘和个性化搜索 2 1 日志挖掘与个性化关系 目前,基于w e b 日志的挖掘技术发展迅速,利用w e b 日志可以获得页面的 点击次数、页面停留时间和页面访问顺序等信息。通过分析w e b 日志可以获得 相关页面相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信 息创建或更新用户描述文件。w e b 日志挖掘中最常用的方法是根据网页的点击次 数来评价用户对该网页的兴趣,其实这种方法是不完整的,因为只有很少一部分 客户端的数据传到服务器端,而且经常是不正确的,如:d h c p 和内容缓存就会 使w e b 日志变得不可靠。 在客户端对用户浏览行为分析和兴趣挖掘将会很好的克服w e b 服务器端日 志的不完整性和不可靠性,为个性化服务【l 】提供更加精确的用户描述。在客户端 记录用户的浏览行为还会带来如下好处和克服其他方法的一些不足:不需要用户 的带有主观性的反馈;不会给用户的正常浏览带来干扰;针对单个浏览器收集数 据更加精确;行为数据更加丰富;动态获取,易于更新:还可以通过对用户访问 方式的分析获得一些w e b 对象之间的相互关系。当然还是存在一些不足,特别 是记录的用户行为数据很少和w e b 站点内容是动态生成或经常改变时。不过, 这可以通过联合内容挖掘的方法来更加准确地捕获用户的兴趣和形成更加精确 的用户描述文件。 本文的研究是基于网络日志挖掘在个性化搜索中的应用,通过收集客户端用 户浏览i n t e m e t 的日志信息,挖掘分析这些日志,挖掘出用户的浏览习惯及用户 感兴趣的站点及感兴趣的网页内容,本文主要是通过挖掘用户访问网络的日志内 容,提取用户的兴趣类,然后对兴趣类文本进行挖掘,提取用户的兴趣特征集和 兴趣特征的查询扩展集,根据挖掘的兴趣类、兴趣特征集和兴趣特征的查询扩展 集建立用户的兴趣模型,在用户进行信息检索的时候参考用户的兴趣模型对其提 交的查询词进行修正和扩展,并对搜索引擎的搜索结果进行重新排序。 2 2日志挖掘及搜索引擎发展现状 2 2 1 搜索引擎原理 搜索引擎,英文名称s e a r c he n g i n e ,一般是指通过超文本( 超媒体) 技术在 北京工业大学工学硕七学位论文 i n t e m e t 网络上建立的一种向网络用户提供网上信息资源检索和导航服务的专门 站点或服务器。它通过搜集网上的信息,如网站、网页、u r l 以及非w w w 形 态的b b s 、t e l n e t 、f t p 等,进行整理、组织、加工、处理,建立管理和存储这 些信息的索引数据库,并提供基于该索引数据库的检索。当用户输入关键词查询 后,全文检索到的结果是与输入关键词相关的一个个网页的地址和该网页内容的 摘要。这些网页中应包含所输入的关键词或者相关的词汇。大多数搜索引擎支持 最常见的关键词查询,并且检索功能强大。一般可以进行布尔逻辑检索、词组检 索、位置检索、截词检索、检索词出现在特定位置检索等。 搜索引擎一般由c r a w l e r 、分析器、索引器、索引数据库、检索器和用户接 口组成。c r a w l e r 以广度优先或深度优先的方法从w e b 上下载页面,分析器对下 载页面的内容进行分析以用于索引,具体包括分词、过滤、转换等工作;索引器 将文档表示为一种便于检索的方式并存储在索引数据库中,一般采用的方法有矢 量空间模型( v e c t o rs p a c em o d e l ) 、倒排文档、概率模型等;检索器实现用户查 询关键词和目标文档匹配度的计算,根据计算结果所有符合查询要求的页面 u r l 按照相关度递减的顺序排列,并返回给用户;用户接口为用户提供一个输 入查询请求,定制查询结果的w e b 页面并将查询结果格式化后返回给浏览器。 2 2 2日志挖掘发展现状 w e b 挖掘定义为:针对包括w e b 页面内容、页面之间的结构、用户访问信息、 电子商务信息等在内的各种w e b 数据,应用数据挖掘方法以发现有用的知识来帮 助人们从中提取知识,改进站点设计。传统的w e b 挖掘( w e bm i n i n g ) 就是从大 量的w e b 资源中发现隐含的、未知的、对决策有价值的知识和规则的过程。w e b 挖掘可以分为三类:w 曲内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e b s t r u c t u r em i n i n g ) 和w 曲日志挖掘( w e b l o gm i n i n g ) 。其中,w e b 日志挖掘是研 究人员关注的焦点,通过挖掘w e b 日志来发现用户访问模式及行为,可以实现用 户聚类、页面聚类和发现频繁访问路径,进而改善网站结构设计和为用户提供个 性化服务。 - 6 - 第2 章同志挖掘和个性化搜索 图2 - 1w e b 挖掘分类 f i g 2 1w e bm i n i n gc l a s s i f y 传统的w e b 日志挖掘,其过程大体都分为三个阶段:数据预处理、模式发 现和模式分析及应用。数据预处理阶段主要分为四个子阶段:数据净化、用户识 别、会话识别、路径补充,w e b 日志预处理阶段的目标是将原始的日志文件经过 过滤、筛选以及重组后,将之转变为适合挖掘的数据格式。模式发现阶段主要分 为:统计分析、关联规则挖掘、数据依赖关系,其目的是使用各种数据挖掘算法 发掘隐藏在数据背后的规律和模式。模式分析和应用:经过模式发现阶段,可以 得到一些用户访问的模式和规律。 本文研究是基于客户端( i e 浏览器端) 的w e b 日志挖掘的研究,由于客户 端网络日志由日志收集引擎完成,可以根据需要记录用户浏览i n t e m e t 的信息。 本文根据需要记录了打开网页的时间、网页的u r l 地址、关闭网页的时间及网 页的文本内容。 张颖超【3 】等人,通过对分析w e b 日志数据,利用数据挖掘方法发现用户的使 用模式,建立用户兴趣的知识库,从而向用户提供个性化服务。从用户的浏览行 为中推断用户的兴趣。可以根据用户的书签文件以及每次检索输入的关键词、通 过感知用户的停留时间、访问次数、保存等动作,分析用户的意图,获取用户感 兴趣的相关信息及其感兴趣的程度,对用户的个人信息和权威页面利用数据挖掘 技术找出有用的模式进行综合分析,监视用户的信息检索与浏览过程。能够针对 不同的用户提供不同的访问模式,使得用户的搜索结果更加个性化。同时使用 w e b 挖掘技术,基于知识库和关键词的搜索来提高信息检索的精确度、召回率及 全查率。 网络日志中是否蕴含用户访问w e b 的规律性以及如何利用这些特性,用统 计的方法研究了日志规模与用户数、w e b 文档数以及单位用户访问w e b 文档数 的关系,最后得出了一定时间段的w e b 访问日志中蕴含了用户的稳定兴趣的结 论。从静态分布上看,用户对w e b 文档的访问动机可以分为突出兴趣和次要兴 趣。用户由突出兴趣驱动访问w e b 的频率远远高于次要兴趣的驱动。从动态演 化上看,用户对w e b 文档的访问动机可以分为稳定兴趣和偶然兴趣。用户由稳 定兴趣驱动访问w e b 的频率远远高于偶然兴趣的驱动。一定时间段的网络日志 中蕴含了用户的稳定兴趣,也就是说日志中每个用户的兴趣体现出较稳定的特性 【5 】 o 文献【6 】提出的方法是,根据用户检索历史建立一个用户特征文件,再根据开 放目录建立一个通用特征文件。然后,基于这2 个文件推理用户查询所属的适当 分类,并且在这个分类中加入用户输入的检索词,以此来提高检索效率。该方法 只考虑了分类,没有考虑到同一层分类之间可能具有的某种逻辑关系。文献【7 】 的用户特征文件采用了一个词与词的关系表,该表记录了词与词之间的同义率和 同现率,并且对用户输入的检索词做了扩展,即用“( 检索词v 同义词) a 一同出 现的词”来进行检索。这种方的缺点:一是词汇量大,可行性不高;二是由于“逻 辑 与“运算,使得检索范围缩小,用户有可能检索不到想要的信息。许多关 于信息过滤【8 1 1 】和智能代理【1 2 】的文章也提到了建立显式或隐式的用户特征文 件,然后,利用用户特征文件过滤检索结果。但这些文章没有考虑到信息概念在 逻辑上的层次关系。而我们的目标是找出用户有可能感兴趣的分类,然后在分类 下检索以提高检索效率。文献【1 3 】采用的方法是:给出用户输入检索词的近义词、 同义词,供用户选择,以此来提高查全率:在返回结果的时候,通过用户个性化 信息表,过滤掉用户不感兴趣的内容,从而提高检索精度。这种方法虽然提高了 查准率,但没有从根本上解决个性化推荐的问题。对于文本集合,张瑜等【1 4 】采 用o d p ( o p e nd i r e c t o r yp r o j e c t ,o d p ) 的树形结构对其进行分类。文献 1 5 1 依据 w e b 日志建立数据立方体( d a t ac u b e ) ,然后对数据立方体进行数据挖掘和联机 分析处理( o l a p ) 。基于数据立方体的挖掘侧重于将w e b 日志转变为结构化的 数据立方体,能从多角度全面地进行挖掘和分析,并能引进各种成熟的数据挖掘 技术,有利于w e b 挖掘与数据挖掘技术的迅速融合与发展。 基于角色的用户兴趣模型,角色包含的兴趣比用户包含的兴趣更为准确,因 为有时用户自己也无法准确地表达自己的兴趣,而用户所属的角色可以有效地对 用户的兴趣进行修正。该模型能够有效地表示用户兴趣,根据用户兴趣对传统搜 索引擎的搜索结果进行匹配度计算,并将符合用户兴趣的结果返回给用户【l 6 1 。 表达文档和用户兴趣比较直接的做法是利用文档特征。用户兴趣是多方面 的,可以根据其浏览过的文档选取合适的主题词来表达用户兴趣【l7 1 。该方法需 要一个训练的过程,首先从预定义好的主题词表中选取词来描述训练文档,为每 个词都创建一个分类器,新文档将被每个分类器处理,对该文档有意义的词就赋 予该文档。 用户兴趣模型的表示和更新机制其基本思想是通过用户提供的能够表明个 人某一方向兴趣的各类示例文本,经过文本映射和文本结构分析,获得文本的逻 8 - 第2 章日志挖掘和个性化搜索 曼曼曼! ! 皂曼篁舅曼璺曼蔓曼i n 一一; 一i m m 一一i 。;。鼍鼍 辑表示,将段落作为识别用户兴趣的基本要素,利用段落间的聚类分析和对于用 户兴趣的表达能力,获取最终的用户兴趣特征向量,依次搜索相关文本流,将符 合约定条件的文本推送给相应的用户,在相关反馈基础上,改进该用户的兴趣模 型【18 1 。 崔航等提出基于用户查询日志的查询扩展统计模型【1 9 1 。它的基本思想是: 在用户查询记录的基础上建立用户空间,在文档集合上建立文档空间,根据用户 日志将两个空间中的词,按照用户提交某个查询所点击的文章以条件概率方式连 接起来,当新的查询到来时,系统选取当该查询出现时被选择成为扩展用词的条 件概率最大的文档用词加入查询中。文献【1 9 】的研究成果表明,这种查询扩展对 查询短小、文档集的内容比较分散的情形尤为适用,可以极大地提高查询精度和 查全率。 文献 2 0 】研究了基于偏好的查询扩展方法,文献【2 1 之2 1 将用户的偏好表示为知 识库中概念的权重,根据用户偏好优化服务。通过分析用户的网页浏览日志,建 立起用户对不同概念的兴趣度模型,然后据此模型发现初次检索返回文档中与原 查询相关的文档,自动选择与原查询高度相关的词与词组来进行查询扩展。 语义概念查询扩展技术的关键性问题是概念语义空间的建立和查询语义的 提取。概念语义空间的建立是语义概念查询扩展技术的核心问题,受到众多学者 的关注,文献【2 3 。2 7 1 都对此进行了研究,取得了一定的成果。计算词语语义距离的 方法,一般是将所有的词组织在一棵或几棵树状的层次结构中,在一棵树形图中, 任何两个结点之间有且只有一条路径,于是这条路径的长度就可以作为这两个概 念的语义距离的一种度量【2 引。挖掘用户兴趣,建立这些兴趣的语义空间,在用 户查询信息时,参考这些基于用户兴趣的语义空间,对提高查准率和满足用户搜 索信息的个性化用很大的意义,基于用户兴趣的语义查询扩展和个性化搜索都是 将来研究的方向。 2 2 3 搜索引擎发展现状 经过了多年的发展之后,现在的搜索引擎功能越来越强大,提供的服务也越 来越全面,总的来说现在的搜索引擎主要有以下几种情况。 ( 1 ) 目录型和检索型的搜索引擎相互结合由于目录型和检索型的搜索引 擎有各自的优点和缺点,目前它们谁也无法完全取代谁,于是很多搜索站点都同 时提供这两种类型的服务。例如y a h o o 是目录型搜索引擎的代表,但同时它也提 供基于关键词的检索服务:而i i l f os e e k 则主要是个检索型的搜索引擎,但它 同时也建立了一个由人工编辑的小型目录。 ( 2 ) 多样化和个性化服务现在绝大多数搜索引擎都提供多样化的服务, 北京工业大学工学硕士学位论文 以吸引更多的用户,商业搜索引擎尤其注重这一点。以y a h o o 为例,用户可以从 它的首页上查看新闻、金融证券信息、天气预报、浏览黄页,可以进行网上购物、 拍卖、找人,或者使用免费e m a i l 和网上寻呼等服务。近期许多搜索引擎已开 始提供个性化的服务,例如y a h o o 的“m y y a h o o 、i n f os e e k 的“p e r s o n a l i z e ds t a r t p a g e ”、l y c o s 的“m yl y c o s 等,它们允许用户为自己定制起始页面,并选择感 兴趣的内容和经常使用的服务放在该页面上。 ( 3 ) 强大的数据量及查询功能g o o g l e 号称是目前世界上功能最强大的搜 索引擎,其搜索范围包含了4 0 多亿网页。g o o g l e 搜索引擎使用了数据挖掘( d a t a m i n i n g ) 技术和网站评级方法。g o o g l e 搜索引擎由于具有前台操作简单化,后台 选择复杂化的特点,因而被称为“第二代搜索引擎”。2 0 0 0 年6 月2 6 日,y a h o o 已决定终止与i n k t o m i 搜索引擎公司的合作,以后g o o g l e 公司的搜索引擎将作 为该门户网站的缺省搜索引擎。 2 2 4 搜索引擎的发展趋势 搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用 户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度 关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。总的看来, 搜索引擎技术的未来发展趋势将主要体现在以下几个方面: ( 1 ) 注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎 上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需 求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户 不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:一是通过 各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟 踪用户检索行为,分析用户模型:使用相关度反馈机制,使用户告诉搜索引擎哪 些文档和自己的需求相关( 及其相关的程度) ,哪些不相关,通过多次交互逐步 求精。二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类,使用可视化技术 显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类 聚,减少信息的总量。 ( 2 ) 智能化搜索信息智能代理是另外一种利用互联网信息的机制。它使 用自动获得的领域模型( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、 领域组织结构) 、用户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜 集、索引、过滤( 包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、 第2 章日志挖掘和个性化搜索 曼皇曼曼曼! 曼罡曼曼皇曼皇i i i 曼! 曼曼曼曼曼曼曼曼曼曼! ! 曼曼曼曼量皇曼! ! 曼曼曼曼曼尝曼曼曼曼曼! 曼曼! 曼! 量曼! 曼鼍曼曼! ! ! 曼! 曼曼皇 对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动 态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行,也可以在 服务器端运行。 ( 3 ) 个性化搜索个性化搜索是未来搜索技术发展的一个重要方向,是机 器服务人类,人机和谐交互的一个重要发展。个性化信息检索可以通过长期观察 用户的搜索行为,从中识别用户的信息需求偏好,并且能够根据用户对搜索结果 的评价,自觉调整搜索策略,使得对于同一检索请求,不同用户能够得到不同的 满足自己需要的信息。由于在检索中考虑了用户的差异,个性化信息检索可以大 大提高检索的效率。个性化信息检索目前尚处于研究阶段,还没有成熟的系统问 世。但随着智能技术的不断发展以及学术理论的逐渐成熟,个性化信息检索必将 取得突破性的进展。 2 3 个性化搜索 2 3 1 个性化服务技术 个性化服务是能够满足用户的个体信息需求的一种服务,即根据用户的使用 行为、习惯、爱好和特点 4 0 - 4 1 】等,向用户提供满足其个性化需求得一种信息服务。 实现个性化服务需要跟踪和学习用户的兴趣和行为,并研究用户兴趣的表达方 式。个性化服务是这样一个过程,收集并存储访问者的信息,分析这些信息,然 后根据分析,在合适的时间向每一位访问者发送正确的信息。个性化服务也叫定 制服务,它主要包括三个方面的内容:服务时空的个性化在用户希望的时间和希 望的地点得到服务;服务方式的个性化能根据用户个人爱好或特点来开展服务; 服务内容个性化提供的服务不是千篇一律而是各取所需各得其所。由于在服务器 端、代理端和客户端所搜集的用户信息是不同的,因此所能应用的个性化服务也 是有所不同的。 个性化技术主要指收集和分析信息的技术。主要的步骤为:收集访问者信息、 分析、生成、推荐。收集访问者信息的目的,是生成一个访问者数据库,其中描 述站点访问者的兴趣、爱好、特点或其它重要信息。最普遍的收集访问者信息的 技术有显式收集、隐式收集和使用旧数据三种。显式收集要求每一位访问者填写 信息或者问卷,这种方法的优势是让客户直接告诉站点,他们想看到什么,网站 相应地动态构建个性化的w e b 页面,隐式收集、追踪访问者的行为,这种技术 通常对访问者是透明的,浏览和购买模式是最经常被评估的行为,使用旧数据, 通过访问旧数据寻找有价值的信息,对于现存的客户和已知的访问者提供丰富的 北京t 业大学工学硕士学位论文 信息源。 2 。3 。2 个性化搜索原理 个性化服务技术希望利用人工智能的技术来帮助用户更加准确地找到他们 所需的信息,它包括个性化搜索引擎、智能软件a g e n t 【2 9 - 3 2 1 、个性化推荐系统【3 3 】 等。一个综合用户喜好、基于内容或结构等的个性化服务模型,将可以为用户提 供一种管理信息的有效手段,从而帮助他们克服信息爆炸所带来的问题。虽然个 性化服务是一个比个性化搜索范围更大的范畴,但它的很多技术都是个性化搜索 可以利用或借鉴的,因此本节就对个性化服务技术作一些总结。 个性化搜索一般使用如下图所示的结构实现的: 图2 2 传统的个性化搜索结构 f i g 2 2t r a d i t i o n a lp e r s o n a l i z e dw e bs e a r c he n g i n e 2 3 3 基于网络日志挖掘的个性化搜索 由于网络日志中蕴含着用户的兴趣,本文研究的重点就是通过挖掘用户的日 志、用户浏览网页的习惯、用户浏览的内容建立用户的兴趣模型。在用户使用 搜索引擎的时候,对其查询词进行修正和查询扩展,来实现个性化搜索,具体 表现如下图所示: 第2 章日志挖掘和个性化搜索 图2 3 基于网络日志挖掘的个性化搜索 f i g 2 3p e r s o n a l i z e dw e bs e a r c hb a s e do nw e bl o gm i n i n g 2 4 本章小结 搜索引擎改变了我们上网的习惯,提高了我们查询信息的速度和效率,搜索 引擎改变了我们工作方式甚至是生活方式,搜索引擎在移动搜索、个性化搜索、 智能化搜索这三大发展趋势的引领下,它正在不断创造奇迹,而我们正在享受着 这些奇迹。由于日志中蕴含着用户访问网络的习惯和浏览模式,用户访问网页的 内容体现着用户的兴趣,所以,基于日志挖掘的个性化搜索,可以较好的满足用 户搜索信息的要求。 第3 章基于同志挖掘的兴趣提取 第3 章基于日志挖掘的兴趣提取 3 1兴趣类的建立 3 1 1 网页兴趣度的度量 利用访问时间和访问频率计算用户兴趣度基于如下观点:用户对于网页的浏 览可能会带有一定的随意性,但同时又会有一定的规律,主要表现在:如果一个 用户对某一网页比较感兴趣,则该用户在浏览此网页时就会消耗更多的时间,同 时也会经常重复访问此网页。这是一种定量测度用户兴趣的方法。可以利用下面 的公式来计算兴趣度 网页的兴趣度:f = t t + d d ;t 为访问本网页的时间,t 为访问网络的时间, d 为文档的特征数量,d 为一次所有访问网页的特征数量。 3 1 2日志的挖掘 目前的日志挖掘多为服务器端的日志挖掘,由于i n t e m e t 上大量杂乱无章的 信息是以非结构化或半结构化的形式表现出来的,而数据挖掘涉及到结构化的数 据,w e b 服务器日志记录具有完整的数据结构,所以有利于数据挖掘的进行。 w e b 日志挖掘通过分析w e b 日志记录发现用户访问规律,进而应用到个性化推 荐、系统改进以及商业智能等方面。 w e b 日志挖掘就是通过对w e b 日志记录的挖掘,发现用户浏览w e b 页面的 模式。它可用于分析网站流量模式,发现系统的性能瓶颈,优化站点结构,提高 站点效率,提高用户访问的有效性,发现用户的需求和兴趣等。 本文研究内容如图3 。2 所示,通过客户端w e b 的日志挖掘提取用户的兴趣类, 通过挖掘用户访问网络的文本内容,提取用户的兴趣特征和兴趣特征的查询扩展 集。 北京工业大学丁学硕十学位论文 图3 - 1w e b 挖掘的分类 f i g 3 - 1w e bm i n i n gc l a s s i f y w e b 日志挖掘的研究,w w w 上每一个提供信息资源的服务器上都有一个 结构比较好的记录集,即w e b 访问日志。每当有获取资源的请求到来时,w e b 服务器都将记录和积累这些关于用户交互作用的数据。分析不同的w e b 站点和 w e b 访问日志可帮助人们理解用户行为和w e b 的结构,从而为用户提供个性化 的服务。w e b 日志挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般 访问模式跟踪通过分析w e b 日志来理解用户的访问模式和倾向,以给出较好的 w e b 结构及资源提供者的分组情况:定制使用跟踪则分析单个用户的偏好,根据 其访问模式每个用户定制符合其个人特色的w e b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论