(计算机软件与理论专业论文)基于浏览行为分析的用户兴趣挖掘.pdf_第1页
(计算机软件与理论专业论文)基于浏览行为分析的用户兴趣挖掘.pdf_第2页
(计算机软件与理论专业论文)基于浏览行为分析的用户兴趣挖掘.pdf_第3页
(计算机软件与理论专业论文)基于浏览行为分析的用户兴趣挖掘.pdf_第4页
(计算机软件与理论专业论文)基于浏览行为分析的用户兴趣挖掘.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆人学硕j :学位论文中文摘要 摘要 现在个性化服务不管是在学术研究中还是在商业应用中都是一个非常热门、十 分活跃的领域,但是分析现存的个性化服务系统就不难发现大部分都存在的不足: 个性化体现的程度比较差;系统负荷比较大;没有有效的区分用户的近、长期兴趣; 学习效率比较差:系统的友好性也不怎么好等,而且大部分系统都集中在w e b 日志 挖掘的研究,而w e b 日志挖掘是不完整的、也不是十分准确的,同志自身的这种不 足也给这类个性化服务系统带来了缺陷,仅仅采用服务器端的w e b 日志挖掘,会丧 失许多客户端有用的信息。 本文考虑了现有个性化服务的不足之后,从实际出发提出了一种在客户端通过 捕获用户的行为来计算用户对网页的兴趣度并形成用户兴趣视图的方法。首先是在 绪论中介绍了现存个性化服务系统的现状与不足,并提出了改进方向;在第二章从 w e b 角度和网络用户角度介绍了行为分析的一些相关知识,并探索性的将心理学中 的内驱力理论运用于我们的个性化服务当中,说明用户在浏览网页时的行为能确实 从某种程度反应用户的浏览兴趣;因为用户的信息心理行为分析属于一种社会性的 研究,经过我们仔细分析觉得用户的浏览行为和用户对网页的兴趣度之间存在某种 关系,所以我们在第三章就从众多的社会研究方法中选用回归分析方法建立了用于 计算网页兴趣度的模型,通过多组实验数据分析证明所建立的模型是成立的,并且 确实能较好的描述用户对网页的兴趣度;为了能将从用户的行为分析中得到的网页 兴趣度与用户所浏览的网页内容结合起来,在第四章中利用网页特征片技术来生成 基于内容的用户兴趣视图,对用户的近期长期兴趣进行了区分,并提出了基于用户 兴趣视图的推荐方法;我们在第五章通过实验证明利用所阐述的理论和方法捕获用 户的兴趣并以此进行个性化推荐具有较好的效果,召回率达到t 7 5 ,准确率达到 了7 2 。 关键词:个性化服务,内驱力理论,行为分析,回归分析,网页兴趣度,兴趣视图 网页特征片 至鏖丛堂堕堂堡笙奎 蒸兰塑墨 a b s t r a c t t h ep e r s o n a l i z a t i o ni sv e r yh o ta n da c t i v ef i e l dn o to n l yi nt h es c i e n c er e s e a r c hb u t b u s i n e s sa p p l i c a t i o n ,t o d a y h o w e v e r ,m o s to f t h e s es y s t e m sh a v es o n i cd r a w b a c k s a f t e r a n a l y z i n gt h e m ,s u c ha s ,t h es h o r t c o m i n g o f e m b o d i m e n to f p e r s o n a l i z a t i o n ;t h eh e a v y b u r d e no f t h es y s t e m ;t h ei n e f f e c t i v ed i f f e r e n c eb e t w e e nt h ec u r r e n ti n t e r e s ta n dt h e p e r m a n e n t i n t e r e s t ;t h eb a de f f i c i e n c yo f s t u d y ;a n ds oo n f u r t h e r m o r e ,m o s t o f t h e s y s t e m c o n c e n t r a t eo nt h ew e bm i n i n go f w e bl o g , b u tt h a tw e bl o gi sn o ti n t e g r i t y ,a n d n o tw e l la n d t r u l y ,s o t h a ti tw i l ll o s tm a n yu s e f u li n f o r m a t i o no f c l i e n ti f t h er e s e a r c hi s a p p l i e db y m e t h o d so f w e b m i n i n g o f w e b l o go n l y i nt h i st h e s i s ,w eb r i n gf o r w a r dam e t h o dt of o r mu s e ri n t e r e s tv i e wb yt h ec o u n to f t h ei n t e r e s td e g r e eo f u s e rt ow e b p a g e i nt h ei n t r o d u c t i o n ,t h ea c t u a l i t y a n d d e f i c i e n c y a r e p r e s e n t e d ,t h e na d v a n c e d t ot h ef o r w a r d ;i nt h es e c o n dc h a p t e r ,w ef o u n dt h a tt h e r e w a sc l o s ec o r r e l a t i o nb e t w e e nu s e r sw e bb r o w s e rb e h a v i o ra n du s e r si n t e r e s tf o r t h ew e b p a g eb yp s y c h o l o g i c a lt h e o r y , i n n e r d r i v e np o w e r ;s o ,i nt h et h i r dc h a p t e r ,w ed e s c r i b e d t h ec o r r e l a t i o nb yl i n e a rr e g r e s s s i v ee q u a t i o n ,t h e nt h r o u g he x p e r i m e n t a t i o nw e p r o v e d t h a tt h i su s e ri n t e r e s tm e d e lw a st e n a b l e ,r e a s o n a b l ea n de f f e c t i v e ,t h ei n t e r e s to fw e b u s e rw o u l db ei n f l u e n c e da l o n gw i t ht i m eg o i n ga n ds u r r o u n d i n gc h a n g i n g ,w h i c hs h o u l d b ec a p t u r e di nt h ei n f o r m a t i o ni no r d e rt ob e r e rp e r s o n a l i z a t i o n i nt h ef o u r t hc h a p t e r ,f o r t h es a k eo f f i n a lg e r i n gu s e rc u r r e n ti n t e r e s tv i e ww e l la n dt r u l y ,t h ec a l c u l a t i o nm e t h o d s o f w e i g h t i si m p r o v e df o rm o r ea c c u r a t ec h a r a c t e r i z a t i o no fw e b p a g e ,a n d t h ei n t e r e s t m e a s u r e m e n to f w e b p a g ei so b t a i n e dt h r o u g ht h ea n a l y s i so f u s e rb r o w s i n gb e h a v i o r , t h e nt h ew e b p a g e c l a s s i f i c a t i o nt r e ei sf o r m e da c c o r d i n gt ot h es t a n d a r dc a t e g o r yt r e e t h e r e f o r et h ec o m m e n d a t i o nf o rp e r s o n a l i z a t i o ni sm o r ee f f i c i e n tb ym e t h o d so f i t i nt h e f i f t hc h a p t e r ,i ti sp r o v e dt h a tt h er e c a l li su pt o7 5 a n dt h ep r e c i s i o ni su pt o7 2 t h r o u g hm a n yg r o u p so f e x p e r i m e n t a t i o n s k e y w o r d s :p e r s o n a l i z a t i o n ,i n n e r d r i v e np o w e r ,t h ea n a l y s i so f u s e rb e h a v i o r , r e g r e s s i v ea n a l y s i s ,w e bp a g e i n t e r e s t ,i n t e r e s tv i e w , s e m a n t i c a l l y s i g n i f i c a n tp h r a s e s i i 重庆大学硕士学位论文 l 绪论 1 1 个性化服务介绍 1 1 1 研究背景 信息技术的飞速发展和信息网络的迅速扩展,有力地带动了全球信息资源不 可逆转的网络化发展趋势,从而对人类社会的各个方面产生了深刻的影响。网上 信息是无序的,只是一连串文字和图片,并未提供更深一层的结构,如一篇文章 的关键词和大纲,或一段视频的主体和角色。由于网上信息浩瀚无序,所以搜索 十分困难。另外,随着多种语言和多媒体的信息以及更多的用户和更大的硬盘的 成倍增加,将使得网上的信息迅速膨胀,我们不难想象几年之后,一个简单的搜 索,将带给用户多大的困扰。 搜索引擎使用的主要技术称为i r ( i n f o r m a t i o nr e t r i e v a l ) ,及信息检索。目前 i r 技术存在的最大国题是查准率( p r e c i s i o n ) 低,改进i r 的根本途径是从互联网 信息中获取知识,并据此计算查询和返回文档的相似度。如此即可将互联网变成 最大最新的百科全书,为计算机科研和互联网信息的智能搜取提供必要的知识基 础。 仅仅满足用户的信息检索还是不够的,面对如此庞大的互联网信息海洋,有 限的查询所能获得的不过是沧海一粟。我们需要从互联网中获取知识,把互联网 上海量的信息变成海量的知识,为用户主动提供真正所需的知识。 为了能够提供主动信息服务和智能信息搜索,我们需要以下两个基础:第一, 我们不仅需要拥有大量的动态的互联网信息,而且还要拥有关于这些信息的多方 面的知识,即知识仓库;第二,我们需要对个人兴趣建模,可以从多种途径获取 用户的兴趣, w e b 已成为人们获取信息的一个重要途径,由于w e b 信息的日益增长,人们 不得不花费大量的时间去搜索、浏览自己需要的信息。搜索引擎( s e a r c he n g i n e ) 是最普遍的辅助人们检索信息的工具,比如传统的搜索引擎a l t a v i s t a ,y a h o o 和 新一代的搜索引擎g o o g l e 等。信息检索技术满足了人们一定的需要,但由于其通 用的性质,现有的信息服务系统仍存在着明显的缺陷,比如资源分散,检索集中, 对所有的用户是一副面孔,有求则应,无求不动:用户按格式请求,系统按字面 匹配,因而查询方式局限、死板,且其检索结果庞杂,用户很难从查询结果中得 到自己真正想要的信息:没有统一的标准,而且门户林立,各自为政,不同信息 源使用不同服务机制,不同服务使用不同身份论证机制等。所以现有查询系统仍 不能满足不同背景不同目的和不同时期的查询请求l l l 。 解决这些问题关键在于将i n t e r n e t 从被动接受请求转化为主动感知浏览者的 重庆大学硕士学位论文 信息需求,实现i n t e m e t 系统对浏览者的主动信息服务 2 l 。新一代的信息服务将是 个性化信息服务,如何从海量的数据和信息中高效的获得有用的知识、如何从迅 速爆炸的信息中及时地获得最新信息、如何提高信息检索与推荐的智能水平、以 及如何满足各种用户不同的个性化需求等,都是新的信息服务系统面临的挑战性 课题。 个性化服务技术就是针对这些问题而提出的,它为不同用户提供不同的服务, 以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行 为,从而实现主动推荐的目的。个性化服务在当前学术界和商业应用中都是很热 门的研究领域。 1 1 2 国内外研究现状 国内外关于个性化信息服务的研究很多,而且个性化服务的研究是和人工智 能、a g e n t 、多a g e n t 系统的研究及数据挖掘的研究相结合的。目前存在着许多个 性化服务系统i l 】,它们提出了各种思想以实现个性化服务。个性化服务系统根据其 所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统。信息过滤系 统又可以分为基于内容过滤系统和协作过滤系统。 基于规则的系统如:i b m 的w e b s p h e r e ,b r o a d v i s i o n ,i l o g 等,它们允许系统 管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上一个语句, 规则决定了在不同的情况下如何提供不同的服务。基于规则的系统其优点是简单、 直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增 多,系统变得越来越难以管理。 基于内容过滤的系统如:p e r s o n a lw e b w a t e h e r ,l e t i z i a ,c i t e s e e r 和 w e b p e r s o n a l i z e r 等,它们利用资源与用户兴趣的相似性来过滤信息,基于内容过 滤的系统其优点是简单有效,缺点是难以区分资源内容的品质和风格,丽且不能 为用户发现新的兴趣点,只能发现和用户已有兴趣相似的资源。 协作过滤系统如:s i t e s e e r 等,它们利用用户之间的相似性过滤信息。基于协 作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决 的问题:一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的 评价,系统很难利用这些评价来发现相似的用户;另一个是可扩展性,亦即随着 系统用户和资源的增多,系统的性能会越来越低。 还有一些个性化服务系统如:w e b s i f t ,f a b ,a n a t a g o n o m y 和d y n a m i c p r o f i l e r 等,同时采用了基于内容过滤和协作过滤这两种技术。结合这两种技术可以克服 各自的一些缺点,但是为了克服协作过滤的稀疏性闯题,可以利用用户浏览过的 资源内容与其用户对其他资源的评价,这样可以增加资源评价的密度,利用这些 评价再进行协作过滤,从而提高协作过滤的性能。 重庆大学硕十学位论文绪论 下面简要介绍几个比较成功的个性化服务系统: w e b w a t c h e r 是一个非常著名的导航器,它使用一个称为信息查找助理的主体, 导航用户在网上的浏览过程。该系统通过对用户选择“链路”或站点进行跟踪学习, 学习产生哪个链接是可能到达目标信息的知识,通过采用这些知识来帮助用户定 位希望的信息,改善导航质量。 p e r s o n a lw e b w a t c h e r 是一个个性化代理,在用户浏览网页时提供帮助,将用 户感兴趣的链接突出显示出来。与w 曲w a c c h e r 不同,p e r s o n a lw e b w a t c h e r 针对特定 用户,通过学习用户以前的浏览模式来得到用户兴趣模型。它无须用户参与,不 需要用户给出对网页的评价。在学习阶段,对用户访问过的网页进行分析或更新 用户兴趣模型。 德国的a l e x a n d e rp r e t s c h n e r 幕l l 美国的s u s a ng a u c h - - 起研究基于o n t o l o g y ( 作为 概念层次) 的个性化搜索。用户的个性化模型( 用户概貌) 建立为单个用户在w e b 上浏览历史的函数,是一个由大约4 3 0 0 个节点( 使用空间向量模型) 组成的加权 概念层次,用户概貌根据用户在某一页面上停留的时间和页面的长度进行修正。 该系统目标是通过搜索结果与用户概貌的匹配来重新排序和过滤搜索结果,从而 提高搜索系统的性能。 1 1 3 所存在的问题 现有的个性化服务系统,虽然在服务的个性化、服务的智能性、适应用户兴趣 的变化等方面都得到了比较满意的解决,但是经过仔细分析我们认为在下述方面 还是存在一些不足之处。 个性化体现的程度 基于w 曲日志挖掘技术的个性化服务系统是通过分析w e b 日志,利用用户之间 的相似性来过滤信息,从而为兴趣相近的用户推荐相同的网页。此种类型的系统 是针对兴趣相近的用户群进行网页推荐的,而并非针对单个的用户,因而不足以 体现个性化服务的优点。 系统负荷 用于描述用户兴趣的用户描述文件可以存放在服务器端、客户端、代理端。 现有的大部分个性化服务系统的甩户插述文件都是存放在服务器端的,由于大型 的网站一般都拥有大批量的用户,并且用户描述文件不能在不同的w e b 应用之间 共享,因而会造成服务器端的负荷过重。 近、长期兴趣区分 一般的可把用户对事物的兴趣划分为近期兴趣和长期兴趣两大类。近期兴趣 变化快,而长期兴趣相对稳定,一个好的个性化w e b l 1 务系统应当能够从服务上加 以区分。但现有的个性化服务系统没有考虑到这一点,从而无法在个性化服务时 重庆大学硕士学位论文f 绪论 提供更细化的服务。 学习效率 一方面,在用户兴趣的学习和获取中大都依赖于对众多用户访问过的网页中 全文本内容的分析,因网页过大会导致用户兴趣信息提取的效率降低。另一方面, 为适应用户兴趣变化的需要大都采用人机交互式学习或对用户访问历史日志 w a t c h l o g 定期进行重新学习,都会影响到学习的效率。 系统的友好性 为适应用户兴趣变化的需要大都采用人机交互学习手段,要求用户提供必要 的学习所需信息,在信息提供的格式、准确性和系统操作上给用户带来诸多不便。 1 2 改进方向 i n t e m e t 上的个性化信息服务系统必须具有三个能力【i 】,即用户模型能很好地 反映用户的兴趣爱好;为适应用户爱好的变化,模型能做适应性的改变;自动开 发新的信息领域,主动向用户提供推荐服务。 为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种 合适的表达方式。在不同的个性化服务系统中用户描述文件各有其特点,用户描 述文件从内容上可以划分为基于兴趣的和基于行为的两种类型,基于兴趣的用户 描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签 和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式和访问模式。 在具体实现时可以综合基于兴趣和基于行为这两种表达方式。 由于用户兴趣是多方面的、动态变化的,跟踪学习和表达用户兴趣是一个基 本和难以解决的问题。系统要自适应修改用户信息,必须根据学习的信息源分析 当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。 根据学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显 式跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目的。 但是因为显示跟踪要求用户参与进行反馈和评价,一般情况下,这种做法很难收 到实效,因为需要中断用户的正常浏览和阅读方式,从而很少有用户向系统主动 表达自己的喜好,即使能获得用户反馈,也没法判断用户输入的准确性。比较实 际的做法是隐式跟踪,隐式跟踪不要求用户提供什么信息,所有的跟踪都是由系 统自动完成,隐式跟踪又可分为日志挖掘和行为跟踪。 目前,基于w e b 日志的挖掘技术发展迅速,利用w e b 日志可以获得页面的点 击次数、页面停留时间和页面访问顺序等信息。通过分析w 曲f i 志可以获得相关 页面相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创 建或更新用户描述文件。w e bf = i 志挖掘中最常用的方法是根据网页的点击次数来 评价用户对该网页的兴趣,其实这种方法是不完整的1 2 0 】f 2 8 】,因为只有很少一部分 4 重庆大学硕士学位论文 客户端的数据传到服务器端,而且经常是不正确的,如:d h c p 和内容缓存就会使 w e b 日志变得不可靠。 在客户端对用户浏览行为分析和兴趣挖掘将会很好的克服w e b 日志的不完整 性何不可靠性,为个性化服务提供更加精确的用户描述。在客户端记录用户的浏 览行为还会带来如下的好处和克服其他方法的些不足:不需要用户的带有主观 性的反馈;不会给用户的正常浏览带来干扰;针对单个浏览器收集数据更加精确; 行为数据更加丰富;动态获取,易于更新;还可以通过对用户访问方式的分析获 得一些w e b 对象之间的相互关系。当然还是存在一些不足,特别是记录的用户行 为数据很少和w e b 站点内容是动态生成或经常改变时。不过,这可以通过联合内 容挖掘的方法来更加准确地捕获用户的兴趣和形成更见精确的用户描述文件1 。 1 3 个性化服务总体框架 我们参考了大量的个性化技术文献【l _ 2 9 1 ,总结其总体框架入图所示: 图1 1 个性化服务总体框架 f i 9 1 1t h e s t r u c t u r eo f p e r s o n a l i z a t i o n 重庆人学硕士学位论文绪论 1 3 1 收集用户信息 收集用户信息的目的是用来构造一个用户描述文件( u s e r p r o f i l e ) 来描述用户 的兴趣,最常用的技术有显式跟踪、隐式跟踪及其使用历史数据。 l 3 2 分析用户文件 有了用户描述文件后,就要对其进行分析弘便用于推荐,许多推荐技术现在 正在使用和发展,现在比较成熟的是基于规则和过滤的技术,包括简单过滤、基 于内容过滤和协作过滤等。 1 3 3 数据挖掘技术 目前用于个性化的数据挖掘技术主要有:关联规则、序列模式、分类及聚类 技术等。 关联规则( a s s o c i a t i o nr u l e s ) 发现:发现s e r v e rs e s s i o n 中请求网页的相关性。 可用于:优化网站结构,网络代理中的预取功能等 序列模式( s e q u e n c ep a t l e m ) 发现:发现一个s e s s i o n 内部的网页闻的时间相 关性。可用于:预测用户的访问而提供建议。 分类( c l a s s i f i c a t i o n ) 技术:根据用户的个人的资料,将其归入某特定的类, 可使用:决策树、n a i v eb a y e s i a nc l a s s i f i c a t i o n 、k - 最近邻居等算法。 聚类( c l u s t e r i n g ) 技术:利用使用分组( u s a g ec l u s t e r s ) 把具有相似浏览模式 的用户分组。可用于:电子商务应用中市场分片和为用户提供个性化服务。利用 网页分组按内容的相似性把网页分类,可用于:搜索引擎和w e b 浏览助手,为用 户提供推荐链接。 1 3 4w e b 挖掘( w e b m i n i n g ) 技术 基于w e b 挖掘的个性化服务是指:分析w e b 曰志数据,利用数据挖掘的方法 根据测览网页之间的相关性发现用户的使用模式,从而向用户提供个性化服务。 它的优点是:不需要用户提供主观的评价信息;可以处理大规模的数据量;用户 访问模式动态获取,不会过时;使用方便。存在问题是当网站的使用数据比较少 或网站内容变化比较频繁时不太有效。 i 4 本章小结 本章在介绍了个性化w e b 服务系统的背景、现状以及存在问题之后,提出了 改进的方向,并总结了个性化服务总体框架。 6 重庆大学硕士学位论文2 基于行为分析的个性化服务框梨 2 基于行为分析的个性化服务框架 上一章总结了个性化服务的总体框架,本章拟通过对w e b 及用户的分析后提 出一种新的基于行为分析的个性化服务框架。 2 1w - e b 知识获取 知识的获取是人们所关注的问题,在互联网环境下的获取又有其新的特点,互 联网是人类有史阻来所面对的最巨大的信息海洋,其中的信息具有海量、形式多 样、动态变化、矛盾知识普遍存在等特点。要从中获取知识,就必须建立起从数 据搜集、整理到知识抽取等完整的知识获取理论和技术。 互联网上的信息源形式多样,既有结构化的数据库中的数据,又有半结构化的 h t m l 页面,还有无结构的文本和图片等数据,根据不同的数据形式,必须运用 相应的知识获取技术,才能有效地获得需要的知识。而针对互联网上的半结构化 数据和文本数据,w e b 挖掘、文本挖掘以及自然语言处理等技术则发挥了较大的 作用【3 w 。 2 1 1w e b 挖掘 互联网的出现提供了丰富的资源,它包含了涉及多个领域的海量数据和大量的 超链接信息,位置式的挖掘合伙提供了新的数据来源。然而w 曲本身的特点对有 效的资源和知识发现提供了许多新的挑战: 对有效的数据仓库和数掘挖掘而言,w e b 过于庞大; w e b 上的数据形式多样,可能结构复杂; w e b 是一个动态性极强的信息源; w e b 面对的是一个广泛的形形色色的用户群体: w e b 上的信息可能只有部分是相关的或有用的。 针对这种新的环境,w e b 上的知识发现称为倍受关注的研究领域。w e b 挖掘可 以定义为:从与w w w 相关的资源和行为中抽取感兴趣的、有用的模式和隐含信 息。它大体上可以分为如下三类f 3 3 】: ( 1 ) w 曲内容挖掘 w e b 内容挖掘是从w 曲文档内容或其描述中抽取知识,可以采取两种策略:直 接挖掘文档的内容,或在其他工具搜索的基础上进行改进。采用第- - e p 策略的有: 针对w e b 的查询语言w e b l o g 、w e b o q l 等,利用启发式规则来寻找个人主页信息 的a h o y 等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处 理,得到更为精确和有用的信息。 7 重庆大学硕士学位论文2 基了= 行为分析的个性化服务框架 ( 2 ) w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识。由于文档之间的 互连,能够提供出文档内容之外的有用的信息。利用这些信息,可以对页面进行 排序,发现重要的页面。这方面工作的代表有p a g e r a n k 和c l e v e r 。此外,在多 层次w e b 数据仓库( m l d b ) 中也利用了页面的链接结构。 ( 3 ) w e b 使用记录的挖掘 w e b 使用;己录挖掘的主要目标是从w e b 的访问记录中抽取感兴趣的模式。 w w w 中的每个服务器都保留了访问日志( w e b a c c e s sl o g ) ,记录了关于用户访问 和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构, 或为用户提供个性化的服务。这方面的研究主要有两个方向:一般的访问模式追 踪和个性化的使用记录追踪。一般的访闷模式追踪通过分析使用逸录来了解用户 的访问模式和倾向,以改进站点的组织结构。丽个性化的使用记录追踪则倾向于 分析单个用户的偏好,其目的是根据不同用户的访闽模式,为每个不周用户提供 定制的站点或者是向用户推荐用户感兴趣相关信息。 2 1 2w 曲挖掘中较关注的问题 在w e b 挖掘的研究领域,目前比较受关注的一些问题如下: ( 1 ) 权威w 曲页面的识别 w e b 中存在大量的链接,而页面的权威性( a u t h o r i t y ) 可由w e b 页面链接来反 映。一个w e b 页面的作者建立指向另一个页面的指针时,可以看作是作者对个 页面的注解。把一个页面的来自不同作者的注解收集起来,就可以用来反映该页 面的重要性,并可以很自然地用于权威w e b 页面的发现。这一思想激发了一些有 趣的权威w e b 页面挖掘的研究工作。p a g e r a n k 方法基于页面权威性和权威性传递 的思想,对页面计算器权威性,并根据它对页面进行排序。 除了权威页面外,还存在另外一种重要的w e b 页面,称为h u b 。个h u b 是指 一个或多个w e b 页面,它提供了指向权威页面的链接集合。通常,好的h u b 指向 许多好的a u t h o r i t y 的页面;好的a u t h o r i t y 是只有许多好的h u b 所指向的页面。这 种h u b 和a u t h o r i t y 之间的相互作用,可用于权威页面的挖掘和高质量w e b 结构和 资源的自动发现。 ( 2 ) w 曲使用记录挖掘 w e b 使用记录挖掘是通过挖掘w e b 日志记录,来发现用户访问w e b 页面的模 式。w e b 服务器通常傈存了对w e b 页面的每一次访问的w e b 目志,或叫w e b l o g , 它包括了所请求的u r l 、发出请求的i p 地址和时间戳等信息,提供了有关w e b 访问的丰富的信息。w e b 使用记录的挖掘一般可以分为三步:首先,原始的w e b l o g 数据需要进行预处理,包括清洗、用户的识别、会话的识别和事务的识别等,以 重庆大学硕士学位论文2 基于行为分析的个性化服务框架 便生成有意义和便于处理的数据:其次,在经过预处理的数据上,可以进行模式 的发现,可以采用的技术包括统计分析、关联规则挖掘、聚类和分类、序列模式 分析等;最后,挖掘出来的模式可以通过知识查询语言,o l a p ,以及可视化等方 法展现给用户,进行分析。 从w e b 使用记录中挖掘出来的模式可以应用到许多方面,例如改进w e b 站点 的结构,通过w e b 缓存改进系统性能,建立个性化的w e b 服务等。 ( 3 ) w e b 文档的自动分类 基于关键词的文档分类方法同样可用于w e b 文档的分类。除了文本内容外, w 曲文档还包含了超文本链接信息,利用这些信息来改进基于关键词的分类方法 是一个研究的方向。但是由于围绕超链接的文本可能是“噪声”,因此单纯地使用超 链接中的关键词信息,有时甚至会降低分类的准确性。为此提出了一些新的方法, 如马尔可夫随机场( m a r k o vr a n d o mf i e l d ,m r f ) 和宽松标志( r e l a x a t i o n l a b e l i n g ) 方法,试验显示此方法可以极大地改善w e b 文档分类的准确性。 2 2 用户信息需求心理行为分析 科学地分析用户的信息行为,找出其中的规律,是实现提高信息服务质量的 关键问题之- - 1 3 4 】。 2 2 1 用户信息行为及其特征 人的行为泛指人表现的活动、动作、运动、反应或行动,是在外部刺激作用下 经内部经验的折射所产生的反应结果,即在一定动机支配下的主体活动。信息行 为是人类特有的一种行为,系指主体为了满足某一特定的信息需求( 如科研、生 产、管理等活动中的信息需求) ,在外部作用刺激下表现出的获取、查询、交流、 传播、吸收、加工和利用信息的行为。 就本质而言,用户信息行为具有以下一些主要特征; 信息行为是人类智力活动的产物,因而可以从认识论的角度加以研究; 信息行为由信息心理活动决定,因而可以利用心理学理论方法研究信息心理 行为规律; 信息行为始终伴随着人的主体工作而发生,研究信息行为应与研究主体工作行 为相结合; 信息行为是一种目的性很强的主动行为,对入的信息行为可以从总体上控制和 优化。 2 2 2 内驱力理论 心理学家吕恩( k l e w i n ) 运用力场理论,提出了关于人类行为的基本公式: b = f ( p e ) 。他指出,人类行为( b ) 是主体( p ) 及环境( e ) 的函数,是作为主 9 重庆大学硕士学位论文2 基于行为分析的个性化服务框架 体的人和作为客体的环境之间的综合作用的效应。随后,人们做了多方面的研究。 心理学家希尔加( h i l g a r d ) 在人们研究的基础上,提出了内驱力理论【j ,用 于解释生物控制现象。现在,我们将这一理论用于研究分析用户信息心理行 为。 在用户信息决策中,内驱力是由用户不断接受外界刺激后产生的一种信息内 力,即现在的决策取决于用户过去接受刺激后产生的结果。如果行为导致好的结 果,用户就有反复采取这种行为的趋势,否则就进行调节。如果用e r 表示用户的 反应潜力或行为,h r 表示用户反应的习惯强度,d 表示内驱力,v 表示信息刺激, k 表示诱因动机,则有: e p = h r d v + k 上式表明,用户的信息反应和行为除取决与刺激强度和诱因外,主要取决于 习惯强度和内驱力。如果刺激强度和诱因一定,则完全取决于习惯强度和内驱力。 在此不妨假设h r 为用户经常浏览网页而形成的长期兴趣,从而表现为一定的 浏览习惯,即习惯强度,且习惯强度不是经常变化的,而内驱力则可以看作是用 户当前浏览网页所表现出来的兴趣,所以e r 即用户的浏览行为就和用户当前浏览 网页时的兴趣密切相关。 2 3 行为分析相关方法介绍 2 3 1 直接调查与间接调查法 用户研究中的直接调查与间接调查分柝方法是在该领域内最早开始运用的两 种基本的研究方法,其要点是围绕用户研究的某一具体内容或方面有目的地开展 直接或间接的调查与观察,以获取详尽的资料,继而对有关资料进行归纳、整理 与一般分析,最终得出研究结论。 直接调查法是用户研究中的一种直接方法,其基本点是必须有用户本身参与 调研活动。这种方法的优点是调查面广,即可调查当前用户,又可调查潜在用户。 采用该方法所获得调查资料具有详细、可靠、具体的特点。在信息服务工作中, 对于发挥用户的主观能动作用有着重要的意义。该方法的主要缺点在于使用不太 方便,由于受调查对象的限制,有时对调查问题的答复率不高。 直接调查通过与用户直接交往进行,如发调查表向用户作调查、与用户交谈、 参与用户业务活动等,这种调查具有灵活性,既可以与用户面对面调查,也可以 采用通讯方式和利用计算机互联网络与用户联系。 直接调查的方式归纳起来可分为调查表法、询问法、实地考察法和信息反馈 法。 闻接调查法是用户研究中的一种阎接的方法。就是通过调查用户有关的各种 0 重庆大学硕士学位论文2 基于行为分析的个性化服务框架 资料,如各种文献、用户登记卡、服务工作记录、咨询记录、业务r 记、用户工 作日程表等。使用该方法进行用户调查研究,虽然不直接与用户接触,但所调查 的各种资料却与用户的活动息息相关。可以认为,它是一种利用一定的媒介与用 户交往的调研方法。与直接调查相比,间接调查具有调查可靠和使用灵活的特点。 它不仅克服了用户回答调查问题时的随意性,而且不受时空的限制,不予用户接 触就能掌握调研素材,作为对直接调查的补充,是可取的。该方法也是用户研究 中的一种常规方法。 2 3 2 统计测量分析法 用户研究中的统计测量,其实质是利用社会学中的统计测量方法获取用户特 征资料的过程。在有关问题研究中,对这些特征资料稍加归纳、整理和分析便可 以得出直观而明确的结论。因此,在简单问题的研究中,“统计测量”可以作为一种 独立方法使用。同时,通过统计测量所获得的用户特征资料,又是进一步寻求关 系和开展深层次研究的基础。 2 3 _ 3 相关分析法 在用户研究中,常常需要研究某些事件之间的相互关系,这就是所谓的相关 分析。 相关分析可分为两种,即函数分析和统计分析。前者是一种十分确定的关系, 而后者则是一种随机现象之间的相互关系。用户心理、行为表现出的各种关系属 于后者,它的某种带有规律性的东西是受许多同时起作用和相互联系的因素的影 响所造成的。在统计学中研究这种规律性就是研究相关关系。其问题包括:研究 若干数值之间的相关关系和研究一个或一系列数值与另外一些数值之间的相关关 系。 我们所研究的是用户所表现出来的心理、行为特征和不确定随机相关关系, 影响用户信息需求与利用的诸因素的关联性,以及信息服务中的某些关系问题等。 对这些问题的研究,一般难以寻求一个明确的数学表达式,但是对于那些具有一 定函数统计关系的问题,可以利用统计学中的回归分析法等方法解决。 2 4 新的个性化服务系统框架 结合现今的一些研究成果,针对我们的研究目标,提出了一个新的个性化服 务系统框架,新系统( 图2 1 ) 由客户工作站( c l i e n t ) 和w e b 服务器( w e bs e r v e r ) 两部分组成。 重庆大学硕士学位论文2 基于行为分析的个性化服务框架 , c l i e n t 、 厂 w e bs e e r 、 ic h a r a c t e r c l u s t e r i 八_ w a t e h e rf a e t o r a j c b r 、f 叫 寄 暑 、r 叫 亚 c l a s s i f i e r1 u g v c f r l c l v g il p i v g l i l jj 图2 。l 新的个性化服务系统框架 f i g 2 1t h en e ws t r u c t u r eo f p e r s o n a l i z a t i o n 从上面的图可知,在客户端集中了系统中大部分的功能模块,这是因为现今 的个性化服务系统大部分都集中在w e b 日志挖掘的研究,而w e b 日志挖掘是不完 整的、也不是十分准确的,日志自身的这种不足也给这类个性化服务系统带来了 缺陷,仅仅采用服务器端的w e b 日志挖掘,会丧失许多客户端有用的信息,如用 户浏览网页时的一些动作行为确实能在一定的程度上反映用户对某个网页是否感 兴趣及其感兴趣的程度,但在服务器端的挖掘却无法获得像客户端那样丰富有用 的信息;而且服务器端的挖掘普遍存在一个问题是用户的划分,而在客户端则不 需要进行用户划分;集中在服务器端挖掘用户兴趣,明显地增加了服务器的系统 负荷,影响服务器的性能,在客户端的影响贝t l d , 得多;等等比较分析看来,本文 在客户端进行用户兴趣挖掘是个不错的选择。 2 4 1 客户工作站 客户工作站中除浏览器外还包含一组用于用户兴趣捕获与更新的代理集:获 得网页语义特征片s s p ( s e m a n t i c a l l ys i g n i f i c a n tp h r a s e s ) 的c h a r a c t e r 代理、浏览 行为监测( w a t c h e r ) 、行为影响因子学习( f a c t o r ) 、网页分类( c l a s s i f i e r ) 、近长 期兴趣视图生成c i v g p i v g ( c i v p i vg e n e r a t o r ) 、兴趣更新代理( i u a ,i n t e r e s t u p d a t ea g e n t ) 。 c h a r a c t e r 代理用于获得网页语义特征片s s p ( s e m a n t i c a l l ys i g n i f i c a n t 1 2 重庆大学硕士学位论文2 基于行为分析的个性化服务框架 p h r a s e s ) 。它基于这样的原则:一般地,一网页的主要特征( 8 0 ) 可以通过网 页内极少部分( 实现基于内容的信息推荐功能。可以按 c 1 v p i v 两种方式推荐兴趣网页。该方法的基本思想是:根据用户c i v p i v 中描 重庆大学硕士学位论文2 基于行为分析的个性化服务框絮 述的用户兴趣分类,通过基于内容的比较,筛选出w e b 网站上与用户兴趣密切相 关的网页,推荐给该用户。 基于用户兴趣描述模式c i v p i v ,还能够支持协作过滤,为用户发现新的兴 趣信息,这个功能由c f r 代理实现。 下面相关章节将会对客户工作站和w e b 服务器中的关键技术分别进行详细介 绍。 2 5 本章小结 本章先从w e b 角度介绍了可获取的知识及其在w e b 领域知识发现的一些热门 问题,再从用户角度利用内驱力理论说明用户的浏览行为和用户的对网页兴趣存 在一定的关系,然后提出了一种新的个性化服务框架,并简单介绍了各个部分的 功能。 重庆大学硕士学位论文3 基于行为分析的网页兴趣度计算 3 基于行为分析的网页兴趣度计算 3 1 引言 通过以上的简单分析就可看出用户的信息行为和其心理活动密切相关,针对广 大浏览网页的w e b 用户来说,不妨可将其心理活动理解为对某一个网页是否感兴 趣,这样w e b 用户浏览网页时所表现出来的信息行为就和用户对某个网页是否感 兴趣密切相关。 丽且通过上面的介绍可知,在用户的行为研究中,如果所研究的一些相关因素 之间存在某种函数关系,可以利用统计学中的回归分析法 3 8 1 等方法解决。而计算 一个用户各种浏览行为的行为参数,就是要根据该用户的多项浏览数据来得到的, 因此,若能判断出所提取出的测览行为与网页兴趣度之间呈线性关系,那么对于 此问题来讲,多元线性回归就不失为一种好方法。 通过对我们试验所得数据进行仔细而深入的分析后发现,多元线性回归能很理 想地描述用户的行为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论