(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf_第1页
(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf_第2页
(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf_第3页
(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf_第4页
(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机软件与理论专业论文)web个性化信息推荐系统的设计及关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 个性化服务技术因其能有效解决信息过载和信息迷失问题,帮助 i n t e r n e t 商家争取更多的顾客、赢得更大的经济效益,而成为了网络技术和 智能信息处理中研究热点。目前,已有很多个性化服务技术被研究和使用, 但在系统的准确率、覆盖率和效率等方面,它们尚不能满足人们的要求。 针对w e b 个性化信息推荐( w e bp e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d : w p i r ) 技术面临的主要挑战,本课题对w p i r 系统的设计及关键技术进行 了有益的探索和研究。 首先,改进了基于关联规则超图模式的高维数据聚类算法,提出了一 个新的超边权值度量方法。该超边权值度量方法既能比较好的反映频繁数 据项的密切程度,也能较好的反映出该频繁数据项在整个事务中的支持率, 克服了现有权值计算方法存在的不足。 其次,提出了w e b 个性化信息推荐系统框架,并给出了工作原理,系 统结合了w e b 使用挖掘和w e b 内容挖掘,并在挖掘处理模块设置了一个 关联规则处理器,相应地使用聚类处理器采用改进的基于关联规则超图模 式的高维数据聚类算法,这使得整个系统在增加关联规则处理器的情况下 不影响处理速度,准确率却得到了提高。 再次,根据用户是否有新颖信息的需求,给出了两种不同的推荐算法。 当当前用户是访问站点较少的用户或有新颖信息需求的用户时,采用基于 使用聚类与内容特征聚类相结合的推荐方法;否则采用基于关联规则与内 容特征聚类相结合的推荐方法,它具有快速、准确的特点。 最后,对提出的方案进行了实验,通过了对比性测试,以及对试验数 据的统计证明了改进后算法的优越性。 关键词w e b 挖掘;个性化服务;信息推荐;超图聚类;关联规则;超边 权值 燕山大学工学硕士学位论文 a b s t r a c t p e r s o n a l i z e dt e c h n o l o g i e sb e c o m es t u d yh o t s p o to fn e t w o r kt e c h n o l o g i e s a n di n t e l l i g e n ti n f o r m a t i o nd i s p o s a l ,b e c a u s et h e yc a nr e s o l u t et h ep r o b l e m so f t h e “o v e r l o a do fi n f o r m a t i o n ”a n dt h e i n f o r m a t i o nm a z e e r i e c t i v e l ya n da l s o c a nh e l pt h o s ei n t e r a c t - b a s e db u s i n e s s e ss h o o t i n gf o rm o r ec o s t u m e r sa n dm o r e e c o n o m i cb e n e f i t m a n yp e r s o n a l i z e dt e c h n o l o g i e sh a v eb e e nr e s e a r c h e da n d u s e dn o w a d a y s ,b u tt h e i rp r e c i s i o n ,c o v e r a g ea n de f f i c i e n c ys t i l lc a n n o ts a t i s f y t h ed e m a n d so f p e o p l e i nl i g h to ft h em a j o rc h a l l e n g e sf a c e db yt h ew p i r ( w e bp e r s o n a l i z e d i n f o r m 砒i o nr e c o m m e n d e d ) t e c h n o l o g i e s ,t h e e x p l o r a t i o n a b o u tb o t ht h e d e s i g n sa n dt e c h n o l o g i e so f w p i r s y s t e m i nt h i sp a p e ra r ef o c u s e do n 。 f i r s t l y , t h eh i g h d i m e n s i o n a l d a t ac l u s t e ra r i t h m e t i cb a s e do nt h e a s s o c i a t i o nr u l eh y p e r g r a p hm o d ei si m p r o v e d ,a n dan e w h y p e r g r a p hw e i g h t m e a s u r i n gm e t h o di sp r o p o s e d t h i sh y p e r g r a p hw e i g h tm e a s u r i n gm e t h o d r e f l e c t st h ec o n s a n g u i n e o u sd e g r e eo i ld a t ai t e m s ,a l s or e f l e c t st h er a t eo ft h e f r e q u e n ti t e m ss u p p o r to n t h ew h o l et r a n s a c t i o n s s e c o n d l y as y s t e mf r a m e w o r ko fw p i r i sp r o p o s e d a l o n gw i t hi t sb a s i c t h e o r y c o m b i n i n gt h ew e bu s a g em i n i n ga n dt h ew e bc o n t e n tm i n i n g ,t h i s s y s t e mp l a c e sa na s s o c i a t i o nr u l ep r o c e s s o ri nt h em i n i n gp r o c e s s i n gu n i t ,a n d a p p l i e st h eh i 曲- d i m e n s i o n a ld a t ac l u s t e ra r i t h m e t i cb a s e do nt h ea s s o c i a t i o n r u l e h y p e r g r a p hm o d e ,w h i c hm a k e s i t p o s s i b l e f o rt h ew h o l es y s t e mt o m a i n t a i ni t sn o r m a l r u n n i n gs p e e d a n dt o i m p r o v et h ea c c u r a c y o fd a t a p r o c e s s i n gw h e n e x t r aa s s o c i a t i o nr u l ep r o c e s s o r sa r ea d o p t e d t h i r d l y , t w od i f f e r e n tk i n d so fr e c o m m e n d i n ga r i t h m e t i c sa r es u g g e s t e d d e p e n d i n g o nw h e t h e rt h eu s e rh a sa n yn e wa n dc r e a t i v en e e df o ri n f o r m a t i o n 弭西e nt h ec n s t o m e r sa g c e s sw e b s i t el i t t l eo rn e e dn o v e li n f o r m a t i o n t h e r e c o m m e n d i n g a r i t h m e t i c c o m b i n i n gu s a g e c l u s t e ra n dc o n t e n tc l u s t e ri s a b s t r a c t i n t r o d u c e d ;o t h e r w i s et h er e c o m m e n d i n ga r i t h m e t i cc o m b i n i n gr u l ea s s o c i a t i o n a n dc o n t e n tc l u s t e ri si n t r o d u c e d ,w h i c hh a v ef a s ta n d p r e c i s i o nc h a r a c t e r i s t i c f i n a l l y , a ne x p e r i m e n t a t i o n o nt h ea r i t h m e t i ch a sb e e nd o n e t h e c o n t r a s t i v e e x p r i m e n t a t i o n a n dt h es t a t i s t i co i lt e s td a t as e t s p r o v e t h e a d v a n t a g eo fi m p r o v e d a r i t h m e t i c k e y w o r d sw e bm i n i n g ;w e bp e r s o n a l i z a t i o n :i n f o r m a t i o nr e c o m m e n d e d ; h y p e r g r a p hb a s e dc l u s t e r ;a s s o c i a t i o nr u l e ;h y p e r g r a p hw e i g h t i i i 第1 章绪论 第1 章绪论 随着i n t e m e t 的迅速发展和i n t e m e t 资源的指数级增长,个性化服务已 经成为网络技术和智能信息处理中新的研究热点。 1 1 研究背景 首先,i n t e m e t 为w e b 挖掘提供了丰富的资源。 i n t e m e t 目前是一个巨大、分布广泛、全球性的信息服务中心,它包含 了丰富和动态的超链接信息以及w e b 页面的访问和使用信息,这为w e b 挖掘提供了丰富的资源。但是对于w e b 进行有效的资源和知识发现同样具 有极大的挑战性,主要表现为以下几个方面: ( 1 1 对有效的数据仓库和数据挖掘而言,w 曲似乎太过庞大了; 但) w e b 页面的复杂性高于任何传统的文本文档; ( 3 ) w e b 是一个动态性极强的信息源; ( 4 ) w e b 面对的是一个广泛的形形色色的用户群体; ( 5 ) w e b 上的信息只有很小的一部分是相关或有用的。 其次,i n t e m e t 的迅速发展,顾客很难找到自己感兴趣或需要的信息, 导致了“信息过载”和“信息迷失”问题。 特别是2 0 世纪9 0 年代以来,i n t e r n e t 飞速发展,各种信息以指数级的 速度增长,类型也越来越多。人们面对太多的信息无法选择和消化,淹没 在繁杂的信息中,这种现象称为信息过载。i n t e m e t 上信息资源分布的广泛 性又给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现 自己所需的信息资源,这就是所谓的信息迷失。当前我们可以借助于搜索 引擎来检索w e b 上的信息,这在一定程度上满足了用户的需求,但由于其 通用性,仍不能满足不同背景、不同目的和不同时期的查询要求,即大多 数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有 效地解决信息过载和信息迷失的问题。 燕山大学工学硕士学位论文 第三,i n t e m e t 的商家在r 趋激烈的竞争中为了保持老顾客,赢得新顾 客,争取更大的经济效益。 随着i n t e m e t 的不断发展,各种基于i n t e m e t 的商业w e b 站点面临越 来越激烈的竞争。对各种商业w e b 站点而言,如何吸引新用户并防止旧用 户的流失引起了越来越多研究者的关注。对该问题的研究推动了商业w e b 站点从“以站点为中心”向“以用户为中心”发展,即商业w e b 站点不但 要针对所有用户共同兴趣的共性信息,而且更应该重视针对每个用户自身 兴趣的个性信息。因此商业w e b 站点的发展趋势是为每个用户提供个性化 服务。 为了适应用户不断增长的信息需求,有效地解决信息过载和信息迷失 给人们带来的种种问题,以及帮助基于i n t e m e t 商家争取更多的顾客,研 究人员纷纷从人工智能中寻找突破口。在许多探索性研究中,w e b 个性化 信息推荐( w e bp e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o n :w p i r ) 作为一种 崭新的智能信息服务方式具有良好的发展和应用前景。目前,几乎所有大 型的电子商务系统,如h n l a z o n 、c d n o w 、e b a y 、d a n g d a n g 等,都不同 程度的使用了各种形式的个性化信息推荐。在日趋激烈的竞争环境下,个 性化信息推荐系统能有效保留用户,提高电子商务系统的销售。成功的个 性化信息推荐系统将会产生巨大的经济效益。 个性化信息推荐系统在理论和实践中都得到了很大发展。但是随着电 子商务系统的进一步发展,个性化信息推荐系统也面临一系列挑战。针对 电子商务推荐系统面临的主要挑战,本文将对个性化信息推荐系统进行了 有益的探索和研究。 1 2 研究现状 目前存在着许多个性化服务系统【”,它们提出了各种思路以实现个性 化服务。个性化服务系统根据其所采用的推荐技术可以分为两种:基于规 则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和 协作过滤系统。 第l 苹绪论 基于规则的系统如:i b m 的w e b s p h e r e 、b r o a d v i s i o n 、i l o g 等,它 们允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则 本质上是一个i f - t h e n 语句,规则决定了在不同的情况下如何提供不同的 服务。基于规则的系统其优点是简单、直接,缺点是规则质量很难保证, 而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以 管理。 基于内容过滤的系统如:p e r s o n a lw e b w a t c h e r 2 1 、s y s k i l l & w e b e r t i 引、 l e t i z i a nc i t e s e e r 队i f w e b 6 1 、s i f t e r i ”、p v a i 引、w e b m a t e 9 1 、w e b a c e 1 0 、 e l f i 1 1 1 和w e b p e r s o n a l i z e r l l 2 1 等,这些基于内容过滤的系统利用资源与用户 的兴趣的相似性来过滤筛选信息。基于内容过滤的系统的优点是比较简单、 有效,缺点是它难以区分资源内容的品质和资源内容的风格,而且它不能 为用户发现新的感兴趣的资源,只能为用户发现和用户已有的兴趣相似的 资源。 协作过滤系统如:w e b w a t c h e r l l 引、l e t ,sb r o w s e | 1 4 1 、o r o u p l e n s l l 扪、 f i r e f l y 1 引、s e l e c t 1 训、l i k e m i n d s 和s i t e s e e r 18 】等,它们利用用户之间的 相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣 的信息,缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使 用初期,系统资源还未获得足够多的评价,系统很难利用这些评价来发现 相似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统 的性能会越来越低。 还有一些个性化服务系统如:w e b s i f t i 、f a b 2 0 1 、a n m a g o n o m y 2 l 】 和d y n a m i cp r o f i l e r 2 2 】等,同时采用了基于内容过滤和协作过滤这两种技 术。结合这两种过滤技术可以克服各自的一些缺点,为了克服协作过滤的 稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价, 这样可以增加资源评价的密度,利用这些评价再进行协作过滤,从而提高 协作过滤的性能。 人们已经发展了许多个性化服务技术,它指针对不同用户提供不同的 服务策略和服务内容的服务模式,帮助用户在w w w 的信息海洋中快速定 位、检索用户自己感兴趣的信息。目前,已经出现的一些个性化服务相关 燕山大学工学硕: 学位论文 的技术研究,主要有: f 1 ) w e b w a t c h e r 系统采用跟踪用户浏览w e b 站点行为或者访问路径 方法,学习用户的访问模式,将用户可能感兴趣的w e b 页在线推荐给用户。 但) s i t e h e l p e r 系统采用分析每一个用户已经访问的w e b 页,学习用 户的兴趣模式,从用户感兴趣的w e b 中提取关键词,然后,提供给用户, 系统基于用户相关反馈技术为用户推荐其它的相关的w e b 页。 ( 3 ) f o o t p r i n t s 系统利用可视化技术,为用户提供w e b 站点被频繁访 问的路径。 ( 4 ) a v a n t i 系统利用自适应规则为每一组相同的用户访问模式实现 定制化。 基于数据挖掘的个性化信息推荐服务是当前的一个研究热点。主要的 研究有: ( 1 ) s c h e c h t e r 2 w 等人根据用户的访问路径模式预测用户未来可能的h t t p 请求,让代理服务器执行预取操作,将相关w e b 页放入其c a c h e 中,以加 快访问速度。 ( 2 ) c o o l e y t 2 4 1 等人和b u c h n e r 2 5 】等人利用数据挖掘技术从访问的l o g 文 件中提取用户的访问模式,用于市场决策和智能推荐服务。 ( 3 ) n a s r a o u i 2 6 1 等人采用聚类用户访问模式方法,预测用户未来的访问 行为。 ( 4 ) s h a h a b i 2 7 1 等人提出的使用挖掘系统依赖于客户端的数据收集,客 户端的代理为服务器返回用户请求的页面及时间等数据。 ( 5 ) 最新的w e b 使用挖掘综述可以参见j s r i v a s t a v a ,r c o o l e y 等人写 的文献 2 8 1 。 国内的学者在w e b 用户访问信息挖掘方面也开展了大量的研究工作。 如:上海交通大学尤晋元教授等人引人w e b 页面的内容链接比和页组的组 内链接度,修改了频繁访问页组支持度的计算公式,提出了基于页面内容 和站点结构的页面聚类挖掘改进算法;清华大学马少平教授等人,提出一 种利用w e b 服务器日志文件,运用n 元( n g r a m ) 预测模型对用户未来可能 进行的w e b 访问请求进行预测。 4 第1 章绪论 1 3w e b 个性化信息推荐技术面临的主要挑战 基于w e b 个性化信息推荐技术是一个较新的研究领域,具有广阔的发 展和应用前景。应该指出的是,面对日益增加的商业需求和顾客很难找到 自己感兴趣或需要的信息,面临的“信息过载”和“信息迷失”问题,基 于w e b 个性化信息推荐技术还有许多问题需要解决,有待这一领域的研究 者深入研究。归纳起来有下面几个方向。 ( 1 1 隐私问题由于个性化服务技术中利用到用户的个人资料和网页 浏览行为,这就涉及到隐私问题。要使个性化技术顺利发挥其功效,必须 首先提出一个有效的保护用户隐私的机制。 ( 2 ) 聚类技术聚类技术是w e b 个性化技术中的关键技术。聚类方法的 可伸缩性,对聚类复杂形状和类型的数据的有效性,高维聚类分析技术, 以及针对大型数据库中混和数值和分类数据的聚类方法都是富有挑战性的 研究领域。 ( 3 ) 个性化推荐技术现有的个性化推荐技术都存在一些缺点,如何克 服这些缺点也是今后研究方向之一。 ( 4 ) 质量评价问题目前存在很多个性化服务系统,对于系统的评价各 有各的方案,如何更客观的评价个性化服务,提出一个通用的性能指标也 是今后研究方向之一。 1 4 本文研究的内容和意义 针对w e b 个性化信息推荐技术面临的主要挑战,本文对w e b 个性化 信息推荐系统中的聚类算法设计以及推荐系统体系结构等关键技术进行 了有益的探索和研究。本文的研究内容主要包括w e b 个性化信息推荐系统 推荐质量研究,基于w e b 挖掘的推荐系统以及电子商务推荐系统体系结构 研究。 个性化主动信息服务( p a i s ) 作为一种新的信息服务方式,提高了资源 的利用率和获取效率,实现了人的个性化需求,具有重要的理论意义和实 际意义。个性化信息推荐服务是个性化主动信息服务中最重要的服务。 燕山大学工学硕士学位论文 本论文的工作主要体现在以下几个方面: ( 1 ) 改进了基于关联规则超图模式的高维数据聚类算法,提出了一个新 的超边权值度量方法。 ( 2 ) 提出了一个基于数据挖掘的w e b 个性化信息推荐系统框架。 ( 3 ) 提供了针对非注册用户的信息推荐服务。 h ) 提出了推荐策略,在推荐策略中考虑了用户类型的不同。 ( 5 ) 根据用户是否有新颖信息的需求,给出了两种不同的推荐算法。 1 5 本文的内容安排 本文共分为四章,内容包括:绪论、w e b 个性化服务、一种改进的基 于关联规则超图模式的高维数据聚类算法、w e b 个性化信息推荐系统框架。 第1 章为绪论。探讨了w e b 个性化信息推荐系统提出的背景及其研究 意义,介绍了推荐系统的研究现状,分析了w e b 个性化信息推荐系统面临 的主要挑战,介绍了本论文主要的研究工作及取得的主要研究成果。最后, 给出了本文的整体组织结构。 第2 章为w e b 个性化服务。本章是对整个w e b 个性化服务研究现状 的回顾,涉及w e b 个性化服务系统的体系结构及关键技术到w e b 个性化 服务系统的多个方面,力图描述w e b 个性化服务研究的全貌。 第3 章为一种改进的基于关联规则超图模式的高维数据聚类算法。对 现有聚类分析进行深入分析和探讨,针对高维数据的特点及传统的基于全 空间距离函数的聚类方法在高维空间的稀疏性的情况下存在的不足,采用 了一种基于关联规则超图模式的高维空间数据聚类算法,提出了一种新的 超边权值的度量方法,给出了改进算法的实验结果,并与原有算法进行了 比较。 第4 章为w e b 个性化信息推荐系统框架。本章提出了一个w e b 个性化 信息推荐系统框架并实现了w e b 使用数据预处理。推荐系统中采用了w e b 使用和内容挖掘结合的方法,在w e b 使用挖掘模块中采用了基于关联规则 和基于使用聚类两种推荐算法。文中针对不同的用户采取不同的推荐算法, 6 第1 苹绪论 基于关联规则与内容特征聚类相结合的推荐方法利用当前用户访问操作和 关联规则以及内容特征聚类匹配,最终生成推荐集。这种推荐方法具有快 速、准确的特点,但是不太适合新用户、访问站点较少的用户以及具有新 颖性需求的用户。因为如果用户事务模式没有或过少,就不能有效地生成 关联规则。基于使用聚类与内容特征聚类相结合的推荐方法,利用用户访 问操作和使用聚类模式以及内容特征聚类模式进行匹配,最后生成推荐集。 它比较适合新用户、访问站点较少的用户和有新颖性需求的用户。 最后,在结论中对本文进行了总结,并对进一步研究工作进行了分析 和展望。 7 燕山大学工学硕士学位论文 第2 章w e b 个性化服务 个性化服务是指针对不同用户提供不同的服务策略和服务内容的服务 模式。与不区分服务的普通服务模式相比,个性化服务显然具有更高的服 务质量。人们常说的“因材施教”就是个性化服务在教育中的一种应用。 w e b 个性化服务是指在i n t e m e t 中为不同的用户提供针对性的服务,是个 性化服务在i n t e m e t 中的拓展,是个性化服务新的应用和发展领域。 i n t e m e t 的迅速发展和i n t e m e t 资源的指数增长使得个性化服务脱颖而 出。个性化服务已经成为网络技术和智能信息处理中新的研究热点。 2 1研究和发展动态 1 9 9 5 年3 月,卡内基- 梅隆大学的r o b e r t a r m s t r o n g 等人在美国人工智 能协会( a a a i ) 春季会议上提出了个性化导航系统w e b w a t c h e r ,斯坦福大 学的m a r k ob a l a b a n o v i c 等人在同一次会议上推出了个性化推荐系统 l i r a 。同年8 月,麻省理工学院的h e n r yl i e b e r m a n 在国际人工智能联合 大会( i j c a i ) a r 提出了个性化导航智能体l e t i z i a 。这三个系统被公认为个性 化服务发展初期最为经典的系统,标志着个性化服务的开始。 在此后的几年中,个性化服务系统层出不穷,出现了很多。1 9 9 6 年, 加州大学i r v i n e 分校的b r i a ns t a r r 等人提出了发现用户感兴趣的页面有价 值的变化、进而通知用户访问的个性化服务智能体d o i c a r e ;同年,卡内 基梅隆大学的d u n j am l a d e n i c 在w e b w a t c h e r 的基础上进行了改进,提出 了个性化推荐系统p e r s o n a lw e b w a t c h e r ;1 9 9 6 年,著名的网络公司y a h o o ! 也注意到了个性化服务的巨大优势和潜在商机,推出个性化入口 m y y a h o o ! 。 1 9 9 7 年,a t & t 实验室提出了基于协作过滤方式的个性化推荐系统 p h o a k s 和r e f e r r a lw e b ;斯坦福大学的m a r k ob a l a b a n o v i c 和y o a vs h o h a m 第2 章w e b 个性化服务 推出了基于内容过滤和协作过滤两种方式相结合的个性化推荐系统f a b 。 同年3 月,( ( c o m m u n i c a t i o n so f t h e a c m ) ) 组织了个性化推荐系统的专题报 道,标志着个性化服务已经受到了相当的重视。 1 9 9 9 年,德国d r e s d e n 技术大学的t a n j aj o e r d i n g 实现了个性化电子商 务原型系统t e l l i m ;麻省理工学院的h e n r yl i e b e r m a n 提出了基于协作过 滤方式的个性化导航系统l e t sb r o w s e :意大利t o r i n o 大学的l i l i a n a a r d i s s o n o 和a n n ag o y 提出了个性化网上商店s e t a 。个性化服务开始向 全球发展。 2 0 0 0 年,n e c 研究院的k u r td b o l l a c k e r 等人为搜索引擎c i t e s e e r 增 加了个性化推荐功能,将搜索殷勤c i t e s e e r 个性化;爱尔兰d u b l i n 大学的 b a r r ys m y t h 和p a u lc o t t e r 提出了个性化电视网站p t v ;同年,美国n s f 基金开始支持有关个性化服务的研究;同年4 月,以美国为主的多国个性 化研究机构和网络公司成立了个性化协会,旨在推动个性化服务的发展, 同时保护个性化服务中涉及的用户隐私。这一年,我国也开始了个性化服 务的研究。清华大学的路海明等人提出了基于多a g e n t 混合智能实现个性 化推荐。 2 0 0 1 年,纽约大学的g e d i m i n a sa d o m a v i c i u s 和a l e x a n d e rt u z h i l i n 实 现了个性化电子商务网站的用户建模系统1 :1 p r o :i b m 公司在其电子商务 平台w e b s p h e r e 中增加了个性化功能,以利于商家开发个性化电子商务网 站;n e c 研究院的e r i cg l o v e r 等人提出了个性化元搜索引擎原型系统 i n q u i r u s 2 。我国也广泛开展了对个性化服务的研究,提出了一些原型系统。 清华大学的冯翱等人提出了基于a g e n t 的个性化信息过滤系统o p e n b o o k m a r k :南京大学的潘金贵等人设计并实现了个性化信息搜集智能体 d o l t r i - a g e n t 。 近几年,个性化服务逐渐从学术研究走向实际应用,成为业界的热点 概念。很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如 m i c r o s o f t 、a o l 、c n n 、l y e o s 、i b m 等,均推出了个性化功能;很多电 子商务网站也注意到了个性化服务的巨大商机,开始提供个性化服务,如 a m a z o n 、e b a y 、b e s tb u y 、e x p e d i a 等:我国的部分网站( 如新浪网) 也推出 9 燕山大学工学硕士学位论文 了个性化服务。 2 2w e b 个性化服务系统的体系结构 现有的w e b 个性化服务系统个数繁多,服务形式也不尽相同,但通过 对各种不同的个性化服务系统的分析发现,不同形式的个性化服务系统都 可以抽象成一个共同的体系结构,即首先收集用户信息,而后根据用户信 息对用户进行建模,进而在构建的用户模型的基础上提供个性化的服务策 略和服务内容2 9 1 。 w e b 个性化服务系统的体系结构如图2 1 所示。 用户反馈 用 用 个 户 性 用 息 、 建 h 、 化 服 收模 务 白 集 模 模 模 块 块块 图2 一lw e b 个性化服务系统体系结构 f i g2 - 1t h e f r a m e w o r ko f w e bp e r s o n a l i z a t i o ns y s t e m 2 2 1 用户信息收集模块 用户信息收集模块是一种个性化服务系统的基础模块。由于个性化服 务是为用户量身定制的,因此无论是何种个性化服务,用户信息收集都是 个性化服务的基础。 用户在访问i n t e r n e t 过程中共产生以下7 种信息: ( 1 ) 用户输入搜索引擎的查询关键字; 1 0 第2 章w e b 个性化服务 f 2 ) 用户维护的b o o k m a r k ; ( 3 ) 用户浏览的页面; ( 4 ) 用户浏览行为,包括用户在每个页面上的驻留时间及相关操作等; ( 5 ) 服务器日志。用户对网站的访问会被服务器记录下来,包括用户的 i p 、访问时间、用户所在的时区、访问的页面、页面的大小等信息。服务 器日志可分为代理服务器同志和网站服务器日志。代理服务器日志记录用 户对所有网站的访问,网站服务器日志只记录用户对某个网站的访问: ( 6 ) 用户下载、保存的页面和资料; ( 7 ) 用户手工输入的其它信息。 根据收集的信息种类不同,用户信息收集模块采用的收集方法也不相 同。若要收集用户维护的b o o k m a r k 或用户下载、保存的页面和资料,则 需要在用户端访问特定的目录;收集服务器日志则需要在服务器端获取服 务器日志文件,并定位出特定用户的访问记录。若要收集用户浏览的页面 和浏览行为,则既可以在客户端捕获,也可以在服务端从用户的访问记录 中分析。 2 2 2 用户建模模块 用户建模是指从有关用户兴趣和行为的信息中归纳出可计算的用户模 型的过程。可计算性是用户模型的基本要求,在个性化服务系统中的用户 模型不是针对用户个体的一般性描述,而是一种面向算法的、具有特定数 据结构的形式化的用户描述。 用户建模是个性化服务的基础和核心。无论何种形式的个性化服务, 都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化 服务。根据建模过程中用户的参与程度,用户建模技术可以分为用户手工 定制建模、示例建模和自动用户建模。 2 2 2 1 用户手工定制建模用户手工定制建模是指用户模型由用户自己 手工输入或选择的用户建模方法。如用户自己输入感兴趣的关键词列表, 或选择感兴趣的栏目等。卡内基梅隆大学的w e b w a t c h e r 和y a h o o ! 站点1 9 9 6 燕山大学工学硕十学位论文 年推出的m y y a h o o 是用户手工定制建模的典型代表。但用户手工定制建模 存在着几个方面的不足: ( 1 ) 因为建模过程完全依赖于用户,容易降低用户使用系统的积极性; 用户不愿意参于对系统的训练,即使用户知道对系统进行训练会给自己带 来好处; ( 2 ) 用户难以全面、准确的罗列自己感兴趣的栏目或关键词,从而导致 用户模型不够准确; ( 3 ) n 用户兴趣发生变化时,用户必须重新输入用户模型;用户手工定 制的用户模型是静态的这与用户兴趣的渐变性不符。 2 2 2 2 示例用户建模示例用户建模是指由用户提供与自己兴趣相关的 示例及其类别属性来建立用户模型的建模方法。由于用户对自己的兴趣和 偏好等最有发言权,因此由用户提供的有关自己兴趣的示例最能集中、准 确的反应用户的兴趣和偏好等特点。加州大学l r v i n e 校的s y s k i l l & w e b e r t 是 示例用户建模的典型代表。 2 2 2 3自动用户建模 自动用户建模是指根据用户的浏览内容和浏览行 为自动构建用户模型、建模过程无须用户主动提供信息的建模方法。自动 用户建模的主要代表有卡内基梅隆大学的w e b w a t c h e r ,德国国家研究中 心的e l f i 麻省理工学院的l e t i z i a 等。 自动用户建模实际上是改进了示例用户建模方法中的示例获取途径, 将其转化为无须用户标注的自动示例获取方法。通过对用户浏览页面的聚 类和分类就能够得到用户感兴趣的主题,从而实现自动建模。此外,w e b 日志挖掘也是一条实现自动用户建模的途径。 自动用户建模虽然存在着容易引入噪声,不利于构建高质量的用户模 型的缺点,但是,自动用户建模无需用户主动地提供信息,不会对用户造 成干扰,有利于提高个性化服务的易用性,促进个性化服务的快速发展。 2 2 3 个性化服务模块 个性化服务模块根据用户模型向用户提供相应的服务策略和服务内 容,它负责提供具体的个性化服务如个性化推荐、个性化信息检索等。由 1 2 第2 章w e b 个性化服务 于服务形式的不同,个性化服务模块的功能也不相同。在这里只介绍个性 化推荐技术。 个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过 滤技术。 2 2 3 1基于规则的技术规则可以由用户定制,也可以利用基于关联规 则的挖掘技术来发现f 3 ”,利用规则来推荐信息依赖于规则的质量和数量, 基于规则的技术其缺点是随着规则的数量增多,系统将变得越来越难以管 理。一个规则本质上是一个l f - t h e n 语句,规则可以利用用户静态属性来 建立,也可以利用用户动态信息来建立。为了利用规则来推荐资源,用户 描述文件和资源描述文件需用相同的关键词集合来进行描述。信息推荐时 的工作过程是这样的:首先根据当前用户阅读过的感兴趣的内容,通过规 则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度( 或重 要程度) ,对这些内容排序并展现给用户。 基于规则的系统一般分为3 部分:关键词层、描述层和用户接口层, 如图2 - 2 所示。关键词层提供上层描述所需的关键词,并定义关键词间的 ,用户接口层p 、 l 一审翟蝴翌审 - 层霉龇型。 图2 - 2 基于规则的技术 f i g 2 - 2r u l e - b a s e dt e c h n o l o g y 1 3 燕山大学工学硕二 学位论文 依赖关系,在该层可以定义静态属性的个性化规则。描述层定义用户描述 和资源描述,由于描述层是针对具体的用户和资源,所以描述层的个性化 规则是动态变化的。用户接口层提供个性化服务,根据下面两层定义的个 性化规则将满足规则的资源推荐给用户。 2 2 3 2信息过滤技术信息过滤技术可分为基于内容过滤的技术 ( c o n t e n t b a s e df i l t e r i n g ) 和协作过滤技术( c o l l a b o r a t i v ef i l t e r i n g ) 。基于内容过 滤的技术是通过比较资源与用户描述文件来推荐资源( 见图2 - 3 ) 。它的关键 问题是相似度计算,对于矢量空间模型来说,通常采用的方法是余弦度量。 如果用户的描述文件没有正确描述用户的兴趣和行为,那么该方法推荐的 数据可能和用户真正的兴趣根本不相关。基于内容过滤的系统其优点是简 单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现 新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。 。m 。m di 资源描l 一团 l 述文件l 由 事 吴 用户a 图2 - 3 基于内容的过滤 f i g 2 - 3c o n t e n t - b a s e df i l t e r i n g 协作过滤是根据用户的相似性来推荐资源,其推荐过程如图2 4 。它 与基于内容的过滤技术不同,它比较的是用户描述文件,而不是资源与用 户描述文件。其关键问题是用户聚类。由于它是根据相似用户来推荐资源 的,所以有可能为用户推荐出新的感兴趣的内容。基于近邻用户的协作过 滤技术应用比较普遍,它的核心问题是为当前用户寻找k 个最相似的邻居 来预测当前用户的兴趣。该方法在实践过程中遇到两个很难解决的问题, 一个是稀疏性,也就是指在系统使用初期,由于统资源还未获得足够多的 1 4 第2 章w e b 个性化服务 评价,该方法很难利用这些评价来发现相似的用户。另一个是可扩展性, 也就是指随着系统用户和资源的增多,该方法性能会越来越低。对第一个 问题,文献 3 1 】提出了基于内容的协作过滤方法,也就是利用用户浏览过 的资源内容来预期用户对其他资源的评价,这样可以增加资源评价的密度, 并利用这些评价再进行协作过滤,从而提高协作过滤的性能。文献【3 2 提 出了l s i ( 1 a t e n t s e m a n t i ci n d e x i n g ) 方法来降低维空间,增加数据的密度,从 而更容易发现用户间的相似性。对第二个问题,人们提出了基于规则p 、 聚类方法、贝叶斯网 3 4 1 、h o r t i n g 图、基于近邻资源的协作过滤方法【3 6 】 等,它们通过预先建立一些反映相关性或相似性的模型,从而提高系统在 预测和推荐时的性能。 2 2 4 用户 图2 - 4 协作过滤 f i g 2 - 4c o l l a b o r a t i v ef i l t e r i n g 用户是个性化服务系统的使用者,同时用户针对个性化服务的反馈也 可以用于调整个性化服务系统。如用户可以直接修改可视化用户模型来调 变些盔茎三兰堕主兰些丝苎 整个性化服务系统的性能,系统可以根据用户对个性化内容的选择改进用 户建模和个性化服务模块的性能。 2 3 实现结构 在个性化服务系统的实现中,用户信息收集模块、用户建模模块和个 性化服务模块可以分别存在于客户端、代理端或服务器端。个性化服务系 统的实现结构如图2 5 所示,“卜”表示用户反馈。 图2 - 5 ( a ) 为客户端个性化服务系统的实现结构。在客户端个性化服务 系统中,用户信息的收集、用户建模和个性化服务均在客户端实现。由于 用户的信息就在本地收集和处理,因而不但能够获取丰富准确的用户信息 以构建高质量的用户模型,而且可以有效地保护用户的隐私,但缺点是不 能借鉴其他用户信息以实现合作式的个性化服务。典型的客户端个性化服 务系统有斯坦福大学的l i r a 、麻省理工学院的l e f i z i a 、加州大学的 s y s k i l l & w e b e r t 、卡内基梅隆大学的p e r s o n a lw e b w a t c h e r 等。 图2 5 ( b ) 为代理端个性化服务系统的实现结构。在代理端个性化服务 系统中,用户信息的收集、用户建模和个性化服务均在代理端实现。由于 用户的信息需要传给代理端以进行用户建模,因而对用户的隐私可能造成 侵犯,其优点是可以在被代理的用户群中实现合作式的个性化服务。典型 的代理端个性化服务系统有明尼苏达大学的g r o u p l e n s 、斯坦福大学的f a b 等。 图2 - 5 ( c ) 为服务器端个性化服务系统的实现结构。在服务器端个性化 服务系统中,用户信息的收集、用户建模和个性化服务均在服务器端实现。 由于用户的信息在非本地的服务器端处理,因而同样有可能侵犯用户的隐 私,其优点是可以实现合作式个性化服务,还可以实现网站个性化。典型 的服务器端个性化服务器系统有卡内基嗨隆大学的用户隐私的侵犯。但由 于个性化服务是在服务器端实现,因而可以实现合作式的个性化服务。 图2 ( d ) 为客户端朋匣务器端个性化服务系统的实现结构。在客户端服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论