(计算机软件与理论专业论文)结合使用挖掘和内容挖掘的web推荐服务研究.pdf_第1页
(计算机软件与理论专业论文)结合使用挖掘和内容挖掘的web推荐服务研究.pdf_第2页
(计算机软件与理论专业论文)结合使用挖掘和内容挖掘的web推荐服务研究.pdf_第3页
(计算机软件与理论专业论文)结合使用挖掘和内容挖掘的web推荐服务研究.pdf_第4页
(计算机软件与理论专业论文)结合使用挖掘和内容挖掘的web推荐服务研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结合使用挖掘和内容挖掘的w e b 推荐服务研究 结合使用挖掘和内容挖掘的w e b 推荐服务研究 专业:计算机软件与理论 学位申请人:戴东波 指导教师:梁华金副教授 摘要 随着i n t e m e t 的基础结构不断扩大和其所含信息的持续增长, i n t e m e t 用户越来越感觉容易在w w w 服务中“资源迷向”。提高 用户访问效率的方法有页面预取技术、站点动态重构技术和w e b 个 性化推荐技术等。其中w e b 个性化推荐技术的目的就是尽可能地迎 合每个用户的浏览兴趣并且不断调整推荐内容来适应用户浏览兴趣 的变化,从而使现有的w e b 模式从以网站为中心变成以用户为中心。 现有的大多数w e b 个性化推荐技术主要是基于用户使用记录的 数据挖掘方法,没有或很少考虑结合页面内容一这才是用户真正感兴 趣的。本文提出一种结合用户使用挖掘和内容挖掘的w e b 推荐服务, 该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的 频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候 选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐 质量分析,这种方法具有较好的推荐优化能力。 关键词:w e b 个性推荐w e b 使用挖掘w e b 内容挖掘 结合使用挖掘和内容挖掘的w e b 推荐服务研究 t u e l u d yo fw e bp 哪o n a l i 即dr 电c o 咖e n d a t i o ns e i c eb a do nt h ec o m b i n a 6 0 no f v e bu s a g em 蹦l l ga n dw 曲c o n t e l 武m i n i n g m 由o r :c 啪p u t e rs d e c e n 哪e :d a id 叫g b o s u p e r v 蠡o r :l i a n gh u 8 j n a b s t r a c t a st t l eb a s i cc o n s t m c t i o no ft h ei n t e m e tc o n s t a n t l ye x p a n d sa j l dt h ei n f o 锄a t i o n i tc o n t a i n sc o n t i n u o u s l yi n c r e a s e s ,i n t e l l i e tu s e r sf i n db e i n ga p tt og e tl o s ti nr e s o u p c e s e a r c m n gi nw w w s e n r i c e t h ew a y si nw h i c ht h ee 蚯c i e n c yo fu s e r b r o w s i n gc a nb e i m p r o v e da r ep a g ep r e f e t c h i n g ,d y n a i i l i cw e b s i t er e c o n s t m c t i o na n dw e bp e r s o n a l i z e d r e c o m 埘e n d a t i o ne t c t l p u r p o s eo fw e bp e r s o n a t i z e dr e c o m m e n d a c i o ni st 0c a t e rt o e a c hu s e sn a v i g a t i o n a li n t e r e s ta n dt oa 圳u s ti t s e l ff o rt h ea l t e m t i o no fu s e r s n a v i g a t i o n a li n t e r e s t ,w l l i c hm 砒r e st h ec u r r e n t 、e bp a t t c mf r o ms i t e c e n ”a l i z e d t 0 u s e r - c e n t l a i i z e d m o s to fm ee x i s t i n g 、e bp e r s o n a l i z e dr e c o m m e n d a t i o na r em a i n l yd a t ai i l i n i n g f n c m o d sb a s e do n 血eu s i n gr e c o r d ,w i 山f e wo rn or e g a r dt ot h ec o n t e n to ft h ep a g e , w h i c hi sa c t u a l l yt t l eu s e r s i n t e r e s t t h i sp a p e rp u t sf o n v a r daw e br e c o m r n e n d a t i o n s e n r i c em a tt m r e si n t oa c c o u n tb o t hw e bu s a g er n i n i n ga n dw e bc o n t e n tr n i n i n g b a s e d o nt h ef r e q u e n t l a xf 0 九v a r dp a t h ,i tr a i s e sm ec o n c e p to ff r e q u e n t l yv i s i t e dp a m d i a g r 锄i n c l u d i n gm en a v i g a t i o np a g ea n dc o n t e n tp a g e a c c o r d i n gt ot h er c l e v a n c y o fm ec o n t e n to f 山el a t e s tv i s i t e dp a g ei n 血es l i d i n gw i n d o wa n dm a to ft h ec a n d i d a t e r e c o 眦e n d e dp a g e 山i ss e r v i c ep r o v i d e su s e r sw i t t lt h ep c r s o n a l i z e dr e c o m m e n d a t i o n p a g e s a si ti sp r o v e db yt h er e c o n m l e n d a t i o nq u a l i t ya i i a l y s i s ,m i sa p p r o a c hh a sa g o o dp e r f 0 i m c eo fo p t i m a lr e c o m r r l e n d a t i o n k e yw o r d :w e bp e r s o n a l i z e dr e c o m m 蚰d a t i o n ,w e bu s a g em i n i n g ,w 曲 c o n t e n tm i n i n g 结合使用挖掘和内容挖掘的w e b 推荐服务研究 引言 推荐服务最早出现在电子商务领域,随着电子商务的发展,基于用户个性 化的智能信息推荐服务日益受到人们的普遍关注。在电子商务中,推荐系统跟 踪用户的访问操作行为,了解消费者的消费偏好,掌握供应商和消费者之间的 关联关系,实现有针对性的个性化推荐,这样可以既可以增加用户对商家商品 的兴趣度,又可以提高商家的销售额。 虽然个性化信息服务来自电子商务领域,但其基本思想对w w w 上信息检 索服务同样有用。每个用户在浏览网页的时候,有很多不同的浏览过程,现有的 静态超链接不可能做到让每个用户都非常满意地到达他所想要去的地方,也就是 他必须经过中间链接才能到他所想去的网页。如果我们能够根据用户的行为模 式,动态地生成一些他可能想要去的网页的超链接,这样就会让用户更有效地提 高访问效率,从而也就提高了“回访率”。这样,有些与用户当前浏览的网页看起 来并不相关的网页就有可能被设置成了超链接,这点在静态里是做不到的。从 服务器端来看,也就可以在日志中减少了对不必要的中间层网页访问的分析,提 高了日志的质量,而且还可以为访问的用户预先取出想要的w e b 页面。这样就 可以就让用户感觉在浏览网站时他就是这个网站的“唯一用户”。 现有的、v e b 个性化推荐服务技术主要集中在两种方法上:协同过滤技术和 数据挖掘技术。协同过滤是用的比较早的一种方法,存在一些难以克服的缺点。 数据挖掘技术相对协同过滤技术来说有明显的推荐效果和性能优势,主要利用用 户的访问历史信息和站点的w e b 页面内容,但很多算法和实现模型常常是偏重 于前者,由于w e b 页面内容对于推荐服务起着很重要的作用,所以本文从用户 的使用信息和、e b 的页面内容的结合来考虑一种新的w e b 推荐算法和推荐模型, 并给出它的性能分析。 结合使用挖掘和内容挖掘的w e b 推荐服务研究 第一章w e b 个性化推荐服务综述 1 1 个性化推荐服务的发展历史 广义的个性化推荐服务是指通过对用户个性、兴趣、心理和使用习惯的分析, 主动地向用户提供其可能需要的信息和物质服务,从而使用户接触到所需的相关 信息和感兴趣的知识内容,以节约查找时间,提高效率,使提供推荐服务方能提 高顾客的“召回率”以及谋取更大的商业利润。个性化推荐服务根据i n t e m e t 出 现前后分为传统的个性化推荐服务和i n t e r n e t 环境下的个性化推荐服务。 1 1 1 传统的个性化推荐服务 个性化的推荐服务其实在i i l t e m e t 出现之前就在各种商业领域存在了。如 在酒店管理业中采取的个性化服务有:准备有特色的餐厅及餐位,根据客户的 年龄和性别提供个性化的用餐菜单,通过在前台登记获取客户的个人信息从而 提供体现文化差异的客房等。在保险行业中,推销员可以根据客户的年龄、性 别、职业、健康状况、收入水平等来推荐一份最适合客户特征的保险单。还有 在电信,银行,超市等许多行业中,由于竞争的存在,个性化推荐服务是吸引 客户的一种有效手段。尽管这些个性化推荐服务没有利用i i i t c m e t 基础设施, 但已经体现了最核心的思想:收集客户信息一进行全面分析一提供推荐服务。 只是这个时期的收集客户信息和全面分析基本上是各个领域专业人士手工进 行,自动化程度比较低。 1 1 2 当今i n t e r n e t 环境下的个性化推荐服务 在i n t e m e t 出现后,特别是w w w 服务普遍流行之后,个性化推荐化服务 得到广泛应用。电子商务领域的商品个性化推荐、数字图书馆的个性化信息服 务、基于搜索引擎的个性化知识推送系统等都是基于i n t e m e t 下的推荐服务。 而电子商务是在i n t e m e t 下最早出现个性化推荐服务的领域。其中w e b 个性化 推荐服务就是基于h l t e m e t 下w w w 功能的一种智能化服务。个性化推荐服务 在i n t e m c t 环境下相对传统环境下来说出现了以下问题: 1 w w w 服务的日益流行,使得浏览客户群数量明显增多,从而关于客户的信 息量也是爆炸式地增长,信息的数据类型和格式多样化,并且还有可能伴随着 2 结合使用挖掘和内容挖掘的w e b 推荐服务研究 用户信息的不完整性和模糊性,这样就为收集、清洗、存储和处理这些客户数 据提出了新的要求。 2 由于客户数据的复杂性,传统推荐服务中简单的分析方法不再有效,要从浩 瀚的数据中找出规律就得应用统计理论,数据挖掘理论,及其机器学习理论等 多种学科理论和技术来进行分析,并且这些分析都是借助机器自动实现从而产 生自动的个性化推荐方案和模型。 3 由于w e b 上用户的信息是动态增长变化的,如何在多种现有方法中选取有 较高的可伸缩性能和较低的计算机复杂度的推荐算法和模型,并且尽可能地 设计更好的算法和模型改进它们的推荐性能也是一大挑战。 1 2w e b 个性化推荐服务的涵义和基本特征 所谓真正意义上的w e b 个性化推荐服务,是指能够满足用户的个体信息需 求的一种服务,即用户可以按照自己的目的和要求,在某一特定的网上功能和服 务方式中,自己设定网上信息的来源方式、表现形式、特定的网上功能及其它的 网上信息服务方式等。或者是通过对用户个性、兴趣、心理和使用习惯的分析, 而主动地向用户提供其可能需要的信息服务,这种服务首先应该是能够满足用户 的信息需求,用户可以定制传送到计算机上的信息,在需要的时候查看,甚至可 以离线阅读。它是在研究用户的个性、习惯、兴趣、知识结构、心理倾向、信息 需求和行为方式的基础上,通过用户的自助服务,使用户接触到所需的相关信息 和感兴趣的知识内容,以节约查找时间,提高效率。所以,w e b 个性化推荐服务 具有以下的基本特征: 主动性 就是信息服务者不需要用户的及时请求而主动地将数据信息传送给用户,它 与基于w 曲浏览器的被动服务有强烈的反差。 灵活性 就是指用户可以完全根据自己的方便和需要,灵活的设置链接时间,链接方 法。通过e m a i l ,对话框、音频、视频等方式获取网上特定信息资源,满足自己 的需求。 针对性 就是可以针对用户的特定信息需求进行检索、加工和传送,并且可以根据用 结合使用挖掘和内容挖掘的w e b 推荐服务研究 户特定的信息需求为其提供个人定制的检索界面。 高效性 就是指这种个性化信息服务可以在网络空闲时进行。能有效的利用网络宽 带,比较适合输送大量数据的多媒体信息。 智能性 它可以定期自动对预定站点进行搜索,收集更新信息并送给用户。服务器能 够根据用户的需求自动搜集用户感兴趣的信息并定期传送给用户。甚至,个人信 息服务代理和主题搜索代理还可以提高数据传送的准确性和权威性,控制搜索的 深度与广度,过滤掉不必要的信息,将w 曲站点的资源列表及其更新状态配以 信息服务者完成,这样,当添加新的信息时,只需建立响应的频道定义格式文件, 而不必改动w 曲站点原有的组织结构。因此说这种个性化的信息服务具有较高 的智能性,这_ 点是传统推荐服务所不具有的。 1 3w e b 个性化推荐服务的常见形式和功能 现有的w e b 个性化推荐服务可以有很多的实现形式。根据推荐的对象,w c b 个性化推荐服务的几种常见的表现形式【l 】: 推荐的超链接列表:在一个给定链接结构的网站中,各网页中的超链接 是静态的,即每个超链接是指向固定的一个网页,不能动态地变化。这 就使得用户不能连续访问他感兴趣的网页,也就是说他必须经过一些他 不感兴趣的中间链接才能达到他想要去的页面。假设一个线性链接结构 的网站,部分网页链接如下图: 图1 一l 静态线性网站结构 如果用户当前留在页面a ,他感兴趣的后续页面是c ,e ,g ,那他必 须按现有的静态链接依次访问b ,c ,d ,e ,f ,g ,其中页面b ,d , f 对用户来说是没必要访问的。更坏的情况是,如果b ,d ,f 中某个 页面含有大容量的内容( 如含有大量图片) ,那么用户不得不忍受长时间 的等待来打开一个他并不想访问的页面。而推荐超链接列表服务就可以 4 结合使用挖掘和内容挖掘的w e b 推荐服务研究 克服这个缺点,它根据用户的访问记录,根据一定的算法挖掘出用户的 兴趣页面,在用户访问页面a 的时候,主动地把用户感兴趣的页面c , e ,g 的超链接自动发给用户( 比如附在浏览器的底部) ( 如图l 一2 ) ,让 用户去选择他想要的页面。这样可以提高用户对站点的访问效率,使用 户获得满意的服务。 图1 2 采取超链接推荐列表服务的网站 推荐的商品列表:h a r 、r a r d 商学院的j o ep i n g 在大规模定制一文中认 为现代企业应该从大规模生产( 以标准化的产品和均匀的市场为特征) 向 大规模定制( 为不同客户的不同需求提供不同的商品) 转化。在电子商务 中,推荐系统就是向客户提供商品信息和建议,模拟销售人员帮助客户 完成购买过程。电子商务推荐系统的的作用就是要将浏览者变为购买者, 提高网站的交叉销售能力,提高客户对网站的忠诚度。 电子商务推荐系统根据客户购物篮中的商品和客户可能感兴趣的商品推 荐类似的商品,或者通过电子邮件的方式通知客户可能感兴趣的商品信息。 电子商务推荐系统使用的技术主要有:b a y e s i a n 网络( b a y e s i a nn e t w o r k ) ,关 联规则( a s s o c i a t i o nr u l e s ) ,聚类( c l u s t c r i n g ) ,h o n i n g 图( h o n i n gg r a p h ) ,协 同过滤技术( c o l l a b o r a 廿v ef i l t c d n g ) 。电子商务推荐系统研究热点方向有: 1 当前的电子商务推荐系统进行改进,以使得推荐系统能产生更加精确的 推荐 2 数据挖掘技术及w 曲挖掘技术应用到电子商务推荐系统中,产生完全自 动化的推荐,使用户感受到完全个性化的购物体验 3 将电子商务推荐系统由虚拟的销售人员转变为市场分析工具 4 开发销售方的电子商务推荐系统,为商家的产品定价、促销活动及交叉 销售等提供推荐。 结合使用挖掘和内容挖掘的w e b 推荐服务研究 推荐的广告列表:广告就是市场信息向尚未关注该信息的客户的传播一 可以以任何形式,从电视到户外广告牌,从公告牌到电影广告。在w e b 上向用户推荐广告就是要针对不同用户的爱好、性别、国籍等发布不同 的广告信息。如在一个售卖运动产品的网站上,若知道一个客户是来自 澳大利亚的,就可以向他推荐关于游泳服和水上滑板的广告,若知道一 个客户是来自内蒙古,就可以向他推荐骑马套具的广告。在w e b 上的广 告有三种设计布局:1 _ 使用常规 r r m l 帧。2 使用新的内嵌帧。3 使 用一个单独的窗口。每一种途径都有有点和缺点。广告服务器如何决定 显示的内容呢? 传递给广告服务器的u r l 包含了帧的尺寸,也可能包含 了各种其他有用的信息,比如参考页面、页面语言、页面类型和客户查 询串。所有这些都对选择合适的广告有用,但是大多数有用信息都是关 于客户的识别。更精确地说,我们不关心谁访问了站点,我们只关心他 们是哪一类人,这就要依靠c o o h e s 提供的用户信息。 经裁剪的文本或图像列表:现在w c b 上的大部分内容是非结构化或半结 构化的,对这些w e b 上的文本、声音、图片、视频等进行有效管理是一 件很有意义的事情。这些文本、声音,图片,视频等是很“原始”的信 息,也就是说不是根据用户的需要进行定制的,所以裁剪其中的内容就 显得特别重要。这就必须通过w e b 挖掘来分析利用用户数据并提供动态 和个性化的网页内容和服务。这就意味着不同用户请求同一个w e b 页可 能其中的内容是不同的,并且其中的内容都是用户感兴趣的,不会被大 量无用的信息所“淹没”。这种经过裁剪的文本和图像服务在数字图书馆、 个性化远程教学等很有意义。特别是在窄屏的数字移动设备进行w w w 服务时,经裁剪的推荐服务显得很重要,因为窄屏的数字移动设备( 如 p d a ) 上,屏幕空间有限,在有限的屏幕空间显示用户感兴趣的w e b 内容 就必须是经过裁剪的文本和图像,否则在窄屏上显示全部的w e b 内容要 进行很烦琐的搜索使用户得不到满意的服务。图l 一3 描述了经过内容裁 剪的w e b 推荐服务流程。当用户提出w w w 请求后( ) ,w e b 服务器会 启动w e b 挖掘模块,、e b 挖掘模块是根据用户的访问历史以离线的方式 形成了访问规则,并根据w e b 服务器传递的当前用户参数信息进行分析 6 结合使用挖掘和内容挖掘的w e b 推荐服务研究 ( ) ,找到匹配当前用户的规则( ) ,然后通知w e b 服务器按规则进行内 容裁剪,最后把裁剪过的w e b 内容发给用户( ) 。 咩芋鳖二l 硅 结合使用挖掘和内容挖掘的w e b 推荐服务研究 页面中某个超链接而后又快速返回,则可推测用户对该超链接的链宿页面不感兴 趣;假设用户浏览习惯是从左至右、从上至下,如果用户跳过某个超链接,则可 推测用户对该超链接的链宿页面不感兴趣。用户感兴趣页面中的一些关键词构成 了反映用户兴趣的模型,并且依此模型来进行推荐。 混合推荐是指既通过比较资源与各个用户模型的相似度进行基于内容的推 荐,又通过相近兴趣的用户群进行合作推荐的一种推荐方式。目前提供混合推荐 服务的系统还不是很多。斯坦福大学推出的基于内容的合作推荐系统f a b 是其中 最有影响力的系统。它根据用户对浏览页面的标注构建用户模型,并根据用户模 型的相似性寻找具有相似兴趣的用户。f a b 结合用户模型和邻居模型推荐用户感 兴趣的页面。国内的清华大学也推出了一个混合推荐系统o p e nb 0 0 k m a r k , 它通过集中管理用户群的b o o k m a r k 来实现湿合推荐。 结合使用挖掘和内容挖掘的w e b 推荐服务研究 第二章w e b 个性化推荐服务的相关技术和模型 及评价 在w c b 个性化推荐服务系统中,所用到的主要计算技术和推荐模型对 系统的精确性、实时性、可伸缩性、可操作性方面的各项性能指标都有影响。 下面我们来分析w c b 个性化推荐服务中用到的主要技术和模型,并对它们 做出评价。 2 1w e b 个性化推荐服务的现有实现技术 w e b 个性化推荐服务涉及到很多方面的理论和技术,当前在w e b 个性化 推荐服务用到两种主流的技术:协同过滤技术( c o l l a b o r a t i v ef i h e 血g ) 和数据 挖掘技术( d a t am i n i n g ) 。 2 1 1 基于协同过滤技术的w e b 推荐服务 协同过滤,又称作社会过滤( s o c i a lf i n e r i n g ) 扪,其本质是根据用户对信 息的评价得到用户的兴趣,判断相似用户,从而向用户推荐新信息。协同 过滤的基本原理在日常生活中体现得十分直观:人们在购买某一商品或消 费某一服务之前( 如购物,听音乐,看电影等) ,若对商品和服务的信息掌握 的不是很充分的情况下,往往会根据亲戚或朋友的推荐来做一些选择。而 基于协同过滤技术的w e b 推荐服务就是将这一思想运用到网络信息服务( 信 息推荐) 中,基于其他用户对某一信息的评价来向某一用户进行推荐。通 常,系统选取与指定用户有相似兴趣的用户作为参考对象。现在,越来越 多的在线商家,包括a m z o n c o m 、c d n o w c o m 和l e v i s c o m ,都使用了协 同过滤技术在线向顾客推荐产品。 2 1 1 1 协同过滤算法 协同过滤算法是基于这样的假定的口】: i 用户是可以按兴趣分类的。 i i 用户对不同的信息评价包含了用户兴趣信息。 i i i 用户对一未知信息的评价将和其相似( 兴趣) 用户的评价相似。 协同过滤的实现步骤为:首先,获得用户信息( 用户对某些信息条目的评 价) 。其次,分析用户之间相似度。最后,预测特定用户对某一信息的喜好。 结台使用挖掘和内容挖掘的w e b 推荐服务研究 对于协同过滤一个直观的描述方法是:将用户和信息条目构成一个矩阵: 用户一信息条目的兴趣矩阵。如表2 1 就是一个例子。 表2 1 一个用户信息条目的兴趣矩阵 篮球足球游泳武术 学生a4 9 4 学生b 9 334 学生c 42 口 3 学生d5 34 3 矩阵中已有的值是用户对相应信息条目的评价,未知值正是需要系统给出 的预测。协同过滤的过程就是根据已知值来预测未知值( 一个填空过程) 。协同 过滤系统所应用的算法就是这一填空过程所遵循的规则,规则与实际规律越符 合,预测的未知值就越准,信息过滤的效果就会越好。需要注意的是,实际中, 这样的矩阵是一个极为稀疏的矩阵。因为每一个用户一般只会对所有信息条目中 很少一部分有评价。这一点在设计算法,分析算法优劣上都很重要。 协同过滤推荐方法有最近邻协同过滤算法、贝叶斯网络算法、归纳规则学习 算法等。最近邻协同过滤推荐技术( k n n 技术) 嗍是当前最成功的推荐技术,其基 本思想就是基于评分相似的最近邻居的评分数据向目标用户产生推荐,即根据其 他用户的观点产生对目标用户的推荐列表。它基于这样一个假设:如果用户对一 些项目的评分比较相似,则他们对其他项目的评分也比较相似。协同过滤推荐系 统使用统计技术搜索目标用户的若干最近邻居,然后根据前n 个最近邻居对项目 的评分来预测目标用户对项目的评分,产生对应的推荐列表,即t o p 一推荐。 为了找到目标用户的最近邻居进行推荐,必须度量用户之间的相似性,然 后选择相似性最高的若干用户作为目标用户的最近邻居。目标用户的最近邻居查 询是否准确,直接关系到整个推荐系统的推荐质量,而要想准确查询目标用户, 需要准确计算不同项目之间的相似性,所以如何进行项目之间相似性的计算就 成为提高推荐准确率的关键。计算项目之间相似性主要的两种方法是 5 l : ( 1 ) 余弦相似性( c o s i n e ) :用户评分被看做是n 维项目空间上的向量,如果用户 对项目没有进行评分,则将用户对该项目的评分设为o ,用户间的相似性通过量 间的余弦夹角度量。设用户u l 和用户u 2 在n 维项目空间上的评分分别表示为向 1 0 结合使用挖掘和内容挖掘的、e b 推荐服务研究 量u 1 ,u 2 ,s i m ( u 1 ,u 2 ) 表示两用户的相似性度量值,则用户u 1 和用户u 2 之间 的相似性计算方法如下: s i m ( u l ,u 2 ) = c o s ( u 1 ,u 2 ) = u l u 2 ( iu 1l lu 21 )( 2 1 ) 式中分子为两个用户评分向量的内积,分母为两个用户向量模的乘积,夹角越小 相似度越高。 ( 2 ) 修正的余弦相似性( a d j u s t e dc o s i n e ) :在余弦相似性度量方法中没有考虑不 同用户的评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目平均评 分来改善上述缺陷。设用户u 1 和用户u 2 共同评分的项目集合用i 。:表示,i 。和i 。 分别表示经用户u 1 和用户u 2 评分的项目集合,则用户u 1 和用户u 2 之间的相似性 计算方法如下: ( r u l c r u l ) ( 凡2 。一r u 2 ) s i m ( u 1 ,u 2 ) = 1 1 1 些些 1 := :一 ( 2 2 ) j 磊p 咄“) 2 磊p 吨2 ) 2 式中:r u - 。表示用户u 1 对项目c 的评分 r 。- 和r 。z 分别表示用户u 1 和用户u 2 对项目的平均评分 其中s i m ( u l ,u 2 ) 也叫做皮尔森相关系数。 基于i ( n n 技术的协同过滤方法随着用户数目和项目数据的增加逐渐暴露出了 一些缺点,主要表现在: ( 1 ) 稀疏性:在实际的推荐系统中,用户一信息条目的兴趣矩阵相当稀疏,一般 用户的评价信息只能涉及到信息条目的少数,这就使得很难找到相似用户集, 使得推荐效果大大降低。 ( 2 ) 精确性:由于用户一信息条目的兴趣矩阵的稀疏性,使得推荐的精度也降低。 ( 3 ) 扩展性:在一些推荐系统,尤其是电子商务推荐系统中,用户的数目和商品 信息条目与日俱增,算法将遇到严重的扩展性问题。 正是由于上述的缺点,为了提高推荐系统的精确性和可扩展性,出现了一些 改进的算法,其中有基于项目聚类的协同过滤推荐算法5 1 和基于修正的条件概率 方法计算项目相似性的推荐算法【6 】等。 结合使用挖掘和内容挖掘的、阳b 推荐服务研究 2 1 1 2 协同过滤算法的不足 尽管在w e b 推荐服务中,基于协同过滤算法的应用是比较早而且比较成熟的, 但它有自身固有的缺点,这使得要么必须和其他方法结合使用,要么采用其他能 克服它自身缺点的更好方法,协同过滤算法的不足主要有以下几点: 1 需要用户提供主观的评价信息。要使用户对某一条目信息评价客观合理并 且没有二义性很困难,这种评价可能存在偏差,并且需要用户人为配合显 得使用不方便,这些都体现了需要用户提供主观评价信息的不足之处。 2 不能处理大规模的数据量。在基于i n t e r n e t 的应用中,用户数量增长是非 常快的,随着推荐系统规模越来越大,用户数量和项目数量急剧增加,在 整个用户空间上搜索目标用户的最近邻居非常耗时,越来越难以满足推荐 系统的实时性要求。 3 用户的评价信息可能会过时。随着推荐系统项目信息的扩大,用户以前 在对某一对象( 如商品、网页等) 的评价信息可能没有随着这些对象所包含 的信息变化而变化,使得以前的评价信息对目前的推荐来说是过时的。例 如,以前一用户对网上的某件那时刚上市的商品在价格方面评价是太贵 了,但现在网上实行促销,这件商品打折,那再用以前用户的评价信息显 然不合理了,会产生不精确的推荐效果。 2 1 2 基于数据挖掘技术的w e b 推荐服务 自8 0 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和 开发新的、功能强大的数据库系统,这些使用了先进的数据模型,如扩充 关系模型、面向对象模型、对象一关系模型、演绎模型等。这就使得包括 空间的、时间、多媒体的、主动的和科学的数据库、知识库、办公信息库 在内的面向应用的数据库系统同时存在。快速增长的海量数据收集、存放 在大型和大量的数据库中,迫切需要强有力的数据分析工具来从其中提取 有价值的知识,供人们做出各种决策。最近出现的一种数据库结构是数据 仓库( d a t aw a r e h o u s e ) ,这是一种多个异种数据源在单个站点以统一的模 式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成 和联机分析处理( o l a p ) 。0 l a p 是一种分析技术,具有汇总、合并和聚集功 能,以及从不同的角度观察信息的能力。尽管0 l a p 工具支持多维分析和决 1 2 结合使用挖掘和内容挖掘的w 曲推荐服务研究 策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍 需要其他分析工具。数据挖掘技术正是应这种需要而产生的。 数据挖掘( d a t am i n i n g ) ,就是从大量数据中提取或“挖掘”知识。 数据挖掘是知识发现( k n o w l e d g ed is c o v e r y ) 的一个核心步骤,一个知识 发现的基本步骤分为m : 1 数据清理:消除噪声和不一致数据 2 数据集成:将多种数据源组合在一起 3 数据选择:从数据库中检索与分析任务相关的数据 4 数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作 5 数据挖掘:这是主要的步骤,使用智能方法提取数据模式 6 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式 7 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识 基于上述步骤,一个典型的数据挖掘系统具有如下成分: 数据库、数据仓库或其他信息库:这是进行数据挖掘的源数据对象。 数据库或数据仓库服务器:应用户的数据挖掘请求负责提取相关数据。 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。 数据挖掘引擎:这是数据挖掘系统最基本也是最核心的部分,由一组功 能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:这个模块一般是使用兴趣度度量,并与数据挖掘模块交 互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现 的模式。 一 图形用户界面:主要功能是在用户和数据挖掘系统之间通信,允许用户 与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦等。 典型的数据挖掘系统如下图所示: 结合使用挖掘和内容挖掘的w e b 推荐服务研究 图2 2 典型的数据挖掘系统结构 数据挖掘的任务有关联分析、时序模式、聚类、分类、偏差检测、预 测等。进行数据挖掘的数据源非常广泛,可以是传统的关系数据库,或者 是数据仓库、事务数据库以及一些高级数据库系统如面向对象的数据库、 空间数据库、时间数据库、序列数据库、文本数据库、多媒体数据库和w e b 数据等。由于基于数据挖掘技术的w e b 推荐服务的数据源是w e b 数据,所以 它是属于w e b 挖掘范畴。 数据挖掘是一门前沿的交叉学科,涉及到的学科有数据库系统、概率 统计学、生物信息、机器学习、人工智能、认知科学、数据可视化、模式 识别等。所以研究数据挖掘的方法和技术很多,大致分为六大类: 归纳学习方法:如基于信息论中的i d 3 方法、i b l e 方法以及基于集合论 中概念树方法和粗糙集方法等。 仿生物技术:有模拟人脑神经元结构的神经网络方法和模拟生物进化 的遗传算法。 公式发现:物理定律发现系统b a c 0 n 和经验公式发现系统f d d 1 4 结合使用挖掘和内容挖掘的w 曲推荐服务研究 统计分析方法:如相关分析、回归分析、差异分析、聚类分析 模糊数学方法:模糊模式识别、模糊聚类、模糊分类和模糊关联规则 可视化技术:提取几何图元、绘制、显示和演放等。 2 1 2 1 在w e b 推荐服务中常用的w e b 挖掘技术 w e b 挖掘分为w e b 内容挖掘、w e b 结构挖掘、w e b 使用挖掘1 8 】。在w e b 推 荐服务中,可以分别从w e b 页面的内容、w e b 站点的拓扑结构以及用户在w e b 站点的使用记录三个方面来考虑。所以这三个方面的w e b 挖掘方法都可以 应用在w e b 推荐服务中: 1 基于w e b 内容挖掘的w e b 推荐服务方法:这是从用户访问过程中关注的内 容角度进行考虑,所得的结果是发现用户关注的兴趣概念,从而为网 站的个性化推荐服务。所用的方法有对w e b 页面的内容进行分类,分析 w e b 页面间的内容相关性,基于r o u g h 集的用户兴趣访问模式等。 2 基于w e b 结构挖掘的w e b 推荐服务方法:这是从w e b 站点拓扑结构和页面 间的超链结构角度进行考虑。w e b 站点拓扑结构可以作为背景知识给出, w e b 页面间的超链结构可以计算出页面间的可达性,从而为w e b 页面的预 取和推荐( 如推荐权威页面) 提供信息。所用的常见方法有找出具有某一 主题权威页面的p a g e r a n k 方法 9 】,利用h u b a u t h o r i t y 方法的h i t s 算法 【1 0 1 ,基于频繁链接的w e b 权威资源挖掘等。 3 基于w e b 使用挖掘的w e b 推荐服务方法:在w e b 推荐服务中,用户在w e b 站点的使用记录是很重要的信息。多大数的推荐系统中,利用服务器端 的日志文件( 1 0 9 文件) 所记录的用户访问信息来设计算法是系统中主要 也是核心的步骤。常用的方法有:发现浏览页面之间关系的关联规则, 挖掘页面间先后顺序关系的序列模式分析,基于页面或基于用户的聚类 分析等。 在实际的w e b 推荐服务系统中,往往综合是综合应用上述各种方法, 特别是基于w e b 使用挖掘方法基本上在所有的w e b 推荐服务中都要用到。 2 1 2 2 在w e b 推荐服务中使用w e b 数据挖掘技术的优点 在w e b 推荐服务中,相比基于协同过滤技术,使用数据挖掘技术有 着一些明显的优点: 结合使用挖掘和内容挖掘的w e b 推荐服务研究 1 不需要用户提供主观的评价信息。在协同过滤中,用户必须要提供 对信息条目( 如电影,音乐,商品等) 的评价,这种评价是很主观并 且带有二义性。使用数据挖掘技术的w e b 推荐系统是不需要用户参与 评价活动的,用户对某项条目的感兴趣程度可以通过使用数据挖掘 出来,并且结果是客观的。 2 可以处理大规模的数据量。随着w e b 推荐系统规模的扩大,用户数目 和项目数目指数级增长,在大型推荐系统中,用户评分的项目一般 不会超过项目总数的1 1 5 1 ,基于项目的协同过滤推荐需要在整个项 目空间上查询目标项目的最近邻居,这对推荐算法的伸缩能力是一 个极大的挑战,推荐系统的实时性要求越来越难以满足。而数据挖 掘技术正是在大型数据库基础上发展起来的,很适应处理大规模的 数据,具有很好的伸缩性。 3 用户访问模式动态获取,不会过时。基于数据挖掘技术的w e b 推荐服 务一般是动态地在线获取用户的数据,在一定时限内,这些数据是 实时最新的,所以由数据得出的用户访问模式( 访问规律) 是不会过 时的。 4 使用方便。基于数据挖掘技术的w e b 推荐系统对用户来说是透明的, 不需要过多的人工提供信息,推荐服务都是完全自动进行,这对提 高用户对推荐系统的满意度是很重要的。 2 2 常见w e b 推荐模型的分析和评价 目前两种最常用的w e b 推荐模型是以协同过滤为基础和以w e b 使用挖 掘为基础的,在比较前沿的w e b 技术( 下一代w e b ) 一语义网上的w e b 推荐服务现 在也开始研究,这我们在最后一章介绍,在这不做详细讨论。下面分析目前两种 常见的w e b 推荐模型: 2 2 1 以协同过滤技术为基础的w e b 推荐服务模型分析及评价 以协同过滤中比较主流的最近邻技术( k n n 技术) 为基础的简单w e b 推荐模 型如下图所示: 1 6 结合使用挖掘和内容挖掘的w e b 推荐服务研究 图2 3 基于k n n 技术的简单w e b 推荐模型 维度约简模块主要功能是降低用户一信息条目的兴趣矩阵的维数,这样可 在一定程度上缓解其稀疏性和可伸缩性的问题。近邻形成模块是一个核心模 块,它的主要目的是对于当前用户u a ,根据皮尔森相似系数或余弦相似系数 形成一个有序的用户列表n = u l ,u 2 ,u k ,使得当u 。萑n ,对于i j 时,有s i m ( u 。,u i ) s i m ( u 。,u i ) ,其中s i m ( u i ,u j ) 是用户u i 和u j 的相 似系数。然后从列表中根据相似性选择k 个最好的用户作为用户u a 的近邻。 推荐产生模块的主要目的是当前用户的近邻识别出来后,可用近邻的偏好来估 计当前用户的偏好,即当前用户对未评价的信息条目的预测评价值可以通过近 邻用户的评价信息来计算。具体的计算预测评价值的方法有权重平均法、均值 偏离法、z 值平均法【佗】。 基于l ( i 州技术的w e b 推荐模型使用了用户这个维度来识别相似的用户群 进行推荐,因此它能基于用户的爱好和特性推荐兴趣条目。再者,它的算法思 想简单明了,推荐过程不是很复杂。但这个推荐模型也有一些缺陷:首先,没 有被数量足够的用户评给出评价值的信息条目是不会推荐给当前用户的。因 此,推荐模型倾向于推荐一些常见的且有充分评价信息的信息条目。此外,对 于新增加的或新获得的信息条目,由于没有用户选择或评价,也不会给予推荐。 并且由于此推荐模型没有涉及信息条目的内容,所以对于一些信息条目之间潜 在的关联规则或其它联系不能发现,从而影响推荐效果。 2 2 2 以w e b 使用挖掘技术为基础的w e b 推荐服务模型 现在w e b 使用挖掘技术作为w e b 推荐服务很有潜力的方法,其主要目标 是在用户w e b 站点的交互过程中,捕捉用户的行为模式并进行建模。这些行为 模式通常是以用户频繁访问的w e b 页面、感兴趣的商品条目或其他对象为元素 进行归纳分析得到的。这行为模式能很好地理解访问者或者用户的行为特征,有 助于组织和构造w e b 站点的结构和提高动态推荐服务质量等。基于w e b 使用挖 掘的w e b 推荐服务用捕捉到的用户行为模式来向当前用户推荐一些诸如超链接、 结合使用挖掘和内容挖掘的、e b 推荐服务研究 广告、产品或服务等,这主要是通过匹配活动用户会话期( u s e rs e s s i o n s ) 特征和通 过使用挖掘出的使用模式来完成。具体用到的方法有聚类、关联规则分析、访问 序列模式挖掘等。整个基于w e b 使用挖掘的推荐服务过程分为三个阶段:数据准 备和转换,模式发现,实施推荐。数据准备转换阶段把w e b 的日志文件转换成 便于数据挖掘任务处理的事务数据( t r a i l s a c t i o nd a t a ) 。这个阶段也包括从多个数 据源如后台数据库,应用服务器,w e b 元数据进行数据集成。在模式发现阶段, 可以应用一些常用的数据挖掘方法如:聚类,关联规则,序列模式发现对事务数 据进行挖掘。挖掘产生的结果转换成聚合的使用文件( a g g m g a t eu s a g ep m f i l e ) 用 于推荐阶段。推荐实施阶段根据用户会话期数据、聚合的使用文件以及当前用户 的访问状态计算推荐的推荐内容,然后把推荐内容实时地发到客户端供用户进行 选择。 以、v e b 使用挖掘技术为基础的w e b 推荐服务模型一般分为离线的数据准备 和模式发现模块和在线推荐模块 1 3 。 2 2 2 1 离线的数据准备和模式发现模块分析 离线的数据准备和模式发现模块如图2 4 : d # 哺婶_ 憎目阳辅p 甜妇n 吼捌研vp h 雒e 图2 4 离线数据准备和模式发现模块 这个离线模块分为两个阶段:数据准备和模式发现。数据准备阶段涉及到原 始数据的预处理,集成不同的数据源数据,把收集到的数据转换成适合数据挖掘 结台使用挖掘和内容挖掘的w e b 推荐服务研究 操作的统一格式。数据准备在知识发现中是一个耗时和计算密集的阶段,在w e b 使用挖掘中也不例外。这个过程对成功地从数据中提取有用的模式很重要。模式 发现阶段则是在数据准备阶段产生的集成数据上进行数据挖掘操作,提取各种有 用的规则和知识,为在线推荐服务提供依据。 2 2 2 1 1 数据准备阶段 数据准备阶段的数据源主要有:用户的使用数据,站点的结构数据,用户数 据。 用户的使用数据在基于使用挖掘的w e b 推荐服务中是最重要的数据来源。 这种数据存在于w e b 服务器和应用服务器中( w 曲服务器的日志格式利1 4 】:n c s a 的普通日志格式( c l f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论