个性化推荐系统的综述_第1页
个性化推荐系统的综述_第2页
个性化推荐系统的综述_第3页
个性化推荐系统的综述_第4页
个性化推荐系统的综述_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、个性化推荐系统综述个性化推荐的基本简介v简介:个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。推荐系统的基本概念v概念:个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。购物网站的推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于:网站最热卖商品、客户所处城市、客户过去的购买行为和

2、购买记录,推测客户将来可能的购买行为。推荐系统的模块v1.用户建模模块v2.推荐对象建模模块v3.推荐算法模块用户建模模块v建立用户模型之前,需要考虑下面几个问题:v (1)模型的输入数据有哪些,如何获取模型的输 入数据。v (2)如何考虑用户的兴趣及需求的变化。v (3)建模的对象是谁。v (4)清楚了上述内容后,怎么建模呢。v (5)模型的输出是什么。v模型的数据输入类型:v (1)用户属性。v (2)用户手工输入的信息。v (3)用户的浏览行为和浏览内容。v (4)推荐对象的属性特征。v获取模型输入数据的方式:v (1)有显式获取。v (2)隐式获取。v (3)启发式获取推荐对象建模v对

3、推荐对象进行描述之前考虑以下几个问题: (1)提取推荐对象的什么特征,如何提取,提取的特征用于什么目的。v (2)对象的特征描述和用户文件描述之间有关联。v (3)提取到的每个对象特征对推荐结果会有什么影响。v (4)对象的特征描述文件能否自动更新。v 推荐对象的领域包括,比如报纸、Usenet 新闻、科技文档、Email,还有诸如音乐、电影等多媒体资源等等。v 对对象的描述主要基于内容的方法和基于分类的方法两大v 类方法。推荐算法模块v推荐算法(或叫推荐策略)是整个推荐系统中最核心和关键的部分,在很大程度上决定了推荐系统类型和性能的优劣。v推荐算法的分类:v 1.基于内容的推荐v 2.协同过

4、滤推荐v 3.基于社会网络分析的推荐v 4.基于网络结构的推荐v 5.混合推荐推荐系统的体系结构v推荐系统的体系结构研究的重要问题就是用户信息收集和用户描述文件放在什么地方,服务器还是客户机上,或者是处于二者之间的代理服务器上。v推荐系统可分为3种:v(1)基于服务器端的推荐系统v(2)基于客户端的推荐系统v(3)基于代理的推荐系统基于服务器端的推荐系统v最初的推荐系统都是基于服务器端的推荐系统基于服务器端的推荐系统存在以下几个问题:(1)个性化信息的收集完全由Web 服务器来完成,受到了Web服 务器功能的限制。 (2)增加了Web服务器的系统开销。(3)对用户的隐私有极大威胁。基于客户端的

5、推荐系统v基于客户端的推荐系统中,用户信息的收集和建模都在客户端完成。基于客户端的推荐系统有如下优点:(1)由于用户的信息就在本地收集和处理,因而不但能够获取丰富准获取丰富准确的用户信息确的用户信息以构建高质量的用户构建高质量的用户模型模型。(2)少量甚至没有用户数据存放在服务器上,Web 服务器不能访问和控制用户的数据,能比较好地保护保护用户的隐私用户的隐私。(3)用户更愿意向推荐系统提供个人信息,从而提高推荐系统的推荐提高推荐系统的推荐性能性能基于代理的推荐系统v在这一结构中,用户信息的收集、用户建模和推荐服务都在代理端实现。基于代理的推荐系统中用户信息都传给了代理,代理能获得所有用户的资

6、料而形成用户描述文件形成用户描述文件。但由于用户信息都要传给代理端,所以存在用户的信息泄露等隐私问题。推荐系统的性能评价v评价推荐系统性能的好坏通常用推荐的精确度和推荐效率两个指标进行衡量。v(1)精确度的衡量最典型的指标是平均绝对误差和平均平方误差以及标准平均误差v(2)推荐效率为推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率v 精确度的衡量最典型的指标是平均绝对误差(MeanAbsolute Error,MAE)和平均平方误差(Mean Squared Error,MSE)以及标准平均误差(Normalized Mean Absolute Error,NMAE)。它们的计算形式分

7、别如式(13)和(14)以及(15)所示。v其中n 为系统中用户i 打分产品的个数,pia 和ria 分别为预测打分和实际打分。ni 为系统中用户-产品对的个数。rmin和rmax分别为用户打分区间的最小值和最大值。v召回率(recall)和精确率(precision)也可以用来衡量推荐的准确度。v召回率定义为推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率。计算方法如式(16)所示:v准确率:推荐列表中用户喜欢的产品和所有被推荐产品的比率,计算方法如式(17)所示:v其中Nrs 推荐列表中用户喜欢的产品个数,Nr 用户喜欢的所有产品的个数,Ns 为所有被推荐产品的个数。v召回率和精准

8、率评价系统时的最大问题在于它们必须一起使用才能全面评价算法的好坏,综合二者提出了一个F指标,计算方法如式(18):衡量推荐算法的衡量指标v推荐多样性的衡量 推荐冷门对象的能力v一、推荐多样性的衡量v一个好的推荐系统应能够向用户推荐不同类型的对象,而不是同类型的对象。其中平均加权距离S 作为衡量推荐列表的外部多样性指标,比如推荐列表的长度为L,用户i 和用户j 的推荐类表中相同项的数量为Q,则加权平均距离(Hamming distance)定义如式(22):v把该值得平均作为衡量推荐类表外部多样性的指标,如式(23):v其中m 为用户的数量。推荐系统的个性化越高,该值就越大。v用户ul 推荐列表

9、的内部相似性如式(24):v其中soij 是对象oi 和oj 之间的相似度。整个系统的内部相似性定义如式(25):v该值越小说明推荐的多样性更好。v二、推荐冷门对象的能力v一个推荐系统推荐出用户喜欢的冷门对象,比推荐出大众都喜欢的对象更有吸引力。而对象的受欢迎程度依靠平均度来衡量,单纯的平均度是不能保证S 和I 也能取得较好效果,所以认为高S 值,低I 值和低平均度的推荐算法就是较好的推荐算法。v对推荐系统进行性能测试时,通常的做法是把数据集分割为训练集和测试集。推荐算法的模型在训练集上进行学习和参数调整,然后在测试集合上计算精确度和运行效率,从而达到评测目的。推荐系统研究的重点、难点及发展方向v 推荐系统研究的热点问题:v (1)用户兴趣偏好获取方法和推荐对象的特征提取方法的研究v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论