版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
推荐系统的出现推荐系统的任务就是解决,当用户无法准确描述自己的需求时,搜索引擎的筛选效果不佳的问题。联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对他感兴趣的人群中,从而实现信息提供商与用户的双赢。推荐算法介绍基于人口统计学的推荐这是最为简单的一种推荐算法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户。系统首先会根据用户的属性建模,比如用户的年龄,性别,兴趣等信息。根据这些特征计算用户间的相似度。比如系统通过计算发现用户A和C比较相似。就会把A喜欢的物品推荐给C。优缺点:•不需要历史数据,没有冷启动问题•不依赖于物品的属性,因此其他领域的问题都可无缝接入。•算法比较粗糙,效果很难令人满意,只适合简单的推荐基于内容的推荐与上面的方法相类似,只不过这次的中心转到了物品本身。使用物品本身的相似度而不是用户的相似度。系统首先对物品(图中举电影的例子)的属性进行建模,图中用类型作为属性。在实际应用中,只根据类型显然过于粗糙,还需要考虑演员,导演等更多信息。通过相似度计算,发现电影A和C相似度较高,因为他们都属于爱情类。系统还会发现用户A喜欢电影A,由此得出结论,用户A很可能对电影C也感兴趣。于是将电影C推荐给A。优缺点:•对用户兴趣可以很好的建模,并通过对物品属性维度的增加,获得更好的推荐精度•物品的属性有限,很难有效的得到更多数据•物品相似度的衡量标准只考虑到了物品本身,有一定的片面性•需要用户的物品的历史数据,有冷启动的问题协同过滤协同过滤是推荐算法中最经典最常用的,分为基于用户的协同过滤和基于物品的协同过滤。那么他们和基于人口学统计的推荐和基于内容的推荐有什么区别和联系呢?基于用户的协同过滤——基于人口统计学的推荐基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。基于物品的协同过滤——基于内容的推荐基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品相似度预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好推断,而后者是基于物品本身的属性特征信息。协同过滤的优势:•它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的,所以这种方法也是领域无关的。•这种方法计算出来的推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好协同过滤的缺点:•方法的核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题•推荐的效果依赖于用户历史偏好数据的多少和准确性•在大部分的实现中,用户历史偏好是用稀疏矩阵进行存储的,而稀疏矩阵上的计算有些明显的问题,包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等•对于一些特殊品味的用户不能给予很好的推荐•由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用演变,从而导致这个方法不够灵活混合推荐算法以上介绍的方法是推荐领域最常见的几种方法。但是可以看出,每个方法都不是完美的。因此实际应用中都是混合使用各种推荐算法,各取所长。我们的大量医疗数据中,也可以多考虑一下什么情况下更适合使用哪种推荐算法,能更好的为医生提供诊断信息协同过滤推荐算法原理和实现在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单。该算法1992年提出并用于邮件过滤系统。可以将基于用户的协同过滤推荐算法拆分为两个步骤:找到与目标用户兴趣相似的用户集合找到这个集合中用户喜欢的、并且目标用户没有听说过的物品推荐给目标用户发现兴趣相似的用户通常用Jaccard公式或者余弦相似度计算两个用户之间的相似度。设N(u)为用户u喜欢的物品集合,N(v)为用户v喜欢的物品集合,那么u和v的相似度是多少呢:Jaccard公式:%一余弦相似度:假设目前共有4个用户:A、B、C、D;共有5个物品:a、b、c、d、e。用户与物品的关系(用户喜欢物品)如下图所示:如何一下子计算所有用户之间的相似度呢?为计算方便,通常首先需要建立“物品一用户”的倒排表,如下图所示:
然后对于每个物品,喜欢他的用户,两两之间相同物品加1。例如喜欢物品a的用户有A和B,那么在矩阵中他们两两加1。如下图所示:0100000D0100000D计算用户两两之间的相似度,上面的矩阵仅仅代表的是公式的分子部分。以余弦相似度为例,对上图进行进一步计算:
00000V3x200000V3x2到此,计算用户相似度就大功告成,可以很直观的找到与目标用户兴趣较相似的用户。推荐物品首先需要从矩阵中找出与目标用户u最相似的K个用户,用集合S(u,K)表示,将S中用户喜欢的物品全部提取出来,并去除u已经喜欢的物品。对于每个候选物品i,用户u对它感兴趣的程度用如下公式计算:巩叮)二工%工忌其中rvi表示用户v对i的喜欢程度,在本例中都是为1,在一些需要用户给予评分的推荐系统中,则要代入用户评分。举个例子,假设我们要给A推荐物品,选取K=3个相似用户,相似用户则是:B、C、D,那么他们喜欢过并且A没有喜欢过的物品有:c、e,那么分别计算p(A,c)和p(A,e):看样子用户A对c和e的喜欢程度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- QC/T 1215-2024汽车发动机铸造铝活塞耐磨镶圈
- GB/T 14441-2024涂装作业安全术语
- GB/T 45089-20240~3岁婴幼儿居家照护服务规范
- GA/T 1130-2024道路交通管理业务自助服务系统技术规范
- 工作总结之服装设计助理实习总结
- 工地上工程进展情况报告-建筑实操
- 2024年柔印CTP项目资金需求报告
- 银行合规管理制度修订
- 酒店餐饮服务规范及卫生要求制度
- 支教社会实践报告15篇
- DBJ61-T 112-2021 高延性混凝土应用技术规程-(高清版)
- 2023年高考数学求定义域专题练习(附答案)
- 农产品品牌与营销课件
- 加快中高职衔接,促进职业教育协调发展(201507)课件
- 苏科版一年级心理健康教育第17节《生命更美好》教案(定稿)
- 车辆二级维护检测单参考模板范本
- 亮化照明维护服务方案
- 测定总固体原始记录
- (最新整理)夜市一条街建设方案
- 2020年最新人教版七年级上英语短文填空(共35篇)
- 住院医师解读心电图
评论
0/150
提交评论