《Python数据分析与挖掘实战》数据挖掘算法基础-(4)智能推荐_第1页
《Python数据分析与挖掘实战》数据挖掘算法基础-(4)智能推荐_第2页
《Python数据分析与挖掘实战》数据挖掘算法基础-(4)智能推荐_第3页
《Python数据分析与挖掘实战》数据挖掘算法基础-(4)智能推荐_第4页
《Python数据分析与挖掘实战》数据挖掘算法基础-(4)智能推荐_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章数据挖掘算法基础数据挖掘算法基础1聚类目录分类与回归2关联规则3智能推荐4时间序列5智能推荐用于联系用户和信息,并利用信息分析用户的兴趣偏好,为用户推荐感兴趣信息。常用智能推荐算法算法类型说明优点缺点基于内容推荐建立在项目的内容信息上做出推荐的,而不需要依据用户对项目的评价意见(1)推荐结果直观,容易解释(2)不需要领域知识(1)新用户问题(2)复杂属性不好处理(3)要有足够数据构造分类器协同过滤推荐它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,从而根据这一喜好程度来对目标用户进行推荐(1)新异兴趣发现、不需要领域知识(2)随着时间推移性能提高(3)推荐个性化、自动化程度高(4)能处理复杂的非结构化对象(1)稀疏问题(2)可扩展性问题(3)新用户问题(4)质量取决于历史数据集(5)系统开始时推荐质量差基于关联规则推荐以关联规则为基础,将已购商品作为规则头,规则体为推荐对象(1)能发现新兴趣点(2)不要领域知识(1)规则抽取难、耗时(2)产品名同义性问题(3)个性化程度低常用智能推荐算法算法类型说明优点缺点基于效用推荐建立在对用户使用项目的效用情况上计算的,其核心问题是怎样为每一个用户去创建一个效用函数,因此,用户资料模型很大程度上是由系统所采用的效用函数决定的(1)无冷开始和稀疏问题(2)对用户偏好变化敏感(3)能考虑非产品特性(1)用户必须输入效用函数(2)推荐是静态的,灵活性差(3)属性重叠问题基于知识推荐在某种程度是可以看成是一种推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的(1)能将用户需求映射到产品上(2)能考虑非产品属性(1)知识难获得(2)推荐是静态的流行度推荐将最热门的产品直接推荐给客户,建立在大众喜好的平均水平上(1)适合历史数据较少的用户(2)推荐效果较差体现不出个性化的特点常用智能推荐算法通常网站给用户进行推荐时,针对每个用户提供的是一个个性化的推荐列表,也称为TopN推荐。TopN推荐最常用的评价指标是精确率、召回率和F1值。精确率

精确率表示推荐列表中用户喜欢的物品所占的比例。单个用户的推荐精确率定义如下:整个推荐系统的精确率定义如下:智能推荐模型评价推荐列表评价指标召回率

召回率表示测试集中用户喜欢的物品出现在推荐列表中的比例。单个用户的推荐召回率定义如下:整个推荐系统的召回率定义如下:F1值(F1score)F1值是综合了精确率(P)和召回率(R)的评价方法,F1值取值越高表明推荐算法越有效,F1值定义如下:智能推荐模型评价评分预测是指预测一个用户对推荐的物品的评分。评分预测的预测准确度通过均方根误差(RMSE)和平均绝对误差(MAE)进行评价。对于测试集中的用户和物品,定义用户对物品的实际评分为,推荐算法的预测评分为,则RMSE的定义如下:MAE使用绝对值计算,定义如下:智能推荐模型评价评分预测评价指标基于用户的协同过滤算法的基本思想是基于用户对物品的偏好找到相邻用户,然后将邻居用户喜欢的物品推荐给当前用户。协同过滤推荐算法基于用户的协同过滤算法协同过滤推荐算法算法步骤:方法说明公式皮尔逊相关系数皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在[-1,+1]区间内。皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。欧几里得相似度欧几里得距离相似度以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到坐标系上,并计算这些人彼此之间的直线距离

余弦相似度余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,如图所示。杰卡德相似系数分母

表示喜欢物品

或喜欢物品

的用户总数,分子

表示同时喜欢物品

和物品

的用户数计算用户之间的相似度协同过滤推荐算法预测评分首先根据上一步中的相似度计算,寻找用户的邻居集,其中表示邻居集,表示用户集。然后结合用户评分数据集,预测用户对项的评分,计算公式如下:其中,

表示用户和用户的相似度。最后,对未评分商品的预测分值排序,得到推荐商品列表。基于物品的协同过滤算法的原理和基于用户的协同过滤类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,再根据用户的历史偏好,推荐相似的物品给用户。协同过滤推荐算法基于物品的协同过滤算法协同过滤推荐算法算法步骤:方法说明公式皮尔逊相关系数皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在[-1,+1]区间内。皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。欧几里得相似度欧几里得距离相似度以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到坐标系上,并计算这些人彼此之间的直线距离

余弦相似度余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,如图所示。杰卡德相似系数分母

表示喜欢物品

或喜欢物品

的用户总数,分子

表示同时喜欢物品

和物品

的用户数计算物品之间的相似度基于物品的协同过滤算法中用户对所有物品的感兴趣程度计算公式为:其中,R表示用户对物品的兴趣,表示所有物品之间的相似度,P为用户对物品感兴趣的程度。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论