版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
推荐系统算法速读根据推荐算法的不同,推荐系统可以分为以下几类:
·协同过滤(collaborativefiltering)系统;
·基于内容(content-based)的推荐系统;
·基于网络结构(network-based)的推荐系统;
·混合(hybrid)推荐系统;精选推荐系统算法速读根据推荐算法的不同,推荐系统可以分为以下几类协同过滤系统·核心思想:
1.利用用户的历史信息计算用户之间的相似性;2.利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度。系统根据这一喜好程度来对目标用户进行推荐·分类:·基于记忆(memory-based)的算法·基于模型(model-based)的算法
精选协同过滤系统·核心思想:精选基于记忆的算法计算用户评分:
设C=为用户集合,S=为所有的产品集合。
设为用户c对产品s的打分(在协同过滤算法中,用户c对产品s的打分通过其他用户对s的打分计算而得到。)
设为与用户c相似度比高的用户集第一种:直接计算邻居打分的平均值
第二种:加权平均
(用户之间越相似,则用于预测的权重越大)
精选基于记忆的算法计算用户评分:精选基于记忆的算法
第三种:考虑用户评判的尺度不同
k=1/,sim(i,j)表示用户之间的相似度。
用户c的平均打分定义为
表示该用户打过的所有分的平均值。
精选基于记忆的算法第三种:考虑用户评判的尺度不同精选基于记忆的算法·用户之间相似度的计算:·用户x与y之间的Pearson相关性:
用户x和y共同打过分的产品集合为:·夹角余弦(用户x与y都用m维向量表示)
精选基于记忆的算法·用户之间相似度的计算:精选优缺点·优点1.具有推荐新信息的能力,可以发现用户潜在但自己尚未察觉的兴趣爱好。2.能够推荐艺术品、音乐、电影等难以进行内容分析的产品。·问题1.冷启动问题(新产品、新用户)2.打分稀疏性问题3.算法可扩展性
精选优缺点·优点精选基于内容的推荐系统核心思想:
分别对用户和产品建立配置文件,通过分析已经购买(或浏览)过的内容,建立或更新用户的配置文件。系统可以比较用户与产品配置文件的相似度,并直接向用户推荐与其配置文件最相似的产品。基于内容的推荐算法的根本在于信息获取和信息过滤。(用户的配置文件构建与更新是最为核心的部分之一)精选基于内容的推荐系统核心思想:精选基于内容的算法信息获取(TF-IDF):
与这个关键词在文件中出现数的逆定义为
精选基于内容的算法信息获取(TF-IDF):精选设Content(s)为产品s的配置文件,UserProfile(c)为用户c的配置文件,UserProfile(c)可以用向量表示,其中每个分量表示关键词对用户c的重要性在基于内容的系统中,被定义为:
精选设Content(s)为产品s的配置文件,UserProfi优缺点优点:1.可以处理冷启动问题;2.不受打分稀疏性问题的约束;3.能推荐新出现的产品和非流行的产品;·问题:1.受到信息获取技术的约束;2.难以从根本上解决冷启动问题。
精选优缺点优点:精选基于网络结构的推荐系统核心思想:
不考虑用户和产品的内容特性,而仅仅把他们看作抽象的节点,所有算法利用的信息都隐藏在用户和产品的选择关系之中。考虑一个由m个用户和n个产品构成的推荐系统,其中如果用户i选择过产品j,就在i和j之间连接一条边、.由此,这个系统可以用一个具有m+n个节点的二部分图表示.精选基于网络结构的推荐系统核心思想:精选基于二部分图资源分配的推荐算法对于任意目标用户i,推荐算法的目的是把所有i没有选择过的产品按照i喜欢的程度进行排序,并且把排名靠前的那些产品推荐给i。对于有m个用户和n个产品的一般的推荐系统,如果用表示产品j愿意分配给i的资源配额,可得到其一般表达式:
其中kj表示产品j的度(被多少用户选择过),kl表示用户l的度(该用户选择过多少商品)
精选基于二部分图资源分配的推荐算法对于任意目标用户i,推荐算法的最终的资源分配矢量为一个n维的0/1矢量,给定的目标用户选择过的产品上的初始资源设为1,其他设为0;W为n*n阶的矩阵。
按照中对应元素的大小进行排序,值越大说明用户越喜欢该商品。
精选最终的资源分配矢量精选推荐系统的评价指标准确度(被绝大多数推荐系统采用)推荐列表的流行性和多样性覆盖率新鲜性和意外性用户的满意度精选推荐系统的评价指标准确度(被绝大多数推荐系统采用)精选准确度评价指标预测准确度分类准确度排序准确度预测打分关联距离标准化指标半衰期效用指标精选准确度评价指标预测准确度精选预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分和用户的实际打分的平均绝对误差MAE其中c为系统中用户i打分产品的个数,为用户实际打分,为系统的预测打分精选预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分预测准确度与平均绝对误差相关的其他指标有平均平方误差(MSE)和标准平均绝对误差(NMAE)。其中
为系统中用户-产品对(i,a)的个数标准平均绝对误差定义为其中和分别为用户打分区间的最小值和最大值精选预测准确度与平均绝对误差相关的其他指标有平均平方误差(MSE分类准确度分类准确度定义为推荐算法对一个产品用户是否喜欢判定正确的比例广泛使用的分类准确度指标:准确率,召回率以及相关的指标其中,和分别为被推荐产品中用户喜欢和不喜欢的产品数精选分类准确度分类准确度定义为推荐算法对一个产品用户是否喜欢判定分类准确度相应的,和分别为未被推荐产品中用户喜欢和不喜欢的产品数。而为未被推荐的产品数。显然,准确率定义为系统的推荐列表中用户喜欢的产品和所有被推荐产品的比率:召回率定义为推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率:精选分类准确度相应的,和分别为未被推荐产品中用户喜欢和分类准确度另一个度量系统分类准确度的重要指标就是ROC曲线1)确定用户对每个产品感兴趣与否。2)根据预测结果为用户提供一个推荐列表,从图的原点开始,如果预测的产品符合用户喜好,画一个竖线;如果预测的产品不符合实际,画一个横线;如果预测产品还没有被打分,那么抛弃这个产品,并不影响曲线。一个最好的预测系统产生一个竖的ROC线,随机预测产生从原点到右上角的直线。
精选分类准确度另一个度量系统分类准确度的重要指标就是ROC曲线精排序准确度排序准确度用于度量推荐算法产生的列表符合用户对产品排序的程度。可以用平均排序分度量推荐系统的排序准确度,定义如下:其中N为训练集中用户为选择的产品个数,Li预测集中待预测产品i在推荐列表中的位置精选排序准确度排序准确度用于度量推荐算法产生的列表符合用户对产品预测打分关联预测打分关联不考虑预测打分与用户打分各单项的偏差,而是考虑两者之间整体的相关程度,推荐系统中,3个常用的相关性描述有Pearson关联,Speaman关联和Kendall’sTau。Tau越大表示系统预测结果越好C为系统预测正确的喜好偏序数,D为预测错误的喜好偏序数,TR为用户打分相同的产品数,TP为具有相同预测值的产品数精选预测打分关联预测打分关联不考虑预测打分与用户打分各单项的偏差距离标准化指标距离标准化指标,简称为NDPM,在推荐系统中,NDPM的核心思想为:对比系统预测打分排名与用户实际排名的偏好关系,对基于偏好关系的度量进行标准化,具体定义如下:其中为系统排序与用户排序相冲突的个数精选距离标准化指标距离标准化指标,简称为NDPM,在推荐系统中,半衰期效用指标在网络中用户愿意浏览推荐列表的函数呈指数衰减。用户i的期望用定义如下:其中为用户i对推荐列表中排名第j的产品打分,d为默认打分,h为半衰期精选半衰期效用指标在网络中用户愿意浏览推荐列表的函数呈指数衰减。准确度之外的评价指标1.推荐列表的流行性和多样性一个产品的流行性可以用它的平均度来度量,产品度越大,说明越流行。推荐列表的多样性可以用平均海明距离来度量,用户i和j推荐列表的海明距离被定义如下:其中L为推荐列表的长度,为系统推荐给用户i和j的两个推荐列表中相同产品的个数精选准确度之外的评价指标1.推荐列表的流行性和多样性精选2.覆盖率
覆盖率定义为可以预测打分的产品占所有产品的比例。3.新鲜性和意外性在这里新鲜性和意外性具有本质的不同。例如,考虑一个电影推荐系统,这个系统只考虑用户喜欢的导演信息。如果系统给用户推荐了他喜欢的导演执导的一个自己并不熟悉的电影,这个电影就是新鲜的,但是并不是意外的。如果系统推荐了一个新导演的电影,那么系统提供了一个意外的推荐。4.用户满意度
用户对推荐系统的满意度不仅仅取决于系统的准确度,而是更多地取决于系统在多大程度上可以帮助用户完成任务。精选2.覆盖率精选推荐系统算法速读根据推荐算法的不同,推荐系统可以分为以下几类:
·协同过滤(collaborativefiltering)系统;
·基于内容(content-based)的推荐系统;
·基于网络结构(network-based)的推荐系统;
·混合(hybrid)推荐系统;精选推荐系统算法速读根据推荐算法的不同,推荐系统可以分为以下几类协同过滤系统·核心思想:
1.利用用户的历史信息计算用户之间的相似性;2.利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度。系统根据这一喜好程度来对目标用户进行推荐·分类:·基于记忆(memory-based)的算法·基于模型(model-based)的算法
精选协同过滤系统·核心思想:精选基于记忆的算法计算用户评分:
设C=为用户集合,S=为所有的产品集合。
设为用户c对产品s的打分(在协同过滤算法中,用户c对产品s的打分通过其他用户对s的打分计算而得到。)
设为与用户c相似度比高的用户集第一种:直接计算邻居打分的平均值
第二种:加权平均
(用户之间越相似,则用于预测的权重越大)
精选基于记忆的算法计算用户评分:精选基于记忆的算法
第三种:考虑用户评判的尺度不同
k=1/,sim(i,j)表示用户之间的相似度。
用户c的平均打分定义为
表示该用户打过的所有分的平均值。
精选基于记忆的算法第三种:考虑用户评判的尺度不同精选基于记忆的算法·用户之间相似度的计算:·用户x与y之间的Pearson相关性:
用户x和y共同打过分的产品集合为:·夹角余弦(用户x与y都用m维向量表示)
精选基于记忆的算法·用户之间相似度的计算:精选优缺点·优点1.具有推荐新信息的能力,可以发现用户潜在但自己尚未察觉的兴趣爱好。2.能够推荐艺术品、音乐、电影等难以进行内容分析的产品。·问题1.冷启动问题(新产品、新用户)2.打分稀疏性问题3.算法可扩展性
精选优缺点·优点精选基于内容的推荐系统核心思想:
分别对用户和产品建立配置文件,通过分析已经购买(或浏览)过的内容,建立或更新用户的配置文件。系统可以比较用户与产品配置文件的相似度,并直接向用户推荐与其配置文件最相似的产品。基于内容的推荐算法的根本在于信息获取和信息过滤。(用户的配置文件构建与更新是最为核心的部分之一)精选基于内容的推荐系统核心思想:精选基于内容的算法信息获取(TF-IDF):
与这个关键词在文件中出现数的逆定义为
精选基于内容的算法信息获取(TF-IDF):精选设Content(s)为产品s的配置文件,UserProfile(c)为用户c的配置文件,UserProfile(c)可以用向量表示,其中每个分量表示关键词对用户c的重要性在基于内容的系统中,被定义为:
精选设Content(s)为产品s的配置文件,UserProfi优缺点优点:1.可以处理冷启动问题;2.不受打分稀疏性问题的约束;3.能推荐新出现的产品和非流行的产品;·问题:1.受到信息获取技术的约束;2.难以从根本上解决冷启动问题。
精选优缺点优点:精选基于网络结构的推荐系统核心思想:
不考虑用户和产品的内容特性,而仅仅把他们看作抽象的节点,所有算法利用的信息都隐藏在用户和产品的选择关系之中。考虑一个由m个用户和n个产品构成的推荐系统,其中如果用户i选择过产品j,就在i和j之间连接一条边、.由此,这个系统可以用一个具有m+n个节点的二部分图表示.精选基于网络结构的推荐系统核心思想:精选基于二部分图资源分配的推荐算法对于任意目标用户i,推荐算法的目的是把所有i没有选择过的产品按照i喜欢的程度进行排序,并且把排名靠前的那些产品推荐给i。对于有m个用户和n个产品的一般的推荐系统,如果用表示产品j愿意分配给i的资源配额,可得到其一般表达式:
其中kj表示产品j的度(被多少用户选择过),kl表示用户l的度(该用户选择过多少商品)
精选基于二部分图资源分配的推荐算法对于任意目标用户i,推荐算法的最终的资源分配矢量为一个n维的0/1矢量,给定的目标用户选择过的产品上的初始资源设为1,其他设为0;W为n*n阶的矩阵。
按照中对应元素的大小进行排序,值越大说明用户越喜欢该商品。
精选最终的资源分配矢量精选推荐系统的评价指标准确度(被绝大多数推荐系统采用)推荐列表的流行性和多样性覆盖率新鲜性和意外性用户的满意度精选推荐系统的评价指标准确度(被绝大多数推荐系统采用)精选准确度评价指标预测准确度分类准确度排序准确度预测打分关联距离标准化指标半衰期效用指标精选准确度评价指标预测准确度精选预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分和用户的实际打分的平均绝对误差MAE其中c为系统中用户i打分产品的个数,为用户实际打分,为系统的预测打分精选预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分预测准确度与平均绝对误差相关的其他指标有平均平方误差(MSE)和标准平均绝对误差(NMAE)。其中
为系统中用户-产品对(i,a)的个数标准平均绝对误差定义为其中和分别为用户打分区间的最小值和最大值精选预测准确度与平均绝对误差相关的其他指标有平均平方误差(MSE分类准确度分类准确度定义为推荐算法对一个产品用户是否喜欢判定正确的比例广泛使用的分类准确度指标:准确率,召回率以及相关的指标其中,和分别为被推荐产品中用户喜欢和不喜欢的产品数精选分类准确度分类准确度定义为推荐算法对一个产品用户是否喜欢判定分类准确度相应的,和分别为未被推荐产品中用户喜欢和不喜欢的产品数。而为未被推荐的产品数。显然,准确率定义为系统的推荐列表中用户喜欢的产品和所有被推荐产品的比率:召回率定义为推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率:精选分类准确度相应的,和分别为未被推荐产品中用户喜欢和分类准确度另一个度量系统分类准确度的重要指标就是ROC曲线1)确定用户对每个产品感兴趣与否。2)根据预测结果为用户提供一个推荐列表,从图的原点开始,如果预测的产品符合用户喜好,画一个竖线;如果预测的产品不符合实际,画一个横线;如果预测产品还没有被打分,那么抛弃这个产品,并不影响曲线。一个最好的预测系统产生一个竖的ROC线,随机预测产生从原点到右上角的直线。
精选分类准确度另一个度量系统分类准确度的重要指标就是ROC曲线精排序准确度排序准确度用于度量推荐算法产生的列表符合用户对产品排序的程度。可以用平均排序分度量推荐系统的排序准确度,定义如下:其中N为训练集中用户为选择的产品个数,Li预测集中待预测产品i在推荐列表中的位置精选排序准确度排序准确度用于度量推荐算法产生的列表符合用户对产品预测打分关联预测打分关联不考虑预测打分与用户打分各单项的偏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度劳动合同详细协议
- 2024年夫妻共同债务分割贷款协议版B版
- 2024年家具物流配送与售后服务合同
- 2024年家政清洁服务协议专业版样本版B版
- 2024年度区块链应用研发保密协议
- 2024危险废物委托转运协议
- 2024年度人力资源和社会保障厅合作合同版
- 2024年个人自驾游车辆租赁协议一
- 2024年度代理出租房合作协议带眉脚
- 2024婚恋服务公司加盟协议范本版B版
- 特殊教育学校设计方案
- 第21课 雪孩子二年级语文上册同步分层作业设计系列(统编版)
- 职业院校技能大赛教学能力比赛备赛经验分享如何对标备赛
- 涡轮轴发动机相关项目建议书
- 中小学人车分流管理制度
- 企业团建活动方案PPT
- 危险化学品企业设备完整性管理专项行动方案
- YYT-0664-2020医疗器械软件软件生存周期过程核查表
- 乐山大佛介绍课件
- 学科前沿讲座-公共关系(2022下)学习通课后章节答案期末考试题库2023年
- 婚恋-职场-人格学习通课后章节答案期末考试题库2023年
评论
0/150
提交评论