




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、推荐系统评价指标综述汇报人:李烽n 文献来源:朱郁筱,吕琳媛. 推荐系统评价指标综述J. 电子科技大学学报,2012,02:163-175.研究背景3信息过载多种推荐算法孰优孰劣信息过载多种推荐算法孰优孰劣研究背景4Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差不齐,造成信息过载。信息过载多种推荐算法信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、混合推荐算法。孰优孰劣如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。研究背景很多学者对推荐评价指标认识不全面,局限于精确性,忽视多样性、新颖性、覆盖率等指标学术界尚未建立推荐算法
2、评估完整统一的指标群,部分学者写论文时只选择对自己有利的指标对各个指标的优劣和适用性了解较少,在评价指标的选择和结果解释方面存在不足评价方法6在线评价n 设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现n A/B测试n 高额成本离线评价n 根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量n 方便、经济n 数据集的划分(常用随机划分)与评价指标的选择评价指标7 准确度指标 基于排序加权的指标 覆盖率 多样性和新颖性预测评分的准确度预测评分关联分类准确度排序准确度准确度指标准确度指标预测评分的准确度衡量算法预测的评分与用户实际评分的贴近程度思路:计算预测评
3、分和用户真实评分的差异局限:对MAE指标贡献大的往往是那种很难预测准确的低分商品预测评分的准确度MSE和RMSE指标对每个绝对误差首先做平方运算,所以这两个指标对比较大的绝对误差有了更重的惩罚预测评分的准确度预测评分关联衡量算法预测的评分与用户实际评分之间的相关性最常见的三种相关性指标:Pearson积距相关、Spearman相关、Kendalls Tau预测评分关联预测评分关联弱关系排序问题:在实际系统中可能有某用户对两个或者多个商品评分一致的情况。预测评分关联某用户对商品实际评分为:4.4,3.9, 3.8, 3.9, 1.0推荐系统预测评分为:3.3, 3.1, 3.0, 4.3, 3.
4、1那么此时,具有严格偏好差别的商品对有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、(3,4)、(3,5) 、(4,5)排序相悖的商品对: (1,4)、 (3,5) 排序兼容的商品对: (2,5) 得 NDMP=(2*2+1)/2*9=0.278预测评分关联NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现。PS:这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值,所以它们不适用于那些旨在为用户提供精确预测评分值的系统。分类准确度衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力。适用于那些有明确二分喜好的用
5、户系统,对于非二分喜好系统,需要设定一个阈值来区分用户的喜好。并非衡量系统预测具体评分值的能力,只要是没有影响商品分类的评分偏差都是被允许的。最常用的分类准确度指标:准确率(precision)、召回率(recall)、F1指标和AUC。分类准确度分类准确度分类准确度准确率与召回率容易受到推荐列表长度、评分稀疏性以及喜好阈值的等多方面因素的影响,很多学者不提倡用准确率与召回率来评价系统,特别是只考虑一种指标时偏差极大。准确率和召回率指标往往是负相关的而且依赖于推荐列表长度。一般情况下,随着推荐列表长度的增大,准确率指标会减小而召回率会增大。分类准确度对于一个没有明确二分喜好的系统?推荐的阈值不
6、确定?往往采用AUC指标来衡量推荐效果的准确性。AUC指标表示ROC(receiver operator curve)曲线下的面积,它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品区分开来。正如我们在这个ROC曲线的示例图中看到的那样,ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)分类准确度经过分析,ROC曲线越接近左上角,该分类器性能越好。AUC的取值范围介于0.5和1之间。分类准确度假如我们已经得到了所有样本的概率输出(属于正样本的概率)。根据每个测试样本属于正样本的概率值从大到小排序。图中共有2
7、0个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率分类准确度从高到低依次将”Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。AUC指标仅用一个数值就表征了推荐算法的整体表现,而且它涵盖了所有不同推荐列表长度的表现。但是AUC指标没有考虑具体排序位置的影响,导致在ROC曲线面积相同的情况下很难比较算法好坏,所以它的适用范围也受到了一些限制排序准确度基于排序加权的指标基于排序加权的指标目前半衰期效用指标的使用仍然是有很大的局限性:首先参数的选取尚未有统一的标准。用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中都适用。覆盖率覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。多样性和新颖性推荐系统中的多样性体现在用户间的多样性和用户内的多样性。在信息论中,两个字码中不同位值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年预算员职业路径规划题试题及答案
- 如何进行全媒体策略的有效沟通试题及答案
- 化工原料采购合同
- 住宅小区清洁维护合同
- 互联网广告合同转让操作指南
- 医疗领域最大合同:第四医院整体资产承租权
- 土木工程师聘用合同样本
- 公路与铁路联运货物运输合同范本
- 七年级地理下册 8.2埃及教学实录 (新版)湘教版
- 员工钉钉操作培训
- 加强文物古籍保护利用(2022年广东广州中考语文试卷非连续性文本阅读试题及答案)
- 钢铁项目环评报告 - 9施工期影响
- 2024年广东省广州市中考英语试卷附答案
- 物业服务考核办法及评分细则(表格模板)
- DL∕T 5371-2017 水电水利工程土建施工安全技术规程
- 10万吨秸秆膨化饲料项目可行性研究报告
- 花果山云雾茶整合营销传播策划方案
- 《静脉采血》课件
- 老年病老年综合征及老年综合评估培训课件
- 2023年中考语文二轮复习:书法鉴赏 真题练习题汇编(含答案解析)
- 白熊效应(修订版)
评论
0/150
提交评论