《推系统 第2版》 课件 Lec1 推系统-概述、Lec2 协同过滤-基于邻域的CF_第1页
《推系统 第2版》 课件 Lec1 推系统-概述、Lec2 协同过滤-基于邻域的CF_第2页
《推系统 第2版》 课件 Lec1 推系统-概述、Lec2 协同过滤-基于邻域的CF_第3页
《推系统 第2版》 课件 Lec1 推系统-概述、Lec2 协同过滤-基于邻域的CF_第4页
《推系统 第2版》 课件 Lec1 推系统-概述、Lec2 协同过滤-基于邻域的CF_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

推荐系统推荐系统动机(为什么要学)利用推荐系统可以解决实际应用难题使得平台、用户、供应商等多方受益内容(主要讲什么)各种个性化推荐系统的框架与流程常用推荐算法的思想、原理和实现目标(能学到什么)理解常用推荐算法的原理、思想学会根据应用和场景选择或构造合适的推荐算法实践通过推荐系统解决实际应用问题信息爆炸:每分钟…数据摩尔定律:全球在2010年进入ZB(万亿GB)时代,数据量两年翻一番/learn/data-never-sleeps-8

信息超载多即是少少即是多推荐系统发展背景:互联网技术迅猛发展→信息爆炸→信息超载推荐系统:一种主动的信息过滤系统将信息过滤过程由“用户主动搜索”转变为“系统主动推送”一种个性化的双边匹配系统帮助用户发现其所喜好的或需要的小众、非主流商品帮助商户将其商品展现在对它们感兴趣的用户面前搜索:满足用户的主动需求用户知道自己要什么用户知道该如何描述推荐:挖掘并满足用户的潜在需求项目(Items)搜索推荐商品、电影、音乐、新闻、工作岗位、…推荐系统发展背景:互联网技术迅猛发展→信息爆炸→信息超载互联网上的物品普遍存在长尾(longtail)现象推荐系统:一种主动的信息过滤系统将信息过滤过程由“用户主动搜索”转变为“系统主动推送”一种个性化的双边匹配系统帮助用户发现其所喜好的或需要的小众、非主流商品帮助商户将其商品展现在对它们感兴趣的用户面前亚马逊销量的43%:传统实体店所售书籍亚马逊销量的57%:只在亚马逊上销售的书籍按销售量排序的物品种类销售量销量小但种类多的产品或服务由于总量巨大,累积总收益超过主流产品的现象推荐系统发展背景:互联网技术迅猛发展→信息爆炸→信息超载互联网上的物品普遍存在长尾(longtail)现象推荐系统:一种主动的信息过滤系统将信息过滤过程由“用户主动搜索”转变为“系统主动推送”一种个性化的双边匹配系统帮助用户发现其所喜好的或需要的小众、非主流商品帮助商户将其商品展现在对它们感兴趣的用户面前推荐系统“Weareleavingtheageofinformationandenteringtheageofrecommendation.”

—ChrisAndersonin“TheLongTail”推荐系统的价值Netflix:2/3的电影观看时长Amazon:35%的销售量GoogleNews:38%的新闻点击量……推荐系统的价值从平台的角度帮助其提高用户的满意度和忠诚度,同时给其带来丰厚的收益从用户的角度帮助其解决信息超载问题,提高其决策效率,提升其幸福感从供应商的角度帮助其进行精准的商品推销,提高销售量,降低营销成本从行业的角度帮助其更加多元化、健康的发展,帮助尾部商家得以生存和发展推荐系统动机(为什么要学)利用推荐系统可以解决实际应用难题使得平台、用户、供应商等多方受益内容(主要讲什么)个性化推荐系统的框架与流程常用推荐算法的思想、原理和实现目标(能学到什么)理解常用推荐算法的原理、思想学会根据应用和场景选择或构造合适的推荐算法实践通过推荐系统解决实际应用问题推荐系统的发展历史1992:Xerox公司开发出基于协同过滤的内部新闻组文档推荐系统Tapestry1994:MIT和明尼苏达大学推出基于协同过滤的跨网络新闻推荐GroupLens1998:Amazon推出基于项目的协同过滤算法,实现个性化的线上商品推荐2003:Google开创AdWords盈利模式,根据用户搜索关键词推荐相关广告2007:Google为AdWords添加了个性化元素2006~2009:Netflix主办百万美金大奖赛,将其电影推荐准确率提高10%

……个性化推荐在音乐、求职等诸多领域得到了成功应用,并慢慢成为各种互联网应用的一种标配“IfIhave3millioncustomersontheWeb,Ishouldhave3millionstoresontheWeb”--JeffBezos,AmazonCEO个性化推荐系统框架个性化推荐映射函数f:U×I→R输入:用户画像(U):评分、偏好、人口统计学资料、上下文等项目画像(I):项目描述(属性)、内容等计算:兴趣度或相关度(R),用于排序输出:针对每个用户,给出项目排序列表推荐系统用户画像对用户的特点和兴趣进行建模从用户相关的各种数据中挖掘或抽取出用户在不同属性上的标签例如:年龄、性别、职业、婚姻状态、兴趣、未来可能行为等主要过程:标签体系的建立:层次化结构,逐层细分标签的获取(赋值):事实标签:既定事实,可从原始数据中直接得到,如:性别模型标签:用户潜在特性,通过模型计算得出,如:用户兴趣预测标签:对用户未来行为的预测,例如:用户流失预测偏好品牌偏好主题购买频率消费水平收入状况学历婚否职业年龄性别基本属性消费特征兴趣偏好用户画像对用户的特点和兴趣进行建模从用户相关的各种数据中挖掘或抽取出用户在不同属性上的标签例如:年龄、性别、职业、婚姻状态、兴趣、未来可能行为等主要过程:标签体系的建立:层次化结构,逐层细分标签的获取(赋值):事实标签:既定事实,可从原始数据中直接得到,如:性别模型标签:用户潜在特性,通过模型计算得出,如:用户兴趣预测标签:对用户未来行为的预测,例如:用户流失预测项目画像对项目的特点进行建模从项目相关的各种数据中挖掘和抽取出项目在不同属性上的标签实现对项目(例如商品、服务等)的精准的定位项目画像的过程和用户画像相同标签体系的建立(需要领域知识)和标签的获取(赋值)项目标签:项目自身内容和属性相关的标签和用户(行为)相关的一些标签,例如:目标用户群推荐系统目标是将用户和项目进行匹配,因此用户画像和项目画像会相互影响推荐系统动机(为什么要学)利用推荐系统可以解决实际应用难题使得平台、用户、供应商等多方受益内容(主要讲什么)个性化推荐系统的框架与流程常用推荐算法的思想、原理和实现目标(能学到什么)理解常用推荐算法的原理、思想学会根据应用和场景选择或构造合适的推荐算法实践通过推荐系统解决实际应用问题推荐算法分类算法思想基于人口统计学、基于内容、协同过滤、基于知识、混合推荐应用问题评分预测vs.Top-N推荐目标函数点级排序学习vs.对级排序学习vs.列表级排序学习用户参与单边推荐vs.双边匹配数据表示矩阵表示vs.特征向量vs.图模型基于算法思想的分类基于人口统计学、基于内容、协同过滤、基于知识的推荐基于人口统计学:根据用户基本信息推荐相似用户喜爱的项目基于内容:根据用户过去喜好的项目推荐相似的项目协同过滤:根据用户行为信息推荐相似用户喜爱的项目基于关联规则:啤酒&尿布(数据挖掘)基于知识:基于(偏好)约束、本体推理基于算法思想的分类基于人口统计学、基于内容、协同过滤、基于知识的推荐基于人口统计学:根据用户基本信息推荐相似用户喜爱的项目基于内容:根据用户过去喜好的项目推荐相似的项目协同过滤:根据用户行为信息推荐相似用户喜爱的项目基于关联规则:啤酒&尿布(数据挖掘)基于知识:基于(偏好)约束、本体推理基于算法思想的分类基于人口统计学、基于内容、协同过滤、基于知识的推荐基于人口统计学:根据用户基本信息推荐相似用户喜爱的项目基于内容:根据用户过去喜好的项目推荐相似的项目协同过滤:根据用户行为信息推荐相似用户喜爱的项目基于算法思想的分类基于人口统计学、基于内容、协同过滤、基于知识的推荐基于人口统计学:根据用户基本信息推荐相似用户喜爱的项目基于内容:根据用户过去喜好的项目推荐相似的项目协同过滤:根据用户行为信息推荐相似用户喜爱的项目基于知识:根据用户的显式需求和专业领域知识进行推荐

匹配度度量:(Price:LIB;Size:CIB;RAM:MIB;GPU:0-1匹配)推荐方法优点缺点基于人口统计学不需要历史数据没有冷启动问题个性化程度低推荐效果一般基于内容结果直观,容易解释新用户问题推荐结果缺乏新颖性协同过滤发现新的兴趣点不需要领域知识个性化、自动化程度高数据稀疏问题新用户问题基于知识没有冷启动问题结果具有可解释性知识获取困难混合推荐:通过多种技术的组合来避免或弥补各自的弱点基于应用问题的分类评分预测目标:根据用户历史评分和其他相关数据,预测用户对候选项目评分值评价指标:预测评分和真实评分之间的偏差,例如:均方根误差

RMSETop-N推荐目标:根据用户历史行为(如:点击)和其他相关数据,预测用户对候选项目的感兴趣程度,并据此对项目排序以给出排在最前N个的项目列表评价指标:分类准确度和排序合理性,例如:精确度、召回率、AUC、nDCG等推荐系统动机(为什么要学)利用推荐系统可以解决实际应用难题使得平台、用户、供应商等多方受益内容(主要讲什么)各种个性化推荐系统的框架与流程常用推荐算法的思想、原理和实现目标(能学到什么)理解常用推荐算法的原理、思想学会根据应用和场景选择或构造合适的推荐算法实践通过推荐系统解决实际应用问题协同过滤基本思想协同过滤(CollaborativeFiltering,CF):利用集体智慧,借鉴相关人群的观点进行推荐基本假设:过去兴趣相似的用户在未来的兴趣也会相似相似的用户会产生相似的(历史)行为数据偏好相似推荐算法分类Top-N推荐vs.评分预测输入(输出):隐式的0-1偏好vs.显式的评分基于邻域的方法vs.基于模型的方法利用局部(邻域)信息vs.基于全局信息在内存中存储(记忆)整个数据集vs.训练出抽象模型协同过滤基于邻域(记忆)基于用户基于项目图扩散基于模型矩阵分解关联规则机器学习协同过滤的一般步骤收集数据目标:收集能反映用户偏好的数据寻找邻域:相似的用户(或项目)计算推荐结果:根据邻域信息计算推荐结果收集数据计算推荐结果寻找邻域训练模型显式反馈:用户主动地向系统表达其偏好,一般需要用户在消费完项目后进行额外反馈隐式反馈:隐含用户对项目偏好的行为数据,是用户在探索或消费项目过程中正常操作收集用户行为数据用户行为类型特征作用评分

显式整数,取值[0,n]精确的用户偏好点击流

隐式一组用户点击一定程度上反映用户的注意力和喜好

页面停留时间隐式一组时间信息一定程度上反映用户的注意力和喜好保存书签

隐式布尔值,取值0或1较精确的用户偏好标记标签(Tag)隐式一些词语可以分析出用户的情感和兴趣

购买

隐式布尔值,取值0或1明确的用户兴趣对比分析:

数量、质量基于用户的协同过滤:User-CF基于用户的CF(User-CF)基本思想:基于用户对项目的历史偏好找到相邻(相似)的用户将邻居(相似)用户喜欢的项目推荐给当前用户假设:与我兴趣相似的用户喜欢的项目,我也会喜欢关键:寻找相似用户用户相似度度量用户相似度

用户/项目项目a项目b项目c项目d项目e用户A?√?√?用户B√√√用户C√√√用户D√√用户相似度:示例计算假设:用户A购买过项目{b,d},用户B购买过{a,b,c},…

用户项目列表Ab,dBa,b,cCa,b,dDa,e

兴趣度预测

用户/项目项目a项目b项目c项目d项目e用户A?√√用户B√√√用户C√√√用户D√√假设:用户A购买过项目{b,d},用户B购买过{a,b,c},…目标:为用户A推荐项目

推荐排序:p(A,a)>p(A,c)>p(A,e)User-CF:计算推荐结果用户项目列表Ab,dBa,b,cCa,b,dDa,e项目a项目b项目c项目d项目e用户A?√?√用户B√√√用户C√√√用户D√√

基于User-CF的推荐系统

用户购买项目Ab,dBa,b,cCa,b,dDa,eABCDA11/42/30B1/411/21/4C2/31/211/4D01/41/41用户邻域AB,CBA,CCA,BDB,C历史行为数据用户相似度(Jaccard)用户邻域(K=2)用户相似度改进:IUF下面哪一组用户更相似?用户A和B都买过《新华字典》用户C和D都买过《RecommenderSystemsHandbook》逆用户频率(InverseUserFrequency)基本思想:惩罚热门项目两个用户对冷门项目有过同样行为更能说明他们兴趣相似计算:惩罚系数:fi

=

log

(n/ni)n表示总用户数;ni表示对项目i有过正反馈的用户数

User-CF的缺点难以形成有意义的邻域集合很多用户两两之间只有很少的共同反馈而仅有的共同反馈的项目,往往是热门项目(缺乏区分度)随着用户行为数据的增加,用户间相似度可能变化很快离线(offline)算法难以瞬间更新推荐结果

基于项目的协同过滤:Item-CF基于项目的CF(Item-CF)基本思想:基于用户对项目的反馈(偏好)寻找相似(相关)的项目根据用户的历史反馈(偏好)行为,给他推荐相似的项目假设:我过去喜欢某类项目,将来还会喜欢类似(相关)项目关键:寻找相似(相关)项目项目相似(相关)度度量项目相似度

假设:用户A购买过{b,d};用户B购买过项目{a,b,c};…依此构建用户-项目倒排表:项目a被用户B、C、D购买过,…项目相似度:示例计算项目相似度:用户项目列表Ab,dBa,b,cCa,b,dDa,e项目用户列表aB,C,DbA,B,CcBdA,CeDJaccardabcdea11/2b1/210c100d010e0001兴趣度预测

用户/项目项目a项目b项目c项目d项目e用户A?√√用户B√√√用户C√√√用户D√√基于Item-CF的推荐系统

项目相似度(Jaccard)abcdea11/21/31/41/3b1/211/32/30c1/31/3100d1/42/3010e1/30001项目用户列表aB,C,DbA,B,CcBdA,CeD用户-项目倒排表项目邻域(K=3)项目邻域ab,c,eba,c,dca,bda,bea项目相似度改进

基于邻域的评分预测评分预测

用户\项目abcdA533?B3112C3333协同过滤的一般步骤收集数据目标:收集能反映用户偏好的数据寻找邻域:相似的用户(或项目)计算推荐结果:根据邻域信息计算预测评分收集数据计算推荐结果寻找邻域训练模型User-CF:Item-CF:

用户u有过评分的项目集合用户u对项目i的评分余弦相似度(用户)用户u和v的余弦相似度:用户u和v都有过评分的项目集合用户abcdA533?B3112C3333

基于User-CF的评分预测

收集数据计算推荐结果寻找邻域用户abcdA533?B3112C3333

用户u和v都有过评分的项目集合用户u对项目i的评分用户u的评分平均值Pearson相似度(用户)用户u和v的Pearson相似度:

Pearson相似度(用户)

用户abcdA533?B3112C3333预测修正基于用户的CF基于项目的CF

用户\项目abcdA533?B3112C3333评分预测:示例

收集数据计算推荐结果寻找邻域用户\项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论