《推系统 第2版》 课件 Lec3 协同过滤-基于模型的CF、Lec4 基于内容的推_第1页
《推系统 第2版》 课件 Lec3 协同过滤-基于模型的CF、Lec4 基于内容的推_第2页
《推系统 第2版》 课件 Lec3 协同过滤-基于模型的CF、Lec4 基于内容的推_第3页
《推系统 第2版》 课件 Lec3 协同过滤-基于模型的CF、Lec4 基于内容的推_第4页
《推系统 第2版》 课件 Lec3 协同过滤-基于模型的CF、Lec4 基于内容的推_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于模型的协同过滤协同过滤算法分类基于邻域的方法vs.基于模型的方法利用局部(邻域)信息vs.基于全局信息在内存中存储(记忆)整个数据集vs.训练出抽象模型协同过滤基于邻域(记忆)基于用户基于项目图扩散基于模型矩阵分解关联规则机器学习基本思想:利用集体智慧,借鉴相关人群的观点进行推荐基于关联规则的协同过滤购买尿布的顾客两者都购买的顾客购买啤酒的顾客关联规则关联:自然界中两个事件同时或先后发生的一种联系可分为:简单关联、时序关联、因果关联关联规则描述在交易中项目之间同时出现的规律的知识模式通过量化的数字描述项目A的出现对项目B的出现有多大的影响形如

A

B的蕴含式,A和B为不相交的项集,例:{尿布}

{啤酒}

基本概念全项集事务关联规则事务数据集(如右图)事务标识TID:每一个事务关联着一个标识TIDItems1i1,i2,i32i1,i33i1,i44i2,i5,i6关联规则度量名称描述公式置信度

A出现的前提下,B出现的概率P(B|A)支持度

A、B同时出现的概率

P(A∪B)期望可信度

B出现的概率

P(B)改善度

置信度对期望可信度的比值

P(B|A)/P(B)规则:A

B购买尿布的顾客两者都购买的顾客购买啤酒的顾客{尿布}

{啤酒}?{牛奶}

{面包}?关联规则度量

关联规则度量:示例规则:规则:?

关联规则挖掘目标:给定一个交易数据集D产生支持度和置信度分别大于给定阈值的关联规则两个参数:最小支持度阈值:

min_support;最小置信度度阈值:

min_conf两个基本步骤找出频繁项集:支持度(S(I))大于最小支持度阈值的所有项集找出强关联规则由频繁项集生成关联规则保留置信度大于最小置信度阈值的关联规则

生成频繁项集Naïvealgorithm:Brute-forceapproach计算每个可能项集的支持度:O(n∙2m)把格结构中每个项集作为候选项集:O(2m),m表示总项数针对每个候选项集,和每个事务比较以确定支持度计数:O(n),n表示总事务数abdcabacadbcbdcdØabcabdbcdacdabcd{a,b,c,d}项目集的格结构Apriori算法基本思想:利用先验(Apriori)原理减少候选项集的数量

迭代搜索:由频繁(k-1)-项集构建候选k-项集先验原理(AprioriPrinciple)若A是一个频繁项集,则A的每一个子集都是一个频繁项集若A是非频繁项集,则A的所有超集都是非频繁项集方法:

逐层(level-wise)搜索初始化:找到所有的频繁1-项集迭代:扩展频繁(k-1)-项集得到候选k-项集剪枝:剪除不满足最小支持度的候选项集abdcabacadbcbdcdØabcabdbcdacdabcd基于支持度的剪枝:示例剪枝Apriori算法:示例事务数据集计算支持度C1L1L2C2C2计算支持度C3L3计算支持度TID项目1b,d2a,b,c3a,b,d4a,e项集支持度{a}3{b}3{c}1{d}2{e}1项集支持度{a}3{b}3{d}2项集{a,b}{a,d}{b,d}项集支持度{a,b}2{a,d}1{b,d}2项集支持度{a,b}2{b,d}2项集{a,b,d}项集支持度{a,b,d}1设min_support=2剪枝{a}

{b}{b}

{a}{b}

{d}{d}

{b}关联规则的相关分析强关联规则不一定有价值候选规则:{b}

{a}支持度=50%,置信度≈67%=>强关联规则规则的误导:整体购买{a}的可能性是75%(期望可信度),比67%还大事实:{b}和{a}是负相关的TID项目1b,d2a,b,c3a,b,d4a,e项集支持度{a}3{b}3{d}2项集支持度{a,b}2{b,d}2提升度与相关度

TID项目1b,d2a,b,c3a,b,d4a,e项集支持度{a}3{b}3{d}2项集支持度{a,b}2{b,d}2矩阵分解模型矩阵分解基本假设:基于观察到的所有用户历史行为数据可以推测出用户和项目的潜在特征表示(画像)基本思想:将历史行为数据表示为矩阵:隐式反馈矩阵vs评分矩阵通过矩阵分解挖掘(学习)用户和项目的潜在表示,降低数据维度理论依据:奇异值分解

(SingularValueDecomposition,SVD)1.3-1.31.6-0.5-2.41.72.5-0.10.51.2-2.1-1.10.9-1.9-0.31.5-1.41.00.80.10.30.8-0.61.00.41.11.92.30.3-2.0-1.5-1.7-1.7-1.1-1.5-0.5-0.3-1.60.20.10.3-0.52.21.1-.50.70.70.2~4531312445533212245452243442331隐语义模型LFM

隐语义空间:示例隐语义模型LFM:示例

1.3-1.31.6-0.5-2.41.72.5-0.10.51.2-2.1-1.10.9-1.9-0.31.5-1.41.00.80.10.30.8-0.61.00.41.11.92.30.3-2.0-1.5-1.7-1.7-1.1-1.5-0.5-0.3-1.60.20.10.3-0.52.21.1-.50.70.70.2~评分矩阵R用户隐特征矩阵P

重构评分矩阵R’45313124455332122454522434423315432452331312248345-16531302112621420534052233243406432443331隐语义模型LFM:目标函数

12…i…n12..u..m

....

....

R

≈×m×nm×kk×n4531312445533212245452243442331过拟合与正则化

引导一些不重要的参数被减少到0或可以被忽略,以降低模型的复杂度奥卡姆剃刀原理:"如无必要,勿增实体",即"简单有效原理"参数学习:随机梯度下降法

Lossx

参数学习:交替最小二乘法

概率矩阵分解模型概率矩阵分解模型(PMF)矩阵分解的困难:由于系统噪音存在,不可能做出完美的分解评分矩阵R中包含很多未知元素(稀疏矩阵)贝叶斯观点:评分矩阵R是系统观测值用户和项目隐特征矩阵U和V可看作系统内部特征,是需要估计的参数目标:根据观测得到的评分值R,推理系统隐藏的参数U和V概率分布假设

贝叶斯推理

参数估计:最大后验概率估计(MAP)

限制性PMF

限制性PMF

基于矩阵分解的Top-N推荐动机

基于正样本过采样的矩阵分解

基于负样本欠采样的矩阵分解基本思想:通过对负样本进行欠采样(undersampling)从未观测到反馈行为的样本中采样出一个和正样本集相当的集合作为负样本集采样策略:随机均匀:假设每个未观测到反馈的样本都是负样本且影响相同面向用户:某用户反馈过的项目越多,则其还未反馈过的项目越可能是负样本面向项目:项目越热门,用户越可能知道其存在,还未反馈就越可能是负样本采样策略

正反馈

权值“负”反馈

权重随机均匀采样面向用户采样面向项目采样基于负样本欠采样的矩阵分解

采样策略

正反馈

权值“负”反馈

权重随机均匀采样面向用户采样面向项目采样基于内容的推荐协同过滤的不足协同过滤的基本思想:利用集体智慧,根据相关人群的行为进行推荐协同过滤的不足:依赖于对用户和项目交互行为数据的挖掘项目冷启动:无法向用户推荐新项目(常见于新闻咨询、短视频等推荐)数据稀疏:难以(或无法)为不活跃的(反馈行为少的)用户进行推荐38基于内容的推荐基本思想:为用户推荐与他感兴趣(过去喜好)的项目内容相似的项目发掘用户曾经喜欢过(例如:购买过)项目的特性,并推荐类似的项目主要步骤:项目建模:构建描述项目的结构化特征用户建模:根据用户的历史行为和相关项目信息,刻画用户的偏好特征生成推荐列表:根据项目特征和用户偏好特征的匹配程度对项目进行排序基于内容的推荐系统框架基于记忆的推荐

关键:计算项目之间的(内容)相似度基于向量空间模型的文本相似度向量空间模型VSM向量空间模型(VectorSpaceModel,VSM)一种把文本内容表示为标识符向量的代数模型将非结构化文本描述数据进行向量化表示,使其具备可计算性词袋模型基本思想:BagofWords(BoW)将文档看作是由若干词构成的一个集合,即以词作为标识符示例:三个简单的文本文档:

文档d1:Johnlikestoplayfootball.

文档d2:Jacklikestoplaybasketball.

文档d3:Jackplanstotravel.Johnplanstotraveltoo.基于这三个文本文档(语料库),可构造一个词典,如下:Dictionary={1.“John”,2.

“likes”,3.“to”,4.“play”,5.“football”,6.“Jack”,7.

“basketball”,8.“plans”,9.“travel”,10.“too”}文本文档的词袋表示:(结构化表示)文档d1:[1,1,1,1,1,0,0,0,0,0]文档d2:[0,1,1,1,0,1,1,0,0,0]

文档d3:[1,0,2,0,0,1,0,2,2,1]t1t2t3TF-IDF模型

齐普夫定律TF-IDF模型

IDF值

词DF

(ni)IDF值t11000010t2500020.3t31010003t41100004TF-IDF模型:示例Frequencyd1d2d3d4car1040200auto520400football00820on5202010原始词频(Frequency)

d1d2d3d4car110.50auto0.50.510football000.21on0.50.50.50.5

IDFcar30.12auto30.12football20.30on40

d1d2d3d4car0.120.120.060auto0.060.060.120football000.060.3on0000模型改进动机:包含所有词的文档向量表示通常会非常长并且很稀疏简化词典:去停用词、词干还原、特征选择等去停用词:停用词是指不具备文档区分度的词语,这些几乎在所有文档中都会出现例如英文中的“a”、“the”、“on”等,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论