推荐系统技术发展趋势分析_第1页
推荐系统技术发展趋势分析_第2页
推荐系统技术发展趋势分析_第3页
推荐系统技术发展趋势分析_第4页
推荐系统技术发展趋势分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、推荐系统技术发展趋势分析技术创新,变革未来智慧IT目 录010203前沿研究概述DKN模型RippleNet模型总结04推荐系统是一种信息过滤系统,能根据用户的档案或者历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好。它改变了商家与用户的沟通方式,加强了和用户之间的交互性。针对如何构建高效精准的推荐系统的研究意义重大,近年来不少新思想新方法不断涌现,极大的推动了推荐系统的发展。一般来说,推荐系统的前沿课题一般是围绕深度学习、知识图谱、可解释推荐等几个方面1. 前沿研究概述推荐系统与深度学习近几年深度学习技术在各领域取得了巨大的成功。如何将其应用到推荐系统是当前的研究热点。深

2、度学习在推荐系统现阶段的应用主要体现在如下三个层面:深度协同过滤如何扩展矩阵分解结构,引入更多的非线性单元增强其性能。特征间的深度交互特征从不同维度展现了不同的信息,如何获取高阶的特征交互模式提升表征学习能力利用深度学习从复杂内容数据中学习出有效的隐因子特征表示1. 前沿研究概述推荐系统与深度学习深度学习技术在推荐系统中的应用前景很广阔。下面简要介绍几个未来可能的研究方向:效率与扩展性如何将深度学习更高效的应用在超大规模的推荐平台上,是亟需解决的技术难点。多样化数据融合用户和物品的数据包含多个种类,如文本、图像、视频、搜索、点击、收藏。捕捉用户长短期偏好如何结合情境因素的影响,将用户的长期偏好

3、与短期需求更紧密、有效地结合起来,也是一个研究热点。1. 前沿研究概述推荐系统与知识图谱物品端的知识图谱极大地扩展了物品的信息,强化了物品之间的联系,为推荐提供了丰富的参考价值,更能为推荐结果带来额外的多样性和可解释性1. 前沿研究概述推荐系统与知识图谱和社交网络相比,知识图谱是一种异构网络,因此针对知识图谱的推荐算法设计要更复杂和精巧。近年来,网络特征学习(network representation learning)逐渐成为机器学习中的一个热门的研究方向。基于特征的知识图谱辅助推荐使用知识图谱特征学习对其进行处理,从而得到实体和关系的低维稠密向量表示。基于结构的推荐模型直接地使用知识图谱

4、的结构特征对于知识图谱中的每一个实体,我们都进行宽度优先搜索来获取其在知识图谱中的多跳关联实体从中得到推荐结果。1. 前沿研究概述推荐系统的可解释性近期,学者们开始关注推荐是否能够以用户容易接受的方式,充分抓住用户心理,给出适当的例子与用户沟通。这样的系统不仅能够提升系统透明度,还能够提高用户对系统的信任和接受程度 、用户选择推荐产品的概率以及用户满意程度。作为推荐领域被探索得较少的一个方向,可解释推荐的很多方面值得研究与探索。1. 前沿研究概述目 录010203前沿研究概述DKN模型RippleNet模型总结04在线新闻推荐系统致力于在庞大的新闻数据中为用户提供个性化的新闻推荐。一般情况下,

5、新闻语言高度浓缩并且主要由知识实体构成。已有的推荐方法没有进行外部知识的抽象与学习,不能够充分的发掘新闻在知识层面的联系。DKN : Deep Knowledge-Aware Network for News Recommendation是一种结合知识图谱实与卷积神经网络的新闻推荐模型2. DKN模型 简介新闻文章具有高度的时间敏感性,它们的相关性很快就会在短时间内失效。导致传统的基于ID的协同过滤算法失效。用户对话题比较敏感,同时有特定的几个种类。根据多元化阅读历史动态的衡量用户的兴趣是新闻推荐系统的关键。新闻类文章的语言都是高度浓缩的,包含了大量的知识实体与常识。新闻推荐的特点2. DKN

6、模型 简介DKN模型中对于使用了CNN提取新闻中句子的特征,用句子所包含词的词向量组成的二维矩阵,经过一层卷积操作之后再做一次max-over-time的pooling操作得到句子向量,另外在本文中还使用了不同大小的卷积核得到多组不同的向量。如何提取文本信息2. DKN模型 简介一个知识图谱由大量的结点以及节点之间的边组成,其中节点代表实体,边代表节点之间的关系,可以看作是许多三元组(头结点,关系,尾节点)构成的一个集合。针对知识图谱的网络嵌入目的是用一个低维稠密的向量来表示节点,保证该向量包含了节点间的相似性关系以及网络的结构信息。目前已有的很多translation-based的嵌入表示方

7、法。知识图谱简介2. DKN模型 简介将h, r, t 分别是head, tail, relation对应的向量,目前主流的嵌入方式的优化目标如下:TransE:TransH:TransR:TransD:损失函数采用pairwise的方式常用知识图谱建模方式2. DKN模型 简介用户i点击历史记录 t1,t2, t3tn。分别表示被用户i点击过得新闻的标题。将每个标题t转化为一个单词序列,w1, w2, wn。每个单词w在知识图谱中可能会有一个实体e与之对应2. DKN模型 模型描述识别出文本中的知识实体并利用实体链接技术与知识图谱关联利用新闻文本中的实体与关系就构成了一个原来知识图谱的一个子

8、图构建好知识子图以后,利用知识图谱嵌入技术得到每个实体的向量根据实体向量得到对应单词的词向量知识提取2. DKN模型 模型描述获得了标题中单词和对应实体的向量之后,相比于简单地把所有的向量拼接起来以后输入给CNN,本文使用的是multi-channel和word-entity-aligned KCNN。具体做法是先把实体的向量,和实体上下文向量映射到一个空间里:其中g(e)可以是线性或非线性变换新闻特征提取2. DKN模型 模型描述使用卷积神经网络来处理由词、实体、上下文组成的三通道矩阵2. DKN模型 模型描述新闻特征提取注意力机制获取到用户点击过的每篇新闻的向量表示以后,作者并没有简单地作

9、加和来代表该用户,而是计算候选文档对于用户每篇点击文档的attention,再做加权求和,计算attention2. DKN模型 模型描述求得权重后再进行加权求和2. DKN模型 模型描述注意力机制本文的数据来自bing新闻的用户点击日志,包含用户id,新闻url,新闻标题,点击与否(0未点击,1点击)。搜集了2016年10月16日到2017年7月11号的数据作为训练集。2017年7月12号到8月11日的数据作为测试集合。使用的知识图谱数据是Microsoft Satori。以下是一些基本的统计数据以及分布。数据集规模如下:2. DKN模型 实验作者使用的评价指标为F1-score和AUC值从

10、表中可以看到,DKN在F1-score和AUC两个指标上,都超过了作为baseline的LibFM,DeepFM等模型。2. DKN模型 实验另外,针对DKN不同的配置,作者也做了对比实验。从表中可以看到,attention机制和知识图谱对效果的提升是明显的2. DKN模型 实验使用实体嵌入向量可以提高几乎所有baseline的效果,KPCNN,DeepWide,YouTubeNet 使用了实体嵌入表示以后分别有1.1%,1.8%,1.1%的提升。除DMF之外的所有神经网络推荐模型在AUC上都超过了LibFM的baseline模型,说明深度学习模型确实适合建模新闻数据中的一些非线性的关系本文提

11、出的DKN模型在AUC指标上超过了次好的模型KPCNN,原因主要是(1)DKN使用多通道的词表示与实体表示来建模标题序列,能更好的建模词和实体之间的关系。(2)DKN使用attention机制,针对不同的候选新闻赋予user历史点击不同的权重,能更好地刻画用户的兴趣。2. DKN模型 总结目 录010203前沿研究概述DKN模型RippleNet模型总结04背景介绍附加信息(side information):在推荐系统研究领域,研究者们为了解决数据稀疏(sparsity)和冷启动(cold start)的问题,一般采取的策略是利用附加信息(side information),例如社交网络(s

12、ocial network)或者物品本身的属性,从而提升推荐的性能。可解释性(interpretable):几乎所有的深度学习模型都是黑盒模型,缺乏可解释性,所以就深度学习而言,可解释性也是如今研究的一大挑战。知识图谱(knowledge graph):作为如今的热门研究实体,可以被用来挖掘丰富的附加信息(side information),并且图谱中的实体连接关系可以提供一定的可解释性(interpretable)。3. RippleNet模型 简介算法选型因为知识图谱可以提供丰富的附加信息和很好地可解释性知识图谱可以很好地解决推荐系统中经常出现的数据稀疏(sparsity)问题和冷启动(c

13、old start)问题。上图可以看成是一个局部的知识图谱,从这个图谱中可以看出,用户看过三部电影,这三部电影有不同的属性,如:题材,演员,导演等,同时不同的属性又根据某种关系关联不同的电影,这时,就可以将这三部电影推荐给用户。具体来说:用户看了Back to the Future,这部电影导演是Robert,Robert又导演了另一部电影Forrest Gump(阿甘正传),所以可以认为用户喜欢Forrest Gump的可能性很高。3. RippleNet模型 简介模型框架模型的输入是用户u和物品v3. RippleNet模型 模型描述模型框架3. RippleNet模型 模型描述模型的输出

14、是用户u喜欢物品v的概率模型框架第一步:从知识图谱中提取三元组,理解为用于协同过滤的附加信息(side information)Q:如何从知识图谱(knowledge graph)中提取三元组?A:如右图是一个简单的示例,就一个用户u而言,假设该用户 u 的历史交互物品为Vu,Vu也是Hop 1中三元组的头结点(h),从Hv节点出发,它的邻居节点即三元组的尾节点(t),头结点和尾节点之间的边是三元组中的关系(r)。 htr一个三元组3. RippleNet模型 模型描述模型框架Hop数加1相当于从 三元组尾节点( t ) 衍生到它的邻居节点,这时候由Hop 1的三元组代替Hop 2中的头结点(

15、h),Hop 2的头结点(h)的邻居节点是Hop 2中三元组中的尾节点 ( t ),如果Hop继续增加,同理可以知道其对应的三元组。3. RippleNet模型 模型描述htr将三元组的头结点(h)和关系(r)做内积之后,经过softmax函数得到对应的概率值pv在得到三元组的头结点(h)的概率值p之后,将该概率p乘以对应三元组的尾节点(t),将用户的所有三元组都进行这样的计算,得到的结果加权平均,得到用户u的向量表达,即embedding。第二步:利用从知识图谱提取的三元组,计算得到每一个Hop对应的用户embedding3. RippleNet模型 模型描述模型框架第三步:将Hop 1 至

16、 Hop H得到的所有的用户embedding累加得到最终的用户embedding3. RippleNet模型 模型描述模型框架第四步:将物品embedding 和 最终的用户embedding做内积,结果即为预测的概率3. RippleNet模型 模型描述模型框架数据集MovieLens-1M:这是一个被广泛使用于电影推荐的公开数据集,共计包含一百万条在Movielens网站上的显式评分(1 to 5)。Book-Crossing数据集:包含1149780条在Book-Crossing社区上的显式评分(0 to 10)。Bing-News数据集:包含1025192条隐式反馈,数据是从2016

17、年10月16日到2017年8月11日的服务器日志中收集得到,每条新闻都有一个标题和一个片段。3. RippleNet模型 实验结果分析上图可以看出,在Movielens数据集上, RippleNet的精确率(Precision)和召回率(Recall)都优于其他的Baseline模型,F1 Score是Precision和Recall的调和平均值,RippleNet在F1这个评价指标上也优于其他的Baseline模型。3. RippleNet模型 实验结果分析上图可以看出,在Book-Crossing数据集上, RippleNet的精确率(Precision)、召回率(Recall)和F1 S

18、core优于其他的Baseline模型。3. RippleNet模型 实验上图可以看出,在Bing-News数据集上, RippleNet的精确率(Precision)、召回率(Recall)和F1 Score优于其他的Baseline模型。3. RippleNet模型 实验结果分析上图可以看出,RippleNet在三个数据集上都有最优的表现,相比于所有的Baseline模型,RippleNet在三个数据集上AUC分别提升了2.0% 40.6%, 2.5% 17.4%, and 2.6% 22.4%。RippleNet在推荐质量上的优越性说明了使用知识图谱作为附加信息(side information)的来源是非常有效的。3. RippleNet模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论