基于知识图谱的推荐算法研究

上传人：策*** IP属地：山西上传时间：2024-03-08 格式：DOCX 页数：111 大小：889.54KB 积分：19.9 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于知识图谱的推荐算法研究ResearchonRecommendationAlgori学位类别：应用统计硕士领域：应用统计学习方式：全日制指导教师：赵玉那 2 4 20 21 21 22 22 23 27 28 29 294.1.1数据来源及⃞述分析 29 40 42 43 43 44 45 摘要随着技术革命和工业变革的加速推进，信息呈现爆炸式的增长。推荐系统的诞生，为信息爆炸问题的解决⃞供了强有力的工具。它仅通过分析用户的历史行为，就可以为推荐系统中，因子分解机等推荐算法对不同特征进行交叉组合，孤立地对待每一用户-物品交互信息，即无法显式地利用用户与用户之间、物品与物品之间隐含的关联。这知识图嵌入部分和推荐部分组成，采用联合训练的方式，将多模态特征输入到下游推荐任务中，预测用户-物品交互概率。多模态知识图嵌入部分旨在获取丰富的特征嵌入，克服特征交叉模型孤立对待样本问题。首先针对结构化知识，本文采用知识图嵌入模型语料库中句子词向量的加权平均数，并以此作为文本知识嵌入特因子分解机模型，它兼具因子分解机模型二阶交叉线性和深度神经网络高阶交叉非线性优势，其特征交叉池化层可以很好地集成多模态知识图嵌入部分生成不同模态数据对推荐结果影响的消融试验以及模型推荐模块的超参数试验。本文采用多模态知识图信息的嵌入在一定程度上⃞升了特征交叉模型的效果，模型的架构具备一定的合理性和可行性，模型对推荐系统性能的⃞升是有效的。IAbstractWiththeaccelerationoploding.Thebirthofrecommendationsystemhasprovidedapowerfultooltosolvetheproblemofinformationexplosion.Itcanpushinformationthatmaybeofinteresttousersjustbyanalysingtheirhistoricalbehaviors,whichhelpsuserssavetimeinfindinginformationIntherecommendationsystem,recommendationalgoricross-combinedifferentfeaturesandtreateachuser-iteminteracttheycannotexplicitlyexploittheimplanditems.ThisresultsinobtainingfeatuTherefore,thisthesisproposesmultimodalknizationmachines(MKGNFM),themodelconsistsofamultimodalknowledgegraphembeddingpartandarecommendationpart,andusesajointtrainingapproachtopredicttheuser-iteminter-actionprobabilitybyfeedingmultimodalfeaturesincometheproblemofisolatedtreatmentofsamplesbyfeatureintersectstructuredknowledge,thisthesisadoptstheknowledgegraphembeddingmodelservesthestructuralinformationintheknowledgegraphwhileobtainingentityandrelatthesisusestheSIFalgembeddingfeatures.Therecommendedpartadoptstheneuralfactorizermvantagesofboththesecond-ordercross-linearityofthefactorizermachineandthehigh-ordmodalfeaturesgeneratedbytheembeddingpartofthemultimodalknowledgegraph.heeffectivenesftherecommendationalgorithmbycombiningtheMovieLensinformationcrawledontheIMDBwebsite.ThecomparisontestbetweenMKGNthebaselinemodel,theablationtestoftheeffectofdifferentmodaldataontherecommendationresults,andthehyperparametertestofthemodelrecommendationmoduleareconductedrespec-hattheMKGNFMmodelsurpassesthegeneralbfmultimodalknowledgegraphinformationimprovestheeffectofthefeatureintersectionmodeltoacertainextent,thearchitectureofthemodelhascertainrationalityandfiseffectiveinimprovingtheperformanceoftherecommendationsystem.Keywords:recommendersystems;know第一章绪论1.1研究背景⃞意义服务平台越来越多，其所⃞供的服务种类也层出不穷，对于身处“村落”中的普通用户而言，这种爆炸式的信息是过载的，无法轻而易举消化掉的。另一方面，由于互联网彼端的人们都是独立的个体，其性格、背景、人生经历等各不相同，导致所关注的兴趣点也千差万别，⃞供定制化的服务变得尤为困难。一定程度上来说，爆炸式的信息增长阻碍了互联网经济的发展。为解决以上问题，很多方案被⃞出，人们试图采用算法对多模态信息（图片、文字、声音等）进行自动化的处理分析来攻克信息爆炸式增长带来的阻碍，由此也推动了机器学习、深度学习等领域的发展，催生了搜索引擎和推荐系统两大强有力的工具。用户通过在搜索引擎中键入关键词，就可以快速找到与自身需求相关的信息，但是，当缺乏用户主动⃞供关键词这一行为时，搜索引擎就无法为用户主动地ᨀ搜索引擎与推荐系统的共通之处在于，两者都可以帮助用户快速地发现有效信息。不同之处在于，推荐系统不需要用户给予它明确的关键词，仅仅需要获得用户的历史行为数据并以此建立用户个性化兴趣模型，就可以主动地为用户推荐可能有需求或者感兴在推荐系统中，最经典的算法是协同过滤算法(CollaborativeFiltering,够较好地处理比较复杂的结构化三元组数据，因此常被作为基线模型应用于推荐系统领域，如书籍推荐、商品推荐等。然而随着时代的快速发展，信息加速膨胀，协同过滤算法就显得有些捉襟见肘。如在电影推荐中，由于电影行业的飞速发展，今时今日已经有了上百万的电影，对于一个用户而言一辈子是万万看不完的，这就会直接导致在用户评1分矩阵中存在大量的缺失，电影推荐任务变得艰巨。另外，协同过滤算法仅考虑了用户的历史行为信息，忽略了电影详细信息对用户兴趣偏好的影响，大大降低了推荐系统的为了解决以上问题，本文⃞出基于多模态知识图嵌入的神经因子分解机(MultimodalKnowledgeGraphEmbeddingBasedNeuralFactorizat态知识图嵌入与下游推荐任务相结合。首先对知识图谱中的结构化知识使用Hole(Holo-graphicEmbeddings)从异构知识图网络中捕平滑反频率(SmoothInvers为句子向量表示文本特征，应用NFM(NeuralFac成结构化知识和非结构化文本知识这两种模态的信息，最后对用户与物品的交互概率做当今世界是信息爆炸的时代，实现快速ᨀ取有效信息对个人和企业而言都意义重大。推荐系统作为新时代的一大工具，为解决信息过载问题⃞供了不错的方领域，对使用端的用户而言，经过优化的推荐算法可以从纷繁复杂的物品信息中抽取出对⃞供推荐服务的企业而言，通过对用户兴趣的深度挖掘，可以为用户⃞供“个性化”的专属推荐服务，继而⃞高平台用户的满意度，实现企业效益上的增长。本文⃞出的推交互信息以及物品的详细信息，当给出一件物品详细信息时，本文⃞出的模型可以输出更加可靠的用户-物品交互概率，概率大证明用户极有可能对该物品感兴趣，可以将该物2本文一方面考虑到特征交叉在推荐系统领域的重要性，另一方面将多模态知识图信息与推荐任务相结合，如在电影推荐系统中，除了具有结构化知识，如“郭帆(entity)→前查看电影的简介，因此将电影简介这样的非结构化文本知识也加入到整个推荐环节中识，Glove+SIFᨀ取非结构化的文本知识，基于NFM模型的特征交叉池化层集成多模态信息，多模态知识图嵌入为下游的NFM模型⃞供了更好的实体嵌入，进而ᨀ升推荐模型化的服务，自这一概念于上世纪90年代⃞出以来[1]，受到了工业界的广泛关注。二十多前期推荐系统的主要设计思路集中为三种方案[2]，其一是基于内容的过滤方法[3]，即在物品或内容的原始数据基础上，计算物品或内容的相关性，接着基于用户历史感兴趣的物品或内容，将与其最为相似的物品或内容推荐给用户；所谓类聚群分，该方法不考虑用户或物品自身的属性信息，主要依赖对用户历史行为信息（浏览、评分、下载等）的分析，将与其类似用户的选择推荐给用户。其三是混合方法，即集合以上两种方法的优点，充分利用所有可用信息，目的在于减少乃至克服基于推荐系统领域构造的特征大多由多个特征域拼合而成，如用户ID、用户性别特征域（男、女、未知）等，此外输入特征大多是高维稀疏的，如何对特征进行交叉是推荐算法中的一个重要环节，如用户喜欢带有探案元素的电视剧，也喜欢演员卷福（迪克特·康3伯巴奇将以上两个特征进行交叉，可以得到该用户可能会观看英剧《神探夏洛克》。Rendle[5]⃞出了因子分解机(FactorizationMachine,FM)模型，在逻辑回归的基础之上引入络的因子分解机(FactorizationMachineSupportedNeural度神经网络(DeepNeuralNetwouct-basedNeuralNetwork,PNN)模型，不再使用FM预训练得到向量，而是对每个特征的倾向于⃞取高阶特征交叉，对低阶特征交叉ᨀ取较少。Guo等人[8]⃞出深度因子分解机作为一种知识表示方法被⃞出，此外“本体”这一哲学概念在二十世纪八十年代被引入，如今，知识图谱被应用于多个领域，如搜索引擎、推荐系统等。其中知识图谱结合推荐系统可以充分利用用户和物品的属性信息，捕获其中的潜在信息的同时保留其间的图结构信息，从而⃞升推荐算法的挖掘能力，稀疏带来的损失。主流的将知识图谱引入推荐系统的方式有以下两种：第一种是基于嵌入的方法，如Rendle[9]⃞出的LibFM(FactorizationMachine4(PersonalizedEntityRecommendation)和Zhao等人[11]⃞出的人[12]⃞出的CKE(CollaborativeKnowledgebaseEmbedding)模型用不同的编码方式⃞取结构化知识、文本知识和图像知识的特征嵌入，将⃞取到的特征融合到协同过滤中，试验第一章首先介绍推荐系统的研究背景，并⃞出当前推荐系统领域所存在的问题，随后阐明本文研究方法的现实意义及理论意义。最后，总结性的介绍本文的内容安排，说第二章对本文的相关理论进行综述，首先介绍推荐系统的任务，接着详细介绍了传统推荐算法和基于因子分解机的推荐算法，最后介绍词嵌入和知识图谱中常见的图嵌入第三章详细介绍将多模态知识图嵌入与以特征交叉为基础的推荐模型相结合的具体型将两个模态的信息通过其特征交叉池化层进行组合优化，预测用户与物品之间的交互第四章对本文⃞出的模型架构进行试验研究，首先选取MovieLens-1M数据集与型训练和模型评估五部分详细说明了试验的具体设计，最后进行本文⃞出的模型与另外三种基线模型的对比试验、不同模态数据对推荐结果影响的消融试验以及模型推荐模块5第五章首先对本文研究内容进行总结，重述多模态知识图与以特征交叉为基础的推接着利用SIF求出句子词向量的加权平均数，从而得到句向文将两种模态的数据与下游推荐任务相结合，为下游推荐模型⃞供更好的实体嵌入，进（2）考虑到特征交叉在推荐系统领域的重要性，采用NFM模型作为下游推荐任务（3）本试验基于真实数据集，进行了本文⃞出的模型与三种基线模型的对比试验、不同模态数据对推荐结果影响的消融试验以及模型推荐模块的超参数试验，深入研究框9第二章相关理论综述2.1推荐系统的任务判断用户是否喜欢该图书，若喜欢则向用户推送该类型的图书。此时，用户的反馈信息一定程度上表明了用户对物品的喜爱度，该类反馈信息可以被称为显式反馈(ExplicitFeedback);第二类是点击率预测(Click-throughRate中，应用程序需要预测用户查看某条新闻的可能性，进而对推荐系统进行优化。此时，用户的反馈信息无法表明用户对该则新闻的兴趣程度，仅可以代表用户是否点击的行为特征，在这种情况下的信息可以称为隐式反馈(ImplicitFee2.2传统推荐算法传统的推荐算法主要包括基于协同过滤的推荐算法、基于内容的推荐算法以及混合推荐算法。其中，根据核心思路的不同，第一类算法又可以被划分为基于用户的协同过2.2.1基于协同过滤的推荐算法基于协同过滤的推荐算法主要用于预测和推荐。比如在书籍推荐中，该算法首先通过探索用户的历史图书评分记录，挖掘出该用户的阅读倾向，接着基于用户的阅读倾向对众多用户进行聚类，最后为其推荐可能感兴趣的图书。基于协同过滤的推荐算法包括基于用户的协同过滤算法(UserCF)和基于物品的协同过滤收集用户偏好信息是得到一个好的推荐系统最基础的决定性因素。一般情况下，⃞7,N(u),N(u)八N(v)N(u)N(v)经过第一步的处理后，首先根据用户的偏好计算与该用户相似的用户以及物品，接着基于两者之一为其进行个性化推荐。此过程中涉及到相似度的计算方法。设有两名用户u和v，对他们有过正反馈的物品集合用N(u)和N(v)分别进行表示。常用的两种 N(u)八NN(u)N(v)uvuv基于前两步得到的相邻用户或相邻物品的相似度矩阵，可以为用户进行个性化的推荐。基于用户的协同过滤算法的基础思想是：先通过用户的不同偏好找到与其相似的人，之后,再将这些用户所感兴趣的物品推荐给该用户。这种算法体现在计算程序中，即首先得到用户的物品偏好向量，接着两两匹配，最后得到用户之间的相似度矩阵，利用这个矩阵可以找出和目标用户相似度最大的K个邻居，剔除掉目标用户涉及过的物品，从邻好物品A和B,有理由⃞出在给用户A介绍物品时可以依据用户B的喜好，给用户A介绍8类似地，基于物品的协同过滤算法的基本理念为根据用户对物品的历史喜好找到与之相似度较高的物品，接着将相似度高的物品推荐给用户。反映到计算上，我们可以把每个人对事物的偏好程度当作一种向量，由此得出事物之间的相似度矩阵，通过该矩阵能够找出和该事物相似度权值最大的事物，再通过排除目标用户涉及过的物品，最后得欢物品A,则可以推出用户A或许会喜欢物品D.9用于用户少的情形，用户太多时用户用户相似度矩阵每隔一段时间离线计算一次，新物品上线一段时间后可以新用户只要对某一物品感兴趣，就可以推难以⃞供令人信服的推荐解释2.2.2基于内容的推荐算法基于内容的推荐算法即通过计算用户未接触过的物品与其历史感兴趣物品间的相似度，将相似程度高的物品推荐给该用户。比如在电影推荐中（3）生成推荐列表：基于候选物品表示和用户偏好，生成用户最可能感兴趣的n个基于内容的推荐算法具有模型简单、通用性强的优点，但由于都是基于用户的喜好为了减少甚至克服基于协同过滤算法所面临的“冷启动”问题以及基于内容的推荐算法所面临的“缺少新颖度”问题，混合推荐算法将多种算法进行融合，采大家之长。目前，工业界也大都采用融合多种推荐算法的混合推荐算法。常见的模型混合方式如表通过一些方法补足缺失特征，并将其嵌入到另一种推荐方法的特在实际应用中，应采用合适的混合方式应对特定的场景，进而ᨀ升精确度，得到一2.3基于因子分解机的推荐算法量以二进制向量的形式进行表示，若某样本具有三个特征：性别、职业和星期，用[Gender=Female,Occupation=Student,Weekday=Monday]进行表示，其o2.3.1二阶特征交⃞模型和xj(xj)之间是相互孤立的，即(x)中仅考虑了单个特征分量，未考虑特征分量之间的相互关系。在1wijxixj.（2-4）虽然考虑了任意两个互异特征分量之间的关系，但是若出现未出现过的交互特征分量，则不能够对相应的参数进行估计。而这种情况在高维稀疏的场景中是十分普遍的。1其中kN+为超参数，并将jilvjl,vvj)xixj.（2-7）2.3.2高阶特征交⃞模型2eRL,z1,...,zi,...,zn),n为领域的数zi00Qu等人⃞出PNN模型，不再使用FM预训练得到向量在多层神经网络之上加入有特征性的特征交叉操作，使得模型具备更加优越的非线性表达能力。但是此种思路几乎在此之后无法进一步的发展，更多的推荐算法模型向融入更2.4Embedding技术Embedding指用低维稠密向量表示相应对象的某些特征。此外，距离相近的Embed-Embedding技术开始于自然语言处理领域对词向量本以词向量来表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间前者将一个词语作为输入，预测该词语周围的上下文，后者将一个词语的上下文作为输以CBOW模型为例，输入层由one-hot编码的{x1,x2,...,xc}组成，词V,隐藏层为N维的向量，输出层为被one-hot编码的输出单词y.输入向量通过一个VXN维的权重矩阵W连接到隐藏层；隐藏层通过一个NXV的权重矩阵W'c1xi.c.h.jwj连接到输=Σj互联网环境中大部分数据对象之间以图结构的方式存在，如用户与物品间的关系以及以属性和实体组成的知识图谱。普通的Embedding技术自然无法应对图结构类型数据，由此产生了图嵌入(GraphEmbedding)技术。本文着重介绍其中的知识图嵌入知识图谱由大量的事实三元组组成，如在电影推荐系统中流浪地球2,导演,郭帆）翻译模型将关系当作头、尾实体之间的翻译。和距离模型一样，翻译模型使用基于TransH将头实体h和尾实体t投影到关系r所在的超平面，定义评分函数为r属语义匹配模型基于相似性的评分函数，通过匹配实体的潜在语义和向量空间表示中RESCAL模型又称为双线性模型，其一般通过张量分解完成。它将关系r建模为矩fr(h,t)=hTMrt=mhitj.（2-16）虽然RESCAL模型使实体和关系信息进行了深层次交互，但是容易发生过拟合。此的限制，即利用对角矩阵来表示关系矩阵Mr,并定义损失函数为fr(h,t)=hTdiag(Mr)t.但是由于DisMult模型对关系矩阵的过分简化2.5基于知识图谱特征学习的推荐系统知识图谱包含了物品更多的语义关系以及不同种类的关系链接，此外，它将用户的历史行为记录与推荐结果连接起来。因此，将知识图谱引入推荐系统可以充分利用知识图谱的精确性、多样性以及可解释性优势。从模型结构的角度看，知识图谱结合推荐系实体和关系向量作为特征引入到传统的推荐算法中计算，进而得到用户和物品的向量。典型的采用依次学习方法的推荐模型有DKN(DeepKnowledge-a并使用多任务学习框架交替地训练两者。典型的采用交替学习方法的推荐模型有MKR(Multi-taskLearningforKGenhancedRecommendati本章首先介绍了推荐系统的两种任务，列举了三类传统推荐算法并详细说明了算法的思想，然后讨论特征交叉的重要性并介绍了几种基于因子分解机的推荐算法的思路，接着对Embedding技术在词嵌入及知识图嵌入方面的经典方法进行了详细介绍，最后介第三章基于多模态知识图嵌入的神经因子分解机由于在推荐系统中，多对特征域采用向量表示法，即将一个用户与一个物品间的交交叉将不同特征进行交叉组合，对于推断用户兴趣有着重大作用，若一名用户喜欢看吴推荐模型，这类模型无一例外的都是先将高维稀疏向量输入模型中进行低维嵌入，接着通过不同的特征交叉网络架构输出最终的预测目标。这类模型虽然一定程度上学习了特征之间的交叉关系，但是在建模过程中大多是对相对孤立的实例进行的，没有办法显式22i2是同系列作品，孤立地对待用户与物品之间交互信息的情况下获取的嵌入是欠妥的，不足以取得更好的模型效果，也没有办法将冷门物品推荐给用户，而在推荐情景下，数据大多以图结些推荐模型虽然也将图结构信息考虑了进去，但是这些模型大多仅考虑了结构化知识，没有考虑到非结构化的文本知识，如在电影推荐中，用户除了会关注电影的演员、导演等信息，还会阅读该电影的简介。同时考虑多模态信息，可以为下游推荐任务⃞供更好本文同时兼顾多模态信息嵌入与特征交叉，利用知识图嵌入技术捕获结构化知识三元组信息中的实体和关系嵌入，这在一定程度上保留了原始的图结构信息，运用词嵌入方法获取文本知识中的文本特征，将多模态知识图与以特征交叉为基础的推荐算法相结3.2相关模型与方法本文⃞出基于多模态知识图嵌入的神经因子分解机(NeuralFactorizationMachinesBasedonMultimodalKnowledgeGraphEmbedding,MKGNFM).模型主要由多模态知识图嵌入和推荐模块组成，其中多模态知识图嵌入部分由结构化知识的嵌入和非结构化的文本3.2.1MKGNFM算法框架机，模型主要由多模态知识图嵌入部分和推荐部分两个模块组成。多模态知识图嵌入部分分别以不同的编码方式处理结构化知识和非结构化的文本知识，前者采用Hole算法ᨀ法求出句子词向量的加权平均数，并以此作为句子向量来表示文本特征。推荐部分以多多模态知识图嵌入部分主要学习不同模态的数据嵌入方式，一种是对结构化知识的嵌入，另一种是对非结构化文本知识的特征嵌入。以下分别详细介绍这两种嵌入方式的对于结构化知识的嵌入，采用知识图嵌入方法即将实体和关系嵌入到连续的向量空有实体和关系的低秩表示[24]。知识图嵌入模型一般包括三个步骤：首先将实体和关系在连续向量空间中表示并初始化为随机值，接着依据模型的评分函数测量两实体相对于关系的距离，最后将输出损失传递给优化器，以更新初始嵌入。优化程序的目标是为积极的样本分配更高的分数，而为不太可能的样本分配较低的分数。RESCAL模型虽然在多关系数据集上表现的很好，但是计算复杂度太高。为了⃞高RESCAL模型的效率，⃞出Hole利用了一种叫做“循环关联”的操作来生成组合表示，其类似于联合储存中的P.“循环关联”操作可以带来以下优点，一是不同于乘或卷积操作，循环关联不具有由于结构化数据只是一种模态的数据，因此将非结构化的文本知识也加入到下游推Glove模型[25]和word2vec模型一样是一种无监成词向量的方式是基于共现矩阵分解的方法。假设共现矩阵为X,xi表示词i,Xij表示共现的信息状态，使用上下文信息进行建模，当两个词出现在语料库中相似的上下文位j2 阵X行、列的偏移值。J的计算复杂度随着共现矩阵式中P(k|j)为单词j、k共现概率。向量是决定该句子的话题向量ct的最大后验概率估计。同时，由于在一句话中话题向量ct的改变很小即一个句子中的话题相对固定，因此ssscs正交。第1项ap(w)对应假设1,p(w)表示单词在整个语料集中出现的频率，a为常量，允许单词的概率极小，但仍以ap(w)的概率出zcszcscs,vwweVs根据泰勒展开，有wss句向量vs是以a/(a+p(w))为权重的词向量的加权平均，根据单词频率p(w)的3.2.3推荐部分i（2）特征交叉池化层：该层是NFM模型的核心亮点，它考虑到了二阶特征组合，使得输入的表示包含更多的信息，极大的⃞高了后面隐藏层学习高阶非线性组合特征的fBI(Vx)=1xivixjvj,z1)z2zLf(x)=pTzL,（3-18）3.3本章小结征交叉的推荐模型和知识图嵌入技术出发，分析了两者的优缺点，⃞出知识图嵌入结合特征交叉的思路，用知识图谱解决特征交叉时样本孤立的问题，以获得更好的嵌入，此外，本文⃞出的模型还将文本知识引入推荐模块的初始输入中，将多模态知识图信息一同作为输入信息，为下游的推荐任务⃞供更好的嵌入。接着具体阐述基于多模态知识图第四章MKGNFM模型的试验分析4.1.1数据来源及描述分析评分，用户属性信息以及电影属性构成，试验主要基于用户评分和电影属性进行分析，UserID电影属性数据集中所包含的电影题材共计18种（Action、Adventure、Animation、计数0IIIIIIIGenres可见当用户在观看纪录片题材（Documentary）影片的情况下，对该题材的影片满意度更headname1Acowboydollisprofoundlythreatenedandjealouswhenanewspacemanfiguresupplantshimas2Whentwokidsfindandplayamagicalboardgame,theyreleamantrappedinitfordecades--andahostofdangersthatcanbestoppedbyfinishingtheJohnandMaxresolvetosavetheirbelovedbaitshopfromtur3intoanItalianrestaurant,justasitsnewfemaleownercatchBasedonTerryMcMillan'snovel,thisfilmfollowsfourverydif-4ferentAfrican-Americanwomenandtheirrelationshipswmalegender.5FatheroftheBridePartIIGeorgeBanksmustdealnotonlywiththepregnancyofhisdaugh-ter,butalsowiththeunexpectedpregnancyofhiswife.4.2试验的具体设计由于本文所考虑的推荐任务是针对隐性反馈的，因此需要对显式的评分数据进行转的混合。每一条样本对应一个用户和一部电影的用户电影对。对于用户和电影，用户行据用于模型的测试，评估最终模型的泛化能交互、电影-语言交互、电影-题材交互以及电影-综合评分等级交互信息。本文利用Hole算法生成结构化知识头实体和尾实体的特征嵌入,与此同时计算知识图嵌入的平均损失，进而衡量嵌入效果。具体地，调用ampligraph.latent_features模块中的知识图嵌入模型pairwiseregularizerregularizer_params每条简介进行分词、去停用词和去标点符号的操作，接着利用GvecLength 用SIF模型[34]求出句子词向量的加权平均数，从而得到句子向量（在此之后进行归）；将特征生成阶段得到的结构化知识头实体和尾实体的特征嵌入的拼接、文本嵌入特征交互池化层对多模态信息进行组合优化，从而获得最终用户与物品间交互的概率。调binarybinary_crossentropy设定NFM模型任务为二分类任务，用户要么会点击影片要么不会，对应的使用binary_crossentropy作为损失函数，通过最小化损失函数选择最优的模型，损失函数越小，代表模型的预测值和真实值之间的差距越小，模型的拟合效果越好。选择自适应距估计降算法，该算法可以自动调整学习速率（当学习速率过小时，使学习率增加；反之，使经网络隐藏层个数的设置以及每个隐藏层所包含的神经元数量设置的探索，见4.5.3节的推荐模块超参数试验。在模型的训练阶段设置轮数为20评价指标的平均结果，以消除试验的偶然性，并以评价指标平均结本文对于推荐系统的研究试验都是在离线数据上进行的，评估推荐模型的有效性主要取决于评估指标，不同的评估指标可以从不同角度评价推荐系统(Recall)表示被正确判断的正例数与真实的正例数之比。由于精确率和召回率是相互矛盾的两个指标，要保证精确率就会不可避免的放弃一些不太确定的正样本，从而导致召回一个阈值下通过计算得到的精确率和召回率，在计算时，将模型计算结果大于这一阈值的样本记作正样本，小于这一阈值的样本记作负样本。不断地改变阈值就会得到一个点，所有的点连接起来就构成了曲线。得到P-R曲线后，曲线下的面积(AreaUnderCurve,受试者工作特征曲线(ReceiverOperatingCharacteristic,ROC)的横坐标为假阳性率(FalsePositiveRate,FPR),纵坐标为真阳性率(TruePosiNP正确判断的正例数，FP表示N个负样本中被错误判断为的正ROC曲线的优点在于：在实际的数据本文模型将多模态知识图与特征交叉推荐模型相结合，因此分别选取了基于特征交NFM✘✘✔✘✘✔兼顾了二阶特征交叉线性和高阶特征交叉非线性的优势，本文基于N池化层集成结构化知识和文本知识两种模态信息，对用户与物品间的交互概率进行预测。CKE:模型将协同过滤与结构化知识、文本知识、图像知识三种模态的信息统一在一RippleNet:模型模拟了用户兴趣在知识图谱上的传播过程，充分利用知识图谱结构信息，挖掘符合用户偏好的潜在信息。本文利用知识图嵌入技术获取结构化信息的实体及4.5试验结果与分析NFM（1）MKGNFM在Movielens-1M数据集中表现优异，相比于单纯基于特征交叉的NFM模型有所进步。这证明在引入多模态信息的情况下，可以ᨀ升特征交叉模型的推荐知识与以特征交叉为基础的推荐模型结合在一起，模型效果更加好，表明特征交叉在推（3）引入了知识图信息的模型效果均优于单纯的特征交叉模型，表明进行知识图嵌入，可以为下游推荐任务⃞供更好的嵌入，⃞升模型性能。此外考虑了物品的文本知识。为了验证引入多模态信息有助于⃞升特征交叉推荐模型的（1）MKGNFM-a:仅保留物品的属性信息，不考虑图结构信息和文本知识，相当于（2）MKGNFM-b:考虑物品属性信息的同时保留图结构信息，但是不考虑非结构化（3）MKGNFM-c:多模态信息输入，考虑物品属性特征的同时，充分保留其间的图时，模型的效果最佳。仅考虑物品属性信息时，受特征交叉模型孤立对待每一样本和物受益于获得了额外的结构信息，进而缓解了特征交叉孤立对待每一样本的问题，⃞高了神经因子交叉模型的特征交叉池化层组合优化两种模态信息，使得模型推荐效果获得了更进一步的⃞升。较第二种试验设置情况，对模型效果的⃞升虽然没有特别明显，但是4.5.3推荐模块超参数试验本部分试验研究在结构化知识与文本知识特征嵌入之后，对推荐模块的超参数进行一般来说，随着隐藏层数量的增加，模型捕获高阶特征交互的能力越强。但试验表12首先将隐藏层的层数设置为两层，接着研究本章从试验的角度，分析探讨本文⃞出的MKGNFM模型对于⃞升推荐模型CTR预本章详细介绍了试验的具体设计，从数据预处理、数据集划分、特征生成、模型训练和模型评估五个部分展开说明。其中数据预处理部分设定阈值，将显式的用户评分数验证集、测试集。特征生成部分对结构化知识和非结构化知识进行分别处理。调用am-pligraph.latent_feature模型获得结构化知识嵌入。对从IMDB网站爬取的电影简介语料进行预处理，将处理好子词向量的加权平均数，进而得到句子词向量，调用sklearn.preprocessing模块的向量进行降维处理后再次进行归一化，得到最终的文本知识嵌入。模型训练部分，调用知识嵌入和文本知识嵌入作为推荐模型的输入，通过NFM模型的特征交互验；根据不同模态数据对本文⃞出模型的影响进行消融试验；对MKGNFM模型的推荐模第五章总结与展望随着信息技术的发展，信息呈现爆炸式的增长，推荐系统成为解决这一问题的一个不错的方案。本文工作都是围绕获取更优质的特征嵌入，解决物品冷启动问题展开的，本文首先介绍了推荐系统和知识图谱的研究背景和发展历程，阐述了几种传统的推接着为了在保留特征交叉模型捕获高阶特征组合优势的同时，解决特征交叉过程中孤立对待每个用户-物品交互样本的问题，引入多模态知识图，利用多模态信息捕获用户-物品隐含信息，获取更好的嵌入特征。本文将多模态知识图与基于特征交叉的推荐算法相结合，⃞出了基于多模态知识图的神经网络因子分解机模型，该模型由多模态知识图嵌入模块和推荐模块两部分组成，多模态知识图嵌入模块利用Hole算法抽取结构化知识下游的推荐模型⃞供了更好的特征嵌入，从而⃞升下游推荐模块推荐模型的效果。推荐模块采用NFM模型的特征交互池化层集合两种模态信息，并对用户与物品种基线模型(NFM、CKE、RippleNet)进行对比，分别得到各个模型评价指和PR-AUC的指标值，试验表明，本文所ᨀ出的模型相较于基线算法有明显的⃞升。接着根据不同模态数据对本文⃞出模型的影响进行消融试验，证明本文⃞出模型组成模块的合理性。最后对推荐模块的超参数进行探索，得到推荐模型的最佳超参数。试验证明（1）将知识图嵌入部分使用的Hole换做图神经网络，可以更好的还存在图像、音频等，如果将这些信息考虑进模型中，将获得更加完备的知识图谱，这（3）本文仅在MovieLens-1M数据集上进行了研究，还可以将研究推广到图书、音参考文献RecommenderSystemsforLearning:tion[C].ProceedingsofACMConferenceonDigitalLibraries,2000[4]JSBreese,DHeckerman,CKadie.EmpiricalAnalysisofPredictiveAlgorativeFiltering[C].Proceeding[5]SRendle.FactorizationMachines[C].InProceedingsof2010IEEEInternati[6]WZhang,TDu,JWaofEuropeanConferenceonInformationRetr[8]HGuo,RTang,YYe,ZLi,XHe.DeepFM:AFactorization-MachineBasforCTRPrediction[C].InProceedingsofthe26thInternationalJointConferenceonArtiRecommendation:AHeterogeneousInformationNetwork7thACMInternationa[11]HZhao,QYao,JLi,YSong,DLLeerogeneousInformationNetworks[C].InProceedingsofthe23tionalConferenceonKnowledgeDis

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于知识图谱的推荐算法研究

文档简介

温馨提示

最新文档

评论

基于知识图谱的推荐算法研究

文档简介

温馨提示

最新文档

评论

相关文档