![Chapter11-林子雨-大数据技术原理与应用-大数据在互联网领域的应用(年1月29日版本)32_第1页](http://file4.renrendoc.com/view/a1436960ff8673aad1cdf979bed91312/a1436960ff8673aad1cdf979bed913121.gif)
![Chapter11-林子雨-大数据技术原理与应用-大数据在互联网领域的应用(年1月29日版本)32_第2页](http://file4.renrendoc.com/view/a1436960ff8673aad1cdf979bed91312/a1436960ff8673aad1cdf979bed913122.gif)
![Chapter11-林子雨-大数据技术原理与应用-大数据在互联网领域的应用(年1月29日版本)32_第3页](http://file4.renrendoc.com/view/a1436960ff8673aad1cdf979bed91312/a1436960ff8673aad1cdf979bed913123.gif)
![Chapter11-林子雨-大数据技术原理与应用-大数据在互联网领域的应用(年1月29日版本)32_第4页](http://file4.renrendoc.com/view/a1436960ff8673aad1cdf979bed91312/a1436960ff8673aad1cdf979bed913124.gif)
![Chapter11-林子雨-大数据技术原理与应用-大数据在互联网领域的应用(年1月29日版本)32_第5页](http://file4.renrendoc.com/view/a1436960ff8673aad1cdf979bed91312/a1436960ff8673aad1cdf979bed913125.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、厦门大学计算机科学系 2016年版第11章 大数据在互联网领域的应用 (PPT版本号:2016年1月29日版本) 大数据技术原理与应用/post/bigdata温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字提纲11.1推荐系统统概述11.2推荐算法法协同过滤滤11.3协同过滤滤实践电影推荐荐系统欢迎访问问大数据技技术原理理与应用用教材官方方网站:http:/dblab./post/bigdata本PPT是如下教教材的配配套讲义义:21世纪高等等教育计计算机规规划教材材大数据技技术原理理与应用用概念、存存储、处处理、分分析与应应用(2015年6月第1版)厦门大学学 林子子雨编编
2、著,人人民邮电电出版社社ISBN:978-7-115-39287-911.1推荐荐系统概概述11.1.1什么是推推荐系统统11.1.2长尾理论论11.1.3推荐方法法11.1.4推荐系统统模型11.1.5推荐系统统的应用用11.1.1什什么是是推荐系系统互联网的的飞速发发展使我我们进入入了信息息过载的的时代,搜索引引擎可以以帮助我我们查找找内容,但只能能解决明明确的需需求为了让用用户从海海量信息息中高效效地获得得自己所所需的信信息,推推荐系统统应运而而生。推推荐系统统是大数数据在互互联网领领域的典典型应用用,它可可以通过过分析用用户的历历史记录录来了解解用户的的喜好,从而主主动为用用户推荐荐其
3、感兴兴趣的信信息,满满足用户户的个性性化推荐荐需求“长尾”概念于于2004年提出,用来描描述以亚亚马逊为为代表的的电子商商务网站站的商业业和经济济模式电子商务务网站销销售种类类繁多,虽然绝绝大多数数商品都都不热门门,但这这些不热热门的商商品总数数量极其其庞大,所累计计的总销销售额将将是一个个可观的的数字,也许会会超过热热门商品品所带来来的销售售额因此,可可以通过过发掘长长尾商品品并推荐荐给感兴兴趣的用用户来提提高销售售额。这这需要通通过个性性化推荐荐来实现现11.1.2长长尾理理论热门推荐荐是常用的的推荐方方式,广泛应用用于各类网站站中,如热门排行行榜。但热门推荐荐的主要要缺陷在在于推荐荐的范
4、围围有限,所推荐荐的内容容在一定定时期内内也相对对固定个性化推推荐可通通过推荐系统统来实现。推荐系系统通过发掘掘用户的的行为记记录,找找到用户户的个性性化需求求,发现现用户潜潜在的消消费倾向向,从而而将长尾尾商品准准确地推推荐给需需要它的的用户,进而提升升销量,实现用户户与商家家的双赢赢11.1.2长长尾理理论推荐系统统的本质质是建立立用户与与物品的的联系,根据推推荐算法法的不同同,推荐荐方法包包括如下下几类:专家推荐荐:人工工推荐,由资深深的专业业人士来来进行物物品的筛筛选和推推荐,需需要较多多的人力力成本基于统计计的推荐荐:基于于统计信信息的推推荐(如如热门推推荐),易于实实现,但但对用户
5、户个性化化偏好的的描述能能力较弱弱基于内容容的推荐荐:通过过机器学学习的方方法去描描述内容容的特征征,并基基于内容容的特征征来发现现与之相相似的内内容协同过滤滤推荐:应用最最早和最最为成功功的推荐方法法之一,利用与目标用户户相似的用户已有的商品评价价信息,来预测测目标用用户对特特定商品品的喜好好程度混合推荐荐:结合多种推荐荐算法来提升推推荐效果果11.1.3推推荐方方法一个完整整的推荐荐系统通通常包括括3个组成模模块:用用户建模模模块、推荐对对象建模模模块、推荐算算法模块块:用户建模模模块:对用户进进行建模模,根据据用户行行为数据据和用户户属性数数据来分分析用户户的兴趣趣和需求求推荐对象象建模
6、模模块:根根据对象象数据对推荐对对象进行行建模推荐算法法模块:基于用户户特征和和物品特特征,采采用推荐荐算法计计算得到到用户可可能感兴兴趣的对对象,并根据推荐荐场景对对推荐结结果进行行一定调整,将将推荐结结果最终展示给用用户11.1.4推推荐系系统模型型图11-1推推荐系统统基本架架构目前在推推荐系统统已广泛泛应用于于电子商商务、在在线视频频、在线线音乐、社交网网络等各各类网站站和应用用中如亚马逊逊网站利利用用户户的浏览览历史记记录来为为用户推推荐商品品,推荐荐的主要要是用户户未浏览览过,但但可能感感兴趣、有潜在在购买可可能性的的商品11.1.5推推荐系系统的应应用图11-2亚马逊网网站根据据
7、用户的的浏览记记录来推推荐商品品推荐系统统在在线线音乐应应用中也也逐渐发发挥作用用。音乐乐相比于于电影数数量更为为庞大,个人口口味偏向向也更为为明显,仅依靠靠热门推推荐是远远远不够够的虾米音乐乐网根据据用户的的音乐收收藏记录录来分析析用户的的音乐偏偏好,以以进行推推荐。例例如,推推荐同一一风格的的歌曲,或是推推荐同一一歌手的的其他歌歌曲11.1.5推推荐系系统的应应用图11-3虾虾米音乐乐网根据据用户的的音乐收收藏来推推荐歌曲曲推荐技术术从被提提出到现现在已有有十余年年,在多多年的发发展历程程中诞生生了很多多新的推推荐算法法。协同同过滤作作为最早早、最知知名的推推荐算法法,不仅仅在学术术界得到
8、到了深入入研究,而且至至今在业业界仍有有广泛的的应用协同过滤滤可分为为基于用用户的协协同过滤滤和基于于物品的的协同过过滤11.2.1基于用户户的协同同过滤(UserCF)11.2.2基于物品品的协同同过滤(ItemCF)11.2.3UserCF算法和ItemCF算法的对对比11.2 协同同过滤基于用户户的协同同过滤算算法(简简称UserCF算法)在在1992年被提出出,是推荐系系统中最最古老的的算法UserCF算法符合合人们对对于“趣趣味相投投”的认认知,即即兴趣相相似的用用户往往往有相同同的物品品喜好:当目标用用户需要要个性化化推荐时时,可以以先找到到和目标标用户有有相似兴兴趣的用用户群体体
9、,然后后将这个个用户群群体喜欢欢的、而而目标用用户没有有听说过过的物品品推荐给给目标用用户UserCF算法的实实现主要要包括两两个步骤骤:第一步:找到和和目标用用户兴趣趣相似的的用户集集合第二步:找到该该集合中中的用户户所喜欢欢的、且且目标用用户没有有听说过过的物品品推荐给给目标用用户11.2.1基基于用用户的协协同过滤滤(UserCF)11.2.1基基于用用户的协协同过滤滤(UserCF)图11-4基于用户户的协同同过滤(User CF)实现UserCF算法的关关键步骤骤是计算算用户与与用户之之间的兴兴趣相似似度。目目前较多多使用的的相似度度算法有:泊松相关关系数(PersonCorrela
10、tionCoefficient)余弦相似似度(Cosine-basedSimilarity)调整余弦弦相似度度(AdjustedCosineSimilarity)给定用户户u和用户v,令N(u)表示用户户u感兴趣的的物品集集合,令令N(v)为用户v感兴趣的的物品集集合,则则使用余余弦相似似度进行行计算用用户相似似度的公公式为:11.2.1基基于用用户的协协同过滤滤(UserCF)由于很多多用户相相互之间间并没有有对同样样的物品品产生过过行为,因此其其相似度度公式的的分子为为0,相似度度也为0我们可以利用用物品到到用户的的倒排表表(每个个物品所所对应的的、对该该物品感感兴趣的的用户列列表),仅对
11、有有对相同同物品产产生交互互行为的的用户进进行计算算11.2.1基基于用用户的协协同过滤滤(UserCF)图11-5物品到用用户倒排排表及用用户相似似度矩阵阵得到用户户间的相相似度后后,再使使用如下下公式来来度量用用户u对物品i的兴趣程程度Pui:其中,S(u,K)是和用户户u兴趣最接接近的K个用户的的集合,N(i)是喜欢物物品i的用户集集合,Wuv是用户u和用户v的相似度度,rvi是隐反馈馈信息,代表用用户v对物品i的感兴趣趣程度,为简化化计算可可令rvi=1对所有物物品计算算Pui后,可以以对Pui进行降序处理理,取前前N个物品作作为推荐荐结果展展示给用用户u(称为Top-N推荐)11.2
12、.1基基于用用户的协协同过滤滤(UserCF)基于物品品的协同同过滤算算法(简简称ItemCF算法)是是目前业业界应用用最多的的算法。无论是是亚马逊逊还是Netflix,其推荐荐系统的的基础都都是ItemCF算法ItemCF算法是给给目标用用户推荐荐那些和和他们之之前喜欢欢的物品品相似的的物品。ItemCF算法主要要通过分分析用户户的行为为记录来来计算物物品之间间的相似似度该算法基基于的假假设是:物品A和物品B具有很大大的相似似度是因因为喜欢欢物品A的用户大大多也喜喜欢物品品B。例如,该算法法会因为为你购买买过数数据挖掘掘导论而给你你推荐机器学学习实战战,因因为买过过数据据挖掘导导论的的用户多
13、多数也购购买了机器学学习实战战11.2.2基基于物物品的协协同过滤滤(ItemCF)11.2.2基基于物物品的协协同过滤滤(ItemCF)图11-6基于物品品的协同同过滤(Item CF)ItemCF算法与UserCF算法类似似,计算也分为两两步:第一步:计算物物品之间间的相似似度;第二步:根据物物品的相相似度和和用户的的历史行行为,给给用户生生成推荐荐列表。ItemCF计算的是是物品相似似度,再再使用如如下公式式来度量量用户u对物品j的兴趣程程度Puj(与UserCF类似):11.2.2基基于物物品的协协同过滤滤(ItemCF)ItemCF算法通过过建立用用户到物物品倒排排表(每每个用户户喜
14、欢的的物品的的列表)来计算算物品相似似度11.2.2基基于物物品的协协同过滤滤(ItemCF)图11-7用户户到物品品倒排表表及物品品相似度度矩阵UserCF算法和ItemCF算法的思思想、计算过过程都相相似两者最主要的的区别:UserCF算法推荐荐的是那那些和目目标用户户有共同同兴趣爱爱好的其其他用户户所喜欢欢的物品品ItemCF算法推荐荐的是那些和目目标用户户之前喜喜欢的物物品类似似的其他他物品UserCF算法的推推荐更偏偏向社会会化,而而ItemCF算法的推推荐更偏偏向于个个性化11.2.3UserCF算法和和ItemCF算法的的对比UserCF算法的推推荐更偏偏向社会会化:适合应用用于
15、新闻闻推荐、微博话话题推荐荐等应用用场景,其推荐荐结果在在新颖性性方面有有一定的的优势UserCF缺点:随着用户户数目的的增大,用户相相似度计算复杂杂度越来来越高。而且UserCF推荐结果果相关性性较弱,难以对推荐结果果作出解解释,容易受大大众影响响而推荐荐热门物物品ItemCF算法的推推荐更偏偏向于个个性化:适合应应用于电子商务务、电影影、图书书等应用用场景,可以利利用用户户的历史史行为给给推荐结结果作出出解释,让用户户更为信信服推荐荐的效果果ItemCF缺点:倾向于推推荐与用用户已购购买商品品相似的的商品,往往会会出现多多样性不不足、推推荐新颖颖度较低低的问题题11.2.3UserCF算法
16、和和ItemCF算法的的对比11.3协同同过滤实实践11.3.1实践背景景11.3.2数据处理理11.3.3计算相似似度矩阵阵11.3.4计算推荐荐结果11.3.5展示推荐荐结果我们选择择以MovieLens公开数据据集作为实验验数据,采用ItemCF算法,使使用Python语言来实实现一个个简易的的电影推推荐系统统具体采用用的MovieLens100k数据集包包括了1000名用户对对1700部电影的的评分记记录,每每个用户户都至少少对20部电影进进行过评评分,一一共有100000条电影评评分记录录基于这个个数据集集,我们们解决的的是一个个评分预预测问题题,即如如何通过过已知的的用户评评分记录
17、录来预测测未知的的用户评评分对于用户户未进行行评分的的电影,我们希希望能够够预测出出一个评评分,而而这个评评分反过过来也可可以用于于猜测用用户是否否会喜欢欢这部电电影,从从而决定定是否给给用户推推荐该电电影11.3.1实实践背背景用户对电电影评分分的数据格式式如下,包含了用户ID、电影ID、评分、评分时时间戳通过评分分数据,我们便便可以采采用如余余弦相似似度来计计算用户户之间的的相似度度11.3.2实实践数数据图11-8用用户对电电影的评评分数据据具体实现现流程如如下(具具体代码码见教材材):预处理:读取数数据,提提取评分分计算相似似度:使使用余弦弦相似度度计算电电影间的的相似度度计算推荐荐结
18、果:针对目目标用户户,对该该用户未未评分的的电影计计算预测测评分展示推荐荐结果:对计算算的评分分进行降降序排序序,取Top-N个结果,作为最最终的推推荐结果果11.3.3实实践流流程例如我们们对用户户ID为1的用户,取10个推荐结结果如下下:11.3.3实实践流流程图11-10推推荐结结果本章小结结本章内容容首先介介绍了推推荐系统统的概念念,推荐荐系统可可帮助用用户从海海量信息息中高效效地获得得自己所所需的信信息接着介绍绍了不同同的推荐荐方法以以及推荐荐系统在在电子商商务、在在线音乐乐等网站站中的具具体应用用本章重点点介绍了了协同过过滤算法法,协同同过滤算算法是最最早推出出的推荐荐算法,至今仍
19、仍获得广广泛的应应用,协协同过滤滤包括基基于用户户的协同同过滤算算法(UserCF)和基于于物品的的协同过过滤算法法(ItemCF)。这两两种协同同过滤算算法思想想相近,核心是是计算用用户、物物品的相相似度,依据相相似度来来做出推推荐。然然而,这这两种协协同过滤滤算法各各自适合合的应用用场景不不同,UserCF适合社交交化应用用,可作作出新颖颖的推荐荐,而ItemCF则适合用用于电子子商务、电影等等应用。在具体体实践中中,常常常结合多多种推荐荐算法来来提升推推荐效果果本章最后后通过一一个具体体的实例例,介绍绍了如何何使用Python语言实现现一个简简易的电电影推荐荐系统,深化对对推荐系系统的认
20、认识附录:主主讲教师师主讲教师师:林子子雨林子雨,男,1978年出生,博士(毕业于于北京大大学),现为厦厦门大学学计算机机科学系系助理教教授(讲讲师),曾任厦厦门大学学信息科科学与技技术学院院院长助助理、晋晋江市发发展和改改革局副副局长。中国高高校首个个“数字字教师”提出者者和建设设者,厦厦门大学学数据库库实验室室负责人人,厦门门大学云云计算与与大数据据研究中中心主要要建设者者和骨干干成员,2013年度厦门门大学奖奖教金获获得者。主要研研究方向向为数据据库、数数据仓库库、数据据挖掘、大数据据、云计计算和物物联网,编著出出版中国国高校第第一本系系统介绍绍大数据据知识的的专业教教材大数据技技术原理理与应用用并成为畅畅销书籍籍,编著著并免费费网络发发布40余万字中中国高校校第一本本闪存数数据库研研究专著著闪存数据据库概念念与技术术;主讲厦厦门大学学计算机机系本科科生课程程数据库系系统原理理和研究生生课程分布式数数据库大数据技技术基础础。具有丰丰富的政政府和企企业信息息化培训训经验,曾先后后给中国国移动通通信集团团公司、福州马马尾区政政府、福福建省物物联网科科学研究究院、石石狮市物物流协会会、厦门门市物流流协会、福建龙龙岩卷烟烟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辞去法人代表申请书
- 2025年电驱动石油深井钻机项目风险评估报告
- 导游业务-导游资格导游业务2021年真题
- 初级银行业法律法规与综合能力-银行专业初级《法律法规》名师预测卷4
- 初级银行业法律法规与综合能力-初级银行从业资格考试《法律法规与综合能力》黑钻押题2
- 初级银行管理-银行专业初级《银行管理》押题密卷1
- 数据中心融合基础架构建设项目需求
- 加强内部审计监督确保政策有效执行
- 助学金贫困申请书格式
- 新版北师版一年级下册数学课件四 100以内数的认识复习
- 控制系统状态空间表达式的解
- 人教版八年级美术下册全册课件汇总
- 自我同情量表
- 2023年烟台南山学院单招综合素质考试笔试题库及答案解析
- 护理教学方法课件
- 内镜下粘膜剥离术(ESD)护理要点及健康教育
- 2022年全省百万城乡建设职工职业技能竞赛暨“华衍杯”江苏省第三届供水安全知识竞赛题库
- 广西北海LNG储罐保冷施工方案
- 《生态学》课件—第1章:绪论
- 中心静脉压(CVP)监测及波形分析
- 人教版(PEP)英语五年级下册-Unit 1My day A Let’s spell 教案
评论
0/150
提交评论