版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Spark应用开发技术本章主要讲述SparkGraphX:图计算框架。通过学习本节将能够学习SparkGraphX:图计算框架。通过本节学习可以:理解图与图计算的基本概念掌握GraphX图的创建方法掌握GraphX的基本操作掌握以GraphX进行关联聚合操作认识SparkGraphX图的基本概念、图计算的应用、GraphX的基础概念、GraphX的发展了解GraphX常用API图的创建与存储、数据查询与数据转换、结构转换与关联聚合构建信任网络并找出目标用户构建网站信任网络、找出需要支付稿酬的用户、找出进入热门榜的用户1.背景W网站是一个面向广大用户的消费品信息聚合网站,主要向用户提供各类日常消费品的点评信息,以帮助用户选到满意的商品。当用户登录网站后,可以发表对某件商品的点评,也可以参考其他点评者的点评信息。如果觉得某个点评信息的质量优秀,则可以将这个点评者纳入自己的信任列表。这样一来,在用户与用户之间就产生了一个基于信任关系的网络。如果某用户被其他用户纳入到信任列表的次数越多,则表明其信任值就越高。W网站为了鼓励用户做出优质的商品点评,会向信任值很高的用户支付一定的稿酬以鼓励点评,对于极受欢迎且达到一定活跃度的用户,可以进入热门点评榜,增加知名度构建信任网络并找出目标用户1.
背景目前网站已经积累了大量的用户数据,其中包括用户的个人信息,基本格式如表所示,Id表示用户构建信任网络并找出目标用户1.背景用户间的信任关系数据如表所示,FromNodeId为收藏信任点评人的用户Id,ToNodeId为被加入信任列表的用户Id,每一行数据表示左边的用户将右边的用户纳入了信任列表构建信任网络并找出目标用户2.分析目标主要是根据网站的需求,结合采集到的数据,利用SparkGraphX图计算工具完成以下任务构建网站信任网络找出网站需要支付稿酬的用户找出有资格进热门点评榜的用户构建信任网络并找出目标用户3.构建网络信任图构建网络信任图的步骤如下所示先将数据上传到HDFS文件系统导入图计算所需要的包通过graph.fromEdges的方法创建信任网络图,顶点与边的属性设为常用的替代属性1L构建信任网络并找出目标用户4.找出需要支付稿酬的用户为了鼓励用户点评,所以对于信任度比较高的前50名用户会支付一定的稿酬。想要找出信任度比较高的用户,首先需要计算每个用户的被信任度,也就是计算每个顶点的入度数。计算完入度数之后,需要根据入度数进行排序,排序按照从高到低的顺序,然后从排序后的顶点数据中取出前50名作为奖励用户,这50名用户就是网站需要支付稿酬的用户了构建信任网络并找出目标用户5.找出进入热门榜的用户热门排行榜是用于对网站用户进行一个排名的,想上排行榜需要满足一定的要求才有资格进入。第一点就是用户的信任度必须在网站用户信任度排名中排在前3%;第二点就是用户的活跃度在满足第一点的用户中排在前5%,其中信任度表示入度数,活跃度表示出度数。根据以上要求,要找出满足条件的用户,第一点需要计算入度数并排列取出前3%的用户,然后再计算这3%的用户的出度数,取出前5%的用户,这部分用户即为可上榜用户构建信任网络并找出目标用户5.找出进入热门榜的用户构建信任网络并找出目标用户5.找出进入热门榜的用户构建信任网络并找出目标用户5.找出进入热门榜的用户进入热门榜的用户如图所示构建信任网络并找出目标用户6.给用户推荐可信任用户一个用户对另一个用户表示信任,那么他/她可能对于另一个用户所信任的其他用户的点评同样也比较信任。将信任人的信任人推荐给这个用户,属于二度关系推荐,这是常用的一种最简单的推荐方法。这个过程可以称为二度关系或二跳邻居,二度关系推荐可抽象成在有向图中寻找到指定顶点的最短距离为2的所有顶点。具体求解过程如下先构造一个属性图,为了存储符合关系的键值对(用户Id->度数),每个顶点的属性Attr初始化为Map(),然后进行两次迭代求解二度关系构建信任网络并找出目标用户6.给用户推荐可信任用户二度关系求解过程使用aggregateMessages把VerticeID和第几度邻居的度数N作为一个键值对传播到出度点上,出度点把收集到的信息合成一个大Map构建信任网络并找出目标用户6.给用户推荐可信任用户二度关系求解过程更新后的Vertice与原图进行“Join”,更新图中的变化过的点属性,将Map数据加入到图中进行下一轮的分析构建信任网络并找出目标用户6.给用户推荐可信任用户构建信任网络并找出目标用户给用户推荐可信任用户重复1,2步,此时N值改为2,输出更新了2轮之后的有关系的Vertice,去掉其中已经被顶点所信任过的用户6.给用户推荐可信任用户二度关系求解过程数据类型为(顶点Id,2度邻居顶点Id),现在将同一个用户的所有推荐用户Id合并成一个List,选取其中的10个作为推荐结果并且输出到HDFS构建信任网络并找出目标用户6.给用户推荐可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高二化学选择性必修2(人教版)同步课件 第二章 微专题3 分子空间结构与键角的比较
- 【+高中语文+】古诗词诵读《虞美人(春花秋月何时了)》课件++统编版高中语文必修上册
- 山东省济宁市嘉祥县2024-2025学年九年级上学期12月份月考英语试题(无答案)
- 广东省揭阳市普宁市2024-2025学年高二上学期12月月考英语试题(无答案)
- 湖南省市县联考(示范性高中)2024-2025学年高二上学期12月月考化学试题(含答案)
- 企业并购案例-阿里巴巴收购雅虎中国
- 中国B2B商业模式案例(ECVV、焦点、环球资源)
- 第2章 简单电阻电路分析
- 高一 粤教版 物理-第三单元《力的分解》课件
- 《企业合并会计》课件
- 6.3.1 实数的相关概念及分类 人教版数学七年级下册教与练教学设计
- 软件测试升职述职报告
- 气管导管脱出应急预案演练脚本及程序样本
- 车辆抵押欠款合同
- 扩心病护理查房
- 房价的调查报告
- 寄生虫科普讲座课件
- 声学知识科普课件
- 临床教学教学课件
- 皮肤科操作治疗规范大全
- 《后交通动脉瘤自制》课件
评论
0/150
提交评论