大数据流式处理性能_第1页
大数据流式处理性能_第2页
大数据流式处理性能_第3页
大数据流式处理性能_第4页
大数据流式处理性能_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据流式处理.项目背景网络发展迅速的时代,越来越多人通过网络获取跟多的信息或通过网络作一番自己的事业,当投身于搭建属于自己的网站、APP或小程序时会发现,经过一段时间经营和维护发现浏览量和用户数量的增长速度始终没有提升。在对其进行设计改造时无从下手,当在不了解用户的浏览喜欢和个用户群体的喜好。虽然服务器日志中明确的记载了用户访浏览的喜好但是通过普通方式很难从大量的日志中及时有效的筛选出优质信息。SparkStreaming是一个实时的流计算框架,该技术可以对数据进行实时快速的分析,通过与Flume、Kafka的结合能够做到近乎零延迟的数据统计分析。SSP项目主要是采用实时处理方式,主要分析统计点击日志、曝光日志、媒体请求日志、媒体请求返回日志等日志的用户行为分析。.案例需求要求:实时分析服务器日志数据,并实时计算出某时间段内的浏览量等信息。使用技术:Flume-》Kafka-》SparkStreaming-》MySql数据库.案例架构架构中通过Flume实时监控日志文件,当日志文件中出现新数据时将该条数据发送给Kafka并有SparkStreaming接收进行实时的数据分析最后将分析结果保存到MySQL数据库中,再通过可视化界面展示给运营和相关管理人员。结构图3.1所示。

图3.1实时处理架构在本篇文章中使用Flume+Kafka+SparkStreaming具体实现大数据实时流式数Sp^rkStreamingKafkasinkMemorychflnn?lMemorychannel据采集的架构图如图3.2:AgentSp^rkStreamingKafkasinkMemorychflnn?lMemorychannel据采集的架构图如图3.2:AgentAgent图3.2实时采集日志架构图.环境准备大数据平台基于ClouderaManager集群构建大数据生产环境,基于CDH5.12.0版本安装部署的,此次项目所用到的组件包括Flume、Kafka、Spark、Yarn、Zookeeper、MySQL。大数据平台组件如图4,1所示QCluster1(CDH5.12.0fPared)O区主机♦号Flume,KHBase©0HDFSO爷HiveO皆Kafka♦夕SparkO■Sqocp2O萼YARN(MR…O.jZooKeeper图4,1大数据平台组件大数据平台服务器配置大数据平台为5个节点。集群服务器按照节点承担的任务分为管理节点和工作节点。管理节点上一般部署各组件的管理角色,工作节点一般部署有各角色的存储、容器或计算角色。根据业务类型不同,集群具体配置也有所区别,根据申通大数据的集群定位为海量数据存储和实时计算、数据挖掘、数据分析、人工智能,这些计算场景对磁盘的IO、CPU、内存要求较高,服务器配置如表4.1:管理节点工作节点处理器两路Intel®至强处理器,可选用E5-2670处理器v3两路Intel®至强处理器,可选用E5-2670处理器v3内核数8核/CPU(或者可选用8核/CPU),主频2.3GHz或以上8核/CPU(或者可选用6核/CPU),主频2.3GHz或以上内存4x32GBDDR4共128GB内存4x32GBDDR4共128GB内存硬盘2个1TB的SAS硬盘(2.5或3.5寸),15KRPM,RAID0+12个1TB的SAS硬盘(2.5或3.5寸),15KRPM,RAID12个1TB的SAS硬盘(3.5寸),10000RPM以上,不使用RAID网络1块双口千兆以太网卡阵列控制器(支持RAID0/1)1块双口千兆以太网卡阵列控制器(支持RAID0/1)硬件尺寸1U1U接入交换机推荐使48个千兆和6个4千兆空口的千兆网交换机,可堆叠;或选用48口千兆交换机,要求全千兆,可堆叠数量2表4.1大数据服务配置6

日志服务配置45数据库服务器配置.数据处理过程在172.16.189.188/218/227/228/2335台日志服务器上,通过flume实时采集点击日志、曝光日志、媒体请求日志、媒体请求返回日志等数据,将数据发送给hadoop平台上的flume各个日志进行汇聚,然后再将日志传kafkatopic中,

sparkspreaming每隔一分钟处理一次kafkatopic中的日志,按每小时对数据进行叠加汇总。对日志的各项指标进行统计分析,指标包括:点击日志、曝光日志、媒体请求日志、媒体请求返回日志等日志的用户行为分析。.测试过程测试指标名称指标备注CPU使用率不高于80%内存使用率不高于80%I/O使用率不高于80%Network使用率不高于80%吞吐量测试流程晶黑分析4装至测敏的定E整住测H基线式基址网试.余统郎碰定晶黑分析4装至测敏的定E整住测H基线式基址网试.余统郎碰定谢试没计开发刚」..式门」、汁I:j西,町疑定■ ,,.]…民I1.而白网藤咕里分排6.3spark实时处理的吞吐量用例名称SparkStreaming实时处理ssp日志验证功能SparkStreaming处理性能测试目的验证spark实时处理的性能及稳定性,同时更好的为服务器分配资源前置条件操作步骤在日志服务器上实时产生日志flume对日志进行采集spar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论