2024百亿数据处理实践_第1页
2024百亿数据处理实践_第2页
2024百亿数据处理实践_第3页
2024百亿数据处理实践_第4页
2024百亿数据处理实践_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HadoopAmbari、spark、Flume上分为四个层次,第一个数据源,主要是收集数据库mysql、mongodb、redis等数据,再一个就是服务端日志(基于log4j)、前端/客户端数据;这些数据通过不同的数据采集storm,主要用来实时统计和监控;最顶层就是数据应用,目前业务服务比较多,查询报表、数据挖掘我们会把数据中转dm组、风控组、安全组进行数据应用。flume数据基于storm,生成一些索引方式,计算count等流式处理,接下来就会存到redis、Hbase,最后会基于一个web工程进行相关管理。这就是目前日志平台处理。性能慢的问题:日志多样化,需求多样化;日志量逐渐增大,性能下降;agentdockerdockerid,后面是实际业务日志)tailagent、fileagent、mysqlagent、redisagent,最后收集到kafka,在数据量大情况下tailagent会非常慢,比如一个目录有上百个文件,收集的时候每个文件每秒一千的flumeagent中对tailagent数据非常实时,日志延迟不能超过一百毫秒,我们引入redisagent,就是业务方将数据导入redis中,我们进行100毫秒的针对处理,这样经过对阿agent层的优化,基本可以解决性能延迟、查询延迟等问题。所有的数据存储kafka后,当时kafka是按照数据库类型进行大类topic划分,带来的问题就是数据热点问题,比如agent日志量非常大,但是服topickafka(比如每秒十万)topicstorm在客户端为了方便浏览日志,开发了alano客户端日志,相当于在Linux下TL-f或者下载一个文件,第二个就是DM客户端,主要用来把收集到日志中转给DM或风控或安全组。tailagent(1)文件监控。实时监控文件的变化;(2)文游标保存,每一个文件的读取根据日志读取实时性要求会在每个一秒进行保存在本地或量读取,将数据传到agent,通过agent传到kafka。redisRPUSH台服务器上部署一个redisagent,通过LPOP或者TRANSACTIONDM、风控、安全组的数据中转,秒24HBaseHmaster,部署三个Hmaster,任何一台出状况可以实现秒级切换,保证服务可用性,秒价查询会对BlockcacheDataNode,对数据要求可(1Namenode进程死机(3)datanode(4)namenode如何在数据节点比较少的情况下存储几十TB到百TBsnappylzo、gzip,最后选型为snappy,因为它在压缩比例和性能读取方面,读取解压方面要远远好于gzip,压缩性能又优于lzo。在解决完压缩后,就要解决如何实现服务的秒级查询,以及一台服务down后不应影响查询,或者服务GC导致查询延迟秒级以上。解决方案有以下几个方面:(1)系统级别的优化。比如磁盘选型、swapping的禁用、网络参数优化等;(2)服务级别优化。如读写请(3)客户端。如何保证如果服务端gc,某一服务down后,查询保证服务的可用性;(4)设hbaserowkeyNode、zoomkeeperRAID600G择SSID,如果对查询耗时要求比较低,但存储量又较大,可以选择3T的大盘。是我的邮件和别人的做一个rowkey的查询等。节点,在线业务量几百T左右,出来span数据外数据都需要实时查询。hbasehive下来讲一下对于大数据,hive是如何进行分析的。数据收集后,会得到很多表,每个表数据量都很大,最大的上百亿,因此选型用hive。架构如下,taskdrive,tasktracker300IO,CPU,内存,网络。这是基本96g,cpu24iojoin,groupbyNjobmap数少,map少导致并行计算的量很大,输出量很大带来内存消耗过大,job的map斜,mapreduce(256255),这是因为数据倾斜导致分区不均匀,某一个reduce分区可能会是其他分区的几十倍或几百倍。参数如何配置降低网络IO消耗,Hadoop软件优化基本就是DataNode层次优化,配置优化,主要是hive如何配置实现解决数据倾斜的问题、map过少的问题等。接下来介绍下map过少、数据量较大如何解决,用join,选型是bucket,如果你用普通joinjoinbucket对sort优化;文件系统选型,数据录入hive有txtfile、enforcefile等选择哪一种数据存joinjobjob形成bucketjoin或普通的join,按照顺序join基本能解决job数过多的问题。在hive进行数据分析的过程中,需要考虑的点有:(1)尽量早地过滤数据,减少每SQLjobsqlselectwheregroupbyjoin,而不是包含在语义中直接使用;(3)SQLJOB54mapjoinMapjoin什么样的级别,那些表应该首先做join,获得一个比较小的结果集,再用结果集和其他表join。基于这五个原则在写hql语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论