![大数据理论与实践复习_第1页](http://file4.renrendoc.com/view/5449ae7a66b6b133d30edaa77ecc4295/5449ae7a66b6b133d30edaa77ecc42951.gif)
![大数据理论与实践复习_第2页](http://file4.renrendoc.com/view/5449ae7a66b6b133d30edaa77ecc4295/5449ae7a66b6b133d30edaa77ecc42952.gif)
![大数据理论与实践复习_第3页](http://file4.renrendoc.com/view/5449ae7a66b6b133d30edaa77ecc4295/5449ae7a66b6b133d30edaa77ecc42953.gif)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
优点:1.高容错、高可用、高扩展2.海量数据 3.构建成本低、安全可靠4.适合大规模离线批处理缺点:1.不适合低延迟数据2.不适合大量小文件 3.不支持并发写入4.不支持文件随机修改namenode元数据文件:1.edits—编辑日志文件—保存了自检查点之后的所有文件更新操作2.fsimage—元数据检查点镜像文--保存了文件系统中所有 和文件信元数据的两种形式:内存元数据(NameNode)+文件元数据三种角色:ResourceManager(Master)、NodeManager(Slave)、ResourceManager主要功能:1.统一管理集群的所有资源2.将集群按照一定策略分配给各个应用3.接受NodeManager的资源上报信NodeManager主要功能:1.管理单个节点的资源2.向ResourceManager汇报节点资源使用情况3.管理Container的生命周ApplicationMaster主要功能:1.管理应用程序实例2.向ResourceManager申请任务执行所需的资源3.任务调度Container:封装了节点上进程的相关资源,是YARN中资源的相关抽YARN资源调度策略:FIFO(先进先出)、CapacityScheduler(容器调度器)、FairScheduler(公平调度器MR特点1计算跟着数据走2良好的扩展性3高容错4状态5适合海量数据的离线批处理6降低了分布式编程的门MR适用1据统计2建索引3查询4据分1OLAP2计3DAGMR的操作阶段有Spliting、Map、Shuffling、ReducingSplit是一个逻辑概念Split的数量决定了Map的数park产生背景1MapRedueMapRedue2计算框架种类多选型难3统一计算框架简化技术选型Spark点1算高效2用易用3行模式多RDD操作1Transformation(转换)构造新的RDD只记录转换关系不进行计算2Action(动作)真正触发计RDD依赖1窄依赖父RDD中的分区最多只能被一个子RDD的一个分区使用子RDD如果有部分分区数据丢失或损坏只需从对用RDD新计算恢复2RDD区依赖父RDD有分区RDD果部分或全部分区数据丢失或损坏必须从所有父RDD分区重新计算Sqoop是一个主要在Hadoop和关系数据库之间进行批量数据迁移的工Flume是一个分布式海量、聚合和传输系统。特点1基于的海量2数据流模型3事务机制4内置富插件5可用6java 最小数据传输单元由headerbody JVM进程最小运行单元由Source、Channel、Sink三个基本组件构映射关系1Source->多个Channel1Channel->多个Sink1Sink->1单层Flume架构优点架构简单使用方便占有资源较少。缺点1外部升级或发生故障成本高系统稳定性较差2系统安全性较差3如果的数据源或Agent较多将Event写入到HDFS会产生很多小文件4数据源管理较多层Flume架构优点1类日志数据分层处理架构清晰运维高效降低人工误操作风险2免产生过多小文件提高系统稳定性和处理能力3对外不会系统关键信息降低风险显著提升安全性4各关联系统易于升级。缺点部署相对复杂占用资源较多概念1于发布/订阅的分布式消息系统2Linkdin发Scala言特性1消息持久化2高吞吐3高容错4易扩展5同时支持离线、实时数据处应用场景1步通信将消息放入kafka可以不立即处理2用解耦在应用处理过程中插入一个隐含的、基于数据的接口层3值处理使关键应用能够顶住峰值不会因超出负荷而工作机制1消息在Broker中按Topic()进行分类相当于为每个消息打个2一个Topic可划分为多个Partition(分区)3每个Partition可以有多个Replication(副本)4消息在Broker的某一Topic的某一Partition中同时存在多个副本。5Partition是一个FIFO队列写入消息采用在队尾追加的方式消费消息采用在队列头部顺序的方式6一个Topic可以分为多个Partition仅保证同一分区内消息有序不保证Topic整体有序7为了加快速度多个Consumer可划分为一个组(ConsumerGroupCG)并行消费同一个Topic8一个Topic可以被多个CG订阅CG之间是的即一个消息可同时被多个CG费9CG以有多个ConsumerCG的Consumer间是竞争关系即一个消息在一个CG只能被一个Consumer消费概念1于数据仓库和交互式分析的大数据平台软件2于Hadoop数据仓库产品3布式通用SQL引擎4于Spark术打特点1Hadoop域对SQL支持最完善2持完整分布式事务处理3的大数据处理和分析性能4供便捷的SQL、PL/SQL开发调试辅助工具Waterdrop表的元数据在Metastore中表的实际数据在HDFS、Holddesk、Hyperbase和Search中。按所分类可分为内表的特点1系统具有内表的完全控制权负责管理它的生命周期2元数据在metastore中表数据通常在所属 中。3删除内表时会同时删除表数据以及metastore中的元数据外表的特点1系统不具有外表的完全控制权2元数据在Metastore中表数据通常在制定的外部中3删除外表时不会删除表数据但是会删除metastore中的元数据分区的目的减少不必要的全表扫描提升查询效率。含义将表按照某个或某几个字段划分为更小的数据集分区数据存 中一个分区对应一个子分桶通过分桶键哈希取模的方式将表或分区中的数据随机、均匀地分发到N个桶中分桶的作用1高join询效率如果两个表的join都做了分桶且分桶树相同或成倍数那么相同列值得数据会分到号相同或有对应关系的桶中这样就不用全表遍历对应的桶做join以表的高级操作单值分区静态分区、动态分区。范围单值分区一个分区对应分区键的一个值。范围分区一个分区对应分区键的一个范创建单值分区时分区键不能和表结构中的列重复因为分区键已在分区 中分区数据中不包含分区键否则会单值静态分区入数据时必须手动指定目标分单值动态分区入数据时系统可以动态判断目标分桶(将数据写入分桶表1表在创建的时候只定义schema且数据写入时系统不会自动分桶所以需要先人工分桶再写入2入分桶表只能通过insert而不能通过load因为load只导入文件并不分桶3果分桶表创建时定义了排序键那么数据不仅要分桶还要排序4分桶键和排序键不同且降序排列使用distributebysortby分桶排序5果分桶键和排序键相同且按升序排列使用clusterby分桶排序分桶注意事项1桶键必须是表结构中的列2键和分桶列必须在建表时确定不允许更改3ORC事务表必须分桶每个桶的文件大小应在100-200MB之间5通常先分区后批处理计算框架MapReduce、SparkCore、Inceptor、Flink流式计算框架StormCore、SlipStream、Flink基于微型批处理SparkStreaming、Slipstream、StormSlipStream特点1微批模式和驱动模式的2支持分布式流式SQL3强大的优化器提升性能4极高的易用性5品化程度高6迁移成Slipstream的三个概念Stream(数据流)、StreamJob(流任务)对一个或多个Stream进行计算并将结果写入一张表的任务Application(流应用)一组业务逻辑相关的StreamJob的集合StreamJob是触发StreamSQL执行的Action一般具有插入结果表语义StreamJob主要StreamJobLevel的配置参数以及对应的SQLStreamJob作为StreamSQL运行时的基本单元也是实时的基本单元。Application主要用于运行时的和权限验证在静态时只是一个逻辑概念一般用于参数配置流应用通常会对一个窗口(时间间隔)内的数据做多表关联、聚合或窗口计算时间作为窗口切分单81切分在SQL中指定数据流中的某个时间字段以该时间字段为基准切分窗82系统时间切分在SQL不指定时间字段以系统时间为基准切分窗口类滑动窗定义按一定时间间隔向未来滑动的长度固定的窗口特点前后窗口之间有跳动窗定义当窗口长度和滑动间隔相同滑动窗口就为跳动窗特点前后窗口之间无跳动窗口是滑动窗口Length=Slide的特10时间切分和系统时间切分的区默认的窗口切分方式为系统时优先级前者高于后灵活性前者更灵活不同窗口可以指定不同的时间格式支持前者可以满足多种时间格 驱动的流处含义以单条数据被InputStream接受为时间逐条数据并立刻加工处理最后输特点相比微批模式驱动模式的延迟在延迟敏感的场景中表现更概高可靠、高性能、可伸缩、实时读写、面向列的分布式NewSQL数据基于HBaseNewSQL数据列Key-Value数据采用HDFS为文件系特海量数线性扩高并高可数据实时随机读数据强一致HyperBase表结 表RowKey、列族、列限定符、时间二维表RowKey、表的特点1据规模大2规模3向列族4疏5据多版本6据无类系统架HMaster(Master)1管理元数据2管理表的创建、删除和修改3为HRegionServer分配Region4负责的负载均衡4系统运行过程中动态添加、删除HRegionServer5不处理的数据读写请HRegionServer(Slave)1处 的数据读写请求2管理RegionSplit3管理StoreFileZookeeper1实现HMaster高可用2HRegionServer的上下线信息并通知HMaster3元数据的寻址4所有Region寻1通过接口Hyperbase2为了加快数据速度将元数据、Region位置等信息缓存在Cache中Region1布式和负载的最小单元2统将表水平划分为多个Region每个Region表的一段连续数据3当Region大小随着数据写入超过阈值时当前Region会成两个子·Region4随着Region的不断增多HMaster会将部分Region迁移到其他HRegionServer中实现均衡负载Store1一个Region有多个Store组成每个Store一个列族2Store由内存中的MemStore和磁盘中的若StoreFile组成3Region是分布式的最小单元而Store是落盘的最小单MemStore和StoreFile1MemStore是Store的内存缓冲区数据读写都先MemStore2StoreFile是MemStore的磁盘溢写文件在HDFS中被称为HFile3Store的StoreFile量超过阈值时HRegionServer会将若干个小Store
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年幼儿园教师学生健康监测与疾病预防合同
- 迪庆云南迪庆香格里拉市招聘治安联防人员80人笔试历年参考题库附带答案详解
- 苏州江苏苏州大学纳米科学技术学院课程助教招聘11人(202420252学期)笔试历年参考题库附带答案详解
- 舟山浙江舟山市普陀区机关事务管理中心编外人员招聘笔试历年参考题库附带答案详解
- 红河2025年云南红河金平县人民法院招聘聘用制书记员司法警务辅助人员笔试历年参考题库附带答案详解
- 福建2025年福建水利电力职业技术学院招聘35人笔试历年参考题库附带答案详解
- 湖北2025年湖北民族大学人才引进163人笔试历年参考题库附带答案详解
- 浙江2025年春季浙江省新时代自贸港研究院招聘笔试历年参考题库附带答案详解
- 河南2024年河南体育学院冬季运动管理中心人事代理招聘11人笔试历年参考题库附带答案详解
- 桂林2025年广西桂林市事业单位招聘1462人笔试历年参考题库附带答案详解
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- TTT培训教材(-55张)课件
- 耐压绝缘硅橡胶涂料喷涂作业指导书
- 小学《体育与健康》 人教版 三年级 乒乓球运动 -乒乓球介绍与球性教学 第一节课PPT 课件
- 急性心梗的护理业务学习课件
- 导向标识系统设计(二)课件
- 聚焦:如何推进教育治理体系和治理能力现代化
- 化工仪表自动化【第四章】自动控制仪表
- 数据结构教学课件:chapter8
- 安全生产十大法则及安全管理十大定律
- 化妆品批生产记录
评论
0/150
提交评论