




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop存储能力详细方案Hadoop采用HDFS作为其底层文件存储方式。HDFS是分布式文件系统,适合于存储大数据文件,通过将大数据文件切分成多个小数据文件,并且分散存放在多台DataNode服务器,同时提供数据冗余机制保证数据安全。本次Hadoop存储节点为:300台DataNode服务节点。存储数据安全及分配机制:采用3备份机制保证数据安全,同时为系统保留10%的临时数据交换空间,当数据量超过集群总容量的90%时,建议增加节点。存储总容量:300台数据节点,每个节点36T的磁盘容量,除去10%的临时数据交换空间,同时HDFS中一份数据存放着3份备份;最终存储容量公式如下可用存储容量=节点数*单节点磁盘容量*(1-临时数据交换空间比例)÷HDFS文件备份数量;即:可用存储容量=300×36×(1-10%)÷3=3240T;目录规划:针对不同的数据用途和支撑方式进行存储容量划分,存放在HDFS中的数据分为接口层,处理层,共享层。接口层主要为原始数据,处理层为存放在HDFS中数据经Hive映射之后数据,共享层为经数据深度沉淀之后存放在HBase中。接口层:总容量*50%处理层:总容量*30%共享层:总容量*20%Storm存储能力详细方案Storm流数据处理采用linux文件系统作为其存储,数据盘采用raid5保证数据安全。存储总容量为:30台服务器,每台36T,采用Raid5磁盘阵列之后,数据容量为原来的75%,并建议预留10%的空间;最终可用存储计算公式如下:可用存储容量=节点数*单节点磁盘容量*Raid5后的磁盘容量比例*(1-临时数据交换空间比例);即:可用存储容量=30×36×75%×(1-10%)=729T;Redis存储能力详细方案Redis包含平台Redis内存数据库和前置Redis内存数据库,平台Redis内存数据库集群用于存放Storm处理后数据,对外提供低延迟数据服务;前置Redis内存数据库存放应用级数据对外提供服务。平台Redis内存数据库集群:集群通过一台路由服务器根据一套算法将表的Key值打算后分散存放到7个RedisMaster服务器中,同时每一个Master节点对应一个Slave节点保证数据安全,通过路由服务器实现高可用。存储容量为:14台数据服务器,7个Master节点,对应7个Slave节点,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间;最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点内存容量*(1-预留空间比例);即:可用存储容量=14÷2×512×(1-30%)=2508.8G;前置Redis内存数据库:前置Redis内存数据库中,数据表分别分别存放在不同的节点,同时内存中数据定期备份到本地和远程磁盘,通过该方式在保证了数据安全的同时针对多租户的场景实现了资源隔离。存储容量为:前置数据服务器,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间,最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点内存容量*(1-预留空间比例);即:可用存储容量=4×512×(1-30%)=1433.6;Mysql存储能力详细方案Mysql关系型数据库存储放深度汇总模型数据,支撑能力封装组件,为上层应用提供数据服务器;其中支撑业务数据节点数为8台,管控数据节点数为2台。业务数据MySql数据库:Mysql服务器的数据存储将采用Raid5磁盘阵列划分,以满足数据安全及高可用性。服务器存储容量:8台MySql服务器,每台24T,采用Raid5磁盘阵列,存来源于多个系统的同构、异构多种数据,数据的导入、转换、加载完全可视化,实现快速开发部署能力,有效降低操作门槛,提升工作效率。分布式ETL对于能力平台的构建提供了如下的能力支撑:支撑能力平台的分布式运行和多类计算任务的统一管控分布式ETL对平台所构建的分布式环境是必不可缺的支撑基础,对于各个集群上的分布式处理任务提供统一的管理,并对计算运行过程进行实时监控和异常预警,实现平台计算任务的统一工作台管理支撑。提供底层数据处理技术的统一封装与能力支撑分布式ETL提供了一套可视化的通用的数据处理组件,通过流程化的运算逻辑定义、封装和调度管理,为开发实现提供了一套高效易用的数据处理支撑框架,降低了技术人员对于底层技术的掌握门槛,便于支撑面向业务应用的快速服务与响应。数据容量估算本期工程各类数据规模如下表所示,总计原始用户数据容量约为6588TB。数据分类数据类型数据内容要求数据容量(单周期原始数据量,TB)数据容量(15年底系统保存数据需求,TB)备注当前15年底接口/整合层模型应用层小计网络数据移动DPI、移动AAA数据内容详见《中国电信移动分组域数据信息采集设备技术要求(发布版本)》294614264141840移动DPI清单率设为50%设备配置推算Hadoop分布式集群建议采用本地存储方式(数据存储在各PC服务器本地磁盘上),对照可参考案例,对于常规数据分析,Hadoop平台数据处理平台节点需求数主要由数据处理量需要的存储节点数量,同时考虑计算节点能力需求。详细计算过程如下表所示:存储能力测算系统数据容量6558TB压缩比0.5备份数3空间冗余1.20所需存储容量=系统数据容量*压缩比*备份数*空间冗余11858.42TB存储节点需求单节点挂载存储量36TB所需存储节点数=所需存储容量/单节点挂载存储量330台计算能力测算日增量(G)14992
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论