




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop存储能力详细方案Hadoop采用HDFS作为其底层文件存储方式。HDFS是分布式文件系统,适合于存储大数据文件,通过将大数据文件切分成多个小数据文件,并且分散存放在多台DataNode效劳器,同时提供数据冗余机制保证数据平安。本次Hadoop存储节点为:300台DataNode效劳节点。存储数据平安及分配机制:采用3备份机制保证数据平安,同时为系统保存10%的临时数据交换空间,当数据量超过集群总容量的90%时,建议增加节点。存储总容量:300台数据节点,每个节点36T的磁盘容量,除去10%的临时数据交换空间,同时HDFS中一份数据存放着3份备份;最终存储容量公式如下可用存储容量=节点数*单节点磁盘容量*〔1-临时数据交换空间比例〕÷HDFS文件备份数量;即:可用存储容量=300×36×〔1-10%〕÷3=3240T;目录规划:针对不同的数据用途和支撑方式进行存储容量划分,存放在HDFS中的数据分为接口层,处理层,共享层。接口层主要为原始数据,处理层为存放在HDFS中数据经Hive映射之后数据,共享层为经数据深度沉淀之后存放在HBase中。接口层:总容量*50%处理层:总容量*30%共享层:总容量*20%Storm存储能力详细方案Storm流数据处理采用linux文件系统作为其存储,数据盘采用raid5保证数据平安。存储总容量为:30台效劳器,每台36T,采用Raid5磁盘阵列之后,数据容量为原来的75%,并建议预留10%的空间;最终可用存储计算公式如下:可用存储容量=节点数*单节点磁盘容量*Raid5后的磁盘容量比例*〔1-临时数据交换空间比例〕;即:可用存储容量=30×36×75%×〔1-10%〕=729T;Redis存储能力详细方案Redis包含平台Redis内存数据库和前置Redis内存数据库,平台Redis内存数据库集群用于存放Storm处理后数据,对外提供低延迟数据效劳;前置Redis内存数据库存放应用级数据对外提供效劳。平台Redis内存数据库集群:集群通过一台路由效劳器根据一套算法将表的Key值打算后分散存放到7个RedisMaster效劳器中,同时每一个Master节点对应一个Slave节点保证数据平安,通过路由效劳器实现高可用。存储容量为:14台数据效劳器,7个Master节点,对应7个Slave节点,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间;最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点内存容量*〔1-预留空间比例〕;即:可用存储容量=14÷2×512×〔1-30%〕=2508.8G;前置Redis内存数据库:前置Redis内存数据库中,数据表分别分别存放在不同的节点,同时内存中数据定期备份到本地和远程磁盘,通过该方式在保证了数据平安的同时针对多租户的场景实现了资源隔离。存储容量为:前置数据效劳器,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间,最终可用存储计算公式如下:可用存储容量=节点数÷热备*单节点内存容量*〔1-预留空间比例〕;即:可用存储容量=4×512×〔1-30%〕=1433.6;Mysql存储能力详细方案Mysql关系型数据库存储放深度汇总模型数据,支撑能力封装组件,为上层应用提供数据效劳器;其中支撑业务数据节点数为8台,管控数据节点数为2台。业务数据MySql数据库:Mysql效劳器的数据存储将采用Raid5磁盘阵列划分,以满足数据平安及高可用性。效劳器存储容量:8台MySql效劳器,每台24T,采用Raid5磁盘阵列,存储量变为原来的75%;最终可用存储计算公式如下:可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;即:可用存储容量=8×24×75%单位/T管控数据MySql数据库:Mysql效劳器的数据存储将采用Raid5磁盘阵列划分,以满足数据平安及高可用性。效劳器存储容量:2台MySql效劳器,每台24T,采用Raid5磁盘阵列,存储量变为原来的75%;最终可用存储计算公式如下:可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;即:可用存储容量=2×24×75%单位/T大数据处理实现大数据的处理是使用Hadoop2.x体系进行处理。将ETL清洗后数据放入HDFS中进行存储,依靠HDFS的数据底层存储上部署MapReduce引擎,MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;Hive是建立在Hadoop上的数据仓库根底构架。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。
Pig是一个高级过程语言,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询,简化Hadoop的使用。HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的列存数据库。数据效劳〔DataService〕大数据能力产品及应用平台既要保证内部数据产品的平安性,还要满足外部平台的灵巧使用,为了实现以上目标,在平台架构中引入统一的数据效劳,实现对效劳能力的统一管理和支撑,提供数据效劳的封装能力,形成统一、标准化的跨平台、跨应用的数据效劳接口,可对内〔外〕部平台提供数据效劳。通过效劳封装实现平台效劳能力的开放,形成如下的效劳支撑能力:统一外部效劳开发标准和程序调用能力平台通过对自身数据进行程序化封装,实现并对外提供标准化的SDK开发软件包,供外部平台和其他应用开发人员进行调用与接入。优点:此类方式具备灵巧、简便,并且易于管理,数据平安可靠的优点缺点:此类效劳需要开发实现,过程较复杂适用于:RTB中DSP数据响应、精准移动营销等业务开放特定应用的数据查询访问能力平台通过开放一定的数据访问权限和接口,提供应某些合作伙伴的特定应用进行有限的一定范围内的数据访问与查询接口。优点:实现方便,快速支撑缺点:数据平安级别不高适用于:数据咨询报告等产品业务开放应用级的程序封装接入能力平台通过对于平台数据进行某些主题级的组织和加工后,形成统一的应用支撑界面,按照模块功能授权模式为合作伙伴和外部客户提供平台的数据产品和效劳价值。优点:效劳系统化,用户感知度高,数据价值显现化缺点:实现难度较大,流程复杂适用于:选址分析、可视化应用等对外产品业务对外提供挖掘需求的统一响应与接入效劳能力平台提供基于根底设施和数据平台的统一能力封装,为合作伙伴和外部客户的数据挖掘请求提供平台级支持和功能级响应。优点:实现资源运营效劳化,对外效劳深入支撑缺点:实现难度高,需求及响应模式复杂,平台风险级别较高适用于:平台资源能力的封装产品提供直接的数据文件导出效劳模式能力平台针对某些对外业务效劳的特定需求,提供将平台分析结果数据进行直接文件导出,直接提供应合作伙伴或外部客户,便于其自行封装与使用。优点:实现简单,方案不便于管理缺点:管理不便,标准程度差,数据平安级别低适用于:二次放号等数据产品业务模式部署前置节点对外提供数据查询效劳能力平台需满足特定区域的高速数据查询要求,所以需在查询发起地部署查询前置节点,查询前置节点实现的功能包括:定期推送标签数据给数据效劳、记录效劳使用清单,并推送回总部平台、RTB查询请求及返回。优点:数据响应效率高,效劳方式灵巧缺点:部署实现难度大,系统投入较大适用于:RTB等互联网数据产品业务模式分布式ETL〔DistributedETL〕能力平台所需的的根底数据来源于集团大数据会聚平台、外部互联网以及未来第三方合作伙伴,一是数据量巨大,二是数据类型复杂多样。能力平台首先要解决的是大量结构化和非结构化数据的快速抽取、转换、加载工作。为了实现上述目标,引入分布式ETL,实现计算分布式及抽取、加载分布式,可以快速清洗来源于多个系统的同构、异构多种数据,数据的导入、转换、加载完全可视化,实现快速开发部署能力,有效降低操作门槛,提升工作效率。分布式ETL对于能力平台的构建提供了如下的能力支撑:支撑能力平台的分布式运行和多类计算任务的统一管控分布式ETL对平台所构建的分布式环境是必不可缺的支撑根底,对于各个集群上的分布式处理任务提供统一的管理,并对计算运行过程进行实时监控和异常预警,实现平台计算任务的统一工作台管理支撑。提供底层数据处理技术的统一封装与能力支撑分布式ETL提供了一套可视化的通用的数据处理组件,通过流程化的运算逻辑定义、封装和调度管理,为开发实现提供了一套高效易用的数据处理支撑框架,降低了技术人员对于底层技术的掌握门槛,便于支撑面向业务应用的快速效劳与响应。数据容量估算本期工程各类数据规模如下表所示,总计原始用户数据容量约为6588TB。数据分类数据类型数据内容要求数据容量〔单周期原始数据量,TB〕数据容量〔15年底系统保存数据需求,TB〕备注当前15年底接口/整合层模型应用层小计网络数据移动DPI、移动AAA数据内容详见?中国电信移动分组域数据信息采集设备技术要求〔发布版本)?294614264141840移动DPI清单率设为50%设备配置推算Hadoop分布式集群建议采用本地存储方式〔数据存储在各PC效劳器本地磁盘上〕,对照可参考案例,对于常规数据分析,Hadoop平台数据处理平台节点需求数主要由数据处理量需要的存储节点数量,同时考虑计算节点能力需求。详细计算过程如下表所示:存储能力测算系统数据容量6558TB压缩比0.5备份数3空间冗余1.20所需存储容量=系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 礼仪用品行业产品线规划考核试卷
- 续签劳动合同案例分析
- 汽车配件客户服务礼仪培训考核试卷
- 电气设备在智能电网能源优化调度系统中的应用考核试卷
- 玻璃容器生产过程中的废料处理与回收考核试卷
- 水利工程中的雨水利用和洪水防治技术考核试卷
- 大班防拐骗安全教育教案
- 稀有金属加工质量改进方法创新与实施案例分析考核试卷
- 机场航站楼建筑节能技术与策略考核试卷
- 汽轮机在核能发电领域的优势分析考核试卷
- 高楼遮光补偿协议书范本
- 母乳喂养知识培训课件下载
- 西安市曲江第三中学行政人员及教师招聘笔试真题2024
- 2025-2030中国竹纤维行业市场发展现状及竞争策略与投资前景研究报告
- 委托外包催收合同协议
- 2025-2030中国涂装行业市场深度分析及发展预测与投资策略研究报告
- 乳腺癌诊治指南与规范(2025年版)解读
- 银行系统招聘考试(经济、金融、会计)模拟试卷14
- 心理韧性在咨询中的重要性试题及答案
- 外研版(三起)(2024)三年级下册英语Unit 2 单元测试卷(含答案)
- 2025年全国普通话水平测试训练题库及答案
评论
0/150
提交评论