


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、、分祈层分布式计算框架/YARN文件系焼/"phHDFS结构化数据非结梅化数据买帧 数堀流计算 / StormIMDG:Dril Impate大数据分析处理架构图內存计算/spark + shark数据歸/ Rr Mahout数据分析平台层次解析数据源:除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照 图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是 数据的连续性和快速分析性;计算层:内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所 有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Im
2、pala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大 数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是 HDFS虫大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,根本 都是HDFS乍为底层的存储技术。上层的 YARN就是MapReduce第二版,和在一起就 是Hadoop最新版本。基于之上的应用有 Hive,Pig Latin ,这两个是利用了 SQL的思 想来查询Hadoop上的数据。关键:利用大数据做决策支持。R可以帮你在大数据上做统计分析,利用 R语言和框 架可以实现很专业的统计分析功能,并且能利用图形的方
3、式展现;而Mahout就是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的经典算法,拿这个作为数据分析的核心算法集来参考还是很好的。如此一个决策支持系统要怎么展现呢?其实这个和数据挖掘过程中的展现一样,无非 就是通过表格和图标图形来进行展示,其实一份分类详细、颜色艳丽、数据权威的数 据图标报告就是呈现给客户的最好方式!至于用什么工具来实现,有两个是最好的数 据展现工具,Tableau和Pentaho,利用他们最为数据展现层绝对是最好的选择。二、规划的数据平台产品 AE(Accelerate Engine)支持下一代企业计算关键技术的大数据处理平台:包括计算引擎
4、、开发工具、管理工 具及数据效劳。计算引擎是 AE的核心局部,提供支持从多数据源的异构数据进行实 时数据集成、提供分布式环境下的消息总线、通过 Service Gateway 能够与第三方系 统进行效劳整合访问;设计了一个分布式计算框架,可以处理结构化和非结构化数 据,并提供内存计算、规划计算、数据挖掘、流计算等各种企业计算效劳。 Data Studio 包括了数据建模、开发、测试等集成开发环境。管理工具包括了实施、客户化 及系统管理类工具。AE平台还可以通过UAP开发者社区提供丰富的数据效劳。AE架构图新规划将BAP平台拆分为两局部,底层技术平台开展内存计算和数据处理,上层BI展现端重点开展
5、仪表盘、web和移动设备展现。两大产品通过数据处理接口和嵌入式应用效劳于业务系统。生态系统图大数据处理平台担负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP 系统的性能提升、以及数据挖掘、非结构化数据处理等系列数据整合与处理的解决方 案。具体模块包括:语义层: 为统一的查询建模平台和数据访问接口。除提供标准的查询建模能力外,还 有语义驱动、语义规那么、语义函数、描述器等等扩展方式,满足不同层面的扩展要 求。OLAF引擎:OLAF引擎提供全面的多维建模与分析能力。多维模型包括维度、层次、 级别、属性、指标、计算成员等;同时预置系列分析函数,包括同比/环比/期比/基比等时间序列分
6、析、占比 /排名/方差等统计分析、指数回归和线性回归分析等;提供 标准的MDX军析与执行,与数据仓库等模块结合,提供针对海量数据的实时分析和处 理能力。数据集成 :能够胜任在大数据量、高并发、多维分析等环境背景下的实时分析。通过 实时数据集成RDI提供的数据实时复制与DW的列式存储引擎,解决了以往在传统 架构模式下,普通行式存储引擎无法实现的业务场景。数据挖掘: 支持运行于分布式文件系统和分布式计算平台之上的分布式数据挖掘算 法,具体包括:逻辑斯特回归、朴素贝叶斯分类算法及其分布式实现;K 均值、谱聚类算法及其分布式实现;潜在狄利克雷分配语义挖掘算法及其分布式实现;频繁模式 挖掘分析算法及其分
7、布式实现;协同过滤、概率矩阵分解推荐算法及其分布式实现; 提供分布式挖掘算法的统一操作原语和执行引擎。数据仓库 :数据仓库提供针对海量数据进行高效的查询和分析。包括同时支持关系数 据库、NoSQL数据库、以及分布式文件系统进行数据存储和加载的多存储引擎,基于 MapReduce匡架针对海量数据的高性能查询和分析,以及 Map Reduce框架本身具有的 高扩展性和容错性。非结构化数据管理 :非结构化数据不包含内嵌的语义结构描述信息,而信息系统需要 结合其“内容而不仅仅是数据本身进行查询、检索、分析与挖掘,因此非结构化数 据管理系统需要实现非结构化数据的数据提取,提取的非结构化数据是进行后续处理
8、 的根底,具体包括结构化信息和底层 / 高层特征的提取两个。非结构化数据提取组件 依赖于分布式文件系统和非结构化数据存储提供的原始数据作为数据源数据,依赖于 非结构化数据存储来存储提取的元数据或者特征数据,依赖于并行计算框架来分布化 执行过程,加快执行速度。消息总线: 包括主数据管理、集中身份管理、应用集成开发环境、集成监控管理等。 满足集成平台的应用需求,支持界面集成、信息集成、效劳集成、流程集成等集成方 式。分布式计算系统 :包括分布式文件系统和分布式计算框架。分布式文件系统以高可靠 的容错机制为核心,系统架构包括多元数据效劳器、多数据存储效劳器、多监管者、 多客户端,支持大文件和大数据块的分布式存储与管理;分布式计算框架基于 MapReduce与 MPI计算模型,提供了一套并行计算框架;并利用物理机以及虚拟机的 监控信息,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 闽教版信息技术三年级下册《第一单元 计算机文件的有效管理 2 排列图标找文件》教学设计
- 湖北省圆创教育教研中心2025届高三三月联合测评历史试题及答案
- 大班艺术活动寻宝课件
- 海洋产业安全保障工作计划
- 公司培训工作总结
- 业务预算与财务计划对接
- 应对职场变化的灵活计划
- 制定工作与生活平衡的策略计划
- 秋季班级团队建设活动计划
- 学生安全意识的培养与保障计划
- 2023年安徽国控资本有限公司及所属企业社会招聘考试真题及答案
- 专题08 八年级下册易混易错总结-备战2024年中考道德与法治一轮复习知识清单(全国通用)
- 中集集团招聘题库
- 赣政通管理员操作手册
- 2024年ISTQB认证笔试历年真题荟萃含答案
- 2021年以工代赈项目实施工作指南(试行)
- 分布式光伏高处作业专项施工方案
- 成语小故事胸有成竹
- JC474-2008 砂浆、混凝土防水剂
- 一年级综合实践-集中注意力
- 《大学物理学》精美课件(全)
评论
0/150
提交评论