大数据分析平台_第1页
大数据分析平台_第2页
大数据分析平台_第3页
大数据分析平台_第4页
大数据分析平台_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、数据分析平台层次解析大数据分析解决架构图数据源:除该种办法之外,还能够分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是阐明了数据存储的构造,而特别要说的是流数据,它的核心就是数据的持续性和快速分析性;计算层:内存计算中的Spark是UCBerkeley的最新作品,思路是运用集群中的全部内存将要解决的数据加载其中,省掉诸多I/O开销和硬盘连累,从而加紧计算。而Impala思想来源于谷歌Dremel,充足运用分布式的集群和高效存储方式来加紧大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文献系统固然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,PigLatin,这两个是运用了SQL的思想来查询Hadoop上的数据。核心:运用大数据做决策支持。R能够帮你在大数据上做统计分析,运用R语言和框架能够实现很专业的统计分析功效,并且能运用图形的方式呈现;而Mahout就是一种集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的典型算法,拿这个作为数据分析的核心算法集来参考还是较好的。如此一种决策支持系统要怎么呈现呢?其实这个和数据挖掘过程中的呈现同样,无非就是通过表格和图标图形来进行展示,其实一份分类具体、颜色艳丽、数据权威的数据图标报告就是呈现给客户的最佳方式!至于用什么工具来实现,有两个是最佳的数据呈现工具,Tableau和Pentaho,运用他们最为数据呈现层绝对是最佳的选择。二、规划的数据平台产品AE(AccelerateEngine)支持下一代公司计算核心技术的大数据解决平台:涉及计算引擎、开发工具、管理工具及数据服务。计算引擎是AE的核心部分,提供支持从多数据源的异构数据进行实时数据集成、提供分布式环境下的消息总线、通过ServiceGateway能够与第三方系统进行服务整合访问;设计了一种分布式计算框架,能够解决构造化和非构造化数据,并提供内存计算、规划计算、数据挖掘、流计算等多个公司计算服务。DataStudio涉及了数据建模、开发、测试等集成开发环境。管理工具涉及了实施、客户化及系统管理类工具。AE平台还能够通过UAP开发者社区提供丰富的数据服务。AE架构图新规划将BAP平台拆分为两部分,底层技术平台发展内存计算和数据解决,上层BI呈现端重点发展仪表盘、web和移动设备呈现。两大产品通过数据解决接口和嵌入式应用服务于业务系统。生态系统图大数据解决平台肩负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP系统的性能提高、以及数据挖掘、非构造化数据解决等系列数据整合与解决的解决方案。具体模块涉及:语义层:为统一的查询建模平台和数据访问接口。除提供原则的查询建模能力外,尚有语义驱动、语义规则、语义函数、描述器等等扩展方式,满足不同层面的扩展规定。OLAP引擎:OLAP引擎提供全方面的多维建模与分析能力。多维模型涉及维度、层次、级别、属性、指标、计算组员等;同时预置系列分析函数,涉及同比/环比/期比/基比等时间序列分析、占比/排名/方差等统计分析、指数回归和线性回归分析等;提供原则的MDX解析与执行,与数据仓库等模块结合,提供针对海量数据的实时分析和解决能力。数据集成:能够胜任在大数据量、高并发、多维分析等环境背景下的实时分析。通过实时数据集成(RDI)提供的数据实时复制与DW的列式存储引擎,解决了以往在传统架构模式下,普通行式存储引擎无法实现的业务场景。数据挖掘:支持运行于分布式文献系统和分布式计算平台之上的分布式数据挖掘算法,具体涉及:逻辑斯特回归、朴素贝叶斯分类算法及其分布式实现;K均值、谱聚类算法及其分布式实现;潜在狄利克雷分派语义挖掘算法及其分布式实现;频繁模式挖掘分析算法及其分布式实现;协同过滤、概率矩阵分解推荐算法及其分布式实现;提供分布式挖掘算法的统一操作原语和执行引擎。数据仓库:数据仓库提供针对海量数据进行高效的查询和分析。涉及同时支持关系数据库、NoSQL数据库、以及分布式文献系统进行数据存储和加载的多存储引擎,基于MapReduce框架针对海量数据的高性能查询和分析,以及MapReduce框架本身含有的高扩展性和容错性。非构造化数据管理:非构造化数据不包含内嵌的语义构造描述信息,而信息系统需要结合其“内容”而不仅仅是数据本身进行查询、检索、分析与挖掘,因此非构造化数据管理系统需要实现非构造化数据的数据提取,提取的非构造化数据是进行后续解决的基础,具体涉及构造化信息和底层/高层特性的提取两个。非构造化数据提取组件依赖于分布式文献系统和非构造化数据存储提供的原始数据作为数据源数据,依赖于非构造化数据存储来存储提取的元数据或者特性数据,依赖于并行计算框架来分布化执行过程,加紧执行速度。消息总线:涉及主数据管理、集中身份管理、应用集成开发环境、集成监控管理等。满足集成平台的应用需求,支持界面集成、信息集成、服务集成、流程集成等集成方式。分布式计算系统:涉及分布式文献系统和分布式计算框架。分布式文献系统以高可靠的容错机制为核心,系统架构涉及多元数据服务器、多数据存储服务器、多监管者、多客户端,支持大文献和大数据块的分布式存储与管理;分布式计算框架基于MapReduce与MPI计算模型,提供了一套并行计算框架;并运用物理机以及虚拟机的监控信息,实现对计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论