数据仓库建设方案_第1页
数据仓库建设方案_第2页
数据仓库建设方案_第3页
数据仓库建设方案_第4页
数据仓库建设方案_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

系支持传统的OLAP分析及基于Spark常规机器学习算是指从TCMS、车载子系统等外部信息系统汇集数据专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子问题指标进行预警。具体采集系统技术结构图如下:•冗余.1数据汇集架构功能ecoker采集架构优势(一)解耦数据丢失风险。在被许多消息队列所采用的“插入-获取-删除”范式中,在•扩展性•灵活性&峰值处理能力•可恢复性•送达保证••缓冲•异步通信很多时候,你不想也不需要立即处理消息。消息队列提供了异步处理机制,TL数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。车00*2*160*100*18/1024/1024/1024≈2G67列列车年数据量=2*67*365/1024≈48T10年,加上系统用户信息、系统日志信息、专家信息、业务数据及RDBMS的监测数据为保证专家系统安全、稳定运行,在数据库系统上支撑各种统计分析及传10年数据量=530T*1.5≈800T(2倍冗余存储)S取,通过对数据的加工处理,将单一的数据信息转换成体系信息,将点信➢主题数据层:将数据信息体系根据各主题进行提取与转换,主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视大数据平台提供数据挖掘模型、分布式计算引擎、高性能机器学习算法库(包含分类、聚类、预测、推荐等机器学习算法)、即席查询功能,可以帮助决策者分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为数据序列的预测及相关关系的研究中去。如我们根据这个概率可以做垃圾邮件预测,从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联➢推荐算法➢神经网络模型一类是以用于分类预测和模式识别的前馈式神经网络模型;第二类是用于联想记忆和优化算法的反馈式神经网络模型。第三类是用于聚类的自组织映射方法。➢深度学习负载等各类性能相关指标进行监控,以便掌握平台负载情况,及时发现性能问题,询检索功能,可以按组件类型、时间、关键字等进行过滤。大数据平台开放存储访问接口,提供基于Hadoop技术体系的HDFS、HBase册进去,再以标准化接口开放给应用系统使用,支持多种协议转换、服务质量控制、访问控制、规则引擎等。数据服务层将大数据平台的数据服务能力开放出去,提供基础资源的服务能力。数据服务总线通过服务治理来维护基础资源服务能力,并通过访问控制、服务质量、协议转换等,对应用提供多协议支持。平台支撑体图红线标出部分。估车辆对比分析其他案运维管理运维管理数据服务编程API多维分析数据共享数据检索机器学习编程API数据计算/存储实时计算Storm实时计算StormHbaseSpark离线计算MapReduceYarn(计算资源管理)Yarn(计算资源管理)主数据仓库HadoophdfsHadoophdfs(分布式集群)非结构化/半结构化数据标准化数据结构化数据ETL工具KettleETL工具KettleFlume关系数据库连接Sqoop分布式消息afka实时采集批量采集实时采集批量采集数据源车辆部件知识数据指车辆部件知识数据指标信息数据能耗信息数据据和分布式计算能力。提供的存储框架能力,包括基于结构化数据存储、非结构化数据存储和半结构化数据存储,其计算框架与存储框架均是分布式集群方式部署,可以平滑的进行弹性扩容。数据服务层:数据服务层主要由数据服务接口来实现,对应用提供数据支供不同的应用系统使用。数据应用层主要提供基于该平台来构建的专家系平台支持多中异构数据源,针对不同数据源的不同数据,也提供多种数据tData整合,集成以数据为核心的查询、分析和管理能力。采用分层整合,以容器的方式,可轻松灵活的在线进行装卸,以平滑扩充大数据平台的集成能力。•计算框架:主要提供批处理计算、内存计算、流式计算框架,由数据处理•数据仓库:主要对计算框架完成后的结果进行存储,支持Hbase、MSSQLServer去。•数据处理算法库:集成通用的数据分析算法、能够插入用户自定义的数据持资源调度,弹性伸缩。广泛适应性:支持结构化、半结构化、非结构化数据;支持实时数据。巨量数据:数据处理能力在PB级以上。线性扩展:存储、计算均可增加节点进行线性扩展。统一运维管理:降低安装部署、运营、维护成本。经济性:可运行在普通X86服务器上,硬件成本低。高可靠性:支持容灾容错、备份恢复机制,支持自动告警。支持节点可靠数据安全:支持数据加密。负载均衡:支持节点间存储、技术负载均衡。op的服务组件的健康状况。态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop(1)、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任(2)、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高(3)、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自图:磁盘性能监控当大数据平台出现异常情况时,平台能够通过监控系统,对服务器节点宕机、大数据平台能够通过对告警信息的分析,快速定位平台内部出现故障的节点,正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行。平台管理资源的使用与分配服务视图:提供系统中各服务资源使用情况的实时查看,包括连接数、监控系统的运行情况数据汇聚过程监控:监控系统的数据汇聚过程,包括使用资源信息,使用的数据源信息,作业进程运行状况信息,使用时间/计划完成时间等数据处理过程监控(作业监控):监控系统的数据处理(作业)过程,系统异常告警与处理存如下:12345RDBMS数据库服务器大数据平台管理点大数据平台管理点大数据平台数据点大数据集群性能检测服务器支持8GB/16GB/32GB/64GBDDR4高速内存14*4TNLSAS硬盘。支持8GB/16GB/32GB/64GBDDR4高速内存3*4TNLSAS硬盘。支持8GB/16GB/32GB/64GBDDR4高速内存3*4TNLSAS硬盘。支持8GB/16GB/32GB/64GBDDR4高速内存12*4TNLSAS硬盘。支持8GB/16GB/32GB/64GBDDR4高速内存2111双机备份ActiveStandby数据节点监控节点3*43*4TNLSAS硬盘。6应用服务器UEv≥24个内存插槽,最大支持5个2.5寸SATASAS/SATA+16个SAS硬盘应用服务器7机8安防设备9工作站说明:硬件部分交换机、防火强及工作站,请根据标书确认!大数据服务器、RDBMS数据库服务器及应用服务器的具体配置参数请硬件朋友和标书上进行重新确认,这边只对内存应用层展示应用支撑层基础平台层数应用层展示应用支撑层基础平台层数据采集层专家管理系统车辆故障树诊断分析车辆部件指标检测报车辆故障树诊断分析车辆部件指标检测报警车辆检修预案车辆对比分析车辆健康评估车辆部件更换预案化权限控制报表引擎身份认证应用服务组件界面定制引擎报表引擎身份认证应用服务组件界面定制引擎SOA服务大数据分析消息队列权限管理引擎日志管理大数据分析算法大数据查询适配器机器学习分析适配器频繁模式挖掘大数据查询适配器机器学习分析适配器频繁模式挖掘聚类算法分类器rchAPI标准规范中文分词词频统计关联算法推荐算法线性回归频繁子项挖掘...推荐算法线性回归频繁子项挖掘...数据资源管理大数据资源管理大数据基础平台RPigHIVE分布式计算框架/Yarn业务规范内存计算/spark+shark车辆部件知识库车辆部件知识库分车辆故式协作监测指服标信息务车辆能耗信息集群监控集群监控...修信息(实时、分布式、高维数据库)HDFS(分布式文件系统)监控预警数据编码格式转换数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论