大数据相关技术资料_第1页
大数据相关技术资料_第2页
大数据相关技术资料_第3页
大数据相关技术资料_第4页
大数据相关技术资料_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据平台1大数据平台技术架构:数揭开发平台、OLAP平台sparkDataSource数据厂发任务调度DataCubeJScala/Java SQL Streaming MlLib RDataFrameRDD元数据HDFSHiveHBase MySql Kafka蒙提黑成filesLogSys logBinlog2具体产品介绍(1)集成数据开发平台平台框架:数据开发平台5M架构图M浦川户i g管理知IPfl鼎 1*. AeJ i *I -i仔将胃里道任弱度执行层II传打立分精善 II1任毒及布基I任尧调俎王以第口各第情况常信rxnalr 5;$鼻总认需出外支机葭力篇sy任务认校执行任务玳行犹

2、由修芬E文班俄中潴海or km NH iV*尔tMit*XSc/i;口 1-.1Esecyt r Exfrcxrtr ExeculcrE axu七疝rE icrcuter衽植且1 J ftUkCXA 11 配或CEiI技术方案:基于状态机(State Machine )、微服务(内嵌 Rest RPC Console服务端等)、SVGAngularJS图形化、高可用解决方案(最终一致散列、服务发现、头节点选举等)提供了一个易用的图像化配置大数据任务依赖关系,人工监控和重跑干预任务执行状态的大数据开发工具,整合了平台现有 MR/Hive/Spark/SparkSQL/SparkStream/Sq

3、oop 等任务类型。降低大数据平台用户的使用门槛,提供强大的任务流依赖、调度功能。主要实现的功能:(1)任务流管理:任务流组织:以拓扑结构方式直观展示任务之间依赖关系任务配置:任务项配置,支持源数据、目标数据、资源、参数等配置运行测试&日志查看:线上任务试运行及日志展示,可根据日志调优。数据探查:数据预览帮助数据质量控制,做到把控数据来源,提升准确性。导入导出:任务流可导出为 ZIP文件,ZIP文件保留任务流中所有信息:流的属性,流内任务的配置、任务节点位置、连线等草稿任务:类似于回收站作用,作为任务缓冲地带,可将草稿任务移到具体任务流中。资源中心:事件管理:事件管理及事件触发记录查询。任务组

4、管理:将任务加入一个任务组,设置最大并发数,实现流量控制。资源管理:用于配置任务的时候选取公共资源。运维中心:任务流运维:任务流批次及状态展示,可根据时间范围、状态等筛选项进行筛选。任务运行状态:任务运行状态查询。可根据任务执行时间和执行结果等筛选。任务执行报告:任务执行情况及统计信息分析。影响分析:任务失败原因和造成的影响查看。信息看板:任务完成情况、告警展示、任务执行时长排行、调度任务数量趋势、出错排行、任务类型分布等信息汇总展示。(4)告警管理:监控范围:系统监控(队列深度、健康状态等)、任务监控(超时、延时、报错)。告警类型分为任务超时告警、任务失败告警、关键任务告警、定时失败汇总、定

5、时关键任务汇总。配置告警接收人员,通过工号/姓名检索人员并添加,告警方式有邮件、短信、豆芽,可多选。调度平台:任务类型支持:支持Hive任务、MapReduce任务、Javatt务、Python任务、SparkSql 任务、Spark任务、机器学习任务等多种类型任务执行。后台管理:支持日志查询、信息汇总、告警查看等平台运维相关需要。调度策略控制:支持任务依赖策略、时间策略、控制策略、并发策略、事件依赖策略等多维度策略控制。(6)事件生成和引用:事件生成:流内任务可通过右键菜单生成事件,生成的事件类型为任务事件,生成的任务事件需要定义事件名称和事件描述;引用的事件分为两种类型, 任务事件和FTP

6、标识文件事件,用户检索需要引用的事件并应用于任务前置条件中;引用任务事件需要做依赖检查,只能调度频率大的依赖小的,如月依赖日、日依赖小时;全依赖支持:支持天级别类型任务依赖小时任务,月类型任务依赖天类型任务,小时依赖分钟任务;异常处理:重跑:拓扑图中失败状态的节点可进行重跑操作。补数据:可选择单个任务,或者多个任务(可跨流),多个任务一起执行补数据操作。停止:停止任务运行,停止状态下再次运行为重新执行;暂停:暂停任务运行,暂停状态下再次运行为继续上次运行;忽略:对于某项任务前置任务未执行完成,且此前置任务不重要,可对前置任务进行忽略操作。忽略的任务不在运行,自动进行下游任务运行;(8)任务流运

7、行状态:以拓扑图形式查看任务流运行结果,每个任务运行状态,运行成功/失败有颜色差异体现;可基于任务流名称、时间选择、责任人、任务类型、调度方式、执行频率、运行状态检索实例。检索出的实例按照所属任务流进行分组,第一层展示任务流信息包括:任务流名称、任务流描述、责任人、执行频率、创建时间、发布状态、操作(展开 /收缩);第二层为实例信息包括:实例 id、所属任务流、责任人、调度方式、执行时间、执行结果、操作(查看运行分析);任务分析详情页,展示任务流拓扑图、每个节点执行状态、任务执行报告。在拓扑图中可右键对任务进行异常处理,异常处理包括:重跑、补数据、停止、暂停、忽略、查看日志。异视角可切换为全局

8、视角,全局视角展示当前视图的任务流上下游任务流,并体现关联实例的运行状结果。平台应用: 智能产品数据采集服务:用户使用产品的行为数据,产品运行过程状态数据智能产品数据共享服务:产品和产品之间数据共享协作服务(2)机器学习平台;平台框架:机器学习平台应用架构图应用层模型开发人员 覆断发 q 蝇访融 立嗓皆理 :;峪 停止, -圜形化配置叁数配置|三后曾理状态姆户室单箍排分美评佶聚美评的 鸵回归浮佰铝体管迤襦助信息准护再够用能;I应用茸法11应腆1则I控,措理明行引擎:数据处埋平台服务层实脸DAG作m金坛调安宗境集成拙强控目志收星茯态却埔计分析数据可视牝数据宾成效燃L型特在工程模暨评估模2名用戛毫

9、黑戒嘲流应用置业发用有/箕生专氢苴法干5士才用专盟其旅一应用专筵其去 , L I 1图计算深度学刁基和层分类回归聚美球RPython基即平台HCF3技术方案:待补充主要实现的功能:平台应用:机器学习本质是使用样本数据或以往的经验来解决给定的问题,主要应用在数据挖掘场景下,即指从大量的数据中通过算法获取隐藏于其中信息的过程。机器学习在金融、市,银行分析历史数据,场营销、制造业、网络分析和电信领域都有较多应用。在金融领域 构建用于信用分析、诈骗检测等方面应用模型; 在市场营销领域,机器学习技术较广泛地 应用于分类型和关联型任务例如,购物篮分析通过找出顾客购买的产品的关联,制定出产 品组合销售的策略

10、,货物位置的摆放,产品促销和产品库存。在制造业,学习模型可用于 优化、控制以及故障检测等;在电信领域,机器学习技术在分类、预测和侦查型任务方面 均有较多应用。例如,欺诈侦查通过收集过去的欺诈行为数据,建立的模型可以有效的鉴 别类似发生的电信欺诈行为。在网络分析领域,机器学习技术应用较为广泛的是关联型任 务。用户在应用数据挖掘技术时,应充分了解各种技术与方法的优势与劣势 ,针对特定的 环境与任务选择合适的技术。(3)元数据管理平台平台框架:,据急元数据业竟功能信息抽取、分析Meta -InfoMeta-Into历史灰血?*耗响分析望出元数强血簿分析Hw已表是 础元数据兀数据维护UI信息加支LI执

11、行历史,技术方案: 从Hive的Meta-Data DB中抓取Hive表、字段、表授权等信息,自动采集 Hive仓库基 础及管理元数据信息,并基于 CBT的任务配置信息分析 Hive表之间的数据血缘。在提 供Hive仓库维护功能之外,提供数据血缘影响分析,提醒用户维护操作的影响范围主要实现的功能:平台应用:元数据主要意义:全企业的信息地图,通过自动化的多源头元数据采集, 自动分析汇总,形成完整的企业数据地图,使用户能够从全局视角审查企业整体数据状况;数据来源的追溯,使用元数据产品能够,方便内部管理、审计或外部监管的需求追溯业务指标、报 表的数据来源和加工过程;数据来源的追溯,使用元数据产品能够

12、,方便内部管理、审 计或外部监管的需求追溯业务指标、报表的数据来源和加工过程;数据共享,最大化提高数据应用价值,实现产业链间的数据共享;(4)智能计算平台平台框架:In memory file system(Alluxio)cluster resource manager(Yan)技术方案:支持各种业务场景下的大规模离线、实时、准实时数据的计算和存储;主要实现的功能:平台应用:1智能产品数据采集处理服务:用户使用产品的行为数据,产品运行过程状态数据;(5) OLAP数据引擎与自助报表平台框架:NqSQLHadocp实时处邺力自蒯艮表r数据热e口 LA吩析可视化数据展不r SQL引擎REST服务

13、数据路由模型管理数据服务租户管理缓存管理集群管理指标服务;一素引;编码压缩分区count数据处理列式存储于就十算WLGroua取DistinctHDFSRDBParquet数据存储Kafka技术方案:整个OLAP引擎平台使用列式存储、编码、倒排索引、分区、 Hypelog等技术加快统计汇总性能,具有很好的可扩展性和高可用性,使得可以在秒级处理百亿到万亿的海量数据。提供实时和离线处理两种模式。该平台综合使用了 druid、kylin、parquet、hbase sparksql等多种开源工具,通过 SQL引擎和数据路由,智能的根据解析优化SQL语句来分析使用哪种底层技术可以达到最优效果。该平台支持SQL2003和UDF,客户可以很方便的通过SQL进行多维度的汇总统计分析。前台提供各种数据可视化分析工具,方便用户做上卷、下钻、切片、旋转等各种OLAP操作,可以自由的对数据进行深入分析、展示,发现数据之间的关联关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论