版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据治理平台建设与应用解决方案大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据时代到来,我们已被海量数据信息包围刑侦信息舆情信息监测数据用户信息风险信息管理数据数据广告数据舆情数据搜索数据研发数据社交数据第三方数据电信持有大量用户数据,对数据资产的售出,将成为行业的新增长点。金融各行业的金融信息流可结合第三方数据,更深入分析客户情况。制造从传统制造到互联网+的转型,大数据是核心动力政府大数据已经成为国家战略,政府机构大数据将能够更好的治理社会电力大数据资产已经成为电力行业的关注重点,利用大数据在生产,营销,物资等多方面提高效率现阶段我们已经应用了很多大数据技术大数据存
2、储应用广泛,具备大数据必备因素现阶段大数据技术Hive、Spark、Storm、Hbase已使用广泛,解决了大数据存储问题。ETL工具、FLUME组件负责大数据交换问题大数据存储数据的传输问题也有大数据组件解决,如Flume,主流ETL工具等。数据BI、数据挖掘通过数据BI软件、数据分析挖掘通过大数据平台的相关组件也可以进行相关分析。实施了大数据项目,所采用的技术众多SparkHiveStorm流处理HBase列存储数据挖掘BI分析模型算法现阶段已经有了众多的大数据技术团队产品提供商数据分析厂商数据产品厂商,缺乏场景使用经验数据平台厂商与数据应用厂商往往不是一家,平台厂商缺乏数据应用建设经验。
3、我们还需要哪些数据建设厂商?数据提供商平台提供商解决方案提供商业务算法提供商数据应用厂商不能理解平台内数据业务含义具有涉密数据开发资质的厂商有限,但并不了解大数据平台内部数据的含义。各厂商之间交换的数据质量得不到保证大数据建设项目被分为数据平台、应用、业务等多个独立项目和厂商,之间的衔接部分没有人管理,造成数据质量差。众多数据建设厂商,还缺哪个?能否有效的解决大数据快速、透明化的使用大数据平台没有创新需求点数据使用者无法理解数据模型平台建设厂商不懂数据拿到的使用数据根本没法用业务需求业务需求集中响应众多大数据厂商难以协调厂商管理之间的空隙没填补数据质量问题来回推诿管理需求需要专业的大数据管理团
4、队大文件数据传输慢大数据量实时传输没有解决方案没有统一的技术管理平台跨平台数据问题无法追述技术需求需要全面支撑的落地平台大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据平台化的发展趋势与现状数据源存储层访问层数据应用数据应用数据应用厂商 X厂商 Y厂商 Z应用百花齐放传统的应用按照业务建设,一个厂商需要负责数据采集、存储、数据应用等全部过程;大数据时代,技术更加专注和专业,系统建设趋势是采用横向切分模式。数据中心集中建设需要解决“应用和平台分离”建设模式带来的新问题。厂商X:只了解业务系统特性,对于大数据平台需求平台产品特性不清楚。厂商Y:我只是提供数据存储平台,不了解
5、业务建设需求。厂商Z:我只是提供数据共享平台,厂商X的数据特性平台无法支持,产品不能动。应用:我有数据分析经验,但是我拿不到高质量的数据。目前拿到的数据不能用。大数据项目实施中遇到的哪些问题?电信政府个人电商数据管理数据源基础数据区专题数据区大数据平台 建设厂商1大数据平台数据服务数据应用厂商2数据服务BI分析3质量监控数据接入管理不规范:数据模型管理缺乏规范化体系,大数据平台内数据的技术、业务属性不清晰,没有完善的数据模型管理体系与规范。数据挖掘数据使用使用不明确:由于数据业务特性与使用方法不统一,难以对结构化数据、半结构化、非结构化数据的快速集成和共享。监控不到位:在实际数据运行中,会出现
6、数据信息发生中断异常或数据量发生突然变化等数据异常监控。无法通过传统的监控手段及时发现。管理使用监控批量导入实时同步场景一:建好数据管理体系,快速识别数据大数据平台数据分析数据挖掘数据接口数据使用 元数据数据如何快速识别数据?如何自动化管理?如何快速找到样例数据?我的数据都在哪里?数据的业务特点是?我该找谁要数据?建议:1. 自动化获取元数据信息通过自动化采集与解析手段,建立技术、业务、过程元数据的注册输入,标明数据方位。2.标明数据方位,整理业务属性将数据资产按业务属性编目,梳理数据的属性、共享方式、特性、映射。3:建立业务数据服务目录以数据资产为驱动方式,实现数据集成和共享。建立数据服务目
7、录。数据资产模型元元模型元模型场景二:建立专业的数据共享通道,高效使用数据大数据资源空间资源实例数据模型数据资产服务数据资源模型数据资源服务内存数据服务数据库服务资源服务内存数据模型CRUDCRUD资源获取资源同步元数据库批量数据交换?我需要秒级更新数据?数据太大无法传? 建议:1.梳理数据交换需求梳理数据集成、交换需求。按技术特征划分为实时、准实时、批量等。2.数据资产与服务对接基于数据资产的数据开发,实现资产与数据服务的对接。通过服务目录直接获取所需数据。批量实时场景三:提供专业的数据监控体系,快速发现问题。数据源头监控 针对调度监控和数据源相关监控过程中的数据进行整合形成数据源头调度监控
8、的分析报表。数据波动监控 数据抖动监控是指通过对数据记录数的监控,在一段时间周期内,通过折线图的方式可以查询一段时间内数据的峰值和低谷。及时性监控 数据文件及时性监控是指通过对要采集到大数据平台的内部或外部文件进行存在性和按时到达性的监控手段。一致性监控 数据一致性监控是对采集时的数据记录条数和入库的数据条数进行一致性比对,对不一致的数据采集作业进行标记的一种监控。日使用流量(MB)6月 7月数据不一致怎么办?数据量异常波动?数据源变更怎么办?建议:1.明确重要监控指标梳理数据平台、MPP、Hadoop平台的重要数据监控指标与监控需求。2.建立多渠道监控方式对接数据监控平台,以以邮件、短信等通
9、知方式告警。我们需要什么样的大数据治理平台?可以灵活扩展支撑业务变化,保证业务数据保质量、标准化基于模型的数据获取数据,基于数据模型管理,可以让技术与业务人员通过平台可以迅速找到对应的数据资源。数据获取方式灵活多样,可支持配置化数据订阅管理支持灵活的数据订阅方式,以支推,拉的数据订阅数据与服务接口对接。可以快速的获取到想要的数据活文件。支持多种数据预警机制,随时发现数据任务执行过程中所遇到的问题支持执行任务的全过程监控,执行数量监控,数据波动、数据到达预警监控等,并支持多种信息通知方式,如短信、邮件等。基于数据模型管理提供数据监控预警机制可对接多种数据源支持多种数据获取方式支持现有主流的大数据
10、技术平台的对接可对接现有的大数据Hive,Spark,Strom流数据等主流的数据结构,分为实时数据和批量数据的对接方式。大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据平台的核心价值转变管理思路管理职责管理组织自己应用方便别人提供数据服务数据管理数据开发数据应用专业的服务团队业务开发运维全栈能力团队通过大数据治理,提供数据服务,从管理中心转变为服务中心通过大数据治理,变现数据价值,从成本中心转变为利润中心传统数据管理创新数据管理大数据治理平台的定位采集数据传感器数据社交媒体IT/OT图像视频三方数据信用数据通信数据网络数据客户数据大 数 据非结构化数据非/结构化数据实
11、时流数据数据发布交易运营生产分析交易运营生产分析业务创新业务创新业务创新业务创新交易运营财务人力数据数据数据数据大数据治理平台治理数据用大数据治理连接大数据与业务创新服务服务数据开发大数据治理平台的架构特征传统大数据平台框架大数据平台分析展现应用数据源大数据治理平台 数据服务总线大数据平台需求规范以数据存储、处理为核心的传统数据管理平台过度到大数据治理平台数据应用 数据开发平台数据监控平台数据资产平台1大数据治理平台传统大数据平台234企业中哪些角色会直接使用到大数据治理平台业务运营人员业务系统开发人员大数据中心管理者大数据中心开发者 业务运营人员是企业各业务部门一线的业务人员,拥有大量的数据
12、使用的需求。但通常并不了解大数据中心的数据能力与企业内部其他部门的数据情况。 业务所属部门的系统开发人员,主要提供所负责业务系统功能开发与业务创新的IT实现。但往往不清楚大数据中心数据的特性。往往把业务人员提出的需求交给数据中心实现。 大数据中心的管理员,负责大数据中心的运营与管理。负责采集与各业务系统的数据,接收各业务系统的提出的数据业务需求。并负责给数据消费者提供必要的大数据支撑。 大数据中心的开发人员,负责大数据中心的数据ETL加工,并数据管理中心批准的数据需求进行开发。通常需要面对各业务部门的需求,难以了解业务部门的数据特点。大数据治理平台的数据使用流程业务运营人员1.提出数据需求业务
13、系统开发人员2. 查找数据5.确认数据需求大数据治理平台3. 返回数据4、7.交付数据大数据中心管理者大数据中心数据中心开发人员6. 返回数据80%数据使用需求20%需开发数据需求交易运营生产分析数据消费方数据提供方大数据治理平台总体功能架构图关系数据库对接数据资产平台数据监控平台日志监控性能监控主机告警安全管理需求/流程服务标准与流程数据使用流程元数据规范数据申请规范数据质量规范服务共享规范数据管理流程等标准管理流程应用治理规范数据服务总线标准检查数据地图版本管理流向分析质量检查资产编辑数据使用分析应用调度管理服务管理路由管理文本数据对接流数据对接内存数据对接波动监控数据开发平台模型设计接口
14、应用资产采集适配器资产维护编目资产使用运营管理调用管理审计管理模型开发过程开发服务开发目录管理策略管理接口开发模型管理资源查询服务规范大数据治理平台总体技术架构图 DB FIleStream业务数据RPC调用ETL调度监控大数据平台专题库分析模型数据模型服务发布服务服务监控服务安全数据服务总线服务分类服务注册服务订阅服务查询数据订阅数据分发服务目录库存储模型组件转换模型组件文件模型组件数据开发数据接口应用数据分析应用业务分析应用数据加工应用数据预测应用资源层开发层数据共享/发布层 数据应用层BFTHiveSparkESB采集组件解析组件加工组件大数据治理平台架构-数据资产平台功能架构图数据资产
15、采集采集调度管理采集适配器管理数据资产使用数据资产关系维护数据资产管理/编目数据资产维护采集模板管理数据资产数据源管理采集任务管理采集模板映射管理采集日志管理数据资产分析数据资产权限数据资产访问资产变更服务资产分析服务数据资产检索数据资产统计影响分析血统分析资产订阅资产使用情况数据资产地图全链路分析编目管理打标签数据资产认责管理数据资产质量管理应用企业全局数据资产升级影响数据问题定位辅助开发 元模型管理元模型关系维护元模型设计器元模型设计器元模型设计执行元模型反向生成图形模型框架元模型版本管理数据资产模型设计Excel采集Hive采集DB采集 视图管理版本管理状态管理大数据治理平台架构-数据资
16、产平台逻辑架构图DB文件接口数据资产接口服务数据资产管理数据资产分析统计数据资产存储元模型管理数据资产采集资产存储数据开发数据监控数据应用大数据治理平台架构-数据资产平台关键技术与特性多类型企业数据源数据资产采集解析算法采集调度入库策略采集解析模型组装数据入库数据采集适配技术采集适配业务采集适配 数据模型技术模型业务模型 数据资产存储TDDB2Oracle数据资产存储数据资产元模型存储采集配置存储2、可插拔的采集适配器,支持数据资产管理的无限扩充1、解析、组装、入库过程分离,实现数据资产采集和存储解耦3、采用MOF模型规范实现数据资产扩展存储数据资产平台给客户带来的价值建立统一的第三方数据审核
17、机制,不依附于某个业务单元的数据特性,对数据资产重新定位;基于系统运行态环境的元数据采集,真正做到以系统落地环境为基础的数据资产梳理;建立统一的数据模型视图,为业务管理人员方便的获取到数据提供先决条件;基于MOF可扩展模型,对业务模型扩展无需改动代码,节省团队管理成本; 快速辅助定位问题,出现数据问题可辅助定位与分析问题的根源,迅速响应业务需求;数据资产平台权威落地统一扩展分析大数据治理平台架构-数据开发平台功能架构图批量资源导入基本信息维护资源关系管理资源展示配置资源目录管理编目管理在线数据维护模型检索资源检索基础查询维度查询人员管理权限管理 角色管理条件查询策略定义策略管理策略开发自定义开
18、发模型设计模型管理交换模型开发交换作业开发加密策略交换策略关系维护配置管理交换作业开发交换组件管理脱敏策略监控策略策略开发数据开发数据资源管理存储模型开发数据交换开发策略配置数据资源探查系统管理模型设计模型管理关系维护存储开发文件交换开发服务接口开发服务接口配置应用组件配置组件管理服务接口开发策略管理资源探查大数据治理平台架构-数据开发平台逻辑架构图数据资产数据开发层数据共享层批量数据HadoopMPPFile策略管理数据模型开发数据开放门户资源发布开发者门户运营者门户数据交换作业开发文件交换作业开发数据资源管理数据服务目录数据库文件数据接口使用者门户数据资产管理数据资源目录资源探查大数据治理
19、平台架构-数据开发平台技术与特性大数据模型数据服务层结构描述约束结构描述约束关系资源模型服务资源池服务服务服务服务接口目录接口应用服务服务服务服务数据开发1、以数据服务目录为基础的目录提供形式,快速找到所需数据。2、数据开发层,以数据资产、模型为基础的资源开发。将模型开发与数据发布共享剥离。数据开发平台给客户带来的价值提供图形化的开发界面,颠覆以往的数据只能写SQL代码的情况。直观并可提升开发效率;复用结构化的组件,利于知识积累与复用。避免人员变动带来的无形中的学习成本;针对业务特性对现有的数据资产进行编目开发,让数据使用者直观理解数据的含义;以数据资产模型为驱动力,实现数据集成与共享的服务创
20、新开发模式;让项目中的各数据实施厂商都使用统一的数据开发方式,避免技术实现不同所带来的壁垒;数据开发平台提升复用易懂创新统一大数据治理平台架构-数据服务总线功能架构图服务资源目录中心数据服务总线总线监控中心节点管理服务管理节点注册服务信息的全网同步节点审批服务注册服务审批扩展管理分类管理发布管理服务检索服务维护服务管理服务调度调度管理资源扩展路由管理路由服务路由规则数据交换消息交换文件交换服务调用鉴权管理资源查询流交换断点续传重发处理优先级访问控制服务编排缓存管理节点监控启动管理停止管理异常管理服务审计传输监控质量管理统计及上报服务监控启动管理停止管理异常管理数据服务总线基础服务组织机构管理用
21、户管理角色管理日志管理流控管理元数据管理服务视图系统安全标准规范大数据治理平台架构-数据服务总线逻辑架构图文件服务开发接口服务开发数据消费者接入认证接入路由服务路由配额管理接口服务文件服务流媒体服务数据共享层数据传输引擎统计引擎数据服务处理引擎数据开发层数据/文件 订阅接口运行监控引擎元数据管理数据采集管理数据资产资产运营管理数据服务注册管理大数据治理平台架构-数据服务总线关键技术与特性标点数据服务总线重点解决高性能和高可用性能力单Server处理能力:采用SEDA架构、轻量级部署架构(直接部署JVM之上)、异步Servlet接入等技术分布式横向扩展能力:采用灵活的集群部署模式、配置热更新、资
22、源统一监控超量请求资源配额请求积压基于队列有策略丢弃外部不稳定异步通知异步多线程模型-SEDA特点逻辑分段段之间基于队列通信资源分配ESB实例2ESB实例3ESB实例4ESB实例5硬件C硬件DESB管理服务器ESB实例1ESB实例n硬件A硬件B通过控制台对多个 ESB Server 进行统一管理跨机器、跨 JVM部署配置更新、统一监控单实例处理能力分布式扩展能力数据服务总线带来的价值多渠道的数据共享方式,包括数据接口,文件,数据库等,保证业务实现的可行性;提示实时的数据解决方案,支持流数据传传输方式,保证业务数据的及时性;对于海量数据与音视频文件,提供快速的大文件传输机制,快速获得大数据;全方
23、位的数据流量统计方式,让数据的获取与使用更加的透明化;数据的集成与共享,提供数据加密、数据脱敏等配置策略,保证数据的安全性;数据服务总线渠道快速海量统计安全大数据治理平台架构-数据监控平台功能架构图导入导出资源操作日志用户权限管理数据文件及时性监控数据文件完整性监控数据条数监控数据文件大小监控数据源连通性监控服务运行情况监控服务访问情况监控服务依赖关系监控数据抖动监控数据源管理ETL服务器配置邮件服务器配置调度服务器配置代理服务器配置数据一致性监控作业异常监控监控规则及方法专题库质量监控执行源数据质量监控执行文件元模型监控数据库元模型监控接口模型监控元数据变更影响范围监控前台告警短信告警邮件告
24、警元数据监控分析报表数据质量监控分析报表数据传输监控报表数据服务监控分析报表数据传输调度监控统计分析质量监控数据标准落地监控数据服务监控告警提醒系统配置元数据监控大数据治理平台架构-数据监平台逻辑架构图数据服务总线政府数据城市数据内部数据数据资产人口数据.外部数据E(抽取)流处理数据开发T(转换,清洗)L(加载)离线数据采集实时数据采集大数据平台其他应用平台业务应用分析类应用人员类应用预测类应用挖掘类应用大数据平台治理七条监控线A专题库B专题库C专题库大数据治理平台架构-数据监控平台关键技术与特性 数据采集监控是指对外部和内部的离线数据和实时数据进行采集记录数据层面的监控,如:数据文件大小,数
25、据文件记录数,数据文件增全量采集,采集频率等的监控及预警 实现大数据平台中离线数据计算处理ETL执行的监控,如作业的启动情况,作业的执行情况,作业的依赖情况,作业的执行时效,作业状态,作业执行日志。 对数据质量进行统一闭环管理,覆盖数据质量的定义、监控、问题分析、整改和评估,推动质量问题的解决。围绕数据质量管理,建立监控机制,如,及时性、完整性、准确性、有效性等监控及预警。 实现大数据平台数据到达情况监控和数据分发成功与否监控,数据到达是指采集的数据文件或DB数据是否按约定的时间节点准备就绪,对问题实现预警;数据分发是指大数据平台中的数据及时传递到目标端的监控。 数据服务总线服务监控管理,服务监控包括,服务运行情况,消费者访问情况,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电池制造中的人力资源管理与招聘培训考核试卷
- 海水淡化处理中的关键装备与材料考核试卷
- 植物油加工中的产品研发与创新考核试卷
- 仪器仪表制造业的品牌推广与传播考核试卷
- 区块链在教育中的应用考核试卷
- 春节团圆安全生产的领航者考核试卷
- DB11∕T 1767-2020 再生水利用指南 第1部分:工业
- 黄色梅花课件教学课件
- 谈心交流课件教学课件
- 淮阴工学院《理财规划》2022-2023学年第一学期期末试卷
- 船舶租赁尽职调查
- 统编教学小学语文课外阅读《细菌世界历险记》导读课课件
- 植物生理学-植物的逆境生理
- 【课件】比的基本性质
- 小学英语人教新起点五年级上册Unit3Animalsunit3storytime
- 2023年江苏省淮安市中考化学试卷
- 医疗质量管理与持续改进工作记录
- 小学英语名师工作室工作计划2篇
- 中国旅游嘉兴风土人情城市介绍旅游攻略PPT图文课件
- 出口退税培训课件
- 校外培训机构消防演练方案(精选10篇)
评论
0/150
提交评论