大数据治理平台建设方案_第1页
大数据治理平台建设方案_第2页
大数据治理平台建设方案_第3页
大数据治理平台建设方案_第4页
大数据治理平台建设方案_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据治理平台建设方案 TOC o 1-5 h z 大数据治理平台的现状3大数据治理的概述51大数据治理概念6 HYPERLINK l bookmark34 o Current Document 大数据治理目标7 HYPERLINK l bookmark37 o Current Document 大数据治理模型7大数据治理体系231数据连接24数据建模243统计报表25决策仪表板25数据大屏25大数据治理核心领域261大数据模型26 HYPERLINK l bookmark46 o Current Document 大数据生命周期27大数据标准28主大数据30大数据质量31大数据服务33 HY

2、PERLINK l bookmark61 o Current Document 4.7大数据安全345. 大数据治理保障机制355. 1制度章程355. 1. 1规章制度355. 1.2管控办法355. 1.3考核机制35 HYPERLINK l bookmark64 o Current Document 大数据治理组织375. 2. 1组织架构375. 2.2组织层次385. 2.3组织职责39流程管理41IT技术应用425. 4.1支撑平台425. 4.2技术规范44附件A大数据治理平台规范46附件B大数据质量评估办法65附件C大数据质量管理流程69第 页关于大数据治理的理解面对我们身边每

3、时每刻迅速增长的庞大数据,因为其数量大、 速度快、种类多和准确性的特征,如何更好地利用大数据创造出有 意义的价值,一直是我们探索的重要话题。而在这之前,就需要用 科学正确的方法策略对大数据进行治理。大数据治理是指制定与大 数据有关的数据优化、隐私保护与数据变现的政策,是传统信息治 理的延续和扩展,也是大数据分析的基础,还是连接大数据科学和 应用的桥梁,因此大数据治理是大数据再创高峰的“必修课”。(狭义)大数据是指无法使用传统流程或工具在合理的时间和 成本内处理或分析的信息,这些信息将用来帮助企业更智慧地经营 和决策。而广义的大数据更是指企业需要处理的海量数据,包括传 统数据以及狭义的大数据。(

4、广义)大数据可以分为五个类型:Web 和社交媒体数据、机器对机器(M2M)数据、海量交易数据、生物计 量学数据和人工生成的数据。Web和社交媒体数据:比如各种微博、博客、社交网站、购物网 站中的数据和内容。M2M数据:也就是机器对机器的数据,比如RFID数据、GPS数 据、智能仪表、监控记录数据以及其他各种传感器、监控器的数据。海量交易数据:是各种海量的交易记录以及交易相关的半结构 化和非结构化数据,比如电信行业的CDR、3G网记录等,金融行 业的网上交易记录、corebanking记录、理财记录等,保险行业的各 种理赔等。生物计量学数据:是指和人体识别相关的生物识别信息,如指 纹、DNA、虹

5、膜、视网膜、人脸、声音模式、笔迹等。人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、 扫描件、录音和电子病历等。在各行各业中,随处可见因数量、速度、种类和准确性结合带 来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日 程。在传统系统中,数据需要先存储到关系型数据库/数据仓库后再 进行各种查询和分析,这些数据我们称之为静态数据。而在大数据 时代,除了静态数据以外,还有很多数据对实时性要求非常高,需 要在采集数据时就进行相应的处理,处理结果存入到关系型数据库 /数据仓库、MPP数据库、Hadoop平台、各种NoSQL数据库等,这些 数据我们称之为动态数据。比如高铁机车的关键零部件上

6、装有成百 上千的传感器,每时每刻都在生成设备状态信息,企业需要实时收 集这些数据并进行分析,当发现设备可能出现问题时及时告警。再 比如在电信行业,基于用户通信行为的精准营销、位置营销等,都 会实时的采集用户数据并根据业务模型进行相应的营销活动。大数据治理的核心是为业务提供持续的、可度量的价值。大数 据治理人员需要定期与企业高层管理人员进行沟通,保证大数据治 理计划可以持续获得支持和帮助。相信随着时间的推移,大数据将 成为主流,企业可以从海量的数据中获得更多的价值,而大数据治 理的范围和严格程度也将逐步上升。为了更好地帮助企业进行大数 据治理,在IBM数据治理统一流程模型基础上结合在电信、金融、

7、 政府等行业进行大数据治理的经验,整理了大数据治理统一流程参 考模型,整个参考模型分为必选步骤和可选步骤两部分。大数据治理平台的现状根据行业信息化发展的现状,结合当今行业大数据治理的要求, 大型集团或政务管理部门现阶段大数据治理平台方面存在以下的不 足:(1)大数据多头管理,缺少专门对大数据治理平台进行监督 和控制的组织。信息系统的建设和管理职能分散在各部门,致使大 数据治理平台的职责分散,权责不明确。组织机构各部门关注大数 据的角度不一样,缺少一个组织从全局的视角对大数据进行管理, 导致无法建立统一的大数据治理平台规程、标准等,相应的大数据 治理平台监督措施无法得到落实。组织机构的大数据考核

8、体系也尚 未建立,无法保障大数据治理平台标准和规程的有效执行。(2)多系统分散建设,没有规范统一的省级大数据标准和大 数据模型。组织机构为应对迅速变化的市场和社会需求,逐步建立 了各自的信息系统,各部门站在各自的立场生产、使用和管理大数 据,使得大数据分散在不同的部门和信息系统中,缺乏统一的大数 据规划、可信的大数据来源和大数据标准,导致大数据不规范、不 一致、冗余、无法共享等问题出现,组织机构各部门对大数据的理 解难以应用一致的语言来描述,导致理解不一致。(3)缺少统一的主大数据,组织机构核心系统间的人员等主 要信息并不是存储在一个独立的系统中,或者不是通过统一的业务 管理流程在系统间维护。

9、缺乏对集团公司或政务单位主大数据的管 理,就无法保障主大数据在整个业务范围内保持一致、完整和可控, 导致业务大数据正确性无法得到保障。(4)缺乏统一的集团型大数据质量管理流程体系。当前现状 中大数据质量管理主要由各组织部门分头进行;跨局跨部门的大数 据质量沟通机制不完善;缺乏清晰的跨局跨部门的大数据质量管控 规范与标准,大数据分析随机性强,存在业务需求不清的现象,影 响大数据质量;大数据的自动采集尚未全面实现,处理过程存在人 为干预问题,很多部门存在大数据质量管理人员不足、知识与经验 不够、监管方式不全面等问题;缺乏完善的大数据质量管控流程和 系统支撑能力。(5)大数据全生命周期管理不完整。目

10、前,大型集团或政务 单位,大数据的产生、使用、维护、备份到过时被销毁的大数据生 命周期管理规范和流程还不完善,不能确定过期和无效大数据的识 别条件,且非结构化大数据未纳入大数据生命周期的管理范畴;无 信息化工具支撑大数据生命周期状态的查询,未有效利用元大数据 治理平台。大数据治理的概述通过灵活的数据交互和探索分析能力,以及OEM白标集成的 方式,全面满足行业应用软件的数据分析需求。它提供多源数据整 台、报表统计、数据可视化、自助式BI分析、以及数据填报等功能, 帮助用户挖掘数据的潜在价值,为管理者制定决策提供数据支撑。多数据源整合,为决策分析提供完整数据支持通过数据查询设计器,有效整合您分散在

11、企业内外的各种数据。 包括数据库、云端数据、本地存放的文件数据以及JSON/OData等 程序数据。既能通过拖拽操作完成跨源的数据建模,也支持直接编 写查询语句。最终,通过数据模型访问控制和行级数据安全管理, 分享给BI分析或报表统计者使用。自助式BL强大的交互分析和自由数据探索能力自助式BI ,让最终用户毫无约束的与数据交互,任意探索数 据背后的真正原因,发觉价值,为决策制定找到有效的数据支撑。 在Dashboard的设计和分析阶段,均提供图表联动、数据钻取、数 据切片器、OLAP等交互式分析功能,仅需通过极少的操作便能找到 最有价值的数据,并能与企业成员进行协同讨论分析。数据可视化,让数据

12、之间的关系更加清晰明了、便于理解具有多屏自适应能力的仪表板,内置丰富的数据可视化类型, 而且开放的数据可视化插件功能,几乎可以将任意的可视化组件库 集成到产品中,比如:Echarts, D3, ChartJS,三维模型等,充分 满足数据可视化大屏等场景的需要。在线报表,最终用户和实施人员都能设计报表创新的在线报表设计功能,类似微软Office产品的使用体验, 功能丰富却极易上手。从此,对软件公司而言,客户定制化报表需 求再也不用修改软件源代码;对企业IT部门而言,让业务部门自 主设计所需报表的畅想变得可能。嵌入式分析,满足软件项目的深度集成和OEM合作需要几乎可以将Wyn Enterprise

13、的全部功能集成到您自己的软件 产品中。对您的用户而言,他们完全感觉不到我们的存在;对您的 技术人员而言,我们提供静默安装、软件界面定制、单点登录、报 表/仪表板的设计器和查看器的集成等开箱即用的功能,大大节省系 统集成所花的时间。2. 1大数据治理概念大数据治理是指将大数据作为组织资产而展开的一系列的具体 化工作,是对大数据的全生命周期管理。大数据治理体系是指从组织架构、管理制度、操作规范、IT应 用技术、绩效考核支持等多个维度对组织的大数据模型、大数据架 构、大数据质量、大数据安全、大数据生命周期等各方面进行全面 的梳理、建设以及持续改进的体系。2.2大数据治理目标大数据治理的目标是提高大数

14、据的质量(准确性和完整性),保 证大数据的安全性(保密性、完整性及可用性),实现大数据资源在 各组织机构部门的共享;推进信息资源的整合、对接和共享,从而 提升集团公司或政务单位信息化水平,充分发挥信息化作用。2.3大数据治理模型如图1所示,大数据治理统一流程参考模型必要步骤分为两个 方向:一条子线是在制定元数据管理策略和确立体系结构的基础上 实施全面的元数据管理,另一条子线是在定义业务问题、执行成熟 度评估的基础上定义数据治理路线图以及定义数值治理相关的度量 值。在11个必要步骤的基础上,企业可以在7个可选步骤中选择一 个或多个途径进行特定领域的数据治理,可选步骤为:主数据监管、 (狭义)大数

15、据监管、信息单一视图监管、运营分析监管、预测分 析监管、管理安全与隐私以及监管信息生命周期。企业需要定期对 大数据治理统一流程进行度量并将结果发送给主管级发起人。11.2)管理 irsffi*11-3) m 主会世管理!|主(掘监管12-3)实靠 理12.(乂 大数建监13 1) 欺欢理员13 2) Mi3.3)wai*13信息单-&图监管图1大数据治理统一流程参考模型第一步:明确元数据管理策略在最开始的时候,元数据(MetaData)是指描述数据的数据, 通常由信息结构的描述组成,随着技术的发展元数据内涵有了非常 大的扩展,比如UML模型、数据交易规则、用Java, .NET, C+等编 写

16、的APIs、业务流程和工作流模型、产品配置描述和调优参数以及 各种业务规则、术语和定义等1。在大数据时代,元数据还应该包 括对各种新数据类型的描述,如对位置、名字、用户点击次数、音 频、视频、图片、各种无线感知设备数据和各种监控设备数据等的 描述等。元数据通常分为业务元数据、技术元数据和操作元数据等。 业务元数据主要包括业务规则、定义、术语、术语表、运算法则和 系统使用业务语言等,主要使用者是业务用户。技术元数据主要用 来定义信息供应链(Information Supply Chain, ISC)各类组成部 分元数据结构,具体包括各个系统表和字段结构、属性、出处、依 赖性等,以及存储过程、函数

17、、序列等各种对象。操作元数据是指 应用程序运行信息,比如其频率、记录数以及各个组件的分析和其 它统计信息等。从整个企业层面来说,各种工具软件和应用程序越来越复杂, 相互依存度逐年增加,相应的追踪整个信息供应链各组件之间数据 流动、了解数据元素含义和上下文的需求越来越强烈。在从应用议 程往信息议程的转变过程中,元数据管理也逐渐从局部存储和管理 转向共享。从总量上来看,整个企业的元数据越来越多,光现有的 数据模型中就包含了成千上万的表,同时还有更多的模型等着上线, 同时随着大数据时代的来临,企业需要处理的数据类型越来越多。 为了企业更高效地运转,企业需要明确元数据管理策略和元数据集 成体系结构,依

18、托成熟的方法论和工具实现元数据管理,并有步骤 的提升其元数据管理成熟度。为了实现大数据治理,构建智慧的分析洞察,企业需要实现贯 穿整个企业的元数据集成,建立完整且一致的元数据管理策略,该 策略不仅仅针对某个数据仓库项目、业务分析项目、某个大数据项 目或某个应用单独制定一个管理策略,而是针对整个企业构建完整 的管理策略。元数据管理策略也不是技术标准或某个软件工具可以 取代的,无论软件工具功能多强大都不能完全替代一个完整一致的 元数据管理策略,反而在定义元数据集成体系结构以及选购元数据 管理工具之前需要定义元数据管理策略。元数据管理策略需要明确企业元数据管理的愿景、目标、需求、 约束和策略等,依据

19、企业自身当前以及未来的需要确定要实现的元 数据管理成熟度以及实现目标成熟度的路线图,完成基础本体、领 域本体、任务本体和应用本体的构建,确定元数据管理的安全策略、 版本控制、元数据订阅推送等。企业需要对业务术语、技术术语中 的敏感数据进行标记和分类,制定相应的数据隐私保护政策,确保 企业在隐私保护方面符合当地隐私方面的法律法规,如果企业有跨 国数据交换、元数据交换的需求,也要遵循涉及国家的法律法规要 求。企业需要保证每个元数据元素在信息供应链中每个组件中语义 上保持一致,也就是语义等效(semantic equivalence)。语义等效 可以强也可以弱,在一个元数据集成方案中,语义等效(平均

20、)越 强则整个方案的效率越高。语义等效的强弱程度直接影响元数据的 共享和重用。本体(人工智能和计算机科学)本体(Ontology)源自哲学本体论,而哲学本体论则是源自哲 学中“形而上学”分支。本体有时也被翻译成本体论,在人工智能 和计算机科学领域本体最早源于上世纪70年代中期,随着人工智能 的发展人们发现知识的获取是构建强大人工智能系统的关键,于是 开始将新的本体创建为计算机模型从而实现特定类型的自动化推理。 之后到了上世纪80年代,人工智能领域开始使用本体表示模型化时 间的一种理论以及知识系统的一种组件,认为本体(人工智能)是 一种应用哲学。最早的本体(人工智能和计算机科学)定义是Neche

21、s等人在 1991给出的:“一个本体定义了组成主题领域的词汇的基本术语和 关系,以及用于组合术语和关系以及定义词汇外延的规则”。而第 一次被业界广泛接受的本体定义出自Tom Gruber,其在1993年提 出:“本体是概念化的显式的表示(规格说明)。Borst在1997 年对Tom Gruber的本体定义做了进一步的扩展,认为:“本体是共 享的、概念化的一个形式的规范说明”。在前人的基础上,Stude在 1998年进一步扩展了本体的定义,这也是今天被广泛接受的一个定 义:“本体是共享概念模型的明确形式化规范说明”。本体提供一 个共享词汇表,可以用来对一个领域建模,具体包括那些存在的对 象或概念

22、的类型、以及他们的属性和关系2。一个简单的本体示例 发票概念及其相互关系所构成的语义网络如图2所示:邮电通讯业定额发票(卷式)/llrdlMrff所住城巾济南市/图2简单本体(发票)示例随着时间的推移和技术的发展,本体从最开始的人工智能领域 逐渐扩展到图书馆学、情报学、软件工程、信息架构、生物医学和 信息学等越来越多的学科。与哲学本体论类似,本体(人工智能和 计算机科学)依赖某种类别体系来表达实体、概念、事件及其属性 和关系。本体的核心是知识共享和重用,通过减少特定领域内概念 或术语上的分歧,使不同的用户之间可以顺畅的沟通和交流并保持 语义等效性,同时让不同的工具软件和应用系统之间实现互操作。

23、根据研究层次可以将本体的种类划分为“顶级本体” (top- level ontology) 应用本体(application ontology) 领域本体 (domain ontology)和任务本体(task ontology),各个种类之间的层次关系如图3所示。图3本体层次关系顶级本体,也被称为上层本体(upper ontology)或基础本体 (foundation ontology),是指独立于具体的问题或领域,在所有 领域都适用的共同对象或概念所构成的模型,主要用来描述高级别 且通用的概念以及概念之间的关系。领域本体是指对某个特定的领域建模,显式的实现对领域的定 义,确定该领域内共同

24、认可的词汇、词汇业务含义和对应的信息资 产等,提供对该领域知识的共同理解。领域本体所表达的是适合自 己领域的术语的特定含义,缺乏兼容性,因而在其他领域往往不适 用。在同一领域内,由于文化背景、语言差异、受教育程度或意识 形态的差异,也可能会出现不同的本体。很多时候,随着依赖领域 本体系统的扩展,需要将不同的领域本体合并为更通用的规范说明, 对并非基于同一顶级本体所构建的本体进行合并是一项非常具有挑 战的任务,很多时候需要靠手工来完成,相反,对那些基于同一顶 级本体构建的领域本体可以实现自动化的合并。任务本体是针对任务元素及其之间关系的规范说明或详细说明, 用来解释任务存在的条件以及可以被用在哪

25、些领域或环境中。是一 个通用术语的集合用来描述关于任务的定义和概念等。应用本体:描述依赖于特定领域和任务的概念及概念之间的关 系,是用于特定应用或用途的本体,其范畴可以通过可测试的用例 来指定。从详细程度上来分,本体又可以分为参考本体(reference ontologies)和共享本体(share ontologies),参考本体的详细程 度高,而共享本体的详细程度低。本体(哲学)哲学中的本体(ontology)也被称为存在论,源自哲学中“形 而上学分支,主要探讨存在的本质,也就是存在的存在。英文 ontology实际上就是来源于希腊文“。v ”(存在)和“入6 Y。q” (学科)的组合。本

26、体是由早期希腊哲学在公元前6世纪到公元前 4世纪提出的“始基”延伸出来的。始基(Principle,又称本原) 最早由泰勒斯(米利都学派)最早提出来,认为万物由水而生,其 学生阿那克西曼德认为万物由一种简单的原质组成,该原质不是水 3o而毕达哥拉斯(学派)认为“万物都是数”,数不仅被看作万 物的本原,而且被看作万物的原型、世界的本体。后来巴门尼德(爱 利亚学派)提出了 “存在的概念,认为存在才是唯一真正存在的 真理,其创造了一种形而上学论证方式,之后的哲学一直到近时期 为止,都从巴门尼德处接受了其“实体的不可毁灭性。苏格拉底 继承了巴门尼德的存在概念,主张“真正的善”并完善了巴门尼德 弟子芝诺

27、的辩证法,其学生柏拉图提出了 “理念论”,认为只要若 干个个体拥有一个共同的名字,它们就有一个共同的理念或形式。亚里士多德(柏拉图学生)总结了先哲们的思想,完成了形而上 学,并将本体总结为:对世界上客观存在事物的系统的描述,即存 在论,也就是最形而上学的知识。形而上学不是指孤立、静止之类 的意思,而是指超越具体形态的抽象意思,是关于物质世界最普遍 的、最一般的、最不具体的规律的学问。第二步:元数据集成体系结构在明确了元数据管理策略后需要确定实现该管理策略所需的技 术体系结构,即元数据集成体系结构。各个企业的元数据管理策略 和元数据管理成熟度差别较大,因此元数据集成体系结构也多种多 样。大体上元

28、数据集成体系结构可以分为点对点的元数据集成体系 结构、中央辐射式元数据体系结构、基于CWM (Common Warehouse Meta Model,公共仓库元模型)模型驱动的点对点元数据集成体系 结构、基于CWM模型驱动的中央存储库元数据集成体系结构、分布 式(联邦式)元数据集成体系结构和层次/星型元数据集成体系结构 等。针对信息供应链中不同的组件,为了实现跨组件的元数据交换 和集成,最开始人们采用点对点的方式进行,也就是每一对组件之 间通过一个独立的元数据桥(metadata bridge)进行元数据交换, 桥一般是双向的能够理解两个方向的元数据映射4。点对点的元数 据集成体系结构帮助用户

29、实现了跨企业的元数据集成和元数据交换, 对提升信息化水平提供了巨大帮助。这种体系结构在应用过程中, 也暴露了很多问题,比如元数据桥的构建工作量和耗时都非常大, 对中间件厂商、应用厂商、集成商和用户来说都是一个巨大的挑战, 而且构建元数据桥还必须具有所有者的元数据模型和接口的详细信 息。构建完成的桥很多时候无法在构建其他元数据桥时进行重用, 因此开发和维护费用大幅度增加,用户投资回报率(ROI)不高。以 动态数据仓库为例,其点对点的元数据集成体系结构具体如图4所 示,信息供应链各组件之间的空心箭头表示全部的数据流,实心箭 头表示不同的元数据桥和与之关联的元数据流。5维分析报夜绶计致抠抄挪决策管理

30、/MDM应用.色新应用Bridges图4点对点的元数据集成体系结构通过使用中央元数据存储库(central metadata repository)取代各个工具软件和应用程序之间的点对点连接方式,改成中央元 数据存储库与各个工具软件和应用程序实现元数据交换的访问层(也是一种桥),可以有效降低总成本,减少建立点对点元数据桥的 工作,提高投资回报率。信息供应链各组件可以从存储库访问元数 据,不必与其他产品进行点对点交互。这种使用中央元数据存储库 方式进行元数据集成的方式就是中央辐射式元数据体系结构(hub-and-spoke metadata architecture),具体如图 5 所示。由于特

31、定 的元数据存储库是围绕其自身的元模型、接口和交付服务建立的, 所以仍需要建立元数据桥实现与ISC各组件的互相访问。中央元数据存储库图5中央辐射式元数据体系结构采用模型驱动的元数据集成方法(比如使用CWM)可以有效降低元数据集成的成本和复杂度,无论点对点元数据集成体系结构还 是中央辐射式元数据集成体系结构都可以因此受益。在点对点体系 结构中,通过使用基于模型的方法可以不必在每一对需要集成的产 品之间构建元数据桥,每个产品只需要提供一个适配器(adapter) 即可实现各个产品之间的元数据交换,适配器既了解公共的元模型 也了解本产品元模型的内部实现。如图6所示,基于CWM模型驱动 点对点元数据集

32、成体系结构使用通用元模型,不再需要在各个产品 间建立元数据桥,在各个产品之间通过适配器实现了语义等价性。图6基于CWM模型驱动的点对点元数据集成体系结构如图7所示,在基于模型驱动(比如CWM)的中央辐射式元数 据体系结构中,中央存储库包含公共元模型和整个领域(domain) 用到的该元模型的各个实例(模型)、存储库自身元模型及其实例、 理解元模型(公共元模型和自身元模型)的适配器层,当然存储库 也可以直接实现公共元模型的某些内部表示。图7基于CWM模型驱动的中央存储库元数据集成体系结构如图8所示,这种体系架构是基于CWM模型驱动的中央存储库 元数据集成体系结构的一个变种,两个中央辐射式的拓扑结

33、构通过 各自的元数据存储库连接起来,也被称为分布式(Distributed)或 联邦(Federated)体系结构。两个元数据存储库之间通过元数据桥 连接,两个存储库使用相同的元模型和接口,也可以使用不同的元 模型和接口。建立分布式元数据集成体系结构的原因有很多种,比 如企业基于多个区域单独部署自己的应用,每个区域有自己的数据 中心。图8分布式(联邦式)元数据集成体系结构如图9所示,这种体系结构是分布式体系结构的变体,根存储库实现了元模型的公共部分(横跨整个企业),叶子存储库实现了一 个或多个特定的公共元模型子集,并只保存这些自己所对应的元数 据实例。特定客户可以主要访问其感兴趣的元数据所在的

34、叶子存储 库,也可以访问其它叶子存储库和根存储库。这种体系结构被称为结束语本文详细介绍了大数据治理的基本概念和统一流程参考模型, 并阐述了该模型的第一步“明确元数据管理策略”和第二步“元数 据集成体系结构等内容。在第一步“明确元数据管理策略中讲 述了元数据的基本概念以及本体在人工智能/计算机科学和哲学中 的含义。在第二步“元数据集成体系结构”讲述了元数据集成体系 结构的六种示例,分别为:点对点的元数据集成体系结构、中央辐 射式元数据体系结构、基于CWM模型驱动的点对点元数据集成体系 结构、基于CWM模型驱动的中央存储库元数据集成体系结构、分布 式(联邦式)元数据集成体系结构和层次/星型元数据集

35、成体系结构。在本系列文章的下一部分将继续介绍大数据治理统一流程参考模型 第二步“元数据集成体系结构”,具体包括元模型、元-元模型、公 共仓库元模型(CWM)、CW发展史、OMG的模型驱动体系结构 (ModelDrivenArchitecture, MDA)。3.大数据治理体系大数据治理体系包含两个方面,一是大数据质量核心领域,二 是大数据质量保障机制。具体两者内容及相互关系可以参见下图:数据服务数据质量主数据元数据数据模型数据全生命 周期核心领域保障与规范支撑与落实制度章程组织规章制度组织架构管控办法组织层次考核机制组织职责保障机制流程IT技术应用流程目标技术规范流程任务实施办法流程分级支撑平

36、台通过灵活的数据交互和探索分析能力,以及OEM白标集成的方式,全面满足行业应用软件的数据分析需求。它提供多源数 据整合、报表统计、数据可视化、自助式BI分析、以及数据填 报等功能,帮助用户挖掘数据的潜在价值,为管理者制定决策提 供数据支撑。整体应用流程:3.1数据连接通过数据连接引擎建立与Oracle、Mysql、SqlServer等各 种关系型数据库、API、ODBC或者Excel. JSON、XML等数据文件 等不同来源的数据连接,支持跨源,用于数据建模。3.2数据建模将填报采集的数据和已有业务系统如OA、ERP、CRM数据库 的数据,通过可视化数据模型设计器或者自定义SQL数据集,建 立

37、多表关联模型,并对模型进行字段重命名、二次计算、分组计 算等操作,添加参数及筛选过滤,形成最终用于设计报表和仪表 板的数据集。3.3统计报表为业务层的日常运营提供必备的明细报表,以满足数据查询、 报表打印等需要。包括典型的Excel类中国式复杂报表、合同文 档类报表、分组报表、明细报表、图表、分栏报表等各种报表类 型。3.4决策仪表板以高度交互与自由数据探索的管理看板为基础,辅助决策的 制定。通过灵活自由的布局页面,拖拽可视化组件,绑定数据, 生成仪表板。浏览者在查看时,可以通过条件过滤、条件格式化、 排序、图表切换、调整数据绑定等组件,多维自由的从不同视角 进行数据分析。仪表板自带的联动和钻

38、取分析,深入探查数据背 后的原因。指导管理层科学决策。3.5数据大屏通过可视化大屏,对企业综合信息进行展示,满足企业内、 外部信息共享与交流的需要。通过各种酷炫的可视化组件,将企 业核心经营指标、KPI指标、综合管控指标等直观的展示到总经 理办公室、会议室或者会客大厅等,方便管理层掌握企业经营情 况。4.大数据治理核心领域为了有效管理信息资源,必须构集团级大数据治理体系。大数 据治理体系包含大数据治理组织、大数据构架管理、主大数据治理 平台、大数据质量管理、大数据服务管理及大数据安全管理内容, 这些内容既有机结合,又相互支撑。4.1大数据模型大数据模型是大数据构架中重要一部分,包括概念大数据模

39、型 和逻辑大数据模型,是大数据治理的关键、重点。理想的大数据模 型应该具有非冗余、稳定、一致、易用等特征。逻辑大数据模型能 涵盖整个集团的业务范围,以一种清晰的表达方式记录跟踪集团单 位的重要大数据元素及其变动,并利用它们之间各种可能的限制条 件和关系来表达重要的业务规则。大数据模型必须在设计过程中保 持统一的业务定义。为了满足将来不同的应用分析需要,逻辑大数 据模型的设计应该能够支持最小粒度的详细大数据的存储,以支持 各种可能的分析查询。同时保障逻辑大数据模型能够最大程度上减 少冗余,并保障结构具有足够的灵活性和扩展性4.2大数据生命周期一般包括大数据生成及传输、大数据存储、大数据处理及应用

40、、 大数据销毁四个方面。大数据生成及传输大数据应该能够按照大数据质量标准和发展需要产生,应采取 措施保证大数据的准确性和完整性,业务系统上线前应该进行必要 的安全测试,以保证上述措施的有效性。对于手工流程中产生的大 数据在相关制度中明确要求,并通过事中复核、事后检查等手段保 证其准确性和完整性。大数据传输过程中需要考虑保密性和完整性 的问题,对不同种类的大数据分别采取不同的措施防止大数据泄漏 或大数据被篡改。大数据存储这个阶段除了关注保密性、完整性之外,更要关心大数据的可 用性,对于大部分大数据应采取分级存储的方式,不仅存储在本地 磁盘上,还应该在磁带上,甚至远程复制到磁盘阵列中,或者采用 光

41、盘库进行存储。对于存储备份的大数据要定期进行测试,确保其 可访问其大数据完整。大数据的备份恢复策略应该由大数据的责任 部门或责任人负责制定,信息化管理部门可以给予相应的支持。同 时还需要注意因为部门需要或故障处理的需要,可能对大数据进行 修改,必须在大数据治理平台办法中明确大数据修改的申请审批流 程,审慎对待后台大数据修改。(3)大数据处理和应用信息化相关部门需要对大数据进行分析处理,以挖掘出对于管 理及业务开展有价值的信息,为保证过程中大数据的安全性,一般 应采用联机处理,系统只输出分析处理的结果。但是实际中,因为 相关大数据分析系统建设不到位,需要从大数据库中提取大数据后 再对大数据进行必

42、要的分析处理,在这个过程中就需要关注大数据 提取操作是否可能对大数据库造成破坏、提取出的大数据在交付给 分析处理人员的过程中其安全性是否会降低、大数据分析处理的环 境安全性等等。(4)大数据销毁这个阶段主要涉及大数据的保密性。应明确大数据销毁的流程, 采用必要的工具,大数据的销毁应该有完整的记录。尤其是对于需 要送出外部修理的存储设备,送修之前应该对大数据进行可靠的销 毁。4. 3大数据标准大数据标准是集团单位建立的一套符合自身实际,涵盖定义、 操作、应用多层次大数据的标准化体系。大数据标准的建立是集团单位信息化、数字化建设的一项重要 工作,行业的各类大数据必须遵循一个统一的标准进行组织,才能

43、 构成一个可流通、可共享的信息平台。大数据治理对标准的需求可以划分为两类,即基础性标准和应 用性标准。前者主要用于在不同系统间,形成信息的一致理解和统 一的坐标参照系统,是信息汇集、交换以及应用的基础,包括大数 据分类与编码、大数据字典、数字地图标准;后者是为平台功能发 挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇 集和交换,包括元大数据标准、大数据交换技术规范、大数据传输 协议、大数据质量标准等。大数据分类与编码大数据分类与编码标准是信息化建设中标准化的一项基础工作, 该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序 以及编码规则,目的是在不同系统和用户之间建立交通大

44、数据的一 致参照,对提高大数据采集、处理和大数据交换效率具有重要作用。 大数据分类与编码标准的制定将有力推进平台标准化及交通信息化 建设标准化的进程。大数据字典针对实际需求,定义大数据集,建立各个领域的大数据字典, 规范大数据概念和大数据定义。在此基础上,形成完备的集团单位 大数据集和大数据字典。元大数据标准元大数据标准是描述大数据资源的具体对象时所有规则的集合, 它包括了完整描述一个具体大数据对象时所需要的大数据项集合。 针对各种信息资源分别制定适当的元大数据标准,可为信息的管理、 发现和获取提供一种实际而简便的方法,从而提高大数据交换效率。(4)大数据交换标准为了保证大数据共享和交换的顺利

45、实现,必须明确定义和规范 大数据交换的相关标准。大数据交换的标准规范是集团单位综合信 息平台的核心标准。其中应当包括大数据交换内容、大数据交换格 式、大数据传输方式、各类中心间大数据接口的标准化等方面。(5)大数据质量标准由于大数据采集任务通常由其他二级平台完成,大数据治理平 台的标准方法主要集中在大数据的加工和管理上。应该重点开发的 一个领域是大数据质量控制方法。应当从三个方面对大数据质量方 法进行研究:“坏大数据”或“不可靠大数据”的识别,错误大数 据的编辑方法,以及缺少值的处理。4.4主大数据主大数据治理平台要做的就是从各部门的多个业务系统中整合 最核心的、最需要共享的大数据(主大数据)

46、,集中进行大数据的清 洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权 威性的主大数据传送给集团单位范围内需要使用这些大数据的操作 型应用系统和分析型应用系统。主大数据治理平台的信息流应为:1)某个业务系统触发对主大数据的改动;2)主大数据治理平台系统将整合之后完整、准确的主大数据传 送给所有有关的应用系统3)主大数据治理平台系统为决策支持和大数据仓库系统提供 准确的大数据源。因此对于主大数据治理平台要考虑运用主大数据治理平台系统 实现,主大数据治理平台系统的建设,要从建设初期就考虑整体的 平台框架和技术实现。4.5大数据质量大数据质量不高将影响大数据仓库应用程度不高。低下的大数 据

47、质量往往造成开发出来的系统与用户的预期大相径庭,大数据质 量关系建设有关分析型信息系统成败,同时大数据资源是集团单位 的战略资源,合理有效的使用正确的大数据能指导集团单位做出正 确的决策,提高省综合竞争力。不合理的使用不正确的大数据(即 差的大数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。大数据质量管理包含对大数据的绝对质量管理、过程质量管理。 绝对质量即大数据的真实性、完备性、自治性是大数据本身应具有 的属性。过程质量即使用质量、存储质量和传输质量,大数据的使 用质量是指大数据被正确的使用。再正确的大数据,如果被错误的 使用,就不可能得出正确的结论。大数据的存贮质量指大数据被安 全的

48、存贮在适当的介质上。所谓存贮在适当的介质上是指当需要大 数据的时候能及时方便的取出。大数据的传输质量是指大数据在传 输过程中的效率和正确性。高质量的交通运输行业大数据至少有如下几项要求:一是正确性,在转换、分析、存储、传输、应用流程中不存在 错误;二是完整性,大数据库应用或要求的所有记录、字段都存在;三是一致性,体现在整个大数据库的定义和维护方面,确保大 数据在使用的整个过程中是一致的;四是时效性,衡量指标是在指定的大数据与真实的业务情况同 步的时间容忍度内,即指定的更新频度内,及时被刷新的大数据的 百分比;五是可靠性,提供大数据的大数据源必须能够可靠稳定地提供 大数据。大数据质量管理的规划和

49、实施包括以下内容:一是大数据质量管控体系的建立,包括大数据质量的评估体系, 定期评估大数据质量状况;二是在部门各个应用系统中的落实,包括每个应用系统中的大数据质量检查等;三是在最开始建立大数据质量管理系统的时候,借助大数据治 理平台上,通过建立大数据质量管理的规则来集中化地建立大数据 质量管理系统,发现问题并持续改进;四是大数据质量管理与业务稽核的结合,通过业务规则的稽核 来发现大数据质量深层次的问题,将大数据质量与业务一线结合起 来,使业务人员对大数据质量问题有更加清晰和明确的认识。完善的大数据质量管理是保障各项大数据治理工作能够得到有 效落实,达到大数据准确、完整的目标,并能够提供有效的增

50、值服 务的重要基础。4.6大数据服务大数据整理最终目的就是要服务于各部门单位、人员等,能更 准确更快更方便的服务是大数据服务管理的目标。大数据服务管理是指针对内部积累多年的大数据,研究如何能 够充分利用这些大数据,分析行业业务流程优化业务流程。大数据 使用的方式通常包括对大数据的深度加工和分析,包括通过各种报 表、工具来分析运营层面的问题,还包括通过大数据挖掘等工具对 大数据进行深度加工,从而更好的管理者服务。通过建立统一的大 数据服务平台来满足针对跨部门、跨系统的大数据应用。通过统一 的大数据服务平台来统一大数据源,变多源为单源,加快大数据流 转速度,提升大数据服务的效率。4.7大数据安全由

51、于集团单位的重要且敏感信息大部分集中在应用系统中,大 数据安全更是至关重要。如何保障大数据不被泄露和非法访问,是 非常关键的问题。大数据安全管理主要解决的就是大数据在保存、 使用和交换过程中的安全问题。大数据安全管理主要体现在以下六个方面:一是大数据使用的安全性,包括基础大数据的保存、访问和权 限管理;二是大数据隐私问题,系统中采集的证件号码、银行账号等信 息在下游分析系统和内部管理系统中,是否要进行加密,以避免大 数据被非法访问;三是访问权限统一管理,包括单点登录问题及用户名、大数据 和应用的访问授权统一管理;四是大数据安全审计,为大数据修改、使用等环节设置审计方 法,事后进行审计和责任追究

52、;五是制度及流程建立,逐步建立大数据安全性的管理办法、系 统开发规范、大数据隐私管理办法及相应的应用系统规范、在管理 决策和分析类系统中的审计管理办法等;六是应用系统权限的访问控制,建立集团级权限管理系统,增 加数字水印等技术在应用系统中的使用。5.大数据治理保障机制5.1制度章程5.1.1规章制度大数据治理章程类似于企业的公司条例。该章程阐明大数据治 理的主要目标、相关工作人员、职责、决策权利和度量标准。具体可参见附件大数据治理平台规范5.1.2管控办法管控办法是基于规章制度与工具的结合,可落地的操作的办法。具体可参见附件大数据质量评估办法5.1. 3考核机制考核是是保障制度落实的根本,建立

53、明确的考核制度,实际操 作中可根据集团单位情况,建立相应的针对大数据治理方面的考核 办法,并与个人绩效相关联。可参考管理学中相关考核、绩效管理 相关部分。对于大数据治理的考核,可见下图进行理解:执行是管控体系落地的关键I.一一以绩效的手段促曲据质 管理,将数据生产者、使用者、管 理者及拥有者关联起来,形成f 可持续有效执行的执行体系,保限 物的高瞄质量i o欢核心业务添加酬o制定敷据管匾标(敷廓准)I:o以标准对敷蜘行质最跺戳处理. 分析O鼬行g wwn集成滴质盘瞄,形成数班中 :O.实现共虱分发、挖明O 我融、保mmsw考核对象:数据员员人考核标准:月35L在规定时间内处理完成可 月题,加1

54、分;否则不加分;有城行35 扣分顼考核对象戮据ira员 考岫隹:质量脉 1.未在规定的同期内实施散据质探直工月作,扣3分;2 瞄瑚期;考核对象数据管理员。 考核标准:1 JJ&V f 1、宓现数踞质量间晒,酿友内,及时预警并通知相关人员处理,不扣分;否则,扣3分;5.2大数据治理组织5. 2. 1组织架构有效的组织机构是项目成功的有力保证,为了达到项目预期目 标,在项目开始之前对于组织机构及其责任分工做出规划是非常必 要的,大数据治理项目管理组织建议宜采用如图所示的组织结构:业务部门IT部门5. 2.2组织层次大数据治理委员会由集团公司的高层领导者组成。委员会定义 大数据治理愿景和目标;组织内

55、跨业务部门和IT部门进行协调; 设置大数据治理计划的总体方向;在发生策略分歧时进行协调。此 委员会也将包含来自部门或子公司的领导代表,以及来自各单位视 大数据为机构资产的信息科技部门的代表。这些高层管理人员是大 数据治理计划的所有拥护者,确保在整个组织内获得支持。大数据治理工作组是组织内委员会下面的下一个级别。工作组 执行大数据治理计划。工作组负责监督大数据治理平台员工作。大 数据治理工作组由大数据治理委员会中各局领导主持。每各业务部门有至少一位业务分析员,信息科技部门设置大数 据质量分析员、大数据治理平台员、集成开发人员。各工作人员负 责本部门大数据的质量,履行职责,解决具体的问题。5. 2

56、.3组织职责根据大数据治理平台工作的实际需要,在业务管理部门、技术 管理部门和业务应用部门确定各工作人员的职责。大数据治理委员会的职责范围:1)从战略角度来统筹和规划,对大数据资产和系统进行清理, 确定大数据治理的范围;明确大数据源的出处、使用和管理的流程 及职责;2)明确大数据治理的组织、功能、角色和职责;3)负责各工作组成员的培训工作;4)负责审查各工作小组的目标、原则,批准大数据治理平台的 相关制度、标准及流程;5)负责确定大数据治理的工具、技术和平台;6)负责制定大数据治理的评估指标、方法。大数据治理工作小组,其主要工作职责是:负责大数据治理的牵头,组织、指导和协调本单位的大数据治理工

57、作;综合大数据治理管控办法、大数据治理考核机制等有关规章制 度的牵头制定、修改等;负责大数据的分析整理并出具大数据指标报告;负责大数据的监测预测工作;建立大数据冲突的处理流程和大数据变更控制流程。负责对基础大数据质量的检测、发布、考核和清理完善工作。工作组成员:业务分析员、大数据质量分析员、大数据治理平 台员、集成开发员这些不同的角色在大数据治理过程中承担着彼此不同,而又相 辅相成的职责。其中集成开发人员在大数据治理流程中需要肩负起 大数据访问、验证大数据结构、验证大数据、交付大数据以及大数 据库/知识库的构建等角色,因此他们的工作包括:访问及交付相应大数据给业务用户提高生产力和性能最大化减少

58、异常/出错的影响开发和完善技术最佳实践大数据质量分析员在大数据治理流程中负责大数据的剖析、清 洗匹配合并等。工作包括:为开发人员定义大数据规格及标准为机构有效的追踪大数据质量问题实施被业务人员和大数据治理平台员定义正确的大数据质 量规则不间断的监控大数据质量水平及问题业务分析人员在大数据治理流程中负责定义大数据的转换规则, 工作包括:与需求开发人员协作,正确捕获和解析业务需求与开发人员和大数据治理平台员协作,为业务用户缩短大数 据产生价值的时间大数据治理平台员需要定义引证大数据,并管理元大数据,工 作包括:保证大数据的质量、正确、完整、一致、审计及安全性定义引证/参考大数据为组织机构大数据实体

59、给出正确业务定义为组织机构解决混淆和有争论的大数据定义5.3流程管理流程管理包括流程目标、流程任务、流程分级,根据大数据治 理的内容,建立相应流程,且遵循本单位大数据治理的规则制度。 实际操作中可结合所使用的大数据治理工具,与大数据治理工具供应商进行协商,建立符合集团公司的流程管理。5.4 IT技术应用5.4.1支撑平台现市场上关于大数据治理平台存在不同的成熟产品,但在功能实现上大致相同,具体可参加下图了解。对数据平台业务的支持一元数据数锹海系统卜向川开发者奇岫(糖V台相关元费 m.为开冷府川律供争考兀thM管业务部门 rwA机构特定系 统敬糖质量哭出业务散我质屋 检我赢求数据质量菅HIA敷招

60、麦史畛咄评彷中靖对数据平台业务的支持一数据质量成川开发者定义般核*求与短IW分析敬推丫,数物质曾发现、发布数招检枝何映对数据平台业务的支持数据服务业务能门提供敢# Y介以务敬舜flK务单管理虽数据治理相关系统关系颇日破)系统& 一用户管理系统敛据治理平台酸制1务于 术统*执行检核:单点登承与 st而色管理 与创户管 : 理模块数叙朋址管建f理 炒偷慢举统*z检供埠表靖兀既f构元散*:.二碾供标腐相敏结r关元峪i弟就登破认证用户与机构信尊网步5. 4.2技术规范技术规范是保障大数据治理平台可持续管理的基础,随着大数 据量的增长、技术水平的发展,为更好、可持续的实现大数据资产 的管理、应用,需建立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论