信息资源管理平台建设方案_第1页
信息资源管理平台建设方案_第2页
信息资源管理平台建设方案_第3页
信息资源管理平台建设方案_第4页
信息资源管理平台建设方案_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章概述1.1建设背景随着促进大数据发展行动纲要、关于印发政府信息资源共享管理暂行办 法的通知等文件的印发,将数据定性为国家基础性战略资源,既是挑战,也是 机遇,各级政府都在积极推动政务大数据应用方面,政府职能部门通过对大数据 的分析和应用,使得管理水平和精准施政能力得到了显著提高,进而在日常管理 和决策过程中,对数据的依赖性也与日俱增。也再次说明了数据信息资源共享对 于政府施政的重要作用和意义。建设大数据平台已经成为汇聚城市管理信息数据,推动公共数据共享开放, 探索构建“用数据说话、数据决策、数据管理和数据创新”的城市管理工作机制, 然而在推动建设的过程中,根据行业信息化发展的现状,结合当

2、今行业数据治理 的要求,政务管理部门现阶段数据管理方面存在以下的不足:(1)缺乏统一平台,资源难以共享。数据多头管理,缺少专门对数据管理进 行监督和控制的组织。信息系统的建设和管理职能分散在各部门,致使 数据管理的职责分散,权责不明确。组织机构各部门关注数据的角度不 一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一 的数据管理规程、标准等,相应的数据管理监督措施无法得到落实。组 织机构的数据考核体系也尚未建立,无法保障数据管理标准和规程的有 效执行。(2)部门各自为政,缺乏统筹兼顾。多系统分散建设,没有规范统一的省级 数据标准和数据模型。组织机构为应对迅速变化的市场和社会需求,逐

3、 步建立了各自的信息系统,各部门站在各自的立场生产、使用和管理数 据,使得数据分散在不同的部门和信息系统中,缺乏统一的数据规划、 可信的数据来源和数据标准,导致数据不规范、不一致、冗余、无法共 享等问题出现,组织机构各部门对数据的理解难以应用一致的语言来描 述,导致理解不一致。(3)制度保障欠缺,共享渠道不畅。缺少统一的主数据,组织机构核心系统 间的人员等主要信息并不是存储在一个独立的系统中,或者不是通过统 一的业务管理流程在系统间维护。缺乏对政务单位主数据的管理,就无 法保障主数据在整个业务范围内保持一致、完整和可控,导致业务数据 正确性无法得到保障。(4)缺乏数据全生命周期管理体系。当前现

4、状中数据质量管理主要由各组织 部门分头进行;跨局跨部门的数据质量沟通机制不完善;缺乏清晰的跨 局跨部门的数据质量管控规范与标准,数据分析随机性强,存在业务需 求不清的现象,影响数据质量;数据的自动采集尚未全面实现,处理过 程存在人为干预问题,很多部门存在数据质量管理人员不足、知识与经 验不够、监管方式不全面等问题;缺乏完善的数据质量管控流程和系统 支撑能力。(5)数据全生命周期管理不完整。目前,数据的产生、使用、维护、备份到 过时被销毁的数据生命周期管理规范和流程还不完善,不能确定过期和 无效数据的识别条件,且非结构化数据未纳入数据生命周期的管理范畴; 无信息化工具支撑数据生命周期状态的查询,

5、未有效利用元数据管理。12建设需求本次项目建设,是整个智慧城市管理的核心平台和基础支撑性平台,也是打 破行业内外信息孤岛的主要抓手。要紧紧围绕建设政务服务管理信息资源目录体 系;建立健全政务服务管理各主题数据库群,强化政务服务管理大数据管控,同 时整合行业数据适时接入信息资源共享平台。初步建立大数据多源采集、清洗转 换、存储管理、交换共享、监督管控、挖掘分析、服务应用,探索数据管理采集 及共享更新机制,提供统一可信的大数据管理服务,为各级工作人员和领导把握 全局与科学决策提供强有力大数据服务的“智慧支撑”。建设过程中,特别需要注意一下几点:(1)信息资源将某一范围内的,原本离散、多元、异构、分

6、布的信息通过逻 辑或物理的方式组织成一个整体。(2)需要形成标准的规范体系贯穿于政务信息资源管理平分,遵循国家、省 已有标准规范和法律法规,并结合实际要求的标准规范和运行机制,制 定相关技术管理办法和制度。(3)信息资源平台整体页面风格,需要具备政府特色,也要符合江宁区地方 特色。13建设目标信息资源管理是顺应目前信息化技术水平发展、服务政府职能改革的架构平 台。它的主要目标是强化数据资产管理存储,实现数据资源资产化,建立规范化 数据管理体系,提高数据质量。(1)建立数据资源管理体系。建立完整的数据归集、数据清洗、数据比对的 数据资源管理体系,将全市数据资源进行有效管理和质量提升,让数据 更好

7、地应用在政府和社会的各个方面。制定统一信息资源管理规范,拓 宽数据获取渠道,整合业务信息系统数据,构建汇聚式一体化数据库, 为平台打下坚实稳固的数据基础。(2)梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源 交换管理标准体系,在业务可行性的基础上,实现数据资源目录建设, 推进信息公开,建立跨部门跨领域经济形势分析制度。(3)依据数据监测服务,为政府把控数据质量、预见数据潜在问题、为数据 分析提供基础支撑。(4)促进数据开放。立足江宁区政务服务管理的实际需求,兼顾未来发展需 要,促进形成多方参与、协调融合的大数据发展氛围,促进江宁区公共 政务数据资源统一开放。(5)挖掘数据潜在价

8、值。建立完善集中统一的数据生命周期数据库,通过大 数据平台将公共基础数据的价值传递到行业链的各个环节,促进连接、 开放、包容的大数据统一生态体系的形成。14建设原则以信息资源整合为重点,以大数据应用为目标,全面提升政务服务信息化建 设水平,促进经济持续健康发展。以科学的设计系统框架,结合未来的技术发展 方向,选用先进、可靠、可扩展的技术路线,完成本次项目的工程建设,为后续 阶段大数据应用打好数据支撑基础。统筹规划、分步实施。明确总体目标和阶段性任务,科学规划建设项目。先 期完成大数据平台的整体架构建设,后期分步完成业务系统的整合及相互间数据 共享、开放问题。业务主导、数据核心。以业务需求为主导

9、,确保项目建设的针对性、实用性; 以数据为核心,加强大数据平台的科学性和实用性,促进业务协同和信息共享交 换。遵循标准,逐步完善。坚持遵循标准规范,在建设过程中,要遵循全省及全 市信息资源共享交换目录与编码标准规范,同时建立符合江宁区特色的资源服务 目录,并根据实际需要进行适当细化。统筹规划,上下衔接。坚持顶层统筹规划,明确数据管理级别定位及相互关 系,数据管理者侧重整合共享与宏观监管,数据提供者侧重数据采集与业务应用, 数据消费者侧重资源合理订阅与审批。确保数据管理层级间有序推进和数据对接。整合资源、协同共享。对信息资源统一梳理,建立经济发展与改革信息标准 资源库和数据规范,逐步消灭“信息孤

10、岛”,加快推进数据资源整合,建设共享 共用的大数据中心,实现业务协同。做好集约化基础支撑和信息安全保障,充分 发挥现有信息系统效能,破除信息孤岛,节约资金投入。突出重点、注重实效。以用户为中心,以需求为导向,以服务为目的,突出 重点,注重实效,加强平台可用性和易用性。大脑增智,数据服务。推进公共信息数据创新,深度挖掘数据资源潜在价值, 提升城市大数据分析和服务能力,为各部门、行业开展基于大数据的公共服务创 新应用提供支撑。深化应用、创新驱动。深入了解用户需求,密切跟踪信息技术发展趋势,不 断深化应用、拓展新技术在应用中的广度和深度,促进跨界融合,丰富管理和服 务手段。第二章总体设计基于大数据处

11、理技术,建立了集数据汇聚系统,数据加工存储系统,数据清 洗治理系统,信息资源服务管理系统,数据监控管理服务系统,大数据集群运维 管理系统为一体化的数据资源管理体系,并以数据全生命周期管理为视角,增强 大数据平台的数据开放与数据服务能力,进一步提升政务服务信息的管理水平与 治理力度,提高数据治理能力与基础数据的质量,开发并挖掘数据服务的应用场 景,最大限度的满足社会公众与各组织部门的数据使用需求。2.1设计原则根据信息资源管理是一个复杂的系统,涉及到方方面面。首先应遵循大数据 标准体系的建设原则,主要由5个部分的原则组成,分别为:标准原则、技术原 则、安全标准、质量标准、应用标准。其数据来自不同

12、的部门和行业,有着不同 的表现形式,具有多尺度、多类型、多时相的特点。这要求按照实际情况,坚持 以下原则(1)标准原则大数据标准体系的根基,是解决跨平台异构数据互操作问题的前提,主要用 于规范大数据基础层面标准。基础标准主要包括术语、大数据参考模型、大数据 架构标准,参考中国电子技术标准化研究院发布的大数据白皮书。系统所采 用的相关标准必须与国际标准相符合,同时确保系统具有良好的开放性,能够实 现与多种技术和软硬件平台的有机集成。(2)技术原则主要针对大数据相关技术进行规范,其中,主要针对数据收集、数据预处理、 数据存储与管理、数据处理与分析、数据访问与接口、数据可视化等方面进行规 范,参考如

13、ISO/IEC JTC1发布的信息技术开放分布式处理和NIST发布的大 数据互操作框架,系统采用主流的、符合发展方向的、先进成熟的技术和设备, 以及系统集成化、模块化的理念,以保障系统具有高效、全面和稳定等良好品质。 总体构架为基于先进成熟的SOA体系架构,技术为目前主流的J2EE等,数据接 口基于JSO标准。(3)安全原则数据安全是信息安全的一个分支,大数据背景下的安全原则主要由物理安全、 网络安全、系统安全、内容安全等标准组成。其中物理安全标准主要指环境安全 和设备安全等标准规范;网络安全标准主要指大数据传输安全、入侵防护等标准 规范;系统安全标准包括存储安全、计算安全和权限管理等标准规范

14、;内容安全 标准包含隐私保护、数据加密等标准规范。资源管理平台应采用数据安全性高的 访问认证机制,在平台建设中充分重视系统自身的安全性以及其他应用系统的安 全性。(4)质量原则主要针对大数据的数据质量和产品质量进行规范,包括质量模型、数据质量 测试、产品和平台测试等标准。其中数据质量测试以及产品和平台测试乂包括测 试场景、测试指标、测试工具等方面标准规范。同时高可靠性、可扩展性在平台 的设计和实施中均兼顾考虑,在与其他应用系统的整合时,开发出多个类型的接 口,能够灵活接入其他系统、拓展服务类型。建立各种故障的快速恢复机制,实 现7X24小时地正常运转,确保信息交换工作正常运行。(5)应用原则主

15、要针对特定领域大数据相关技术应用与服务产品进行规范,主要包括大数 据资产管理、数据共享模式、特定应用领域等。中国电子技术标准化研究院在开 放数据集、数据交易平台、数据开放共享平台、领域应用数据等方面拟开展标准 化研究工作,尤其是领域应用大数据标准,现已成立工业大数据专题组,非常重 视大数据在各行各业的应用标准化研制,对特定应用领域制定大数据应用标准具 有重要的指导作用。大数据的分析和应用是一项长期持久的工作,随着业务的变 化,对于信息平台的规模和要求也会不断变化。因此平台设计要具有良好的通用 性,以满足不断发展变化的行业应用要求。2.2总体架构资产可税化资源协同共享信息资源编目信息资源订同信息

16、资源服多数据存储导人致州存福区致貂加工存储区HOPS分布式文件系统代掘清洗服务数耕比对敢堀梳理数据算法也测沛洗结果敢据存储区共享交换平台图表1信息资源管理平台架构图在整个架构中主要分成数据加工存储、数据清洗治理、信息资源服务管理、 数据监控四大模块。(1)数据存储保存了大数据平台所有数据,以及信息资源管理平台的管理数据。针对资源 管理平台自身的管理数据,采用1ySQl进行存储。针对交换平台采集过来的数据 存储在数据存储系统中,其中进行分区域存储,导入数据存储区用来存储数据交 换平台采集上来的数据,清洗结果数据存储区用来存储数据清洗完成后的数据。 并根据数据性质特性,批量导入的数据存放于分布式文

17、件系统中,对于不更新的 数据及相关的历史数据,将数据存放于数据仓库中,对于需要少量更新,乂需要 快速查询的数据,将数据存放于MPP中。数据存储不仅仅需要存储海量数据,更 加需要对这些数据的意义进行行业化处理。实现数据资产化,让数据带来价值。 数据存储为后期的数据加工和数据服务提供了数据基础。(2)数据加工针对存储在平台的数据进行数据抽取、转换、加载,通过组件拖拉拽的形式, 从数据源抽取所需要的数据,进行自定义的清洗模型的设计,可以简单使用行筛 选,列筛选,及相应的关联操作,主要通过数据库引擎来实现系统的可扩展性(尤 其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源)可以保持所有 的数据

18、始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的 可监控性。可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固 有功能优化磁盘I/Oo的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。 采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范:数据抽 取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、完整:可以提 供同各种数据系统的接口,系统适应性强;提供软件框架系统,系统功能改变时, 应用程序很少改变便可适应变化;可扩展性强,将数据按照模型进行加工并存放 到数据加工存储区,供后续数据的离线分析、查询、检索、共享使用。(3)数据清洗治理针对存储在平台上

19、的数据进行按国家标准、行业规则、自定义规则进行检测 校验,(比如身份证,军官证的校验)、数据剖析(查找数据存在数据问题的数据, 比如有特定的列出现了空值,捕获字段空值,进行加载或者替换为其他含义数据, 并根据字段空值实现分流到不同的目标库中)、数据增强(规范化数据格式:可实 现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格 式)、数据拆分(依据业务需求对字段可进行分解,比如将电话号码进行拆分,比 如区域和电话号码分解)、数据验证(利用标准和规则对数据进行验证)、数据操 作(如:在线修改),数据替换,对于因为业务的因素,实现对无效数据,缺失 数据的替换,将不符合规范的数据进

20、行自定义的修改,以达成数据修复的目的, 提供统一的数据清洗的规则接口,方便用户根据实际需求进行自定义清洗规则, 以完成特殊数据的清洗和治理操作。(4)信息资源服务管理资源目录而设立的,支持各类信息资产的注册和维护及信息资源的编目。支 持按照资源总体视图、组织机构视角、服务对象视角、信息资产视角、协同主题 视角来全面了解信息资源情况。其中包含了对数据的资源的编目管理,按照文件 及数据的类别对数据进行统一的编目和分类,并且根据公布的资源目录进行统一 的维护,提供了资源目录的订阅申请,资源目录的发布,资源目录的订阅及受理。信息资源结构通过树状的目录结构,展现了政务信息资源之间的相互关系; 信息资源属

21、性则描述了资源的管理属性,包括来源、去向、版本等,用于控制和 管理资源。(5)数据监控数据监控主要分为下面几个方面,首先是对于汇聚的数据进行监控,其中有 些数据是增量更新的或者需要进行全量更新,需要实时或者定时的周期性执行相 关数据任务。其次对于已经落地大数据平台中的数据,需要进行数据加工的操作,数据监 控模块会监控数据加工,清洗的过程,当出现异常问题时,能够及时抛出异常信 息,方便用户快速定位异常行为。其次对于需要进行检验及清洗的数据,数据监控模块会监控数据检验的过程, 并定时形成检测报告,提供数据的检测分析质量,以便用户选取特定的检测规则 进行相应的校验。其次对于监控数据,即大量的日志数据

22、进行监控,定期通过采集的方式,收 集数据库日志信息,主机相关日志信息,网络设备的相关日志信息,大数据组件 的相关日志信息等,并这类日志进行统一的加工处理,使用大数据分析和挖掘工 具,分析这些数据流向中的异常数据,及时定位并发现其中的问题,针对异常问 题,通知到管理员或相关负责人。在数据监控模块会同时监控数据共享的情况, 当数据以共享接口的形式共享出去时,会监控该数据被共享的次数,数据被共享 的频率,并对数据的请求接口做了实时的监控和控制,保证了数据的安全。综上该模块贯穿其他所有模块,对于数据汇聚、数据清洗、数据流转等实时 监控。并且制定告警及采集规则,对于满足告警的信息的数据,可以通过邮件,

23、及短信等通知方式,告知用户,以便用户快速解决问题。第三章建设内容3.1 数据加工存储平台3.1.1 基本概念数据加工存储平台通过工具对数据进行处理加工,并将临时数据及加工后的 数据存放在计算机存储介质中。数据加工从大量的、可能是杂乱无章的、难以理解的数据中抽取并加工出对于某些特 定的人们来说是有价值、有意义的数据。数据存储数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要 查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要 命名,这种命名要反映信息特征的组成含义。3.1.2 目的及意义数据加工存储是大数据平台的基本环节。数据加工帮助政府对于原始数据进 行处理加

24、工,实现信息的预处理。数据存储不仅仅需要存储海量数据,更加需要 对这些数据的意义进行行业化处理。实现数据资产化,让数据带来价值。3.1.3 数据加工数据加工平台是用来将数据从来源端经过转换、加载至目的端的过程。是将 原数据经过处理后满足标准的手段,是构建数据仓库的重要一环,用户从数据源 抽取出所需的数据,经过数据加工,最终按照预先定义好的数据仓库模型,将数 据加载到数据仓库中去,供后续数据的离线分析、查询、检索、共享使用。3.1.3.1 ETL数据加工引擎3.13.1.1 核心思想ETL的可视化的主要思想是将每一个数据源,每一步转化操作抽象成为单个 图元元素表示,不同图元元素可以通过特定连接方

25、式将流程连接起来,数据通过 连线在不同的图元元素中扭转,同时将数据的各个属性值以多维数据的形式表示, 并在界面中提供数据加工的相关控件,方便用户简单清晰的进行清洗数据,检测 数据,替换数据,转化数据,过滤数据,并可以从不同的维度观察加工后的数据, 并可以选择特定的维度来对数据进行图表展示,形成柱状图或者饼状图,方便对 数据进行更深入的观察和分析,完成数据加工等相关任务。3.13.1.2 核心技术ETL引擎主要分为“数据、组件区域”、“拖拽区域”、“控制台区域”。“数据、 组件区域”支持展示数据开发可用的数据表,以及可用的数据开发组件。“拖拽 区域”支持创建数据开发模型,将数据源、组件拖入该区域

26、并连线起来,串联成 数据开发模型。“控制台区域”支持展示模型执行日志、预览数据以及元数据。(1) B/S架构系统采用B/S架构及SVG矢量图形绘制方法,构建基于Web流程设计及运 行技术。将数据处理服务搭建在服务器端,利用服务器端与大数据集群的强大数 据处理能力,来加载大数量或者是全量的大数据,并进行数据处理和加工过程。 采用WEB网页方式与用户进行交互,由于不同浏览器下对WEB网页图形生成以 及拖拽功能的兼容性问题,我们创建了统一的API操作,来定义和规范图形生成 以及拖拽功能。系统将数据预处理、分析和建模过程中设计的功能进行组件化, 用户可以通过拖拽组件以及连线方式生成数据流程图,在组件页

27、面上进行参数配 置,然后再通过页面参数配置来进行对数据加匚处理。(2)自主流程定义数据的转换和加工可以在ETL引擎中进行,利用ETL拖拉拽式的方式,方便 自定义加工模型,快速方便的实现数据按要求加工。aw防日, 般2nB 3UMHU":如 MSS u)fi arfr)nke*uaU)b»i心gW3MoM8D?»15XWXDIWmWW#B、¥界2»W:%5SZ3处拼5项丽例的101划3011湖叫JMW簿。IGOY5 供 4?函30M 加 VQ«I5尔初185八次 CWM 2WSVJaI6E4”、如斑,a25»3ttii

28、1;wJnwwg% 奸mwav,图表2 ETL数据加工界面通过最新的拖拽控件,进行矢量图的构建,从而实现拖拉拽。采用公司内部 积累的绘图包,用于在浏览器上绘制图形。几乎所有的浏览器都支持。绘制出的 内容是真实的DOM节点。不仅可以动态的修改它的大小、颜色等等操作来创建 你想要的内容,而且可以为你创建的内容赋予点击,悬停,动画等操作。不同的组件通过拖拽的方式进行组合,达到对不同数据进行加工的目的。前 台由组件组合生成的矢量图,由后台会前台生成的矢量图进行统一的处理和解析。根据不同的节点功能,进行逻辑组装,比如:数据源组件,该组件中描述了 这个数据表的相关信息。表关联组件是对数据源的关联操作,里面

29、包含左连接、 右连接等,两者结合,生成相关的底层报文,ETL后台引擎,通过解析报文,再 发出对应的实现指令,从而实现对表的关联操作。3.1.3.1.3组件分类ETL引擎中一般以组件化的方式实现数据转换这些组件如同一条流水线上的 一道道工序,它们是可插拔的,且可以任意组装,各组件之间通过数据总线共享 数据。数据加工的组件库中主要分为三类,一类是数据源组件,该组件表明了数据 源的输入信息,第二类是数据加工组件,这类组件可以对输入的数据源进行统一 的加工和处理,第三类是输出组件,这类组件将输数据存储于特定介质中。(1)数据源组件其中包含了通过导入工具所导入的数据仓库中的数据表,或者是由客户提供 的部

30、分采样数据,以及本地所上传的半结构化数据这些不同源头的数据,提供 了数据输入的保证。为数据加工提供了数据支持。(2)数据加工组件具体的数据加工组件,提供了具体的对数据加工的处理方式。如下所示: 1)列筛选组件:自主选择需要展示列。一般数据表中,有很多列,有些列只是附加信息,或者并不存在数据缺 失的情况,选取特定的列来进行处理,可以减轻数据清洗的压力,以达到快 速清洗的目的。列筑造X仍H入或字姓名多1医行MS*标M业标位目录xh2医丁机期睬标崎业玩d目录bzbnna3航机版国京后姿行沐隹目工bzmc国4匡行板破丽后港行业标荏目袋dy 物 bz5至疗机辍国家玩防业役金目M卬q国图表3列筛选界面2)

31、行筛选组件:根据输入的条件,筛选出符合的记录。通过类似于sql语句中的where条件的方式。来对数据表中的行进行过 滤操作,选取特定行进行数据加工处理,比如选取身份证为32开头的数据 进行数据加工,剔除不必要的数据,加速了数据清洗的目的。其中的关联关 系可以选择为并且或者是或的关系。并且制定筛选逻辑,选择等于,大于, 小于等于等操作。图表4行筛选界面3)表关联组件:自主选择关联方式、关联字段将多张表关联起来。表关联组件一般用于多张数据表中,存在着一定的关联关系。一般关联关系分为几类,一般为一对一的关联,一对多的关联,多对多的关联,选取 两张及上面的表,并且选取表与表之间的关联字段信息。其中连接

32、方式主要 分为三种,一种是内连接,一种是左连接,和全连接,选择关联的字段,关联完成之后,可以实现几张表的多维度展示。图表去关联5表关联界面4) TOPN组件:筛选出前N条记录用于展示和存储。当用户只需返回前几条数据,用于查看时,可以选用TOPN,手动设置 可以返回行数,快速判断其中数据的准确性。5)分组组件:自主选择字段进行分组统计或者聚合运算。需要根据一个或者多个列对结果集进行分组,一般用户需要进行汇总统 计的时候,需要进行该操作,比如进行求和统计,或者是计数操作,数据中 最大值或者最小值等相关操作。6)排序组件:自主选择字段进行升序或降序排列。对于输入中杂乱无章的数据,有时 需要对数据进行

33、统一的排序操作。将数据进行规整操作,可以按照升序 或者降序进行排列数据,方便用户快速检查加工后的数据。7)类型转换组件:对表里面的每个字段进行类型转换并保存到数据仓库中。一般情况下面 的数据表中的数据列信息,格式都是比较符合规范的,大,但是有的时 候,数据格式并不符合规范,比如,将使用字符类型代替了整形,使用 了字符类型代替了日期格式类型。使用类型转化组件,可以将数据类转 化成正确的数据格式,比如当选择时间格式时,可以选取特定的时间组织和展示形式,当进行数据加工的时候,就可以将数据加工成指定格式 并符合规范的数据。8)数据转换组件:对表里面的每个字段进行截取字符串、添加前/后缀、匹配起始/结束

34、值 三种方式的数据转换。数据转化组件,主要针对字符串来进行相应的处 理操作,给字符串添加前缀描述,或者是根据数据加工要求,截取特定 位数的字符串,进行字符串的替换,正则表达式的替换操作,匹配字符 数据的起始值或者结束值。从字符串中提取有价值的信息。图表6数据转化组件9)表合并组件:对两张或更多的表进行自动或手动合并处理。当两张表的 列数和列的类型完全一样的时候,并且两份数据所表示的含义也是近似 或者一样的时候,可以将两份数据选择表合并组件,将数据进行合并操 作。比如,一份是10月的车辆轨迹表,而另外一份是9月的车辆轨迹 表,当需要对9和10月份的车辆信息进行汇总统计的时候,可以使用 表合并组件

35、,对两张表的数据进行合并处理。10)公式组件:以公式的形式进行字段间的数据运算操作。当有些列的信息, 需要进行复杂的公式操作之后,才能得出具体的计算结果。可以选择公 式组件,定义特定的公式,利用公式来对每一列的数据进行加工和处理 操作。11)查看组件:查看数据加工过程的中间结果。对于对于前面所使用的数据 加工组件,对于已经处理完成的数据,可以进行预览操作,查看到已经 完成的数据。通过查看组件,当前面的数据组件不满足条件的时候,可 以快速调整前面的加工组件,通过反复的调整及加工以达到数据加工的目的。(3)输出组件该控件主要指定了输出的数据源,以及目标数据的存储方式。其中主要分为两种,第一种是数据

36、仓库,比如说是以大数据构建的数据仓库,或者是MPP数据 仓库。第二种是目标数据源可以是关系型数据库如。racle, mysqL3.1.4 脚本数据加工在数据加工的控件中,可以选择嵌入脚本清洗的控件来实现复杂的数据加工 等相关任务。3.1.4.1.1 基本概念脚本主要分为下面三种,一种是shell脚本,一种是python脚本,还有一种 是sql脚本。通过这三种脚本的方式,对数据进行统一的加工和处理。(1) shell 脚本:Shell脚本与其他的批处理命令类似,将用各类命令预先放入到一个文件中, 其中可以通过grep命令进行过滤操作,利用awk以及sed等命令可以实现对文 件的批量处理功能,sh

37、ell可以提交特定的sql任务,将其封装成不同的客户端的 形式进行提交,比如MapReduce的任务进行提交,结构化查询语句进行提交。(2) python 脚本:Python与shell脚本类似,其中明显的优势就是可以引入第三方包,从而实 现对数据进行处理操作,比如使用Pandas,可以快速的对数据表格进行处理。 相关的大数据组件也提供了相应的api,比如spark, hadoop都提供了相应的接 口。(3) SQL 脚本:SQL是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管 理关系数据库系统。当数据存放于关系型数据库中是,就可以使用SQL脚本将大 量的SQL进行了统一的封装,

38、其中包含了临时表的设计及创建,数据加工细粒度 的控制,如在SQL查询语句中添加where条件进行过滤,查询中重命名字段名 与目的表进行映射,substr函数,case条件判断等等。下面是一个SQL查询的例 子。select name, substr(titlez 1, 20) as t, case when remark is null then 1' else remark end as content from testsql where id > 100 order by id desc;其中是使用where条件对数据进行了过滤,并且包含了对数据的截取,只保 留截取其1到2

39、0为长度的字符串,并且使用case when对列数据进行统一的空 值判断和其他条件的筛选和过滤,并且使用where对数据进行筛选,当筛选完成 结果集之后,基于编号对数据进行排序。以上为一个简单的SQL查询的例子,在 实际的业务场景中,可以通过对SQL的复杂程度的封装,并且若干个SQL语句的 叠加,从而达到数据清洗的目的。相比在ETL引擎中进行数据转换和加工,直接在SQL语句中进行转换和加工 更加简单清晰,性能更高。对于SQL语句无法处理的可以交由ETL引擎处理。3.1.4.1.2 处理流程无论采用哪种脚本,脚本结构都是由三部分进行组成,第一部分定义了表的 相关信息,第二部分定义了具体业务处理的

40、逻辑及流程,其中不同的脚本来实现 不同的业务流程,第三部分定义了数据加工后的结果集输出定义,如存储位置、 结果集说明等。具体使用脚本对数据进行加工的流程如下:定义了上面的三种脚本的输入方式之后,下面需要将脚本以任务的形式提交 并且通过安全审计,交给分布式调度系统进行统一执行,分别对应着shell脚本 执行器、python脚本执行器、sql脚本执行器。首先是脚本的文件的输入,其中包含了脚本文件的上传。其次,每一种脚本,主要都是由三部分进行组成,第一部分定义了输入表的 相关信息,第二部分定义了具体业务处理的逻辑及流程,其中不同的脚本来实现 不同的业务流程,最后一步定义了数据加工后的输出环节,加载不

41、同的数据源, 再经过不同的脚本处理方式,最终,得到不同的处理后的结果集,输出到不同的 位置。定义了上面的三种脚本的输入方式之后,下面需要将脚本以任务的形式提交 分布式调度系统进行统一执行:如针对shell脚本,使用shell执行器来针对shell脚本的处理。针对python脚本,使用python执行器针对python脚本进行梳理。针对SQL脚本,使用SQL执行器对SQL脚本来进行统一处理。将任务提交至分布式调度系统中,分布式系统manager接收到平台的任务请 求,生成清洗任务。并将清洗任务提交到执行器进行统一的执行操作,将执行结 果统一反馈给平台进行,平台可以对执行结果进行预览。针对不同的数

42、据加工的任务采用不同的调度策略,保证任务顺利执行。图表7脚本执行流程图脚本执行是大量的命令一次性执行的过程,为了确保稳定有效的执行,需要 稳健的调度系统来保障。其中为了保证任务的平稳运行,需要提交任务调度平台。将任务提交至分布式调度系统中,分布式系统manager接收到平台的任务请 求,生成清洗任务。并将清洗任务提交到执行器进行统一的执行操作,将执行结 果统一反馈给平台进行,平台可以对执行结果进行预览。针对不同的数据加工的任务采用不同的调度策略,保证任务顺利执行。任务 分布式执行,任务执行器支持集群部署,可保证任务执行高可用,执行器会周期 性自动注册任务,所有任务的调度及触发都是由管理节点进行

43、触发和调度的。当任务失败的时候,实现相应的告警操作,也可以设置任务的重新失败次数, 保证其中的将会按照预设的失败重试次数主动进行重试。调度中心通过数据库锁 保证集群分布式调度的一致性,一次任务调度只会触发一次执行。保证其中的任 务不会被重复调度。系统中使用线程池,调度系统多线程触发调度运行,确保调 度精确执行,不被堵塞。3.1.4.1.3 心计算引擎脚本中的计算引擎的选择,由于脚本中提交任务的方式不同,那么针对底层 引擎的选取也是不同的。(1) SMR计算引擎针对脚本中封装了 SMR等相关任务,一般都会提交于集群中,来进行统一 的计算和操作。SMR是一种编程模型,用于大规模数据集(大于1TB)

44、的并行运 算。概念Map (映射)和Reduce (归约),是它们的主要思想,都是从函数式编 程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员 在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软 件实现是指定一个Map (映射)函数,用来把一组键值对映射成一组新的键值 对,指定并发的Reduce (归约)函数,用来保证所有映射的键值对中的每一个 共享相同的键组。MapReduce是一个并行计算与运行软件框架。它提供了一个庞 大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划 分计算数据和计算任务,在集群节点上自动分配和执行任务以及收

45、集计算结果, 将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂 细节交由系统负责处理,大大减少了软件开发人员的负担。针对封装为hiveSQL脚本,一般会选取使用hive作为执行引擎来对数据进行 统一的计算操作。其中可以包含第三方自定义函数的扩展,其中也包含了对数据 的统一存储和优化。主要分为用户执行查询sql,通过驱动提交查询sql,经过编 译器对sql进行编译,获取查询计划,并和metastore进行通信,从metastore中 获取表信息和列描述信息,将sql语句提交至执行引擎进行执行。hadoop接收到 任务请求,其中任务分为两部分,一部分是map任务,另外一部分为

46、reduce任 务。通过yarn资源管理器进行统一调度,并通过namenode访问datanode(数据 节点)。根据前台的发送获取数据的请求,从结果集中获取到最终数据。(2) SP分布式计算引擎针对复杂的SQL脚本,并且其中相关表的数据量都很大,可以建议采用曙光 自研的SP对数据进行查询处理,SP基于管道式运算,并且将大量数据查询操作 基于内存,极大提升了查询性能。SP是一个分布式SQL查询引擎,可对从数G到 数P的大数据进行交互式的查询。用来专门进行高速、实时的数据分析。它支 持标准的ANSISQL,包括复杂查询、聚合类似group,最大值,最小值等、连接 操作,可以进行左连接,右连接及全

47、连接操作和复杂的窗口函数等操作。SP查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个 Discovery Server节点,多个Worker节点组成 利用SP对SQL脚本进行处理操作, 可以大幅提高数据处理性能,完成复杂数据加工的任务。(3) SK计算弓|擎曙光自研SK计算引擎采用基于内存的计算引擎,作业中尽量减少持久化的 过程以充分利用内存计算的优势。提供丰富的计算原子,在此基础上通过对计算 原子的合理组合,构建出一张有向无环图(DAG),经过逻辑计划和物理计划的 优化后最终形成作业。计算节点子任务计算失败后,根据作业子任务间的依赖关 系能够重新计算失败的

48、子任务并保证数据的完整性,正确性。对于运算时间很长, 运算量大等,有一定概率出错的的作业,通过提供checkpoint检查点,将内存中 的中间结果持久化到硬盘上,当子任务失败需要重新计算时,就可以从整个任务 的checkpoint处计算,避免耗时作业重新计算,产生不必要的的时间消耗。对于 经常访问的数据,可以通过显示调用方法的方式将数据缓存到内存中。其中也实 现了相关机器学习的算法,可以对数据进行分析挖掘,以达到数据清洗的相关目 的。其中也符合大数据生态圈中的资源管理调度的标准,通过大数据组件进行调 度和管理,这样可以使用集群资源来对数据基于内存处理。使用以上数据加工引擎,用来将数据进行统一化

49、的处理,对于离线的,大数 据量的批处理脚本清洗任务,可以使用SMR计算引擎,对于需要实时处理,并 对性能要求比较高的场景,需要符合结构化查询语句的方式,可以使用SP计算 引擎对数据进行处理,而大规模的数据分析及数据挖掘可以使用SK计算引擎。使用相关引擎对数据加匚之后,将数据存放于指定的位置中。3.1.5数据存储对于清洗完成的数据,一般情况下数据量比较大,或者是数据类型比较多, 因此为保证我们的数据存储平台的先进性,要能支持多种类型的数据源。由于数 据源类型的多样性,传统关系型数据仓库架构或者分布式存储架构各有优缺点, 单独使用都无法很好的满足对结构化和非结构化数据的存储和应用需求,因此我 们建

50、议采用传统数据仓库架构与大数据分布式数据仓库架构两者相结合的架构 设计,两者紧密配合共同承担大数据处理任务。对于数据加工完成的数据,当保存于数据仓库中是,需要对元数据进行管理, 选择以关系型数据库MySQL数据库共同承担对结构化的数据的存储和管理。如果数据存放于MPP数据仓库中,那么其中会自带元数据管理服务,如果其中需要对元数据进行扩充元数据信息,也是采用Mysql来对数据进行存放。图表8数据存储与元数据存储流程图3.1.5.1 数据分层3.1.5.1.1 基本概念对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一 个更加清晰的掌控,清晰数据层次结构,每一个数据分层都有它的作用

51、域,这样 我们在使用表的时候能更方便地定位和理解其中分层的主要目的在于,从外部 的数据源一步一步的将数据流向系统内部。(1)导入数据层:即贴源层,数据来源于各个生产系统,主要是通过交换平 台交换过来的数据。这类数据很少做关联操作,其中的时效时间并不是 很长,一般只保留一个月到半年左右的时间的数据,主要用在离线存储 方面。用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、 数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中 极大降低了数据转化的复杂性,并且在原先的业务系统中,可能存在复 杂的报表系统,相关的业务也比较复杂,而贴源层的数据从描述及字段 信息都是和业务系统保持了一

52、致,为后期的数据加工提供了数据准备。(2)加工存储层:即数据仓库,根据业务需求对贴源层数据进行提取,再经 过数据加工处理,将单一的数据信息进行整合转换成符合体系要求的数 据。采用ETL加工工具来对数据进行统一的加工,通过界面选取数据组 合组件对数据进行加工处理,当数据加工完成之后,将数据存放于其中 数据仓库中或者MPP中。(3)清洗结果层:利用内置的清洗规则来对数据进行数据清洗,其中包含数 据空值去除,身份证,邮箱数据的检测,即清洗结果库,对于数据进行 提纯、修复之后的数据,对外提供高质量的数据。3.1.5.1.2 数据分类(1)导入数据存储区,即贴源库(对应交换平台的交换中心库)。1)贴源库

53、主要是管理原始数据,如交换平台交换的原始数据,采用定时同步机制审查数据 增量/全量状况。其中集成来自多个系统的数据,应先创建数据模型。由于贴源 层并不属于特定的系统,实现方法与数据仓库无异。为求快速建置以及呈现来源 系统数据,实务上常见许多企业采取的做法是直接将来源系统的数据以类似复制 的方式至来源系统以外的数据库,有的时候为了表明时效性,会在导入的数据中 加上特定的时间戳记,让每份数据有特定的时间节点,有利于数据的分析操作。技术选型:Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张 数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务

54、进行运行。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这 是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。a)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS 作为存储系统)。一般情况下不需要重启服务Hive可以自由的扩展集群 的规模。b)提供统一的元数据管理。一般采用mysql进行元数据管理。c)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自 己的函数。d)容错:良好的容错性,节点出现问题SQL会提交到其他集群中进行运行。 主要分为用户执行查询sql,通过驱动提交查询sql,经过编译器对sql 进行编译,获取查询计划

55、,并和metastore进行通信,从metastore中 获取表信息和列描述信息,将sql语句提交至执行引擎进行执行。hadoop 接收到任务请求,其中任务分为两部分,一部分是map任务,另外一部 分为reduce任务。通过yarn资源管理器进行统一调度,并通过namenode 访问datanode (数据节点)。根据前台的发送获取数据的请求,从结果集 中获取到最终数据。(2)数据加工存储区,即数据仓库1)数据仓库该模块总共分成两个个区:活动区、归档区。活动区主要负责数据加工过程中处理的数据和过程产生的数据。归档区主要 将加工后的结果数据存档,并且支持多版本管理存储,可以对数据回溯、恢复。 版

56、本号基于时间戳进行编辑排序,每次检索查询默认都是检索的最新版本。为了 减少过多版本造成的存储冗余和管理负担,提供两种版本回收机制,一是仅保留 数据的最后3个版本;二是保存最近一段时间内的版本(比如三天)。技术选型:数据加工存储区,数据加工、关联、查询比较多,采用MPP数据库。NIPP(MassivelyParallelProcessing):大规模开行处理系统,系统由许多松 耦合处理单元组成的。每个单元内的CPU都有自己私有的资源,如总线、内存、 硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的 特点在于数据关联效率高。(3)清洗结果存储区,即洗结果库1)清洗结果库当数据

57、由贴源数据接入,并通过数据加工和清洗,主要是对于数据清洗之后 的数据存储,这部分数据对于实时性调用要求不高,大部分是用作大规模分析, 支撑其他模块,将加工和清洗之后的数据存放于清洗结果库中,清洗结果库中, 构建于SHive,曙光数据仓库中。技术选型曙光数据仓库基于SDFS分布式文件系统,曙光基于原先的分布式文件进行一定的封装操作,它被设计成适合运行在通用硬件上的分布式文件系统。和现有 的分布式文件系统有很多共同点。SDFS是一个高度容错性的系统,适合部署在 廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的 应用。3.1.5.2 数据标签3.1.5.2.1 基本概念互联网

58、的快速发展和大数据时代的到来,会聚集大量结构化及非结构化数据, 这些数据的密度都是比较低的,其中数据错综复杂,每一份数据都有自己的意义, 而数据与数据之间乂存在各种联系,利用数据标签可以系统不同的数据进行承载。3.1.5.2.2 目的及意义数据管理提供数据标签功能,针对清洗完成的数据,或者后期加工的数据, 打上数据标签,以实现对数据的快速分类管理。标签通过简洁的词汇向人传递其背后的信息;另一方面通过负责后端的数据 处理得出相关标签。标签利用高度精炼的特征词汇,让用户能够简单易懂地理解 每个标签的含义;指向明确,一个标签通常只反映一个信息。大数据标签是数据支撑的基础。依托数据标签平台可实现多种模式的数据价 值,利用标签可以快速让用户明白该数据集的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论