化工产业大数据平台建设方案_第1页
化工产业大数据平台建设方案_第2页
化工产业大数据平台建设方案_第3页
化工产业大数据平台建设方案_第4页
化工产业大数据平台建设方案_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

xxxx

化工产业大数据平台

建设方案

Xxx科技有限公司

二。二二年四月

目录

1项目概述..............................................3

1.1项目概述...........................................3

1.2项目建设目标、效果.................................3

1.2.1项目目标........................................3

L2.2项目效果........................................3

2需求分析..............................................4

2.1现状分析...........................................4

2.1.1信息化现状......................................4

2.1.2问题分析........................................5

2.2需求分析...........................................5

2.2.1业务需求分析....................................5

2.2.2用户需求分析....................................6

2.2.3功能需求分析....................................7

3总体架构..............................................9

3.1总体框架...........................................9

3.2技术架构..........................................10

4建设方案.............................................12

4.1建设思路与路径....................................12

4.1.1高性能数据平台.................................12

4.1.2建立标准规范体系...............................12

4.1.3构建统一数据湖.................................13

4.1.4数据资产化.....................................16

4.1.5数据共享开放-培育数据创新场景..................18

4.1.6应用支撑与业务协同.............................19

4.2产业大数据基础平台................................20

4.2.1大数据基础平台.................................20

4.2.2产业数据资产管理平台...........................35

4.2.3数据服务.......................................52

4.3化工产业交易平台..................................53

4.3.1平台应用内容...................................53

4.3.2平台系统功能介绍...............................54

4.3.3平台应用价值...................................69

4.4数字园区管理......................................70

4.4.1产品背景.......................................70

4.4.2用户人群/需求..................................70

4.4.3园区服务商.....................................70

4.4.4入驻企业.......................................71

5项目实施方案.........................................79

5.1项目进度计划......................................79

6运营和运维质保服务方案................................79

6.1平台运营方案......................................79

6.2远程运维服务......................................79

6.3技术咨询服务......................................79

6.4驻场运维服务......................................80

7项目投资预算.........................................80

7.1总投资预算........................................80

II

1项目概述

1.1项目概述

项目名称:化工产业大数据平台

结合线上数据、线下数据、公共数据、产业链C端数据建设统

一的大数据平台。面向工业园区提供大数据服务。通过大数据基础

平台,提升大数据对园区发展的支撑作用,推进管理智能化。

为满足对已有历史数据的采集和后续分析应用的需求,释放各

个环节的大数据应用技术及数据资源,建立大数据基础服务平台,

提供数据采集、数据分析、建模挖掘及综合管理等大数据基础工具

服务;提供大数据共享交换实现各单位数据的整合共享,为企业管

理及公众服务提供数据支撑。

1.2项目建设目标'效果

1.2.1项目目标

基于客户,化工研究院等经济产业相关部门的信息化建设现状,

以企业服务创新、决策科学为立足点,以需求主导、应用先行的原则,

积极探索和建设客户产业大数据服务项目,让企业能够通过本平台在

线享受优质企业服务,定向获取政府政策推送及解读,解决各类企业

的多种诉求,为推进政府服务,激励企业创新提供有力支撑和保障,

建立政企沟通互动的桥梁,对内提升政府服务,对外改善公共服务,

达到建设服务型政府的目标。同时,利用大数据技术进行信息资源整

合和数据分析处理,做到用数据说话,用数据决策,用数据管理,用

数据创新,提升园区综合治理能力和推进数字经济持续发展。

1.2.2项目效果

3

2需求分析

2.1现状分析

2.1.1信息化现状

1)目前园区未建立统一的信息资源数据库,譬如企业信息、

地理信息、人口信息、车辆信息等基础信息库以及危化品库、应急

物资库、环保信息库等专题数据库。

2)园区企业信息建设自成体系,信息化水平低,缺乏远程、集

中控制方式,同时

业务系统封闭运行,软硬件各个系统相对独立,数据库也相对独

立,不能实现信息资源共享,园区信息化资源需进一步整合;

3)有建设相应的信息化或者物联网远程监测系统,日常消防

安全管理和消防维保管理采用人工纸质记录的方式,工作效率比较

低,对于企业消防安全隐患预警不足,同时园区内消防救援力量分

布及救援物资储备等信息,静态化记录,与救援指挥系统、预案等

缺少数据互联,缺少危化品处置支撑信息,指挥现场信息不透明,

无法实现有效有序的指挥救援。

4)园区企业信息建设自成体系,信息化水平低,缺乏远程、集

中控制方式,同时

业务系统封闭运行,软硬件各个系统相对独立,数据库也相对独

立,不能实现信息资源共享,园区信息化资源需进一步整合。

■支撑系统信息化现状:

1)园区地理信息数据方面,园区还未建立整个客户的完整地

理数据

库,地理位置信息有待提升智能化管控,需根据规自局相关城

规数据和土规数据建成自然资源和地理空间基础信息库,进而为园

4

区管理应用提供支撑;

2)园区管委会还未建立资源目录共享交换平台并与园区内各

部门、企业实现

数据共享。同时需进一步对各部门企业相关信息资源进行统一

编目管理,推进各委办局以及垂直管理部门数据资源整合,简化部

门之间数据共享与交换的复杂度,形成跨部门、跨业务、跨系统的

数据资源共享共用格局。

2.1.2问题分析

建设本项目,具有以下重要意义:

1)实现大数据资源统筹规划:全面把握城市信息资源状况、

规划捋顺信息资源管理业务;

2)实现大数据资源综合管理:实现多源、异构海量公共数据

的统一存储、处理、共享,大数据资源常态化运维和更新;

3)实现大数据资源开发利用:建设统一的大数据资源服务接

口,促进数据开放和价值挖掘。

2.2需求分析

2.2.1业务需求分析

2.2.1.1客户

2.2.1.2化工研究院

2.2.1.3市

5

2.2.2用户需求分析

2.2.2.1可拓展性需求

系统需要支持结构化、半结构化、非结构化数据的统一管理和

搜索。一个索引可由多个子集组成,分布在不同的节点上,实现分

布式检索;索引的各个子集可在不同的节点上存储多个副本,索引

子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均

衡,提高并发检索能力。

2.2.2.2平台处理能力需求

系统需要支持PB级的海量数据搜索,支持海量用户的高并发访

问(千万级用户、万级并发)。

可根据应用的查询特点,将数据自动分区索引,充分发挥现代

PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,

变随机读写为顺序读写,能够进行高速的索引创建,适应海量数据

的集中索引和快速索引的应用需求。同时,分区索引还可以减少检

索时的索引匹配范围,缩短检索响应时间。

2.2.2.3平台可靠性需求

系统需要采用扁平化设计,能够弹性扩展。节点之间完全对

等,都可以对外提供服务。需要采用扁平化的架构设计,使整个系

统没有单点故障,任何一个节点的故障都不影响系统对外提供服

务;同时扁平化的架构能够使系统具有良好的扩展性,只需在线增

加新的节点就可以提供系统的容量和对外服务能力。

系统能够将硬件异常作为常见异常来处理。系统需要自动感知

服务器的异常状态,并进行自我修复,不会因为单个节点的异常导

致整个系统不可用。

6

2.2.2.4可维护性需求

系统需要提供可视化界面,将各项维护工作进行直观展现,提

升维护的便捷性和直观性;同时利用短信、邮件等消息机制对运行

过程中的故障、性能信息进行监控、预警,提升维护的及时性;利

用信息采集、告警内容编辑等功能,结合数据搜索构建的健康度评

估,提升维护的准确性。大规模部署的自动化和运行状态监控。

2.2.3功能需求分析

2.2.3.1分布式存储需求

大数据分布式存储需要能够快速的存储不同类型和不同格式的

海量大数据资源。数据源来自城市各种业务场景中各种类型的数

据,包括结构化数据、非结构化数据和半结构化数据等类型,内容

覆盖各种常规数据库、物联网实时数据、互联网数据等。

2.2.3.2大数据基础支撑需求

大数据基础支撑需要提供分布式数据处理环境,需要包括大容

量的数据存储、分析查询和实时流式处理分析能力。通过对海量数

据实时与非实时的分析挖掘,发现全新价值。

能够提供的数据存储计算服务,须支撑对不同类型数据源的采

集、存储、计算以及管理能力,实现在离线/实时等不同使用场景下

的大数据服务,用以满足对大数据分析的基础服务需求。

2.2.3.3数据资源集成需求

大数据资源集成系统是能够将不同来源、格式、特点性质的数

据在逻辑上或物理上有机地集中,从而为用户提供全面的数据集成

视图。构建统一的数据汇聚与整合功能,为各类数据资源采集与归

集提供技术支撑与过程管理服务。

针对政务垂直系统蕴藏着的丰富块公共数据资源的数据抓取基

7

础运行环境服务和管理环境服务,基础运行环境包括提供API运行

引擎、路由引擎、集群高可用与负载均衡引擎、安全引擎、发射逆

向重构模型重建、按需适配数据接口,管理环境服务包括提供API

运行周期管理引擎、监控引擎、项目信息配置引擎、访问授权引

擎、报表引擎、管理统计服务。

需要能够通过表现层分析等技术手段实现已有封闭应用系统的

数据及功能接口的重构。从而在保证原有数据结构不变动,原有网

络架构不改变、系统代码不变更的前提下,提供大数据API重构及

封装技术,为实现的“互联网+政务服务”业务平台的建设开发提供

更多有力支撑。

能够提供基于跨部门、跨产业数据交换平台的数据交换服务,

以支撑各委办局、本项目各产业服务之间信息资源的采集、传输、

交换的工作,实现信息资源在全市范围内的交换与共享。数据交换

服务需要支持数据库交换、文件交换、数据发布、数据订阅、数据

源适配、数据抽取、数据清洗、数据转换、作业管理、交换日志、

加密传输、断点续传、数据路由、流量控制、实时监控、审计告

警、统计分析服务等。

2.2.3.4大数据应用支撑需求

能够为大数据应用建设和开发提供支撑服务,包括数据服务接

口、大数据查询检索、大数据可视化、数据模型算法和大数据分析

挖掘服务等。提供的数据治理服务须包括数据质量的管理服务及元

数据管理服务。提供开展数据挖掘的软件环境服务,包括数据预处

理、数据管理、模型训练、模型管理、模型评估。要求可针对海量

数据提供集中模型计算,用以分析数据内在关系和价值。

能够提供数据可视化的框架服务,整个框架中配备数据源管

8

理、可视化引擎、可视化组件库、可视化组件二次开发、可视化设

计器、事件与函数设计器、发布管理,可基于数据可视化框架服务

实现数据源的导入、可视化呈现,并支持特殊可视化效果的二次开

发。

2.2.3.5数据治理需求

需要为大数据基础平台中数据资源提供综合管理,能够提供包

括统一运维、资源目录、质量控制、元数据管控、数据标准管理、

数据安全等功能。

3总体架构

3.1总体框架

产业大数据应用数字园区智能营商平台B2B化工交易平台

服务总线

企业基础库供应链专题库化工专题度园区专题库产业专题库

元数据看理数据标胜资产管理

敌砧.喷量苣理s®标签首理数据指标败籍安全

存情与计尊

大数据I

平台皿计■期・数据挖掘全文搜索库入

化工金生产数据化工品流通数据化工品消费数据

•原料(含半成品)进口数据•生产厂家数据•商家采购、交易订单数据-用户画像数据

•原料(含半成品)库存数据•生产过程敢据・仓储、物流(干线)数据,行为偏好数据

•原料(含半成品)交易数据•半成品/成品库存数据・进出口雌•金融数据•5?^流向数据

企业法人数据物流云创嘘

图3-1整体框架

9

3.2技术架构

结杓化敷据位置数据举/非结构效提流/物联效据

图3-2技术架构图

数据源:数据接入,需要接入所有形态,所有类型和全域的数据

源,数据源包括政务业务系统,关系型数据库,GPS数据、非关系

型数据,物联网数据等。

数据接入:数据接入方式包括ETL工具、CDC同步工具、API程

序、手工导入文件、使用开源SQOOP/Flume导入等。

计算存储:包括关系关系型数据库、NoSQL数据库、Hadoop大数

据平台生态体系等。

数据挖掘分析:包括数据建模分析工具,数据挖掘工具,深度学

习平台等。

数据服务:通过服务总线、API网关、开发SDK等形式提供不同

行业的政务数据资源目录开放下载和API订阅等数据服务,赋能业

务系统集成、协作、吸引社会力量参与大数据挖掘、大数据应用建

设;服务行政效能、民生保障、市域治理和营商环境、培育大数据

10

产业聚集和创新。

数据治理:数据全生命周期管理和治理,包括数据接入、元数

据、数据对账、数据治理、数据标准、数据资产、数据安全、数据

运维等。

11

4建设方案

4.1建设思路与路径

4.1.1高性能数据平台

建设数据融合平台,实现结构化、半结构化、非结构化、等资

源的数据同步、多域数据集成、数据转换和数据加载。

建设大数据基础平台,提供数据分布式存储、大规模离线计

算、实时处理、数据智能检索、流式数据处理、数据安全保护和

数据运维。

建设数据运营平台,实现数据源管理、元数据管理、数据标

准、数据资产管理、数据标签、数据服务功能。

建设数据挖掘分析平台,提供数据预处理、可视化建模、模型

评估和应用的一站式数据分析工具。

4.1.2建立标准规范体系

1)持续完善标准规范体系

主要包括总体标准、基础设施标准、数据标准、业务标准、

服务标准、管理标准和安全标准,建设标准不是一蹴而就,需要

持续长期投入人力和资源。

2)加强重点产品标准编制

①编制产品标准,明确建设、数据、对接、运营、安全等各

方面要求;

②编制数据治理系列标准,推动数据汇聚利用和共享开放;

12

4.1.3构建统一数据湖

结-

委办局业质量反情、

洗中心数据资源库

务构-关享、数据

成阶段数据国务、防同

化基础岸主题库专题庠

r强

市城感知数

J标签庠知识庠业务岸实时可视

-化

管商环境半-

结-多维分析

民生保律-

化智能监控

行政效能辅助决策

法应用模型

市域治理

非结构化

分析

京东数

测分析

据fil

第三方分布式存储分布式计算智能检索绩效管理

创新应用

数据湖

元数据、数据标准、数据质量、数据资产、标签管理、指标管理、数据运维、数据安全

运营平台

图3-2统一数据湖

(一)入湖数据源(按数据所属)

1)政府数据入湖

海量异构的城市数据资源80%来自政务大数据,包括人口、法

人、空间地理、经济、信用等主题数据;城市级数据接入汇聚可

以智能地重建系统数据与功能接口,实现数据实时获取、精准融

合和无缝集成,为政务、金融、通信、能源、医疗、交通等大数

据重点行业中的数据开放、融合与增值创新提供高效的平台支

撑。

2)自有数据

已经积累了10亿消费者、600万企业客户、22万入驻商家的

商业数据,全国15个省、23个城市合伙人的落地的政务云数据。

通过整合万象生态数据形成13大类目的产业、金融和物流类数据

资源以及生态伙伴,能为电商产品精选、政务、金融、供应链、

广告精准投放等各领域提供服务。

3)行业产业数据

13

联合生态伙伴构建社会数据资源池,涵盖国民经济70+产业链

(上下游)及全市场数据供应商中最细分的1500细分行业,全国

工商注册企业5400万+(包括企业基本信息、投资信息、年报信

息、抵押信息、工商处罚信息、知识产权信息、司法裁决信息、

资质荣誉信息、上市信息、深度财务信息等),除此之外还包括

人群位置数据、人群消费及偏好数据、400万商品SKU数据、物流

数据等。

4)第三方生态企业数据:

社会企业、互联网中拥有大量与人、地、事、物、组织等相

关的数据资源,通过获取这些数据,将可以为政府提供重要的辅

助支撑,是未来城市数据的重要组成部分。抓取海量的互联网信

息资源,实现有针对性、行业性、精准性的数据抓取,并按照一

定规则和筛选标准进行数据归类,最终形成数据积累。

(二)入湖数据数据源类型

包括关系数据库、大数据平台、业务系统库、部门前置机、

数据服务总线、I0T物联网管理平台、视频共享平台、数据共享交

换平台等。

如果按照数据形态来分,可分为结构化数据,半结构化数据

和非结构化数据。

(三)入湖方式

数据入湖以逻辑数据实体为粒度入湖,逻辑数据实体在首次

入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所

有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖

工作量。

数据入湖的方式主要有物理入湖和虚拟入湖两种,根据数据消

14

费的场景和需求,一个逻辑实体可以有不同的入湖方式。两种入

湖方式相互协同,共同满足数据联接和用户数据消费的需求,数

据管家有责任根据消费场景的不同,提供相应方式的入湖数据。

物理入湖是指将原始数据复制到数据湖中,包括批量处理、

数据复制同步、消息和流集成等方式。

虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通

过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小

数据量应用,大批量的数据操作可能会影响源系统。

(四)入湖方式技术手段

1)批量集成

对于需要进行复杂数据清理和转换且数据量较大的场景,批

量集成是首选。通常,调度作业每小时或每天执行,主要包含

ETL、ELT和FTP等工具。批量集成不适合低数据延迟和高灵活性

的场景。

2)数据复制同步

适用于需要高可用性和对数据源影响小的场景。使用基于日

志的CDC捕获数据变更,实时获取数据。数据复制同步不适合处

理各种数据结构以及需要清理和转换复杂数据的场景。

3)消息集成

通常通过API捕获或提取数据,适用于处理不同数据结构以

及需要高可靠性和复杂转换的场景。尤其对于许多遗留系统、ERP

和SaaS来说,消息集成是唯一的选择。消息集成不适合处理大量

数据的场景。

4)流集成

主要关注流数据的采集和处理,满足数据实时集成需求,处

15

理每秒数万甚至数十万个事件流,有时甚至数以百万计的事件

流。流集成不适合需要复杂数据清理和转换的场景。

5)数据虚拟化

对于需要低数据延迟、高灵活性和临时模式(不断变化下的

模式)的消费场景,数据虚拟化是一个很好的选择。在数据虚拟

化的基础上,通过共享数据访问层,分离数据源和数据湖,减少

数据源变更带来的影响,同时支持数据实时消费。数据虚拟化不

适合需要处理大量数据的场景。

4.1.4数据资产化

数据资源

图3-3统一数据湖

数据来源与业务,数据通过存储、清洗、转换、分析、挖

掘、标签化后,形成数据资产,数资产通过数据服务和共享等手

段对应用进行赋能和创新应用培育。

从技术层面,是一套技术组件,一种解决方案-;业务层面,

是组织战略下方法论、持续运营、闭环增进、共享创新的结合及

过程。

(一)业务数据化

16

构建让数据快速适用于业务的持续运转机制,构建数据交

换、数据接入、数据流通、数据存取等。

(二)数据资产化

1)数据接入

通过统一的接入工具实现政府内、外部海量异构数据资源汇

聚到大数据平台;支持数据采集、汇聚等多种方式,满足数据探

查、数据定义、数据读取、数据对账。数据接入提供标准化、模

块化、可适配的多源异构数据资源接入模式,为各部门或政府其

他部门的数据抽取汇聚提供接口通道。

2)数据处理

面向具体的数据内容,建立标准化的数据汇聚适配接入模

式,按照提取、清洗、关联、比对、标识、分发等规范流程进行

转换处理,为上层的各类业务应用提供从数据组织到数据建模的

支撑。

3)数据治理

对数据的标准化、专业化管理。包括元数据管理,数据质量

管理,数据标准处理,数据资源目录等,实现对数据抽取、清

洗、整合、存储、应用、服务的全治理流程的标准化管理功能,

完成数据标准化存储,数据资产的有效组织和管理;

4)信息资源库

原始库:原始库是综合来自各部门机关负责的各种数据资

源、支撑各项业务工作的公共数据集合,可以脱离任何业务而独

立存在,与每一项业务相关。对不同来源的数据,按照数据的原

始格式进行存储;

资源库:借助专业数据治理工具和服务,依据国家以及省厅

17

地市的相关标准完成元数据、数据内容的标准化;

主题库:根据政务业务工作的主题以及应用的需求,从人、

物、场所、组织、信息等方面对标准库的数据进行提取,形成支

持应用的基础主题库;

知识库:包括基础知识库、基础算法库、智能信息处理知识

库、规则库、标签知识库等。

业务库:包括业务生产库、业务资源库、业务知识库、标签

业务库等;

5)数据标签体系

通过标签定义、标签维护、标签开发、标签应用等流程,对

主要关注实体进行标签管理和标签服务。

(三)资产服务化

数据服务层对外提供数据服务能力,包括查询检索服务、比

对订阅服务、模型分析服务、数据推送服务、数据鉴权服务、数

据操作服务、数据管理服务。包括开放数据能力、算法能力、计

算能力。

(四)服务业务化

服务推动业务持续创新、增加业务效能、降低运营成本、提

高业务开发效益或直接在市场交易变现获利。

4.1.5数据共享开放-培育数据创新场景

数据共享开放平台包含两部分内容,数据共享平台和数据开

放平台。

数据共享平台汇集了政府、企业与社会的大量数据,是政

府各部门进行数据交换的转换器,平台将各类异构数据进行统一

处理,使各部门能够按照自身业务需求从平台中获取相应数据,

18

避免了数据重复收集、重复存储的窘境,提升了政府部门工

作效率,打破了各部门之间的数据壁垒,解决了各业务系统

不能互通的难题;

数据开放平台实现数据资源向社会开放,政务数据的开放打

通政府部门、企事业单位和社会组织的数据壁垒,有序推进政

府、市场与社会对数据资源的合作开发和高效利用,重构生产

关系和价值链,打破数据壁垒、释放数据价值红利。

4.1.6应用支撑与业务协同

建设统一服务支撑平台,功能包括业务协同、消息集成、数

据集成、服务集成、物联网协同、数据开放、资源目录、统一结

算、中间件、电子证照、统一认证和基础地图服务。

(一)业务集成

提供API设计、开发、测试、管理、发布能力,具备API

策略路由、统一接入、认证授权、请求验证、流量控制、API调

用统计分析能力,以及协议转换、API编排、API调度等业务处

理能力。

(二)消息集成

针对企业级互联的专业消息组件,提供发布订阅、消息轨

迹、资源统计、监控报警等消息云服务

(三)数据集成

提供多种数据源的快速集成能力。支持文本、消息、API、结

构和非结构化数据等多种数据源之间的灵活集成

(四)物联网集成

使用MQTT标准协议连接设备,快速、简单地实现设备云端管

理。能够连接设备和IT系统、大数据平台,将设备的运行状态等

19

信息上传到IT系统或大数据平台中,通过物联网协同,大脑和末

梢才能连接、控制、反馈和协调运作起来。

(五)资源目录

统一结算负责统计服务交易(调用)信息,为平台运维、绩

效评估和数字产业运营提供支撑

(六)统一认证

统一身份与访问是贯穿整个全业务流程的身份访问管理系

统,提供集中式的数字身份管理、认证、授权、监控和审计平

台,保证合法的用户、以适当的权限访问受信任的系统和设备,

并对异常访问行为进行实时预警和有效防范,助力企业和政府快

速的实现数字化转型。为全生态场景应用、第三方用户提供统一

访问入口和接入权限控制,提供应用开发、提高使用便利和效

率。

(七)基础地图服务

为业务系统提供统一的公共基础设施,避免应用孤岛和提高

业务开发速度。

(八)其他组件

服务与支撑应用协作的组件还包括应用中间件、电子证照、

电子签章、区块链、统一结算等。

4.2产业大数据基础平台

在国家大力发展新基建的浪潮下,新基建为数字产业进一步发

展建设创造了良好环境。

4.2.1大数据基础平台

数据存储计算平台基于对Hadoop2.x/Spark生态进行整合、

优化,提供分布式文件系统作为存储引擎、YARN作为资源管理框

20

架、融合一系列大数据相关组件,为用户提供统一运维、海量存

储、高可用、高性能、稳定易用的一站式大数据基础平台,并且

为智能分析、可视化等平台提供数据和平台支撑,是整个大数据

体系中不可或缺的基石。同时平台具备可视化开发界面和丰富的

API,为用户二次开发提供强有力支撑。

4.2.1.1基础设施

4.2.1.1.1分布式文件系统HDFS

分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系

统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决

方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛

应用,成为海量数据存储的标准。

4.2.1.1.2分布式列式数据库

HBase不是一个关系型数据库,是一个面向列的实时分布式数

据库,其设计目的是用来解决关系型数据库在处理海量数据时在理

论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易

系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规

模扩大时的扩展性以及系统故障时的可用性。虽然,多年的技术发

展产生了一些对关系性数据库的修补(并行数据库),然而受限于

理论和实现上的约束,扩展从来没有超过40个服务器节点。而

HBase从一开始就是为实现Terabyte到Petabyte级别的海量

数据存储和高速读写而设计,要求数据能够被分布在数千台普通服

务器上,并且能够被大量并发用户高速访问。

4.2.1.1.3内存数据库

Redis是一个开源的使用ANSIC语言编写、支持网络、可基于

内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的

21

APIo

Redis是一个key-value存储系统,支持存储的value类型相

对更多,包括string(字符串)、list(链表)、set(集合)、

zset(sortedset一有序集合)和hash(哈希类型)。这些数据类

型都支持push/pop、add/remove及取交集并集和差集及更丰富的

操作,而且这些操作都是原子性的。在此基础上,redis支持各种

不同方式的排序。与memcached一样,为了保证效率,数据都是缓

存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或

者把修改操作写入追加的记录文件,并且在此基础上实现了

master-slave(主从)同步。

Redis支持主从同步。数据可以从主服务器向任意数量的从服

务器上同步,从服务器可以是关联其他从服务器的主服务器。这使

得Redis可执行单层树复制。存盘可以有意无意的对数据进行写操

作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步

树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步

对读取操作的可扩展性和数据冗余很有帮助。

4.2.1.1.4计算引擎

•MapReduce

MapReduce是一种高性能的批量处理的分布式计算框架,用于

对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,

MapReduce适合处理各种类型的数据,包括结构化、半结构化和非

结构化数据。数据量在TB和PB级别,在这个量级上,传统方法

通常已无法处理数据。MapReduce将分析任务分为大量的并行Map

任务和Reduce汇总任务两类。Map任务运行在多个服务器上。目

前部署的最大集群有4000个服务器。

22

•GraphX

SparkGraphX是一个分布式图处理框架,它是基于Spark平台

提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对

分布式图处理的需求。

•Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是类似Hadoop

MapReduce的通用并行框架。Spark拥有HadoopMapReduce所具

有的优点,但不同于

MapReduce,Job中间输出结果可以保存在内存中,而不再需要读

写HDFSo因此,Spark能更好地适用于数据挖掘与机器学习等需要

迭代的MapReduce的算法。

•Flink

Flink是一个框架和分布式处理引擎,用于对无界和有界数

据流进行有状态计算。Flink设计为在所有常见的集群环境中运

行,以内存速度和任何规模执行计算。

Flink与所有常见的集群资源管理器(如HadoopYARN,

ApacheMesos和Kubernetes)集成,但也可以设置为作为独立集

群运行。

Flink旨在很好地适用于之前列出的每个资源管理器。这是通

过特定于资源管理器的部署模式实现的,这些模式允许Flink以

其惯用的方式与每个资源管理器进行交互。

Flink可以支持本地的快速迭代,以及一些环形的迭代任

务。并且Flink可以定制化内存管理。

23

4.2.1.1.5数据格式

・Parquent

Parquet是面向分析型业务的列式存储格式,主要具备以下优

势:

(1)可以跳过不符合条件的数据,只读取需要的数据,降低

10数据量;

(2)压缩编码可以降低磁盘存储空间。由于同一列的数据类

型是一样的,可以使用更高效的压缩编码(例如RunLength

Encoding和DeltaEncoding)进一步节约存储空间;

(3)只读取需要的列,支持向量运算,能够获取更好的扫描

性能。

•Avro

Avro定义了一个数据格式,从设计上支持数据密集型应用,

并且为多编程语言提供该格式支持。Avro主要为行存储,设计的主

要目标是为了满足schemaevolution。

•ORC

ORC的全称是(OptimizedRowColumnar),ORC文件格式是一

种Hadoop生态圈中的列式存储格式,由Hadoop中RCfiles发展

而来,比RCfile更大的压缩比,和更快的查询速度,支持事务

(ACID),为hive而生。

4.Python语言支持

支持本地Python访问原生Hadoop/Hive资源,调用Spark集

群。

24

4.2.1.2数据存储

4.2.1.2.1数据导入

平台坚持“能采尽采”的原则,涵盖了大范围的数据源。在

总体上将数据源分为内部数据源和外部数据源,内容包含现阶段

可以采集到的数据全量。内部数据源内部业务系统如业务数据

库、视音频、文档等数据信息,外部数据指第三方社会数据和互

联网数据(聊天信息、微博信息、微信信息)等。

4.2.1.2.2存储管理

数据存储子系统满足存储多类型数据,包括结构化数据、半

结构化数据和非结构化数据。可以将关系型数据库中数据经过加

工后放入传统数据仓库数据区、将其他数据如日志数据、互联网

数据、移动互联网数据或者流数据等有选择的存到大数据存储区

或者传统数据仓库存储区。

数据存储子系统提供业内广泛使用的高效分布式存储架构,

可存储任意容量,任意数据类型的数据。系统的最大优势是支持

不同文件对象化,不同对象策略化的策略存储机制;大文件归类

到大对象,按照大对象存储策略存储HDFS;小文件归类到小对

象,按照小对象存储策略存储到FastDFS。另一大优势是支持通过

可视化界面按策略分类查看分布式文件存储系统容量信息;支持

通过可视化界面汇总查看用户调用API接口访问文件存储系统的

详情;支持查看对象被访问、租户访问API次数T0P3的统计数

据。支持通过可视化界面管理存储租户及租户访问资源路径、权

限;支持通过可视化界面查看、检索存储租户。

数据存储子系统还提供一款用于批量处理、分析及设计数据

25

仓库的子系统。它支持SQL2003标准语法及ANSISQL92,SQL99

等标准,对OraclePL/SQL、Mysql以及Teradata都有很好的方

言支持,是Hadoop领域对SQL标准支持最完善的产品;对ACID

的支持,从而可以满足用户对数据处理中一致性和可靠性保障的

需求。此外,本平台还拥有极为优异的大数据分析性能,比

ApacheHadoop处理速度快15倍以上,比MPP处理速度快6倍以

上,在TPC-DS和TPC-H基准测试中也胜于其他Hadoop和MPP产

口口口O

4.2.1.2.3接口访问

系统支持标准数据访问接口,可使用第三方BI及客户端工具

连接访问系统。

4.2.1.2.4兼容关系模型

平台借助分布式数据仓库组件HIVE和查询引擎Phoenix,能

够很好地兼容标准的SQL操作语言。此外我们还补充了SQLon

Hadoop引擎,在HDFS分布式文件系统上提供基于MPP架构的计算

引擎,ANSISQL的访问支持,具备功能齐全的、高性能SQL查询

功能。并行查询功能应用到HDFS分布式存储数据上,为Hadoop

带来TrueSQL支持和高性能的并行计算。

4.2.1.2.5系统运维

产品具备完整的系统运维功能。包括弹性扩展、安全、多租

户、高可用等方面。Manager是为大数据量身定做的运维管理系

统,支持可视化、向导式的统一部署安装、监控、告警、健康检

测和管理运维能力,同时支持在线横向扩容能力。

Manager支持通过WEB可视化操作方式,实现对机房、机架和

服务器的图形化管理;支持对服务器CPU/内存/I0/磁盘空间进行

26

实时监控和告警。

4.2.1.2.6高可用设计

由于是分布式的数据库,其在数据存储上考虑了多副本冗余

存储的机制,比如在一个集群内,A节点的数据会被切块按照库内

的冗余算法,将数据镜像分别备份到B节点和C节点,这样当A

节点宕机或出现故障时,B节点和C节点可启动备份镜像数据,分

担A节点的应用请求,保证数据库集群对外提供服务不中断,以

上是Datanode节点的高可用实现原理。产品支持数据以全量、增

量、加密、压缩等形式进行在线或离线备份以及恢复功能。

4.2.1.2.7集群扩展

平台支持按需在线动态增减节点,实现线性扩展;在线动态

增减节点和其他组件时,对业务的影响最小。

遵循了分布式数据库系统的设计原则,真正意义上实现了线

性水平扩展能力。当数据量累积到一定程度时(可配置),平台

系统会自动对数据进行水平切分并分配不同的服务器来管理这些

数据。这些数据可以被扩散到上千台普通服务器上。这样,一方

面可以由大量普通服务器组成大规模集群来存放海量数据(从几

TB到几十PB的数据);另一方面,当数据峰值接近系统设计容

量时,可以通过增加服务器的方式来扩大容量。该动态扩容过程

无需停机,平台系统可以照常运行并提供读写服务,完全实现动

态无缝无宕机扩容。

4.2.1.2.8安全中心

存储计算平台提供统一的安全管理服务Securityo平台采用

高可用的通道安全身份认证方式:支持Kerberos等安全认证工

27

具,可配置权限策略,对Hadoop生态圈的各类服务组件进行授

权,包括HDFS、HBASE、HIVE.YARN、STORM、SOLR等,实现安全

审计功能;同时支持基于RBAC的用户权限管理模式,确保系统免

受恶意攻击和安全威胁。另外平台支持基于ranger的数据细粒度

访问权限控制,可以轻松的通过配置策略来控制用户权限。

4.2.1.3数据计算

4.2.1.3.1数据仓库

提供企业级数据仓库解决方案,提供SQL/PySpark/Scala等计

算能力,满足海量数据ETL以及交互式查询需要;

具有海量数据存储、高效数据处理能力,日均存储和处理数据

能力可达PB级别。

4.2.1.3.2模型管理

•算法库

数据计算子系统提供了丰富的分布式统计算法以及机器学习

基础算法库,包括数据预处理,数值分析,提供常用数学统计的

数据检测功能,对数据类型为离散变量的字段进行数据检测算

法,特征工程相关分布式算法以及基础的分类、聚类、回归、预

测、协同过滤等分析算法,方便数据分析人员对数据进行多维度

的统计分析与挖掘的相关工作,同时,系统提供不少于10种模型

的建模能力。

•可视化数据挖掘建模

数据计算子系统基于Web的IDE环境,提供丰富的B/S用户

接口,界面友好易操作,只需简单地拖拽算法即可快速创建流

程。系统支持同时训练多个分支流程,使得分析人员在一个工程

中即可快速比对建模效果、调整优化模型。此外,分析人员可通

28

过多样化、简洁易懂的可视化分析报告评估、对比训练结果,快

速做出准确选择。

•模型管理

数据计算子系统提供丰富的模型管理和应用功能,包括对已

产生的模型进行分目录、分类管理;对模型进行多版本管理,方

便用户一键快速引用模型;模型可另存为可执行文件、发布为Web

服务及进行授权管理。

4.2.1.3.3数据开发

具有友好,易用的脚本编辑功能

・自定义函数

机器学习子系统提供在线编码模块,为专业数据挖掘人员提

供更专业的使用环境,确保其可以使用Python以及Java语言进

行在线任务编写和算法调用。同时,机器学习子系统提供模型友

好、易用的脚本编辑功能(可在此脚本中完成模型构建过程)、

支持调用其他模型、支持Python及Java语言编程,并兼备脚本

保存、打开、拷贝、下载等功能。

•任务调度监控

数据计算子系统提供任务开发、任务调度功能,支持实时监

控集群环境中各任务的运行状态(等待、运行)、集群环境中各

节点的硬件CPU内存资源和性能耗用情况,以及集群各节点的状

态情况(存活、停机)。同时,系统具备强大的任务调度能力,

涵盖任务之间的流程调度、基于日期的任务调度、一次性任务调

度、周期性任务调度。

29

4.2.1.3.4权限管理

权限粒度:提供用户、角色、权限三级管理机制。

提供地区管理、部门管理,实现分区式和集团式管理。

通过用户管理控制进行按照部门、地区、不同角色、不同用

户对库表进行精细化授权。

4.2.1.3.5流数据总线

•数据源接入

可伸缩性

流数据总线具备高可伸缩性以及灵活的吞吐能力,能够通过简

单配置就能实现整个系统处理能力的线性增长,用户可按需调整主

题消息并发处理能力。

多数据源支持

流数据总线支持多种实时数据源的接入,包括主机日志、应用

日志、网站点击行为、用户自定义实时数据等类型的实时数据来源;

支持多种数据格式,包括txt、日志、点击流等;

•工具管理

流数据总线提供RestAPI、SDK、Agent等多种数据接入方式,

用户只需简单配置即可实现免编程的实时数据接入与传输。

•采集主题管理

流数据总线支持用户自主创建、删除流数据主题,能够通过SDK、

Agent等形式接收数据来源产生的实时数据到主题进行暂存,同时

无缝集成流计算,可实时订阅主题内数据并进行实时消费。

用户可根据需求自定义消息队列中消息临时存放的时间以及

调整主题分区的数量。

对于高并发数据可通过控制台界面调整主题shard数量,对流

30

速进行控制。

•服务集成

流数据总线使用分布式消息服务解耦数据的生产方和消费

方,实时数据能够与流式计算服务集成,进行低延迟的实时计算

分析;同时,也能够和持久化服务(如文件存储、结构化存储)

集成,进行准实时或离线数据分析。

•归档设置

流数据总线实时采集模块提供消息服务中暂存的数据在归档

到持久化存储等过程的流动。本模块可支持对实时采集到的数据

设置存储周期,数据总线会自动根据设置以特定的时间间隔或记

录数量的规则加载到对象存储、hive、MySQL等。

•采集性能

流数据总线每个主题分区数据写入效率可达到

lOOOrecord/shard/秒。

•其他功能

结果应用

流数据总线支持将结果输出到JMR以及机器学习平台进行应用。

灵活的吞吐能力

流数据总线每个主题(Topic)的数据流吞吐能力可以动态扩展

和减少,最高可达到每主题256MB/S的吞吐量。

4.2.1.4实时数据计算

4.2.1.4.1基础设施

•结合SparkStreamingsFlink、Storm的实时流分析系统

Stream

Stream是实时流计算系统,被广泛用于交通运输和物联网行

31

业。和其他解决方案相比,Stream有几个突出的技术优势:完美

结合SparkStreaming.Flink,Storm三套流计算框架,让用户

有了更多的选择。完整的SQL支持使得实时业务开发过程更加简

便;基于事件驱动的计算引擎可将延迟时间缩减到4毫秒,是

SparkStreaming引擎的延时的1/100;支持复杂事件处理能力

(CEP),因此用户可以基于Stream用SQL语言开发比较复杂的

在线流计算业务,如在线监控设备状态应用等。Stream还提供完

善的高可用性(HA)和Exactly-Once语义,而这些都是使流计算

应用稳定、可靠的保障。

同时实时流式计算系统兼具批处理和事件驱动两种处理模

式,具备分布式、水平扩展、高容错和低延迟特性。系统通过在

软件层面通过冗余、重放、借助外部存储等方式实现容错,可以

避免数台服务器故障、网络突发阻塞等问题造成的数据丢失的问

题。

4.2.1.4.2实时数据计算

•多源数据接入输出

平台提供来自Kafka、关系型数据库(如oracle、MySQL.SQL

server)、Hadoop生态组件(如Hive、Hbase等)的接入输出数据

源。同时实现不同接入输出数据源处理处理格式自定义配置,支

持Flume日志处理数据流、各类企业消息总线或ZeroMQ等消息通

讯库、Kafka等分布式消息系统也支持各种生产系统应用日志、渠

道与交易系统的信息流、外部系统的XML或JSON字节流。

•SQL开发支持

平台实现SQL开发支持能力,可用于一般的业务场景,包括

用于交通、电力、银行等行业的实时入库ETL工具,用于金融、

32

银行行业的规则报警工具等。

•高并发数据处理

Spark是基于内存的分布式计算框架。在迭代计算的场景下,

数据处理过程中的数据可以存储在内存中,提供了比MapReduce

高10到100倍的计算能力。Spark提供一站式数据分析能力,包

括小批量流式处理、离线批处理、SQL查询、数据挖掘等,用户可

以在同一个应用中无缝结合使用这些能力。

•低延时高吞吐量

在吞吐方面,包括Storm在内的大部分分布式流处理框架都

以单条记录为粒度来进行处理和容错,单条记录的处理代价较

高,而stream不仅支持类似Storm的处理模式,同时支持微批处

理模式,微批模式的吞吐量显著高于Storm,用户可以根据业务需

求自主选择流数据处理模式。

stream微批处理模式具有高吞吐量的特点,与Storm相比,

stream的吞吐量要高2〜5倍。

•多源聚合关联对比

平台具有很强的可用性,包括复杂时间处理CEP引擎,全面

的ANSISQL支持,支持多种时间窗口并能容忍数据的乱序到达,

允许多流的聚合分析,以及流上数据和历史数据关联,此外平台

还支持用户在流上运行一些数据挖掘的模型。

•时间窗口统计

平台支持时间窗口统计,满足对一定的时间窗口区间做多表

关联、聚合或者统计。

平台里的窗口(STREAMWINDOW)跟SQL标准的窗口不同,在

33

平台中STREAMWINDOW主要作为时间分割的单位。用户的流应用

一般会对一定的时间区间做多表关联、聚合或者统计。

•复杂事件处理

平台支持复杂事件处理CEP(ComplexEventProcessing),满

足对流数据进行事件模式的过滤,模式包含逻辑控制、事件顺序

操作以及生命周期等。支持指定复杂事件模式定义在某个时间范

围内多种操作组合在一起的一系列有序事件,通过复杂逻辑事件

处理在实时数据流中找到满足这种模式的事件的组合。

•可视化流任务管理

平台提供的一套可视化的流式计算应用配置管理服务。用户

可以使用管理界面,实现流式计算任务创建、发布、执行、回

收,让流计算任务更易于管理,降低流计算应用的管理运维成

本,从而提高了资源的利用率。

4.2.1.5智能搜索引擎

Elasticsearch

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论