企业大数据-数据安全管控平台建设技术方案_第1页
企业大数据-数据安全管控平台建设技术方案_第2页
企业大数据-数据安全管控平台建设技术方案_第3页
企业大数据-数据安全管控平台建设技术方案_第4页
企业大数据-数据安全管控平台建设技术方案_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业大数据一

数据安全管控平台建设技术方案

目录

第一章.建设背景1

1.1.数据安全现状1

1.2.数据安全需求分析3

13平台建设目标4

1.4.平台设计思路4

第二章.平台建设方案7

2.1.平台设计目标7

2.2.平台建设原则7

2.3.平台设计框架8

2.3.1.基础设施层设计10

2.3.2.数据资源层设计28

2.3.3.应用支撑层设计41

23.平台服务支撑67

2.3.4.数据采集服务67

2.3.5.应用支撑服务68

2.3.6.数据应用服务70

2.3.7.数据安全服务72

2.4.关键技术98

2.4.4.实体画像与特征自动更新技术98

2.4.5.用户画像和UEBA技术105

2.4.6.可扩展的安全分析插件模块化技术113

第三章.平台分期规划设计119

2.3.4.数据安全应用层设计(一期)119

2.3.5.数据安全应用层设计(二期)137

2.3.6.数据安全应用层设计(三期)149

第一章.建设背景

我们正进入数字为底色的时代。伴随着技术的进步和时代的变迁,数据的产

生速度更快、维度更多、来源更广、关联更强,体量和价值已不可同日而语。近

年来,迎着大数据的风口,各地深入学习贯彻习近平总书记提出的以信息化推进

国家治理体系和治理能力现代化,统筹发展电子商务,构建一体化在线服务平台,

分级分类推进新型智慧城市建设的精神,将庞大的数据资源转化为生产力,开展

政府数字化和城市数字化工作,发挥数据价值,做强数字经济,构建数字引领、

数据支撑的城市治理现代化体系。

大数据平台作为建设数字经济的基础和核心,是实现城市治理能力提升的重

要抓手,是提升服务便民惠民精准的重要路径.是服务市委市政府决策的重要载

体。因此各地纷纷成立数据管理部门,建设城市大数据平台,整合汇集政府、企

业、社会等各类数据,在城市治理领域进行融合计算,实现城市运行的生命体征

感知、公共资源配置、宏观决策指挥、事件预测预警、“城市病”治理等功能,

覆盖政治、经济、文化、社会、生态等领域。

城市大数据平台作为城市数字经济的基础设施,以多部门业务协同、数据共

享为基本方法,全面推进经济调节、市场监管、公共服务、社会管理、生态环境

保护、政府运行等六大领域政府数字化转型,打造实时、在线、共享、安全和整

体协同、运行高效的数字政府。在实现政府核心业务全覆盖,大数据与政府履职

全面深度融合的过程中,大数据成为处理复杂治理问题的有效手段,用数据说话、

用数据决策、用数据管理、用数据创新的机制逐步健全。

数字政府有力撬动数字经济、数字社会发展,其过程离不开数据资源的归集

共享和大数据技术的开发利用,而数据安全是保障数据共享、开放和使用的关键。

随着智慧电子商务、政府数字化转型和城市大数据平台建设的深入开展,数据流

通和共享将成为刚性业务需求,因此亟需建立以数据为核心的安全管控体系,确

保数据流通共享的安全。

1.1.数据安全现状

在政府数字化改革浪潮的推动下,各类业务数据资源充分整合,打破信息孤

岛,业务数据资源目录体系和交换体系不断完善,使得政府各部门业务协同能力

逐步提升,便民类智慧服务应用初显成效,数据安全管理和建设工作稳步推进。

但在数据共享、开放和使用的同时还存在一定的风险,具体问题如下:

(1)云计算新模式安全体系尚未健全

多地政府陆续监理城市大数据平台,依托云计算技术实现信息资源集约化、

服务化和标准化供给。然而其平台安全建设集约化和服务化能力却尚未形成,政

府各部门在利用数据资源构建自身业务应用时,仍需自行进行安全体系设计并完

成相关安全产品的选型、购买、部署等工作。这种传统的安全建设模式不仅需要

较长的建设周期,增加系统安全的建设成本,而且降低了业务上线的效率,制约

相关服务的创新发展。

(2)数据生命周期安全防护仍需加强

随着政府数字化和城市数字化的推进,政府、企事业单位和个人数据资源不

断整合汇聚,这些数据在个人-政府-企业之间的流通中不断创造新的价值,驱动

数字产业创新发展。在数据共享的催化下,业务协同成为必然要求,原来相互隔

离的业务网络将打破安全边界走向融合,因此传统的基于边界隔离的围栏式安全

保护方法将彻底不能满足数据流动下的安全防护需求,亟需构建新的安全防护体

系,确保数据全生命周期安全。

(3)安全应急联动防护机制很不完善

面临复杂多变的云计算和大数据环境,传统的监测、防护和响应手段己无法

有效地应对日益更新的网络攻击行为。一则是部分政府部门网络安全应急预案依

旧采取传统思路,侧重于设备设施障碍的排除,针对网络攻击、信息泄露等安全

事件的应急预案明显不足;二则是政府各部门部署的网络安全设备和系统基本处

于独立运行状态,难以统一管控,导致政府无法对全区的网络安全状态有效感知,

对安全风险进行及时预警防护的局面尚未形成。

(4)全区数据安全风险无法感知预警

为加强业务数据安全管理,保障城市大数据平台的安全运行,建立健全业务

数据安全保障体系,预防业务数据安全事件发生,急需对全区数据安全风险进行

感知和预警。目前一是缺乏政府各部门及相关服务提供商数据安全建设情况的感

知技术和手段,无法及时发现全区数据安全风险隐患,二是缺乏对数据安全风险

进行通报预警的机制和技术平台,无法有效支撑全区数据安全管理。

1.2.数据安全需求分析

(1)加强数据安全管控对象重点安全保护

为保障数据安全流通使用,加强对全区数据资源的保护,需要对企业信息基

础设施、企业云平台、企业信息系统和业务数据(以下统称数据安全管控对象)

进行重点监测和防护。通过建设数据安全管控平台可有效实现对全区各单位数据

安全管控对象的识别,根据实际需要对全市数据安全管控对象建立监测、预警、

防范机制,加强对关键目标管控、风险识别的能力水平。

(2)整合优质数据资源提供集约安全服务

为实现全市业务数据安全保障体系建设的规范化和标准化,需建立集约化的

数据安全管控平台,通过集成多家服务商和厂商的安全服务及产品,提供集约化

产品和服务供全市系统使用。并进一步扩大服务对象,延伸至各个业务单位,让

各个单位可以根据自身等保等级和数据规范特征,自行在平台上选购适合的套餐,

采购相关产品和服务,构建标准合规的数据安全保障体系。

(3)建立健全数据生命周期安全保障机制

为建立聚焦数据的安全保障,结合数据生命周期进行安全技术保障体系设计,

通过利用从数据采集/产生、数据传输、数据存储、数据处理、数据交换到数据

销毁全生命周期的安全技术控制措施,实现数据生命周期的安全保障。同时,利

用安全监管措施对数据生命周期各个阶段的安全保障工作和执行情况进行监督

管理,确保安全策略在技术环节得到正确执行,规章制度在技术层面得到有效的

支撑体现。

(4)大幅提升整体数据安全风险感知能力

目前政府缺乏对全市数据安全管控对象整体数据安全水平感知和分析能力,

难以实时掌控数据安全动态,也无法对数据安全险情进行精准预警。为实时掌握

业务数据安全情况和安全动态,在发生安全隐患时可以快速、精准预警,需依托

大数据技术建立全市数据安全风险感知分析能力,实现精准匹配、重点分析。并

需通过多个维度,提供可视化方式的大数据分析结果,为研判、决策及重要时期

的数据安全保障工作提供有效支撑。

(5)构建数据全流程监管监测预警体系

为精准预警数据共享开放中的安全事件,构建全市数据安全监管监测预警休

系,需进一步加强安全数据的收集,加强第三方威胁情报的接入,建设多方参与

的信息安全情报网络,从而进一步完善本地信息安全威胁情报库的建设,建立健

全基于威胁情报的全新外部监测体系。同时为更好的提升各个系统间的协作与整

体防护能力,结合安全态势感知手段、安全事件通报预警系统和ZW服务体系安

全措施,实现对企业信息系统的安全监测,对安全事件的及时通报,进一步提高

对全市电子ZW攻击事件的预警及通报能力。

(6)建立横向联动安全协调指挥体系

根据《中华人民共和国网络安全法》的相关要求,为积极落实网络运营者数

据主体的安全管理责任要求,加快城市数据安全协作机制建设,需建立跨部门协

同运营的管控平台,实现数据管理部门以及其他行业监管单位、ZW系统运营使

用单位、信息安全支撑单位等组织在数据安全上的协作与互通,建立健全全市数

据安全监测预警、信息通报、应急处置、追踪溯源等相关机制。

1.3.平台建设目标

通过建设企业级数据安全管控平台,实现对企业信息基础设施、企业云平台、

企业信息系统和业务数据的立体安全防护。加强对企业信息系统的业务场景的安

全分析和细粒度安全管控。明确各类业务数据在采集、传输、存储、处理、交换

和销毁各个业务场景下的保障要素,以合规为基线,以业务流程为导向,结合标

准规范制度,建立完善的数据生命周期的安全保障和监管措施,整合涉网监管部

门安全数据,建立数据安全监测预警、信息通报和应急处置联动机制。并汇聚优

秀数据安全企业的优质产品和服务资源,实现产品和服务的在线部署和统一管理

运维,促进安全资源向集约化、便捷化、服务化转变,降低政府财政资金和人力

资源的投入,逐步实现从“基于威胁的被动保护”向“基于风险的主动防控”转

变,为建设数字经济城市保驾护航。

1.4.平台设计思路

通过在企业云上搭建数据安全管控平台及相应配套的安全服务,建设全市域

“多维联动、立体防护”数据安全管控体系,统筹对数据安全管控对象的风险评

估,安全防护,监测监管、预警通报、应急处置,标准规范及安全培训,逐步形

成基于物理、网络、平台、数据、系统、管理的六层立体安全防护体系。并结合

网络安全态势感知、异常流量监测等安全保障技术,加强网络出口网络安全监测,

同时建立覆盖数据产生、传输、存储、处理、交换到销毁的全生命周期安全管控

措施,确保每一条数据来源清晰、流向合规、使用正当。数据安全管控体系平台

总体框架如下图所示。

数据安全管控平台

务政务信息系统安全

政可

务信

云数据生命周期安全接

统入

标政务云平台安全

系6班段^出会

信息基础设施安全(物理环境,基础网络)・

物理安全主要涉及的方面包括环境安全(防火、防水、防雷击等)设备和介

质的防盗窃防破坏等方面。安全管控内容具体包括:物理位置的选择、物理访问

控制、防盗窃和防破坏、防雷击、防火、防水和防潮、防静电、温湿度控制、电

力供应和电磁防护等。

网络安全为数据在网络环境的安全运行提供支持,包括网络、企业云平台、

业务专网等。一方面,确保网络设备的安全运行,提供有效的网络服务,另一方

面,确保在网上传输数据的保密性、完整性和可用性等。安全管控内容具体包括:

网络结构、访问控制、安全审计、边界完整性检查、入侵防范、恶意代码防范和

网络设备防护等安全机制的有效性。

平台安全保障云计算资源/服务的安全,满足法律、监管和合规性要求。安

全管控内容具体包括:云平台网络架构、云管理平台、接口安全、安全审计、身

份鉴别、云资源控制、镜像与快照保护、虚拟机隔离、虚拟机及镜像加固和虚拟

机管理和销毁等安全机制的有效性。

数据安全作为木项目方案核心,通过结合数据的生命周期,针对数据的形态

应用场景进行安全技术保障体系的设计,提供从数据采集/产生、数据传输、数

据存储•、数据处理、数据交换到数据销毁全生命周期的安全管控技术措施,实现

数据生命周期的安全保障。数安全防护和管控内容具体包括:数据资产与风险管

理、数据安全防护、数据安全监管、数据安全运营等安全机制的有效性。

系统安全目标是确保系统的各种业务应用程序安全运行,包括系统应用及业

务web应用。安全管控内容具体包括:应用认证和授权、应用访问控制、应用通

信加密、应用内容保护、应用攻击防护、应用脆弱性管理和终端安全等安全机制

的有效性。

安全管理包括数据安全管控体系中的标准体系、管理制度以及安全组织保障,

目的是约束和规范相关人员的日常工作,赋予管理人员监督管理职责,为平台日

常安全管理工作提供主要依据,安全管控具体包括:数据共享交换安全要求、数

据供应链服务商安全管理要求、数据安全监管要求和人员授权管理要求等。

数据安全管控平台利用云计算、大数据、人工智能、智能算法等技术,通过

采集、汇聚、融合计算数据安全管控对象的安全大数据,实现全方位全天候监测

预警数据安全管控对象的安全威胁、风险态势和网络攻击情况,有效加强对国家

重要数据、企业机密数据和个人隐私数据的识别和防护,打通与网信、公安、通

管等监管机构以及本地安全企业之间的数据通道,促进安全信息的共享和业务的

协同,进而实现跨部门、跨行业的网络安全协调指挥联动,为构建企业信息系统

网络安全主动防御体系,大幅亮升网络数据安全监管能力、构筑网络数据安全铜

墙铁壁,奠定技术基础。

第二章.平台建设方案

2.1.平台设计目标

数据安全管控平台是一套通过实现数据所有权和数据使用权分离,以确保数

据在流通过程中安全可控。产品的总体设计目标如下:

(1)数据安全协同指挥能力全面提升

协调指挥机制健全、高效;通过建立指挥响应可视化平台,实现数据安全的

决策指挥、资源调度、任务下达、互动反馈、指导与督查的可视化高效指挥

(2)数据安全应急响应能力全面提升

形成完善的市、区县、街道/乡镇、社区/村四级以及多部门联动的应急指挥

机制、应急处置队伍。建立全市多级数据应急响应预案,面对数据安全事件、威

胁能够快速响应、高效处置。

(3)数据安全态势感知能力全面提升

整合业务部门、其他安全管理部门和若干优秀企业现有资源,具备全天候全

方位感知我市重要信息系统及数据资产安全态势,实现数据安全威胁分级分类、

信息共享、定向分析预警。

(4)数据安全追踪溯源能力全面提升

构建可信计算环境、可信网络边界、可信身份管理平台,实现数据安全事件

的可溯源、可取证、可追责。

(5)数据安全保密工作全面落实

建立安全保密协调协作机制,打通各业务部门间的信息壁垒,建立协调协作

机制,多部门对相关数据进行实时调用,管控平台对调用情况进行实时监管,实

现相关领域全天候、全过程监管,提升大数据条件下保密工作的信息专业化、运

行智能化、防控系统化水平。

2.2.平台建设原则

数据安全管控平台建设,应当以适度风险为核心,以重点保护为原则,从业

务的角度出发,重点保护重要业务数据,在方案设计中当遵循以下的原则:

厉行节约原则:在数据安全管控平台建设过程中,要尽量利用现有的信息系

统,网络基础设施,安全监控数据等,综合考虑对已有资源的共享和利用,避免

重复建设和浪费。

标准规划原则:在方案设计方面遵循国家以及行业内的相关标准,严格按照

有关程序组织项目建设,做到有规可循。

重点保护原则:根据信息系统的重要程度、业务特点,实现不同强度的安全

保护,集中资源优先保护涉及核心业务或重要数据资产的信息系统。

技术先进原则:平台设计立足先进技术,采用先进的系统结构、开放的体系

架构,使系统在可进行迭代升级,保持技术领先水平,具备长足的发展能力,以

适应未来网络技术和安全技术的发展和系统使用的科学性。

风险管理原则:进行安全风险管理,确认可能影响信息系统的安全风险,正

确的识别风险、合理的管理风险,并让信息系统的安全风险降低到可以接受的水

平以内。

2.3.平台设计框架

企业级数据安全管控平台采用“分层解耦”的设计理念,将平台分为基础设

施层、数据资源层、应用支撑层和数据应用层,并配套相应的数据安全服务体系,

各层之间采用集中数据总线进行数据传输和交换,以此降低各类数据应用对底层

数据存储之间的强依赖性,各层之间独立工作,方便后期的安全业务扩展,并保

障各层之间稳定运行。数据安全管控平台总体框架如下图所示。

数据安全应用层i家据安全服务体系

故推资产与风险管理■据生价周明安全彷妒数据安全'拉詈龙㈣效嘉安全运营

数据行力甲-

数慝烫产篇B-

安全过鸵粕通报E譬

教庵分场分壬一|H据访问W|1

1搞得明度||HftftB|

一一脱收

数据烫产加亩一11拄务烯景Ifi管1风险评估与加固服务

1一我加8?1||怦彷抵告|

数据属是管兔一用户行Alfi皆1

被兖稣属性管理涉田欣密检质一至《1设宙Ifi测安全18拷与自动化JWG

1安全近壤支牌m务

应用支撑层

政疑安全检萱服务

安全被雍处理安至数密费科安全数据共享安全被霆派梗

数据资源层1应急的项支撑服务

敬勇信息不蜕安全做格

计■资潦

(1)基础设施层

基础设施层为数据安全管控平台提供数据存储和分析计算的基础资源保障,

支持对接和利用云服务提供商提供的云上基础资源,包括计算资源、存储资源和

网络资源。平台主要设计如何使用这些资源用于调度和分发,通过兼容性及组网

设计以保障数据安全管控平台的稳定运行,并且平台通过采取相应的安全防护措

施来满足等级保护三级建设要求。

(2)数据资源层

数据资源层为数据安全管控平台提供安全数据的采集和汇聚服务,数据采集

类型包括应用审计日志、数据库审计日志、数据流动环境的流量等。采集范围覆

盖采集全市市级部门及区县(市)的各类安全数据,建立数据资产目录,应用支

撑层对汇聚后的安全数据进行清洗和加工,为上层应用提供数据支撑。具体采集

内容包括:企业信息系统流量数据、安全设备日志数据、安全监管机构共享数据

以及第三方威胁情报数据等。采集工具包括日志采集工具、流量采集工具和主动

探测工具,并支持多种采集协议,以实现对各类数据的采集,包括不限于安全

对象属性、运行状态、安全事件、评估与检测等数据。

(3)应用支撑层

应用支撑层为数据安全管控平台提供大数据安全分析和人工智能安全分析

服务,包括安全数据处理、安全数据建模、安全数据共享、安全分析算法等模块。

按照安全标准规范要求对安全数据进行数据处理、数据治理、数据资源库、数据

服务共享和数据场景化分析,全方位打造集“清洗”、“融合”、“共享”、“分

析”于一体的数据服务平台。利用管控平台应用支撑层,对数据资源层采集到的

安全数据通过清洗、过滤、标准化、数据提取、标签化等方式进行处理,提升数

据质量、规范数据处理流程、优化数据服务,构建数据安全管控平台中各类安全

资源库,产生数据关联信息,实现数据融合,进而挖掘数据价值。并通过安全数

据场景化分析模块,提供关联规则、统计建模、场景关联分析建模、情报建模以

及机器建模等安全分析能力,提供支撑上层应用的数据。

(4)数据安全应用层

数据安全应用层为数据安全管控平台提供适配用户环境和紧贴用户需求的

数据安全分析与管控应用,包括数据资产与风险管理、数据全生命周期安全防护、

数据安全监管监测、数据安全运营。同时可集成第三方安全企业的优秀产品及服

务,对外提供安全服务输出能力,实现数据生命周期的识别监测和安全防护服务。

并可实现全方位全天候监测预警数据安全管控对象的安全威胁、风险态势和网络

攻击情况,有效加强对国家重要数据、企业机密数据和个人隐私数据的识别和防

护,打通与网信、公安、通管等监管机构以及本地安全企业之间的数据通道,促

进安全信息的共享和业务的林同,进而实现跨部门、跨行业的网络安全协调指挥

联动,为构建数据安全管控对象网络安全主动防御体系,大幅提升网络数据安全

监管能力奠定技术基础。

(5)数据安全服务体系

数据安全服务体系提供各类优质的数据安全支撑服务,保障数据安全管控平

台及业务的安全高效运行。包括不局限于加强数据安全风险评估与加固、策略动

态优化,完善安全防护措施,组织数据安全检查、应急预案演练和人员安全培训,

提升数据安全风险意识和应急处置能力,建立健全相关安全标准及管理制度,切

实提升全市数据安全防护及监管能力。

2.3.1.基础设施层设计

基础设施层主要包括提供平台运行所需的计算资源、存储资源和网络资源,

主要是向云服务提供商租用数据安全管控平台所需要用的各种云上基础资源。平

台主要设计如何使用这些资源、调度和分发,以保障数据安全管控平台的稳定运

行。

23.1.1.兼容性设计

23.1.1.1.数据存储服务兼容

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高

效、可伸缩的特点。Hadoop的核心是Mapreduce、HDFS、Kafka>YARN>Zookeepero

下图为Hadoop的生态系统:

Ambari

(安装、部署、配置和管理工具)

Hive

(数据仓库)

》J=

;d

_nK

_ol(MapReduce

_zo(分布式计卵框架)

_

_

_

_HDFS

_(分布式文件系统)

_

_

_平台采用Ambari组件统一管理大数据平台的各类组件安装、部署以及升级

_

_

等_,完全兼容Hadoop生态中的各类组件。Hadoop生态系统集成spark生态圈,

与spark共存,Hadoop与spark设计部署在yarn的资源管理系统之上。部署的

组件截图如下。

Ambaribigdeta

StMAVmiomUpgradeHMory

HDFS

YARN

MdpReduC«2

ZooKeep«<

KitfkA

BigdAta

EMcSMrch

Hnk

Kmana

togslas^

支持集成的Hadoop生态组件如下:

•HDFS(Hadoop分布式文件系统)

HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度

容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简

化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功

能,适合带有大型数据集的应用程序。

/i、一~、

//

//:\'

/1\

DataNodeDataNodeDataNode

■■■

一工

vwi/€z1/xxxXz况MG

上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结

果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功

能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。

>TaskTracker:Slave节点,运行MapTask和ReduceTask;并与

JobTracker交互,汇报任务状态。

>MapTask:解析每条数据记录,传递给用户编写的map(),并执行,将输

出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。

>ReducerTask:从MapTask的执行结果中,远程读取输入数据,对数据

进行排序,将数据按照分组传递给用户编写的reduce函数执行。

Mapreduce处理流程,以wordCount为例,具体如下图所示。

TheoverallMapReducewordcouniprocess

InputSplittingMappingShufflingReducingFinalresult

•Hbase(分布式列存数据库)

HBase是一个针对结构化数据的可伸缩,高可靠、高性能,分布式和面向列

的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模

型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和

时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中

保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在

一起。

ColumnFamily«1ColumnFamilytn

RowkeyA^lttl

k41:v必2keyA:vM2」2

RowKekeyB:va〃j2

"/2”AeyB:vZ2j4

sortedsorted

keyn'vtln,tnkeym'vtln.tn

Columnfamily

rowkeycontents:anchor:language-

n.imr<htmhu<html>(IV¥»nchor:CM9i.cofn.CNN"",

(lit»ncw:tny.w^c».CNN.cOfn(tl)

ColumnFamlly:ColumnKey.ColumnValue(Tlmestamp)

•Zookeeper(分布式将作服务)

解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置

同步等。

•Sqoop(数据同步工具)

Sqoop是SQL-to-Iladoop的缩写,主要用于传统数据库和Hadoop之前传输

数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和

容错性。

•Pig(基于Hadoop的数据流系统)

提供一种基于MapReduce的adfoc(计算在query时发生)数据分析工具。

定义了一种数据流语言一PigLatin,将脚本转换为MapReduce任务在

Hadoop上执行。通常用于进行离线分析。

•Mahout(数据挖掘算法库)

Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨

在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚

类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除

了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、

MongoDB或Cassandra)集成等数据挖掘支持架构。

•Flume(日志收集工具)

Cloudera开源的日志收臬系统,具有分布式、高可靠、高容错、易于定制和

扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为

数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持

收集各种不同协议数据。同时,Flume数据流提供对日志数据进行简单处理的能

力,如过滤、格式转换等。此外,Flume还具有能够将日志写往各种数据目标(可

定制)的能力。Flume是一个可扩展、适合复杂环境的海量日志收集系统。

(1)Hadoop运行架构设计

Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从

节点。主节点主要负责Hadoop两个关键功能模块HDFS、MapReduce的监督。当

JobTracker使用MapReduce进行监控和调度数据的并行处理时,NameNode节

点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分应用,包括所有

数据储存和指令计算。我司Hadoop集群由HDFS>MapReduce>HBase^Hive和

ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储

节点文件的文件系统HDFS(HadoopDistributedFileSystem)来执行MapReduce

程序的MapReduce引擎。

1;

1ETLToolsBlReportingRDBMS

L___________________L___________________________।

ZookeepPigHiveSqoopAvroSeria

er(Coordi(DataFlow)(SQL)lization)

nation)

Map/Reduce

(JobScheduling/ExecutionSystem)

Hbase

(ColumnDatabase)

HDFS

(HadoopDistributedFileSystem)

(2)版本更新设计

数据安全管控平台支持Hadoop生态圈中的各类组件部署,并提供组件版本

管理功能和可根据大版本保持更新优化。功能截图如下所示。

2.3.1.1.2.数据计算服务兼容

Flink是一个针对流数据和批数据的分布式处理引擎,主要是由Java代码

实现。数据安全管控平台采用Flink处理流数据,采用Ambari进行管理和部署,

兼容Flink生态软件。部署截图如下所示。

AmbanbigdataDashboardServicesHostsAlerts

vmaomUpgradeHistory

serviceAccounts

Finer.Al(!)•

Kecbefos

ServiceAutoStart

Current

HDP-

ShowDetails

HOFS27.125

YARN27125

MapReduce2

ZooKeeper34625

AmtxariMctncs

Kafka01002fi

8gata

tiMilcJ>carcn

Aink

Kitxana

(1)Flink运行架构设计

在Flink集群中,计算资源被定义为TaskSlot。每个TaskManager会拥有

一个或多个Slots.JobManager会以Slot为单位调度Task。在TaskManager中,

根据其所拥有的Slot个数,同时会拥有多个Pipeline。Flink架构图如下所

/Ko

TaskManagerTaskManager

nskExecution.Exch^ng^nskExecution,

DataExchangeIntermediateDataExchange

Results

(shuffle/broadcast)

(2)YarnCluster模式部署

Flink采用YarnCluster模型部署。未来保障最大化的利用集群资源,采

用在一个集群中同时运行多种类型的WorkloadoFlink与Yam兼容性示意图如

下所示。

在图中可以看出,Flink通过Yarn的接口实现了AppMaster,Yarn利用

Container来启动Flink的JobManager(AppMaster)和TaskManagcr,用以实

现Flink的运行和兼容。

(3)处理模式

流计算引擎支持SQL、Table.CEP、图、机器学习等计算模型。数据安全管

控平台智能关联模块是基于分布式数据流处理系统ApacheFlink和复杂事件计

算引擎Siddhi它具有以下特性:高吞吐、低延迟、高性能;高度灵活的窗口操

作;多源日志的实时关联;支持多种类SQL操作:Filter、Join、GroupBy、

Sequence等诸多优良特性。

Filter.Join

GroupBy、Sequence...

Streaml

AiLPHAICE

Stream2

智能关联引擎

Stream3Siddhi

事件计算处理模式如下。根据规则模型和统计模型产生的安全事件,创建关

联模型进行安全事件关联。

23.1.2.组网方案设计

.1.组网方式

数据安全管控平台集群的组网方案中包含3种节点,根据数据和资源的规

模,每种节点可以选择多个节点进行扩容,以增强平台的计算性能和稳定性。节

点详细信息如下表所示。

概念说明

ManagementNode(MN),用于安装集群的管理系统。对部署

管理节点

在集群中的节点及服务进行集中管理。

ControlNode(CN),控制节点控制监控数据节点执行存储数

据、接收数据、发送进程状态及完成控制节点的公共功能。

控制节点

控制节点包括HMaster>HiveServer>ResourceManager>

NameNode、JournalNode>SlapdServer等。

DataNode(DN),执行管理节点发出的指示,上报任务状态、

数据节点存储数据,以及执行数据节点的公共功能。数据节点包括

DataNode、RegionServer^NodeManager、LoaderServer等。

整个系统网络划分为2个界面,即应用界面和管理界面,两个界面之间采用

集群方式进行部署,保证业务、管理各自网络的安全性。

A应用界面通过业务网络接入,主要为用户和上层用户提供业务通道,对

外提供数据存取、任务提交及计算的能力。

>管理界面通过运维网络接入,提供系统管理和维护功能,主要用于集群

的管理,对外提供集群监控、配置、审计、用户管理等服务C

主备管理节点还支持设置外部管理网络的IP地址,用户可以通过外部管理

网络进行集群管理。

在典型配置下,集群采用双平面组网,如下图所示。

外部管理网络

管理界面

1f1

・F,,控制节点

系统管理员

应用界面

23.1.2.2.组网原则

根据集群内节点数的规模,组网原则如表所示。

节点部署原则组网规则适用场景

集群内节点划分到不同子网,各子(推荐)节点数大于200

管理节点、控

网通过核心交换机三层互联,每个节点的集群使用此场景

制节点和数据

子网的节点数控制在200个以内,此方案至少需要12个节

节点分开部署

不同子网中节点数量请保持均衡。点

管理节点和控(推荐)节点数大于等

制节点合并部集群内节点部署在同一子网,集群8

署,数据节点单内通过汇聚交换机二层互联。小于等于200节点的集

独部署群使用此场景

管理节点、控制节点数小于6的集群使用

集群内节点部署在同一子网,集

节点和数据节此场景

群内通过汇聚交换机二层互联。

点合并部署

此方案至少需要3个节点

2.3.1.2.3.资源及运行方案

数据安全管控平台建议资源推荐配置要求如表所示。

硬件推荐配置

节点数量不低于11台

CPU不少于264核,单颗CPU性能不低于E5-2650V4

Bit-mode64位

不低于4TB,频率21333MHz,单节点最大支持内存不小于

内存

512GB,单条内存不小于16GB。

不低于1PB,由SAS/SATA硬盘和SSD硬盘构成,其中SSD硬

硬盘空间盘容量不低于88TB;单节点支持热插拔和SAS/SATA硬盘和

SSD硬盘混用模式

大数据分析平数据中心级接入交换机;包转发率不低于1080Mpps,交换容

台接入交换机量不低于2.56Tbps;需具备不少于48个10G接口,6个40G

接口;不少于两台

运行环境需求如下表所示。

软件要求

推荐:

/CentOS7.2

可用:

操作系统/RedHat-6.5-x86_64(RedHat6.5)和RedHat-

6.6-x86_64(RedHat6.6)

/CentOS-6.6版本(CentOS6.6)、CentOS-6.5版本

/(CentOS6.5)和CentOS-6.4-x86_64(CentOS6.4)

/GoogleChrome21及以上版本

浏览器/MozillaFirefox浏览器版本

/InternetExplorer10以上版本浏览器

/OracleJDK:服务端支持1.8版本,客户端支持1.7

JDK

和1.8版本

/IBMJDK:服务端支持1.8版本,客户端支持1.7和

1.8版本

2.3.1.2.4,通用软件组件部署方案

数据安全管控平台用到的开源组件版本号如表所示。

组件名称版本号用途

HDFS2.7.1文件系统

YARN2.7.1资源管理系统(资源调度)

MapReduce2.7.1并行运算框架

Zookeeper3.4.6应用程序协调服务

Ambari-metries0.1.0系统指标监控

Kafka0.10.0分布式消息系统,缓存数据

ElasticSearch5.6.8数据存储和索引

Flink1.3.2特定数据流计算服务

Kibana5.6.8分析与可视化平台

logstash5.6.8数据收集引擎

storm1.0.1流计算框架

hbase1.1.2聚合后数据存储和查询

Spark2.0特定数据流计算服务

23.1.2.5.部署原则与组件依赖设计

数据安全管控平台各服务的部署原则如下。集群中各服务之间存在依赖或者

关联的关系:

>A依赖于B表示,若集群中部署A服务,需要提前或同时部署B服务。

A与B可以不部署在相同的节点上。

AA与B关联表示,若集群中部署A服务,需要同时部署B服务。A与

B需要部署在相同的节点上。

安装集群时只能安装一电NameNode和Zookeeper,当HDFS服务设置HDFS

Federation需要部署多对NameNode和Zookeeper时,需要在集群安装完成后

手动添加其余部分。服务依赖关系如下表所示。

内存

服务名

角色名称最小依赖关系角色业务部署原则

要求

分别部署在2个管理

MSServerMSServer10GB—

节点上,主备配置。

考虑性能最优化,建议

所有集群中LS都与

KrbServer部署在相

同的节点上。

分析集群:LS分别部

LdapServ500MB-

SlapdServer—署在2个控制节点上,

er-1GB

主备配置。

备份集群:LS分别部

署在2个控制节点

上,2个均为分析集群

的备用服务。

每个集群内配置3个

ZooKeepe在控制节点上。如需扩

QP(quorumpeer)1GB—

r展,请保持数量为奇数

个。

分别部署在2个控制

NN(NameNode)4GB

节点上,主备配置。

ZkfcZooKeepe

HDFS

(ZooKeeper)、r分别部署在2个控制

1GB

(FailoverCont节点上,主备配置。

roller)

至少部署3个在控制

节点上,每个节点保留

一份备份数据。如需保

JN(Journal

4GB留超过三份以上备份,

Node)

可部署多个在控制或数

据节点上,请保持数量

为奇数个。

至少部署3个,建议部

DN(DataNode)4GB

署在数据节点上。

R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论