版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国智网创新中心
大数据平台建设方案技术交流1.本期建设目标2.平台的建设规划3.平台建设技术方案:建设背景、探索历程、平台实践、总结与展望规划思路成功案例现状分析产品设计干货附录1.平台现状建设、问题总结分析、客户痛点分析1.某省超大规模集群建设项目2.某省电信全域数据融合建设项目1.某省电信数据湖实施案例2.数据资产管理,数据资产运营2.建模分发
5.统一调度3.数说工厂目
录02040503011.资产注册
4.数据同步1
现状分析集团大数据平台建设现状集团现状:
目前接入全国的O域话单数据、
B域用户数据、
M域工参数据等基础数据,包括全量信令面、用户面2G/3G/4G/5G数据,数据量预估1.2P/天。平台现有规模700台+服务器,预计未来规模将达到数千台服务器。在数据层面,数据资产管理首先解决的是企业内系统间数据孤岛的问题,将不同系统中的数据进行全面汇集和管理,通过数据提炼分析、集中化管理,形成企业数据资产和洞察,服务于业务,解决了数据“汇管用”的问题。在业务层面,通过对各业务线的模块去重和沉淀,共享通用模块,让前台业务更加敏捷地面向市场,
实现企业新业务的快速上线与迭代试错,服务更多场景,提升业务响应力。在技术层面,避免重复开发,技术迭代升级更高效,可按需扩展服务,让整个技术架构更开放。数字中台最终的应用价值是在充分市场竞争下,保持并提升企业的运营效率和创新能力。痛点分析1.数据割裂,跨区域,冒烟式建设,集群很难统一管理。2.数据分散、共享困难,数据价值释放有限,无法变现。3.数据冗余多、集群数据处理效率不高、占用物理资源高,重复建设,成本高。
4.数据质量有待提升、缺乏端到端的血缘管控,缺乏数据治理体系。5.数据服务便捷性有待提升,缺一站式数据安全取数体系。6.数据挖掘模型不够丰富,行业垂直数据建模能力相对较弱。建设现状:集团大数据平台建设现状各省大数据平台内蒙、郑州大数据平台廊坊
大数据
平台现状分析数据价值挖掘不到位,
专题数据模型不够丰富。多集群异厂家、异部门
建设,跨区域管控困难。重复建设、重复投资、
运维成本高。数据服务便捷性有待提升。数据加工不透明,相同指标加工口径不统一。缺少端到端的血缘数据质量工具。数据割裂、共享困难,
数据价值释放有限。散分乱理治无建设背景:集团痛点l全域数据汇聚和管理中心
,沉淀了海量的计算能力、存储能力、数据能力。l面临着如何实现资源智能调度、最大化利用、能力共享
,进一步赋能各类合作伙伴应用创新、促进数据价值变现的发展瓶颈。数据中台数据能力AI能力空间数
据能力资源能力基于容器云的数据中心操作系统创新驱动1
构建能力共享生态2急需支持租户自助使
用云化大数据相关资
源,赋能创新3保障数据安全开放自身优化计算/存储资源使用不均衡资源弹性调度不足技术组件支撑不全手工运维效率低通过持续研究和探索
,构建中国容器化大数据云平台,解决痛点问题应用基础设施主机资源网络资源数据服务能力封装/开放数据治理大数据对内应用大数据对外应用存储资源PaaSIaaSSaaS平台架构1、需要建立跨区域、多集群数据管理2、可视化管理、跨集群数据交换能力不足3、统一运维、自动化运维能力不足4、多租户,统一任务调度管理5、建底层存储、计算集群搭建、容器化部署数据汇聚1、数据采集汇聚效率不足2、数据采集范围尚未覆盖企业级整体数据3、不同种类的数据存放仍需规范化4、源系统接口不规范,数据采集不稳定数据处理1、实时、准实时数据处理支撑能力不足2、数据处理的效率有待提升数据治理1、数据资产可视化程度偏低2、缺少数据资产面向企业的服务能力3、数据质量管理仍有很大的提升空间数据开发1、开发流程管控能力有待提升2、数据开发支撑工具还需补充3、开发工具的易用性有待提高数据应用1、基于数据中心的前端应用缺乏深度2、缺少数据驱动型产品的支撑3、资产服务(血缘、运维等)很少引用到前端应用中系统运维1、系统运维智慧化程度不足2、缺乏基础平台运维监控能力数据安全1、数据安全体系持续完善中问题总结:集团平台待改进需求总结2
规划思路1、建立集团数据中心:打通网络侧、终端侧、内外业务侧,建设跨区域、跨机房、集约化集群管控。2、构建基础集群能力:
数据治理、降本增效。贯通生态,强化网络能力输出。3、提供数据变现能力:包括行业精准画像、应用产业影响和发展支撑。4、打通行业垂直数据:以O域为主,融合B域以及全国平台侧数据、网络侧、终端侧、内外业务侧,实现网络数据变现能力,包括行业精准画像、应用产业营销和发展支撑。建设目标:BDH数据
基础产品BDM数据
应用类产品BDP大数据
资产产品整体目标:本次规划实现的整体目标管理应用平台挖治采总体架构:集团云化集群技术架构物理资源HDFSAlluxio流式预统计算Service
Broker租户C租户DService
BrokerService
Broker租户A租户BService
Broker租户N
…
…HBase独立组件
定制版本号
K8s+dockerHiveSparkHbaseSparkHive公用组件
版本号固定KAFKARedisESFlume服务模块存储模块计算模块其他配置数据用户数据日志数据生态圈数据库租户NYARN总体架构:技术特点-多集群和混合云管理集群–总部•
首创多集群容器云平台•
支持平台内集群级扩容•
支持集群内节点级扩容•
集群资源管理与监控•
集群节点管理与监控•
支持节点上容器管理•
支持配额超配管理•
应用分区及应用管理•
Grafana&Kibana用户集群–
内蒙
用户集群–河南、山东
用户集群–
深圳用户集群–
AWS1用户集群–
AWS2【数据资产管理平台】添加用户集群–
成都节点扩容总体架构:技术特点-集群类型开发测试区应用性能要求不高,虚拟机基本满足需求生产区DMZ
区应用对安全性、稳定性、响应速
度等要求高,建议物理机开发测试DMZ
区!
↓
↓ 应用运行环境一致性管理集群实现容器云核心功能虚拟机
物理机
物理机用户集群提供应用运行环境生产区存储管理应用管理应用编排负载均衡服务发现集群管理权限控制灰度发布任务调度镜像管理扩容缩容租户管理资源管理监控告警网络分配日志管理生产环境生产集群主数据中心总体架构:技术特点-镜像仓库、镜像同步预发布集群共有云区异地灾备数据中心集群镜像环境开发测试集群托管环境同城数据中心策略复制策略复制01.管理●
节点
CPU
卡识别●
容器内挂载
CPU02.分配●
大粒度:按租户●
小粒度:用户集群●
硬件型号03.监控●
CPU状态监控●
CPU用量监控(使用率、显存、温度等)用户业务
Pod和系统
Pod分离特殊的网络需求(IP固定、对外可见等),对
K8s
系统平台无影响当用户需要
IP对外可见时,他们给业务规划的IP资
源往往是有限的、精确的,系统
Pod
可以不占用这
些
IP
地址用户不同租户可以使用不同的网络支持固定
IP、
PodIP
外部可见总体架构:技术特点-资源管理、多网络方案监控K8sMultusCNIcanalcalicobridge-vlan分配管理集群管理
资产管理
数说工厂运维中心任务管理语义加工处理总体架构:集团与各省份关系图内蒙古、郑州大数据平台详单各省沉淀,计算指标数据同步服务适配服务中间件查询
引擎同步
引擎服务
云化组件
云化数据资产
管理平台各省大数据平台
…廊坊大数据平台详单各省沉
淀,计算指
标数据同步详单各省沉
淀,计算指
标数据同步集团云化集群JDBC抽取通用命令调度管理对象注册数据建模注册任务监控模型血缘任务血缘数据迁移资产目录注册系统权限注册主题队列映射数据项注册租户信息注册集群信息注册…
….….•大数据的目标是充分挖掘海量数据中的信息
,
以发现数据中的价值•
云计算的目标是通过资
源共享的方式更好地调
用、扩展和管理计算和
存储等方面的资源和能
力,以提高资源利用率,降低企业的IT成本•
云计算可以为大数据平
台的计算和存储提供资
源层的灵活性•大数据组件部署到云平台上,作为通用PaaS能
力,为用户带来使用上
的便利和高效1999SaaS出现2006IaaS/PaaS出现2013CaaS出现2014FaaS出现/2016:OpenWhisk(FaaS),
Fission(FaaS)2014:
Kubernetes
(CaaS),AWS
Lambda(FaaS)2013:
Docker(CaaS),
Marathon(CaaS)2012:OracleCloud(Iaas/PaaS/SaaS)2011:CloudFoundry
(PaaS)2015:
Kudu2014:Spark,
Flink2012:YARN,
Impala,Storm2011:
MapR,
Hcatalog,
HDP,Kafka2010-11:Crunch,Sqoop,
Flume,
Oozie2010:OpenStack(IaaS)2009:vSphere(IaaS)2006:AWS(SaaS),Amazon
EC2(IaaS),
Zimki
(PaaS)1999:Salesforce
(SaaS)2009:CDH,
Avro,Chukwa2008:
Hive,
Pig,ZooKeeper2007:
HBase2006:
Hadoop(HDFS+MapReduce),
Solr
萌芽阶段
突破阶段
成熟阶段
应用阶段
爆发阶段
-建设背景:大数据与云计算的发展历程1980-20022003-20062006-20092009-20162017-20222013:
中国
大数据元年AdminSpecialization
SimplicityBigData
3.0BigData
2.0BigData
1.0SpecializationSimplicityDevelopmentBigdata
1.0
:v
以海量数据存储、处理为主v平台难以维护,数据开发困难Bigdata2.0
:v
Hadoop商业版出现v
SQL
on
Hadoop逐渐成熟
v
以批处理、流处理为主Bigdata3.0
:v客户需求多元化v技术栈复杂化v
ABC走向融合技术发展趋势:走向AI+Bigdata+Cloud融合美国知名分析机构Wikibon把大数据技术发展大致分为3个阶段:SinglevendorplatformAzure,AWS,Google,DatabricksTechvendors’internaldevelopmentMapReduce,BigTable,GFS,CassandraHadoopecosystemHortonworks,Cloudera,MapRQ建设背景:中国构建了业界领先的大数据平台l中国联通
拥
有
集中的,企
业
级
全
域
数
据的
存
储中
心、
计算
中
心
、
能
力
中
心
和
孵
化
中
心向上服务对内生产
,同时支撑价值开放运营
数据中心
IT系统通信网络业务平台外部合作伙伴互联网存储
计算
能力孵化•
资料数据•
日志解析•
流量查询
•数据应用统一数据模型全域贯穿
资产化管理顶层架构设计
技术引领
向下完成5大类、全域数据汇聚价值化运营
对外变现(大数据公司)能力化输出数据服务对内应用能力开放数据中台数据能力AI能力
(
)空间数
据能力
(资源能力
)开发测试基于容器云的数据中心操作系统1海量的计算能力、存储能力2
PB级数据吞吐能力、统一数据服务能力3企业核心数据资产管理能力4助力数字化转型的服务型数据应用5可价值变现的产品型数据应用数据规模(PB)98.6
108.0662.32017年
2018年
2019年X86服务器(台)609742892017年2018年
2019年建设背景:中国构建了业界领先的大数据平台应用基础设施主机资源数据治理数据服务能力封装/开放国内领先的大数据平台存储资源大数据对内应用大数据对外应用网络资源PaaS6551IaaSSaaS历程回顾:中国大数据平台建设l2016年至今,中国持续在大数据云平台建设方面投入力量l完成了资
源
管
理
从
无
到
有,资源调
度
及
运
维
从“
体
力”
到“
脑
力”的
演
变,逐步
实
现
智
能
化
管
理
和
运
营,为企
业
数
据
生
产
与
服
务
起
到了降
本
提
效
的
作
用
。HiveSparkStormmysqlKafkatensorflowHadoopHbaseMPPRedis时序数据库CaffeHiveStormSpark……HadoopHbaseMPP……HiveStormSpark……HadoopHbaseMPP……•
半自动化部署•
半人工划配•
系统运维,简单
监控•
一键部署•
按需自动分配、弹缩•
组件逐步丰富•
统一监控、智能运维server
server
serverserver飞跃阶段优化提升serverserverserverserverserverserverserver
serverKubernetes+DockerYarnYarn•
物理部署•
人工划配•
系统运维MesosRedisMysqlMysql最初阶段RedisKubernetesMesos技术出现时间2014年2014年调度级别二级调度(基于predicates和priorities两阶段算法)二级调度(
FIFO,capacityscheduler,fairscheduler)生态活跃活跃且社区关注逐步上升活跃,社区关注逐步下降适用场景web应用,中间件及数据库,有状态服务,其他支持类型飞速发展通用性高,混合场景成熟度高高应用案例分析Google、AWS、
Redhat、Oracle、
Intel、
IBM、HW、阿里
百度等、
Twitter、Apple、Airbnb、Yelp等技术生态支持CNCF组织,由Google公司牵头组织主要由Mesosphere公司贡献技术实现开源产品种类繁多,实现难度低,成熟度较高原生框架实现难度高编排Docker需要Marathon实现调度功能历程回顾:
Kubernetes
vs.
Mesos通过研究、探索和实践,我们发现Kubernetes+Docker的技术路线更契合的实际需求。它几乎支持了所有的容器业务类型,包含长期伺服型(long-running)、批处理型(batch)、节点后台
支撑型(node-daemon
)和有状态应用型(stateful
application),也正是因为这个特点,k8s能够支持当前
大多数常见的大数据处理场景,如分布式数据存储(HDFS、
Hbase)、离线分析(hive/Spark)、实时处理
(Sparkstreaming)、数据挖掘(SparkMLlib),及深度学习框架(Tensorflow)等。中国的微服务开发运维管理平台
使用了RancherServer
,通过图形化和
RKE两种方式对多个租户的kubernetes
集群进行部署和管理:•
图形化部署和扩展集群•
图形化节点、资源和容器监控•备份和容灾,提高集群可靠性Rancher具有丰富的容器化实施案例
经验,是在支撑客户需求以及集
群故障恢复方面的坚强后盾。Kubernetes作为开源产品,经常会有
重大安全漏洞,Rancher都是率先发
现并及时给出解决方案,为云平
台的安全保驾护航。历程回顾:与Rancher的合作中国在搭建Kubernetes
+
Docker的容器化平台过程中,引入了Rancher的产品部署和管理多个
Kubernetes集群。……Kubernetes
集群RancherServerKubernetes
集群Kubernetes
集群Kubernetes
集群图形化RKE部署/管理平台实践:整体介绍2018年,基于Kubernetes+Docker,构建了中国容器化大数据云平台。基于统一服务集成框架Kubernetes
Service
Catalog,集中管理、部署多类PaaS能力,包括大数据基础服
务能力、
中间件及数据库能力、数据集成工具能力、容器云能力、深度学习框架能力等,并支持灵活扩展。面向省分公司、子公司及内外部合作伙伴,实现大数据云化资源能力的自助开放,支持租户进行大数据平台
建设、大数据加工处理、模型训练及应用的开发部署。安全管控某省经营分析系统(数据加工)+租户+l
自助申请l
租户隔离l
应用持续集成/部署+平台+l
集约管理
l
智能调度
l
动态弹缩大数据即服务统一服务集成框架(Kubernetes
Service
Catalog)中间件/数据库即服务Kafka数据集成工
具即服务留云化ETL深度学习即
服务容器云服务应用/微服务
开发部署Kubernetes+Docker某省大数据生产平台创新孵化
模型训练负载均衡资源调度资源管理资源隔离弹性伸缩租户Redis平台实践:主要PaaS能力01大数据基础服务组件(原子组件+场景化组合)
数据集市适用于面向部门级的数据分析业务,
提供包括交互式分析
引擎
、
OLAPCube引擎,支持自动化的报表应用构
建。
包括
HDFS、Hive、Spark、
Rubik等组件。
实时计算云上的流处理分析服务,对流数据进
行实时采集和处理,构建实时数据仓
库和实时应用,挖掘流式数据价值。包括HDFS、SparkStreaming、
Hbase等组件。
信息检索PB级别高速全文检索服务,提供高并
发支持,冷热数据隔离,以及字段精确、模糊检索和快速统计功能。包括
ElasticSearch等组件。数据仓库构建一站式数据仓库服务,提供数据
整合、加工、分析等全套数仓构建服
务,帮助打造数据核心。包括HDFS、
Hive、Spark等组件。
数据挖掘数据挖掘开发平台,可进行机器学习
和AI应用的开发和训练,支持对各类
数据实现高度智能化的处理。包括Tensorflow、
MxNet等组件。
ZooKeeperApache分布式应用程序协调服务组
件,主要用于大数据分布式组件的配
置、状态、元数据等信息的存储。HadoopHadoop基础服务,包括HDFS分布式
文件系统、统一资源管理框架YARN
等组件。
HBaseNosql数据库,支持结构化、半结构
化以及非结构化数据存储。
Hbase表
动态可扩展,支持高并发的检索查询。
Hive开源SQL引擎组件,能够将普通SQL
语法转化成MapReduce作业,执行
批处理任务。
Spark基于内存的分布式计算引擎,大大提
高了海量数据加工处理的性能。高性能SQL查询引擎,将MPP与Hadoop架构进行融合;数据查询性
能远高于Hive。基于事件驱动模式的实时处理框架,
实时数据处理延时能够低至10ms级别。StormIMPALA
Kafka高吞吐的分布式消息队列。03
数据集成工具04容器云应用/服务开发部署环境平台实践:主要PaaS能力02中间件及数据库服务组件
云化ETL采用图形化的数据流和工作流设计
,
将分散的、异构数据源抽取,进行清
洗、转换、集成,最后加载到数据仓库
或数据集市中。
数据稽核管理全图形化规则配置界面,支持稽
核规则自动调度执行,针对稽核
出的数据质量问题,系统会自动
进行分类并形成数据处理工单。
元数据管理支持对租户中的元数据进行管理,
包括元数据检索、数据血缘管理分析等。
MySql传统关系型数据库,支持single、一
主多从等多种部署模式。
Nginx高性能HTTP服务器和反向代理
服务器。基于K-V的内存数据库,具有极高的
数据查询效率,常用于作为WEB系统的数据缓存层。支持单机、哨兵、集群等部署模式。支持对租户应用/服务开发、部署、编排、动态弹缩、灰度升级、并提供完整的可视化运维监控为模型训练提供分布式计算框架及
开发工具深度学习
框架05caff
eRedis基础设施(主机
+存储
+
网络)资源管理资源调度资源隔离服务编排弹性伸缩安全管控负载均衡能力列表能力订购能力变更能力退订能力上架能力下架大数据基础服务ESImpalaHiveHadoop数据集成工具云化ETL数据稽核管理元数据管理开发/构建测试/发布CI/CD镜像仓库管
理服务注册服务发现调用链跟踪限流/降级/
熔断KubernetesServiceCatalogOSBAPIOSB
API三方服务扩展JupyterNotebooksService
BrokerService
BrokerService
BrokerMxNetMPIPyTorc
hCaffe2平台实践:技术架构RocketMQRedisService
Broker容器管理(Kubernetes
+
Docker)Service
BrokerService
BrokerService
BrokerMongo
DBKafkaStormHBaseService
BrokerOSB
API
OSB
APIOSB
API
OSB
API微服务开发部署中间件及数据库深度学习框架能力开放TensorFlow租户N租户D租户A租户C租户BMySQL云存储……平台实践:技术架构l运用统一集成框架Kubernetes
Service
Catalog,实现异构服务组件的统一纳管、
自助拉起和在
线开放。使用业界标准的OpenService
BrokerAPI,支持第三方组件的接入和扩展。Open
Service
BrokerAPIService
BrokerB数据库与中间件KafkaOthersService
BrokerC深度学习框架caff
eOthersService
Broker……Service
BrokerA容器化大数据平台数据集市数据挖掘信息检索Servicecatalog
API
ServerServicecatalog
ControllerKubernetes
APIServerEtcdService
Broker……Kubernetes数据仓库实时计算Redisl租户自助构建大数据平台,进行数据生产l提供大数据相关服务组件,供租户进行数据加工处理l租户应用/微服务的开发和容器化部署l
提
供
建
模
环
境
及
样
本
数
据
,
供
租
户
进
行
模
型
训
练
,
赋
能
业
务
创
新租户整体应用场景概览u省分大数据平台构建u大数据加工处理u模型训练u容器化应用/服务开发部署智汇中国容器化大数据
云平台大数据分析处理结果数据与自有应用场景结合平台实践:支持场景模型训练建模环境+批量样本数据资源自助开放弹性伸缩动态调度生产作业专属大数据平台分钟级容器化部署可视化选取数据获取27%22%34%17%平台实践:安全隔离容器化大数据云平台保障租户资源隔离、空间独立、数据加工过程私密、互不干扰,为租户提资源隔离01
租户有独立的网络、系统命名
空间和存储服务隔离03
不同租户使用的服务属于不同
的实例,彼此之间完全透明数据隔离每个租户可使用独立的HDFS用于
数据存储,租户间不做直接共享业务隔离通过Docker实现运行环境隔离,进程之间无法感知租户隔离和控制供安全可靠的生产环境。0402•
亲和算法调度•
Yarn/Spark调度逻辑调整•
共享Domainsocket定制Flannel网络插件,多集群共
用Flannel网络•
最小单位拆分•
亲和算法调度•Headless
service•OpenService
Broker•KubernetesService
Catalog平台实践:技术挑战多Kubernetes集群互通多种PaaS能力集成大数据服务容器化计算资源本地化平台实践:技术挑战–多样化PaaS服务集成l
遇到问题:容器化大数据云平台需要快速集成大数据类、数据库及中间件类、数据集成工具类等多种PaaS能力。没有统一的集成接口。l
解决方案:1.基
于业
界
先
进
的
Open
ServiceBroker规范,通过
标准化接口快速对接各种PaaS组件平台,汇聚各种
PaaS能力,形成技术生态,
为租户赋能。2.基
于
KubernetesServiceCatalog,采用k8s扩展API
和自定义资源原生技术实
现对服务从开通到退订的
全生命周期管理。OpenService
BrokerAPICatalogProvisionUpdateBindUnbindDeprovisionad实现Service
BrokerPaaS组件平台n服务ad实现Service
BrokerPaaS组件平台1服务ad实现Service
BrokerPaaS组件平台3服务ad实现Service
BrokerPaaS组件平台2服务ClusterServiceBrokerServiceInstanceClusterServiceClassServiceBindingClusterServicePlanCredentialsKubernetesService
Catalog服务服务服务服务服务服务服务服务服务服务服务服务Kubeletflanneld集群一
ETCD
APIServer
flanneld
flanneld集群二l
遇到问题
:需在多个Kubernetes集群部署各类PaaS能力。大
数据组件在容器化部署之后,服务相关的所有POD
都是容器网络,自身暴露的通信端口在集群外都无
法访问,导致应用通过大数据组件原生的API调用
时遇到问题。l
解决方案
:通过定制flanneld网络插件,两个K8S集群共用一
套Flannel网络,实现跨集群podIP直接连接,解
决K8s集群间的网络互通问题。Kubernetes集群2app2Kubernetes集群1HDFS平台实践:技术挑战–
Kubernetes集群间网络互通app1datanodepoddatanodepodnamenodepodnamenodepodAPIServerKubeletKubeletflanneldKubeletETCDl
解决方案
:1.将Hadoop按组件拆分成最小单位,确保能够独立部署;
2.通过配置亲和/反亲和调度算法保证同一个集群的各个服
务能够合理部署,比如:同一集群的两个Namenode不
会调度在同一个物理机上;3.拆分完之后解决,服务之间的依赖和服务发现问题
✓
集群内使用Headless
service✓服务之间通过DNS和配置注入进行服务发现
✓
集群外的访问通过--NodePort--Rest服务+LoadBalancerl
遇到问题
:采用多租户的方式对外提供大数据服务,每个租户都是隔离的。
这就要求需要在一个物理集群上能够部署多套Hadoop集群。如何将Hadoop服务进行拆分?如何自动完成角色规划?服务拆分之后,如何解决服务依赖以及服务发现问题?平台实践:技术挑战–
Hadoop容器化服务拆分Kubernetes挑战1.
挑战2.
挑战3.监控存储网络拆分Domain
Socketl遇到问题:挑战1:Executor与Datanode数据不同pod,如何保证同一个集群的Executor和Datanode分布在相同的物理主机上
?挑战2:每个容器有一个独立IP,如何保证本地读写?挑战3:每个容器独立的文件系统,如何保证Domain
Socket优化?•在安装集群前提前进行角色规划,确保YARN
的Nodemanger和Spark的Worker节点与Datanode都在相同的物理机上。•通过判断IP是否一致决定是否进行本地读写•Domainsocket优化,免去本地io走tcp协议栈Data
rcdeDomain
SocketExecutorDatanode平台实践:技术挑战–
Hadoop容器化计算本地化ExecutorDatanode物理机部署容器化部署平台实践:技术挑战–
Hadoop容器化计算本地化l解决方案:第一步:采用K8S亲和性调度策略,确保统一集群的计算服务于Datanode调度到相同的物理机列表里。
第二步:更改Yarn/Spark调度逻辑,判断对应的计算切片是否在同一台host上。第三步:多个pod共享Domainsocket,而且每个租户的hdfs的domainsocket互相独立。Node2Node1Host2Host1Assign
tasksNamenodeScheduler_____JDatanodeNodemanagerNodeManagerNodeManagerNodemanager____JExecutorDatanodeExecutorDatanodeDatanodeBlockReportGetBlockInfoDatanodeDatanode集群2集群1l
2018,TMF
Forum开放数字生态大奖提名l
2018,大数据最佳产品奖,数据中心联盟大数据
发展委员会l
2018,中国集团科技进步奖
月均执行MR/Spark任务162,455个,执行数据调度任务
15,261个集群节点数437个,CPU6028核,内存37.52TB,存储13.09PB2
部署4000余个容器服务实例,对100,000个事件跟踪分析平台实践:建设成效
开放标准化数据产品7大类,600余个开放PaaS能力组件6大类,30余种集团业务
部门24个102个租户入驻省分租户44个子公司34个平台实践:后续探索方向-FaaS与云平台“Serveless”的初衷是帮助开发者摆脱运行后端应用程序所需的服务器设备的设置和管理工作
,“FaaS”将
“Serveless”这一框架提高到一个全新的层面
,为云中运行的应用程序提供了一种全新的系统体系结构,不需
要在服务器上持续运行进程以等待
HTTP请求或API调用,而是可以通过某种事件机制触发代码的执行。客户端函数
函数数据库优势•降低成本:开发者不需要为云中运行的整个服务器付费,只需要为执行
代码过程中消耗的资源付费•缩放能力:可以通过事件触发的方式轻松地对不同服务进行缩放,而无
须考虑基础结构的运维和维护应用平台(PaaS/aPaaS)上层
快速底层
灵活基础设施平台(IaaS)容器平台(CaaS)软件平台(SaaS)函数数据库认证服务函数平台(FaaS)函数函数函数API网关SaaS平台实践:后续探索方向-物联网与云平台物联网通过信息传感设备,按约定的协议,将任何物体与网络相连接
,物体通过信息传播媒介进行信息交换
和通信,以实现智能化识别、定位、跟踪、监管等功能。物联网是互联网基础上的延伸和扩展的网络,将各
种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。数据管理设备管理函数平台消息服务数据库缓存ETL工具Big
DataFaaSPaaS物联网和云计算以及大数
据是密不可分的:•
云平台为大数据提供计
算资源和海量数据的存
储能力•
云平台为物联网应用提
供快速构建和集成的能
力•物联网设备产生的海量
数据需要大数据平台进
行处理和分析持久化存储数据分析
TIo平台实践:总结与展望l建设面向大数据处理的统一云化资源池,提供丰富的PaaS组件,为大数据平台构建和应用开发部署
提供快捷、高效的环境l依托容器化大数据云平台,沉淀一系列技术能力及组件集合,推进企业核心数据上云,构建共性能力及通用服务,打造企业级数据中台,赋能前端应用及BU团队快速创新,支撑业务发展打造企业级数据中台多样化能力建设与开放互联网化协同运营流处理框架批处理框架深度学习框架消息队列赋能前台、创新发展能力汇聚、协同运营智能管理、提升效能容器化大数据云平台(Kubernetes+Docker)异构资源纳管资源隔离资源调度弹性伸缩安全管控分布式文件系统分布式数据仓库NoSQL数据库关系型数据库前端应用与BU团队创新3
产品设计产品介绍:产品架构举措:构建平台数据资产管控能力,打造数据驱动能力,促进集团数字化转型,引导数据集中运营,实现数据变现功能层Enginefor
hadoopHadoopEngineforGBASEMPP数据处理类|数据交换类|文件操作类
|数据查询类
|数据安全类|数据检查类(函数适配器)Enginefordb2db2Enginefororacle___J
Oracle运营层数据资产应用数据资产评估数据资产运营统一API层数据资产加工 数据关系分析
字段关系分析元数据管理数据资产规划数据运维数据资产质量数据资产安全数据处理开发数据评估元数据稽核安全审计权限申请分配质量问题管理安全策略管理数据流程设计元数据采集运行监控安全漏洞检查告警管理数据模型设计元数据分类多租户接入管理资产构成分析资产分布评估资产使用评估数据开放平台资产活性分析BI应用商店数据分发中心质量规则管理质量规则检查下线管理上线元数据服务维度表标准化多维报表指标墙运营诊断自助分析数据架构管理数据标准化指标标准化数据地图生产
平台数据应用开发数据测试数据优化存储优化…功能分类一级功能二级功能资产注册数据项设计a.支撑:数据项新建、导入、导出、修改功能b.支撑:数据项的搜索查询功能c.支撑:数据项命名规则判断、数据项保存判断功能模型设计a.支撑:模型的右键新增功能、导入、导出、保存模型、另存为图片、单个分发、批量分发、平铺调整排序功能b.支撑:实体模型搜索功能c.支撑:实体模型编辑修改功能d.支撑:实体引用功能e.支撑:实体模型名字约束判断、实体保存判断功能资产目录a.支撑:资产目录的管理功能:新增、删除、修改功能b.支撑:目录管理:先系统、系统到层、层到主题c.支撑:资产目录注册保存异常判断功能d.支撑:资产目录导出功能资产管理数据库a.支撑:数据库注册:新建、删除、修改、搜索功能b.支撑:版本修改功能c.支撑:数据库注册信息导出功能租户(产品租户)a.支撑:租户注册:新建、删除、修改、搜索功能b.支撑:租户租户信息导出功能规则管理a.支撑:对主题、层的约束规则管理b.支撑:对主题下面的模型名称约束规则管理全局变量a.支撑:实现对企业的job开发流程定义变量:按秒、按分、按天、按月、按定义参数的配置和管理文件接口支撑:接口采集,接口协议注册管理功能FTP管理a.支撑注册的FTP服务器IP端口注册和对应的主机账号管理FTP账户管理a.支撑注册对应的主机账号管理Zookeeper支撑:集群zk信息注册Hbase支撑:Hbase注册功能Redis支撑:集群Redis信息注册主题队列映射支撑:对应资产目录绑定的租户和队列的映射配置业务系统支撑:接口采集源系统注册功能Hadoop集群管理集群支撑:集群名称注册和系统目录管理功能:新增、修改、删除、查询功能用户组支撑:集群名称、用户组、系统目录管理功能:新增、修改、删除、查询功能用户支撑:集群名称、用户组、产品租户的管理功能:新增、修改、删除、查询功能目录支撑:接口采集的hdfs目录注册yarn资源支撑:系统全局队列的配置管理功能:新增、修改、删除、查询功能租户管理租户注册支撑:集群的产品租户、个人租户和个人租户组注册、导入、修改、删除、查询功能租户映射a.支撑:个人租户对应登录账号的挂载关系配置。b.支撑:新增、导入、修改、搜索功能。产品介绍:资产注册管理模块说明:(3)角色层次:分省、市州、区县、分支局、网格。(4)角色分配:角色可以单个、或者批量分配用户。(5)权限分配:角色挂菜单、JOB挂角色、JDBC租户挂角色、物理模型挂角色、逻辑模型挂角色、应用指标挂角色。(3)租户组:指集群分配的个人租户组权限。(4)产品租户:指专门提供产品来调度和访问的租户权限。(5)租户映射:把注册的个人租户映射到登录账号和角色下面,以方
便后续的一站式开发工作台产品调度模块使用。(1)集群注册:可配置注册管理的集群名称,信息。(2)集群用户和用户组注册:可配置挂载集群和产品租户的关系、和产品租户和租户组关系。(3)集群队列注册:可注册集群对应的资源队列信息。(1)数据库注册:数据库注册实现管理对象:如mysql、oracle
、
postgresql、
hive、
Hbase的库进行注册。(2)JDBC注册:JDBC租户注册,实现对注册的数据库的,用户和密码管理,以及对keytab认证进行管理。(1)系统权限管理:主要是实现用户管理、角色管理、菜单管理、权限管理功能。(2)角色类型:分数据开发者、运维者、使用者、管理者领导、管理者技术,角色分组员和组长。组长可以分配下级组员的角色。产品介绍:
资产注册管理-产品效果图(1)租户注册分:个人租户注册、租户组注册、产品租户注册。(2)个人租户:指集群分配的权限、资源调度访问个人租户。功能分类一级功能二级功能资产注册数据项设计模型设计资产目录资产管理数据库租户(产品租户)规则管理全局变量文件接口a.实现采集的源端系统接口注册管理功能:新建、删除、导入、导出、查询功能FTP管理FTP账户管理ZookeeperHbaseRedis主题队列映射业务系统a.注册管理采集的源端数据业务系统的信息:新建、删除、导入、导出、查询功能Hadoop集群管理集群用户组用户目录a.支撑:集群用户、用户目录、读写权限控制管理功能:新增、修改、删除、查询功能b.支撑目录的:增、删、改、查。yarn资源租户管理租户注册租户映射数据开发开发目录管理a.支撑模型分发目录和开发目录为同一套目录。b.支撑job在开发目录下面的新增、删除、修改、移动、重置。语义处理a.支撑语义的ETL配置b.实现过程表、临时表加工逻辑配置c.实现调度参数全局变量配置d.实现job的新增、保存、修改、测试、提交e.实现job的自动修改加锁,和保存job解锁功能Oracle抽取a.实现源端数据源是oracle的数据进行抽取、装载、落地、加载到hive表功能mysql抽取a.实现源端数据源是mysql的数据进行抽取、装载、落地、加载到hive表功能通用命令a.支撑本地服务器调度和远程服务器调度功能JDBC实用工具a.实现对源端多关系型数据库的表进行sql处理功能数据质量a.实现数据质量组件的拖拽开发,在组件里面可以选稽核指标组件和稽核规则组件b.实现组件的依赖连线,并实现开发面板里面组件的连线调度功能数据迁移实现数据出hdfs平台数据迁移到对应端数据库组件格式化集团上传格式化文件功能上传取回执集团上传回执日志功能集团上传集团上传-组件功能运维中心任务管理实现,超级管理权限,对job任务实现强制锁定,解锁。任务监控实现手工重调任务功能,实现未运行、运行中、运行失败、运行成功,等待运行,几种状态的挂起功能,唤醒功能实现:挂起的job在挂起后,最新一次
调度账期从新调度功能。产品介绍:建模开发、数说工厂、统一调度模块说明:(1)数据项注册:数据项分属性、实例、维度、标签、指标原子化注册。(2)模型注册分发:模型注册在资产目录后,实现建模策略分发。(1)数据开发:分语义处理、oracle抽取、
mysql抽取、通用命令调度、JDBC实用工具、数据质量、数据迁移、格式化组件、集团上传、集团下发、回执组件(2)语义处理:支撑语义的ETL配置,实现过程表、临时表加工逻辑配置和全局参数调度。(3)oracle抽取:实现源端为oracle的采集入平台。(4)mysql抽取:实现源端为mysql的采集入平台。(5)JDBC实用工具:实现各种JDBC驱动的ETL配置。(6)数据质量:实现对数据表五者五性质量稽核。(7)数据迁移:实现hdfs数据出平台迁移到对应端的数据库里。(8)格式化:集团上传和下发数据格式化组件。(9)集团上传下发:实现省数据上传集团和集团数据下发到各省。(10)回执组件:实现集团上传对应的集团日志回执。(1)统一调度:分任务管理和任务监控。(2)任务管理:实现对job任务强制锁定,解锁,上线,下线功能。(3)任务监控:实现任务重调、任务运行管理、任务挂起、唤醒功能。产品介绍:
建模开发、数说工厂、统一调度-产品效果图(1)资产目录注册:对管理对象的数据资产按系统、层、主题资源进行目录注册。(2)主题对应映射:对资产目录绑定映射到集群、队列。租户
:•
租户
A:150c/2TB•租户
C:100c/700GB•租户
B:20c/200GB•租户
D:40c/500GB产品特点:跨集群用户管理中心租户
CCPU60c
Mem
200GB租户
ACPU
50c
Mem1TB租户
DCPU40c
Mem
500GB租户
ACPU
100c
Mem1TB租户
BCPU20c
Mem
200GB集群-
AWS2租户
CCPU40c
Mem
500GB集群-
ALIYUN租户管理集群-青岛2集群-AWS1集群-青岛1集群-
北京3集群-
北京1集群-
北京2Node产品特点:统一调度,监控下沉LocalStorage•宿主机监控:CPU/内存/磁盘
io/网络•容器监控:CPU/内存/磁盘
io/网络•
应用监控:应用可暴露的监控指标•统一后端分布式存储RetrievalStoragePromQLEndpointsAPIWeb
UI(Pod)Push
GatewayPrometheusServerJobs/
ExportersGrafana(Pod)Short-livedjobs•告警策略•告警压制hosthostpodpodTargetsDataPrometheusServer(Pod)e愿kiba
na•
宿主机可被攻击面大•
容器共享
kernel风险•
宿主机操作系统漏洞•
宿主机用户访问权限•
宿主机文件系统篡改•
无界的管理员权限•
授权访问不够严格•
敏感度差异容器负载混合•
节点间互信关系•
操作日志审计•
容器运行时漏洞管理•
容器网络访问无隔离•
容器运行时配置缺陷•
容器承载的应用漏洞•
平台中存有流氓容器•
镜像安全漏洞扫描•
镜像配置缺陷管理•
镜像中有恶意软件•
镜像中有明文密钥•
使用了非信任镜像•
业务间访问通断控制•
非同类网络流量分离•
负载均衡的加密访问•
基于SSL
传输加密•
宿主机日志采集•容器日志采集:标准输出&文件日志•支持海量日志文件跟踪收取和传送•
仓库中有陈旧镜像•
访问敏感数据鉴权•
不安全连接和访问GlusterFS⃞elastic
search•
支持海量日志分析•支持单应用日志聚合及检索•支持基于日期、关键字检索产品特点:安全管理•
操作日志记录•
用户行为分析•
操作规范审计
仓库安全
宿主机安全品
网络安全
管理安全
镜像安全
容器安全PodPodPodPod4
成功案例博瑞得优势:o解决了跨区域,跨机房集群部署和管理问题。o解决了集群之前数据通信、和统一调度分配问题。o解决了数据层、分域存储和计算隔离问题。o解决了HDFS的NN节点扩展性不足问题。o解决了小文件过多,影响集群性能问题。o解决了入库性能问题。o解决了实时计算和采集问题。o解决了数据统一查询访问、安全管控使用数据问题。建设现状:oXX省AI网络中心三个机房物理位置处于不同地市。o三个机房通过40G带宽,直连DCN网实现网络互通。o各机房的设备,存储和计算性能存在明显差异。技术特点:o存储组件,三个机房服务器都部署,目的是为了利用存储资源。o计算组件,根据业务特点分机房部署,为了实现计算时效性。案例一:某省超大规模集群建设HBase数据
存储YannHDFS机房1
机房2
机房3机房1
机房2
机房3SparkStreaming/Flink
SparkPrestoHiveImpala数据
计算DCN网机房3机房1机房240G40G40G案例二:
某省电信全域数据融合建设客户现状:1、
BI系统经过12年以上建设,超过10万张数据表、
1600个以上应用,容量超过100T2、存在多厂家合作开发,数据质量管理主要依靠管理制度和事后稽核类别末端原因人员缺少对现有系统学习手段离职或变动数据源数据自相矛盾复杂规则设有被充分理解变更带来质量问题开发过程时间太紧张业务规则理解错误需求理解不准确缺少测试标准和方法质量管理质量监控规则不好把握系统构架设计中缺少质量考虑质量监控带来过多性能开销1全过程开发管理2全过程质量管理3元数据管理4优化构架质量控制质量管理引入
BDP平台问题查证率
提高50%元数据覆盖
度从30%上升至98%人员质量持续改进人员培训周
期由3个月
缩短至5天节约人力资源
成本30%开发
过程数据源B域O域M域话务指标增值及新业务l国内长途业务l国际长途l互联网业务 基础数据业务网络运行指标l掉话率lEVDO成功率l短消息成功率
基站断站率lCDMA接通率EPC网络指标l
网络指标
网元运行基础指标用户感知指标KPI指标l收入lARPU值l市场占有率
l净收入l成本管理类指标l财务/效益(公司经营收入、净利率、投资回报
率)l服务/运营(市场占有率、ARPU、广告成本)l管理类指标(人才培养、费用控)管线指标l管线l管道
基站l软交换llllllll案例二:
某省电信全域数据融合建设通过企业级数据中心对BOM域数据汇聚,建立三域融合的一站式指标管理体系,为各级管理者、分析
人员、一线人员提供全面、快速应用服务支持企业级指标库(BOM融合)指标生命周期管理指标数据管理目录管理在线分析预警监控业务量终端网间结算用户类经营收入销售品多维分析自助取数客户服务服务开通KPI财务/效益服务/运营指标发布装维指标审核网络运行指标查询报表中心基础平台用户感知成本管控…员工管理指标应用指标管理………… 本地电话业务lll
业务指标DT/CQT测评互联互通接入网案例二:
某省电信全域数据融合建设整体规划思路:融入数据资产理念的一张皮、两条线和全覆盖的数据中心数据规范标准线数据加工流水线
……目标数据源数据数据库数据库关键因素标准化
组件化
可视化建模两条线:在数据处理上,建设数据规范标准线和数据处理流水线,标准化数据、组件生产规格,并对数据处理环节进行组件化,通过可视化建模进行数据管道的规划,形成数据流水线。数据工厂“管理”和“执行”一体化以标准化为核心,构建一个大数据的“操作系统”一张皮:以标准化为核心,数据“管理”和“执行”一体化,构建一个大数据的“操作系统”,对数据的汇聚、
处理、开放、应用进行一站式集成开发和管控。全覆盖:在数据管控上,形成全景式(用户角
色、工作过程)、全流程(开发、运营、运维)、全生命周期(业务角度、系统视角)的
多维度全覆盖数据治理。应用使用•
业务使用者进行应
用使用•
通过自助式界面进
行自助分析•
通过自己的工具进
行数据访问平台设计、开发•
统一业务组件•统一数据模型•创建共享组件•创建自助式门户构建应用程序•
使用共享组件装配应用程序形成容器•
通过自助服务进行
部署生态规则制订•
规则与标准制订•
支撑平台掌控•
开放能力掌控数据岗位CTO
|管理员
|开发人员
|
质量管理员开发
企业级数据整合运营管理者数据生产
线规格数据质量管理生命周期管理标准化管理元数据管理数据
应用提取数据应用开发者各业务部门平台使用者采集
加工命名标准组件标准质检…………1
数据湖实施案例数据湖-传统架构的变迁新一代大数据中心DatawarehouseTransacti
onsLo传统数据仓库StreamsLog
sEventHadoo
pStream
sDatawareho
useETLETLDatabase
sgsEve
nts FilesDataba
ses??DataLakeTransactioFilesnss01集团“1+N”战略,要求四川电信作
为先进省分保持数据中心架构稳定性
和前瞻性数据湖,以低成本收集并存储任何规模、所有类型的数据并安
全提供使用,符合中国电信对”N”省分数据中心建设高安全、
耐久、可用、可扩展性的要求02光网、无线数据及企业外部数据亟待
收集,对非(半)结构化数据、流式
数据的处理缺乏经验数据湖,支持对非结构化、流式数据进行对象存储和持久化,
并支持数据对象的快速检索、实时访问03数据汇聚的复杂度增加,面临数据接
口类型超过10种,前端业务要求数据
中心具备实时数据处理能力数据湖,可快速轻松地执行新类型的数据统一汇聚和分析,支
持新接口类型包括如corba、
socket、
snmp、
tmf、
SFTP、SSH等,支持秒级、毫秒级数据处理能力04数据资产管理的难度增加,面临全生
态数据(
B\O\M域,网络、外部等)
进行的统一、有效管理,无成例可循数据湖,基于“注册”机制,任何入湖的数据都将注册到资产
目录进行统一管理,同时具备自行更新和管理数据对象索引、
元数据的能力,方便进行开放使用05生态圈融合业务发展,驱动数据资产
价值的发掘,对数据中心具备对复杂
事件的处理和分析能力数据湖,适合lambda架构设计,支持使用一系列分析引擎,
用于高级数据分析、实时流式+批量数据复合分析、预测性分
析、人工智能
(AI)和机器学习等场景为什么要引入数据湖?引入数据湖现状亚马逊:什么是真正的数据湖?
API
&
UI
AnAPIanduserinterfacethatexposethesefeaturestointernalandexternalgovernancethroughtechnology,notpolicy
A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 糖尿病酮症酸中毒护理
- 二零二四年度城市供水合同:自来水公司与居民关于住宅供水的协议3篇
- 酒店2024年终工作总结
- 艾滋病的国际治理
- 认识昆虫中班
- 二零二四年度智能教育平台开发合同3篇
- 矿泉水促销活动方案
- 玉林师范学院《酶工程实验》2022-2023学年第一学期期末试卷
- 玉林师范学院《户外拓展与定向运动》2023-2024学年第一学期期末试卷
- 二手房交易2024年度税费代理服务合同2篇
- 第五、六、七单元试卷-2024-2025学年统编版九年级历史上册
- 第7课 实践出真知-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块)
- 2024国家开放大学电大专科《学前儿童社会教育》期末试题及答案
- 婴幼儿托育服务与管理的职业规划
- 2024年国家电投招聘笔试参考题库含答案解析
- DL-T 2594-2023 电力企业标准化工作 评价与改进
- 众辰变频器z2400t-15gy-1说明书
- 中考专题-瓜豆原理课件
- 中小寿险公司机构分类管理暂行办法2017
- 荷叶圆圆教学心得体会(共6篇)
- s195柴油机整机设计说明书
评论
0/150
提交评论