版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、工作简况
1.任务来源与起草单位
2021年8月27日,根据国家标准化管理委员会下达的2021年国家标准制修订计
划,国家标准计划《信息技术大数据批流融合计算技术要求》项目正式立项,
该项目计划号为20213296-T-469,该标准由全国信息技术标准化技术委员会提出
并归口。
该标准由阿里云计算有限公司、中国电子技术标准化研究院、浪潮电子信息
产业股份有限公司、华为技术有限公司、平安科技(深圳)有限公司、浙江蚂蚁
小微金融服务集团有限公司、星环信息科技(上海)有限公司、西安邮电大学、
浪潮软件股份有限公司、北京华胜天成科技股份有限公司等单位负责起草。
2.编制背景及意义
随着数据量的增长,分布式计算模式逐渐成为数据中心的主流架构。为了满
足用户程序的健壮性和实时性要求,人们设计出了许多分布式计算框架,以屏蔽
底层复杂的任务划分和集群调度细节,其中通用的两种被称作批处理框架和流式
计算框架。它们有着迥异的编程模型和编程接口,适用于不同的计算场景。
1.批处理:
1)批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数
和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的
集合。这些操作要求在计算进行过程中数据维持自己的状态。
2)全量计算,需要处理大量数据的任务通常最适合用批处理操作进行处理。
无论直接在持久存储设备中处理数据集,或首先将数据集载入内存,批处理系统
在设计过程中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应
对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。
3)一般是通过主动请求出发,较难对上游变化进行及时响应。
4)大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较
高的场合。
2.流式计算:
1)流式计算可以处理几乎无限量的数据,但同一时间只能处理一条或很少量
的数据,不同记录间只维持最少量的状态。
2)增量计算,对局部数据进行增量处理。
3)可以支持事件触发,实时上游变化进行及时响应。
4)流处理很适合用来处理必须对变动或峰值做出响应,并且关注一段时间内
变化趋势的数据。
然而在实际应用中,经常会遇到两种框架共同工作的情况。之前解决的方法
是将两种或者更多的计算框架进行简单的叠加:批处理引擎用来进行定时的离线计
算,生成一些预查询的结果来加速查询过程;而流式计算引擎负责处理上次离线
计算以来新输入数据的预查询结果,保证查询的实时性。在这种情况下,开发者
需要在两个不同的引擎上实现相同的执行逻辑,还需要手工合并不同引擎的输出
结果。假若需要更改查询逻辑,两套代码也需要同时进行改动。这会极大地增加
工程的开发和维护成本。
因此,统一融合的计算技术成为了大数据领域一个很重要的发展趋势,同时
学术界和产业界在这方面已经有大量的科研和探索。目前业界方面已经出现批流
统一的大数据处理引擎正在逐步替换上一代垂直领域的大数据处理引擎。
融合的计算技术价值在于:
1)多:统一一套引擎完成更多计算模型,批流算子相互复用,增强批+流功
能丰富度;批流插件相互复用,增强上下游存储多样化。
2)快:利用流式框架处理新型设计优化批性能,例如数据不落地,DAG流水
线等设计,为批处理提供性能实时优化,极大提升批执行速度。
3)好:批流统一模型,更好支持当前大数据处理日益普遍的实时+离线融合
场景,例如日常实时作业以流式运行,追数据自动切换为批处理完成。一套代码,
两种模式,可以无缝切换,在资源和体验之间平衡。
4)省:批流统一模型,降低机器成本、计算成本、学习成本、维护成本,企
业大数据计算业务开支降低支出。
3.工作过程
在此标准国标立项之前在全国信标委大数据工作组进行了多轮研讨,并最终
形成目前的草案:
2019年1月:召开标准启动会,筹建标准编制团队,讨论确定标准框架。
2019年12月:完成标准草案,参加信标委立项内审会。
2020年4月:编制组对标准草案进行更新,并在工作组内部进行讨论和修改。
2021年8月:国标委下达标准计划之后,在工作组内部征集新的参编单位,
并形成新的标准编制组,对标准草案进行修改和更新。
2021年11月:进行开题,根据专家反馈意见对草案进行修改,并在工作组内
征集参编单位形成编制组。
2022年1月:在工作组内征求意见,根据反馈意见,形成标准草案。
2022年3月:在工作组内根据专家反馈意见对草案进行修改,对技术要点进
行梳理,完善批流融合计算框架,完善标准草案内容。
2022年5月:在工作组内讨论标准文本内容,对批流融合存储技术相关名词
进行了补充解释,完善标准草案内容。
2022年8月:在工作组内征求意见,根据专家反馈意见,形成目前的标准草
案。
二、标准编制原则和确定主要内容的论据及解决的主要问题
1.标准的主要内容
本标准规定了大数据融合计算的技术要求,适用于指导批流融合计算系统的
设计、开发和应用部署。
本标准的主要技术内容包括:
•技术架构:描述批流融合计算的主要技术架构。
•统一资源管理:批流两类作业使用同一套资源调度和分配系统,满足资源
互相共享,削峰填谷。
•统一计算框架:具备统一套计算框架来对批流两类作业进行计算。
•统一SQL:具备底层同一套SQL描述批流两类作业的抽象接口。
•统一API接口:具备底层同一套API描述批流两类作业的抽象接口。
•统一作业管理:提供批流作业统一管理接口。
•统一权限管理:提供批流作业统一的用户登录、健全、管理等模型。
•扩展性要求:应具备的弹性扩展能力要求。
•兼容性要求:应具备的兼容性要求。
2.标准编制依据
本标准是在现有的大数据标准体系中进行,并与现有的大数据标准保持一致。
已发布国标GB/T38673-2020《信息技术大数据大数据系统基本要求》标准
中定义了大数据系统框架,大数据系统划分为数据收集、数据预处理、数据存储、
数据处理、数据分析、数据访问、数据可视化、资源管理、系统管理9个模块。
本标准是对国标《信息技术大数据系统基本要求》中“数据处理”章节中的相
关技术进行细化和展开,形成完备的标准。
3.标准编制原则
本标准修订的原则包括:
与现有信息技术领域有关的法律法规、国家标准、行业标准协调一致。
在编制的过程中,根据目前大数据技术的发展前沿趋势,结合产业应用情况,
依据国内外标准的研制进展,进行此项目的制定和修改,以期推动大数据行业的
技术发展,促进数字化转型建设。
4.解决的主要问题
本项目明确了批流融合计算的技术架构,对统一的API抽象接口、统一的SQL
接口、统一的资源调度、统一的作业管理、统一的租户管理和鉴权提出明确要求,
并进一步制定了批流融合计算系统的性能指标。弥补大数据标准在批流融合计算
领域空白,是大数据技术领域和标准领域的重要组成部分;进一步为批流融合计
算系统的设计、开发、测评和部署提供统一指导和参考,标准编制组涵盖产学研
用等近二十家单位,是行业内经过广泛调研、讨论、修改完善的标准成果,能够
指导企业大数据系统建设,推动大数据技术发展。
三、主要试验[或验证]情况分析
随着大数据技术发展,批流融合的大数据计算技术成为了大数据领域一个很
重要的发展趋势,并逐步开始替代传统的烟囱式的大数据系统。国内外主流云计
算和大数据厂商都研发了批流融合计算系统用于实际生产环境,阿里云、腾讯、
华为、滴滴、网易、星环、AWS等公司都已提供批流融合计算服务或者使用批流融
合计算技术进行实际生产。未来会有越来越多的大数据系统将会使用批流融合计
算技术,而本标准的制定和实施,会更进一步发掘数据价值,产生更多的大数据
应用和服务,促进数字化转型建设。
四、知识产权情况说明
该标准未涉及到知识产权情况。
五、产业化情况、推广应用论证和预期达到的经济效果
通过开展此标准的制定和实施工作,将为批流融合大数据系统的设计、开发、
测评和部署提供统一指导和参考,有利大数据行业的健康发展。大数据系统的提
供方可以依据此标准来进行批流融合计算系统的设计、开发和部署。同时大数据
系统的用户和测试机构可以依据此标准对批流融合计算系统的服务和系统进行测
评、验收等。
六、采用国际标准和国外先进标准情况
无。
七、与现行相关法律、法规、规章及相关标准的协调性
此标准与现有信息技术领域有关的法律法规、国家标准、行业标准协调一致。
此标准与现有大数据国家标准体系中相关标准协调配套。
八、重大分歧意见的处理经过和依据
未涉及重大分歧意见。
九、标准性质的建议
建议作为推荐性国家标准。
十、贯彻标准的要求和措施建议
建议该标准在报批阶段及正式发布后,同步开展标准宣贯培训与应用示范工
作。
十一、替代或废止现行相关标准的建议
无。
十二、其它应予说明的事项
暂时没有其他应予说明的事项。
国家标准《信息技术大数据批流融合计算技术要求》编制工作组
2022年8月30日
一、工作简况
1.任务来源与起草单位
2021年8月27日,根据国家标准化管理委员会下达的2021年国家标准制修订计
划,国家标准计划《信息技术大数据批流融合计算技术要求》项目正式立项,
该项目计划号为20213296-T-469,该标准由全国信息技术标准化技术委员会提出
并归口。
该标准由阿里云计算有限公司、中国电子技术标准化研究院、浪潮电子信息
产业股份有限公司、华为技术有限公司、平安科技(深圳)有限公司、浙江蚂蚁
小微金融服务集团有限公司、星环信息科技(上海)有限公司、西安邮电大学、
浪潮软件股份有限公司、北京华胜天成科技股份有限公司等单位负责起草。
2.编制背景及意义
随着数据量的增长,分布式计算模式逐渐成为数据中心的主流架构。为了满
足用户程序的健壮性和实时性要求,人们设计出了许多分布式计算框架,以屏蔽
底层复杂的任务划分和集群调度细节,其中通用的两种被称作批处理框架和流式
计算框架。它们有着迥异的编程模型和编程接口,适用于不同的计算场景。
1.批处理:
1)批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数
和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的
集合。这些操作要求在计算进行过程中数据维持自己的状态。
2)全量计算,需要处理大量数据的任务通常最适合用批处理操作进行处理。
无论直接在持久存储设备中处理数据集,或首先将数据集载入内存,批处理系统
在设计过程中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应
对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。
3)一般是通过主动请求出发,较难对上游变化进行及时响应。
4)大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较
高的场合。
2.流式计算:
1)流式计算可以处理几乎无限量的数据,但同一时间只能处理一条或很少量
的数据,不同记录间只维持最少量的状态。
2)增量计算,对局部数据进行增量处理。
3)可以支持事件触发,实时上游变化进行及时响应。
4)流处理很适合用来处理必须对变动或峰值做出响应,并且关注一段时间内
变化趋势的数据。
然而在实际应用中,经常会遇到两种框架共同工作的情况。之前解决的方法
是将两种或者更多的计算框架进行简单的叠加:批处理引擎用来进行定时的离线计
算,生成一些预查询的结果来加速查询过程;而流式计算引擎负责处理上次离线
计算以来新输入数据的预查询结果,保证查询的实时性。在这种情况下,开发者
需要在两个不同的引擎上实现相同的执行逻辑,还需要手工合并不同引擎的输出
结果。假若需要更改查询逻辑,两套代码也需要同时进行改动。这会极大地增加
工程的开发和维护成本。
因此,统一融合的计算技术成为了大数据领域一个很重要的发展趋势,同时
学术界和产业界在这方面已经有大量的科研和探索。目前业界方面已经出现批流
统一的大数据处理引擎正在逐步替换上一代垂直领域的大数据处理引擎。
融合的计算技术价值在于:
1)多:统一一套引擎完成更多计算模型,批流算子相互复用,增强批+流功
能丰富度;批流插件相互复用,增强上下游存储多样化。
2)快:利用流式框架处理新型设计优化批性能,例如数据不落地,DAG流水
线等设计,为批处理提供性能实时优化,极大提升批执行速度。
3)好:批流统一模型,更好支持当前大数据处理日益普遍的实时+离线融合
场景,例如日常实时作业以流式运行,追数据自动切换为批处理完成。一套代码,
两种模式,可以无缝切换,在资源和体验之间平衡。
4)省:批流统一模型,降低机器成本、计算成本、学习成本、维护成本,企
业大数据计算业务开支降低支出。
3.工作过程
在此标准国标立项之前在全国信标委大数据工作组进行了多轮研讨,并最终
形成目前的草案:
2019年1月:召开标准启动会,筹建标准编制团队,讨论确定标准框架。
2019年12月:完成标准草案,参加信标委立项内审会。
2020年4月:编制组对标准草案进行更新,并在工作组内部进行讨论和修改。
2021年8月:国标委下达标准计划之后,在工作组内部征集新的参编单位,
并形成新的标准编制组,对标准草案进行修改和更新。
2021年11月:进行开题,根据专家反馈意见对草案进行修改,并在工作组内
征集参编单位形成编制组。
2022年1月:在工作组内征求意见,根据反馈意见,形成标准草案。
2022年3月:在工作组内根据专家反馈意见对草案进行修改,对技术要点进
行梳理,完善批流融合计算框架,完善标准草案内容。
2022年5月:在工作组内讨论标准文本内容,对批流融合存储技术相关名词
进行了补充解释,完善标准草案内容。
2022年8月:在工作组内征求意见,根据专家反馈意见,形成目前的标准草
案。
二、标准编制原则和确定主要内容的论据及解决的主要问题
1.标准的主要内容
本标准规定了大数据融合计算的技术要求,适用于指导批流融合计算系统的
设计、开发和应用部署。
本标准的主要技术内容包括:
•技术架构:描述批流融合计算的主要技术架构。
•统一资源管理:批流两类作业使用同一套资源调度和分配系统,满足资源
互相共享,削峰填谷。
•统一计算框架:具备统一套计算框架来对批流两类作业进行计算。
•统一SQL:具备底层同一套SQL描述批流两类作业的抽象接口。
•统一API接口:具备底层同一套API描述批流两类作业的抽象接口。
•统一作业管理:提供批流作业统一管理接口。
•统一权限管理:提供批流作业统一的用户登录、健全、管理等模型。
•扩展性要求:应具备的弹性扩展能力要求。
•兼容性要求:应具备的兼容性要求。
2.标准编制依据
本标准是在现有的大数据标准体系中进行,并与现有的大数据标准保持一致。
已发布国标GB/T38673-2020《信息技术大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代办公环境下的技术趋势分析报告
- 生态修复技术在水域生态保护中的作用
- 2 认识几种常见的岩石(说课稿)-2023-2024学年科学四年级下册教科版
- 2024-2025学年高中化学 化学实验基本方法说课稿 新人教版必修1
- Unit 1 Lesson 1 At the Airport(说课稿)-2024-2025学年冀教版(三起)英语六年级上册
- 2024-2025学年高中物理 第10章 热力学定律 1 功和内能说课稿 新人教版选修3-3
- 2023八年级道德与法治上册 第二单元 遵守社会规则 第五课 做守法的公民 第2框 预防犯罪说课稿 新人教版
- Unit 2 Ways to school Part A Let's learn (说课稿)-2024-2025学年人教PEP版英语六年级上册001
- 10的再认识(说课稿)-2024-2025学年一年级上册数学人教版
- 2 时、分、秒(说课稿)-2023-2024学年二年级下册数学苏教版
- 一例蛇串疮患者个案护理课件
- DB63-T 2269-2024 公路建设项目安全生产费用清单计量规范
- 低压电工理论考试题库低压电工考试题
- 国家电网培训课件
- 五年级上册口算练习400题及答案
- 骆驼祥子选择题100道及答案
- 2024年公务员考试题库附答案【完整版】
- 关于闯红灯的调查报告
- T-GDWCA 0019-2018 辐照工艺操作规范
- 为什么伟大不能被计划
- 精神障碍患者的社交技巧训练
评论
0/150
提交评论