2023人工智能2.0时代的公共智算服务发展指南_第1页
2023人工智能2.0时代的公共智算服务发展指南_第2页
2023人工智能2.0时代的公共智算服务发展指南_第3页
2023人工智能2.0时代的公共智算服务发展指南_第4页
2023人工智能2.0时代的公共智算服务发展指南_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国家信息中心国家信息中心人工智能2.0时代的公共智算服务发展指南2023年10月版权声明本报告中所涉及的图片、表格及文字内容的版权归国家信息中心和阿里云计算有限公司共同所有。其中部分数据在标注有来源的情况下,版权归属原数据公司所有。本报告取得的任何机构、个人在引用本报告数据或者转载有关报告内容时,需李俊元马潮江吴洁倩王丹丹胡拥军郑海超徐凌验涂菲菲秦国涛戴或人工智能是引领新一轮科技革命和产业变革的战略性技术和重要驱动力量,与经济社会发展深度融合的前景广阔、潜力巨大。随着人工智能技术的持续迭代升级,其引领作用和潜在价值被逐步释放,带来了新一轮发展战略机遇,正在成为国际竞争的新焦点。加快健全完善与人工智能相适应的基础设施、制度环境和产业配套,是降低人工智能研发应用门槛、激发技术和产业活力、构筑人工智能发展优势、当前,人工智能发展由单一智能的1.0时代向通用智能的2.0时代演进,由单模态向多模态融合发展,呈现出创新加速、跨界融合、应用深化的阶段特征。面向数字经济、数字社会、数字政府各领域人长效化趋势明显,作为数字时代“准公共品”的基础性、通用性、公共性特质进一步凸显。“可定制的”人工智能服务能够像水、电、气、暖一样便捷安全高效地使用,随需应变地满足个性化需求,成为各行业共享Al红利的共同愿景。为此,亟需推动构建政府和市场互补、多元协作的公共智算基础设施体系和服务供给格局,发挥市场配置资源的决定性作用,减少投资浪费、增加有效供给、规避系统性风险。鼓励引导云服务商、人工智能平台、互联网平台、传统ICT服务商等主体形成合力,共同打造开放式的公共智算服务平台和服务生态,创新服务模式、提升服务实效,降低使用者的进入门槛和综合成本,为大中小企业、科研机构、在此背景下,国家信息中心联合阿里云共同开展“人工智能2.0时代的公共智算服务”研究,面向通用人工智能发展新趋势,梳理智算服务发展形势和现状,明确“公共智算服务”概念内涵、服务架构、服务内容和服务体系,提出实现生态化发展的策略建议,最后提供相关实践案例。本报告旨在为公共智算服务的建设方、供应方、使用方和生态伙伴等提供协同发展参考,为各地方、各行业人工智能应用提供指引和借鉴,为加快Al赋能千行百业、助力经济社会发展贡献力量。目录 1.云化共享 2.高效计算 3.开放兼容 4.按需服务 5.稳定安全 6.绿色低碳 7.长效运营 (一)人工智能发展进入2.0时代,智算发展迎来高速增长机遇期 (二)智算资源准公共品特质凸显,公 05(三)全球“双碳”进程逐渐深入,绿色低 06 人工智能2.0时代的公共智算服务发展指南 20 20 20 21 22 22 23 233.复旦大学智算平台(CFFF):国内高校最大规模异构智算平台 23 24 24 25(一)基本概念智能计算(简称智算)是指面向算法模型驱动的高并行、高吞吐复杂计算任务需要,基于最新人工智能理论,采用先进的人工智能异构计算架构,配置最优计算策略,实现以最小开销达到最佳效果的一种先进计算形态。智能计算是可以根据具体任务对计算资源进行优化、调度和有效分配的一种新型计算形式。相较于通用计算和超算,智能计算是更为适应AI训练和推理应用的随着人工智能2.0时代的到来,智算成为关边际成本递减、边际收益递增特征,决定了采用公共性服务能够更好地匹配供需,有效降低单位使用成本。同时,由于采用云服务方式能够有效屏蔽底层技术差异,实现智算资源弹性调度、按需共享、按量付费。因此,以云服务的方式提供公共智算服务成为破解智算资源获取门槛高、使用成本高、资源易闲置等难题,实现普适普惠供本研究认为,公共智算服务是指面向人工智降低获取门槛和使用成本,以基础性、公共性、普适性为原则,以多样化、泛在化、规模化人工智能应用需要为牵引,采用公共云服务方式模块化、组件化、服务化封装算力、算法、数据等智市场化、绿色化、长效化方式实现智算资源高效供给。1.云化共享云化共享是指以云服务方式实现智算资源的高效调度和使用,是智算资源能够作为“准公共通过云化共享,一是可以屏蔽底层技术细节,降低用户获取智算资源的技术门槛和转移成本;二是可以实现即时开通和便捷使用,减少用户的初资源的利用率和服务的性价比,通过共享资源、弹性调度、按量计费,更好满足高弹性资源使用云化共享的实现,有赖于云服务的三个方面技术特点。一是资源的多租户共享,支持多个用户共用资源,并确保各用户的业务不互相影响,最大化提升智算资源使用效率;二是资源的弹性根据业需要实时弹性匹配资源,快速扩容满足业务高峰时资源需求,用完即收,释放资源降低成本;三是云原生技术的全面应用,通过服务架构和服务产品的全面无服务器化(Serverless),最大程度屏蔽技术细节,降低使用门槛,提升资源调度能力,实现开箱即用、按量计费,帮助用户更好地聚焦自身业务需求,构建云上应用,充分享受云服务自适应、免运维、高弹性优势带来的2.高效计算高效计算是指公共智算服务提供的是大规模、高并行、高吞吐的计算服务,这也是公共智人工智能2.0时代的公共智算服务发展指南算服务面向人工智能2.0时代大模型训练和推理应用的基本要求。基于云化共享方式提供的高效计算服务,一是能够保障和提高大模型训练和推理的效力,缩短训练时间、提升训练稳定性、提升推理应用性能,更好满足2.0时代人工智能应用需求;二是可以提高资源的利用率,让每一块Al芯片发挥更大的算力效能,从而得到更高的服实现高效计算需要重点关注四个方面的性能。一是并行计算效率,不仅要能够支持单卡到万卡的并行计算弹性拓展能力,还要保证大规模并行计算的线性加速比,避免因算力节点规模化造成使用效率的过度衰减。二是模型计在同样的硬件配置条件下,提高模型计算效率,可以使模型训练得更快,从而达节约资源、降低成本的效果。三是网络性能,大模型训练所需的(超)大规模算力主要通过GPU并行计算实现,网络性能的优劣将直接影响分布式并行计算的性能,进而影响大模型训练的质量和速度,通过双上联网络架构、GPU直连、高精度拥塞控制等手段能有效拓展带宽、优化通信、减少拥塞和延迟,提供高带宽、低延时、稳定可靠的网络连接支持。四是存储性能,大模型训练过程中存在海量小文件的读写操作,采用并行文件存储(ParallelFileStorage,PFS)等技术,能够有效提供海量数据高并发处理、高吞吐并行存储、向量数据库快速检索、高安全高可靠数据存储等能力,从而减少GPU闲置等待时间、缩短检查点(CheckPoint)保存时间,提高模型训练的效率和稳定性;采用分层存储等技术,提供存储容量和吞吐性能的线性扩展能力,能够最大程度降低存储成本。3.开放兼容开放兼容是指提供公共智算服务的技术和服务框架是开放的,能够适配兼容各种技术和服务产品,这是多元协同的公共智算服务生态得以形成的前提基础,也是公共智算服务资源能够有效集成,向用户提供普适服务的必要条件。保持公共智算服务生态的开放兼容,一是有利于消除技术壁垒,促进智算资源的标准化供给;二是有利于智算资源共建共享,降低AI开发和使用成本;三是有利于避免同质化竞争、促进协同创新,促进Al生态和Al产业的繁荣发展。面向人工智能技术和应用趋势,开放兼容芯”,能够对底层异构芯片进行统一纳管、统一池化和统一调度,屏蔽底层异构芯片差异,避免形成算力孤岛,同时更好满足用户的多样化算力集群进行统一管理,实现混合云管理和跨集群资源协同调度。三是支持主流的深度学习框架,如常见的机器学习框架PyTorch、TensorFlow、Caffe和主流开源分布式训练框架Megatron-服务部署到预测的一站式服务。四是具备繁荣的模型开源生态,支持多种开源模型和商业模型部署,提供模型开发应用全生命周期服务,支持模4.按需服务按需服务是指公共智算服务能够快速响应多样化的人工智能应用需要,通过组合标准化封装的服务资源提供定制化服务的能力,直接影响到公共智算服务能否“用起来、用得好”,也是公共智算服务普适性的重要体现。按需服务不仅能够更好地满足多场景、多样化的人工智能应用需求,还能够使公共智算服务被更多用户接受,从而通过更多用户的共享提高资源利用率。资源的逻辑调度方面,支持服务资源的标准化封装、模块化组合、任务化供给,根据客户不同任务需求,提供覆盖模型开发全生命周期的多元服务,并支持按业务需要分类获取、自由组合、定制提供。二是资源的物理部署方面,支持服务资源多节点部署、一体化调度,提供本地化部署和公共云部署等多种方式,支持本地优先、就近服务、多级扩展,在为用户提供最优服务体验的同时,提供最高性价比。三是服务的获取方面,支持用户自助服务,如满足用户一站式选择服务配置和升级扩展的需求,支持从配置选择到资源申请、资源创建、资源获取、资源回收的服务全流程自动化,从而最大化降低用户资源获取的技术门槛和等待成本,为用户提供更加友好易用的应5.稳定安全稳定安全是指公共智能算服务供给的持续性、稳定性和安全性,这既是高质量公共智能算服务的底线要求,也是用户能够放心选择以公共稳定安全主要体现在三个方面。一是公共云如单实例的可用性、多可用区多实例可用性、云供商(CloudServiceProvider,CSP)提供的安全工具来实现,如提供DDoS防护、木马查杀等服务,提供可信计算、硬件加密、虚拟化加密计要求的信息安全等级保护三级水平等进行衡量。三是云服务的容错与恢复机制,由于大模型对训练的稳定性、故障检测与训练容错提出了更高的要求,需要重点关注能够有效缩短故障处理时间的智能容错、自动恢复等保障机制,从而提高大6.绿色低碳绿色低碳是“双碳”目标背景下公共智算服务主动顺应资源环境约束的集中体现,也是公共智算服务支持经济社会绿色可持续发展的内在要求。在数字革命提速的今天,数据中心日益成为“能耗大户”和环境保护风险点,让智算服务更加绿色低碳变得尤为重要。绿色低碳主要体现在两个方面。一是绿色用主要体现为清洁电力在总用电中占比。二是节能能运维方式,降低数据中心的PUE;通过提供公共云服务减少对本地化部署机房和服务器的依通过对资源高效利用和循环利用,如加强设备检测、维修,帮助延长服务器的生命周期,减少资7.长效运营长效运营是指公共智算服务应采用“市场能供给、客户能负担、环境可持续”的建设运营和服务模式,是保证公共智算服务高质量持续稳定实现长效运营需要三个方面的支持。一是科学有效的建设运营方案。由于支持公共智算服务的软硬件资源一旦建成短期可调整空间较小,为避免初始固定投入成为不可回收的沉没成本,不人工智能2.0时代的公共智算服务发展指南仅要关注运营期的资源配置问题,更需要在规划设计阶段就对服务对象、服务范围、服务方式、技术选型等进行充分的调研和论证,最大程度保证供给和需求的匹配性。二是合理可行的盈利模式。通过用户运营、服务运营增强使用者黏性,以用户可以承担的服务价格获得持续的服务收益,实现普惠化的健康可持续发展。三是专业化的运营团队。为保障公共智算服务持续高质量供给,需要服务供给方与用户需求共同成长,不仅能够在当期提供高效的服务,还能够前瞻掌握政策要求、技术发展和用户需求变化趋势,并据此不断优化服务方式、提升服务水平,在用户需求(一)人工智能发展进入2.0时代,智算发展迎来高速增长机遇期得益于计算力的提升、数据量的增长和人们对利用人工智能技术提升生活质量的持续追求,人工智能技术创新成果不断涌现。以ChatGPT为代表的自然语言单模态大模型和以GPT-4为代表的多模态大模型横空出世,引爆新一轮Al发展浪潮,推动人工智能从单一智能1.0时代加快向以大模型为特征的通用智能2.0时代迈进,并呈现出更加明显的知识驱动、跨界融合、人机协同、群智开放等技术特征。“预训练+精调”的开发范式使得大模型具有良好的通用性和泛化性,具备更强的推广应用条件。随着技术迭代和产业发展,更高效、更“聪明”的大模型将渗透到更多领域中,有望成为人工智能发展的“新基座”和生产生活的新工具,在全面赋能经济社会高质量发展、成为数字时代新生产力的同时,带来更大的智能算力需求。以CPU架构为核心的通用算力无法高效处理大规模并行计算任务,具备高精度数值计算能力的超算在人工智能应用中存在“大材小用”的问题,智能算力成为支撑人工智能技术发展,特别是Al大模型训练和推理的最优解,这促使经济社会对智算资源的需求进一步加大。郑纬民院士预计,到2025年我国智能算力总量将超过1800EFlops、占总算力比重超过85%¹。(二)智算资源准公共品特质凸显,公共随着我国数字化转型的加速推进和人工智能应用的普及深化,智算资源作为数字时代“准公共品”的特质也将进一步凸显,标准化、低成本、低门槛成为其必然发展方向。针对不同人工智能应用和实际业务场景存在的智能算力需求无规律波动变化、算力资源消耗差异化分布等情况,以“云服务”的方式灵活、弹性供给智能算力及智算服务,可以有效降低用户的初始投入和使用成本,为公共智算服务市场发展壮大带来新一轮机遇。为了加速Al产业化和产业Al化进程,化”提供“标准件”,使智算资源能够像水、电、气、暖一样易取易用,还需要进一步通过“服务化”面向用户按需提供“定制品”,从而更好地满足面向多样化场景的应用需要。如模型即服务(ModelasaService,MaaS)作为面向人工智能应用的智算服务新模式,可以通过为用户提供使用,提供与具体任务相匹配的软硬件环境和资源配置,让用户可以无需关注底层算力芯片和技术细节,也无需过多关注算法和模型本身,只需聚焦相应业务领域的业务逻辑和数据,开展个性化、定制化的人工智能应用开发,有效解决人工智能行业领域模型训练成本高和技术门槛高的1数据来源:AI算力或迎高速扩张时代专家热议智算时代新趋势,/2023-04/25/content_36522153.htm。人工智能2.0时代的公共智算服务发展指南低碳成为智算服务必然要求2021年11月13日《联合国气候变化框架公约》第二十六次缔约方大会在英国格拉斯哥闭碳中和”不再只是理念倡导,“双碳”时代正式到来。然而,以ChatGPT为代表的Al大模型在引发经济社会巨大变革的同时,也因为其高能耗、高碳排放而饱受争议。研究数据显示,训练GPT-3消耗了1287MWh(兆瓦时)的电,相当于排放了552吨碳,该值相当于126个丹麦家庭每年消耗的能量¹。由于强化学习本身还需要额外消耗电力,所以ChatGPT在模型训练阶段所在ChatGPT运行阶段,虽然单一用户操作带来的能耗很小,但是上亿用户规模的频繁访问也会带来巨大的碳排放来。当前,人工智能所需的计算能力每100天翻一番,预计在未来五年内将增加超过100万倍²,由此而带来的碳排放也将成倍增长。人工智能技术对算力需求的快速增长使其成为了影响“双碳”目标实现的一个最大的不确定因素。智能算力作为支撑人工智能技术实现和应用的关键,必须朝着绿色低碳的方向发展,这既是顺应全球绿色低碳发展大势的必然选择, 三、现状和问题1.政策体系逐步健全,发展环境持续优化随着以ChatGPT为代表的大模型浪潮袭来,各类人工智能应用现象级爆火,持续激发智算服务需求。国家及地方层面密集出台相关政策,积极推动智算服务发展,基本形成了涵盖技术、产(1)国家高度重视智能算力发展,统筹推进数据、算力、算法作为人工智能发展的三大基石,近年来受到国家层面高度重视,配套政策措施陆续出台,提高数据要素供给数量和质量,从数据看,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》首次将“数据”与土地、劳动力、资本、技术并列为重要要素之一;“数据二十条”进一步有力推动跨层级、跨地域、跨部门的公共数据汇聚融合、共享交换和开发应用。从算力看,《关于加快构建全国一体化大数据中心协同创新体系的指导意见》《全国一体化大数据中心协同创新体系算力枢纽实施方案》《算力基础设施高质量发展行动计划》等文件均提出,要强化算力统筹和智能调度,优化算力服务体系,面向重点新兴技部、工信部、中央网信办等鼓励人工智能前沿技术布局,重点突破自然语言理解、生物特征识别等技术;教育部相关政策重点培养人工智能专在政策引导下,我国数据资源供给能力持续提升,《数字中国发展报告(2022年)》显示,2022年底我国数据产量达8.1ZB,同比增长22.7%。算力规模持续保持全球第二,多层次截至2023年5月,已发布的10亿参数规模以上大模型达79个1,自然语言处理、机器视觉、多模态等技术取得重要突破,涌现出通义千问、文心一言、盘古、悟道、星火认知、360智脑4.0等一批具有重要影响力的预训练大模型,智算中人工智能2.0时代的公共智算服务发展指南时间12023年10月足均衡型、计算和存储密集型等各类业务算力需求。2总局2023年7月的自主创新。3国务院办公厅2022年9月高各地区各部门政务大数据算力支撑能力。4信部、交通运输部、2022年7月供算力、算法资源。5国务院2021年12月62021年7月用。7国家发展改革委、中央网信办、工信部、国家能源局2021年5月算法模型和控件库,提供规范统一的大数据服务支持。8国家发展改革委、中央网信办、工信部、国家能源局体化大数据中心协同2020年12月9国务院2017年7月人机交互能力为重点,形成开放兼容、稳定成熟的技术体系。 (2)地方积极抢占智算服务先机,因地制宜在国家政策持续引导和智算服务需求不断扩张下,各地方纷纷关注到智算服务的重要作用和发展价值,密集出台利好政策,统筹推进算力资并结合资源禀赋和特色优势,鼓励建设方打造符北京市重视提升智能算力软硬件能力,加快北京人工智能公共算力中心、北京数字经济算力中心等项目建设,提升算力资源统筹供给能力;同时,依托本地丰富的科研资源,推动国产人工智能芯片实现突破,加强自主开源深度学习框架研发攻关。上海市注重引导民间资本投资智算服务,并推动“补需方”改革,鼓励高校、科研机构、国有企业、政府部门等使用民间投资算力。杭州市依托数据优势,设立浙江算力科技有限公司、推广算力券、创新模型服成都市侧重推进算力产业自主可控,围绕“算服务器整机、液冷设备等高端硬件。深圳市立法先行,颁布全国首部人工智能产业专项立法,鼓励和支持人工智能算力基础设施建设;发布首批“城市+Al”应用场景清单,统筹设立规模高达1000亿元的人工智能基金群。山东省强化一体统筹,在全国率先出台省级新型数据中心创建标准,提出建立“现代优势产业集群+人工智能”机制,大力推进济南一青岛人工智能创新应用先导区建设,力争布局进入人工智能领域产业发展的第一梯队。时间12023年5月动新增算力基础设施建设,建设统一的多云算力调度平台。2响力的人工智能创新策源地2023年5月可控。系,积极争取成为国家人工智能开放生态技术创新中心。3《上海市进一步提高产品、2023年7月42023年5月支持民营企业广泛参与数据、算力等人工智能基础设施建设。52023年4月统一编排。技术创新研发,培育关键核心技术生态链,提升算力调度水平。62023年7月加快部署适应模型训练所需的软硬件环境,提升人工智能2.0时代的公共智算服务发展指南时间72023年8月82021年9月92023年5月网联汽车等领域,实施人工智能科技重大专项扶持计研机构、高校等,打造深港人工智能算力赋能中心。2022年9月山东省大数据中心协同创新体系的2021年10月公共算力资源,降低算力使用成本。2022年5月贵州省2023年3月用创新样板。2.智算服务供给量质齐升,服务模式创新我国算力规模位居全球第二,算力布局和算力结构持续优化,智能算力占比快速提升,智算中心建设加速推进,服务模式创新风起云涌,有力支撑了人工智能、区块链、元宇宙等新业态新(1)多元主体共建智算设施,推动智能算力规模快速上升截至2022年底,我国数据中心设备算力总规模达到302EFlops,连续两年增速超过50%,其中智能算力规模达到178.5EFlops,增速达到72%,算力占比达到59%',成为算力市场最亮眼的增长点。以智能计算中心为代表的智算设施建设加快进行,截至2023年6月,全国已投运的智算中心达到25个,在建的智算中心超过20个²。 三、现状和问题02017220202图1我国2017年-2022年算力规模结构示意从区域分布看,综合考虑潜在市场区域、建设成本、人才分布等因素,目前我国已建成的和拟建的智能计算中心主要选址于京津冀、长三角、粤港澳大湾区、成渝双城经济圈等区域,与人工浙江、上海、江苏在Al服务器市场中继续保持领先,市场份额占比高达90%¹。东北、中西部等区域因土地、电费和人员成本较低等因素占优,结合当地产业升级需要,也吸引了部分智能计算中心落户,据统计,我国中部地区拥有智能计算中心6个、西部和东北地区的智能计算中心数量分别为3个和2个²。从建设主体看,我国智算中心建设主体多元,大致可分为政府、科研院所和企业三类主体。政府主导建设的智算中心旨在提供普惠的人工智能算力服务,服务目标包括助力行业数字化转型、服务人工智能行业企业发展、支持科研工作等。科研院所主导建设的智算中心主要面向科研项目计算需求,如复旦大学联合阿里云和中国电信打造了云上科研智算平台CFFF,接入了四个校区的所有实验设备,可以满足不同应用场景下的科学智能研究与应用需求。企业主体包括运营商、云服务商、行业龙头企业等,企业主导建设的智能计算中心建设目标与面向行业领域较为多样,云服务商更具备提供通用Al计算与大模型服务的能力,也有部分行业龙头企业联合相关厂商面向特定行业领域Al应用需求共建智算中心。人工智能2.0时代的公共智算服务发展指南中心、北京人工智能公共算力平台服务科研项目复旦大学云上科研智企业云服务商提供数据存储、通用AI计算与大模型应用部分智算中心面向智阿里云乌兰察布智算中心中国电信京津冀大数吉利星睿智算中心(2)供需变化推动模式创新,模型驱动成为人工智能2.0时代,模型成为了重要的生产元素,随着Al产业化和产业AI化的发展,模型驱动的智算服务需求日益增长,在此背景下,能够降低用户使用门槛的MaaS(模型即服务)理在MaaS的理念下,智算服务将更多地以模型开发和应用为核心开展,围绕模型的全生命周模型服务等服务和产品。与此同时,围绕模型的实现各个行业或企业专属模型的部署与应用,适配云端、手机和随身设备等多端模型服务部署,在无形之中形成立体的服务机制,服务生活的方方面面。与此同时,面向AI大模型训练的算力基础设施呈现出规模化、高性能的发展趋势,异构芯片成为AI计算的关键计算资产,通过集成CPU、GPU、FPGA、ASIC不同架构的芯片,能够更加高效地支撑Al大模型进行各类复杂任务此外,由于智算需求快速增长、Al芯片价格居高不下等原因,智算资源总体上仍然呈现供不应求的局面,为此,服务供应商正在努力通过提升资源调度管理能力,从而在满足用户应用需求的同时,能够进一步提高资源利用率,推动公共智算服务资源的供给方式逐步从“按指定规格购当前,以ChatGPT为代表的AI大模型成为通用人工智能的竞争焦点,“预训练+精调”的开发范式虽然为大模型开发应用带来了更好的条件,但仍然存在较高的技术和使用门槛。面向人工智能应用普及要求需要,人工智能算法开发和模型训练需要进一步向泛在化、易用型转变,作为其重要支撑的公共智算服务在服务内容、服务一是重硬件轻软件,难以满足多元需求。我国目前服务器整机研发制造在性能、可靠性、能耗比各个方面已经具备全球领先水平。2022年,中国整体服务器市场占全球市场比重达25%,2017年至2022年的复合增长率达48.8%¹。与此相比,基础软件、工具软件、算法模型等方面存在重视不够、投入不足的情况,技术和产品国产化比例较低,算法模型研发过度依赖开源代码和现有的数学模型,人工智能产业发展高度依赖国外技术、平台、开发工具。随着数字经济的蓬勃发展和人工智能技术的不断突破,模型驱动的人工智能普及应用成为必然趋势,为降低模型训还需要更多算法(模型)和数据服务支持。由于 重硬轻软,目前公共智算服务所能提供的服务资源仍然集中在基础的算力服务,数据服务能力不二是重建设轻服务,供需匹配效果不佳。2022年2月,以8大国家算力枢纽节点、10个国家数据中心集群为重点的“东数西算”工程正但目前智算中心的建设多偏重物理实体建筑建设和硬件部署,对智算中心建成成效的衡量指标偏重于人工智能服务器的部署量、智能算力的规模等,较少从降低人工智能应用落地的技术门槛和开发成本,提供多元普惠公共性服务的角度进行前瞻设计、开展评价,容易导致智算资源建成后难以精准触达需求的情况,已建成的智算中心存三是重投资轻运营,难以实现持续发展。目前,全国已有超过30个城市提出或正在建设智算中心1,但总体智算中心发展仍处于起步建设阶段,发展模式尚在探索之中。各地积极投资建设智算中心争抢智算产业发展机遇,但对智算中心的运营模式、盈利模式的认识不足,尚未形成的建设模式,也容易导致局部过热、资源浪费,四是协同难效率低,算力普惠供给不足。当前,智能算力紧缺和算力利用率低是我国算力服务的突出矛盾。受美国进一步升级人工智能高性市场上出现了GPU高端芯片一芯难求的现象,而采用更多低性能芯片提供同等规模智能算力,则需要更大规模的算力集群或者跨集群算力调度实现,对并行计算、集群调度、网络性能、存储目前规模化智算供给普遍存在高效连接难、整体协同性较差、统一管理调度效率低等问题,导致智算设施使用率不高。据公开数据统计,传统模式下的智算中心GPU利用率平均数值低于30%,#(一)服务架构应用生态企业政府个人产品生态设备软件设施技术生态操作系统中间件芯片山面向城市智能应用面向科学智能应用AI赋能多元需求按需配置弹性供应资源调度策略服务组合策略配额策略共享超分个性化定制……负载均衡算法模型服务唱算力管理大模型大模型大模型视觉模型学习模型算力调度软件定义容器管理算力调度软件定义容器管理集群管理个硬件重构个标准化接入个高性能网络多元计算资源图高性能存储食AI工程化能力机器学习平台要交换机要图2公共智算服务架构服务供给多元化服务供给多元化服务调度智能化服务资源构件化ML面向行业智能应用按量收费资源使用量访问次数调用次数……品数据资源共享开放数据查询访问服务数据调用API食主题式数据服务三大数据平台数据资产管理数据分析数据标注数据采集数据存储数据建模数据集成数据清洗公共智算服务的服务架构如图2所示。为全面赋能城市智能、科学智能、行业智能等各领域多元化的场景应用,公共智算服务需要面向应用需求整合技术生态、产品生态、应用生态资源,通过服务资源构件化、服务调度智能化和服务供1.服务资源构件化人工智能2.0时代,人工智能应用的普及要求人工智能算法开发和模型训练从专业化、高门槛向泛在化、易用型转变。为满足这一要求,需要通过软件定义服务的方式,将算力、算法模型和数据等智算服务资源封装成标准化、可调度、易组合的中间件产品和服务,即“构件化”。通过可视化操作界面,以低代码开发甚至无代码开发的模式,为用户提供功能丰富、使用便捷的人工智能算力调度、算法模型供给和数据集服务,降低Al工程化的门槛。2.服务调度智能化通过智能化的服务调度,能够按需向用户提供构件化的智算服务资源。服务调度智能化主要表现在三个方面:一是支持按需配置,根据不同的场景,配置调度符合用户实际需求的服务资源类型以及资源量;二是支持弹性供应,提供弹性可伸缩的服务资源以满足迭代需求,通过智能的调度策略使得供应的服务资源与实际需要的服务资源动态匹配,提升运维效率;三是支持按量收费,根据实际调度的资源量向用户收取费用,并3.服务供给多元化人工智能2.0时代的用户需求是多样的。例如,部分具有较强研发能力的企业、高校、研究机构,在进行技术研发或者产品部署时,只需要高效、可靠、稳定的智能算力。而随着大模型应用需求的增加,越来越多的企业、机构开始自行研发大模型,不仅需要智能算力,还需要AI工程化能力以及预置的算法模型。因此,在面向最终用户时,公共智算服务需要以便捷的方式,提供多样化的资源选择,通过智能调度构件化的服务资源,提供单一种类或跨类组合的资源供给数据、算法和算力是人工智能的三大要素,在核心技术发展以及应用落地中起着至关重要的作用,三者互相作用形成对人工智能的正向推动力。面向人工智能发展需求,降低人工智能普及应用的门槛,公共智算服务也需要提供相应的算1.算力资源服务算力资源服务是公共智算服务提供的基础性服务内容,主要指面向人工智能2.0时代模型驱动的应用需求,通过多元计算、高性能网络、高性能存储和算力优化调度,屏蔽底层硬件异构基础设施差异,以云服务方式,按需为用户提供的大规模、高并行、高吞吐的弹性计算服务。算力资源服务示例见表4。人工智能2.0时代的公共智算服务发展指南内容/能力多元计算服务的特点,支持随机读写,满足大部分通用业务场景下的数据高性能通信框架层深度业务优化,结合弹性、调度、加速原子能力提升计算效能。基于云原生技术体系,实现异构算力资源池实时监控并管理AI训练性能和故障,提供面向AI集群训练场景物理异构硬件、池化算力资源、调度使用效率的全流程监控和分析。关心运行过程中的容量规划,只需要提供打包好的Docker镜像,即可使用云服算法模型服务是人工智能2.0时代公共智算服务的重要拓展,也是公共智算服务降低人工智能应用门槛的重要方式。算法模型服务主要包括两类,一是基于公共云,通过API、模块化代码等方式,向用户提供基础、通用的算法模型,用户可在此基础上进行技术升级和产品迭代,开发出适用于各种场景的专属算法模型。二是提供一站式算法模型开发工具,即面向算法模型开发部署全生命周期,支持不同的Al开发框架,提供模型开发、模型存储/检索、模型调优/训练、模型推理、模型部署服务,同时面向希望进行定制开发的用户,提供模型定制服务。算法模型服务示例见表5。3.数据资源服务数据资源是人工智能应用的基石,人工智能算法模型从技术理论、开发迭代到应用落地的全过程皆依赖海量的数据资源,数据质量和数量决定了人工智能算法模型的效果和性能。公共智算服务提供数据服务主要采用两种方式,一是提供数据资源供给开放生态。通过打造开放的数据共享平台,推动各行业领域多种模态的数据集的汇聚,为用户提供免费的或增值的数据服务。二是提供数据资源治理全流程工具。面向AI算法模型训练对海量数据的需求,提供数据采集、清洗、易共享、易使用,降低数据资源利用的技术门槛。数据资源服务示例见表6。表5算法模型服务示例内容/能力提供覆盖机器学习、深度学习、大数据等领域的算法,供用户调用。提供通用的Al算法更新迭代工具,降低用户生成专属算法的技术门槛。提供模型开发所需的可视化、交互式的建模工具和开发环境,帮助用户便捷开发。为模型的快速查找、样例演示、共享和存储提供便提供模型训练工具及环境,支持分布式训练、单机训练。支持云端、本地、设备端等多种部署方式,打开网页即可开发模型。模型调用提供灵活、易用的算法模型API接口与SDK,具备自适应推理优化、基于性伸缩能力,使得开发者可以快速实现模型的调用和二次开表6数据资源服务示例内容/能力提供在线数据仓库服务,实现经济且高效地分析处理海量数据。提供智能代码开发、多引擎混编工作流、规范化任务发布等能力。从数仓规划、数据标准、维度建模、数据指标等方面,以业务视角对数据进行诠释。提供容灾、备份、恢复、监控、迁移等方面的全套解决方案,支持MySQL、SQLServer、PostgreSQL和OSQL多种存储引擎。公共智算服务致力于构建开放兼容、多元协作、互利共赢的服务生态,是有为政府和有效市场共同政府、各类科研机构和企业。如科研机构和企业可根据自身情况,完全依托公共智算服务部署应地方政府也可借助公共智算服务对政务云资源进行升级扩容。由于公共智算服务具有一定的营利性且存在巨大市场,能够吸引众多企业和社会组织积极参与。由于提供智算服务需要较高的初始投入、技术能力和组织管理能力,围绕公共智算服务供给,并提供运营方案的策划。投资方可以是地方政府、科研机构、企业,或三者的任意组合。一般而言,企业投资者更加注重投资带来的经济效益,地方在实际运作中,可以根据需要设立独立的建设方和运营方,也可以合并组建建设运营方。技术服成服务或专业的技术服务、资源服务、生态运营等服务,参与公共智算服务体系的构建。生态伙伴可以从技术、产品、应用、产业等层面,提供政府侧主要通过从规划布局、投资建设、激充分调动社会力量参与,加快构建政府和市场互避免重复投资造成资源浪费,使得智算服务能够恰当、高效地以合理的规模和速度与人工智能产在实际的运作过程中,一般会采用项目化或公司化的运作方式,由投资方首先选择具备相应资质和能力的建设运营方作为其代表,细化建设运营方案,采购服务集成商、技术服务商、资源服务商和生态运营商等服务,进一步整合技术服务方和生态伙伴的资源,组建专业化的建设运营技术团队,围绕公共智算服务的定位、目标、用户需求,整合资源开展专业化的建设运营,为用人工智能2.0时代的公共智算服务发展指南(一)需求导向,强化产业赋能应用推动公共智算服务高质量发展的关键在于“应用”,围绕Al产业化和产业Al化发展需求,通过好用、易用的服务更好赋能经济社会数字化我国人工智能产业发展前景好、市场规模大、应用场景丰富的优势,加快打造一批公共智算服务赋能的人工智能应用典型案例,通过示范带动,强化普适普惠的公共智算服务对城市智能、科学智能和行业智能发展的应用赋能,推进基于公共智算服务的人工智能产业发展新业务、新模式、人工智能应用需求,提供更加多元灵活的公共智算服务,结合通用人工智能大模型发展趋势,提升计算资源的多元融合、集群调度和精细化管理能力,增强模型生态和模型开发工程化支持能力,拓展数据开放共享和全流程治理工具支持,提高按任务匹配资源的能力,让用户能够结合自身需要,以更低成本更加方便地自由选择服务。(二)适度超前,优化部署智算设施随着人工智能大模型和通用人工智能的快速发展,未来80%的场景都将基于人工智能开展,所需的算力资源将主要由智能算力提供,智能算力紧缺将是未来一段时间内我国算力供需方面存在的突出矛盾。对此,《算力基础设施高质量发展行动计划》提出要推动算力结构多元配置,集约化开展智算中心建设,到2025年,智能算力占比达到35%。公共智算服务所需的智能算力资源将主要源于智算中心,为此,必须结合人工智能产业发展形势和应用普及需求,适度超前、科学谋划智算中心的发展布局,按照国家算力基础设施高质量发展总体要求,以集约、高效、绿色的方式推进智算中心建设,通过科学布局、算网融合、智能调度,更多地以公共性服务的方式,(三)技术先进,提高软硬协同能力技术的先进性是保证公共智算服务高质量供给的先决条件,公共智算服务性能的提升、资源配置效率的提高、用户服务体验的提升都离不开技术创新的推动。面向模型驱动的人工智能应用普及需求,在提供公共智算服务时应重点关注提升几个方面的软硬协同能力。一是强化多元算力的融合供给,加强底层异构Al芯片的统一纳管和调度,推动跨集群异构算力的协同调度,实现二是强化全生命周期的算法模型服务支持,提供从数据处理、模型训练、服务部署到智能应用的一站式服务,支持模型一键调用。三是强化数据共享和治理服务,通过打造开放的数据共享平台、提供数据资源治理全流程工具等,加强对海绿色低碳等方面的要求,加强相关技术的研发和(四)强化运营,培育长效服务生态智算资源不仅要“建好”,更要“用好”,为此要告别“只建不管”的粗放式发展模式,树立长效运营理念,强化服务生态培育,实现公共智终为始,前瞻做好多主体协同的建设运营方案设计,在公司化或项目化运作的过程中,组建形成分工合理、权责明晰的专业化运营团队,协调好投资方、建设方、运营方、技术服务方、生态伙伴的关系,平衡好各方利益,保障各方优势得到充分发挥。二是要强化市场主导、政府引导,加通过不断扩大用户基数,持续提高公共智算资源的利用率,以规模效应不断释放让利空间、降低使用成本,形成合理、可盈利的商业模式,促进(五)以评促建,提升智算服务水平评价引导是提升公共智算服务水平的有效方式,为此需要加快研究制定面向人工智能2.0时代的公共智算服务评价指标体系。结合公共智算生态建设、用户体验等几个方面综合开展评价。资源供给方面,可重点关注公共智算服务可提供的服务资源种类、规模等,如算力资源的规模、算法模型的种类和数量、可共享数据集的种类和数量等。平台服务方面,可重点关注公共智算服务平台在服务资源构件化和服务调度智能化的能力,如多元异构芯片管理、集群算力调度、算法模型和数据治理工具支持等。场景赋能方面,可重点关注模型驱动的公共智算服务能够支持的应用场景数量和使用效果。生态建设方面,可重点考虑模型开源生态和数据供给生态的繁荣程度,如模型开发者、数据供给方的数量等。用户体验方面,可重点关注用户对公共智算服务的满意度人工智能2.0时代的公共智算服务发展指南(一)面向城市智能应用的公共智算服务1.北京市:统筹布局突破算力制约目前,北京市人工智能核心企业数量已超过 1800家,占全国总数近三成,居全国首位,其中大模型企业百余家,占全国总数的一半左右,但北京市此前的人工智能算力设施多为科研机构或企业自用,没有余力向市场提供大规模算力服务。策源地实施方案(2023-2025年)》提出到2025年“人工智能核心产业规模达到3000亿元”“辐射产业规模超过1万亿元”,为支持人工智能产业高速发展,北京市亟需加强智能算力供给。(1)政策引导加强算力资源统筹供给能力2023年5月23日,北京市发布《北京市促进通用人工智能创新发展的若干措施》(京政办发〔2023〕15号),提出“提升算力资源统筹供与云厂商加强合作,提供多元化优质普惠算力;二是通过加快北京人工智能公共算力中心、北京数字经济算力中心等项目建设,形成规模化先进算力的供给能力;三是建设多云算力调度平台,实现异构算力环境统一管理、统一运营,并进一步通过优化北京市与环京区域算力集群之间的直连基础光传输网络,提高环京地区算力一体化调(2)建设北京市人工智能公共算力平台提供北京市采用市区两级共建的方式,布局启动了“北京市人工智能公共算力平台”建设,由北京电信和京能集团共同承建,预计2024年一季度建成总计4000P公共算力,建成后市区两级将基于平台强化算力资源统筹,为中小企业、科研机构等各类创新主体,提供高质量、普惠、开放(3)打造算力调度服务平台提升一体化调度能力北京市经开区正在建设国内首个超大规模、多源异构、多算一体、安全可信、生态融合的算力调度服务平台。该平台由北京亦庄智能城腾讯等11家算力伙伴参与,聚焦多云跨域管理、算力异构调度、智能资源交易、产业生态构建,支持通用算力、超算、智算等异构算力的统一接算力调度服务平台已完成关键技术验证工作,成功实现多源异构算力调度、多云异构算力纳管、算力统一编排调度和算力产品服务交易等功能,完成大模型、生物医药、科学计算等场景应用的实例验证。未来计划开展通算、智算、超算等累计9000P以上算力资源的统筹调度。(4)发放人工智能算力券降低企业使用成本北京市经济和信息化局日前印发了《人工智能算力券实施方案(2023—2025年)》,根据《方案》,凡符合条件的企业,2023年9月1日及以后签订的智能算力服务合同(合同周期为一年及以内),均可享受智能算力合同额一定比例的算力券补贴。企业凭已签订的算力服务合同向市经济和信息化局申领算力券;完成与智能算力供给方的结算后,凭发票和智能算力交付凭证向市经济和信息化局申请兑付算力券。启用算力券旨在解决中小微企业资金实力不足、技术人才欠缺、算力匹配难应用少等痛点问题,加速推动其数字2.杭州市:抓住MaaS模式变革机遇打造政府办公厅关于加快推进人工智能产业创新发展的实施意见》(以下简称《意见》)(杭政办函〔2023〕55号)提出,杭州作为国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,要以促进人工智能与实体经济深度融合为主线,以优质算力普惠供给为基础,以模型即服务(MaaS)模式变革为关键,形成“高算力+强算法+大数据”的产业生态,实现大算力孵化大模型、大模型带动大产业、大产业促进大发展的良性循环,打造成为全国算力成本洼地、模型输出源地、数据共享高地。根据规划,到2025年杭州可开放算力规模将达5000PFLOPSFP16)以上。(1)规划布局打造多元融合算力支撑体系《意见》提出打造多元融合算力支撑体系,主要做法包括:统筹通用算力、智能算力和边缘力+算法”服务能力;搭建市级多云算力调度平台,形成异构融合、算网协同、绿色低碳的算力支撑体系;构建跨区域算力协同体系,推进优质算力服务覆盖浙江省、长三角区域、华东地区,(2)多措并举强化算力普惠供给保障企业应用《意见》中明确表示强化普惠算力供给,推一是鼓励企业、高校院所和第三方机构建设符合导向需求的算力中心,积极创建国家公共算力开放平台,降低中小企业算力使用门槛。二是实施算力伙伴合作计划,遴选一批设备性能先进、技术安全可控、能耗绿色低碳、价格优惠合理的算力中心作为市级算力伙伴,统一技术需求、服务标准、优惠策略等。三是推进算力供给市政化,(3)打造智能计算产业集群助力生态发展近年来,杭州大力推进智能计算产业发展,智能计算被明确为杭州未来主攻的“制造业九大标志性产业链”之一,已经形成了良好的产业发展环境,集聚了阿里云、新华三、安恒信息等一批龙头企业,打造了人工智能小镇、中国(杭州)算力小镇、之江实验室、杭州人工智能计算中心(二)面向科学智能应用的公共智算服务3.复旦大学智算平台(CFFF):国内高校科学智能(AlforScience)新范研发展的同时,也带来了更多的科研智算资源需求。为提供更强大、更灵活、更低成本、更绿色的智能计算服务,复旦大学CFFF(ComputingfortheFutureatFudan)智算平台在2023年6月27日正式上线。CFFF平台由复旦大学、阿里云、中国电信等共同打造,是国内高校最大的云上科研智算平台,也是国内高校首个AI与大数据融合、智能计算与通用计算融合的异构智能计算集群,支持异构算力的统一管理和计算任务的统一调度,满足不同应用场景科学智能的研究和人工智能2.0时代的公共智算服务发展指南目前CFFF平台已为复旦校内多学院、多学科的多个科研项目提供安全、稳定、高效的普惠服务,在提供大算力的同时能弹性应对需求的爆发性增长,提升模型迭代效率。未来,CFFF平台还将持续稳定、安全地扩大其算力规模,并向复旦校外的科研机构、高校、医院、高科技企业CFFF智算平台由面向多学科融合创新的AlforScience智能计算集群“切问”一号和面向高精尖研究的专用高性能计算集群“近思”一号两部分组成,其中“近思”一号部署在复旦大学江湾校区,“切问”一号托管在1500公里外的阿里云乌兰察布数据中心,通过高速光纤环网连接实现异地算力间的无缝平滑调度,形成了国内高校规模最大的异构智能计算集群,算力总规模达到28PFlops,可提供超千卡并行智能计算,千卡并行的有效算力达92%,万卡并行有效算力达90%,可有效持千亿参数的大模型训练。以复旦大学人工智能创新与产业研究院发布的45亿参数量的中短期天气预报大模型为例,应用CFFF提供的千卡并行智算支持,完成大模型训练可以缩短到一天,预测效果在公开数据集上首次达到业界公认的ECMWF(欧洲中期天气预报中心)集合平均水平,并将模型训练速度缩短到1天,预测速度从原来的小时级缩短到了3秒内,为更多科学大模型落地提供了支持。CFFF还拥有国内高校最大规模的多级数据冷热分层存储集群,解决了海量科研数据无法长期备份的痛点,支持云上高速传输,能提供稳定安全的服务能力。以往PB级科研数据从复旦校内传到西部数据中心需要两周,如今当天就能完成,真正实现了“东数西算”。(2)公共云模式有效降低成本提供普惠算力智能计算相较通用计算,投入成本、技术门槛更高,成本是通用算力的10倍以上,非公共云的模式变得不可持续。CFFF平台提供了一个新兴的科研超算架构和长效运营机制,极大提升了科研效率、降低了科研成本,为高校创新发展提供了强劲动力。通过CFFF平台,各高校可以获得更强大、更灵活、更低成本、更绿色的智能计算服务,加速科学原理发现和技术突破,并有力推动科学大模型的落地。此外,CFFF平台在通过持续扩大其算力规模,并向复旦校外的科研也将为科研科学智能应用提供更多普惠算力。目前CFFF平台将为面向全球科研人员的首届世界科学智能大赛参赛队伍提供免费训练算力,并以(3)绿色低碳技术助力节能降碳绿色发展云计算是数字经济发展的重要基础设施,在Al革命提速的今天,让算力更加高效低碳变得尤为重要。CFFF平台利用绿色低碳

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论