英特尔+电信运营商AI实践手册_第1页
英特尔+电信运营商AI实践手册_第2页
英特尔+电信运营商AI实践手册_第3页
英特尔+电信运营商AI实践手册_第4页
英特尔+电信运营商AI实践手册_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

英特尔电信运营商AI

实践手册#

云同行

AI

加速12目录05

人工智能市场支出指南12

部署

AI时应考量的因素CONTENTS基于英特尔®架构的

AI基石18•

第四代英特尔®至强®可扩展平台•

Gaudi2在中国市场隆重推出•

经英特尔优化的开源

AI框架和工具•

基于第四代英特尔®至强®可扩展处理器的

AI调优指南•

广泛的英特尔

AI产品组合和合作伙伴扩展

AI产品阵容以满足中国市场的需求543AI

的爆炸式增长1e+091e+081e+071e+06训练算力(PFLOPs)1e+051e+041e+031e+0220122013201420152016201720182019202020212022资料来源:Moore,S.(2022),IEEESpectrum。4IDC预测,2023年全球在得益于人工智能与各种产品的融合,以人工智能为中心的系统的支出在

2026年预计将超过人工智能方面的支出将达到1,5403,000亿美元亿美元全球中国*

包括以人工智能为中心的系统的硬件、软件及服务*

包括以人工智能为中心的系统的硬件、软件及服务26.9%27.0%*

相比

2022年增长*2022-2026

年的复合增长率(CAGR)中国人工智能市场支出预测,2021-2026IDC预计,2026年中国

AI市场市场规模将实现30,00030.0%20.0%10.0%0.0%264.425,00020,00015,00010,0005,0000亿美元人工智能市场支出指南2021-2026五年复合增长率(CAGR)将超过20%2021

2022

2023

2024

2025

2026中国人工智能市场支出

YoY来源:IDC

中国,2023如欲了解更多详情请访问:/getdoc.jsp?containerId=prUS50454123/getdoc.jsp?containerId=prCHC505398235人工智能主要应用行业及场景全球中国Top

IndustryBasedon2023MarketShare(Value(Constant))中国人工智能市场支出预测(行业),2026广告营销搜索推荐13.4%29.3%12.8%46.7%47.0%公共安全城市管理社会服务10.4%8.9%9.5%7.1%7.8%7.0%BankingRetailProfessional

ServicesOthersDiscrete

ManufacturingProcess

ManufacturingSource:

IDC

Worldwide

Artificial

lntelligence

Spending

Guide-

Forecast

2023|

Feb

(V1

2023)风险管理欺诈检测投资分析专业服务地方政府银行通讯其他增强的智能客服销售流程推荐和增强项目顾问和推荐系统来源:IDC

中国,2023Top

3行业

AI应用场景如欲了解更多详情请访问:/getdoc.jsp?containerId=prUS50454123/getdoc.jsp?containerId=prCHC505398236库存管理语音助手数字助理视频会议推荐系统数据加密降噪面部识别智能门铃购买建议代码生成机器人视觉AI正在颠覆我们的日常生活自动驾驶汽车个性化学习基于

AI的渲染7赋能重要的技术转型个人计算云计算边缘计算网络工作效率信息获取连接能力可扩展性和灵活性加快上市速度节省成本提升性能实时数据分析提高效率提升运维效率实现降耗增效8人工智能正在变革电信行业发挥资源优势

构建智能算网•

加速云网融合与算力网络建设:简化网络规划和运营,从云到边缘加速塑造新型网络基础设施,满足增长的算力需求;•

提升运营效益:在算力网络运营全周期发挥关键作用,驱动网络持续变革,协同新技术提升算力网络智能化水平,全面提升安全与服务质量;•

推动产业数智转型:提供

AIaaS

平台,开发行业大模型,提供智能化方案,驱动

AI

产业发展和多场景智能化;•

释放综合优势,打造智能算力:充分发挥超大规模数据、算网资源以及大模型等核心算法优势,加速实施云改数转战略,推动网络

+

AI

技术融合创新,以

AI

为核心打造智能算力网络。9电信运营商

AI

应用核心场景智能运维•

实现网络自治,提升网络运维效率“加快建设信息网络基础设施。建设高速泛在、天地一体、云网融合、智能敏捷、绿色低碳、安全可控的智能化综合性数字信息智慧节能•

开发网络降耗技术,推进自智节能基础设施”1智慧运营•

打造智慧运营大脑,提升服务水平/xtt/202110/t20211019_150923.shtml10AI

关键用例生成式

AI

与万物数字化息息相关,其描述了用于创建新数据的算法,这些数据类似于人类生成的内容,包括音频、代码、图像、文本、模拟和视频。这项技术通过现有内容和数据进行训练,为自然语言处理、计算机视觉、元数据和语音合成等应用创造了潜力。英特尔独特的生成式

AI

解决方案(DemocratizedAI

and

an

Open

Ecosystem),可以满足当今和未来的计算需求:•

英特尔致力于

AI

普适化,结合硬件方面的独特优势,支持开放的生态系统,面向未来进行正确的投资,以满足全方位

AI

的计算需求,包括生成式

AI;•

英特尔采用开放、经济、可扩展的方法,可将

AI扩展到任何地方—从云端到边缘—使企业能够将数据转化为价值;•

英特尔的领先产品把

AI

性能提升到新高度。通过结合至强®

处理器和

Gaudi2

的互补优势,英特尔能够提供一系列丰富且新兴的

AI

和深度学习功能,助力客户把握

AI

带来的新机遇,进而将生产力和效率提升至新高度;如今,ChatGPT(一种针对人类对话而优化的

GPT-3/4大型语言模型的变体)让普通人不仅了解了生成式

AI

的强大力量,也了解了企业可以从大型语言模型(LLM)中获得的潜在投资回报

。生成式

AI(Generative

AI)生成式

AI

推动着前所未有的计算需求,企业现在比以往任何时候都更需要一个全面的AI

战略,该战略必须针对性能、生产力和能效进行独特设计,以满足包含生成式AI

在内的新的计算需求。•

英特尔致力于培育开放的生态系统,建立信任、提供选择并确保互操作性,以满足性能、生产力和能效需求;•

英特尔提供多样的硬件组合,可将各种

AI

负载的推理和训练性能提升至新的水平,以满足对速度的需求。11按业务需求选择合适的

AI

方法时,应考量哪些因素?业务用例数据特点人工智能类型机器学习人工智能算法类别回归发现变量间的关系结构化数据,批量分析预测分类型分类标签或进行数据分类结构化数据,批量分析结构化数据,批量分析机器学习机器学习分类聚类揭示变量间具有意义的关系非结构化视觉数据

(视频、MRI扫描片等

),批量或实时分析,小型数据集进行图像分类,在图像中找到识别对象井进行分类深度学习

:图像识别、对象检测卷积神经网络

(CNN)非结构化文本

(电子邮件、Office文档、社交媒体帖文等

),非机构化音频

/

视频内容,批量或实时分析深度学习

:自然语言处理

(NLP),语言翻译,语音识别长短时记忆

(LSTM),递归神经网络

(RNN)从文本中提取内容和意义部署

AI

时应考量的因素将文本

/

文字转为语音非结构化文本,实时分析深度学习

:文字转语音深度学习

:推荐引擎生成对抗网络

(GAN)多层感知器

(MLP)结构化客户数据,非结构化文本,实时分析推荐广告、搜索、应用等非结构化图像和视频,实时分析生成像训练数据的图像从对行为的反馈中学习深度学习

:数据生成深度学习

:强化学习GAN

结合

CNN结构化及非结构化数据,批量或实时分析CNN或

CNN+RNN12借助英特尔®

技术提升洞察质量驱动关键业务产出70%的数据中心AI

推理任务84%在英特尔®

至强®可扩展处理器上运行•

从云端、网络、边缘,到终端设备,更广泛的应用场景意味着

AI

的部署环境正变得更为复杂且多元化;认为他们需要借助AI

来获得成功的高管•

在异构平台上运行全栈软件,需要用户基于不同的硬件基础设施来设计高效稳定的开发和部署方案,且需要根据业务场景、软件框架的不同来实施复杂的调优过程。90%(

2025

)对于力求在整个企业业务层面扩展

AI应用的企业来说,降低复杂性是关键所在。的企业应用将使用嵌入式AI如欲了解更多详情请访问:/content/www/cn/zh/artificial-intelligence/resources/advance-insights-with-ai-brief.html13部署

AI

需要异构芯片数据模型部署深度学习训练输AI

助力实现出色的业务成果预处理数据管理入数据推理经典机器学习通用计算加速计算资料来源:英特尔预测结果基于分析师数据和内部分析得出14通用计算服务于端到端

AI

管线开放软件环境实时,中等吞吐量,低时延和稀疏推理中小型训练和微调终端侧推理通用计算边缘侧

AI

推理15在基于

CPU

的基础设施上运行

AI

工作负载部署

AI时需要考量的基础设施因素灵活性效率可扩展性在漫长的

AI

开发流程中,对计算资源的要求各不相同基于英特尔®

技术的现有基础设施可以支持多种

AI

用例和工作负载使用大数据样本的模型推荐引擎经典机器学习循环神经网络语音识别其他实时推理空闲时段训练任何用途图像识别、语音识别、自然语言处理推荐广告、搜索、应用等医学影像、地震勘探、3D

环境用途类别从数据获取洞察多层感知器(MLP)回归、分类、集群等循环神经网络(RNN)卷积神经网络(CNN)多种类别任何类别将速度更快的内核用于大型数据集和难以并行运行的算法实时推理。将速度更快的内核用于顺序、难以并行处理的数据训练和推理。将更大的内存用于嵌入层将速度更快的内核用于难以井行处理的小批数据CPU的优势训练和推理。需要更大的内存数据中心容量16人工智能(AI)、机器学习(ML)和深度学习工作负载,如图像分类、自然语言处理(NLP)、目标检测和视频分析,正在推动各行各业拥有更快和更好的洞察力。然而,不合格的硬件和未经优化的

AI训练和推理解决方案阻碍了它们的进一步发展。第四代英特尔®至强®可扩展处理器内置

AI加速英特尔携手生态系统合作伙伴,共推

AI的繁荣演进纵观市场上所有的

CPU,第四代英特尔®

至强®

可扩展处理器内置众多加速器,可为

AI工作负载提供性能和能效优势,并可凭借全新的英特尔®

高级矩阵扩展(英特尔®

AMX)提供卓越的

AI训练和推理性能。英特尔数千名软件工程师正在整个AI

生态系统中贡献着自己的一份力量加速

AI

的发展。例如,NumPy、TensorFlow、PyTorch、Scikit-learn、XGBoost

的主流开源版本均已面向英特尔®架构进行了优化。英特尔提供了许多工具来加速

AI

发展,如用于推理模型优化的

OpenVINOTM

工具套件;用于

Apache

Spark

上的分布式深度学习的

BigDL;以及用于在任意基础设施上协调机器学习管道的

cnvrg.io

MLOps

平台。高达

5.7

倍至

10倍PyTorch

实时推理性能提升高达

3.5倍至

10倍第四代英特尔®

至强®

可扩展处理器,结合软件优化和生态系统合作,正在帮助人工智能开发者实现其生产力目标,并从人工智能中更快地获得商业价值。PyTorch

训练性能提升启用内置英特尔

®

AMX

(BF16)

的第四代英特尔

®

至强

®可扩展处理器

vs

上一代产品(FP32)如欲了解更多详情请访问:/content/www/cn/zh/customer-spotlight/cases/accelerate-ai-workload-with-amx.html17加速

AI落地200+一站式

AI方案可选IntelSolutionsMarketplace解决方案工具助力应用快速落地加速

AI应用构建150+容器镜像帮助用户快速构建端到端

AI数据应用Scikit-LearnPandasNumPy/SciPyXGBoost&More加速

AI性能在

20+典型

AI负载下CPUGPU内存FPGAASIC技术提供卓越性能表现存储连接基于英特尔®架构的

AI

基石多功能的人工智能基础设施AI,科学计算,媒体与图像边缘深度学习推理数据中心深度学习训练(Gaudi)面向更广泛工作负载AI专用CPUGPU专用18可运行各种

AI

代码,各类工作负载英特尔®

AI

平台面向数据中心的多样化经过英特尔优化的广泛的英特尔

AI产品英特尔

AI硬件组合开源

AI框架和工具组合和合作伙伴强大硬件组合,全面优化

AI加速开发者构建和部署通过丰富的软硬件组合工作负载,满足多样化算力需求AI应用的旅程加速

AI方案部署时间19端到端人工智能流水线的挑战数据模型部署DataDataDataFeatureModelCollectionValidationPreparationCreationOptimizationDataIngestionDataLabellingDataTransformationModelSelectionModelEvaluationModelPackagingPerformanceMonitoringDataDataModelModelEndpointModelAnalysisCleanupTrainingValidationConfigServing53%只有的

AI

项目能够从原型到生产

(Gartner)21基于英特尔对截至

2021年

12月,运行

AI推理工作负载的全球数据中心服务器装机量的市场建模数据来源

:/article/3639028/why-ai-investments-fail-to-deliver.html220端到端人工智能流水线的挑战数据模型部署经典机器学习FeatureDataDataDataModelCollectionValidationPreparationCrea以ti几o

n十年的行业投资,基于英特尔®至强®

处理器优化和运行机器学习代码OptimizationDataIngestionDataLabellingDataTransformationModelSelectionModelEvaluationModelPackagingPerformanceMonitoring深度学习70%数据准备基于英特尔D®至at强a

®处理器Cleanup的数据中心推理运行于内置

AI加速器的第四代1英特尔

至强

处理器®®DataAnalysisModelModelValidationEndpointConfigModel英特尔®至强®可扩展处理器运行TrainingServing小/中型模型和迁移学习/调优53%只有的

AI

项目能够从原型到生产

(Gartner)21基于英特尔对截至

2021年

12月,运行

AI推理工作负载的全球数据中心服务器装机量的市场建模数据来源

:/article/3639028/why-ai-investments-fail-to-deliver.html221AI

需要一个均衡的服务器平台深度学习和

GNN训练深度学习推理机器学习推荐系统NLPt-SNESystolicFLOPsSystolicFLOPsSystolicFLOPsComputein

NetworkNetworkBandwidthNetworkLatencyMemoryCapacityscalarmemoryaccessesscalarmemoryaccessesMemoryBandwidthMemoryCapacityMemoryCapacitycoalescedmemoryaccessesscalarmemorycoalescedmemoryaccessesMemoryBandwidthaccessescoalescedmemoryaccessesMemoryBandwidthDense

partSparse

partGNNCNNkmeansSystolicFLOPsSystolicFLOPsSystolicFLOPsComputein

NetworkNetworkBandwidthNetworkLatencyMemoryCapacityscalarmemoryaccessesMemoryCapacityscalarmemoryaccessesMemoryCapacityMemoryBandwidthcoalescedmemoryaccessesMemoryBandwidthcoalescedmemoryaccessescoalescedmemoryaccessesMemoryBandwidthscalarmemoryaccesses22第四代英特尔®

至强®

可扩展处理器3-10x

7.7x英特尔®AI软件300+50+效率提升性能提升/瓦1深度学习模型经过优化的机器学习和图模型采用内置

AI加速器的

INT8/BF16模型Optimizationsup-streamed英特尔®AI开发者工具内置英特尔®

AMX

的第四代英特尔®

至强®

可扩展处理器

vs.第三代英特尔®

至强®

可扩展处理器2xoneAPIAI生态系统PCIExpress5.0相较于第三代英特尔®至强®使用主流的

DL、ML

和数据处理库和框架、操作系统和虚拟机管理器可扩展处理器1.5x最高

512GB/路受保护的内存

“飞地”-英特尔®SGXDDR5内存带宽和容量相较于第三代英特尔®至强®可扩展处理器由

BigDL

OpenVINOTM

工具套件支持的机密

AI计算1详情请见以下网址的

[A16,A17,A33]at/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/23第四代英特尔®

至强®

可扩展处理器内置七大加速器英特尔®高级矩阵扩展(英特尔®AMX)英特尔®存内分析加速器(英特尔®IAA)加速深度学习推理与训练优化内存占用和查询吞吐量英特尔®动态负载均衡器(英特尔®DLB)英特尔®数据保护与压缩加速技术(英特尔®QAT

)提升与网络处理相关的性能加速加密与压缩操作英特尔®数据流加速器英特尔®安全技术(英特尔®Security)帮助保护数据机密性与代码完整性英特尔®至强®CPUMax系列集成高内存带宽,为科学计算与AI工作负载大幅提升数据吞吐量(英特尔®DSA)优化数据流的传输和转换24英特尔®

加速引擎的优势性能更强大的服务器架构英特尔®

高级矩阵扩展(英特尔®

AMX)英特尔®动态负载均衡器(英特尔®

DLB)英特尔®

数据流加速器(英特尔®

DSA)英特尔®存内分析加速器(英特尔®

IAA)英特尔®

数据保护与压缩加速技术(英特尔®

QAT)高达高达高达高达高达8.6

96%

1.7

2.1

84%倍倍倍语音识别推理性能提升时延降幅SPDK-NVMeIOPS提升RocksDB性能提升内核用量减幅这是启用内置

AMX(BF16)时与上一代产品

(FP32)的比较结果这是在相同的吞吐量下,启用英特尔®DLB与使用软件处理

Istio-Envoy入口网关连接请求的比较结果这是启用内置的英特尔®DSA与使用

ISA-L软件的比较结果这是启用英特尔®IAA与使用

Ztsd软件的比较结果这是启用内置的英特尔®QAT与使用开箱即用的软件在

NGINX上实现相同的每秒连接次数时内核用量的比较结果加速器带来超越基础架构的阶梯式性能提升详情请见以下网址的

[A26,W6,N18,D1,N15]:

/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/结果可能不同。25一款处理器同时适用于标量、矢量和矩阵英特尔®AVX

-512英特尔®AVX

-512

(VNNI)英特尔®AMX852562,048int8

ops/cycle/core

with

2

FMAint8

ops/cycle/core

with

2

FMAsint8

ops/cycle/coreMulti-fold

MACs

in

one

instruction8-bit8-bit8-bit8-bit32-bit8-bit8-bit32-bitinputinputinputinputacc

inputinputinputacc

input时钟周期

1vpmaddubswvpdpbusd8-bitnewinstructiontdpbusd8-bitnewinstruction16-bit16-bit32-bit32-bitOutputconstantacc

outputacc

output时钟周期

2时钟周期

3vpmaddwd32-bit16-bitacc

outputconstantvpaddd32-bitacc

output26英特尔®

高级矩阵扩展(英特尔®

AMX)"Tiles""TMUL"性能增益(与上一代产品相比)性能增益(与上一代产品相比)2D

寄存器文件平铺矩阵乘法语音识别推理PyTorch

训练和推理每核可存储更大的数据块可在单次运算中计算更大矩阵的指令高达高达8.6

10倍倍功能•

提供广泛的软硬件优化,使

AI加速能力获得提升语音识别推理性能提升PyTorch

实时推理与训练性能提升商业价值•

AI/

深度学习推理和训练工作负载带来显著性能提升•

通过硬件加速使常见应用更快交付这是启用内置的英特尔®AMX(BF16)时与上一代产品

(FP32)的比较结果这是启用内置的英特尔®AMX(BF16)时与上一代产品

(FP32)的比较结果软件支持•

市场上的主流框架、工具套件和库(PyTorch、TensorFlow),英特尔®oneAPI深度神经网络库(英特尔®oneDNN)用例•

图像识别、推荐系统、机器

/

语言翻译、自然语言处理

(NLP)、媒体处理和分发详情请见以下网址的

[A26,A16]:

/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/结果可能不同。27英特尔®

AVX

-

512矢量神经网络指令

(VNNI)脑浮点数

(bfloat16)扩展英特尔®

AVX-

512

以加速

CPU

平台上的

AI/

深度学习推理示例:Number:

0.56580972671508789062596As

FP32:

0.56580972671508789062532Bits英特尔®AVX-512FP32BF16

FP32的简单转换Bfloat16

具有相同数量的指数位,因此可以表示和

FP32

一样大的数字,但由于其用于存储实际数字的位数较少,因此精度略低。bfloat16FP16FP16

可以提供比

bfloat16

更高的精度,但用于表示指数位的比特位较少,不能支持相同的数字范围。英特尔®VNNI16

Bits符号

-表示正数或负数指数

-表示小数点在分数/尾数中的位置分数/尾数

-用于存储“数字”的比特位数依据表示数字的比特位数,FP32可提供更高的精度与

FP32相比,使用

bfloat16可实现每周期两倍的吞吐量将三条指令合而为一,可最大限度地利用计算资源,提高缓存利用率,避免潜在的带宽瓶颈许多

AI功能并不需要FP32提供的精度水平从

FP32转换到

bfloat16

比转换到

FP16更简单bfloat16支持基于相同指数域的相同范围的数字,但精度略低28深度学习加速器经济高效地训练生成式

AI

和大语言模型开放式软件环境实时,中等吞吐量,低时延和稀疏推理中小型训练和微调终端侧推理通用计算边缘侧

AI

推理深度学习加速专用于深度学习训练和推理29Gaudi2在中国市场隆重推出724

96纳米个GB制程张量处理器核心HBM2e48

21MB个SRAM集成以太网端口专为训练大语言模型而构建30在

GPT-3

训练基准测试中实现接近线性的扩展性450311.9min/

使用

384

Gaudi240035095%加速器数量30025020015010050442.6

min/使用

256块

Gaudi2500400300200性能指标基于

MLPerfTraining3.0基准测试。配置详情请参见

MLPCommons发布的结果。结果可能不同。31Gaudi2深度学习软件和生态更快速、更轻松地开发全新模型框架适配层图编译器模型库客户算子库英特尔算子库开发者工具轻量级框架编排英特尔通信库用户模式驱动内核模式驱动32在随处构建和部署

AI

应用英特尔®

AI

平台面向数据中心的多样化经过英特尔优化的广泛的英特尔

AI产品英特尔

AI硬件组合开源

AI框架和工具组合和合作伙伴强大硬件组合,全面优化

AI加速开发者构建和部署通过丰富的软硬件组合工作负载,满足多样化算力需求AI应用的旅程加速

AI方案部署时间33英特尔®

AI

软件套件数据模型部署IntelDeveloperCatalogIntel®Dev.CloudCnvrg.ioMLOPsIntelAIKitBigDLSPARK端到端生产力英特尔工具和套件Early

accessPython55+pre-trainedmodelsNEWMetaCloudv2022.3XGBoostIntegrationv2.2v2022.3面向至强®

进行优化的框架1.5.10.17IntelExt3.2v1.4.3IntelExtv2023.0v2.11IPEX1.14英特尔®oneAPIoneDALV2022.6oneDNNoneCCLV2022.7oneMKL2022.2编程模型v2.7HypervisorsOS&

KernelKVM

5.17WinServer22Hyper-V

1H’22ESXi

/vSphere

8.0Ubuntu

22.04

SLES15

SP4Linux

5.16RedHat

8.6*VersionsidentifiedareminimumversionsthatsupportIntel®AMX34通用

AI

平台:更高的端到端机器学习性能基因组学研究和诊断:用

Scanpy对

130万小鼠脑细胞进行单细胞

RNA-SEQ

分析数据模型

/

部署GenesData

Pre-processingFilterDimensionality

ReductionVisualizationUMAPClusteringLouvainLeidenPCALinearRegressionNormalizeT-SNEGeneActivityMatrixK-means单细胞

RNA-SEQ

端到端运行时间(秒)测试配置:70x1xBDX:Test

by

Intelasof<11/25/22>.GCPn1-highmem-64instancebasedonIntelXeonprocessor(Broadwell),1socket,32cores,HTOn,64vCPUs,Turbo

On,Total

Memory416GB,bios:Google,ucode:0x1,Ubuntu22.04,5.15.0-1022-gcpspeedup越低越好第四代英特尔®至强®279sec可扩展处理器1xSPR:Test

by

Intelasof<11/25/22>.1-node,1xIntelXeonPlatinum8480+,56cores,HTOn,Turbo

On,Total

Memory250GB,0x2b000081,RedHatEnterpriseLinuxrelease8.6(Ootpa),Linux4.18.0-372.19.1.el8_6.x86_64BaselineScanpy:version1.8.1/scverse/scanpyOpenOmicsScanpy-basedsinglecellpipeline:/IntelLabs/Trans-Omics-Acceleration-Library/tree/master/applications/single_cell_pipeline,branch:master,commit:#8ae29eb202219,470sec英特尔®至强®可扩展处理器(代号

Broadwell)2016端到端运行时间(秒)35通用

AI

平台:更高的端到端深度学习性能DocumentLevel

SentimentAnalysis(DLSA)文档级别的情感分析LoadDeep

learningFINE-TUNINGmodelTokenization

andfeature

extraction迁移学习Load

datasetPRETRAINEDmodelDataset端到端推理管线LoadFINE-TUNEDmodelTokenization

andfeature

extractionDeep

learningINFERENCELoad

datasetTransformersIntel®NeuralCompressor36英特尔®

至强®

可扩展处理器全栈

AI

软件支持情况英特尔®扩展技术

/

工具英特尔®工具

/

套件类别软件产品是否开源优化已提交给上游英特尔®分发版编排Cnvrg.ioAI套件否是是是是否是是是是是是是是是是是封装的软件工具套件BigDLOpenVINOTM

工具套件NeuralCompressorSigOpt优化TensorFlowPyTorch深度学习框架ONNXPDPDMXNetXGBoostScikit-learnCatBoostLightGBMModin机器学习框架数据准备Spark37英特尔®

oneAPIAIAnalytics工具套件深度学习数据分析

&机器学习利用面向英特尔®架构优化的库加速端到端人工智能和数据分析管道面向英特尔®架构优化的加速数据库TensorFlow面向英特尔®架构优化的

ModinHEAVY.AI

Backend(formerlyOmniSci)显著优势面向英特尔®架构优化的PyTorch•

利用面向英特尔®

架构优化的深度学习框架和工具提升训练和推理性能•

使用计算密集型

Python

包为数据分析和机器学习工作流提供落地加速面向英特尔®架构优化的

Python英特尔®低精度优化工具(英特尔®LPOT)XGBoostScikit-learnSciPyDaal-4PyPandas面向英特尔®架构优化的ModelZooNumPy示例及端到端工作负载简化端到端性能加速工作流程CPUGPU支持的硬件架构硬件支持因个别工具而异。架构支持将随着时间的推移而扩大。提高生产力加快开发点击或通过如下链接获取工具包Intel

InstallerDockerApt,

YumCondaIntel®

DevCloud了解更多

:/oneapi/ai-kit38BigDL*:统一的大数据分析和

AI

平台模型和算法(内置模型和算法)推荐时间序列计算机视觉自然语言处理机器学习工作流(自动构建端到端管道)AutoMLAutomatic

Cluster

Serving端到端流水线Distributed

TensorFlow&

PyTorch

on

SparkRayOnSpark(将

AI模型无缝扩展到分布式大数据平台)Spark

Dataframes&

ML

Pipelines

for

DLInferenceModelLaptopK8s

ClusterHadoop

ClusterCloud计算环境DL

Frameworks(TF/PyTorch/BigDL/OpenVINOTM/…)Distributed

AnalyticsPython

Libraries(Numpy/Pandas/sklearn/…)(Spark/Flink/Ray/…)由英特尔®

oneAPI

工具套件提供支持*指

BigDL2.0已包含

BigDL和

AnalyticsZoo。了解更多

:/intel-analytics/analytics-zoo39Chronos框架:用于构建大规模时间序列分析应用程序的BigDL组件ChronosPipeline1.Data

Processing&

Feature2.Built-inModels3.

(Optional)

HPO包含三个组件:ForecastersAutoTSEstimatorEngineering•

数据处理与特征工程(DataProcessing&FeatureEngineering)TSDatasetDetectorsSimulatorsAutoModelTspipelineBuilt-in

Dataset•

内置模型(Built-inModels)Orca.dataOrca.learnOrca.automlDistributeddata-parallelprocessingDistributedtrainingonBigDataDistributed

TunningonBigDataCluster•

超参数优化(HyperparameterOptimization)Laptop

/

Single

NodeK8sSpark/

RayCloudChronos框架架构40OpenVINO™

工具套件

-由

oneAPI提供支持旨在使用高性能人工智能和计算机视觉推理实现更加快速和准确的实际结果,部署在从边缘到云的、基于英特尔®XPU架构

(CPU、GPU、FPGA、VPU)的生产环境中1.BUILD2.OPTIMIZE3.DEPLOY高性能、深度学习推理部署Trained

ModelRead,

Load,InferIntermediateModel

OptimizerCPUPluginGPUPluginGNAPluginConvertsandoptimizestrained

model

usingasupportedframeworkRepresentationIRData简化开发、易于使用(.xml,.bin)InferenceEngineCommon

APIthatabstractslow-levelprogrammingforeachhardwarePost-TrainingOptimizationToolDeepLearningStreamerOpenCV

OpenCLTMMyriadPluginForintel®NCS2&

NCSOpenModelZoo100+opensourcedandoptimizedpre-trainedmodels;80+supportedpublicmodelsHDDLPluginDeep

LearningWorkbench一次编写、随处部署Code

Samples&

Demos(e.g.Benchmarkapp,AccuracyChecker,ModelDownloader)FGPA

PluginDeploymentManager了解更多

:/openvino-toolkit41基于第四代英特尔®

至强®•

全新内置

AI加速引擎

-英特尔®AMX•

软硬件配置可扩展处理器的人工智能调优指南•

面向

Linux操作系统的优化•

面向

AI框架的优化-面向英特尔®架构优化的TensorFlow-英特尔®ExtensionforPyTorch•

面向

AI神经网络模型的低精度优化•

AI模型推理加速

–OpenVINO™工具套件•

数据分析和机器学习加速扫码获取完整调优指南42以多样化软硬件组合加速

AI

部署英特尔®

AI

平台面向数据中心的多样化经过英特尔优化的广泛的英特尔

AI产品英特尔

AI硬件组合开源

AI框架和工具组合和合作伙伴强大硬件组合,全面优化

AI加速开发者构建和部署通过丰富的软硬件组合工作负载,满足多样化算力需求AI应用的旅程加速

AI方案部署时间43第四代英特尔®

至强®

可扩展处理器相较于上一代产品的性能提升>6

4倍高达倍(与上一代产品相比)(与上一代产品相比)推荐系统批量推理性能提升推荐系统训练性能提升详情请见以下网址的

[A21]:

/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/结果可能不同。44AI

关键用例时间序列预测•

电信的很多业务量

(如语音通话、数据传输等)

与时间

(随用户使用量变化)

相关,呈现波峰波谷特性,是典型的时间序列数据。为提升模型的准确性和性能,在过去通常需要耗费巨大的人力和时间资源,对超参数进行手动调优,但结果往往并不令人满意。而通过引入

AI/ML

方法来预测资源占用率,可在不影响SLA的前提下,实现按需分配、灵活调整,降低运维复杂度和成本,形成更高效、更智能的数据中心或基站等网元的能耗管理策略,进而更大范围、更大规模地提升节能减排水平。基于英特尔

Chronos框架的时间序列预测•Chronos

框架提供了十多种不同种类的

ML/DL

内置模型,为不同应用场景提供高精确度的预测。通过使用历史业务数据

(如话务量等)

与服务器资源利用率日志

(如处理器占用率等)

进行建模,由

Chronos

框架提供的

TSDataset

API

接口对时间序列数据快速执行填充、

缩放等操作,并开展自动特征生成;然后通过AutoTSEstimator

API,实现超参数搜索,并根据预测目标检索出最佳超参数集,优化模型和数据处理工序并形成时间序列预测模型;最终,使用这一模型对实时业务数据进行推理

(或进行效果

评估和优化),获得处理器占用率预测数据。基于英特尔

Chronos框架的时间序列预测方案基本流程45挑战中国联通希望在其保障

5G

等各类通信业务高效发展的同时,尽可能降低能耗开销。5G网络要借智能化实现动态节能IT设备能耗占比巨大,对其实施优化,具备较大空间在满足5GC网元核心业务SLA的情况下,降低设备能耗处理器占用率预测结果与实际值对比仅为解决方案处理器占用率预测值与实际值对比的最终

MSE结果1.17BigDL

Chronos

框架助中国联通打造

5G

网元资源占用率预测方案倍•

基于BigDL

Chronos

框架丰富的组件和集成的优化策略,方案实现了更优的预测效果和更快的预测速度。•

BigDL

超参数优化组件帮助下,开展从数据预处理、特征工程到模型训练等全栈的自动化机器学习过程

。•

使用至强®

可扩展处理器,为

5GC

网元资源占用率预测方案提供通用算力支持。•

使

台服

过15%;•

新方案预计可使整个云资源池每年节电4,600万度。扫码获取全文如欲了解更多案例详情,请访问:/content/www/cn/zh/customer-spotlight/cases/china-unicom-bigdl-chronos-framework-5gc.html46挑战亚信科技希望帮助更多用户通过降低

5G

网络能耗来实施绿色网络建设,而基站的能耗占比巨大。5GRAN

基站实现智能节能在

5G网络中,基站的能耗可超过总能耗的

50%(有时甚至超过

80%)传统基站节能方案依靠人工经验,节能水平很难超过

5%基于节能新方案设计的处理器调整策略解决方案15%-30%BigDL

Chronos

框架助亚信科技打造5G

基站智能节能方案用户综合能耗降低•

Chronos

框架提供的

TSDataset

接口对加载的

5G

小基站负荷数据集进行快速的数据预处理。•

利用预处理的时间序列数据进行建模,并通过

Chronos

AutoTSEstimator接口,实现自动化超参数搜索、特征选取、模型优化,来对算法进行调优,并生成时间序列预测模型。•

使用这一模型对5G小基站负荷数据进行推理,获得实时5G小基站负荷预测数据。•

借助

AI/ML

模型获得良好预测结果后,再引入英特尔

P/C-state

等技术,对英特尔®

至强®

D处理器的频率等参数进行动态调整,从而实现基站能耗智能控制。•

帮助用户有效降低运营成本•

5G云化基站的节能标准制定提供有效参考扫码获取全文如欲了解更多案例详情,请访问:

/content/www/cn/zh/communications/asiainfo-create-intelligent-energy-saving-solution.html47AI

关键用例•

电信运营商可以实现自动化客服、智能化营销等多方面应用,实现精准营销,提升客服服务质量和营销效率,以及客户满意度。深度学习:推荐系统和自然语言处理(NLP)•

互联网企业可以更好地驱动客户的需求并持续吸引他们的关注,从而获得巨大的营收潜力。•

金融服务机构可以更好地了解客户,从而做出更明智的投资和风险管理决策。根据实时行为信号和上下文队列提供个性化用户体验,企业可以部署基于深度学习的推荐系统以及使用自然语言处理,同时平衡总体拥有成本

(TCO)。推荐系统可帮助企业通过个性化推荐为每个客户提供更好的服务,而自然语言处理则使设备能够更好地理解文本的含义,从而让企业能够更好地了解并满足客户的需求。•

医疗保健服务企业和机构可以通过更高效的计费和预先审批流程以及更准确的术后并发症预测,来改进患者护理并降低成本。•

零售企业可以利用更准确的文本识别和语义理解来更好地解读用户行为,从而以更具个性化的客户体验创造增加营收的机会。同时,情感分析还有助于零售企业收集用户反馈,并基于此提供更好的产品推荐,

从而推动未来购买模式的发展。英特尔®

AMX

强化了第四代英特尔®

至强®

可扩展处理器的

AI

加速能力,无需额外硬件即可加速深度学习训练和推理。该内置加速引擎可为自然语言处理、推荐系统和图像识别等

AI

应用提供更强的支持。48推荐系统知识增强视觉

AI解决方案个性化内容与服务推荐产业级行业大模型更加精准、个性化的互联网服务推荐模型量化推升推理效率多范式统一预训练框架轻量化版本

ERNIE-Tiny视觉

AI推理加速2.89x2.66x4.13x在第四代英特尔®至强®可扩展平台上,阿里巴巴推荐模型在符合推理时延<=15毫秒的同时,吞吐量提升达在第四代英特尔®至强®可扩展平台上,ERNIR-Tiny吞吐量提升达在第四代英特尔®至强®可扩展平台上,将模型转化为BF16后,Swin-tiny推理性能提升高达工作负载和配置见后页所示。结果可能不同。49挑战英特尔®AMX助力阿里巴巴推荐系统提升AI

推理性能为了应对现代化推荐系统对于

AI

算力的较高要求,实现性能与成本的平衡,阿里巴巴希望重点化解电子商务推荐系统面临的如下挑战:满足单位时间内的海量处理请求,提升吞吐量确保处理时间在严格的时延阈值范围内确保

AI推理精确性,保证推荐质量代理模型吞吐量比较(时延<=15毫秒,越高越好)提升达解决方案基于第四代至强®

可扩

用BF16

混合精度,阿里巴巴推荐模型吞吐量2.89采用第四代英特尔®

至强®

可扩展处理器优化阿里巴巴推荐模型推理性能倍•

使用第四代英特尔®

至强®

可扩展处理器内置的

AI

加速引擎

--

英特尔®

AMX,显著提升

AI推理性能;•

利用英特尔®

oneDNN

CPU

微调到峰值效率,使得核心推荐模型推理性能获得进一步跃升。•

满足

AI

推理精度需求,阿里巴巴推荐模型性能大幅提升,且收益远高于硬件成本,有助于降低TCO;•

基于

CPU

的推理方案具备媲美高端

GPGPU

的性能表现,同时在成本、灵活性等方面具备更强的优势。扫码获取全文如欲了解更多案例详情,请访问:/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html50挑战英特尔®

AMX助力百度轻量版ERNIE-Tiny

释放AI

加速潜能ERNIE

3.0

轻量版是百度面向

NLP

领域推出的重要技术方案,为应对在实际落地过程中,各行业细分领域对其提出的更多特定化需求,百度希望引入多重优化方案,助力轻量版

ERNIE-Tiny

实现以下性能:更高的处理效率更便捷的部署流程,更低的部署成本更广泛的

NLP部署场景解决方案ERNIE-Tiny

在不同处理器平台上的性能对比提升达在第四代至强®可扩展平台上,ERNIE-Tiny

吞吐量2.66引入第四代英特尔®

至强®

可扩展平台及其内置AI

加速器优化轻量版ERNIE-Tiny倍•

使用第四代英特尔®

至强®

可扩展处理器作为

ERNIE-Tiny

推理工作的算力输出引擎,并利用其内置的英特尔®

AMX

大幅提升

AI推理效率;•

利用英特尔®oneDNN

实现对英特尔®AMX指令的调用,有效助力用户提升AI

应用与框架在英特尔®

架构平台上的性能。•

行业用户在通用

CPU

平台上也可方便地部署高效能的

ERNIE-Tiny,来应对越来越多的

NLP

应用需求;•

用户无需额外采购昂贵的专用

AI算力设备,大幅降低企业借助NLP能力提升业务效率的门槛。扫码获取全文如欲了解更多案例详情,请访问:/content/www/cn/zh/artificial-intelligence/spr-buil

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论