版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
英特尔中国AI加速实践手册英特尔中国AI加速实践手册AI加速实践手册112.每日分享:6+份行研精选、3个行业主题2.每日分享:6+份行研精选、3个行业主题4.严禁广告:仅限行业报告交流,禁止一切无关信息报告仅限社群个人学习,如需它用英特尔中国英特尔中国AI加速实践手册204CONTENTS06 04CONTENTS06 1038英特尔中国AI加速实践手册.经英特尔优化的开源AI框架和工具.广泛的英特尔AI产品组合和合作伙伴AI趋势与展望–生成式AI331,540亿美元26.9%*相比2022年增长在2026年预计将超过3,000亿美元27.0%*2022-2026年的复合增长率(CAGR)264.4亿美元2021-2026五年复合增长率(CAGR)将超过20%30.0%30,00025,00020,00015,00010,0005,000020.0%0.0%30.0%30,00025,00020,00015,00010,0005,000020.0%0.0%2021202220232024202520264如欲了解更多详情请访问:/getdoc.jsp?containerId=prUS504541234/getdoc.jsp?containerId=prCHC50539823英特尔中国AI加速实践手册ProfessionalServicesOthersDiscreteManufacturingProfessionalServicesOthersDiscreteManufacturingTopIndustryBasedon2023MarketShare(Value(Constant))46.7%9.5%BankingRetailProcessManufacturingSource:IDCWorldwideArtificiallntelligenceSpendingGuide-Forecast2023|Feb(V12023)Top3行业AI应用场景29.3%47.0%7.8%7.0%5如欲了解更多详情请访问:/getdoc.jsp?containerId=prUS504541235/getdoc.jsp?containerId=prCHC50539823英特尔中国AI加速实践手册企业部署企业部署AI时MRI扫描片等),批量或卷积神经网络卷积神经网络(CNN)Oice文档、社交媒体帖文等),非机构化音频/视频长短时记忆(LSTM),递归神经网络(RNN)将文本将文本/文字转为语音生成对抗网络生成对抗网络(GAN)多层感知器(MLP)GANGAN结合CNNCNN或CNN+RNN英特尔中国AI加速实践手册66英特尔中国AI英特尔中国AI加速实践手册在基于CPU的基础设施上运行AI工作负载在漫长的AI开发流程中,对计算资源的要求各不相同(MLP)(CNN)(RNN)CPU的7770%AI推理任务84%70%AI推理任务84%AI来获得成功90%(到2025年)嵌入式AI•从云端、边缘到终端设备,更广泛的应用场景意味着AI的部署环境正变得更为复杂需要用户基于不同的硬件基础设施来设计高效稳定的开发和部署方案,且需要根据业务场景、软件框架的不同8如欲了解更多详情请访问:https://www.8artificial-intelligence/resources/advance-insights-with-ai-brief.html英特尔中国AI英特尔中国AI加速实践手册内置AI加速纵观市场上所有的CPU,第四代英特尔®至强®可扩展处理并可凭借全新的英特尔®高级矩阵扩展(英特尔®AMX)提供卓越的AI训练和推理性能。高达高达5.7倍至10倍PyTorch实时推理性能提升高达3.5倍至10倍PyTorch训练性能提升可扩展处理器vs上一代产品(FP32)共推AI的繁荣演进英特尔数千名软件工程师正在整个AI生态系统中贡献着自己PyTorch、Scikit-learn、XGBoost的主流开源版本均已面向的OpenVINOTM工具套件;用于ApacheSpark上的分布式深度学习的BigDL;以及用于在任意基础设施上协调机器学习管道的cnvrg.ioMLOps平台。第四代英特尔®至强®可扩展处理器,结合软件优化和生态系统合作,正在帮助人工智能开发者实现其生产力目标,并如欲了解更多详情请访问:/content/www/cn/zh/customer-spotlight/cases/accelerate-ai-workload-with-amx.html99IntelSolutionsMarketplaceIntelSolutionsMarketplace加速AI落地200+一站式AI方案可选加速AI应用构建快速构建端到端AI数据应用加速AI性能在20+典型AI负载下架构的AI基石Scikit-LearnPandasNumPy/SciPyXGBoost&MoreCPUCPUFPGAASICGPU人工智能基础设施媒体与图像深度学习推理深(Gaudi)面向更广泛工作负载AI专用GPUCPU英特尔中国AI加速实践手册加速整个AI管道,以运行多种AI代码和工作负载广泛的英特尔AI产品加速AI方案部署时间英特尔中国AI加速实践手册可运行各种AI代码,各类工作负载开源AI框架和工具AI应用的旅程DataCollectionDataPreparationFeatureCreationModelDataIngestionDataTransformationModelSelectionModelEvaluationModelPackagingPerformanceMonitoringDataAnalysisModelTrainingModelValidationEndpointDataCollectionDataPreparationFeatureCreationModelDataIngestionDataTransformationModelSelectionModelEvaluationModelPackagingPerformanceMonitoringDataAnalysisModelTrainingModelValidationEndpointConfigModelServingDataValidationDataLabellingDataCleanup只有53%的AI项目能够从原型到生产(Gartner)21基于英特尔对截至2021年12月,运行AI推理工作负载的全球数据中心服务器装机量的市场建模2数据来源:/article/3639028/why-ai-investments-fail-to-deliver.html英特尔中国AI加速实践手册DataCollectionDataValidationDataPreparationDataIngestionDataLabellingDataTransformationDataDataAnalysisDataCollectionDataValidationDataPreparationDataIngestionDataLabellingDataTransformationDataDataAnalysisCleanup小/中型模型和迁移学习/调优70%只有53%的AI项目能够从原型到生产(Gartner)21基于英特尔对截至2021年12月,运行AI推理工作负载的全球数据中心服务器装机量的市场建模2数据来源:/article/3639028/why-ai-investments-fail-to-deliver.html英特尔中国AI加速实践手册英特尔中国英特尔中国AI加速实践手册NLPSystolicFLOPsscalarmemoryaccessesNLPSystolicFLOPsscalarmemoryaccessescoalescedmemoryaccessesCNNSystolicFLOPsscalarmemoryaccessescoalescedmemoryaccessesMemoryBandwidthMemoryBandwidthMemoryCapacityMemoryCapacityt-SNESystolicFLOPsscalarmemoryaccesseskmeansSystolicFLOPsaccessesMemoryCapacity MemorymemoryBandwidthaccessescoalescedmemoryscalarmemoryaccessescoalescedMemoryBandwidthMemoryCapacityAI需要一个均衡的服务器平台SystolicFLOPsMemoryCapacityMemoryBandwidthcoalescedmemoryaccessesscalarmemoryaccessesDensepartSparsepartGNNSystolicFLOPsComputeinNetworkMemoryCapacityMemoryBandwidthcoalescedmemoryaccessesscalarmemoryaccessesComputeinNetworkNetworkBandwidthNetworkLatency深度学习和GNN训练NetworkLatencyNetworkBandwidth3-10x7.7x3-10x7.7x效率提升性能提升/瓦1采用内置AI加速器的INT8/BF16模型2x2xPCIExpress5.01.51.5xDDR5内存带宽和容量1详情请见以下网址的[A16,A17,A33]at/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/300+深度学习模型50+经过优化的机器学习和图模型Optimizationsup-streamedoneAPIAIoneAPIAI生态系统最高最高512GB/路受保护的由BigDL和OpenVINOTM工具套件支持的机密AI计算英特尔中国AI加速实践手册(英特尔®IAA)(英特尔®QAT)(英特尔®IAA)(英特尔®QAT)(英特尔®Security)Max系列为科学计算与AI工作负载英特尔中国AI加速实践手册(英特尔®AMX)(英特尔®DLB)(英特尔®DSA)(英特尔®AMX)(英特尔®DLB)(英特尔®DSA)(英特尔®IAA)(英特尔®QAT)8.6倍96%倍84%SPDK-NVMeIOPS提升RocksDB性能提升时与上一代产品(FP32)的启用英特尔®DLB与使用英特尔®DSA与使用Ztsd软件的比较结果英特尔®QAT比较结果软件处理Istio-Envoy入口与使用ISA-L软件的比较结果与使用开箱即用的软件网关连接请求的比较结果在NGINX上实现详情请见以下网址的[A26,W6,N18,D1,N15]:/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/英特尔中国AI加速实践手册vpdpbusd8-bitnewinstruction8-bit8-bit8-bit8-bit8-bit32-bitaccinput32-bitaccinput8-bitvpmaddubswOutput32-bitaccoutput32-bitaccoutputconstantvpmaddwd英特尔中国AI加速实践手册tdpbusd8-bitvpdpbusd8-bitnewinstruction8-bit8-bit8-bit8-bit8-bit32-bitaccinput32-bitaccinput8-bitvpmaddubswOutput32-bitaccoutput32-bitaccoutputconstantvpmaddwd英特尔中国AI加速实践手册tdpbusd8-bitnewinstruction 85int8ops/cycle/corewith2FMA 英特尔®AVX-512(VNNI)256int8ops/cycle/corewith2FMAs 英特尔®AMX2,048int8ops/cycle/coreMulti-foldMACsinoneinstruction accoutputconstant 时钟周期3vpaddd32-bitaccoutput•提供广泛的软硬件优化,使AI加速能力获得提升•提供广泛的软硬件优化,使AI加速能力获得提升•为AI/深度学习推理和训练工作负•市场上的主流框架、工具套件和库(PyTorch、TensorFlow英特尔®oneAPI深度神经网络库(英特尔®oneDNN)"Tiles"""Tiles"2D寄存器文件平铺矩阵乘法8.6倍英特尔®AMX(BF16)时与上一代产品(FP32)PyTorchPyTorch训练和推理PyTorch实时推理英特尔®AMX(BF16)时与上一代产品(FP32)详情请见以下网址的[A26,A16]:/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/英特尔中国AI加速实践手册(bfloat16)分数(bfloat16)分数/尾数中的位置BF16到FP32FP32Number:0.56580972671508789062596AsFP32:0.56580972671508789062532BitsBfloat16具有相同数量的指数位,因此可以表示和FP32一样大的数字,但由于其用于存储实际FP16可以提供比bfloat16更高的精度,但用于FP32可提供更高的精度许多AI功能并不需要FP32提供的精度水平与FP32相比,使用bfloat16英特尔中国AI加速实践手册矢量神经网络指令(VNNI)扩展英特尔®AVX-512以加速CPU平台上的AI/深度学习推理AVX-512VNNI利用率,避免潜在的带宽瓶颈2020在随处构建和部署AI应用加速整个AI管道,以运行多种AI代码和工作负载开源AI框架和工具AI应用的旅程广泛的英特尔AI产品加速AI方案部署时间英特尔中国AI加速实践手册英特尔中国AI英特尔中国AI加速实践手册英特尔®oneAPIHypervisorsOS&KernelIntelDeveloperIntelDeveloperCatalog55+pre-trainedmodelsIntel®Dev.CloudEarlyaccessNEWCnvrg.ioMLOPsMetaCloudIntelAIKitPythonv2022.3XGBoostIntegrationBigDLSPARKv2.2v2022.3IntelExt3.2IntelExtv2023.0TensorFlowoneDALoneDALoneDNNoneCCLoneMKLV2022.6v2.7V2022.72022.2KVM5.17Hyper-V1H’22ESXi/vSphere8.0WinServer22Linux5.16RedHat8.6Ubuntu22.04SLES15SP4*VersionsidentifiedareminimumversionsthatsupportIntel®AMX2222英特尔中国AI加速实践手册英特尔中国AI加速实践手册通用AI平台:更高的端到端机器学习性能 基因组学研究和诊断:用Scanpy对130万小鼠脑细胞进行单细胞RNA-SEQ分析CellsCellsGenesGeneActivityMatrixDataPre-processingDataPre-processingLinearRegressionNormalizeDimensionalityReductionDimensionalityReductionPCAPCAVisualizationVisualizationUMAPUMAPT-SNEClusteringClusteringLouvainLouvainLeidenLeidenK-means2022(代号Broadwell)2016单细胞单细胞RNASEQ端到端运行时间(秒)1xBDX:TestbyIntelasof<11/25/22>.GCPn1-highmem-64instancebasedonIntelXeonprocessor(Broadwell),1socket,32cores,HTOn,64vCPUs,TurboOn,TotalMemory416GB,bios:Google,ucode:0x1,Ubuntu22.04,5.15.0-1022-gcp1xSPR:TestbyIntel8480+,56cores,HTOn,TurboOn,TotalMemory250GB,0x2b000081,RedHatEnterpriseLinuxrelease8.6(Ootpa),Linux4.18.0-372.19.1.el8_6.x86_64BaselineScanpy:version1.8.1/scverse/scanpyOpenOmicsScanpy-basedsinglecellpipeline:/IntelLabs/Trans-Omics-Acceleration-Library/tree/master/applications/single_cell_pipeline,branch:master,commit:#8ae29eb279sec279sec70x70xspeedup端到端运行时间(秒)19,470sec2323英特尔中国AI加速实践手册英特尔中国AI加速实践手册通用AI平台:更高的端到端深度学习性能DatasetDocumentLevelSentimentAnalysis(DLSA)LoaddatasetLoaddatasetLoaddatasetLoaddatasetTokenizationandfeatureextractionTokenizationandfeatureextractionTokenizationandTokenizationandfeatureextractionDeeplearningFINE-TUNINGmodelDeeplearningINFERENCELoadFINE-TUNEDmodelDeeplearningFINE-TUNINGmodelDeeplearningINFERENCELoadFINE-TUNEDmodelLoadPRETRAINEDmodelTransformersCompressor2424英特尔中国AI英特尔中国AI加速实践手册技术/工具工具/套件Cnvrg.io否AI套件是BigDL是OpenVINOTM工具套件是NeuralCompressor是SigOpt否TensorFlow是PyTorch是ONNX是PDPD是MXNet是XGBoost是Scikit-learn是CatBoost是LightGBM是Modin是Spark是2525TensorFlowTensorFlowPyTorch(英特尔®LPOT)ModelZoo英特尔®oneAPIAIAnalytics工具套件学习框架和工具提升训练和推理分析和机器学习工作流提供落地了解更多:/面向英特尔®架构优化的PythonHEAVY.AIBackend(formerlyOmniSci)Scikit-learnDaal-4PyXGBoostNumPyPandasSciPyCPUGPU支持的硬件架构CPUIntelInstallerDockerApt,YumCondaIntel®DevCloud英特尔中国AI加速实践手册2626AutomaticClusterServingAutoMLDistributedTensorFlow&PyTorchonSparkSparkDataframes&MLPipelinesforDLRayOnSparkAutomaticClusterServingAutoMLDistributedTensorFlow&PyTorchonSparkSparkDataframes&MLPipelinesforDLRayOnSparkInferenceModelBigDL*:统一的大数据分析和AI平台(内置模型和算法)(自动构建端到端管道)(将AI模型无缝扩展到分布式大数据平台)LaptopK8sClusterHadoopClusterCloudDLFrameworksLaptopK8sClusterHadoopClusterCloudDLFrameworks(TF/PyTorch/BigDL/OpenVINOTM/…)DistributedAnalytics(Spark/Flink/Ray/…)PythonLibraries(Numpy/Pandas/sklearn/…)由英特尔®oneAPI工具套件提供支持*指BigDL2.0已包含BigDL和AnalyticsZoo。27了解更多:/intel-analytics/analytics-zoo27英特尔中国AI加速实践手册InferenceEngineCommonAPIthatabstractslow-levelprogrammingforeachhardwareDeploymentCPUPluginIntermediateRepresentationGPUPluginIRDataGNAPluginDeepLearningStreamerMyriadPluginForintel®NCS2&NCSOpenCVOpenCLTMCodeSamples&Demos(e.g.BenchmarkInferenceEngineCommonAPIthatabstractslow-levelprogrammingforeachhardwareDeploymentCPUPluginIntermediateRepresentationGPUPluginIRDataGNAPluginDeepLearningStreamerMyriadPluginForintel®NCS2&NCSOpenCVOpenCLTMCodeSamples&Demos(e.g.Benchmarkapp,AccuracyChecker,ModelDownloader)HDDLPluginFGPAPluginManagerTrainedModelPost-TrainingOptimizationToolDeepLearningWorkbench英特尔中国AI加速实践手册OpenVINO™工具套件-由oneAPI提供支持旨在使用高性能人工智能和计算机视觉推理实现更加快速和准确的实际结果,部署在从边缘到云的、基于英特尔®XPU架构(CPU、GPU、FPGA、VPU)的生产环境中1.BUILD2.OPTIMIZE1.BUILD2.OPTIMIZE3.DEPLOYRead,Load,InferModelOptimizerConvertsandoptimizestrainedmodelusingasupportedframeworkOpenModelZoo100+opensourcedandoptimizedpre-trainedmodels;80+supportedpublicmodels了解更多:/openvi2828.全新内置AI加速引擎-英特尔®AMX.软硬件配置.面向Linux操作系统的优化.面向AI框架的优化-面向英特尔®架构优化的TensorFlow-英特尔®ExtensionforPyTorch.面向AI神经网络模型的低精度优化.AI模型推理加速–OpenVINOTM工具套件.数据分析和机器学习加速英特尔中国AI加速实践手册2929加速整个AI管道,以运行多种AI代码和工作负载广泛的英特尔AI产品加速AI方案部署时间英特尔中国AI加速实践手册开源AI框架和工具AI应用的旅程3030高达4倍高达4倍(与上一代产品相比)(与上一代产品相比)详情请见以下网址的[A21]:/content/www/us/en/products/performance/benchmarks/4th-generation-intel-xeon-scalable-processors/英特尔中国AI加速实践手册AI关键用例AI关键用例根据实时行为信号和上下文队列提供个性化用户体验,企业可以部署基于深度学习的推荐系统以及使用自然语言处理,同时平衡总体拥有成本(TCO)。推荐系统可帮助企业通过个性化推荐为每.互联网企业可以更好地驱动客户的需求并持续.金融服务机构可以更好地了解客户,从而做出.医疗保健服务企业和机构可以通过更高效的计费和预先审批流程以及更准确的术后并发症预.零售企业可以利用更准确的文本识别和语义理解来更好地解读用户行为,从而以更具个性化的客户体验创造增加营收的机会。同时,情感分析还有助于零售企业收集用户反馈,并基于此提供更好的产品推荐,从而推动未来购买速引擎可为自然语言处理、推荐系统和图像识别等AI应用提供英特尔中国AI加速实践手册32英特尔中国英特尔中国AI加速实践手册 视觉AI 视觉AI解决方案视觉AI4.13x轻量化版本ERNIE-Tiny2.66x可扩展IR-Tiny-〕里云2.89x3333提升AI推理性能提升AI推理性能•利用英特尔®oneDNN将CPU微调到峰值效率,使得核心推荐模型推理性能获得进2.89倍基于第四代至强®可扩展处理器,采用BF16混合精度,阿里•满足AI推理精度需求,阿里巴巴推荐模型性能大幅提升,且收益远高于硬件成本,有助于降低TCO;•基于CPU的推理方案具备媲美高端GPGPU的性能表现,同时在成本、灵活性等方面具备更强如欲了解更多案例详情,请访问:/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html3434英特尔®AMX助力百度轻量版ERNIE-Tiny英特尔®AMX助力百度轻量版ERNIE-Tiny释放AI加速潜能 其内置AI加速器优化轻量版ERNIE-Tiny并利用其内置的英特尔®AMX大幅提升AIERNIE-Tiny在不同ERNIE3.0轻量版是百度面向NLP领域推出的重要技术方案,为应对在实际落地过程中,各行业细分领域对其提出的更多特定化需求,百度希望引入多重优化方案,助力轻更广泛的NLP部署场景2.66倍ERNIE-Tiny吞吐量•行业用户在通用CPU平台上也可方便地部署高效能的ERNIE-Tiny,来应对越来越多的NLP应•用户无需额外采购昂贵的专用AI算力设备,大幅降低企业借助如欲了解更多案例详情,请访问:/content/www/cn/zh/artificial-intelligence/spr-built-in-amx-baidu-ernie-performance-increase.html3535英特尔®AMX助力美团加速视觉英特尔®AMX助力美团加速视觉AIAI加速器提升主流视觉模型推理性能从FP32转换为BF16,在可接受的精度损•结合IPEX加速PyTorch,助力用户在原FP32/BF16模型推理性能对比为提升视觉AI推理效率,给用户带来更加精准、个性化的互联网服务,提在保证视觉AI推理精度采用CPU进行低流量长尾模型推4.13倍在第四代至强®可扩展平台上,模型推理•美团可更加充分地释放现有基础•实现资源的敏捷调度,支撑视觉如欲了解更多案例详情,请访问:/content/www/cn/zh/cloud-computing/meituan-visual-ai-reasoning-service-optimize-cost.html3636英特尔中国英特尔中国AI加速实践手册处理器可运行多种AI工作负载广泛的AI产品组合和合作伙伴加速AI应用的部署进程和部署AI应用3737AIAI趋势与展望-生成式AI(GenerativeAI)AI关键用例生成式生成式AI与万物数字化息息相关,其描述了用于创建新数据的算法,这些数据类似于人类生成的内容,包括音频、代码、图像、文本、模拟和视频。这项技术通过现有内容和数据进行训练,为自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度残障人士职业康复服务合同2篇
- 温州职业技术学院《BM概论与实训》2023-2024学年第一学期期末试卷
- 2025年度智能设备租赁服务与技术支持合同2篇
- 二零二五年度金融资产证券化股份质押交易合同3篇
- 2025年度学校窗帘更换及节能环保合同3篇
- 个人财产质押借款协议书(2024年修订)版
- 个人房产抵押贷款协议范本(2024版)版B版
- 渭南师范学院《乐理视唱二》2023-2024学年第一学期期末试卷
- 2024版简易自愿离婚合同书范例一
- 二零二五年度新能源汽车采购合同质量监控与配送管理细则3篇
- DB33T 2570-2023 营商环境无感监测规范 指标体系
- 上海市2024年中考英语试题及答案
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)宣传海报
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)宣传画册
- 垃圾车驾驶员聘用合同
- 2025年道路运输企业客运驾驶员安全教育培训计划
- 南京工业大学浦江学院《线性代数(理工)》2022-2023学年第一学期期末试卷
- 2024版机床维护保养服务合同3篇
- 《论拒不执行判决、裁定罪“执行能力”之认定》
- 工程融资分红合同范例
- 2024年贵州省公务员录用考试《行测》真题及答案解析
评论
0/150
提交评论