




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1天数智芯算力中心建设解决方案2一、项目建设背景 3二、集群部署方案 4三、算力运营维护 6四、核心运营内容 7五、应用场景推广 8六、市场营销策略 七、方案配置参考 3一、项目建设背景党的二十大报告指出,推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎,人工智能是新一轮科技革命和产业变革的重要驱动力量。在城市数字化转型的进程中,智慧程度越高、算力越强的城市,其综合资源更节省,城市安全更有保障,运行效率更高,企业发展更顺畅,居民生活更便利。天数智芯是中国第一家通用GPU商用芯片及超级算力系统提供商,也是国内唯一同时拥有GPU架构下云端训练+推理完整解决方案的硬科技公司,目前推出的训练芯片—天垓100和推理芯片—智铠100基于自主研发的芯片架构及软件栈,具备高算力、通用性、灵活性、自主可控等明显优势,真正自主可控,实现国产替代,支持和国际主流产品混合部署,无缝迁移。天数智芯集中赋能企业算力平台及生态建设,加快核心关键环节补链强链,为国产人工智能算力产业贡献中坚力量。以天数智芯的通用算力芯片为基础,打造国产通用算力集群,同时结合算力应用孵化信息化创新项目,将全面提升城市数字化转型能力,带动数字政府和新型智慧城市建设更便捷、更智慧。4二、集群部署方案结合应用需求,可基于国内外各主流CPU和天数智芯全系列通用GPU灵活组成集群服务器,每台最大可支持8张天垓100加速卡,服务器间可通过以太交换机或IB交换机互通搭建基于超融合架构或者存算分离的底层硬件平台,从而为上层应用提供计算和存储服务,集群整体硬件架构图如图图1GPU高可用集群硬件架构图完整的算力中心网络分为数据交互网络、业务交互网络5以及管理交互网络,示意图如下所示:图2网络和系统部署天数智芯算力集群管理平台提供基于GPU虚拟化的存储管理、容器管理、系统监控和授权管理等服务,此平台具有易迁移、高可用、可伸缩等特性。集群管理平台按服务层次分为IaaS,PaaS和SaaS三层,本方案中IaaS层(基础设提供支持主流GPU通用计算模型的等效组件、特性、API和算法,可助力用户便捷地实现系统或应用的无痛迁移;PaaS层(平台即服务)提供GPU虚拟化、算力调度、异构纳管、运维监控和存储管理等能力;SaaS层(软件即服务)支持可视化训练和开发,支持当下主流模型,有效提高AI训练效率,三层整体架构如图3所示。6图3:GPU集群管理平台天数在集群部署上可以提供多样化、异构化的基础设施架构方案,可以根据需求在服务器、操作系统、算法框架等层面灵活部署。并借助交换机按需组网部署,提供各种算力服务,可以满足各种场景下的业务需求,满足各算力客户的应用需求。三、算力运营维护运营公司设立专业运营团队负责公司算力中心维护、产品项目推广、产业生态合作等工作。团队由本地运营人员和天数智芯外派工程师共同组成,明确职责分工,实现智算中心的市场化运营和专业化运维。主要的运营目标如下:(一)人工智能计算中心运维服务。运营公司负责人工7智能计算中心的运维服务工作,确保人工智能计算平台稳定高效的运行。(二)人工智能计算中心运营和市场推广。依托该平台,面向地区提供多种类型的算力服务,服务本地人工智能企业大力发展,服务传统产业转型升级,服务科研团队创新创业,提升算力平台资源利用率。此外,基于智算中心,公司可联合本地龙头企业、科研院校承接国家、省(市)级科研项目。(三)人工智能产业生态合作。公司负责配合所在地区的人工智能产业招商工作,吸引全球顶尖人工智能科研团队、企业入驻,吸引优质的人工智能成果落地转化,培育中小微AI企业,举办大型AI赛事和行业峰会,依托集成的先进一体化平台形成产业生态链,共同在所在地区打造全球独具特色的AI生态圈。四、核心运营内容运营公司的核心运营内容如下:(一)算力服务支持:智算中心采用开放的基于国内外先进的通用GPU加速卡的异构体系架构,搭载NVIDIA和天数智芯的通用GPU计算单元,可提供多种数据精度的算力服务,灵活满足政府、企业、科研机构等各类型的训练和推理业务需求。在前期的产业落地中,可以借鉴把已有的成熟行业应用8上线,为周边地区企业和科研院所提供成熟的算力服务,赋能企业发展。同时为行业用户及科研院所提供普惠算力服务,吸引人工智能企业落地。(二)技术开发支持:运营团队提供应用适配、在线技术指导等服务,根据用户的业务和项目需求,公司技术服务人员可提供新算法模型的适配与验证、新算子的开发和适配、业务流适配等多维度、全方位的技术服务,同时监控智算中心运行和客户算力使用情况,保证用户高效利用好智算平台的算力。(三)智能项目合作:结合公司在AI计算领域的研发能力、产品能力和解决方案能力,与本地高校、科研院所、企业等联合申请国家、省部级以及地方重大科研项目、场景示范项目和产业应用项目等,配合其完成项目申报、验收等工作,在课题选择、方案研制、立项申请、报告撰写、成果运用等各个环节提供人工智能算力支持和专业技术指导。五、应用场景推广通过发展智算中心的赋能体系(引领示范和产品、方案的输出)和繁荣的生态体系(资本、创投、技术、科研、人才、企业等天数智芯助力提升区域算力产业的持续发展,支撑和赋能十四五数字经济发展规划的各类场景落地,为各行业智慧发展赋能助力。以下列举其中十个典型的应用推广95.1智慧政务以典型的材料预审和智能服务需求为例来提供智慧政在政务材料预审阶段,通过智能语音技术,基准识别用户真实需求,精准定位具体页面,提供真正了解客户需求的智能助手服务。同时,从远程视频预审中精准识别用户提交的材料内容,基于智能语义分析,搭建与申请事项之间的关联关系,更精准快速地完成材料预审工作。客户相关场景涉及到的模型以NLP和ASR居多,主要为BERT/Conformer/OCR/transformer/cascade等,另外还有自研的算法,且大部分代码实现基于CUDA生态,算力中心都可以满足需求。算力业务部署时可采用云边协同的方式,算力中心负责大规模计算和调度,并为边缘端部署模型;边缘端负责轻量级模型运行,将推理结果反馈给云端。以单任务串行为例,需要首先将语音、文本等非结构化数据做结构化处理,然后再基于不同任务的级联模型依次处理。5.2智慧交通在智能交通场景中,需要对道路上的车辆、物体进行结构化处理与分析,智能识别车辆故障、违法停车、应急车道占用等行为。通常会面临多路视频接入、海量数据处理等核心要求。同时,高速公路、城市道路、隧道、桥梁等不同细分场景的识别难点各有不同,叠加雨雪、光线、大雾等天气因素,使得在复杂场景下的算法模型趋近多样化。算力中心在以下典型场景助力智慧交通建设:l交通事件检测:行人上路检测、停车、逆行、事故、拥堵、抛洒物、烟火等l交通态势感知:车流量、平均车速、排队长度、车道空间占有率等l车辆结构化分析:车牌识别、车型识别、车身颜色识此外,利用交通行业海量数据,在算力中心构建云控大数据分析平台,实现异构数据的计算、多种AI算法协同和5.3智慧金融金融领域中,最常用到的就是票证识别业务,存在大量需要对证件、表单、票据等识别的场景,采用人工智能手段可以大幅度提高效率,降低人力成本。OCR是最常用到的技术之一。传统的OCR技术受限于手工设计特征的表达能力与处理流程的复杂性,对于较复杂的图片情况,例如带有大角度畸变或模糊不清的文本图像,很难达到理想的文字识别效果。基于算力中心的算力服务,结合深度神经网络模型,对图像预处理、文本检测、文本识别和后处理过程进行优化,实现多语种表单、复杂票据、小字票据等多个复杂场景中识别、性能及速度的大幅提升。5.4智慧城市:三维建模和数字孪生基于NeRF(神经辐射场)优化的全新3D渲染和建模技术,可用于大场景重建、360°物体重建、数字人等多种应用场景。通过对大场景多视角的2D图像或视频集合进行建模,从数据采集、数据集上传、发起训练任务和最终Mesh3D模型提取,一键式生成建模数据,操作简单易用。神经渲染(NeRF)凭借计算图形管线的可微分性Interpolation,TextureLookup,Antialiasing等多种接口,所生成的三维建模效果相比传统渲染,可达到更高精度,更流畅,更逼真还原度,满足不同场景、不同终端需求,助力数字孪生,智慧城市,数字文旅,数字人等建设。以下是针对360。环绕视频进行渲染后得到的直线漫游俯瞰效果展示,此效果可融入数字孪生智慧城市,数字文旅等场景中。基于算力中心的算力服务,可基于三维建模算法有效提供区域的监测和管理,提供赋能智慧城市化的管理。5.5智慧科研当前,人工智能驱动的科学研究已成为全球人工智能新前沿,科技部也于今年会同自然科学基金委启动AlforScience专项部署工作。AIforScience需要大量数据支持,也对算力提出了更高的要求。通过算力中心可以支持院校科研机构在教学和科研水平上一个新台阶,推进科学探索新成果,赋能国内高校加速研发创新。目前基于天数智芯产品的AIforScience科学数据中台项目已在上海交通大学落地,支持实现模型研究、低代码开发、科学数据解析、大模型预训练、数字孪生等多项功能。并推出定制版AI应用市场版块,其中包括StableDiffusion、ControlNet、OPT、数字人等多种应用,为师生教学和科研需要提供有效算力支撑。5.6智慧会议在大型会议场景中,为了方便现场及在线观众更容易地接受信息,以及会后媒体发稿更快速的发稿,往往采用现场AI字幕的方式进行实时输出。同时,在一些会议上还可能涉及到多国语言的演讲,需要为听众实时翻译。通过NLP分析技术、关键词检索技术,对用户交流内容进行快速审核,通过指定的规则对交流内容进行情感分析判断,再分类引导处理。天数基于通用GPU产品,对客户语句进行拆解,对长难句进行压缩理解,保留关键词,引入TextCNN等处理方法,结合上下文,自动进行纠错与指代理解,从而进行更精准的语义理解与情感判断。成技术,智能声音合成技术和音唇同步等人工智能新技术,具备高度智能性。可融入数字文博,直播,智慧商场等场景中,基于算力中心提供智能化服务。数字人展示5.7智慧医疗医学影像:算力中心可支持包括Yolo、Resnet、U-Net3D在内的多种用于临床医学的图像检测与分割模型,可以基于2D、3D图像实现对相关病灶的自动检出和分割,为患者临床治疗提供辅助参考。基因测序:搭建RNNNLP类等AI深度网络训练平台,构建基因检测碱基对识别的能力,将对前端CMOS成像组件对碱基对的成像过程中形成的大量图片,经过AI模型后处理规整后,统一送入后端基因库存储。5.8智慧制造焊接、质量、弯曲度等检测。客户的主要应用场景为PCB检测,缺陷情况复杂,对精确度要求有较高要求,因此模型需要时常更新,但传统方法在模型失效后再训练周期长,成本算力中心提供训推一体化算力服务,基于通用GPU产品,结合机器视觉与神经网络算法,支持端到端复杂场景的AI质检,实现从人工设计特征与规则到AI自动学习的突破,支持模型的持续训练优化并快速上线,从而保证质检的准确科学计算的需求也日益增多,对于算力上云的需求也成为了趋势,可以有效利用算力来满足更多的需求。算力中心可以提供下述科学计算功能:AIforCFD流体模拟AI4SCI算法研发和优化,如PINN等;传统HPC算法的研发和优化,以及AI+HPC统一算法架构的研发和优化;开发了高度集成的偏微分方程AI求解库pdelab。AIforMD分子动力学AI4MD的算法研发和优化,基于Transformer,图神经网络,等变神经网络等进行MD神经网络应用研究,例如ET,NequIP,Equiformer等;结合传统异构加速计算库与神经网络方法,实现高效MD的全流程,形成解决方案,赋能计算生物学,药物设计,化学材料模拟等领域的研究和应用。AIforFinance金融搭建数据库;构建金融领域模型算法,模型包括:1)神经网络价格预测、时间序列分析及做市商模型。2)利用强化学习构建交易系统。3)期权定价模型。4)基于图神经网络及Finbert股票的相关性分析;跟踪金融科技领域算法模型最新进展。5.10AI大模型近几年,AI大模型的发展势头强劲,国内外相关企业和科研机构对AI大模型的发展起到推波助澜的作用,在实际应用落地过程中,因算力资源成本、训练数据限制等原因,方案落地显得尤为重要。天数智芯通用GPU产品快速完成了业内主流大模型的兼容适配,从底层硬件到软件加速库,从通信框架到系统集群进行了全方位优化,提供了可用并易用的大模型预训练、微调、推理完整解决方案,在政务、金融、司法、工业等方面率先落地,提高行业处理效率。天数智芯通用GPU支持国内外主流分布式训练框架,例如DeepSpeed、Megatron-DeepSp等,可支持数据并行、张量并行、流水线并行等多种并行模式的训练策略,能够自适应完成算力分配,提高训练效率,降低训练成本。系列、Cogview、悟道系列等国内外基础大模型预训练,以及面向教育、环保、医疗、能源等垂直领域进一步微调训练的能力。以“悟道”系列大模型为例,通过搭建1600张天垓100纯国产化算力集群,从零开始完成了650亿参数量规模代码生成大模型的完整预训练,模型收敛效果与A100集群收敛效果相当,且长时间运行稳定,满足用户实际生产需六、市场营销策略运营公司一方面构建人工智能新型基础设施,满足人工智能高质量发展对算力的多样化需求。另一方面,推动AI大模型、智慧城市、智慧交通、智慧语音、智慧金融等人工智能应用场景落地,为所在地区数字转型、智能升级、融合创新提供基础动能。基于公司的定位,公司目标市场如下:按应用场景细分,公司重点面向AI典型应用场景,如图像识别、自然语言处理、智能制造、自动驾驶、智慧城市按地理细分,公司重点投入豫北地区,积极开拓华中地区,打造区域内标志性人工智能基础设施。1、前期优惠政策为推广国产云端算力服务,降低客户迁移算力平台带来的额外成本,算力运营公司在对标当前主流算力卡同等性价比的基础上,提供一定的价格优惠及相应的适配调优服务,并优先给予当地重点产业及科研教育用户算力券补贴等政策,以推动建设示范项目。在信息化集成业务方面,平台将根据客户的行业特点、业务成熟度,并给予不同的资源分配。在平台推广初期,天数智芯团队将外派客户支持工程师提供免费调试服务。待垂直行业代表性客户顺利完成适配迁移后,算力平台再对新增商业定制化适配需求采取收费政策。2、差异化定价策略使用周期:算力平台服务将按照客户使用周期进行定价,例如按小时、按月或按年计费。使用周期长或预付月费、年费的客户将会享受到更优惠的价格。租赁方式:算力平台可以提供不同的租赁方式选择,包括整租服务器、租赁单卡算力、租赁池化算力资源等不同规模和性能的组合,客户可根据自身实际需求和预算选择合适的租赁方式。定制化需求:针对特定行业客户或特殊商业需求,算力平台可以根据客户提供定制化的服务方案,在评估人力和软硬件投入后,对客户进行一对一磋商报价,并安排专职运营人员跟进客户需求。3、提供多层次服务随着云计算市场的竞争加剧,单一的算力服务难以满足客户,需要提供多层次服务以增加用户粘性。公司可以根据客户价值的多层次来设计和提供服务。第一层次是核心价值,智算中心的核心价值是提供高效通用的计算设施以满足用户的计算需求。第二层次是基础价值,智算中心服务的基础价值是提供可供多节点并行的计算设施以满足用户并行计算需求。第三层次是期望价值,智算中心服务的期望价值是除了提供基本的硬件,还提供应用适配和应用软件以满足不同领域应用需求的。应用适配包括模型适配、调优等技术支持;应用软件包括免费开源软件和收费商业软件。第四层次是附加价值,智算中心服务的潜在价值是科研机构用户通过与中心合作,基于某课题开展共同研究,促进用户更快产出科研成果,在国内或者国际有影响力的期刊发表论文。企业通过与中心合作,促进企业用户研发部门优化算法模型,或根据企业自身特性开发新算法。4、宣传渠道多元化智算中心在运营初期,需要建立快捷、有效官网网站作为客户首选的网络渠道。官网可为用户提供一站式服务,集公司宣传、用户注册、计算资源申请、资源利用查询等多功能于一体。此外,可借助微信平台搭建官方公众号,作为对外展示的重要窗口;建设官方APP客户端,把计算服务、资源使用查询、作业监控等功能整合到APP中,满足客户的及时性需求;积极参与线下宣传,例如举办中心发布会、参与展会、科普参观等。5、优化促销策略公司可通过广告投放、公共宣传、人员推销等方式开展促销活动。在公共宣传方面,公司可积极参与公共服务活动,例如舆情监测、政务系统合作等,树立典型案例,形成口碑效益。在人员推广方面,公司可积极拜访本地龙头企业,了解客户需求,提供精准的解决方案;积极参加行业展会、产业对接会等,开拓新用户。公司承诺将基础设施/数据/用户等资源以双方协商的方式带入计算平台中,并按照预计的方式开展算力出租、服务支持、定制服务和产业应用服务。七、方案配置参考根据第一期200机柜国产算力部署计划,建议使用720台集群GPU服务器,其中每台服务器配置8张天垓100通用GPU卡;服务器之间通过交换机进行互联通讯;同时建议使用标准服务器提供云平台管理服务,提供应用服务及设备管理等接口给访问者,并赋予不同权限。天数智芯国产720P估算清单智算中心-200机柜(10KW)(720P)序号成本类型设备类型设备设备组件配置要求数量单位单价(万元)总价(万元)备注1机房设备机柜10KW200套24002IT设备计算节点GPU计算节点服务器机头服务器4U机架式服务器:IntelXeonGold6330*232G*16系统盘:2*480GSSDM.2数据盘:1*4TNVMESSD8个双宽PCIE4.0x16插槽网络:720台7200浪潮华三超微1*10G双口1*1G网口GPU拓扑要求pcieswitch级联直通模式3GPU卡天垓BIV10032GBHBM32T@FP32;128T@FP16;256T@INT8250W5,760张5288004管理节点管理节点服务器CPU服务器CPU:2*633028C2.0内存:256GB存储480GBSSD台5网络10/25G电源*2:1+1冗余电源800W5网络带外管理带外接入交换机48口千兆4口10G交换机
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺术品交易鉴赏期免责合同协议
- 股份制企业治理方案设计书
- 竞业限制合同协议
- 城市综合交通枢纽建设协议书
- 教科版高中信息技术必修教学设计-2.1 信息获取的一般过程
- 以租代购期权条款协议
- LOFT户型改建报备专项协议
- 家教服务合同与家教服务的合同书7篇
- 桐城打水源空调井施工方案
- 第3单元 第11课 西汉建立和“文景之治”(新教学设计)2023-2024学年七年级上册历史(部编版)
- 扶梯人行道检验验收作业指导书
- GB/T 20308-2020产品几何技术规范(GPS)矩阵模型
- 男孩女孩动起来健康运动知识PPT模板
- 体育原理课件
- 铁路道岔知识课件
- 自考公共关系学课件
- 森林害虫防治方法课件
- 各种el34名胆电子管评测
- 超分子化学-杯芳烃课件
- 北邮工程数学期末试卷B卷
- 超长结构及大体积混凝土专项施工方案
评论
0/150
提交评论