人工智能公共支撑平台功能需求_第1页
人工智能公共支撑平台功能需求_第2页
人工智能公共支撑平台功能需求_第3页
人工智能公共支撑平台功能需求_第4页
人工智能公共支撑平台功能需求_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能公共支撑平台功能需求1.1中台1.1大模型运行系统为了构建一个高效、稳定且可扩展的大模型运行系统,满足大规模AI模型的训练、部署和应用需求。大模型运行系统需提供的功能包括数据中心、模型管理、模型部署、应用编排、应用中心、边缘中心。需具备40个GPU节点(每节点8张GPU卡)的纳管能力(与大模型精调系统共用)。具体功能模块要求如下:序号功能模块功能项技术要求1数据中心数据源管理需支持远程数据源管理。2模型管理模型仓库需支持模型导入、模型共享。3模型部署在线服务一、新建服务(1)需支持容器绑定模型文件及镜像运行环境;(2)需支持公共镜像作为模型服务化运行环境;(3)需支持私有镜像作为模型服务化运行环境;(4)需支持绑定多个容器+镜像组成多容器模型服务;(5)需支持通过录入、选择提供必要的基本配置启动在线推理服务;(6)需支持Deployment和Statefulset两种负载类型;(7)需支持GPU卡类型至少包括A100、A800、H800、910B;(8)需支持选择实例扩缩容策略(手动调节,自动调节);(9)需支持配置容器自定义环境变量;(10)需支持关联secret,configmap配置启动服务;(11)需支持配置鉴权调用的用户白名单。(12)需支持服务上线审批。二、服务组管理(1)需支持根据“名称、创建者、状态”搜索服务组。三、服务管理(1)需支持通过服务组分组管理发布的推理服务,查看服务运行相关信息。(2)需支持对服务进行生命周期管理操作。四、服务更新(1)需支持对服务的配置信息进行更新操作,需支持滚动更新。五、多版本管理(1)需支持在同一服务组内,创建多个服务版本。(2)需支持为多个服务版本分配流量权重。六、接口管理(1)需支持在服务组内,创建接口,编辑接口,删除接口。七、调用请求日志(1)需支持统计已启用鉴权服务的接口调用次数。八、创建接口(1)需支持选择网络协议(JSON/PB),根据不同网络协议提供不同交互录入方式。(2)需支持HTTP+PB接口管理,支持WebSocket接口注册。(3)需支持JSON协议手动创建或json批量导入,支持录入调用地址,接口名称,选择请求方法(POST/GET),录入请求头,录入输入参数,录入输出参数,录入错误码,录入调用示例,录入输出示例。(4)需支持PB协议录入PB代码,通过PB代码解析得到接口信息,复杂类型信息,支持录入错误码。九、复杂类型管理需支持在服务组内,创建复杂类型,编辑复杂类型,删除复杂类型。十、服务日志需支持按容器查看服务日志。十一、服务监控需支持按容器查看服务调用量和资源使用量监控。十二、服务事件查看需支持查看服务事件信息,包括容器启动/销毁记录等。十三、容器登录实例pod运行后,需支持远程登录容器。十四、配置管理需支持管理、编辑、删除configmap/secret。边缘服务需支持边缘服务的新建、管理、更新和查看。端推理部署需支持部署包管理、部署详情查看。4应用编排工作流(1)需支持工作流列表:支持展示已有的工作流,可查看工作流基本信息;进行工作流的增删改查、复制等操作。(2)需支持工作流编排:支持对于自定义工作流,支持用户通过拖拉拽的方式将输入、输出、模型、函数等多种组件拖入工作流面板进行组合编排。(3)需支持工作流执行:支持对已经编排好的工作流创建执行任务,配置输入参数、选择执行模式后即可发起任务的执行调试。(4)需支持执行详情查看:支持查看执行结果,包括工作流结构与执行状态、节点耗时、详细执行事件数据等。(5)需支持工作流执行监控:支持提供工作流执行数据的观测能力,辅助应用开发人员进行工作流执行耗时、执行错误等信息的观测。第三方组件(1)需支持函数脚本组件管理:支持用户自定义创建函数用于工作流编排中引用,函数代码编写时可进行测试验证;支持对已有函数进行编辑,可查看已有函数的修订记录及还原历史版本。(2)需支持自定义组件管理:支持增删改自定义组件,通过自定义组件注册用于工作流编排。5应用中心应用工作台(1)需支持控制台应用查看:支持查看及检索已上架的控制台应用。(2)需支持API应用查看:支持查看及检索已上架的API应用,需支持查看API接口信息、进行API调试、查看应用监控数据。应用管理(1)需支持控制台应用上架:支持将第三方系统应用的访问入口上架至应用工作台,支持将自定义编排的工作流上架为控制台应用。(2)需支持API应用上架:支持将平台模型服务、工作流服务发布为API应用,并上架应用工作台。(3)需支持应用分享:支持通过应用编辑页面将应用分享至其他项目使用。6边缘中心/需提供的功能包括数据流设备管理、端推理设备管理、边缘集群管理。1.2大模型精调系统大模型精调系统需提供的功能包括自动学习、数据中心、训练工坊、模型任务、模型部署、大模型精调、管理中心。需具备40个GPU节点(每节点8张GPU卡)的纳管能力(与大模型运行系统共用)。具体功能模块要求如下:序号功能模块功能项技术要求1自动学习立即开始(1)需支持建模场景选择:支持选择不同的场景启动任务。(2)需支持训练任务配置:支持训练任务的超参、数据增强、资源选择。(3)需支持数据预览:支持预览训练集(图片、文本)的数据详情和标签分布。(4)需支持数据上传和拆分:支持从数据中心拉取数据进行训练,验证集可从训练集中抽取相应百分比的数据进行训练。(5)需支持内置训练框架:支持SENet、ResNext、Res2Net、MobileNetV3图像分类框架,支持YOLOV3、RetinaNet_ResNet50、GFL_ResNet50、FasterRCNN_ResNet50、FasterRCNN_Res2Net50图像检测框架,支持MaskRCNN_ResNet50图像分割框架,支持文本单标签分类、文本多标签分类。(6)需支持手动数据增强:支持通用场景手动进行数据增强策略。(7)需支持自动数据增强:支持通用场景自动搜索数据增强结果。(8)需支持自动超参搜索:支持通用场景AutoML自动超参搜索策略。(9)需支持训练任务日志查看:支持按照日期筛选查看模型训练日志。(10)需支持训练任务指标监控:支持模型训练指标(曲线)实时展示,支持暂停任务和继续训练。(11)需支持模型保存:支持将精调完的模型保存到模型仓库。(12)需支持模型快速校验:支持上传一张或多张测试数据(图片、文本等)获取结果。(13)需支持查看评测结果:支持查看自动评测的评测结果,支持将badcase保存到数据中心。(14)需支持调整阈值和iou:支持调整评测结果的阈值和iou。(15)需支持重新评测:支持重新发起评测。(16)需支持一键发布服务:支持模型一键发布成为服务。(17)需支持创建对比评测:支持通过创建对比评测任务,相同场景的不同模型进行比对,支持更换对比测试集并选择不同的对比版本。(18)需支持文本分类训练场景:支持单标签文本分类和多标签文本分类的建模场景。任务管理(1)需支持自动学习任务管理:支持用可视化界面管理自动学习任务。(2)需支持任务筛选与搜索:支持自动学习任务列表的搜索和筛选。场景管理需支持自定义场景配置:支持对算法,预训练模型,描述,配图,示例数据,资源等场景相关配置进行设定。2数据中心数据集管理(1)需支持数据集导入:支持本地导入或远程导入数据文件和标签文件到数据中心。(2)需支持数据集权限:支持数据集可见范围设定为“仅本人可见/所属项目可见/所属业务下的跨项目共享”。(3)需支持数据集详情:支持查看导入数据集的基本信息、预览图片内容/展示结构化数据/展示文本数据内容;若该数据集包含分类标签文件,则还支持查看标签类别可视化分布(环形图+表格)。(4)需支持数据集下载:支持用户可下载数据中心的数据集到本地,且支持指定文件格式zip/tar/gz。(5)需支持数据集类型:支持文本、图片、表格、语音、数据库表和“其他”类型的数据集导入,依据不同的数据集类型,展示不同的数据集详情分析预览。(6)需支持数据集追加、数据集替换:支持在已导入的数据集的基础上追加新的数据内容/直接全部替换数据集中的原始数据内容。(7)需支持数据切分:支持根据设置的比例将父数据集随机切分为2个或多个子集,每个子集支持重新命名并可选为不同用途。(8)需支持版本管理支持对数据集进行版本管理,同一个数据集可发布多个版本。(9)需支持筛选指定标签的数据导出:支持用户选中一个或多个数据集,并筛选指定标签类别,将筛选后的结果生成新的数据集后导出到本地。(10)需支持批量删除:支持用户选中多个数据集,进行批量删除。(11)需支持共享给本项目的数据集:支持统一管理从当前业务下别的项目分享给该项目的数据集。(12)需支持公共数据集:平台需提供所有用户可用的开源公共数据集,需支持出包内置和超级管理员导入两种方式得到公共数据集。(13)需支持数据处理:支持用户创建数据处理任务,支持图片数据清洗、去重、增强、图片生成、视频抽帧功能。数据源管理(1)需支持远程数据源管理:支持可视化管理用户个人的远程结构化和非结构化数据源,支持新增、更新、删除个人数据源。(2)需支持设置数据源权限范围:个人可见、项目内共享。集群配置需支持配置大数据集群,支持配置HDFS、Hive、Hbase、yarn组件。数据构建需支持数据构建pipeline:支持根据需求场景选择不同的数据构建pipeline,包含:有监督-单轮问答-pipeline、有监督-多轮问答-pipeline、无监督-pipeline。3训练工坊可视化建模(1)需支持工作流搭建:支持通过搭建工作流结构来实现模型搭建。(2)需支持权限管理:支持用户基于项目对工作流进行权限管理。(3)需支持demo工程:支持对demo工程进行不同权限下的操作。(4)需支持数据格式:支持csv数据、其他分隔符的文本数据、数据文件编码(UTF-8)。(5)需支持数据预处理:支持内置数据预处理的算子。(6)需支持数据转换:支持内置数据转换的算子。(7)需支持特征工程:支持内置特征提取、特征转换、特征选择、特征重要性分析的算子。(8)需支持内置算法:支持NLP、图算法、时间序列。(9)需支持内置框架:支持Spark、Pyspark、Tensorflow、Pytorch。(10)需支持可视化算法:支持随机森林、梯度提升、决策树算法模型的可视化展示。(11)需支持模型评估:支持中文回答评估、分类任务评估、回归任务评估算子。(12)需支持画布导入导出:支持画布导入导出功能。(13)需支持和Notebook调试打通:支持自定义组件算子可基于Notebook环境编写和调试脚本。(14)需支持Auto-ML:支持全自动AutoML。(15)需支持按画布保存为模型:支持按画布保存模型。(16)需支持一键启动批量预测:支持从模型仓库一键启动批量预测画布,支持预测画布的模型更新操作。(17)需支持画布并发数设置:支持画布设置实例并发数。算法管理(1)需支持自定义模版:支持创建自定义算法模版。(2)需支持内置模版:支持对平台内置算法模版进行管理,普通用户与管理员拥有不同权限。(3)需支持版本管理:支持算法模版的版本管理功能。(4)需支持模版调试编辑:支持将算法模版打开到Notebook。(5)需支持训练快捷启动:支持从算法模版一键创建训练任务。(6)需支持脚本下载:支持下载脚本代码。算子需支持上采样、下采样、修改列名、去除重复行等算子。Notebook功能(1)需支持新建实例:支持新建Notebook实例,支持选择数据集或者数据源作为数据来源,支持选择公共镜像/项目镜像,支持选择英伟达A100、英伟达A800、英伟达H800、昇腾910B。(2)需支持交互式编写代码:支持在容器中使用Notebook新建多个文件并进行交互式的编程。(3)需支持内置SDK开发套件:支持直接在Notebook环境中提交训练任务。(4)需支持查看运行日志和事件:支持查看Notebook实例运行日志和事件。(5)需支持从算法模版打开:支持基于算法模版打开Notebook。(6)需支持可视化建模打通:支持作为可视化建模的组件算子的调试环境,支持在可视化建模的画布中打开Notebook开发自定义脚本。(7)需支持导出为镜像:支持Notebook实例导出为自定义镜像。(8)需支持闲置资源自动回收:支持项目管理员设置项目内Notebook实例闲置自动回收。(9)需支持ssh远程连接:支持ssh远程连接,支持本地开发IDE连接平台Notebook算力存储资源。(10)需支持多人协作:支持Notebook支持多人协作。(11)需支持Tensorboard监控:支持平台预置PyTorch、Tensorflow、MXNet预置Tensorboard功能,支持直接集成Tensorboard到Notebook代码中。(12)需支持端口映射:支持端口映射,用户可通过IP/可对外访问的端口访问Notebook。SDK开发套件需支持训练任务提交(包括MPIjob,Sparkjob和TFjob),数据集挂载,数据源读写,模型仓库注册等功能,支持分布式训练框架,包括PS-Worker、DDP、Horovod。任务式建模(1)需支持创建任务:支持通过控制台界面、SDK开发套件提交训练任务;支持通过算法模版、自定义镜像、直接上传代码包方式构建任务;支持按训练代码包/平台内置的大模型训练运行镜像启动大模型精调训练;支持添加多个数据集、添加超参数、添加预训练模型;支持单机多卡和多机多卡任务配置;训练任务支持按“高优”和“低优”区分优先级,支持对“等待中”和“运行中”状态的任务进行优先级调整。(2)需支持Tensorboard监控任务:支持创建任务时启用tensorboard可视化监控;支持tensorboard可视化监控任务的启动、停止、查看监控面板。(3)需支持任务管理:支持任务的启动、停止、重启、暂停,断点续跑,复制,删除;支持checkpoint启动轻量体验和客观评测;需支持查看任务详情;需支持任务指标上报和指标监控;需支持训练日志和事件查看;需支持训练任务资源监控;需支持基于上报的训练指标为任务设置停止条件;需支持查看tensorboard监控页面。4模型管理模型仓库(1)需支持模型导入:支持从训练任务导入到模型仓库;支持外部导入模型仓库;支持可视化建模导入的模型启动离线批量预测。(2)需支持模型共享:支持模型在项目间的共享。模型优化(1)需支持新建优化任务:支持通过新建优化任务进行模型的推理加速,支持TorchScript、MMDetection、Detectron2三种格式的单个模型文件的优化;支持从任务式建模导入、从本地上传、从项目导入;支持无损和FP16两种加速方式。(2)需支持管理优化任务:支持对优化任务进行管理操作,包括"停止"、"保存到模型仓库"、"重新加速"、"删除"。(3)需支持查看优化任务:支持查看优化任务的具体情况,包括填写的优化任务信息,任务生成的加速比报告。5模型部署在线服务在线服务需提供的功能包括新建服务、服务组管理、服务管理、服务更新、多版本管理、流量分配、接口管理、调用请求日志、创建接口、复杂类型管理、服务日志、服务监控、服务事件查看、容器登录、配置管理。6大模型精调大模型精调需支持一键精调大模型:具备对Epoch、BatchSize、LearningRate、Step、MaxSequenceLength参数进行修改;需支持查看训练过程中的loss曲线、验证集的客观指标评估(困惑度、ROUGE值);需支持输出模型训练中间结果的checkpoint。大模型推理需支持一键部署大模型:支持一键部署内置模型发布服务;支持以前端页面的问答形式体验模型效果。7管理中心/管理中心需支持镜像仓库、业务管理、个人中心、角色管理、用户管理、运维管理、审计日志、审批管理、License管理功能。1.3知识增强服务知识增强服务需提供的功能包括应用管理、知识库问答应用运营、欢迎状态、应用信息、答案形式、调用量统计API调用。知识增强服务需提供40QPS的能力。具体功能模块要求如下:序号功能模块功能项技术要求1应用管理/(1)需支持一个账号支持多个应用。(2)需支持增删改应用;支持发布应用;支持管理应用列表。2知识库问答应用运营应用基础设置(1)需支持编辑应用名称、应用图标。(2)需支持角色描述:需支持机器人基于“角色描述”中的人物介绍给出回答。欢迎语需支持欢迎语编辑、对话的开场白内容编辑。知识库来源(1)需支持勾选是否使用文档库中的文档、FAQ进行检索、问答。(2)需支持应用基于平台配置的任务流程进行问答。知识库来源配置(1)需支持知识库来源勾选,可配置是否使用文档、问答、任务流程作为知识来源。(2)需支持文档、问答数最大召回设定:知识库问答采用检索增强生成框架,可设定文档结果默认匹配的数量,可设定问答结果默认匹配的数量。模型配置(1)需支持模型选择:支持选择平台上的模型。(2)需支持上下文改写;仅修改指代型问题,如果出现主语省略,会将主语替换补全之后做召回;如果出现指代不清等情况,会将主语替换补全之后做召回。(3)需支持上下轮记忆;对于已输入内容的上下文进行记忆,能够承接上文回答问题。输出配置(1)需支持输出方式设置:选择答案通过流式形式或非流式形式输出。(2)需支持设置自定义问题回复语:关闭情况下,若文档库、问答库及搜索引擎中暂未提供相关知识,知识库应用将使用通用模型能力作答。开启状态下,若当前文档库、问答库及搜索引擎中暂未提供相关知识,知识库应用将使用未知问题回复语作答。文档库(1)需支持文档导入:支持pdf\docx\doc\pptx\ppt\形式知识文档导入上传(不超过100MB);支持xlsx\xls\md\txt形式知识文档导入上传(不超过20MB);支持带文字的png\jpg\jpeg图片导入上传(不超过50MB)。(2)需支持导入部门对外官网、支持文档适用范围设置、支持外部引用链接展示(知识库文档或部门对外官网网页)、支持文档列表管理、支持文档到期时间设置。问答库问答库需支持录入问答、文档生成问答、问答校验、冲突问答校验、问答溯源、问答列表管理、适用范围设置、问答导出和问答到期时间设置。任务流程任务流程支持手动录入任务流程;在列表中查看任务名称、修改时间、添加时间、任务状态;支持对任务流程创建分类、批量移动、删除;画布保存和保存到测试环境,画布逻辑的基础校验。知识标签知识标签支持新建属性标签、标签列表管理、检索和用户传参功能。单条验证(1)需支持单条验证:支持修改配置后输入会话验证展示效果;支持修改配置后输入会话验证应用回复语。(2)需支持文档问答:支持上传文档进行实时摘要,单个文档不超过15MB、单个文档不超过1000页;支持上传文档进行问答对话,单个文档不超过15MB、单个文档不超过1000页。(3)需支持文本问答:支持输入文本问题进行问答。批量验证需支持批量验证:支持批量导入样本集验证问答效果。标注(1)需支持结果标注:支持对批量测试的结果进行标注;标注完成后可查看当前样本集的准确率。(2)需支持标注结果导出:支持批量导出标注好的样本集。待发布需支持待发布:支持查看上次发布后修改的配置项,包括知识库变更;查看上次发布后修改的配置项,包括配置变更等。发布上线需支持将处于待发布的文档、问答、拒答问题进行发布,发布后支持调用API问答/支持web端问答,等待时间为分钟级。发布历史需支持发布管理,支持查看历史版本更新记录。调用信息需支持发布后通过链接体验应用效果;支持发布后通过二维码/API形式体验应用效果。拒答干预需支持拒答问题发布上线后,模型判断和拒答问题相似语义类的问题将拒绝回答,并直接提供兜底回复语。3欢迎状态/聊天界面需支持主动致以欢迎语。4应用信息/需支持显示应用名称、支持显示图标;支持上传文档进行问答对话,单个文档大小限制15MB、单个文档最大支持1000页;支持纯文本形式问答。5答案形式/(1)答案形式需支持文本、图片、连接。(2)需支持赞/踩:当应用回复答案之后,用户可对应用回复进行点赞、点踩。点踩之后可选择“重新生成”,或者“反馈错误类型”。(3)需支持答案来源追溯:对于该答案的来源(来源于文档、网页地址)进行引用展示;支持点击跳转。6调用量统计/需支持查看模型的调用量统计数据。7API调用/需支持Embedding、多轮对话、文档解析的API调用。1.4数字人开发平台数字人开发平台需提供的功能包括数字人定制、数字人分身、声音克隆、数字人管理系统、数字人会话驱动、会话驱动指令并发、AI组件能力,其中要求播报数字人最大支持5QPS,交互数字人最大支持30QPS。播报数字人需提供文字输出5QPS的能力,交互数字人需提供文字输出30QPS的能力。具体功能模块要求如下:序号功能模块功能项技术要求1数字人定制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论