版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MindSpore数据框架主要技术架构及关键特性华为2012实验室陈雷AI开发者面临着各种各样的数据问题和挑战?Garbage
In?Gold
Out数周~数月70%1.训练数据准备开销,在整个训练过程占比超过70%2.训练数据多样性不足,精度提升慢;3.训练数据量大,迭代时间长;4.模型训练过程黑盒,模型结果可解释性差,模型调优效率低2MindSpore数据框架,直面AI数据问题与挑战,构建端到端AI数据处理与可视化能力MindSpore
端边云独立的和协同的统一训练和推理框架提供端到端AI数据处理,有效降低数据准备成本,缩短模型训练周期数据框架计算框架人机协同的半自动标注框架:快速搭建数据标注系统,加速训练数据准备AI数据可视MindExpression模型精度调优模型性能调优统一高效的自研数据格式:自描述可检索的AI数据格式,让训练数据处理更高效自定义可视化插件框架数据精炼:训练时间缩短10%,精度不下降AI数据处理GraphEngine半自动化标注
数据精炼训练数据高效处理训练过程可视、软硬件全栈信息可视能力,显著提升模型调优效率和开发者体验。高效AI数据格式模型精度调优:错例可视化解释、模型溯源与比对模型性能调优:数据集可视、鞍点可视、学习率曲线端-边-云协同分布式可信架构31.训练数据准备成本高的主要原因:数据标注成本高自动驾驶场景2D车辆/行人检测模型为例百万级训练数据人工标注需要数百人天4人机协同的半自动标注,显著提高标注效率,加速训练数据准备人工标注99%半自动标注数据半自动标注,典型场景下实现标注准确率99+%,标注效率提升4倍52.解决训练数据读取性能和多样性不足问题,需要高效数据处理能力模型调优时,现有开源框架不支持组合检索,获取特定训练数据困难。(如:自动驾驶场景,需要补充
雪天有交通灯的图片)6自描述、可检索的AI数据格式,让训练数据处理更高效训练数据集的问题与挑战关键特性1.
无统计,数据集理解难2.
无索引,数据查询分析慢提供数据统计支持数据集可视化,数据分布和统计直观可见,分析快3.
海量小文件,读取性能差0102解决方案:AI数据格式提供索引信息支持高效检索,快速获取和分析指定类型或组合条件数据StatisticsIndex自描述可检索原始数据+标注信息数据聚合提供数据聚合03支持高效训练数据读取•
以ImageNet数据集为例,基于AI数据格式,训练数据访问性能显著提升Schema元数据定义73.训练数据量大,包含大量低价值数据,严重影响训练效率迭代训练迭代训练网络模型1模型训练训练数据D网络模型2训练数据DXXX模型模型训练模型择优….迭代训练网络模型n训练数据D模型训练同一训练数据多种网络模型构建不同模型,好中选优训练数据量越来越大,训练时间越来越长,有时需尝试多种网络模型,导致训练时间成倍增长。如何剔除对训练精度影响很小的低价值数据,加速模型训练成为挑战。8数据精炼,精准识别并剔除低价值数据,让训练更快速模型训练静态数据精炼训练数据集动态数据精炼精简后训练数据集高影响数据低影响数据中等影响数据模型精度不下降,训练时间减少超过10%(ResNet/Bert)94.为什么需要数据集可视?“亡羊补牢”成本高,严重影响训练性能以前:事后补救,“亡羊补牢”目标:提前优化,“未雨绸缪”模型结果差数据集可视训练时间↓30+%手工编写脚本分析训练数据集问题训练数据集问题调整数据分布或补充某些类型数据调整数据分布或补充某些类型数据模型结果满足要求模型结果满足要求10数据集可视例子:训练集不同数据类型分布可视11模型结果可解释性差,无法得到图片和文本分类错误的原因,模型调优难耗时长?预测类别:实际类型:橙子图片分类结果错误,但是不知道为什么错?
无法得知分类依据的特征面包圈地产交易活跃家装市场淡季不淡【本报讯】(记者徐强)进入暑期,由于高温和湿度的影响,装修界通常会将这一时期视为“休眠期”,由此出现家装市场所谓的“淡季”。但记者在近日采访中发现,深圳家装市场近段时间并没出现预期中的淡季,相反旧房翻新改造、新房装修布置等各种各样的装修工程反而多了起来。很多家装公司接单的数量也较前几个月增长两成左右。专家分析,这与近期深圳房地产交易活跃,以及新学期将至,很多家长为方便孩子读书换房有关。两股力量带旺暑期装修。记者在百安居泰然店采访时了解到,进入6月份以来,家具和地板等装修材料预测类别:房地产实际类型:家居?文本分类结果错误,也不知道为什么错?因为一样不知道分类依据。12图片和文本分类错例可视化解释,实现模型推理结果可解释,有效加速模型调优预测类别:面包圈实际类型:橙子通过热力图方式,展示决定图片分类结果的关键特征区域,从而知道为何错了。预测类别:房地产实际类型:家居通过不同背景颜色深度,体现不同关键词对分类结果的影响度,明确分类结果的决策依据。13MindSpore数据框架,聚焦AI端到端处理,从数据维度持续构建关键能力,加速模型训练数据框架提供端到端AI数据处理,有效降低数据准备成本,缩短模型训练周期AI数据可视人机协同的半自动标注框架:快速搭建数据标注系统,加速训练数据准备模型精度调优模型性能调优统一高效的自研数据格式:自描述可检索的AI数据格式,让训练数据处理更高效自定义可视化插件框架数据精炼:训练时间缩短10%,精度不下降AI数据处理训练过程可视、软硬件全栈信息可视能力,显著提升模型调优效率和开发者体验。半自动化标注数据精炼训练数据高效处理模型精度调优:错例可视化解释、模型溯源与比对模型性能调优:数据集可视、鞍点可视、学习率曲线高效AI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年统计工作计划与安排
- 护士个人年度工作计划汇编
- 加油站安全工作隐患排查计划
- 2024年小学英语老师的个人工作计划
- 2024年中学教师师德工作计划
- 幼儿园小班个人教学工作计划
- 2024年1月美术初级班教学工作计划
- 2024开学新计划作文
- 整学期教学计划音乐模板集合
- 初中语文教研个人计划第二学期例文
- 七年级上册历史-七上历史 期中复习【课件】
- 瑜伽合同范本
- 2024年初中体育课教学设计舞龙教案
- 企业社会责任报告编制合同
- 临床俯卧位通气患者眼部并发症护理
- FZ∕T 63039-2018 高强聚乙烯编织线绳
- 微观经济学(四川大学)智慧树知到期末考试答案章节答案2024年四川大学
- 一年级上册数学解决问题50道ab卷
- 二年级乘除法口算题计算练习大全2000题(可直接打印)
- 2024入团积极分子考试题库答案
- MOOC 玩转数字媒体技术-南华大学 中国大学慕课答案
评论
0/150
提交评论