




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能数据集工作介绍中国信息通信研究院人工智能研究所人工智能关键技术和应用评测工业和信息化部重点实验室人工智能关键技术和应用评测工业和信息化部重点实验室2024年4月2大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多样化的训练数据集,成为拉开能力差距的关键要素。数量:亿级数量数量:亿级类型:单一质量类型:单一质量:较高类型:多样质量:极高类型:单一质量:一般MNISTMNIST浅层学习时期深度学习时期(2012~2018)预训练模型时期32022年产学研提出“以数据为中心的人工智能”(Data-centricAI高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。人工智能领域的权威学者吴恩达,发起了“以数据为中心的AI”,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。通过添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。•2021年举办了首届“以数据为中心的人工智能竞赛”,比赛仅允许通过改进数据来提升模型的性能。80%的高质量数据与20%的模型训练构成了更好的AIPrompt工程数据训练工程 专家标注第1批:百科1+书籍1+行业1+...第n批:百科n+书籍n+期刊n+行业n+...数据过滤行业数据集Prompt数据集预训练数据集数据质量提升Rank标注数据清洗通用大模型行业大模型预训练大模型数据质量评估大模型基准测试数据分布评估数据毒性评估数据数量评估数据内容评估4数据集贯穿于大模型全生命周期,输出高质量数据集Prompt工程数据训练工程 专家标注第1批:百科1+书籍1+行业1+...第n批:百科n+书籍n+期刊n+行业n+...数据过滤行业数据集Prompt数据集预训练数据集数据质量提升Rank标注数据清洗通用大模型行业大模型预训练大模型数据质量评估大模型基准测试数据分布评估数据毒性评估数据数量评估数据内容评估4数据质量管理数据质量管理数据获取数据获取数据标注数据标注SFTSFT数据集微调大模型微调大模型5我国AI数据发展仍落后美国,处于全面追赶的地位与美国相比,我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、AI数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足中文数据集数量不足u全球流量靠前的1000万个网站中,网站语言为中文的仅占1.4%,远低于英语接近u全球最大的人工智能开源社区Huggingface已发布开源数据集超过5万个,其中中文数据集仅有150多个,CC中的中文只占4%,且大部分是AIAI数据集质量低u现有公开数据集与大模型预训练需求不匹配,多数无法u缺乏对高质量数据集的定义u数据质量评估方法和体系缺失u数据治理技术发展尚不完善AIAI数据发展顶层设计不完善•美《国家人工智能研究和发展战略计划》中,提出将“开发用于人工智能训练及测试的公共数据集和环北京、上海两地在政策文件中明确AIAI数据产业链和生态服务不成熟u数据毒性检测、数据偏见检测、数据优化等技术发展仍数据合成、数据质量评估、u统一的数据治理标准、数据服务生态协同和调度机制缺6AI数据之困,美国商务部就开放数据资产寻求公众建议62024年4月17日,美国商务部官网发布《人工智能和开放政府数据资产信息征集请求》,向行业专家、研究人员、民间社会组织等公众成员征询有关开放数据资产发展的宝贵见解,旨在了解如何改进商务部开放数据资产的创建、策划和分发方式,以促进生成性人工智能等人工智能技术的发展和进步。核心征询问题核心征询问题1、数据传播标准:格式、元数据和文档、元数据标准方面2、数据可访问性和检索:直观易用的数据门户、清晰的标4、数据完整性和质量:增强公共数据完整性和准确性最佳实践方式、真实性偏见、隐私、公平性和道德等相关挑战的5、数据伦理:清晰的法律和道德指导方针、识别和减轻人7大模型高质量数据面临新需求和新挑战,亟需工作新思路发展需求发展需求长Data-centricAI全维度大规模高质量数量质量供需数量质量供需生态面临挑战顶层支撑标准顶层支撑标准评测质量研究生态合作重点工作•成立人工智能数据工作专班,高效推进大模型数据•搭建人工智能数据集标准体系,构建“方升”大模型•构建人工智能数据集质量评估体系,搭建质量评估8着力破解AI中文数据集数量不足、质量不高、数据产业着力破解AI中文数据集数量不足、质量不高、数据产业链和生态服务不成熟、AI数据治理基础薄弱等的瓶颈制约问题着力推动人工智能数据高质量发展的制度创新、模式创新、场景创新、业态创新,形成央地协同、政产学研用协同的良性发展格局为深入贯彻习近平总书记的指示精神,落实国家关于人工智能发展的部署要求,加快建设人工智能高质量数据集,促进人工智能高水平自立自强,开展系列针对国家发改委、国家数据局等主管机构支撑工作,以及与地方数据局、数据集团、数交所协同工作。着力形成“数据-算力-模型”协同发展的合力,推动形成“飞轮效应”,为通用大模型和行业大模型训练和创新迭代提供有效数据供给主要任务主要任务9工作二:标准体系—构建人工智能数据集标准体系V1.0面向模型数据全生命周期AI数据集标准体系V1.0规范数据集全流程,形成优质高质量的数据产品和完备的AI数据集管理体系,更好服务于模型的开发与应用。人工智能高质量数据集标准体系具体包括“A基础共性”、“B关键技术”、“C工具平台”、“D质量控制”、“E工程开发”、“F产品服务”、“G行业应用”、“H安全伦理”等八大部分技术服务客户服务交付管理风险管理质量管理成本管理交付方式进度管理方案分析需求分析管理共享管理制度培训制度操作制度评估报告材料准备指标体系模型应用数据处理数据采集参编单位...工作二:标准体系—数据生产和质量管理技术服务客户服务交付管理风险管理质量管理成本管理交付方式进度管理方案分析需求分析管理共享管理制度培训制度操作制度评估报告材料准备指标体系模型应用数据处理数据采集参编单位...《面向人工智能的数据生产和标注服务能力通用成熟度模型》面向数据生产标注服务商、数据标注基地,考察产品交付和实施方面的能力,包括对项目实施方案设计能力、对项目管理的能力、对数据产品进行交付的能力、提供客户技术服务的能力。方案设计参编单位参编单位...《人工智能数据集质量管理能力评估方法》面向人工智能技术研发企业、数据生产标注服务商、数据标注基地,考察其在数据集全生命周期的质量管理体系水平,包括对AI数据生产和应用流程的管理能力、对AI数据进行质量评估的能力、企业组织规范完备程度。方案设计部分已报名参编单位工作二:标准体系—大模型数据开发管理部分已报名参编单位《大模型数据集开发管理能力评价方法总体要求》标准编制,大模型数据开发管理的全流程提供可借鉴可参考的标准规范。已报名参编单位共81家,涵盖了大模型企业、三大运营商、数据服务商、高校、科研院所、律所等种类型。大模型数据集开发管理能力评价方法总体要求生产流程质量评估运营管理数据维护与更新可用性可解释性覆盖度隐私度保真度数据标注数据合成原始数据采集数据处理方案设计数据规模应用场景数据类型数据安全数据备份数据存储工作二:标准体系—人工智能合成数据生产流程质量评估运营管理数据维护与更新可用性可解释性覆盖度隐私度保真度数据标注数据合成原始数据采集数据处理方案设计数据规模应用场景数据类型数据安全数据备份数据存储合成数据作为数据科学领域中快速发展的趋势和人工智能技术研发的新兴工具,存在合成数据的生产应用流程尚未规范、缺少合成数据质量管理方案等问《人工智能合成数据生成和管理可信评估方法》标准围绕数据生成、数据生产流程管理、数据质量评数据生成生成方式3.测试数据集4.测试工具工作二:评测—“方升”大模型基准测试体系3.测试数据集4.测试工具1.指标体系政治敏感违法违规...价值对齐歧视偏见...个人隐私个人隐私企业机密...科研医疗教育金融政务法律能源电信软件工程科研医疗教育金融政务法律能源电信...多轮对话多轮对话...知识检索知识检索...数据分析数据分析...信息检索信息检索...网页处理网页处理...任务规划任务规划...理理解能力生成能力推理能力知识能力内容可靠内容鲁棒视觉问答视觉推理图像描述图像生成3D处理图像理解视频理解语音处理角色扮演能力工具使用能力思维链能力多语言能力长文本能力学科能力2.测试方法标签筛选、动态更新、灵活抽样107个数据集,300万条测试数据自动化框架,智能化评估方升”是秦国的商鞅实行变法时所发布的标准量器,是我国最早的标准量器中国信通院于“2024ICT深度观察研究成果报告会”上发布“方升”大模型评测体系,北京智源研究院、认知智能全国重点实验室、天津大学共同见证体系发布。国网智能电网研究院、首都之窗、电信研究院、甲骨易等9家单位成为首批“方升”合作伙伴。发布仪式现场测试结果评估测试报告生成工作二:评测—建立大模型评测实施框架和工具平台测试结果评估测试报告生成梳理大模型基准测试工作流,并参照工作流开发大模型基准测试框架测试框架在测试数据集的质量管理、高质量测试数据集的智能抽取以及大模型自动化结果评估等具有优势测试需求分析测试数据构建测试环境准备基准测试执行>>测试标准确定>测试范围选择>测试重点分析>测试方案设计>>动态化测试数据库>统一测试数据格式>测试数据标签管理>测试数据自动清洗>测试数据智能采样>测试数据智能生成>>测试框架自动测试>支持API接口测试>支持本地部署测试>>测试任务切分>测试任务队列>分布式测试>>自动化评估>大模型评估>专家人工评估>>统计分析>权重设置与推荐>综合评分及排位>缺陷分析>报告生成高任及题化提信以问优于型,进断用模度促诊强颖少风增新减合于型和拟用模性过险大数据质量要求人工智能数据集质量要求性结构类别特征元数据数据集语义有效结构代表性领域目标采集时间数据链路智能贡献性来源记录时间空间复杂度描述高任及题化提信以问优于型,进断用模度促诊强颖少风增新减合于型和拟用模性过险大数据质量要求人工智能数据集质量要求性结构类别特征元数据数据集语义有效结构代表性领域目标采集时间数据链路智能贡献性来源记录时间空间复杂度描述任务覆盖领域覆盖领域专业数据结构采集过程更新频率元数据管理逻辑上下文版本控制抗攻击性噪声信息覆盖安全隐私数据真实响应速度数据源模态覆盖反馈模态时间空间结合传统大数据质量要求和人工智能模型训练应用需求,按照“可用+好用+落地”的设计原则展开人工智能高质量高质量数据集评估标准制定工作,并输出《面向人工智能的数据集质量通用评估方法量高质量数据集评估标准制定工作,一级指标数据源数据源内内容二级指标规则检测检测方法规则检测检测方法人工抽样检测方法应用指标主观指标客观指标按照“规则检测+人工抽样+模型效果”的“三道关卡”融合方案展开人工智能高质量数据集评估平台的搭建工作,优化并实现评估指标的有效落地,破解当前评价体系实施难题,确保评估标准精准衔接实际工作。模型效果模型效果果整验成员单位成员单位成立背景:成立背景:AIIA产业数据组于2021年5月成立,围绕人工智能数据集开展多项合作研究工作,建设数据集资源分享平台。为促进通用人工智能发展,解决大模型数据短缺及质量问题,2023年9月正式升级为AIIA数据委员会。职责定位职责定位主要任务主要任务组织架构组织架构工作机制工作机制数据要素市场化人工智能高质量数据集行业应用人工智能数据服务产业链工作四:生态合作—启动人工智能数据服务产业链图谱编制数据要素市场化人工智能高质量数据集行业应用人工智能数据服务产业链人工智能数据服务产业是人工智能高质量数据集的核心生产力。人工智能数据服务产业图谱旨在清晰展现人工智能数据服务领域关键技术、工具平台、运营服务、人才培养以及行业应用等产业关键要素,涵盖数据采集、清洗、标注、评估、共享、流通等数据全生命周期环节。模型生命周期数据标注数据标注养键运关务培技术营台人才具服平工20密切与各方沟通,开展系列线上、线下活动;.召开“方升”大模型基准测试体推动数据集系列标准研制,持续建设基准测试数据集;筹备海南组会密切与各方沟通,开展系列线上、线下活动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 18578-2025城市地理信息系统设计规范
- 卫星通信与导航技术专业教学标准(高等职业教育专科)2025修订
- 2025年中国花生干果市场全景评估及投资规划建议报告
- 中国电动叉车充电插头行业市场前景预测及投资价值评估分析报告
- 2020-2025年中国竹鼠养殖行业发展潜力分析及投资方向研究报告
- 中国旅行帐篷行业市场前景预测及投资价值评估分析报告
- 中国防松法兰螺帽项目投资可行性研究报告
- 2020-2025年中国大型客车行业市场调查研究及投资前景预测报告
- 2025年中国十四酸异丙酯行业市场发展前景及发展趋势与投资战略研究报告
- 2025年 云南省化工自动化控制仪表操作证考试练习题附答案
- 2025年广东省广州市南沙区中考二模道德与法治试题
- 2025届重庆市普通高中学业水平选择性考试预测历史试题(含答案)
- 2025-2030中国眼底照相机行业市场发展趋势与前景展望战略研究报告
- 2024年深圳市大鹏新区区属公办中小学招聘教师真题
- 人教版小学语文四年级下册作文范文2
- 大学语文试题及答案琴
- T/CSPSTC 112-2023氢气管道工程施工技术规范
- 24春国家开放大学《农业推广》调查报告参考答案
- 应急救援物资检查维护保养记录表(月度)
- 押金收据条(通用版)
- [甘肃]最新甘肃省造价文件汇编(310页)
评论
0/150
提交评论