人工智能数据集工作介绍-20240429_第1页
人工智能数据集工作介绍-20240429_第2页
人工智能数据集工作介绍-20240429_第3页
人工智能数据集工作介绍-20240429_第4页
人工智能数据集工作介绍-20240429_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多样化的训练数据集,成为拉开能力差距的关键要素。数量:数量:万级别数量:万级别MNISTMNIST浅层学习时期深度学习时期(2012~2018)预训练模型时期2022年产学研提出“以数据为中心的人工智能”(Data-centricAI高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。人工智能领域的权威学者吴恩达,发起了“以数据为中心的AI”,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。3通过添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。3•2021年举办了首届“以数据为中心的人工智能竞赛”,比赛仅允许通过改进数据来提升模型的性能。80%的高质量数据与20%的模型训练构成了更好的AI数据质量管理↓数据获取↓数据获取Prompt工程数据训练工程数据标注Prompt工程数据训练工程数据标注专家标注专家标注数据过滤数据过滤行业数据集行业数据集PromptPrompt数据集预训练数据集SFT预训练数据集SFT数据集数据质量提升RankRank标注通用大模型行业大模型数据清洗通用大模型行业大模型数据清洗预训练大模型微调大模型预训练大模型微调大模型优化优化优化优化大模型基准测试数据质量评估大模型基准测试数据质量评估数据分布评估数据毒性评估数据分布评估数据毒性评估数据内容评估4数据数量评估数据内容评估4数据数量评估5我国AI数据发展仍落后美国,处于全面追赶的地位与美国相比,我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、AI数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足u全球流量靠前的1000万个网站中,网站语言为中文的仅u全球最大的人工智能开源社区Huggingface已发布开源数据集仅有150多个,CC中的中文只占4%,且大部分是AI数据集质量低u现有公开数据集与大模型预训练需求不匹配,多数无法u缺乏对高质量数据集的定义u数据质量评估方法和体系缺失u数据治理技术发展尚不完善AAI数据发展顶层设计不完善•美《国家人工智能研究和发展战略智能训练及测试的公共数据集和环北京、上海两地在政策文件中明确AAI数据产业链和生态服务不成熟u数据毒性检测、数据偏见检测、数据优化等技术发展仍数据合成、数据质量评估、u统一的数据治理标准、数据服务生态协同和调度机制缺2024年4月17日,美国商务部官网发布《人工智能和开放政府数据资产信息征集请求》,向行业专家、研究人员、民间社会组织等公众成员征询有关开放数据资产发展的宝贵见解,旨在了解如何改进商务部开放数据资产的创建、策划和分发方式,以促进生成性人工智能等人工智能技术的发展和进步。核心征询问题1、数据传播标准:格式、元数据和文档、元数据标准方面2、数据可访问性和检索:直观易用的数据门户、清晰的标4、数据完整性和质量:增强公共数据完整性和准确性最佳实践方式、真实性偏见、隐私、公平性和道德等相关挑战的5、数据伦理:清晰的法律和道德指导方针、识67发展需求高质量长高质量大规模大规模全维度全维度Data-centricAI面临挑战面临挑战重点工作重点工作数量数量质量供需生态顶层支撑标准评测质量研究生态合作•顶层支撑标准评测质量研究生态合作•搭建人工智能数据集标准体系,构建“方升”大模型•构建人工智能数据集质量评估体系,搭建质量评估8着力破解AI中文数据集数量不足、质量不高、数据产业链和生态服务不成熟、AI数据治理基础薄弱等的瓶颈制约问题着力推动人工智能数据高质量发展的着力破解AI中文数据集数量不足、质量不高、数据产业链和生态服务不成熟、AI数据治理基础薄弱等的瓶颈制约问题着力推动人工智能数据高质量发展的制度创新、模式创新、场景政产学研用协同的良性发展格局着力形成“数据-算力-模型”协同发展的合力,推动形成“飞轮效应”,为通用大模型和行业大模型训练和创新迭代提供有效数据供给主要任务面向模型数据全生命周期AI数据集标准体系V1.0规范数据集全流程,形成优质高质量的数据产品和完备的AI数据集管理体系,更好服务于模型的开发与应用。9人工智能高质量数据集标准体系具体包括“A基础共性”、“B关键技术”、“C工具平台”、“D质量控制”、“E工程开发”、“F产品服务”、“G行业应用”、“H安全伦理”等八大部分9工作二:标准体系—数据生产和质量管理《面向人工智能的数据生产和标注服务能力通用成熟度模型》面向数据生产标注服务商、数据标注基地,考察产品交付和实施方面的能力,包括对项目实施方案设计能力、对项目管理的能力、对数据产品进行交付的能力、提供客户技术服务的能力。技术服务客户服务交付管理交付方式风险管理质量管理成本管理需求分析进度管理方案分析技术服务客户服务交付管理交付方式风险管理质量管理成本管理需求分析进度管理方案分析方案设计参编单位...《人工智能数据集质量管理能力评估方法》面向人工智能技术研发企业、数据生产标注服务商、数据标注基地,考察其在数据集全生命周期的质量管理体系水平,包括对AI数据生产和应用流程的管理能力、对AI数据进行质量评估的能力、企业组织规范完备程度。管理共享管理制度培训制度操作制度评估报告材料准备指标体系数据处理数据采集方案设计管理共享管理制度培训制度操作制度评估报告材料准备指标体系数据处理数据采集方案设计模型应用参编单位参编单位...工作二:标准体系—大模型数据开发管理《大模型数据集开发管理能力评价方法总体要求》标准编制,大模型数据开发管理的全流程提供可借鉴可参考的标准规范。已报名参编单位共81家,涵盖了大模型企业、三大运营商、数据服务商、高校、科研院所、律所等种类型。部分已报名参编单位大模型数据集开发管理能力评价方法总体要求部分已报名参编单位大模型数据集开发管理能力评价方法总体要求工作二:标准体系—人工智能合成数据合成数据作为数据科学领域中快速发展的趋势和人工智能技术研发的新兴工具,存在合成数据的生产应用流程尚未规范、缺少合成数据质量管理方案等问生产流程质量评估运营管理《人工智能合成数据生成和管理可信评估方法》标准围绕数据生成、数据生产流程管理、数据质量评生产流程质量评估运营管理数据生成数据维护与更新可用性可解释性覆盖度隐私度保真度数据标注数据合成原始数据采集数据处理方案设计数据规模应用场景数据类型数据安全数据备份数据存储数据维护与更新可用性可解释性覆盖度隐私度保真度数据标注数据合成原始数据采集数据处理方案设计数据规模应用场景数据类型数据安全数据备份数据存储生成方式工作二:评测—“方升”大模型基准测试体系2.测试方法4.测试工具2.测试方法4.测试工具能源任务规划多轮对话...数据分析信息检索知识检索............工具使用能力长文本能力角色扮演能力多语言能力学科能力理解能力推理能力知识能力生成能力视频理解语音处能源任务规划多轮对话...数据分析信息检索知识检索............工具使用能力长文本能力角色扮演能力多语言能力学科能力理解能力推理能力知识能力生成能力视频理解语音处理内容可靠内容鲁棒视觉推理视觉问答图像描述图像生成3D处理...科研教育医疗软件工程金融政务科研教育医疗软件工程金融政务电信...网页处理网页处理思维链思维链能力图像理解图像理解政治敏感违法违规...价值对齐歧视偏见...价值对齐歧视偏见...个人隐私个人隐私企业机密...3.测试数据集标签筛选、动态更新、灵活抽样107个数据集,300万条测试数据自动化框架,智能化评估方升”是秦国的商鞅实行变法时所发布的标准量器,是我国最早的标准量器中国信通院于“2024ICT深度观察研究成果报告会”上发布“方升”大模型评测体系,北京智源研究院、认知智能全国重点实验室、天津大学共同见证体系发布。国网智能电网研究院、首都之窗、电信研究院、甲骨易等9家单位成为首批“方升”合作伙伴。发布仪式现场梳理大模型基准测试工作流,并参照工作流开发大模型基准测试框架测试框架在测试数据集的质量管理、高质量测试数据集的智能抽取以及大模型自动化结果评估等具有优势 测试需求分析测试数据构建测试环境准备基准测试执行测试结果评估测试报告生成测试标准确定测试范围选择测试重点分析测试方案设计动态化测试数据库统一测试数据格式测试数据标签管理测试数据自动清洗测试数据智能采样测试数据智能生成测试框架自动测试测试框架自动测试支持API接口测试支持本地部署测试测试任务切分测试任务队列分布式测试自动化评估大模型评估专家人工评估统计分析权重设置与推荐综合评分及排位缺陷分析报告生成结合传统大数据质量要求和人工智能模型训练应用需求,按照“可用+好用+落地”的设计原则展开人工智能高质量高质量数据集评估标准制定工作,并输出《面向人工智能的数据集质量通用评估方法总体要求》。大数据质量要求一级指标大数据质量要求一级指标人工智能数据集质量要求人工智能数据集质量要求数据链路来源记录数据链路来源记录性元数据语义有效采集时间代表性语义有效采集时间代表性智能贡献性数据源复杂度时间空间领域专业数据集领域覆盖数据结构更新频率采集过程元数据管理版本控制上下文抗攻击性领域覆盖数据结构更新频率采集过程元数据管理版本控制上下文抗攻击性时间空间任务覆盖数据真实安全隐私响应速度数据源模态覆盖二级指标信息覆盖数据真实安全隐私响应速度数据源模态覆盖二级指标信息覆盖险按照“规则检测+人工抽样+模型效果”的“三道关卡”融合方案展开人工智能高质量数据集评估平台的搭建工作,优化并实现评估指标的有效落地,破解当前评价体系实施难题,确保评估标准精准衔接实际工作。人工抽样模型效果规则检测人工抽样模型效果验验果检测方法整检测方法检测方法主观指标主观指标客观指标成立背景:成立背景:AIIA产业数据组于2021年5月成立,围绕人工智能数据集开展多项合作研究工作,建设数据集资源分享平台。为促进通用人工智能发展,解决大模型数据短缺及质量问题,2023年9月正式升级为AIIA数据委员会。职责定位职责定位主要任务主要任务组织架构组织架构工作机制工作机制 成员单位成员单位工作四:生态合作—启动人工智能数据服务产业链图谱编制人工智能数据服务产业是人工智能高质量数据集的核心生产力。人工智能数据服务产业图谱旨在清晰展现人工智能数据服务领域关键技术、工具平台、运营服务、人才培养以及行业应用等产业关键要素,涵盖数据采集、清洗、标注、评估、共享、流通等数据全生命周期环节。模型生命周期模型生命周期数据要素市场化人工智能高质量数据集行业应用人工智能数据服务产业链数据标注培养运营服务工具数据要素市场化人工智能高质量数据集行业应用人工智能数据服务产业链数据标注培养运营服务工具平台关键技术才人20AIIA数据委员会2024年第一季度工作进展总结密切与各方沟通,开展系列线上、线下活动;推动数据集系列标准研制,持续建设基准测试数据集;密切与各方沟通,开展系列线上、线下活动;推动数据集系列标准研制,持续建设基准测试数据集;4月成立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论