86.大模型语料数据 供给标准化流程_第1页
86.大模型语料数据 供给标准化流程_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型语料数据供给标准化流程一、标准名称大模型语料数据供给标准化流程项目提出单位上海市经济和信息化委员会起草单位上海人工智能创新中心、中央广播电视总台、人民网股份有限公司、国家气象中心(中央气象台)、中国科学技术信息研究所、上海报业集团、上海文化广播影视集团有限公司、上海数据集团有限公司、上海市数商协会、北京市金杜律师事务所、上海信投数字科技有限公司、上海智慧城市发展研究院四、立项理由高质量、多模态、宽领域、海量级数据语料库是支撑我国人工智能大模型发展最重要的基石,也是目前面临核心挑战。其中以市场配置的方式组织数据要素,通过开源、众包模式,多方共同推进与建设高水平指令调优数据集,形成多知识、多模态、标准化的高质量语料数据供给是提升我国大模型数据要素供给能力的重要途经。为实现这一目标,建设高质量大模型语料数据标准体系是极具必要性和重要性。应围绕大模型训练需求,从大模型语料数据标准管理(例如数据供给标准化流程,数据供给分级分类、数据供给开放服务、数据平台管理、数据认证管理等);多模态语料数据技术要求(语料数据价值评价、技术要求等);语料数据处理平台(数据采集引擎、数据资产管理、数据标注平台);数据基建设施(高性能分布式数据处理引擎、高性能异构数据计算集群、大规模数据存储集群)以及行业领域的具体标准化要求(例如医疗、交通、科学、气象、法律等)开展标准研制工作。因此,本标准为高质量大模型语料数据标准体系第1部分:供给标准化流程通用要求。旨在根据大模型训练需求,研究编制统一的高质量大模型语料数据供给操作规范,为企业、科研院所、服务机构等涉及大模型研发的相关组织提供标准化参考依据。进一步推进上海大模型预训练语料数据基座建设,为通用人工智能大模型科研攻关做好供给支撑,进一步推动上海数据要素市场的高水平建设。五、主要内容高质量大模型语料数据供给标准化操作术语与定义、高质量大模型语料数据供给标准化流程框架、高质量大模型语料数据供给标准化流程中的数据准备、数据标准化处理、数据交付以及标准化审查认证的通用要求进行研制。六、适用范围本标准描述了高质量大模型语料数据供给标准化操作的通用要求。适用于大模型语料数据提供方和使用方在数据供给流程上标准化操作提供指导。也同时为有直接影响的质量大模型语料数据开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论