DB31T-语料库建设管理导则_第1页
DB31T-语料库建设管理导则_第2页
DB31T-语料库建设管理导则_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1上海市地方标准公示材料一.基本信息项目名称(中文)语料库建设管理导则项目提出单位113100000024220045-上海市经济和信息化委员会技术归口单位上海市人工智能标准化技术委员会第一起草单位上海库帕思科技有限公司二.标准制定的依据为实现《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》(2023年10月)中提出的“语料数据资源共建共享”、“鼓励多元主体共同推动高水平语料数据要素建设”为目标,制定语料库建设管理导则,将有助于建设更具国际影响力的人工智能“上海高地”、打造世界级人工智能产业集群、培育具有国际竞争力的生产服务和数据商业生态。三.目的意义(标准制定的必要性)语料库建设导则的制定和贯彻将成为国家重大科技创新目标的基础支撑、产业数字化转型和高质量发展的要素型支撑和关键性举措以及高水平对外开放的战略性支撑。制定目的在于确保语料库建设的规范化,提升语料库的质量和流通透明度,解决语料标准缺失的根本问题,推动人工智能产业健康发展。随着大模型和人工智能技术的迅速发展,语料库的管理和数据的安全性、透明性成为企业和研究机构关注的重点。语料库不仅需要在建设阶段合规,还需在运营过程中遵循严格的管理规范。《语料库建设管理导则》将为这些实际需求提供具体的管理框架,确保语料库长期保持高效、安全的运行状态,从而促进大模型与人工智能技术的持续健康发展。四.范围和主要技术内容本文件规定了建设用于人工智能的泛语言、多模态的语料库的一般要求和方法。本文件适用于人工智能语料库的研究、开发、维护、应用、评估等工作。其它与人工智能语料库建设管理相关的工作也可参照使用。本文件主要编制内容包括:1.范围2.规范性引用文件3.术语和定义4.缩略语5.数据资源5.1一般要求5.2不同数据表征模式的要求5.3提供方式6.语料数据6.1通则6.2语料数据的结构和内容6.3质量控制6.4交付方式7.语料生产系统7.1总体架构7.2语料库管理系统7.3工具链8.语料生产过程8.1资源数据的统一性和完整性检查8.2文本语料的生产8.3图像语料的生产8.4音频语料的生产8.5视频语料的生产9.语料的价值对齐9.1合法合规原则9.2价值对齐10.数据安全10.1安全原则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论