T-CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求_第1页
T-CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求_第2页
T-CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求_第3页
T-CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求_第4页
T-CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240CCSL67CAPTNewsIndustry—Large-scalepre-trainedmodels—RequirementsforresearchandIT/CAPT012—2024前言 2规范性引用文件 3术语和定义 4训练数据使用场景 24.1概述 24.2预训练阶段要求 24.3指令微调阶段要求 24.4多模态场景下要求 75训练数据评价 85.1概述 85.2评价维度 85.3评测执行 95.4评测方法 9参考文献 T/CAPT012—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提本文件由中国新闻技术工作者联合会归口。本文件起草单位:新华通讯社通信技术局、北京北大方正电子有限公司、杭州前方信息技术有限公司、江苏联著实业股份有限公司、北京星震同源数字系统股份有限公司、中国互联网新闻中心、华为云科技有限公司、中科闻歌科技股份有限公司、中联超清(北京)科技有限公司、拓尔思信息技术股份有限公司、新华社媒体融合生产技术与系统国家重点实验室(新华融合媒体科技发展(北京)有限公司)、中国传媒大学、深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、中国新闻社、福建理工大学。本文件主要起草人:路海燕、王宇琦、张丹、王建利、刘万福、王楠、王建平、贾珣、赵伟东、朱迅、王京、王付生、佘泽鹏、区可明、罗毅、林波、成鹏、王仲豪、郑创伟、瞿曦、邓海滢、刘琼、张鹏洲、曹娟、王志民、殷圣忠、王峰、熊立波、王熠、王慕维、付蓉、孙心桐、黄菁。T/CAPT012—2024《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导,确保模型在真实新闻生产过程中具备足够的实用性和效果。《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示例,以确保评测过程的科学性和规范性。《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规,确保数据安全、内容合规。《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数据,提出了技术要求。该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的性能和可靠性。《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等方面的要求,特别是在处理多模态数据时的技术标准。该标准的制定,进一步拓展了预训练模型的应用范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面而系统的框架,为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。1T/CAPT012—2024新闻行业大规模预训练模型研发数据要求本文件规定了用于新闻领域的大规模预训练模型训练数据的使用场景、训练数据评价等要求,包括在训练、微调、评估等环节中涉及到的数据的技术要求。本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域进行大规模预训练模型构建过程中的研发活动。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T20093中文新闻信息分类与代码GB/T41867信息技术人工智能术语3术语和定义3.1大规模预训练模型large-scalepre-trainedmodels一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数通常由深度神经网络构建,对海量数据进行预训练处理。3.2大规模预训练语言模型large-scalepre-trainedlanguagemodels一种基于大规模文本数据进行自监督学习、完成特定预训练任务,可通过零样本学习(zero-shot)方式进行交互、并可以通过微调fine-tuning进行特定任务加强的自然语言处理技术。3.3大规模预训练多模态模型large-scalepre-trainedmulti-modalmodels一种能够在多种异构数据模态(如文本、图像、音频等)上进行表征学习的深度神经网络模型,其核心特征在于通过大规模跨模态数据的无监督预训练,捕捉不同模态之间的语义共性与相关性,从而生成具有广泛迁移能力的统一描述模型。3.4预训练pre-training在大量通用数据上进行模型训练的过程。3.5微调fine-tuning为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门领域数据集继续训练的附加训练技术。注:常用于解决过拟合问题。[来源:GB/T41867—2022,3.2.31]2T/CAPT012—20243.6微调数据finetuningdata针对新闻理解、生成、编辑等具体任务,用于模型微调的标注数据。3.7指令/提示词prompt给预训练模型提示输入模型的参数信息,描述问题需求类型,帮助模型更好地理解输入的意图,并作出相应的响应。4训练数据使用场景4.1概述预训练阶段要求了在预训练阶段所使用的训练数据应满足的标准,包括格式要求、语言语种要求、来源可靠要求.指令微调阶段要求了微调阶段训练数据应满足的标准,涉及到了主流新闻业务场景,包括新闻理解类、新闻生成类、新闻编辑类、新闻评论类四个大类,以及拒答任务的特殊分类。此外,针对多模态模型,提出了额外的数据要求。4.2预训练阶段要求4.2.1格式要求在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应以标记格式(MarkdownFormat)进行编码。确保训练数据噪声较少,同时兼容尽可能多的数据表示类型(如文本、表格等可使训练出来用于新闻业务的模型具有足够的表达能力。4.2.2语种要求在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应包括简体中文在内的,不少于3种联合国官方语言。确保模型具有多语种能力,满足国际传播的应用需求。4.2.3来源要求在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应满足来源可信的要求。通过对训练数据进行来源标记,确保每条数据有据可查。可使训练出来用于新闻业务的模型具有的知识准确、可信、可溯源。4.3指令微调阶段要求4.3.1新闻理解要求概述该类指令微调数据用于增强模型在新闻理解任务中的能力,该项任务包括但不限于新闻要素识别、新闻类型判别、核心信息提取、新闻倾向判断4个子类。新闻要素识别新闻要素识别要求包括:a)指令部分应包括新闻提取六要素的语义即新闻的时间、地点、人物、事件的起因、经过、结果的语义;b)输入部分应包括完整的新闻文本;c)输出部分应根据指令及输入部分给出正确的回答。如输入文本中不包括部分要素,则该要素项返回空。新闻类型判别新闻类型判别指令部分应包括“对新闻类型进行判别”的语义,其中,新闻类型评价维度包括:3T/CAPT012—2024a)体裁:包括消息、通讯、评论、公文公报等;b)范围:包括国内新闻、国外新闻等;c)主题:应符合GB/T20093中的分类要求,其中:1)输入部分应包括完整的新闻文本;2)输出部分应根据指令及输入部分,给出正确的类型;3)训练数据集应同时包括新闻类型的单维度判别指令数据和多维度判别指令数据。核心信息提取核心信息提取要求包括:a)指令部分应包括“对新闻提取关键词或摘要”的语义;b)输入部分应包括完整的新闻文本;c)输出部分应根据指令及输入部分,给出正确的关键词或摘要,其中:1)关键词:输入新闻中的关键性内容,包括实体词和谓语;2)摘要:最关键的新闻元素,以自然语言的方式表述。d)训练数据集中应同时包括:分别提取关键词和摘要的指令数据以及同时提取的指令数据。新闻倾向判断新闻倾向判断要求包括:a)指令部分应包括“对新闻的立场倾向进行判断”的语义;b)输入部分应包括完整的新闻文本;c)输出部分应根据指令及输入部分,给出正确的、唯一的倾向词,倾向词可分为正面、负面、d)训练数据集中包含正面、负面、中性的记录数应大致维持1:1:1的比例。4.3.2新闻生成要求概述该类指令微调数据用于增强模型在新闻生成任务中的能力,该项任务包括但不限于简讯生成、消息生成、通讯生成、特写生成、专访生成、公文公报生成6个子类。该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。简讯生成简讯生成要求包括:a)指令部分应包括“根据输入生成简讯类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)简讯的基本要求:包括简讯的长度、时效性、语言风格、核心主题等;2)相关素材。c)输出部分为一篇简讯文稿。满足输入部分所提出的要求,文本结构上整体短小精炼,具备标题以及主体自然段,语言上简明易懂,不包括过度复杂或冗长的句子。消息生成消息生成要求包括:a)指令部分应包括“根据输入生成消息类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)消息的基本要求:包括消息的长度、主题、关键要素等;2)相关素材。c)输出部分为一篇消息文稿。满足输入部分所提出的要求,长度一般满足500~800字(词文本结构上通过标题、导语、主体三层结构推进,内部不包括二级标题。通讯生成4T/CAPT012—2024通讯生成要求包括:a)指令部分应包括“根据输入生成通讯类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)通讯的基本要求:包括通讯的主题、关键要素、长度等;2)不少于3段相关素材。c)输出部分为一篇通讯文稿。满足输入部分所提出的要求,篇幅不少于1000字,具有多级标题,语言上应流畅、准确,有一定的文学性。特写生成特写生成要求包括:a)指令部分应包括“根据输入生成特写类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)特写的基本要求:包括特写的主题、特写对象、关键要素、语言风格等;2)不同主题、不同角度、长度不少于600字的相关素材,不少于3篇。c)输出部分为一篇特写文稿。满足输入部分所提出的要求,篇幅不少于1000字,结构上应包括开头、人物信息、背景细节等多层次信息,突出人物或事件的情感中心,文风上要求细腻的描写。专访生成专访生成要求包括:a)指令部分应包括“根据输入生成专访类新闻”的语义。b)输入部分应提供包括但不限于以下内容:1)专访的基本要求:包括专访主题、专访对象、关键要素等。2)相关素材:包括采访实录、事件的背景信息、人物的历史报道等。c)输出部分为一篇专访文稿。满足输入部分所提出的要求,篇幅不少于1000字,结构上应采用直接引语或者间接引语的方式,应将被采访者的回答有机的融合其中,形成具有逻辑性的文稿。公文公报生成公文公报生成要求包括:a)指令部分应包括“根据输入生成公文公报类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)公文公报的基本要求:包括核心主题、写作主体、格式要求、语言风格等;2)相关素材:包括正式的政策文件、领导人讲话稿、公报、授权媒体发表等官方文件。c)输出部分为一篇公文/公报文稿。满足输入部分所提出的要求,所引用的部分必须准确无误,文章主体部分具有清晰的层次结构,突出核心和关键信息,采用正式的、严谨的语言,保证专业性和权威性。4.3.3新闻编辑要求概述该类指令微调数据用于增强模型在新闻编辑任务中的能力,该项任务包括但不限于扩写、摘要、润色、续写、核校5个子类。该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。扩写扩写要求包括:a)指令部分应包括“根据输入进行扩写”的语义;b)输入部分应提供包括但不限于以下内容:1)扩写对象的原文;5T/CAPT012—20242)扩写的基本要求:包括扩写主题、方向、语言风格、篇幅等;3)相关素材。c)输出部分为一篇扩写后的文稿。满足输入部分所提出的要求,扩写逻辑与原文一致,不引入矛盾或不相关信息,各个部分过渡自然,新增内容准确无误,不涉及臆测和误导性陈述。摘要摘要要求包括:a)指令部分应包括“根据输入得到摘要”的语义;b)输入部分应提供包括但不限于以下内容:1)待摘要的原文;2)摘要的基本要求:包括主题、篇幅等。c)输出部分为一篇摘要文稿。满足输入部分所提出的要求,包括原文中主要事件、观点和数据。篇幅明显小于原文,摘要所提供的信息不得捏造、省略或曲解。润色润色要求包括:a)指令部分应包括“对输入原文进行润色”的语义;b)输入部分应提供包括但不限于以下内容:1)待润色的原文。2)润色的基本要求:包括修改方式、修改方向、语言风格等;c)输出部分为一篇润色后的文稿。满足输入部分所提出的要求。续写续写要求包括:a)指令部分应包括“对输入原文进行续写”的语义;b)输入部分应提供包括但不限于以下内容:1)待续写的原文;2)续写的基本要求:包括核心主题、续写方式、表达方式、语言风格等。c)输出部分为一篇续写文稿。满足输入部分所提出的要求,与原文保持风格和立场一致,延伸了事件或主题的发展,添加后的内容能够提供额外的背景、数据、观点等与原文相一致的信息,新添加的内容不引入错误或不实陈述。核校核校要求包括:a)指令部分应包括“对输入原文进行核校”的语义;b)输入部分应提供包括但不限于以下内容:1)待核校的原文;2)润色的基本要求:包括核校规则、效果要求等。c)输出部分为一篇核校后的文稿。满足输入部分所提出的要求,核校后应确保事实性,在排版、标点和引用方面符合规范,不存在拼写、语法等问题;d)训练数据集中应同时包含完全正确的待核校原文和存在错误的待核校原文。4.3.4新闻评论要求概述该类指令微调数据用于增强模型在新闻评论任务中的能力,该项任务包括但不限于社论、评论员文章、专栏评论、短评、述评5个子类。该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。社论6T/CAPT012—2024社论要求包括:a)指令部分应包括“根据输入生成社论类新闻”的语义;b)输入部分应提供包括但不限于以下内容:1)社论的基本要求:包括核心主题、篇幅要求、核心论点等;2)相关素材:包括相关政策方针、公文公报报道、事实素材、官方新闻等。c)输出部分为一篇社论文稿。满足输入部分所提出的要求,阐明观点、立场和主张,与党和国家的政策方针一致,具有逻辑严密的总分论点、论据详实准确,文风庄重、严谨。评论员文章评论员文章要求包括:a)指令部分应包括“根据输入生成评论员文章”的语义;b)输入部分应提供包括但不限于以下内容:1)评论员文章的基本要求:包括核心主题、篇幅要求、核心论点等;2)相关素材:包括新闻报道、社会舆论等。c)输出部分为一篇评论员文章文稿。满足输入部分所提出的要求,阐明观点、立场和主张,与党和国家的政策方针一致,具有逻辑严密的总分论点、论据详实准确,文风庄重、通俗。专栏评论专栏评论要求包括:a)指令部分应包括“根据输入生成专栏评论”的语义;b)输入部分应提供包括但不限于以下内容:1)专栏评论的基本要求:包括核心主题、篇幅要求、核心论点、行文结构、语言风格等;2)相关素材:包括新闻报道、社会舆论等。c)输出部分为一篇专栏评论文稿。满足输入部分所提出的要求,与社会主流价值观一致、联系生活实际,逻辑严密、论点清晰,文风通俗。短评短评要求包括:a)指令部分应包括“根据输入生成短评”的语义;b)输入部分应提供包括但不限于以下内容:1)短评的基本要求:包括核心主题、观点立场、语言风格、篇幅要求等;2)相关素材:包括新闻报道等。c)输出部分为一篇短评文稿。满足输入部分所提出的要求,论题具体、针对性强,结构多样,文风严谨、精炼、生动。述评述评要求包括:a)指令部分应包括“根据输入生成述评”的语义;b)输入部分应提供包括但不限于以下内容:1)述评的基本要求:包括核心主题、语言风格等;2)相关素材:包括新闻报道、社会舆论等。c)输出部分为一篇述评文稿。满足输入部分所提出的要求,述评结合、就事论理,文风通俗、具有启发性。4.3.5拒答任务要求概述该类指令微调数据用于增强模型在安全输出方面的能力,对于违反国家法律法规,违背公序良俗、不符合社会主义核心价值观的指令及输入,指令模型拒绝,其中:a)指令部分应包括“违反国家法律法规,违背公序良俗、不符合社会主义核心价值观”的语义;7T/CAPT012—2024b)输入部分同指令部分或为空;c)输出部分为“拒绝回答”的语义。4.4多模态场景下要求概述多模态场景是指在新闻大模型训练中,会使用到多种不同类型的数据模态,包括但不限于文本、图像、声音、视频。在人工智能领域,多模态训练应对不同模态的信息进行理解和学习,并在它们之间建立联系。除应符合《新闻行业大规模预训练模型多模态要求》中约定的要求之外,其研发数据还需要符合以下要求:4.4.2真实性要求真实性要求包括:a)数据真实性:训练数据集中文本、图片、音视频等内容必须基于事实,杜绝未经证实或虚假b)数据可溯源性:确保数据来源可追溯,包括但不限于官方认证的新闻发布平台、官方网站、专业机构等,保证数据来源真实性;c)数据备份媒体介质要求:数据备份媒体介质应具有物理不可删改的技术特性。4.4.3安全性要求安全性要求包括:a)综合安全要求:多模态数据应按照尊重知识产权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观等标准划分安全级别;b)限制级别要求:针对图片视频中易出现的血腥暴力以及涉黄、涉毒等问题,应有严格的级别划分;c)版权要求:多模态数据应取得相应版权后才能用于训练。4.4.4丰富性要求丰富性要求包括:a)场景覆盖度要求:数据应覆盖多种新闻报道场景,包括但不限于政治、经济、文化、体育等,保证模型泛化能力;b)内容丰富性要求:数据应覆盖新闻行业可能遇到的各种多模态场景,包括但不限于图文报道、视频直播、访谈录音等;c)多样性与包容性要求:确保多模态数据集在包括但不限于性别、年龄、文化背景等方面具有多样性和包容性。4.4.5准确性要求准确性要求包括:a)质量控制要求:多模态数据需通过质量检测,对合成、修改等技术处理后的数据进行特别标记。且多模态数据应清晰可读,适合模型训练;b)内容准确性要求:确保多模态数据内容质量和可靠性;c)标注准确性要求:多模态数据体现的内容应与文字描述或标签内容一致;d)时间性要求:所有多模态数据应标注数据生成时间,与文字描述或标签内容相符合,随着新闻对象或事件的发展,应及时更新数据集。4.4.6标注要求标注要求包括:a)标注规范性要求:多模态数据的所有标注信息应遵循统一标准、体系和流程,以确保所有模态的数据标注信息清晰统一;8T/CAPT012—2024b)标注关联性要求:在多模态数据集中,应有明确的关联信息来表明同一场景下跨模态数据之间的关联关系。包括但不限于使用元数据来描述跨模态数据之间的关联,或赋予跨模态数据间相互关联的唯一标识符;c)跨模态数据关联性准确性要求:不同模态的数据之间存在一定相关性,以便模型能够学习到有效的跨模态表示;d)标注项丰富性要求:标注项除描述数据内容外,还应包含数据的分类属性,包括但不限于图片风格、音频中的方言、行文方式等,防止训练后的模型提供错误生成内容。4.4.7数据量和规模要求数据量和规模要求包括:a)预训练数据的规模越大越有利于模型学习和表征能力提升,能更好适应新闻行业复杂多变的多模态场景需求;b)数据集规模应尽可能扩大,以确保模型能够接触到更广泛的信息和知识,增强其学习深度和广度,提升模型学习和表征能力。5训练数据评价5.1概述对预训练数据评价应分别从安全性、丰富性、准确性、多语种、结构化五个方面进行评价;对微调数据,从匹配性、安全性、专业性、丰富性四个方面进行评价。5.2评价维度5.2.1预训练数据评价维度基本要求对预训练数据进行评价,应包括对训练数据集的安全性、丰富性、准确性、多语种、结构化等5个方面进行评估。安全性预训练数据应满足安全性要求,数据集的各条记录中应符合国家法律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观。具体要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。丰富性预训练数据应满足丰富性要求,确保所训练的大规模模型具有足够的通识能力和通用知识。准确性预训练数据应满足准确性要求,数据集当中所涉数据记录应确保真实可信,并具有时间标签和来源标签。多语种预训练数据应满足多语种要求,以确保所训练的大规模模型具有多语种能力,可服务于国际传播业务需求。结构化预训练数据应满足结构化等级要求,以确保所训练的大规模模型具有获取多层次语义信息的能力。5.2.2微调数据评价维度匹配性9T/CAPT012—2024微调数据应满足匹配性要求,数据集当中所涉数据记录指令-输入-输出应保持语义和逻辑一致,输入输出能较好的体现指令中的业务要求。安全性除用于拒答类任务的数据记录外,微调数据应满足安全性要求,数据集的各条记录中应符合国家法律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观。具体要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。拒答类数据应特殊标明,确保输出部分的语义为“拒绝回答”。专业性涉及新闻业务的微调数据应满足专业性要求。数据集当中各条记录根据其指令部分的语义,遵循4.3部分的具体约定。涉及非拒答任务、非新闻业务任务的微调数据应满足专业性要求,专业性要求参考《信息安全技术生成式人工智能预训练和优化训练数据安全规范》中关于优化训练数据部分的具体约定。丰富性微调数据应满足丰富性要求,以确保模型在微调阶段不会损失通用能力。5.3评测执行5.3.1抽样原则对新闻行业预训练模型所涉及的训练数据评测应采用抽样方法。对预训练数据集,应采用多次分层随机抽样的方法,针对各语种、各领域的抽样次数不少于5次,单次抽样条数不少于1000条,总抽样条数不少于预训练数据集总token数的0.1‰。对微调数据集,应采用多次分层随机抽样的方法,针对4.3中所涉的各类业务任务,每类任务数据抽样次数不少于3次,单次抽样条数不少于10条。总抽样条数不少于微调数据集总条数的1%。5.3.2判别执行对于抽样获取的数据子集,其中,、、等具有标准答案的可直接判断对错。多项的分值以算术平均计算总得分。对于无标准答案的问题,采用多专家双盲人工评分(Double-BlindExpertRating,DBER)方案,让专家在双盲情况下判断是否满足相关要求。根据5.4中对应的评价和打分方法对数据记录进行评分,以不同维度的加权得分作为该数据记录的得分,该采样集的总得分可以计算算术平均或根据具体需求计算加权平均。该训练集的总得分对各次采样集的得分加权平均得到。若不同专家对同一样本的评分方差较大,可先进行均值对齐(MeanCalibration,MC)以消除主观偏差。计算所有项目的DBER_MC分数,以总分数*60%作为及格分,判断该数据集是否符合新闻行业预训练模型的训练标准要求。5.4评测方法5.4.1预训练数据评测方法对预训练数据进行评价,应包括对训练数据集的安全性、丰富性、准确性、多语种、结构化五个方面进行评估。安全性依据所述,按照5.3的方法执行评测,该子类别评测框架见表1。表1预训练数据安全性评估框架无违纪违法、无违背主流意识形态、歧视、违反社会主义核心价T/CAPT012—2024丰富性依据所述,按照5.3的方法执行评测,该子类别评测框架见表2表2预训练数据丰富性评估框架非新闻业务相关数据token占数据集所有tok其中,专业领域以一级学科为准,领域数每少一个,则该维度分数降低总分的20%。token占比每少5%,则该维度分数降低总分的12.5%。准确性依据所述,按照5.3的方法执行评测,该子类别评测框架见表3。表3预训练数据准确性评估框架类新闻业务数据非新闻业务数据评分据预训练数据应满足准确性要求,数据集中数据记录应确保真实可信,并具有时间标签和来源标签。多语种依据所述,按照5.3的方法执行评测,该子类别评测框架见表4。表4预训练数据多语言评估框架互译文本token数超过预训练数据集总预训练数据应满足多语种要求,数据集当中所涉数据记录应包含不少于3种语言的互译数据,其中,每缺失一个语种,则评分扣除33%。互译文本应涵盖所有语种,如中-英-法3种语言,则应包含语义相同的中英互译、中法互译、英法互译的文本段。其中,每少一个语种,则评分减少33%。注:语种设计为加分项、不是减分项。结构化等级依据所述,按照5.3的方法执行评测,该子类别评测框架见表5。表5预训练数据结构化等级评估框架预训练数据是经过分词词性标注的数据,且分词词性预训练数据是经过句法结构分析的数据,且预训练数据是经过实体语义分析的数据,且预训练数据是经过事件语义分析的数据,且预训练数据是经过修辞隐喻分析的数据,且预训练数据是经过事物状态分析的数据,且T/CAPT012—20245.4.2微调数据评测方法匹配性依据所述,按照5.3的方法执行评测,该子类别评测框架见表6。表6微调数据匹配性评估框架输入部分符合指令部分的逻辑,提供了足够的信息。输出部分满微调数据应满足匹配性要求,数据集当中所涉数据记录指令-输入-输出应保持语义和逻辑一致,输入输出能较好的体现指令中的业务要求。安全性依据所述,按照5.3的方法执行评测,该子类别评测框架见表7、表8。表7微调数据(一般数据)安全性评估框架该条记录中的指令、输入、输出部分不包含违纪违法、涉及个该条记录中的指令、输入、输出部分不包含违反道德和公序良表8微调数据(拒答数据)安全性评估框架该数据集中的拒答数据,是否完整的包含涉及以下违纪违法、其中,对非拒答任务数据对每一条数据记录执行表7,对抽样后拒答数据记录总体执行表8。专业性依据所述,按照5.3的方法执行评测,该子类别评测框架见表8~表28。表9新闻要素识别微调数据评估框架包括多种类型、多种文件格式的数据记录。对本质一致风格不同表10新闻类型判别微调数据评估框架包括多种类型、多种文件格式的数据记录。对本质一致风格不同T/CAPT012—2024表11核心信息提取微调数据评估框架包括多种类型、多种文件格式的数据记录。对本质一致风格不同表12新闻倾向判断微调数据评估框架包括多种类型、多种文件格式的数据记录。对本质一致风格不同表13简讯生成微调数据评估框架输入部分要求明确,素材正确清晰。输出部分抓住核心事实,信息真包括多种类型、多种文件格式的数据记录。对本质一致风格不同表14消息生成微调数据评估框架包括多种类型、多种文件格式的数据记录。对本质一致风格不同表15通讯生成微调数据评估框架输入部分要求明确,素材正确清晰,包括不少于3段相关包括多种类型、多种文件格式的数据记录。对本质一致风格不同表16特写生成微调数据评估框架输入部分要求明确,素材满足以下条件:包括不同主题、不相关素材,不少于3篇,包括不少于3段相关素材。输出部分应基于T/CAPT012—2024包括多种类型、多种文件格式的数据记录。对本质一致风格不同表17专访生成微调数据评估框架输入部分要求明确,素材满足以下条件:包括采访实录、事件的背景报道等。输出部分应基于真实情况展开描述,符合被采访者意包括多种类型、多种文件格式的数据记录。对本质一致风格不同表18公文公报生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论