T-CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实.用性要求_第1页
T-CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实.用性要求_第2页
T-CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实.用性要求_第3页
T-CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实.用性要求_第4页
T-CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实.用性要求_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240CCSL67CAPTRequirementsforpracticaloflarge-scalepre-trainedlanguagemodelsinnewsIT/CAPT010—2024 2规范性引用文件 3术语和定义 4使用场景要求 4.1概述 4.2媒体文本创作 4.3媒体文本编辑 34.4媒体文本理解 64.5媒体数据增强 75效果要求 5.1专业性要求 5.2可靠性要求 5.3适用性要求 6产品化要求 6.1模型部署的要求 6.2模型数据库的要求 6.3模型界面的要求 6.4模型产品的数据保护和隐私保护要求 6.5模型的性能和效率要求 6.6模型的可扩展性和可维护性要求 T/CAPT010—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提本文件由中国新闻技术工作者联合会归口。本文件起草单位:新华通讯社通信技术局、新华社媒体融合生产技术与系统国家重点实验室(新华融合媒体科技发展(北京)有限公司)、上海算法创新研究院、传播大脑科技(浙江)股份有限公司、上海交通大学媒传学院、北京北大方正电子有限公司、大众报业集团(大众日报社)、海南广播电视总台、北京中科闻歌科技股份有限公司、中国互联网新闻中心、北京智途云天科技有限公司、中联超清(北京)科技有限公司、中国传媒大学、深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、福建理工大学。本文件主要起草人:路海燕、王仲豪、邓海滢、余钰、唐波、刘丽芳、张健、陈梦、刘可、郑伟、贾艾婧、汤代禄、张震、李梦瑶、彭佳柱、王一刚、王建平、丁峰、罗毅、林波、成鹏、王峰、王付生、王熠、熊立波、王慕维、孙心桐、王宇琦、刘琼、张鹏洲、曹娟、郑创伟、瞿曦、黄菁、孙天一、付蓉、王志民。T/CAPT010—2024《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导,确保模型在真实新闻生产过程中具备足够的实用性和效果。《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示例,以确保评测过程的科学性和规范性。《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规,确保数据安全、内容合规。《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数据,提出了技术要求。该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的性能和可靠性。《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等方面的要求,特别是在处理多模态数据时的技术标准。该标准的制定,进一步拓展了预训练模型的应用范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面而系统的框架,为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。1T/CAPT010—2024新闻行业大规模预训练模型语言模型实用性要求本文件规定了新闻行业中大规模预训练模型的语言模型实用性要求。本文件适用于开发人员、使用人员、监管人员进行大规模预训练模型语言模型在新闻媒体行业中的实用性分析。本文件的使用对象包括报刊、广播、电视、通讯社、新闻网站、自媒体等新闻媒体内容提供商及媒体应用与研究机构。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T7714信息与文献参考文献著录规则GB/T20093中文新闻信息分类与代码3术语和定义下列术语和定义适用于本文件。3.1大规模预训练语言模型large-scalepre-trainedlanguagemodels一种通过在海量文本数据上进行预训练而构建的自然语言处理模型,通常基于深度学习框架,通过自监督学习从无标注的数据中学习语法、语言和知识等,可通过零样本(zero-shot)方式进行交互、并可以通过微调(finetune)进行特定任务加强。3.2大规模预训练模型large-scalepre-trainedmodel一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数通常由深度神经网络构建,对海量数据进行预训练处理。3.3指令/提示词prompt给预训练模型提示输入模型的参数信息,描述问题需求类型,帮助模型更好地理解输入的意图,并作出相应的响应。4使用场景要求4.1概述新闻行业中大规模预训练模型的语言模型实用性要求的使用场景根据新闻业务场景进行设计,分为媒体文本创作、媒体文本编辑、媒体文本理解、媒体数据增强四个类别进行要求。4.2媒体文本创作4.2.1经典新闻创作类新闻行业大规模预训练语言模型应当能够适应并处理多种类型的经典新闻创作任务。这些任务包括但不限于简讯、消息、通讯、特写、专访、公文公报、社论、评论员文章、专栏评论、短评和述评。模型需要具备生成不同类型新闻文本的能力,具体要求应符合表1的规定。2T/CAPT010—2024表1经典新闻创作类的不同文体类型要求指令:规定任务长度、时效性、语言风格、核要求:生成通过标题、导语、主体三层报道事情概貌的消息,500~800结果:内容真实,全面准确,具备完整的标题要求:生成运用叙述、描写、抒情、议论等手法反映新指令:规定核心主题、新闻要素、语言风格,并要求:生成政策文章、领导人讲话稿、公报等指令:规定核心主题、写作主体、格式、语指令:规定核心主题、篇幅、核心观点、语指令:规定核心主题、观点立场、语言风格4.2.2新媒体创作类本章节规定了新闻行业大规模预训练语言模型在新媒体创作类应用中的算法能力要求。新媒体创作不仅要求内容的及时性和准确性,还需注重内容的创新性和互动性,以满足多样化的用户需求和不断变化的媒体环境。模型对于新媒体创作类任务的具体要求应符合表2的规定。表2新媒体创作类的不同类型要求脚本应紧凑有趣,适合短时间内传达信息。需具备简洁的场景文案应实时反映直播内容,具备互动性,能够引导观众生成内容应图文结合,直观易懂。需具备简洁的文字描3T/CAPT010—2024表2新媒体创作类的不同类型要求(续)文案应富有创意,具备互动性。需具备吸引眼球的标题4.3媒体文本编辑4.3.1新闻翻译新闻翻译功能要求新闻翻译功能要求包括:a)多语言处理能力,模型需要支持多种语言的翻译,包括主流语言和小语种,以满足全球范围内的新闻翻译需求。模型应能够处理不同语言之间的语法、词汇和语义差异,确保翻译的准确性和流畅性;b)模态翻译技术,能够处理图像、音频转文本后再翻译,或者直接处理带有图像信息的图文混排新闻内容;c)领域适应性,新闻翻译涉及多个领域,如政治、经济、科技、体育等,模型需要具备跨领域的翻译能力。通过引入领域特定的语料库和知识库,模型可以更好地理解和翻译特定领域的术语和概念;d)上下文感知能力,新闻文本通常具有复杂的上下文关系,模型需要能够理解和捕捉这些关系,以进行准确的翻译。通过引入注意力机制、记忆网络等技术,模型可以更好地利用上下文信息进行翻译;e)实时性与效率,新闻翻译通常需要实时进行,模型需要具备高效的处理速度和低延迟。通过优化模型结构和算法,以及利用并行计算和分布式处理等技术,可以提高模型的翻译速度和效率;f)数据驱动与可训练性,模型的设计应便于利用大量新闻翻译数据进行训练和优化,以提高翻译性能。采用合适的模型架构和学习算法,确保模型能够从数据中学习到有效的翻译规则和模式;g)可解释性与可控性,为了增强用户对翻译结果的信任度,模型应具备一定程度的可解释性,能够解释翻译决策的依据。通过引入可视化工具、解释性算法等技术,可以帮助用户更好地理解模型的翻译过程;h)鲁棒性与稳定性,新闻文本中可能包含噪声、错别字、不规范表达等,模型需要具备一定的鲁棒性,能够检测并修正翻译过程中可能出现的错误,如语法错误、拼写错误等;i)自适应学习与优化,模型应能持续从用户反馈和新数据中学习,不断优化翻译效果,提供友好的用户界面,允许用户对翻译进行反馈和校正,以便模型能够根据用户的需求进行调整。新闻翻译结果的要求新闻翻译结果的要求包括:a)翻译准确性:文本内容忠实度,模型应确保翻译后的新闻内容准确反映原文含义,不遗漏重要信息,不产生误导性内容;专业术语翻译,针对新闻报道中的特定领域术语和专有名词,模型应具备准确识别与翻译的能力;语法结构正确性,翻译后文本应遵循目标语言的语法规则,保持句式结构完整且符合新闻写作规范;b)风格一致性:新闻文体保持,模型需保证翻译后的新闻稿风格与原文一致,即保持新闻报道应有的客观、正式和简洁;语境适应性,能够根据新闻类别和受众定位调整翻译策略,确保译文符合相应文化和社会背景;4T/CAPT010—2024c)实时性与效率:快速响应,模型应具备快速翻译大量新闻稿件的能力,满足新闻发布时效要求。自动更新与优化,具备持续学习和自我优化机制,随新词汇、短语的出现及时更新翻译效果;d)安全与合规性:数据安全,在处理新闻翻译的过程中,严格遵守国家信息安全法律法规,保护新闻数据隐私;内容审查,翻译输出应避免不良信息传播,支持可配置的内容过滤与审查机制;e)可维护性与扩展性:模型更新与升级,允许模型进行定期更新与优化,并能无缝集成到现有新闻翻译工作流程中;多语言支持,支持多种源语言到多种目标语言的新闻翻译服务,且易于添加新的语言对。4.3.2新闻改写新闻行业大规模预训练语言模型进行新闻改写应遵循包括但不限于内容补全、结构调整、精炼语言、突出重点、呈现细节、增加引用等对内容进行增加、删除或调整等操作,具体要求如下:a)内容补全设计提示词令模型根据原文和指令,补充完善相关信息,为读者提供更详尽的细节,使文章更具理解性。指令应明确补全内容方向,如人物背景、事件细节、相关数据等,确保内容与原文风格和情感一致。补全后的内容应紧密连结原文核心信息,提供有价值的补充,增强文章的全面性和吸引力;b)结构调整设计提示词令模型调整文章结构,提高阅读体验。指令应明确结构调整的要求,如总分结构等,并可提供参考文章。生成结果应保持原文连贯性和一致性,使文章更具可读性和逻辑性,不改变原文信息;c)精炼语言设计提示词令模型优化语言,通过简化句子、删减冗词、提炼核心信息,使文章简洁明了。指令应明确优化内容部分。生成结果应保留原文核心信息,简洁清晰,不影响流畅性和可读d)突出重点设计提示词令模型突出关键信息,通过强调核心观点、重要细节,使文章更凝练有力。指令应明确突出重点部分。生成结果应准确传达原文核心意思,逻辑连贯,吸引读者注意;e)呈现细节设计提示词令模型优化细节,通过添加具体细节、丰富描述、提供背景信息,使文章生动具体。指令应明确添加细节部分并提供相关信息。生成结果应丰富文章内容,与原文主题一致,描述具体生动,背景信息全面,信息准确;f)增加引用设计提示词令模型添加引用,通过引用相关资料、专家观点、研究成果等,增加文章权威性和可信度。指令应明确引用内容部分并提供相关资料。生成结果应与原文主题相关,引用可靠来源,进一步丰富和深化文章内容。4.3.3风格转换新闻行业大规模预训练语言模型进行风格转换应遵循包括但不限于通俗易懂、专业严谨、批判思维、增加网感、理论增强、情感共鸣等要求:a)通俗易懂设计模型使用简洁明了的语言阐述原内容,降低阅读难度,使更多读者轻松理解。明确要求模型避免专业术语和复杂句子,保持核心信息不变。语言简洁,避免冗长和难懂的术语,保留核心信息,确保普通读者易懂,不简化到失去意义;b)专业严谨设计模型使用专业精确的语言阐述原内容,提升文章专业性和权威性。明确要求模型使用专业术语和严谨结构,保持核心信息不变。语言精确,适当使用专业术语,确保专业读者准确理解,不过度复杂化;c)批判思维5T/CAPT010—2024设计模型在理解原文后,提出批判性观点和深度分析,增加文章深度和思辨性,明确指定批判内容和方向。观点客观公正,基于充分论据,清晰阐述逻辑,增强文章深度,引发读者思考和讨论,连贯且不矛盾;d)增加网感设计模型使用网络文化和流行语言,贴近网民阅读习惯和偏好。明确要求在保持专业性的同时,加入网络流行语,保持核心信息不变。语言贴近网络文化,使用流行语和网络梗,结合网络热点,提高吸引力和传播力,不过度娱乐化,保持专业性;e)理论增强设计模型对原内容进行理论补充,引用权威资料,提升文章专业性和可信度。明确指定补充内容和理论框架。补充理论应与主题相关,深化理解,来源可靠,保持风格和情感一致,连贯且不矛盾,提升专业性和可信度;f)情感共鸣设计模型使用富有情感的语言阐述原内容,通过感人故事、情感描写等引起共鸣。明确要求使用富有情感的语言,保持核心信息和深层意义不变。语言引起共鸣,情感表达真实自然,避免过度煽情,增强感染力和说服力。4.3.4扩写扩写要求包括:a)设计相应提示词令模型进行符合“在原有内容的基础上,通过增加信息、细节、描述、背景等,使文章更加丰富和完整,以增强读者的理解和参与感”要求的“扩写”工作。扩写旨在保持原文的风格和情感,同时丰富内容,使之更具吸引力和深度;b)提示词需要包括但不限于规定扩写的主题、方向、语言风格、篇幅的要求,并可以提供相关的事实素材;c)“扩写”类生成结果需要保证就新内容合理性而言,扩写内容在逻辑上应与原文一致,不引入矛盾或不相关信息;就文章流畅度而言,扩写后的文章应各部分之间过渡自然,读者可以轻松跟随故事的发展;就内容的易读性而言,添加的内容应能够加深读者对新闻事件或相关主题信息的理解,提供足够的背景信息;就信息的准确性而言,新增内容应准确,不涉及错误、臆测或误导性陈述。4.3.5摘要摘要要求包括:a)设计相应提示词令模型进行符合“对原文中的关键信息和主要内容进行精简提炼,生成符合以简洁明了的语言表达,帮助读者迅速了解文章的核心观点、事件和重要数据”要求的“摘要”工作。摘要旨在在尽量减少文字量的情况下,保持原文的主旨和逻辑结构;b)提示词指令需要包括但不限于规定“摘要”的核心主题、篇幅、原文遵从度的要求;c)“摘要”类生成结果需要保证关键信息概括度,摘要中应包含了原文中的主要事件、观点和数据等关键信息;就简洁而言,摘要应用简明扼要的表达方式,使读者能在短时间内获取主要内容;就意义的保持度而言,摘要应保持原文的主题、情感和重要细节,不偏离原文核心;就信息的准确性而言,摘要中提供的信息应准确,不得捏造、省略或曲解。4.3.6润色润色要求包括:a)设计相应提示词令模型进行符合“修饰文章语言、风格、结构,提升文章表达效果和可读性”要求的“润色”任务;b)提示词指令需要包括但不限于规定“润色”的修改方式、修改方向、语言风格的要求;c)“润色”类生成结果需要保证语法和拼写,润色后文章中应不存在拼写和语法错误;就表达的清晰度而言,修饰后的文章应句子结构清晰,逻辑连贯;就语言风格而言,润色后的文章应能根据原文的风格,保持适当的新闻、专业或通俗风格;就表达的精练度而言,修饰后的文章应用词精准,不出现啰嗦或冗长表达。6T/CAPT010—20244.3.7续写续写要求包括:a)设计相应提示词令模型进行符合“在原文的基础上,进一步延伸事件、主题或观点,补充额外的信息、分析或展望,以丰富内容并引发读者的兴趣”要求的“续写”任务。续写要求与原文保持一致的风格和立场,同时为读者提供更深入的理解和更全面的信息;b)提示词指令需要包括但不限于规定“续写”的核心主题、续写方向、表达方式、语言风格的要求;c)“续写”类生成结果需要保证主题的延伸性,续写内容在逻辑上应与原文一致,延伸了事件或主题的发展;就信息的补充而言,添加后的内容能够提供额外的背景、数据、专家观点等与原来的新闻文本相一致的信息;就逻辑的连贯性而言,续写的内容与原文之间应过渡自然,不引发信息不匹配问题;就信息的准确性而言,新增信息应准确,不引入错误或不实陈述。4.3.8核校核校要求包括:a)设计相应提示词令模型进行符合“对文章进行仔细的校对和检查,以确保内容的准确性、一致性和规范性”要求的“核校”工作。核校包括拼写、语法、标点、事实核实、引用规范等方面的检查,以确保文章在发布之前没有错误,同时满足行业标准和读者的期望;b)提示词指令需要包括但不限于规定“核校”的规则、效果要求;c)“核校”类生成结果需要保证事实核实,核校内容需要经过事实核实,文章中提到的信息应准确无误;就信息的一致性而言,核校后的文章内部信息在逻辑上保持一致,避免矛盾;就格式的规范度而言,核校后的文章应在排版、标点和引用等方面符合规范标准;就语言使用的正确性而言,核校后的文章中应不存在拼写、语法错误或标点符号使用问题。4.4媒体文本理解4.4.1新闻内容标签提取新闻内容标签提取要求包括:a)设计相应提示词令大模型理解新闻内容,并准确提炼文章的内容标签,符合以下要求:提取文章的标题、摘要、时间、涉及人物、事件地点、起因、经过和结果,同时提炼文章的情感倾向、领域主题和主要观点;b)大模型应当可以提取覆盖新闻文章各方面的内容标签,包括但不限于:标题、摘要、时间等基本要素,到人物关系、事件细节,以及文章的情感和主题观点;c)生成的内容标签提取结果应严格基于原文。无论是直接引用的信息还是基于原文理解的总结,都应确保准确性和相关性。提取的情感和观点应与原文逻辑一致,不产生矛盾或不相关信息。为满足后续应用需求,这些关键信息需以标准化格式(如JSON等)稳定输出,确保数据的可用性和可读性。4.4.2新闻要素识别新闻要素识别要求包括:a)设计提示词令模型完成“从新闻中提取出六要素时间、地点、人物、事件的起因、经过、结果”的工作;b)提示词指令需要包括但不限于规定模型提取的要素类型、提取范围的要求,并应提供需要模型理解的新闻文本;c)“新闻要素识别”类结果需要保证识别出的要素完整、真实、准确。4.4.3新闻类型判别新闻类型判别要求包括:a)设计提示词令模型进行以下三种方式的判别任务:1)体裁:根据新闻的手法、口吻和组织材料结构来判断新闻体裁,包括消息、通讯、评论、公文公报等;7T/CAPT010—20242)范围:基于新闻发生的地区与影响范围进行分类,可分为国际新闻和国内新闻。在此,港澳台被归类为国内新闻;3)主题:基于新闻的主题进行分类,应符合GB/T20093的要求。b)提示词指令需要包括但不限于规定模型判别的任务类型,并应提供需要模型判别的新闻文本;c)“新闻类型判别”类生成结果需要保证从三种分类方式准确判断新闻类型。4.4.4新闻核心信息提取新闻核心信息提取要求包括:a)设计提示词令模型完成“从新闻中提取关键词或摘要”的工作:1)关键词:新闻报道中的关键性内容,包括实体词、谓词、具有关键信息的词语;2)摘要:最关键的新闻元素,时间、地点、主要人物/组织、发生的事件等,以完整的句段表述。b)提示词指令需要包括但不限于规定模型提取信息的任务类型及具体篇幅或个数要求,并应提供需要模型提取信息的新闻文本;c)“新闻核心信息提取”类生成结果需要保证关键词要求选择具有检索意义的词汇,有较特殊意义的词、词组、缩略语,不宜拆开。若新闻中有其他类别的词、短语甚至熟语也能够提示文章的关键内容,也应作为关键词处理。摘要要求言简意赅,能体现新闻主要内容,字数在100~150字左右。4.4.5新闻倾向判断新闻倾向判断要求包括:a)设计提示词令模型完成“判断新闻报道中新闻主要人物或机构对事件的感情、态度、意向或立场”的工作。感情倾向可分为正面、负面、中性;b)提示词指令需要包括但不限于规定模型提取信息的任务类型,并应提供具有较明显情感倾向的新闻文本;c)“新闻倾向判断”类生成结果需要保证通过文本可观测明显情感倾向,分析准确、合理。4.5媒体数据增强4.5.1媒体创意/热点推荐媒体创意/热点推荐包括但不限于热点推荐、脉络梳理、主题扩散、内容创作建议、传播效果预测5个子类别,其中:a)热点推荐:1)通过检索当前的社交媒体讨论、新闻头条、搜索引擎趋势等,收集当前的热点事件和话题,再设计相应提示词引导模型分析当前社会、文化、经济、政治等领域中的流行趋势和事件,筛选出具有广泛关注度和讨论价值的热点事件;2)提示词指令需要明确要求模型根据收集的数据,综合考虑话题的时效性、社会影响力,以及可能引起的公众兴趣和参与度,推荐当前最受关注的热点事件;3)“热点推荐”类生成结果应能够清晰展示当前最受关注的热点事件,并提供简要的背景信息和讨论点。b)脉络梳理:1)通过联网搜索,获取与热点事件相关的新闻报道、社交媒体讨论和各类公开权威信息。根据这些信息,设计相应提示词使模型针对热点事件清晰地梳理其来龙去脉,包括事件的起因、发展、关键的转折点和影响事件进程的主要因素、当前状态以及参与推动或影响事件发展的关键个人、团体或组织;2)提示词指令需要明确要求模型获取数据的范围和方式,确保数据的准确性和全面性。指导模型如何根据收集的数据进行脉络梳理的要点,并确定相应的呈现方式,以详尽、直观地展示事件的整个发展脉络;3)“脉络梳理”类生成结果应全面、直观地反映出事件从起始到当前状态的整体发展路径,以全面地了解事件的全貌,而不仅仅是表面的现象。8T/CAPT010—2024c)主题扩散:1)基于热点事件和关联数据,设计相应提示词引导模型分析和挖掘出与热点事件紧密相关或由此引申出的其他主题、话题和观点,并围绕这些新发现的主题或话题进行广泛的联想和扩展,生成一系列与这些主题紧密相关的概念、创新想法、深入探讨的问题以及具有启发性的讨论点;2)提示词指令需要明确要求模型从给定的热点事件中提炼出核心主题,并根据这些核心主题,从社会、文化、经济、技术等多个角度和层面进行发散性思考,以产生新的、有趣且深入的观点和讨论点;3)“主题扩散”类生成结果应能够提供与原始热点事件主题紧密相关的多元化视角和深入探讨,从而丰富内容的层次和深度,提供更加全面、多维度的信息解读和观点阐述。d)内容创作建议:1)根据热点事件及其相关联的主题,设计相应提示词引导模型从不同角度和层面提供内容创作的灵感和实用的建议,包括文章标题的构思、内容框架的搭建、观点的深度阐述,以及精选案例的引用等多个方面,以辅助内容创作者打造出高质量的内容作品;2)提示词指令需要明确要求模型结合热点事件和关联主题,给出具有针对性、新颖性和吸引力的内容创作建议,以提升内容的吸引力和传播力;3)“内容创作建议”类生成结果应能够为内容创作者提供具体、实用且具有高度可操作性的建议和灵感,帮助创作出更加引人入胜、观点鲜明、结构清晰的高质量内容。e)传播效果预测:1)结合历史数据和当前媒体报道声量,设计相应提示词引导模型分析预测该热点内容在媒体平台上的传播效果,包括可能的阅读量、转发量、讨论热度等;2)提示词指令需要明确要求模型依据已有的相关数据和数据分析方法,对热点事件及其相关内容的传播效果进行合理预测,并提供相应的数据支持和解释,确保预测结果的可解释性和可信度;3)“传播效果预测”类生成结果应能够提供客观、科学的传播效果预测和分析,以帮助内容创作者和发布者更好地制定发布和推广策略,最大限度地提升内容的曝光度和影响力。4.5.2舆情分析舆情分析要求包括:a)新闻媒体文章观点分析:1)设计相应提示词令模型生成符合指定级别的新闻媒体倾向的观点自聚类分析内容;2)提示词指令需要包括但不限于规定新闻媒体级别的要求,建议新闻媒体级别按照中央媒体、省级媒体、市级媒体和商业媒体进行划分;3)观点自聚类分析生成结果需要保证内容上,只分析指定级别的新闻媒体;在观点上,应当根据文章内容,高度自聚类,建议以三至四个观点为宜;在分析上,应当言简意概,突出主要观点指向;4)支持批量数据的导入分析,数据宜包括新闻媒体级别、新闻媒体名称、新闻标题、新闻正文,建议支持数量在100条左右。b)自媒体文章内容分析:1)设计相应提示词令模型生成符合指定平台的自媒体文章自聚类分析内容;2)提示词指令需要包括但不限于规定分析文章内容的意见、态度、情感等多维度指标;3)文章自聚类分析生成结果需要保证在内容上,应当与输入的待分析文章数据一致,不得有虚构、幻想的成分;在结果上,应当准确反映针对具体事件或话题的思想动向,能够挖掘出对事件或话题的兴趣点;4)支持批量数据的导入分析,数据宜包括平台名称、自媒体文章标题、自媒体文章正文,建议支持数量在100条左右。c)商业平台文章评论分析:1)设计相应提示词令模型生成符合指定平台的文章评论观点聚类分析内容;2)提示词指令需要包括但不限于规定评论观点的立场属性为正面、中性和负面;9T/CAPT010—20243)文章评论观点聚类生成结果需要保证在对待文章中所讨论事件的观点立场判定准确;在评论内容情绪判断上精准,建议将情绪具体划分为8类:高兴、悲伤、大笑、愤怒、讨厌、震惊、担心和平和;在内容上,应当能够提炼出每种观点的核心要素,洞察出评论者普遍心态;4)支持批量数据的导入分析,数据宜包括平台名称、文章评论正文,建议支持数量在500条左右。d)历史事件回溯:1)设计相应提示词令模型生成符合准确描述的突发事件,回溯出历史相似事件的详细内容;2)提示词指令需要包括但不限于规定事件主体,回溯时间段,事件发生的地域以及事件相似性程度等属性;3)历史事件回溯生成结果需要保证在内容上包括简要的事件概括、发展过程和最后的结果;在顺序上,按照时间线依次列出;在相关性上,应当能够根据指定的事件相关度,增减回溯的历史事件数量。e)热搜词条生成:1)设计相应提示词令模型生成符合准确描述的突发事件详情,符合不同平台热搜榜特征的热搜词条;2)提示词指令需要包括但不限于规定平台名称;3)热搜词条生成结果需要保证在内容上能准确反映突发事件核心要素;在形式上,符合指定平台的热搜词条特征;在逻辑上,应当能够反映社会公众兴趣所在。4.5.3新闻事实核查新闻事实核查是指新闻采编人员通过多种方式,对已公开的新闻、声明、公告、报告、统计数据及其他公共言论或信息的真实性和准确性进行系统评估的活动。大模型应当能辅助或代替人工完成新闻事实核查的各项任务,包括:信息筛选、资料收集、验证来源、检查事实、分析证据、撰写报告和发布结果。在信息筛选环节,大模型应当可以迅速筛选出具有公共关注度和重要性的新闻主题或内容。在资料收集阶段,模型能够快速查找并整理相关的原始来源、背景信息和佐证资料。在验证来源和检查事实过程中,大模型可以高效地核实信息来源的可靠性和权威性,并对涉及的事实和数据进行多方比对和验证。通过分析证据,模型应当可以综合多来源证据资料,识别新闻的准确性和真实性,减少人为主观偏差。大模型应当能够生成清晰简明的事实核查报告,准确展示核查过程和结论。模型还应当可以协助发布和传播核查结果,及时向公众提供准确的信息,减少虚假信息的传播和影响。4.5.4优先采用可信数据源可信数据源是指具有权威性、准确性和时效性的数据信息来源。通常包括专业新闻机构、官方媒体、政府数据库、研究机构或经验证的第三方数据服务机构。可信数据源应满足以下条件:——权威性:数据源应来自政府机关、知名新闻机构、国际认可的非营利组织或行业权威研究机——准确性:数据源提供的信息应经过核实,准确无误,不传播未经证实的消息或谣言。——及时性:数据源应能提供最新信息,保证内容时效性。——透明性:数据源应公开原始信息来源、采集方法和时间,便于验证和追溯,如公布调查研究的抽样方法和样本数量,指明数据可能存在的偏差与局限。——完整性:数据源提供的信息应全面,不应有故意的遗漏或剪辑,避免误导读者。——在新闻语言大模型的数据增强过程中,应遵循以下原则:.优先采用原则:在使用媒体数据进行语言模型训练或增强时,应优先考虑符合上述标准的数据源,确保模型的准确性和可靠性。.多元化和平衡:应注意数据源的多元化和平衡,避免依赖单一数据源,结合多个高质量数据源,以获得全面和客观的数据输入。.持续监控与评估:对选定的数据源实施持续监控和评估,定期审查其信息的准确性和可靠性,并根据需要更新可信数据源名单。T/CAPT010—2024.数据更新:追踪可靠数据源提供的最新数据,保证模型接收和提供的信息不过时,能反映最新情况。——建议的可信数据源包括:政府官方数据库:如国家统计局网站提供的《中国统计年鉴》、地区数据、普查数据,美国食品药品管理局提供的药品数据等。——新闻机构:可信的新闻机构数据源参考网信办互联网新闻信息稿源。——研究机构:包括高校研究所验证的报告与文献、联合国与世界卫生组织等国际非营利组织、行业内权威研究机构的资料。4.5.5使用外部数据的输出需要提供引证素材来源在使用外部数据进行内容输出时,引证素材应增强内容的可靠性、可验证性和可追溯性。具体要求如下:a)引证来源的灵活性与可控性:灵活选择不同的外部数据源作为引证素材。若外部数据无相关内容,需拒绝回答,确保引证准确有效;b)数据来源的明确性:所有引文应明确标注引用来源,精确到原文中的具体数据片段,包括作者、出版物名称、出版日期等,以便快速准确定位参考内容;c)引证数据的适当性:生成内容应与引文紧密相关,具备逻辑关联,避免无关引文;d)引证内容的完整性:引证内容应完整、可读,不遗漏关键信息或截取部分。需对每个观点标注支持的引文,确保所有引用信息完整呈现。同一观点的相关引文应并排标注,便于全面了解信息来源。e)引证来源的可回溯:提供引证信息的元数据,确保可找到原文;引文与原文一致,不进行改写或修改,保证内容可追溯。f)引证格式的标准性:引文标注应清晰易懂,避免歧义或混淆。采用阿拉伯数字顺序夹注法关联引证来源,方便读者查阅。元数据标注根据数据类型不同进行区分。参考文献按引用顺序排序,提高逻辑性和可读性。遵循GB/T7714要求,确保引证格式规范统一。根据指定格式自动生成引用,提升操作便捷性和准确性。表3数据类型和引文所需字段枚举页面标题(PageTitle)、网站名称(WebsiteName)、发布Publication)、URL、访问日期(AccessDate)、引文段落(Quota作者(Author)、文档标题(DocumentTitle)、页码范围(Page5效果要求5.1专业性要求专业性要求旨在判断大模型生成结果的新闻行业专业标准和价值取向体现情况。5.1.1内容专业模型生成的新闻信息内容质量能够匹配新闻行业中的主要应用场景下的需求,保证模型生成新闻信息的真实、准确。T/CAPT010—20245.1.2结构专业模型生成的新闻信息结构符合新闻专业标准,保证模型生成新闻信息符合新闻体裁规范。5.1.3语言专业大模型生成的新闻信息的语言应符合新闻传播场景的风格需求,保证模型生成新闻信息的语言风格不含违禁词、并符合媒体、栏目风格定位。5.1.4准确专业大模型生成的内容应基于事实和数据,避免虚假信息和不实报道;在处理新闻报道时,模型应能够识别和引用权威的信息源,如官方发布、专业研究报告等;对于历史事件、数据统计、人物言论等,模型应确保引用信息的时间、地点、背景和上下文的准确无误。5.1.5可信专业模型生成的新闻内容应具备一定的可信度,模型应能够解释其生成新闻内容的过程和依据,从而保证读者或用户能够信赖该内容的真实性和有效性;应定期对模型进行校准和更新,以适应不断变化的新闻环境和信息准确性的要求;当模型出现错误时,应能够识别错误类型并给出合理解释,以便用户或开发者进行修正。5.1.6客观专业模型处理和生成多样的文本时保持新闻客观性的能力,以提供更加广泛的视角和代表性;数据预训练阶段要引入内容过滤机制,避免由于数据选择、数据清洗等过程中的不当操作而引入歧视,应使用不同类型的可靠数据类信源以保证数据质量;生成内容时应通过算法保证信息来源的多样性和独立性,避免偏见和误导性信息。5.2可靠性要求可靠性要求应保证大模型在新闻行业使用过程中的安全、合法、可信赖,减少、防止大模型的不良输出或侵权行为。5.2.1安全性大模型生成内容应符合国家法律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观,可参考法律法规等相关文件对前述要求作出具体规定和建立负面清单,具体要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。5.2.2可控性大模型在进行媒体工作时,应当满足指令提示词内的限制性、倾向性需求,保证大模型的输出是可被输入控制的,且专业性不发生明显衰减。建立健全的内容审查机制,对大语言模型产出的内容进行人工审核,确保内容的生成结果安全能够由用户掌控;对于发现的不适合产出的内容,应及时进行修改或删除,防止其传播,并从技术层面判断根源,尽量杜绝类似内容的再生产;可识别具有不良诱导性内容的提示词并给出正向提示和拒绝,并额外建立预警机制,让用户可知可控。5.2.3可解释性大模型在进行媒体工作时,应能够清楚地说明其在新闻行业中的工作原理和逻辑推理过程,以便用户进行核查检验,从而提高大模型的可信度。5.2.4保护数据隐私大模型在预训练集和实际应用中均应遵循、符合对个人隐私数据保护和机构内部或敏感数据保护的相关要求。对于处于不同国家和地区的具体情况,应遵照并符合当地相关法律法规的要求;对于涉及个人隐私或个人隐私数据的新闻报道或输出,应遵循个人隐私数据保护的要求,对个人隐私数据进行匿名处理或模糊化处理,包括但不限于:姓名、身份证号、家庭住址、通讯地址、电话号码、DNA数据、银T/CAPT010—2024行账号、个人病历、照片、视频等。建立中央监管系统,通过人力和各种人工智能检测机制的辅助,发现和记录隐私泄露或违规使用的行为。5.2.5保证数据可信加强对新闻内容的真实性审核,如引入专业的新闻编辑和审核团队进行把关,确保其真实性和准确性。同时,也可以借助自然语言处理等技术,对新闻内容进行自动化分析和验证,确保不产出虚假新闻或误导性信息,对于未经证实的信息,应明确标注其未经验证,避免误导读者;建立可信度评级体系,度量输出内容的可信度,供读者判断;提供用户反馈渠道,鼓励用户对不适宜及真实性存疑的内容进行举报和提示;对用户反馈的内容进行快速响应和处理,必要时进行公开澄清或道歉。5.2.6尊重数据版权尊重知识产权,严格遵守《中华人民共和国著作权法》,未经著作权人许可,大模型不得以复制、通过信息网络向公众传播其作品等形式侵害著作权人权利;建立版权信息的查询功能:训练过程中不仅仅要学习数据本身,还需要将数据的来源以及产权信息送入;对于引用或转载的内容,应明确标注来源,并确保符合版权法规定的合理使用范围;使用开源数据集时,应取得开源授权协议。5.3适用性要求适用性要求大模型应适应新闻行业的领域多样性和用户需求多样化,反映大模型在新闻行业中的实际效果和用户体验。5.3.1灵活适用大模型在进行不同领域的媒体工作时,应当对于差异性领域的新闻需求、多样性的新闻素材输入,均能给出符合领域专业性的回答。5.3.2兼容适用大模型在进行媒体工作时,对于同样需求、不同风格描述语言的提示词输入,应当都能给出符合需求的回答。生成的内容在模型内部需要保持一致,不包含自相矛盾的信息,模型应保持持续稳定的性能,不因数据量增大或计算资源变化而影响生成速度和质量。5.3.3创新适用大模型在媒体行业中的应用也应当显示自身的创新能力和价值贡献,尤其是对于开放性生成任务,如用户有需要,则大模型应有创新性或出彩性的生成结果,如生成多样性、内容新颖性等。6产品化要求6.1模型部署的要求6.1.1云服务的要求云服务需要保证服务的稳定性。大模型的云服务应具备高可用性架构,保证7x24小时可靠,或根据使用单位工作时间具体确定,同时确保系统能够在高并发访问情况下依然保持稳定运行,避免因服务中断导致的新闻事故。此外,云服务需要具备良好的扩展性,以应对新闻行业中突发事件和重大新闻报道期间的流量高峰。服务商还应提供全天候技术支持和快速响应机制,及时解决用户在使用过程中遇到的问题,确保新闻行业大规模预训练语言模型的部署和运行过程平稳顺利。6.1.2私有化服务的要求能私有化部署的,要保证部署方案的可用性和推理效率。私有化部署需要确保在不同的硬件环境下都能够稳定运行,并且具备良好的可扩展性和灵活性,以适应新闻机构不同规模和需求的变化。在部署过程中,需要考虑数据安全和隐私保护,确保新闻数据不会在传输和存储过程中泄露。此外,私有化部署的模型应具备高效的推理能力,能够快速响应用户的查询和请求,确保新闻内容的实时性和准确性,为新闻工作者提供高效的工具支持。T/CAPT010—20246.2模型数据库的要求6.2.1数据库的上游数据可靠性新闻行业要求事实,因此新闻行业大模型所采用的数据库应当具备可靠的上游数据来源。具体而言,数据库中的数据应当来自权威、可信的新闻机构和信息源,经过严格的验证和筛选,以确保数据的真实性和可靠性。此外,数据库还应保持实时更新,及时收录最新的新闻事件和动态,确保模型生成的内容具有时效性和准确性。对数据库中的数据进行定期审核和清洗,剔除过时、错误或不可靠的信息,也是确保数据质量的重要措施

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论