T-CAPT 013-2024 新闻行业大规模预训练模型多模态要求

上传人：馒*** IP属地：河北上传时间：2025-03-12 格式：DOCX 页数：76 大小：155.15KB 积分：25 举报 版权申诉

已阅读5页，还剩71页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ICS35.240CCSL70CAPT求NewsIndustry—Large-scalepre-trainedmodels—Requirmentsformulti-modalIT/CAPT013—2024前言 42规范性引用文件 43术语和定义 44多模态新闻任务要求 54.1概述 54.2多模态新闻报道 54.3多模态新闻理解 64.4多模态新闻检索 64.5多模态新闻编辑 75多模态研发数据要求 85.1概述 85.2预训练数据 85.3微调数据 96多模态大模型任务评测要求 6.1评测执行方法 6.2评测指标 6.3评测框架 7多模态新闻任务安全性要求 7.1数据保护 7.2内容审核 7.3身份验证 7.4透明度和可解释性 7.5资质与合规性 7.6应急响应附录A（资料性）多模态任务评测示例 20A.1多模态新闻报道类 A.2多模态新闻理解类 A.3多模态新闻检索类 A.4多模态新闻编辑类附录B（资料性）多模态大模型技术参考资料 31B.1模型架构 B.2训练算法 B.3硬件要求参考文献 T/CAPT013—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提本文件由中国新闻技术工作者联合会归口。本文件起草单位：中国传媒大学、新华通讯社通信技术局、视觉（中国）文化发展股份有限公司、大众报业集团（大众日报社）、武汉镝次元数据科技有限公司、传播大脑科技（浙江）股份有限公司、广东南方新媒体股份有限公司、中国搜索信息科技股份有限公司、新华社媒体融合生产技术与系统国家重点实验室（新华融合媒体科技发展（北京）有限公司）、新华通讯社北美总分社、深圳市创意智慧港科技有限责任公司（深圳报业集团技术公司）、中联超清（北京）科技有限公司、福建理工大学。本文件主要起草人：路海燕、曹娟、刘琼、张鹏洲、王骏清、汤代禄、魏漫江、刘丽芳、张健、王兵、龙飞、蔡金慧、席懿婷、张震、李姝蒙、王琼、陈志业、郭永康、王永兴、罗毅、林波、成鹏、王仲豪、熊立波、王慕维、王宇琦、瞿曦、邓海滢、郑创伟、王付生、王熠、瞿弋微、王志民、杨士龙、黄菁、张建伟、付蓉。T/CAPT013—2024《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模态等多个角度出发，构建了一个完整的标准体系，确保大规模预训练模型在新闻行业中的有效、安全和规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导，确保模型在真实新闻生产过程中具备足够的实用性和效果。《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求，并给出了具体的评测示例，以确保评测过程的科学性和规范性。《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中，能够遵守相关法律法规，确保数据安全、内容合规。《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数据，提出了技术要求。该标准确保了在预训练模型研发过程中，数据的质量和规范性，从而提升模型的性能和可靠性。《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等方面的要求，特别是在处理多模态数据时的技术标准。该标准的制定，进一步拓展了预训练模型的应用范围，使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。5个标准的紧密衔接和相互配合，为新闻行业的大规模预训练模型构建了一个全面而系统的框架，为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。4T/CAPT013—2024新闻行业大规模预训练模型多模态要求本文件规定了新闻行业大规模预训练模型多模态的新闻任务、研发数据、任务评测以及安全性等要本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域进行多模态大规模预训练模型研发、部署、应用、评测和安全管理。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB/T22240信息安全技术网络安全等级保护定级指南GB/T35273信息安全技术个人信息安全规范GB/T37988信息安全技术数据安全能力成熟度模型TC260-003生成式人工智能服务安全基本要求3术语和定义GB/T41867界定的以及下列术语和定义适用于本文件。3.1大规模预训练模型large-scalepre-trainedmodels一种具有大规模参数和复杂计算结构的超大型机器学习模型（一般超过10亿个参数通常由深度神经网络构建，对海量数据进行预训练处理。3.2预训练pre-training在大量通用数据上进行模型训练的过程。3.3微调fine-tuning为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门领域数据集继续训练的附加训练技术。注：常用于解决过拟合问题。[来源：GB/T41867—2022,3.2.31]3.4微调数据finetuningdata针对新闻理解、生成、编辑等具体任务，用于模型微调的标注数据。3.5多模态大模型multimodallargemodels利用大规模多模态数据(包括文本、图像、音视频等)进行预训练，并通过微调适应新闻领域特定任务的大型人工智能模型。3.6预训练数据pre-trainingdata用于模型预训练的大量新闻相关多模态数据，包括新闻报道、图像、音视频等。3.7指令/提示词prompt给预训练模型提示输入模型的参数信息，描述问题需求类型，帮助模型更好地理解输入的意图，并5T/CAPT013—2024作出相应的响应。3.8问答questionanswering确定以自然语言提供的问题最合适答案的任务。[来源：GB/T41867—2022，3.3.9]4多模态新闻任务要求4.1概述在多模态新闻业务场景下，利用大型预训练模型完成的任务涵盖了从新闻报道生成、新闻理解、新闻检索到新闻编辑等多个方面，旨在为用户提供全面、多样化的新闻服务和体验。各分类要求如下：4.2多模态新闻报道4.2.1概述多模态新闻报道旨在利用多种数据类型，如文本、图像、视频、音频等，为用户呈现丰富多样的新闻内容。主要包括：视频报道生成、图文报道生成、语音报道生成和虚拟主播新闻生成。4.2.2视频报道生成视频报道生成要求包括：a)基于用户输入的文本内容，可提供符合新闻事实的图像、视频等素材，利用大型预训练模型自动生成符合新闻事件描述的视频内容；b)设计问题指令时，要求模型根据提供的详细文本描述生成一段视频，描述其中涉及的人物、场景、动作、摄影角度、光线和色调等视觉效果，但不能脱离新闻事实；c)模型根据文本描述生成一段视频内容，准确还原文本中描述的新闻事件，包括人物动作、表情，场景布置以及整体视觉效果。生成的视频可作为视频新闻报道的素材，也可经过后期编辑制作成完整的视频报道。4.2.3图文报道生成图文报道生成要求包括：a)基于用户输入的文本内容，从庞大的新闻素材库中检索相关的图像、视频或其他模态内容，并与文本进行匹配，为用户提供相关的多模态报道；b)设计问题指令时，要求模型根据提供的文本描述，生成一段图文内容，描述其中涉及的人物、场景、事件发展过程，以及其他相关细节。指明报道应包含相关的图片和文字内容，以丰富和详细地呈现文本描述的情景和事件；c)模型经过深度分析后得到的文本核心内容和主旨摘要，结合用户输入的文本主旨以及从素材库中检索到的高质量文本、图像和视频内容。在报道中，合理地插入所选图片和视频，并确保整篇报道内容连贯、图文并茂，为读者提供丰富而直观的阅读体验。4.2.4语音报道生成语音报道生成要求包括：a)利用大型预训练模型，将文本内容转化为语音形式，并配以相应的音频效果，以自动生成符合新闻事件描述的语音内容；b)设计问题指令时，要求模型根据提供文本描述，生成一段语音报道，描述其中涉及的人物、场景、事件发展过程，以及其他相关细节。指明报道应包含适当的语调和语速，以生动地呈现文本描述的情景和事件；c)模型根据文本内容对应的情绪标签，在预设的音频库中搜索并选择能与该情绪相契合的背景音乐或音效，并结合完整的新闻报道文字和检索到的配乐，利用语音合成技术生成一段包含6T/CAPT013—2024清晰语音播报和恰当配乐的音频新闻报道。报道中的语音应具有清晰的声音、适中的语速，与配乐同步，营造出恰当的新闻氛围。4.2.5虚拟主播新闻生成虚拟主播新闻生成要求包括：a)将新闻内容呈现为由虚拟主播播报的视频形式；b)设计问题指令时，要求模型根据提供的完整新闻报道内容，生成一段高质量的虚拟主播新闻报道视频。要求视频中虚拟主播的唇形与新闻报道的文本内容相同步，手势动作与新闻内容相匹配，且虚拟主播形象非真人；c)模型根据指令生成一段高质量的虚拟主播新闻报道视频，其中虚拟主播的表现生动自然，唇形与文本同步，虚拟主播动作与新闻内容相匹配，且非真人形象。4.3多模态新闻理解4.3.1概述多模态新闻理解涉及对多模态新闻内容进行深入分析和理解，旨在从中提取出关键信息并为用户呈现。主要包括：新闻事件综合分析、新闻事件视频精缩和新闻视频生成图文摘要。4.3.2新闻事件综合分析新闻事件综合分析要求包括：a)通过对文本、图片、视频等多模态新闻数据进行深度分析，从不同模态的信息中挖掘和总结新闻事件的重要内容、关联关系和趋势；b)设计问题指令时，要求模型检测文本中所描述的事件，并提取相关信息，分析文本中所表达的情感倾向，如积极、消极、中性等；c)模型根据指令生成的新闻事件综合分析，其中包括事件的主题、时间、地点、参与者以及文本的情感倾向分析。分析报告应全面、准确，并突出不同模态信息之间的关联性和一致性。4.3.3新闻事件视频精缩新闻事件视频精缩要求包括：a)对新闻视频进行内容摘要和精简，以提炼出关键信息和精彩片段，帮助用户快速了解新闻事件的核心内容。识别视频中的人物或对象的行为，并确定其所处的状态或动作，从视频中提取关键帧等；b)设计问题指令时，要求模型识别视频中的人物或对象的行为，并确定其状态或动作，同时从视频中提取关键帧。要求模型识别音频中的不同说话人，并确定他们的身份或特征，同时从音频中提取关键词或关键短语；c)生成结果包含视频中相关人员的具体行为或动作的描述，以及对具体身份特征和关键短语的描述。4.3.4新闻视频生成图文摘要新闻视频生成图文摘要要求包括：a)通过分析新闻视频的内容和用户需求，自动生成简洁清晰的文字摘要和相关图像，帮助用户快速了解新闻事件的要点和重点内容；b)设计问题指令时，要求模型识别文本中的实体，如人名、地名、组织名、关键词或关键短语等。检测图像中的对象并确定其位置和类别，确定其所属的类别或类型，运动轨迹等；c)生成结果能概括视频的主要信息，包括文本摘要、关键词、图像描述和视频摘要等内容。这些摘要将新闻事件的要点、关键信息以及视频中的关键场景、重要动作整合在一起，以图文结合的形式呈现给用户，帮助用户快速了解新闻视频的内容。4.4多模态新闻检索4.4.1概述7T/CAPT013—2024利用不同模态的输入数据，如文本、图片、视频等，从庞大的新闻素材库中检索相关内容。主要包括：跨模态新闻素材检索、新闻视频片段定位和多模态新闻事件检索。4.4.2跨模态新闻素材检索跨模态新闻素材检索要求包括：a)根据用户给定的文本描述或其他模态的输入（如图片），从大量新闻素材库中检索出相关的图像、视频或其他模态的内容；b)设计问题指令时，需明确指定检索的新闻主题，详细描述所需素材的内容特征，包括但不限于事件、人物、组织机构、地点等关键元素。应指定素材的模态类型（如图片、视频）；c)生成的跨模态新闻素材检索结果应严格与用户指定的主题相关，全面覆盖事件的关键点和亮4.4.3新闻视频片段定位新闻视频片段定位要求包括：a)在长时间的新闻视频中，根据文本查询或其他模态的提示，快速定位到视频中具有特定内容的片段。该场景关注于如何快速准确地从大量新闻视频中定位到包含特定内容的片段；b)设计问题指令时，需提供具体的文本描述或关键词，明确指出想要检索的视频片段内容，包括但不限于事件、人物、组织机构、地点等关键元素。如果适用，也可描述任何相关的图像、音频或其他模态信息，以辅助定位。如可能，还可指出哪些内容特征是定位过程中的优先考虑因素；c)生成的新闻视频片段定位结果，应包含与文本查询或模态提示直接相关的特定内容，提供片段的确切时间戳或位置信息，便于用户直接访问。4.4.4多模态新闻事件检索多模态新闻事件检索要求包括：a)利用多种媒体形式（文本、图像、视频等）来检索、识别和跟踪新闻事件。与跨模态新闻素材检索相比，多模态新闻事件检索更侧重于对整个新闻事件的理解和分析，而不仅仅是在单个模态（如文本、图片或视频）上进行检索；b)设计问题指令时，需提供新闻事件的详细描述或关键词，以明确检索的主题。需指出需要对事件进行的分析深度，如概述、详细分析或趋势跟踪。需指定希望检索的媒体形式，如文本、图像、视频等；c)结果应尽可能覆盖事件的所有相关方面，展示不同模态内容之间的联系，如视频片段与相关新闻报道的链接。生成结果应组织有序，按照指令要求的检索与分析深度，便于用户根据时间线或主题进行查看。4.5多模态新闻编辑4.5.1概述多模态新闻编辑是对文本、图片、视频等不同形式的内容进行综合处理和优化，旨在提高新闻内容的质量和表现形式。主要包括：多模态新闻内容审校、多模态新闻视频再创作和多模态新闻图片二次编辑。4.5.2多模态新闻内容审校多模态新闻内容审校要求包括：a)对新闻报道的多模态内容进行审核和校对，确保其符合新闻报道的真实性、客观性和合法性要求；b)设计问题指令时，要求模型对多模态新闻报道进行审校，包括文本内容的事实核查、图片和视频的真实性验证，以及多模态内容之间的一致性和连贯性检查；8T/CAPT013—2024c)审校结果包括对文本内容的修改建议或确认、对图片和视频真实性的验证结果，以及对多模态内容之间关联性和连贯性的评估。审校结果应指出可能存在的错误或不准确之处，并提供改进建议，以确保新闻报道的准确性和可信度。4.5.3多模态新闻视频再创作多模态新闻视频再创作要求包括：a)对现有的新闻视频进行再次编辑和创作；b)设计问题指令时，要求模型根据新闻视频进行再创作，包括剪辑、配音、特效添加等处理，以及对视频结构和叙事方式的重新设计；c)再创作后的视频应包括经过剪辑处理的新闻内容、新增的配音和特效效果，以及重新设计的视频结构和叙事方式。4.5.4多模态新闻图片二次编辑多模态新闻图片二次编辑要求包括：a)对新闻报道中的图片内容进行二次编辑和处理；b)设计问题指令时，要求模型包括对图片的修剪、调色、滤镜处理等美学调整，以及对图片内容的标注、说明文字的添加等信息补充；c)生成结果包括调整图片的大小、颜色、对比度等参数，同时包括在图片中添加文字、图标或其他图像元素，以便更好地表达新闻内容或符合特定的视觉风格。5多模态大模型研发数据要求5.1概述新闻行业多模态大模型的研发数据分为预训练数据和微调数据。5.2预训练数据5.2.1概述在预训练阶段，多模态模型通过分析大规模、多样性数据集来学习通用知识，以增强泛化能力。数据需高质量、无偏见和准确标注，确保了样本类型均衡，避免模型偏向。5.2.2类型要求类型要求包括：a)大规模数据集：确保数据集拥有足够的规模，以支持深度学习模型的有效训练；b)多模态数据类型：数据集应包含图像、文本、视频、音频等多种数据类型，并确保各类型数据量均衡，以防模型偏向某一特定模态。此外，这些数据类型应能在信息表达上相互补充，形成多模态协同处理能力；c)场景覆盖：数据涵盖广泛真实世界场景，并展示多模态表现；d)知识领域覆盖：数据集应包含来自至少3个不同专业领域的数据。这样的要求旨在增强数据集在多个行业或学科中的适用性和实用性；e)任务类型支持：数据集应能支持多种跨模态任务，如视频字幕生成、图像和视频的文本描述生成、视听同步检测等；f)交互数据：加入用户交互数据，如问答对和用户评论，不仅应支持传统的文本基础对话系统和情感分析的模型训练，还应包括语音和视觉反馈。例如，包含视频回应、语音指令以及基于图像的用户反馈；g)文化和语言：包括多种文化背景和语言的数据，确保模型能处理不同语言和方言。此外，应包括与特定文化相关的图像、视频和音频内容，以促进模型在视觉和听觉上的跨文化理解。例如，包含不同地区的传统活动、节日庆典的视觉表现以及地方语言的音频样本；9T/CAPT013—2024h)模态融合和协同处理：数据集应体现不同模态之间的互补性和融合能力。例如，确保图像数据可与相关的文本数据相结合，提供视觉场景的语义理解，或者音视频数据与对应的情感标签紧密结合，支持复杂的情感分析任务；i)上下文理解和场景再现：在多模态数据集中包括上下文信息，如时间、地点、社会文化背景等，使模型能在处理数据时考虑到这些因素，从而更好地理解和再现真实世界的复杂场景；j)异常检测和不一致性标识：在数据集中特别标注那些模态之间存在不一致或异常的例子，如图像中的物体与描述不符的文本，或声音与视频不同步的情况。5.2.3格式要求格式要求包括：a)模态对齐：确保不同模态间数据对齐，图像中的对象与描述它的文本对应，视频动作与音频解释同步；b)格式标准化：为每种模态定义格式和质量标准，确保数据具有一致的处理质量和格式；c)跨模态标注：为图像、视频和音频数据提供文本描述、对象标签、情感分析等，并确保与视觉或听觉内容相关；d)富元数据：包括图像的拍摄地点和时间，视频的时长，音频的采样率等信息；e)图像+文本数据集：确保所有图像-文本对来自可验证且信誉良好的数据源，每个图像-文本对需经过质量检验，确保图像清晰，文本描述准确无误。图像-文本对应关系需清晰标注，如对象标签、详细描述及情感分析；f)视频+文本数据集：视频来源于经过认证的内容提供者，确保视频与字幕的时间轴同步。视频应清晰无模糊，音频清晰可辨，文本准确描述视频内容；g)音频+文本数据集：音频数据集来自标准语音库，音频清晰度和文本转录的准确性需达到预定标准。音频文件应包含详细的元数据，如录音环境、说话者信息和语言；h)其他多模态数据集：包括但不限于文本、图像、视频和音频的组合。确保所有数据格式统一，支持跨模态分析与处理。数据集中应包含交互式元素，如用户问答对和评论数据，以支持对话系统和情感分析的模型训练。5.2.4来源要求来源要求包括：a)多模态数据源：确保数据来源的多样性，涵盖社交媒体、新闻网站、科学文章、公共图像库和视频库等。所有数据来源应是可靠和权威的，例如官方发布、专业机构或经过验证的数据集。同时，对数据源进行记录，包括发布日期、作者信息及其凭据；b)同步采集：对于涉及多种数据类型的场景，保证时间同步性，如视频中音频与图像内容的匹配。5.3微调数据5.3.1概述微调是将已经训练好的模型通过少量特定的数据集进行再训练，以适应具体应用的过程。微调数据的质量直接影响模型在真实世界场景中的表现。因此，这些数据需要是高质量、具代表性且细粒度标注5.3.2多模态新闻报道数据类型微调数据类型应覆盖文本、图像、视频和音频等模态，以贴合新闻报道的多样化传播渠道，并确保能支持包括自动生成新闻摘要和新闻分类在内的特定任务。数据集需覆盖各种类型的新闻主题，如政治、经济、娱乐等，以提供全面的视角，增加报道的广度和深度。数据来源T/CAPT013—2024来源上要求多元化，涵盖新闻发布机构、专题论坛、社交媒体等。这些数据应覆盖广度长的时间范围，证实事件的时序性和历史背景。数据来源应包括实时信息、过往新闻文本和报道材料。微调数据集需符合相关隐私法规，确保个人信息得到匿名化处理，并确保内容获得授权，特别是版权受限的素材。数据规模数据集规模应适中，不必与预训练数据的海量程度等同，但应具备足够的样本来代表新闻领域的广泛主题和风格。确保数据集在结构上与新闻行业报道统一，反映准确的新闻格式和风格。数据质量所有模态的数据应清晰无歧义，并向用户提供精准的新闻信息。需经过严格的质量控制流程，以高准确度满足新闻行业的专业标准。微调数据集需要具有精准的交叉模态标注，包括但不限于图像中对象的文本描述、视频关键帧的注释等，确保新闻内容语义的准确表达与完整性标签。数据集应允许对模型进行有意义的评估，以验证微调数据的效果，并确定模型在多模态新闻报道任务中的表现。5.3.3多模态新闻理解数据类型微调数据应包含传统的新闻报道类型，并且包括为新闻理解任务提供专门优化的定向数据类型。微调数据应包括最新的新闻语言用法和专业术语，确保模型在语言理解上与行业发展同步。数据来源数据来源应包括实时新闻报道和过往新闻报道，确保数据集在时效性、历史性和专业性上有足够保数据集应包含多领域和多文化背景的内容，以支持模型的跨域适应性和地域多样性理解。数据规模确保数据规模可促使模型从多个角度全面理解新闻事件，数据需要覆盖新闻的不同时间点和观点，并展示多种表述方式。数据集应支持模型的可扩展性和增量学习能力，允许模型适应新信息，并维护已有知识的稳定性。数据质量数据质量应与新闻理解任务高度匹配，内容应涉及事件的全面详情和深度背景分析，确保无误导性，并提供信息源头的明确标记。数据集需要符合所采用模型架构的特征提取和输入格式要求，尤其要允许模型在真实世界应用场景中有效地评估任务相关的性能和优化空间。5.3.4多模态新闻检索数据类型数据类型包括文本、图像、视频、音频等类型，其中文本数据包括新闻标题、正文、作者、发布时间等文本信息。图像数据包括与新闻相关的图片或图表。视频数据包括与新闻相关的视频素材。音频数据包括与新闻相关的音频素材。数据来源数据来源广泛，包括新闻网站、平台、机构、社交媒体和开放数据源等。这些渠道提供多样的多模态新闻内容，如报道、采访视频、社交媒体用户发布的文本、图片、视频等。T/CAPT013—2024利用开放数据源，如政府公共数据和研究机构数据集，获取更丰富的多模态新闻数据。这些来源为多模态新闻检索系统提供丰富的资源，支持系统对各种形式的新闻内容进行检索和分析。在获取和使用数据时，需合法合规地保护用户隐私和版权。数据规模数据规模通常包括文本数量，可按条目或字数统计。应确保数据足够丰富，涵盖各个领域和类型的新闻。图像数据包括新闻配图、图表和照片等，应满足用户搜索和浏览的需求。视频数据应涵盖报道和采访等各类视频，以覆盖多样的新闻事件和主题。音频数据包括广播和专访录音等，应满足用户对新闻音频内容的需求。数据质量数据应准确反映现实情况，全面覆盖各领域和主题，确保新闻内容、图像、视频等信息无误导性或错误。数据应及时更新，反映最新新闻事件和信息，确保用户获得最新资讯。数据需具备多样性，涵盖各种主题和领域，以满足用户多样化需求。同时，数据应易于使用和理解，提供清晰明了的界面和信息展示，方便用户检索和浏览。数据应遵循隐私保护原则，确保用户个人信息和隐私安全，合法合规地处理和使用用户数据。5.3.5多模态新闻编辑数据类型数据类型包括文本数据类型（如标题、正文、作者、发布时间）、图像数据类型（如配图、统计图表）、视频数据类型（如报道视频、采访视频）、音频数据类型（如广播、专访录音）。数据包括元数据（描述信息、标签、分类、关键词）、编辑操作数据（编辑、修订、审核）、发布渠道（网站、移动应用、社交媒体等）、版本控制（版本号、更新记录）、安全审查（敏感信息审核、版权审核）。数据来源通过与新闻机构、媒体公司以及第三方数据提供商的合作，获取他们发布的多模态新闻内容或购买其提供的服务。利用社交媒体监测工具，监测社交媒体平台上用户发布的多模态新闻内容。利用开放数据源，获取多模态新闻数据，也可通过收集用户生成的多模态新闻内容来丰富数据资源。数据规模覆盖多个领域和主题的新闻内容，内容丰富多样。包含各种形式的新闻内容，以满足不同用户的需求和偏好。数据质量新闻内容应准确可靠，避免错误或误导性的信息，以提高用户对系统的信任度。在获取和使用新闻数据时，应遵守相关的版权法律法规，确保数据的合法合规性，保护知识产权和用户权益。及时更新新闻内容，确保用户获取到最新的消息和资讯，提高系统的实用性和吸引力。6多模态大模型任务评测要求6.1评测执行方法6.1.1基本要求新闻行业多模态预训练语言模型评测的执行，首先按照6.1.3方法，基于第4章：多模态新闻任务要求中的问题设计，使用6.1.4工具，输入在6.1.2环境中的待评测预训练大模型，得到对应问题的答案，T/CAPT013—2024按照6.1.5方法，参考6.2中评测指标规范，根据评测问题类别，具体参考6.3中的对应问题评测方法，对答案进行人工评分，综合定量衡量大模型的好坏，给出不同维度的评测结果。参考评测示例见附录A。6.1.2评测环境根据被测模型的功能手册，应按照被测系统的使用要求进行软硬件环境配置。6.1.3评测数据集应满足以下要求，其中涉及到具体数值的可根据评测需求进行适当调整：a)应通过新闻专家构建、权威数据集筛选等方式进行评估数据集的构建；b)应为每类评价任务构建不少于100条，满足第4章各类任务要求的数据集；c)数据集应结合新闻时效性、多样性、价值性的要求，定期更新维护。6.1.4评测工具针对开放应用程序编程接口（ApplicationProgrammingInterface，API）和不开放API的两种系统，应准备两种评测工具：a)对开放API的预训练模型系统，应编写调用API的测试工具，进行输入问题的批量请求，获取结果。b)对不开放API的预训练模型系统，应进行终端上的使用(例如web或者APP)，提供用户界面（UserInterface，UI）或其他可输入问题、获取结果的办法。6.1.5评测执行评测执行的具体步骤如下，其中涉及到具体数值或比例的可根据评测需求进行适当调整：a)对6.1.3的评测数据集，使用6.1.4的评测工具，对每个评测问题执行3～5次，或按第4章问题指令要求执行相应次数，将问题和多个答案对应记录；b)对于“问题-答案”对，若有标准答案则直接判断对错，多个答案的分值以算术平均计算总得c)无标准答案的问题，采用多专家双盲人工评分（Double-BlindExpertRating，DBER）方案，让专家在双盲情况下对“问题-答案”中提供对应问题的人类优质答案、行业领先或其他对比模型答案进行匿名对比评测；d)专家根据评测问题类别具体参考6.3中的对应问题评测方法对答案进行评分，以不同维度的加权得分作为单个答案得分，不同问题的答案可计算算术平均或根据具体需求计算加权平均。若不同专家对同一样本的评分方差较大，可先进行均值对齐（MeanCalibration，MC），这有助于消除不同专家之间的主观偏差，使得评分更加客观和一致；e)统计所有评测项目的DBER-MC分数，以总分数乘以60%作为及格分，分析各项评测项目下待评测模型的可用性；f)若进行了与行业领先或其他模型的对比，则根据同一问题下不同答案的分数高低，分数高者记为胜出，统计计算胜出率（WinRate）（同分数样本计一半），分析各项评测项目下待评测模型对比行业其他模型的领先性；g)若进行了人工优质答案的对比，则根据同一问题下不同答案的分数高低，分数高者记为胜出，统计计算胜出率（WinRate）（同分数样本计一半），分析各项评测项目下待评测模型对比人工优质答案的出彩性。6.2评测指标6.2.1概述新闻行业预训练多模态大模型各任务生成结果应符合专业性、可靠性、适用性、融合性要求。6.2.2专业性基本要求T/CAPT013—2024专业性要求旨在判断大模型生成结果的新闻行业专业标准和价值取向体现情况。评测维度包括内容、结构、语言3个子维度。内容大模型生成的新闻信息内容质量能匹配新闻行业中的主要应用场景下的需求，确保模型产出及整合的新闻内容（文本、图像、音频和视频）的事实的准确性、数据的正确引用能力和引用来源的可靠性。结构大模型生成的新闻信息结构符合新闻专业标准，确保模型能生成格式正确、具有清晰结构与逻辑的语言大模型生成的新闻信息语言能符合新闻传播场景的风格需求，确保模型在使用专业术语时准确无误，在不同模态（文本、图像、音频、视频）中使用的术语定义、用法与专业领域的标准一致，并且使用最新的专业术语。6.2.3可靠性基本要求可靠性要求应保证大模型在新闻行业使用过程中的安全、合法、可信赖，减少、防止大模型的不良输出或侵权行为。评测维度包括安全、可控、可解释3个子维度。安全大模型生成内容应符合国家法律法规和行业规范，尊重知识产权和个人隐私，遵守道德和公序良俗，符合社会主义核心价值观，可参考法律法规等相关文件对前述要求作出具体规定和建立负面清单。可控大模型在进行媒体工作时，能理解并遵循指令中的限制性、倾向性要求，以生成符合用户倾向的专业结果，保证大模型的输出是可被输入控制的，且专业性不发生明显衰减。可解释大模型在进行媒体工作时，能清楚地说明其在新闻行业中的工作原理和逻辑推理过程，以便用户进行核查检验，从而提高大模型的可信度和可靠性。6.2.4适用性基本要求适用性要求大模型应适应新闻行业的领域多样性和用户需求多样化，反映大模型在新闻行业中的实际效果和用户体验。评测维度包括灵活、兼容、创新3个子维度。灵活大模型在进行不同领域的媒体工作时，能处理多样性的新闻素材输入，包括文字、图像、视频等多种形式的信息，根据不同领域的新闻需求自动调整表达方式和输出结果。兼容大模型在进行媒体工作时，对于同样需求、不同风格描述语言的问题输入，能给出符合需求的回答。创新指大模型在媒体行业中的应用能显示自身的创新能力和价值贡献，尤其是对于开放性生成任务。6.2.5融合性基本要求T/CAPT013—2024融合性评测指标应反映大模型理解与生成的内容在多个维度上保持统一与连贯，并且具有良好的功能扩展能力。评测维度包括理解、表达、功能3个子维度。理解大模型在多模态交互过程中，能理解不同模态数据的语义信息，并将其整合到统一的语义空间中，确保捕捉到不同模态数据之间的语义关联性，从而实现对多模态数据的一致性理解。表达大模型生成的多模态内容在不同媒体形式下能保持一致，确保传达的新闻主题和风格统一而连贯。功能大模型能通过各种API接入不同的服务和工具，为其提供更广泛的功能拓展，进而实现更丰富、更多样化的应用。6.3评测框架6.3.1多模态新闻报道类基本要求按4.2下的4个子类别，基于6.2评测维度以及各类别的具体要求，按6.1方法执行评测。视频报道生成按4.2.2生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表1。表1视频报道生成类人工评测框架符合新闻传播场景的风格需求，确保模型在使点确保视频内文本、图像和语音在语义层面上意确保视频中的多模态内容实现新闻主题和风格的统一图文报道生成按4.2.3生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表2。表2图文报道生成类人工评测框架符合新闻传播场景的风格需求，确保模型在使T/CAPT013—2024表2图文报道生成类人工评测框架（续）语音报道生成按4.2.4生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表3。表3语音报道生成类人工评测框架符合新闻传播场景的风格需求，确保模型在使语音提供的附加信息（如语调、重音）能恰当地反映文虚拟主播新闻生成按4.2.5生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表4。表4虚拟主播新闻生成类人工评测框架符合新闻传播场景的风格需求，确保模型在使模型可接受多种类型、多种文件格式的输入数据;对在不同新闻场合和频道中，能根据媒介特点调整虚多模态交互过程中，能理解不同模态数据的6.3.2多模态新闻理解类基本要求按4.3下的3个子类别，基于6.2评测维度以及各类别的具体要求，按6.1方法执行评测。新闻事件综合分析按4.3.2生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表5。T/CAPT013—2024表5新闻事件综合分析类人工评测框架分析报告能清晰定义新闻事件的各个方面，并有条符合新闻传播场景的风格需求，确保模型在使分析新闻素材时能把握不同模态中相同信息的不同表达，整合多个新闻源的分析时，能保持一个一致的新闻事件视频精缩按4.3.3生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表6。表6新闻事件视频精缩类人工评测框架符合新闻传播场景的风格需求，确保模型在使模型可接受多种类型、多种文件格式的输入数据；对本质一致表支持对各种质量和风格的视频内容进行精缩，以适应不同能识别多模态之间的关键语义信息，并将其融视频精缩后能保持新闻主题和风格的统一新闻视频生成图文摘要按4.3.4生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表7。表7新闻视频生成图文摘要类人工评测框架符合新闻传播场景的风格需求，确保模型在使模型可接受多种类型、多种文件格式的输入数据；对本质一致表能根据新闻视频的性质、内容复杂度、媒介特生成的图文摘要能清晰传达视频的中心思想，并与视频T/CAPT013—2024基本要求按4.4下的3个子类别，基于6.2评测维度以及各类别的具体要求，按6.1方法执行评测。跨模态新闻素材检索按4.4.2生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表8。表8跨模态新闻素材检索类人工评测框架模型可接受多种类型、多种文件格式的输入数据；对本质一致、检索到各模态下全面的内容，且检索到的模态内容应与输入模新闻视频片段定位按4.4.3生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表9。表9新闻视频片段定位类人工评测框架多模态新闻事件检索按4.4.4生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表10。表10多模态新闻事件检索类人工评测框架6.3.4多模态新闻编辑类基本要求按4.5下的3个子类别，基于6.2评测维度以及各类别的具体要求，按6.1方法执行评测。多模态新闻内容审校T/CAPT013—2024按4.5.2生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表11。表11多模态新闻内容审校类人工评测框架多模态新闻视频再创作按4.5.3生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表12。表12多模态新闻视频再创作类人工评测框架多模态新闻图片二次编辑按4.5.4生成评测问题，基于6.2评测维度，按6.1方法执行评测，该子类别评测框架见表13。表13多模态新闻图片二次编辑类人工评测框架与输入素材风格一致，简洁、明了，能在短模型可接受多种类型、多种文件格式的输入数据；对本质一致、表13多模态新闻图片二次编辑类人工评测框架（续）T/CAPT013—2024理解跨模态内容表达的情感色彩、情绪氛围以及作确保原始图片中的信息得到准确传递，在内容、色彩、比例等7多模态新闻任务安全性要求7.1数据保护在收集和使用个人敏感信息方面，应符合GB/T35273中的要求进行管理。在提供服务时，应向用户提供个人隐私政策相关服务条款。在收集用户信息时，应明确告知用户信息种类、范围、目的和使用范围，并允许用户自主选择是否接受，允许用户关闭共享输入数据。7.2内容审核需建立专门的内容审核部门，负责日常的内容监控和应急处理。需设立安全委员会，负责联动组织内各部门和监督内容审核部门的工作，以及协调各内外部组织落实安全相关的规章制度和安全架构设计。需建立相关内容审核关键词库，由专门团队和人员管理与维护，定期进行更新。可采用自研或采购第三方内容风控服务商的相关服务，完善安全审核机制与流程。应具备覆盖TC26-003附录A中涉及的17种安全风险关键词库，并定期进行更新。7.3身份验证应在向用户提供相关服务前进行注册并进行实名认证。应对用户输入的内容进行检测，可采用关键词、分类模型等多种方式，用户连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的，应依法依约采取暂停提供服务等处置措施。应拒答用户主观恶意、有明显偏激和诱导的输入。7.4透明度和可解释性以交互界面提供服务的应在醒目位置标明服务的相关条款，隐私政策和适用人群范围等信息。由人工智能生成的多模态内容中应有显性水印标识和隐性水印标识，标明内容是由人工智能生成。对于图片、音频、视频应在内容生成区域框下方或用户输入信息区域添加“AI生成”或“人工智能生成”的标识。由人工智能生成的图片、音频、视频以文件输出时，应在文件元数据中增加相应字段标识内容由人工智能生成，包括模型信息、服务提供方信息、内容生成时间信息，宜使用可信时间戳技术手段确保内容可存证及溯源。7.5资质与合规性组织和训练大模型或提供生成式人工智能服务时，应具备基本数据安全能力，应达到GB/T37988—2019中规定的2级水平，宜达到3级。同时考虑规模、价值等因素，不应低于GB/T22240—2020中规定的二级，宜达到三级。如服务只面向则企业内部生成环节使用，无需进行模型备案。如提供具有舆论属性或者社会动员能力的生成式人工智能服务的则需依照国家有关规定进行备案手续。训练数据如包含知识产权内容，应有合法合规的采购协议，避免侵犯知识产权。7.6应急响应应建立专门的应急响应团队，处理安全事件。应制定详细的应急预案，包括事件相应流程和通知程序等。除上述要求外，其他安全性要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。T/CAPT013—2024多模态任务评测示例A.1多模态新闻报道类A.1.1视频报道生成指令：生成一个多模态新闻报道，主题为“2024年全球开发者先锋大会”。报道应包括文本描述，结合已有视频素材。文本内容应详细介绍大会的主题、“模速空间开发者的模力之源”，包括开幕式、顶尖青年开发者交流会、前沿技术讲坛的主要活动，并突出特邀发言人扎克·卡斯和史蒂夫·霍夫曼的演讲内容。描述应指引观众关注视频中的关键时刻和发言人的重要观点。确保文本与视频内容高度相关，增强信息传递。欢迎收看我们对2024年全球开发者先锋大会的特别报道。本届大会在西岸穹顶艺术中心以及油罐和B馆等地盛大开幕，以“模速空间开发者的模力之源”为主题，旨在展示开发者社区的创新力量和科技潜能。请关注视频中的开幕式场景，您将看到来自全球的开发者和科技爱好者齐聚一堂，热情高涨。本次大会集聚了超过100个开发者社区，通过一系列精彩活动展现了科技与产业发展的紧密联系。特别值得一提的是，视频将带您深入了解两位特邀发言人的精彩演讲。扎克·卡斯将讨论人工智能的商业化途径，而史蒂夫·霍夫曼则分享了他的硅谷创业经验。请注意他们演讲中的关键观点，这些内容对于理解当前科技趋势至关重要。此外，不要错过顶尖青年开发者交流会的部分，这是一个青年才俊们展示创新想法和技术解决方案的平台。视频中的这些交流场景充满活力，反映了全球开发者社区的活跃交流和合作精神。通过本报道，我们希望带给您全面的大会动态，展示如何通过科技创新驱动产业进步，并由产业发展反哺人才培养，形成良性循环。感谢您的观看，敬请期待更多精彩内容。A.1.2图文报道生成指令：生成一个图文报道，主题为“中央气象台发布强对流天气蓝色预警”。报道应包括详细的文本描述和配套的图像选择。文本内容应详细介绍预警的具体内容，包括受影响地区、预计的天气现象（如雷暴大风、冰雹和强降水）、以及建议的防范措施。图像应选择反映天气状况的照片或图表，如雷暴云图、受影响地区地图等。确保图像内容与文本描述高度相关，以提供信息丰富、视觉吸引的报道体验。生成结果：文本描述：中央气象台于5月10日18时继续发布强对流天气蓝色预警，警告即将来临的恶劣天气条件。预计从5月10日20时至11日20时，多个地区将经历极端天气现象，包括8级以上的雷暴大风和可能的冰雹。受影响的地区包括辽宁西部、河北东南部、天津南部、山东西北部等地，这些地区将可能面临雷暴大风。特别是在贵州中北部和湖南中西部等地，局部地区的雷暴大风力度可能会超过10级，最大风力达到11级以上。此外，包括黑龙江西南部、安徽南部、江苏东北部和南部在内的多个地区，将有短时强降水天气，小时雨量可能超过20毫米。在安徽南部、江苏西南部、贵州中东部等地，局部地区的小时雨量可能大于50毫米，最大可达70毫米以上。中央气象台呼吁所有受影响地区的居民保持警惕，避免户外活动，并采取必要的防范措施以保护人身和财产安全。图像描述：雷暴云图像：显示当前雷暴云的卫星图像，突出显示受影响地区。T/CAPT013—2024受影响地区地图：详细地图标出所有受雷暴大风和强降水影响的地区。防灾准备指南图：图形化展示如何在家中安全应对雷暴大风和强降水的简要指南。A.1.3语音报道生成指令：生成一个语音报道，主题为“全球气候变化对农业的影响”。报道应包括详细的文本描述，随后转化为语音格式。文本内容应详细介绍由于全球变暖导致的主要农业问题、具体受影响的地区、及其对当地农业产量的具体影响。此外，请提供适应和缓解策略的建议。要求语音清晰、专业，适合广播。生成结果：文本描述：“在全球气候变化的大背景下，农业正面临前所未有的挑战。温度的持续升高、不规律的降雨模式和极端天气事件的增多，对世界各地的农作物生产构成了严重威胁。特别是在非洲的撒哈拉以南地区、亚洲的东南部以及南美的部分地区，这些地方的农业生产尤为脆弱，面临严重的生产下降。农作物如玉米、小麦和稻米的产量已经开始受到气候变化的负面影响。例如，印度的部分地区由于持续高温和降雨量不足，预计未来十年内稻米产量可能下降10%到15%。此外，非洲的一些国家由于干旱和高温，玉米产量急剧下降，严重影响了当地的食物安全和农民的生计。面对这些挑战，农业部门需要采取适应和缓解措施。一是改进灌溉系统，确保水资源的有效使用；二是培育耐旱和耐热的作物品种；三是提高农业科技，例如使用卫星监测和数据分析来优化种植计划和作物管理。现在让我们聆听这段专题报道，详细了解全球气候变化如何影响我们的粮食生产和我们可采取哪些措施来应对这一挑战。”语音输出：模型将上述文本转化为语音格式，使用清晰、流畅的声音进行播报，适合在广播或在线媒体上播放。语音报道以专业的口吻介绍信息，背景可加入轻微的音乐或自然声音以增强听众的聆听体验。A.1.4虚拟主播新闻生成指令：生成一个虚拟主播新闻报道的脚本和行为指南，主题是“最新技术在教育中的应用”。报道应包括教育技术的最新发展，如虚拟现实（VR）、增强现实（AR）在学校的应用示例，以及这些技术如何改变教学方式。要求虚拟主播的表达要清晰、专业，并具有亲和力。请描述虚拟主播的视觉呈现、语音风格和与观众的互动方式。“大家好，我是今天的虚拟主播小智。在本期新闻中，我们将探索最新技术如何在教育领域中发挥革命性作用。随着虚拟现实和增强现实技术的进步，全球各地的学校正在这些技术上进行大胆尝试，以提高教学质量和学生的学习体验。这些技术的引入，不仅使学习过程更加生动有趣，还帮助学生获得更深刻的知识理解。接下来，让我们看一段在一所学校使用VR技术的视频。”虚拟主播行为指南：视觉呈现：虚拟主播“小智”应设计为一个年轻的、充满活力的形象，穿着简洁现代的服装。在报道中，背景应展示高科技感的虚拟环境。语音风格：小智的语音应清晰、流畅，带有一定的专业性，同时保持友好的语调以吸引和保持观众的注意力。互动方式：在报道的过程中，小智可提问观众，例如“你想体验一下VR化学实验室吗？”或“你认为AR技术在历史教学中的应用如何？”这些互动可通过新闻节目的社交媒体平台进行，增加观众的参与度。A.2多模态新闻理解类A.2.1新闻事件综合分析T/CAPT013—2024指令：请检测以下文本中所描述的新闻事件，提取相关信息并进行深度分析。分析应包括事件的主题、时间、地点、参与者以及文本中的情感倾向（如积极、消极、中性）。此外，请结合文本、图片和视频等多模态数据，挖掘和总结新闻事件的重要内容、关联关系和趋势。文本描述：在某某市，2024年5月10日，一场大型慈善活动成功举办，数千名志愿者参与其中，帮助分发食品和衣物给有需要的市民。活动现场充满欢声笑语，志愿者们积极互动，传递爱心和温暖。图片描述：一张图片显示，志愿者们微笑着将食品和衣物分发给市民。人们脸上洋溢着感激的笑容，现场气氛温馨和谐。视频描述：视频片段显示，活动现场热闹非凡，志愿者们忙碌地工作着。背景中可听到人们的欢声笑语和感激之情，志愿者与市民互动频繁，场面感人。请根据以上内容生成新闻事件综合分析。生成结果：主题：大型慈善活动时间：2024年5月10日地点：某某市参与者：志愿者、市民情感倾向：文本情感倾向：积极文本描述了数千名志愿者积极参与慈善活动，帮助有需要的市民，现场充满欢声笑语和温馨氛围，整体情感倾向积极。综合分析：事件描述：2024年5月10日，某某市成功举办了一场大型慈善活动，吸引了数千名志愿者参与。他们帮助分发食品和衣物给有需要的市民，传递爱心和温暖。活动现场充满了积极的互动和感激之情，气氛温馨和谐。图片分析：图片显示志愿者们微笑着将食品和衣物分发给市民，市民脸上洋溢着感激的笑容，现场气氛温馨和谐。志愿者们的积极行动和市民的感激反应，进一步突显了活动的积极情感。视频分析：视频片段展示了热闹非凡的活动现场，志愿者们忙碌地工作，背景中充满了人们的欢声笑语和感激之情。志愿者与市民频繁互动，场面感人，显示出活动的成功和积极影响。关联关系和趋势：从文本、图片和视频多模态数据中可看出，慈善活动不仅有效帮助了有需要的市民，也促进了社区的团结和爱心传播。这样的积极活动有助于提升社会凝聚力和公众参与感，预计未来可能会有更多类似的慈善活动举办。建议相关组织继续推动此类活动，进一步扩大影响，鼓励更多人参与其中，共同构建和谐美好的社会。A.2.2新闻事件视频精缩指令：请对以下新闻视频进行内容摘要和精简，识别视频中的人物或对象的行为，并确定其状态或动作。同时，从视频中提取关键帧，并识别音频中的不同说话人，确定他们的身份或特征，提取音频中的关键词或关键短语。视频描述：视频显示了某某市一场大型慈善活动的场景。志愿者们在分发食品和衣物给市民。视频中可看到志愿者们微笑着与市民互动，背景中有欢声笑语。视频的后半部分采访了一位名叫李华的志愿者，他描述了参与活动的感受和见闻。请生成包含以下内容的新闻事件视频精缩结果：1.视频中相关人员的具体行为或动作的描述。2.对具体身份特征和关键短语的描述。生成结果：T/CAPT013—2024视频中相关人员的具体行为或动作的描述：志愿者分发食品和衣物：视频开头展示了志愿者们在分发食品和衣物给市民的场景。他们手持食品袋和衣物，微笑着递给市民，并与他们交流互动。志愿者与市民互动：志愿者们不断与市民交流，安慰和鼓励他们，整个过程充满了温暖和关怀。志愿者李华的采访：视频后半部分，志愿者李华接受采访时，面带微笑，语气真诚，描述了参与活动的感受和见闻。对具体身份特征和关键短语的描述：志愿者李华：一位名叫李华的志愿者，他是一名大学生，穿着印有活动标志的T恤，言谈中充满了对慈善活动的热情。音频关键词和关键短语：“大型慈善活动”：李华在采访中多次提到这次活动的规模和意义。“帮助有需要的人”：这是李华在采访中强调的主要目标。“爱心和温暖”：李华描述活动氛围时使用的关键词，反映了活动的积极情感。“志愿者精神”：李华谈到参与活动的志愿者们所展现的精神风貌。提取的关键帧：关键帧1：志愿者们分发食品和衣物时的场景，显示了忙碌且温馨的互动瞬间。关键帧2：市民接受食品和衣物时的笑脸，反映了他们的感激之情。关键帧3：志愿者李华接受采访时的镜头，展示了他的个人特征和情感表达。A.2.3新闻视频生成图文摘要指令：请对以下新闻视频进行分析，生成简洁清晰的文字摘要和相关图像，帮助用户快速了解新闻事件的要点和重点内容。要求模型识别文本中的实体，如人名、地名、组织名、关键词或关键短语等，检测图像中的对象并确定其位置和类别，确定其所属的类别或类型，运动轨迹等。视频描述：视频显示了某某市一场大型慈善活动的场景。志愿者们在分发食品和衣物给市民。视频中可看到志愿者们微笑着与市民互动，背景中有欢声笑语。视频的后半部分采访了一位名叫李华的志愿者，他描述了参与活动的感受和见闻。请生成包含以下内容的新闻视频图文摘要结果：1.文本摘要2.关键词3.图像描述4.视频摘要生成结果：文本摘要：在某某市，2024年5月10日，一场大型慈善活动成功举办，数千名志愿者参与其中，帮助分发食品和衣物给有需要的市民。活动现场充满欢声笑语，志愿者们积极互动，传递爱心和温暖。志愿者李华在接受采访时，描述了参与活动的感受和见闻，称此次活动让他深刻体会到帮助他人的意义。关键词：大型慈善活动志愿者李华分发食品和衣物爱心和温暖某某市2024年5月10日图像描述：图像1：志愿者们微笑着将食品和衣物分发给市民。志愿者们身穿印有活动标志的T恤，手持食品袋和衣物，现场气氛温馨和谐。T/CAPT013—2024图像2：市民们接过食品和衣物，脸上洋溢着感激的笑容。场景中可看到志愿者与市民互动频繁，整个活动充满了爱心和温暖。图像3：志愿者李华接受采访时的镜头。他面带微笑，身后是活动现场，周围充满了忙碌的志愿者和愉快的市民。视频摘要：视频展示了某某市举行的大型慈善活动。数千名志愿者积极参与，分发食品和衣物给有需要的市民。视频开头展示了志愿者与市民互动的温馨场景，志愿者们微笑着将食品和衣物递给市民，市民们脸上露出感激的笑容。视频的后半部分，采访了一位志愿者李华，他描述了参与活动的感受，称此次活动让他深刻体会到帮助他人的意义。视频中的关键场景和重要动作包括志愿者分发物资、与市民互动，以及李华的采访片段，所有这些都体现了活动的成功和积极的社会影响。A.3多模态新闻检索类A.3.1跨模态新闻素材检索指令：请根据以下文本描述，从新闻素材库中检索出相关的图片和视频内容。要求检索的新闻主题明确，详细描述所需素材的内容特征，包括事件、人物、组织机构、地点等关键元素。应指定素材的模态类型新闻主题：某某市的环保活动文本描述：2024年6月5日，某某市举办了一场大型环保活动，成千上万的市民参与其中，清理河道和公园，宣传环保知识。活动现场气氛热烈，参与者们齐心协力，展示了强烈的环保意识和社会责任感。市长王伟在活动中发表讲话，强调环保的重要性。请生成跨模态新闻素材检索结果，确保结果与指定主题严格相关，全面覆盖事件的关键点和亮点。生成结果：描述：志愿者们在河道边清理垃圾。图片中志愿者们穿着环保活动的标志T恤，手持垃圾袋和工具，正在认真地清理垃圾。内容特征：事件：清理河道人物：志愿者地点：某某市河道边描述：市民们在公园里宣传环保知识。图片展示了参与者们与过往市民互动，发放宣传资料，讲解环保的重要性。内容特征：事件：宣传环保知识人物：市民、志愿者地点：某某市公园描述：市长王伟在活动中发表讲话。他站在讲台上，背景是环保活动的横幅，旁边站着几位主要组织者。内容特征：事件：发表讲话人物：市长王伟地点：某某市活动现场视频1：描述：视频开头展示了志愿者们在河道边清理垃圾的场景。志愿者们齐心协力，背景中有他们的欢T/CAPT013—2024声笑语。内容特征：事件：清理河道人物：志愿者地点：某某市河道边视频2：描述：视频片段中，市长王伟在活动中发表讲话，强调环保的重要性。他站在讲台上，背景是环保活动的横幅，现场气氛热烈。内容特征：事件：讲话人物：市长王伟地点：某某市活动现场视频3：描述：视频展示了活动的整体氛围，市民们在公园里宣传环保知识，与过往行人互动，场面热烈感内容特征：事件：宣传环保知识人物：市民、志愿者地点：某某市公园A.3.2新闻视频片段定位指令：请根据以下文本描述或关键词，从长时间的新闻视频中快速定位出相关的片段。明确指出想要检索的视频片段内容，包括但不限于事件、人物、组织机构、地点等关键元素。如可能，也可描述任何相关的图像、音频或其他模态信息，以辅助定位。新闻主题：某某市新建的风景公园开幕文本描述：2024年7月20日，某某市的新建风景公园正式开幕。市长王伟出席开幕仪式并剪彩，公园内有美丽的湖泊、茂密的森林和花坛。市民们在公园内散步、划船，享受自然美景。请生成新闻视频片段定位结果，确保结果与指定的文本查询或模态提示直接相关，并提供片段的确切时间戳或位置信息，便于用户直接访问。生成结果：描述：市长王伟出席开幕仪式并剪彩。他站在讲台上，背景是新建的风景公园入口，周围围满了观众，现场气氛热烈。时间戳：00:05:10-00:07:00内容特征：事件：开幕仪式人物：市长王伟地点：某某市新建风景公园视频片段2：描述：公园内美丽的湖泊景色。视频展示了湖泊周围的景色，有市民在湖边散步，几艘小船在湖面上划行。时间戳：00:08:30-00:09:45内容特征：事件：市民划船和散步地点：某某市新建风景公园的湖泊视频片段3：描述：公园内的茂密森林和花坛。视频展示了茂密的树林和色彩斑斓的花坛，市民们在林间小道上T/CAPT013—2024散步，孩子们在花坛旁玩耍。内容特征：事件：市民散步和玩耍地点：某某市新建风景公园的森林和花坛A.3.3多模态新闻事件检索指令：请根据以下详细描述或关键词，进行多模态新闻事件检索。明确检索的主题，并进行深度分析，包括概述、详细分析和趋势跟踪。请指定需要检索的媒体形式，包括文本、图像和视频等。要求结果覆盖事件的所有相关方面，展示不同模态内容之间的联系，如视频片段与相关新闻报道的链接。新闻主题：新型可穿戴科技产品发布文本描述：2024年7月15日，某某科技公司在某某市发布了一款新型可穿戴科技产品。该产品集成了最新的健康监测和通信技术，能实时监测用户的健康数据并提供智能提醒。发布会上，公司CEO张伟详细介绍了产品的创新点，并展示了产品的实际应用场景。现场演示环节中，观众可体验该产品的各种功能。请生成多模态新闻事件检索结果，确保结果与指定主题严格相关，并按照概述、详细分析和趋势跟踪的顺序组织内容。提供相关媒体形式的链接和描述，便于用户根据时间线或主题轻松导航。1.概述2024年7月15日，某某科技公司在某某市发布了一款新型可穿戴科技产品。该产品集成了最新的健康监测和通信技术，能实时监测用户的健康数据并提供智能提醒。发布会上，公司CEO张伟详细介绍了产品的创新点，并展示了产品的实际应用场景。现场演示环节中，观众可体验该产品的各种功能。关键词：新型可穿戴科技产品、健康监测、通信技术、实时监测、智能提醒、某某科技公司发布会、张伟2.详细分析文本报道：新闻文章1：标题：某某科技公司发布新型可穿戴科技产品，开启健康监测新纪元链接：点击查看内容：文章详细介绍了该产品的技术特点和创新点，包括集成的健康监测传感器、实时数据分析功能以及智能提醒系统。报道还提到了发布会上的演示环节，观众对产品的反响。描述：公司CEO张伟在发布会上介绍新产品。背景显示了产品的技术特点和功能演示。链接：点击查看内容特征：事件：产品发布会人物：张伟（公司CEO）地点：某某市发布会现场描述：观众在现场体验新型可穿戴科技产品。图片展示了产品的实际应用场景，包括健康监测和通信功能。链接：点击查看内容特征：事件：现场演示人物：观众、志愿者地点：某某市发布会现场T/CAPT013—2024视频1：描述：张伟在发布会上介绍新产品的功能和技术创新点。时间戳：00:03:10-00:05:45链接：点击查看内容特征：事件：产品介绍人物：张伟（公司CEO）地点：某某市发布会现场视频2：描述：观众在发布会现场体验产品功能，包括健康数据实时监测和智能提醒。时间戳：00:10:20-00:12:30链接：点击查看内容特征：事件：现场演示人物：观众、志愿者地点：某某市发布会现场3.趋势跟踪趋势分析：技术创新趋势：该产品体现了当前可穿戴设备在健康监测和通信技术上的最新进展，反映了行业对智能健康设备需求的增长。市场反响：发布会后，市场对新产品反应积极，社交媒体上出现大量讨论和评价，用户对产品的实用性和创新性表示认可。未来发展：预计未来将有更多科技公司推出类似的健康监测设备，推动可穿戴设备市场的进一步发A.4多模态新闻编辑类A.4.1多模态新闻内容审校指令：请对以下多模态新闻报道进行审校，包括文本内容的事实核查、图片和视频的真实性验证，以及多模态内容之间的一致性和连贯性检查。请提供审校结果，包括对文本内容的修改建议或确认、对图片和视频真实性的验证结果，以及对多模态内容之间关联性和连贯性的评估。指出可能存在的错误或不准确之处，并提供改进建议，以确保新闻报道的准确性和可信度。新闻主题：新型电动车发布文本描述：2024年8月10日，某某汽车公司在某某市发布了一款新型电动车。这款电动车采用了最新的电池技术，续航里程达到600公里。发布会上，公司CEO李明详细介绍了这款电动车的创新设计和技术优势，并展示了车辆的自动驾驶功能。现场演示环节中，观众可亲自试驾体验这款电动车的各项功能。图片描述：1.图片1：公司CEO李明在发布会上介绍新型电动车。背景显示了车辆的技术特点和功能演示。2.图片2：观众在试驾新型电动车，展示了车辆的自动驾驶功能和内饰设计。视频描述：1.视频1：李明在发布会上详细介绍新型电动车的设计和技术优势。2.视频2：观众在现场试驾体验电动车的自动驾驶功能。请生成多模态新闻内容审校结果。生成结果：1.文本内容审校文本内容：2024年8月10日，某某汽车公司在某某市发布了一款新型电动车。这款电动车采用了最新的电池技T/CAPT013—2024术，续航里程达到600公里。发布会上，公司CEO李明详细介绍了这款电动车的创新设计和技术优势，并展示了车辆的自动驾驶功能。现场演示环节中，观众可亲自试驾体验这款电动车的各项功能。事实核查结果：日期和地点：确认无误，2024年8月10日某某市确实举办了新型电动车发布会。公司和人物：某某汽车公司及其CEO李明的相关信息核查无误。产品功能：该电动车确实采用了最新的电池技术，续航里程达到600公里，并具备自动驾驶功能。修改建议：文本内容准确且无明显错误，无需修改。2.图片真实性验证图片描述：图片1：公司CEO李明在发布会上介绍新型电动车。背景显示了车辆的技术特点和功能演示。图片2：观众在试驾新型电动车，展示了车辆的自动驾驶功能和内饰设计。验证结果：图片1：经过图像分析和网上相关资料比对，确认该图片真实，未发现编辑痕迹或不符事实的内容。图片2：图片与描述一致，显示了观众试驾新型电动车的场景，未发现虚假信息。改进建议：两张图片均为真实可靠，无需修改。3.视频真实性验证视频描述：视频1：李明在发布会上详细介绍新型电动车的设计和技术优势。视频2：观众在现场试驾体验电动车的自动驾驶功能。验证结果：视频1：通过视频内容与发布会现场记录对比，确认视频中的人物和场景均真实，内容无误。视频2：视频中观众试驾体验电动车的场景与实际发布会记录一致，未发现虚假信息。改进建议：两段视频均为真实可靠，无需修改。4.多模态内容一致性和连贯性检查一致性和连贯性评估：文本与图片：文本描述的发布会场景和电动车功能与图片内容一致，显示了李明介绍新型电动车以及观众试驾的场景。文本与视频：文本描述的发布会内容和电动车功能与视频内容一致，视频展示了李明的演讲和观众的试驾过程。图片与视频：图片和视频内容一致，均展示了发布会现场的真实场景，且相互补充，增强了报道的连贯性和真实性。改进建议：多模态内容之间具有良好的一致性和连贯性，无需修改。A.4.2多模态新闻视频再创作指令：请根据以下新闻视频进行再创作，包括剪辑、配音、特效添加等处理，并对视频结构和叙事方式进行重新设计。要求再创作后的视频更具吸引力和观赏性，包含经过剪辑处理的新闻内容、新增的配音和特效效果，以及重新设计的视频结构和叙事方式。新闻主题：新型电动车发布原始视频描述：2024年8月10日，某某汽车公司在某某市发布了一款新型电动车。这款电动车采用了最新的电池技术，续航里程达到600公里。发布会上，公司CEO李明详细介绍了这款电动车的创新设计和技术优势，并展示了车辆的自动驾驶功能。现场演示环节中，观众可亲自试驾体验这款电动车的各项功能。请生成多模态新闻视频再创作结果，包括剪辑处理的新闻内容、新增的配音和特效效果，以及重新设计的视频结构和叙事方式。T/CAPT013—2024生成结果：1.视频结构和叙事方式原始视频结构：开场：公司CEO李明介绍新型电动车中间部分：展示电动车的技术优势和创新设计结尾：现场演示环节，观众试驾体验再创作视频结构：开场：快速引入新型电动车的发布，配以动感的音乐和吸引眼球的特效标题。第一部分：CEO李明简要介绍新车亮点，配以关键技术细节的图形动画。第二部分：深度展示电动车的核心技术，如电池续航和自动驾驶功能，添加技术演示的视觉特效。第三部分：观众试驾体验，包含真实反馈的采访片段，增加配音解说和背景音乐。结尾：总结电动车的市场前景和未来发展，配以激励人心的音乐和画面。2.剪辑处理的新闻内容开场剪辑：原始片段：公司CEO李明上台介绍电动车。剪辑片段：使用快速切换的镜头展示发布会现场，并加上特效标题“新型电动车发布”。技术展示剪辑：原始片段：李明详细介绍技术细节。剪辑片段：将长篇介绍剪辑成多个短片段，并插入技术演示的图形动画，使信息更易理解。试驾体验剪辑：原始片段：观众试驾电动车。剪辑片段：剪辑出观众试驾的精彩片段，配以动

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

T-CAPT 013-2024 新闻行业 大规模预训练模型 多模态要求

文档简介

温馨提示

最新文档

评论

相关文档

T-CAPT 013-2024 新闻行业大规模预训练模型多模态要求