标准解读

《GB/T 45288.2-2025 人工智能 大模型 第2部分:评测指标与方法》是针对人工智能领域中大模型的评估制定的一套标准。该标准旨在为行业内提供一个统一、科学且可操作性强的大模型性能评价体系,涵盖多个维度以全面反映模型的能力与局限性。

在内容结构上,首先定义了大模型的基本概念及其应用场景范围,明确了本标准适用的对象类型。接着,详细列出了用于衡量大模型质量的关键指标,这些指标可能包括但不限于准确性(Accuracy)、鲁棒性(Robustness)、效率(Efficiency)、泛化能力(Generalization Ability)等,并对每一项指标给出了具体的描述和计算方式。

此外,《GB/T 45288.2-2025》还提出了一系列标准化的测试方法来验证上述各项指标的表现情况,比如通过设计特定的数据集进行基准测试(Benchmarking),利用交叉验证(Cross-validation)技术提高结果可靠性等。同时,对于如何构建合适的测试环境也给出了指导性意见,确保不同机构之间能够基于相同条件开展公平比较。

最后,为了保证评测过程的透明度及结果的有效性,该文件强调了文档记录的重要性,要求参与评测的所有方需详细记录实验设置、数据来源、处理流程等信息,以便于他人复现研究或进一步分析。


如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。

....

查看全部

  • 现行
  • 正在执行有效
  • 2025-02-28 颁布
  • 2025-02-28 实施
©正版授权
GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法_第1页
GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法_第2页
GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法_第3页
GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法_第4页
GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

GB/T 45288.2-2025人工智能大模型第2部分:评测指标与方法-免费下载试读页

文档简介

ICS35240

CCSL.70

中华人民共和国国家标准

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

Artificialintelligence—Large-scalemodel—

Part2Testinandevaluationformetricsandmethods

:g

2025-02-28发布2025-02-28实施

国家市场监督管理总局发布

国家标准化管理委员会

GB/T452882—2025

.

目次

前言

…………………………Ⅲ

引言

…………………………Ⅴ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

缩略语

4……………………1

评测指标

5…………………1

理解能力评测指标

5.1…………………1

生成能力评测指标

5.2…………………8

评测方法

6…………………11

概述

6.1…………………11

评测数据集

6.2…………………………14

评测环境

6.3……………14

评测工具

6.4……………14

评测实施

6.5……………14

附录资料性评测指标计算方法

A()……………………17

客观评测方法

A.1……………………17

主观评测方法

A.2……………………18

参考文献

……………………21

GB/T452882—2025

.

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

本文件是人工智能大模型的第部分已经发布了以下部分

GB/T45288《》2。GB/T45288:

第部分通用要求

———1:;

第部分评测指标与方法

———2:;

第部分服务能力成熟度评估

———3:。

请注意本文件的某些内容可能涉及专利文件的发布机构不承担识别专利的责任

。。

本文件由全国信息技术标准化技术委员会提出并归口

(SAC/TC28)。

本标准起草单位中国电子技术标准化研究院上海人工智能创新中心中国科学院自动化研究所

:、、、

蚂蚁科技集团股份有限公司北京航空航天大学清华大学杭州联汇科技股份有限公司中国铁建股份

、、、、

有限公司北京百度网讯科技有限公司中国南方电网有限责任公司中国移动通信有限公司研究院

、、、、

国家能源投资集团有限责任公司信息技术分公司华为云计算技术有限公司上海商汤智能科技有限公

、、

司阿里云计算有限公司深圳市腾讯计算机系统有限公司北京奇虎科技有限公司北京智源人工智能

、、、、

研究院中铁第五勘察设计院集团有限公司北京智谱华章科技有限公司浪潮云信息技术股份公司科

、、、、

大讯飞股份有限公司中国电力科学研究院有限公司天津大学中国电信股份有限公司研究院中央广

、、、、

播电视总台北京百川智能科技有限公司同方知网数字出版技术股份有限公司北京中关村实验室上

、、、、

海市人工智能行业协会南方电网科学研究院有限责任公司西安电子科技大学西南科技大学哈尔滨

、、、、

工业大学中国科学院软件研究所北京大学武汉人工智能研究院青岛海信电子技术服务有限公司

、、、、

北京格灵深瞳信息技术股份有限公司北京工业大学南方电网人工智能科技有限公司中国电信集团

、、、

有限公司天翼云科技有限公司北京软件产品质量检测检验中心有限公司北京世纪好未来教育科技

、、、

有限公司北京小米移动软件有限公司北京智芯微电子科技有限公司中国移动通信集团有限公司云

、、、、

知声智能科技股份有限公司北京中关村科金技术有限公司青岛海尔科技有限公司杭州海康威视数

、、、

字技术股份有限公司京东方科技集团股份有限公司昆仑数智科技有限责任公司浪潮电子信息产业

、、、

股份有限公司浪潮软件科技有限公司马上消费金融股份有限公司鹏城实验室平头哥上海半导体

、、、、()

技术有限公司麒麟合盛网络技术股份有限公司山东浪潮科学研究院有限公司山东省人工智能研究

、、、

院上海计算机软件技术开发中心上海人工智能研究院有限公司北京安声科技有限公司上海燧原科

、、、、

技股份有限公司上海天数智芯半导体有限公司深圳前海微众银行股份有限公司深圳思谋信息科技

、、、

有限公司西北工业大学西门子中国有限公司云从科技集团股份有限公司上海文鳐信息科技有限

、、()、、

公司浙江大华技术股份有限公司万达信息股份有限公司上海玄武信息科技有限公司中移互联网有

、、、、

限公司四川长虹电子控股集团有限公司

、。

本标准主要起草人董建徐洋鲍薇陈恺汪群博马骋昊孙曦宋文林刘祥龙陶建华赵天成

:、、、、、、、、、、、

黄现翠孙传兴马珊珊李栋于佃海龙云刘伟东经迪春郑子木蒋慧彭骏涛胡智超张向征

、、、、、、、、、、、、、

杨熙郑中冯涛郑佳佳刘聪周飞陈晰李建欣熊德意杨明川王峰梅剑平陈炜鹏张宏伟

、、、、、、、、、、、、、、

张松阳彭晋刘静刘艾杉王嘉凯高东辉马同森张天霖高铁柱陈曦梁志宏何刚俞文心

、、、、、、、、、、、、、

杨沐昀孟令中朱贵波王金桥郑若琳沈芷月聂简荻任海峰石羡吴玺宏刘尚刘卫卫石聪聪

、、、、、、、、、、、、、

丁鹏刘小欧项超薛德军王龙跃刘微胡全一孙浩源孙林赵必美玄日成赵春昊索思亮

、、、、、、、、、、、、、

陈立明蒋屹新武姗姗高鹏军孔昊薛云志刘子韬于磊郑哲邓超梁家恩崔明飞鄂磊任烨

、、、、、、、、、、、、、、

GB/T452882—2025

.

张志刚陈宏志吴韶华王珂琛冯月李睿李晋伟龙震岳高慧张旭段强单珂陈敏刚宋海涛

、、、、、、、、、、、、、、

刘益帆王思善余雪松李斌张驰张涛生若谷孙进芮子文孔维生童庆杨登峰孙文庆朱林

、、、、、、、、、、、、、、

杨兰

GB/T452882—2025

.

引言

大模型已成为人工智能发展的重要技术手段在引领产业变革中发挥重要作用国内外人工智能相

,,

关机构相继研究开发百余种大模型产品和评测榜单导致用户难以有效评测人工智能产品的技术水平

,

和服务能力人工智能大模型旨在规定通用大模型的技术要求评测指标和服务能

。GB/T45288《》、

力拟由五个部分构成

,。

第部分通用要求目的在于确立大模型的参考架构规定通用技术要求

———1:。,。

第部分评测指标与方法目的在于确立大模型的评测指标描述评测方法

———2:。,。

第部分服务能力成熟度评估目的在于给出大模型服务能力成熟度等级及评估方法

———3:。。

第部分计算机视觉大模型目的在于定义计算机视觉大模型的概念和功能规定技术要求

———4:。,

和测试方法

第部分多模态大模型目的在于定义多模态大模型的概念和功能规定技术要求和测试

———5:。,

方法

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

1范围

本文件确立了人工智能大模型的评测指标描述了人工智能大模型的评测方法

,。

本文件适用于模型提供者应用服务者和应用消费者等对大模型能力进行评估与测试也适用于指

、,

导大模型的设计开发应用

、、。

2规范性引用文件

温馨提示

  • 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  • 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
  • 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。

最新文档

评论

0/150

提交评论