“弈衡”多模态大模型评测体系白皮书_第1页
“弈衡”多模态大模型评测体系白皮书_第2页
“弈衡”多模态大模型评测体系白皮书_第3页
“弈衡”多模态大模型评测体系白皮书_第4页
“弈衡”多模态大模型评测体系白皮书_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

『弈衡』多模态大模型评测体系白皮书(2024) ...................................................................................................................................................1 ..............................................................................................................3多模态大模型发展现状 3评测需求 4评测问题与挑战 5主要评测方式 7典型评测维度 7常见评测指标 81013整体框架 13评测场景 14评测要素 16评测维度 222017年初,GPT-4[1术首次进入公众视野[2]。GPT-4Vision、Gemini,国内的文心一言、讯飞星火、智谱清言等[3AI中国移动技术能力评测中心作为中国移动的第三方专业评测机构,联合业界权威机构、 多模态大模型发展现状行业 领域 应用行业 领域 应用企业应用内容创作与审核领域用于图片创作、图片内容理解、图形合成修改等任务。教育科技领域利用图文数据为教育领域提供智能化支持。金融风控领域根据签字等图像数据辅助金融机构提高决策效率。医疗健康领域利用内置摄像头进行辅助诊断,协助医生提高医疗效率。智能制造领域进行缺陷图片检测,助力工厂实现智能化生产、降本增效。软件开发领域根据现有图形界面,辅助提升开发人员的软件开发效率。市场分析领域帮助企业洞察市场动态,优化产品、提供更加安全的服务。法律领域用于文书识别等法律相关任务,降低法律服务成本。媒体与娱乐领域为画师、视频创作者等相关从业者提供创意灵感,提高创作效率。人力资源领域实现人脸识别等人力资源智能管理功能。客服领域应用于智能客服助手等任务,实现图形理解,提高客服效率。公共服务领域利用摄像头等终端识别提高政府服务效率,优化公共资源配置。个人应用旅游领域提供景点照片匹配等个性化的旅行建议和服务。个人金融业务领域用户人脸识别、收支明细预测等个人金融业务。教育辅导领域针对题目进行智能搜索、解答等教育辅导工作。数据搜索领域实现拍图识别、搜索等智能搜索功能。图像修复领域针对老照片、不完整照片等图像进行智能修复与补全。评测需求创作类任务主要是指通过给定的文字或图像提示信息进行图片创作或图像需着重关注模型的生成质量、内容匹配度、多样性和创新性等各项指标。评测问题与挑战首先,图文大模型的高泛化性对评测任务选取提出挑战。其次,图文大模型的高复杂度对评测数据构建提出更高要求。再者,图文大模型评价结果的客观性也需要重点考虑。5AI主要评测方式图文大模型的评测方式主要包括客观评测和主观评测两种。典型评测维度AI模型性能评测是图文大模型的核心维度,主要评测图文大模型对图像和文字的识别能力、模型泛化能力评测模型鲁棒性评测模型一致性评测常见评测指标F1BLEUISCLIPPSNRSOACIDErmAPIoUFIDSSIM、RP、碳足迹等[9]。指标 描述准确率Accuracy,计算图文问答题目中预测结果正确的比例,是最常用的客观指标F1值F1corPreisioRecll,兼顾图文大模型预测结果的正确样本比例和查全比例BLEU评价图生文的文本质量,比较生成文本与真实答案间的重叠程度IS指标InceptionScore,利用分类模型评测生成图片的类别确定性和类别多样性CLIP相似度利用CLIP大模型的文本和图像编码器针对图片中关键物体进行质量判定PSNR峰值信噪比,评价图文大模型生成图片的像素质量和清晰度SOA衡量生成的图像中是否符合文本描述中的各对象类别,考察文本类别还原度CIDEr针对图像描述任务,评价描述结果与人类真实描述间的相似度mAPmeanAveragePrecision,反映图文问答题目中,预测结果在所有召回率水平下的平均准确率IoUIntersectionoverUnion,衡量图像中指定物体的预测框与实际边界框的重合程度FIDFréchetInceptionDistance,用于评估文生图任务中生成图像和真实图像之间的相似性的指标SSIM结构相似度,评价文生图任务中生成图片与标准正确图片之间的相似度RP全称R-precision,衡量文生图任务中文本描述和生成图像之间的视觉语义相似度碳足迹计算模型训练、推理阶段消耗电力的二氧化碳排放量除以上提到的各类常用指标外,部分评测还针对图文大模型在业务中的实际应用场景,选取更有针对性更能反映业务性能的其他指标,如召回率、多轮对话轮次等。AI实验室的MMBenchOCRBenchLLaVA-BenchVisIT-BenchSEED-BenchMMBench[10]MMBench20238逐渐rurEBench从三评测方式上,针对当前大模型指令跟随性不完善的问题,利用ChatGPT进行辅助评测,并将问题选项进行环状重排,从而更好地反映大模型的真实性能。OCRBench[11]OCRBench是华中科技大学联合其它机构于20242该体系针对OCR领域的常见任务和典型数据集,对Gemini、GPT-4V等十四个多模态大模型进行了评测。具体来说,OCRBench聚焦于多模态大模型的OCR能力,针对文字识别、、STVQA等二十七个主流开源数据集进行测试验证。智源评测体系[12]20245的理解和生成能力。在评测数据选取上,该体系选取了COCO、Flickr30k等主流开源数据FID、CLIPScore等常见指标,主观指标则采取人工打分的形式进行模型评价。LLaVA-Bench[13]LLaVA-Bench20234GPT-4辅助进行评定,综合评测图文大模型在室内场景和室外场景下的性能。VisIT-Bench[14]VisIT-Bench是希伯来大学、谷歌等研究团体于2023年8月提出的图文大模型评测基59270VIT-Bench利用GPT-4SEED-Bench[15]SEED-Bench是腾讯人工智能实验室于2023年7月提出的多模态大模型评测基准,包19000SEED-Bench采用自通过计算模型对各个人工标注选项的困惑度来获取模型最佳预测结生成图像与各人工标注选项之间的CLIP相似度来获取模型最佳预测结果,再通过最佳预测结果和正确选项计算模型准确率。ConBench[16]ConBench20245从四个高质量的多模态基准数据集中手动1KSeedBenchMMBench和题(判断题、选择题与限制性问答题),以及围绕相同知识点的生成式prompt,评测知 整体框架2-4-6”层级246评测场景务和应用任务两类。基础任务任务 描述识别实例识别识别图像中的特定实例,包括特定对象的存在或类别,评估模型的对象识别能力。实例计数计算图像中特定对象的数量,理解所有对象并成功计数所引用对象的实例。情绪识别侧重于识别和解释图像中人脸所表达的情绪,评估模型理解面部表情并将其与相应情绪状态相关联的能力。手势识别根据输入图像识别手势含义,评估模型对人手特征的理解。文字识别回答关于图像中文本元素的相关问题,考察多模态模型对各种类型文本的识别及上下文理解。理解场景理解强调图像中的全局信息,需要整体理解来回答有关整个场景的问题。字幕匹配针对图片,选择最符合图片内容的文字描述,考察文字及图片内容理解。图像质量分析根据图片是否模糊、光照是否正常、是否存在遮挡等因素分析图像质量创作图像生成根据给定提示生成逼真且视觉连贯的图像的能力,要求模型理解创建可信图像所需的视觉元素、关系和组合规则。图像风格转换针对文字要求,对指定图片进行风格变换,要求模型把握图片内容及风格特点。图像合成根据文字要求,对多张图像进行融合后生成新图像推理代码编写理解图片中代码内容并回答相关问题,考察模型对代码的理解和编写能力。下一张图像预测根据给定的图像序列,判断缺失图片内容。应用任务任务 描述识别人流量统计对特定区域或场景内的人员数量进行实时统计品牌LOGO识别根据品牌的LOGO图片进行识别,判断所属企业并给出企业的相关信息。垃圾满溢判断图片中的垃圾桶是否存在垃圾桶,以及垃圾桶是否存在满溢。智慧养殖针对猪、鸡等各类家畜进行识别与计数,辅助进行养殖管理。厨师帽检测对后厨是否有人未正确佩戴厨师帽进行识别,以规范商家卫生安全。外卖员检测针对各类场景下是否存在外卖员进行检测,服务于小区安防、外来人员管控等。通信设备识别针对图片中的各类通信设备进行识别,服务于硬件厂商及运营商等管理人员。道路安全识别对车辆违停、路面塌陷等相关情况进行识别,从而保障交通安全。理解活体检测根据输入的真实人脸图片,以及翻拍、面具、高清屏、3D头模等伪造活体进行判断,以检验多模态大模型在人脸安全方面的识别能力。人像属性口罩检测判断图片中是否有人未正确佩戴口罩,检验模型对人脸及口罩佩戴的识别能力。推理数学推理针对图片中描述的图形、逻辑等数学问题进行回答,检验模型对数学图形和逻辑的理解推导能力。创作艺术创作根据图文提示进行艺术创作,探索新的艺术风格和表现形式,拓展艺术创作的边界。游戏角色设计根据图文输入提示,辅助或自动化完成游戏角色的设计过程,包括角色的外观、动作、服饰、武器等等。与基础任务相比,应用任务场景更加固定,但其难度更大,涉及更高层次的技术能力,可以反映图文大模型面向具体领域和特定行业场景的泛化能力。评测要素本(zero-shot)、单样本(one-shot)、少样本(few-shot)以及提示工程(promptengineering)测试样本构造方式17],这就要求图文大模型在零样本学习的条件下依零样本任务是指模型在训练阶段完全没有接触过测试场景及测试任务相关的图文数据,模型需要针对全新场景完成预测任务。这类任务设置不需要模型进行针对性调优,直接考察了图文大模型对新知识的理解和泛化能力,具有极高的应用价值。少样本:少样本任务是指图文大模型在训练阶段可以接触到少量目标任务的图文样本,测试结果判断方式标进行评测,如准确率、F1mAP、BLEU等,这些指标能够比对模型预测结果与真实评价各大模型性能。客观类LOGO(Accuracy)(Precision)(Recall)、CIDEr除准确性外,实时性、连续性等功能指标也是评价图文大模型的重要维度。其中,实时主观类数据集构造原则准确性:在构建评测数据时必须确保准确性。题目设计应避免歧义,确保其逻辑严密,数据集构造方法为了更加客观全面地构建评测数据,以真实反映图文大模型的实际应用能力,“弈衡”数据与模型管理评测流程管理评测任

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论