版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
全方位评测神经网络模型的基础能力张铭简介张铭主持的在研项目2023.10-2026.10,北大-安克具身智能联合实验室,安克创新2023.8–2024.8,低信噪比时序数据的可扩展式计算表征学习(二期正•教育部计算机教指委委员,获2021年CCF杰出教育奖•主持北京大学《数据结构与算法》,获国家级精品课程、首批国家一流本科课程•北京大学《科技创新与创业》校友讲座课程主持人 02多模态 02多模态STEM能力评测 03语言与社会规范评测 03语言与社会规范评测 04总结与展望背景与动机:多模态STEM数据集的缺乏制造一艘火箭,需要具备哪些能力?••STEM能力是解决真实世界中许多重要问题的基础•模型是否理解多模态STEM科目的能力至关重要背景与动机:多模态STEM数据集的缺乏••过去的评测数据集常常只关注专家级别的能力,涵盖的技能过于分散•缺少针对STEM科目的多模态数据集背景与动机:社会规范基础能力评测的缺乏!••可信可靠的AI系统应当遵循一定的社会规范与习俗(SocialNorms)背景与动机:社会规范基础能力评测的缺乏y…、Civics…、Civicsy••大语言模型对人类基础的社会规范的理解能力在它们与人类合作过程中至关重要背景与动机:社会规范基础能力评测的缺乏••过去的评测数据集常常只关注于高阶的人类价值观•缺少数据集用来评测模型对于社会规范形成过程中的基础能力的掌握解决方案STEM数据集:评估模型的基础STEM科目的能力Social数据集:评估模型对于基础社会规范的掌握多模态STEM能力评测百万量级多模态细粒度STEM评测数据集 https://arxiv./pdf/2402.17205STEM数据集:数据收集本报告的STEM数据主要来源于三个习题网站,通过程序爬取与人工检查筛选的方式得到约百万道题目STEM数据集:样例提出的STEM数据集包含了STEM科了教育标准的K-12年级的难度每道题目都需要用到图像感知能力,并包含年级与技能知识点的标签STEM数据集:基本统计数据集共包含了448个技能知识点,共1,073,146道选择题,在技能知识点的数目与题目数量上均是最大规模的多模态STEM科目数据集按照6:2:2的比例分为训练集、验证集、测试集STEM数据集:基本统计选项数量分布选项数量分布问题类型分布问题类型分布STEM数据集:技能知识点数据集包含了大规模的基础STEM技能知识点STEM数据集:数据分布每个年级下的技能知识点数量与问题数量分布示意图实验设计:评测方法人类表现评估:测验分数与准确率测验分数测验分数:考虑了学生学习进展用于评测人类对于STEM科目技能的掌握情况高于90.0的分数被视为掌握了某个技能知识点人类准确率:采样了80道题目,人类准确率为83.0%利用IXL网站的测验分数来比较模型与人类的表现差异,利用模型的输出在网站测验获得分数人类表现评估:测验分数与准确率测验分数与模型准确率测验分数与模型准确率呈正相关主要实验结果从准确率与测验分数上看模型表现均仍弱于人类学生的平均水平主要实验结果:分学科的情况问题变长、选项数量变多和样例数量变少,模型的表现都会下降主要实验结果:分数与年级模型的测验分数随着题目所属年级的升高而降低实验分析:细粒度分数——困难的技能点:抽象知识与复杂推理实验分析:案例分析困难的技能点:困难的技能点:抽象知识与复杂推理实验分析:错误分析错误类型分析:错误类型分析:基于Zero-ShotCLIP模型采样25个错误问题并人工分类实验分析:模型能力校准性(校准性(Calibration微调过的模型具有更好的规模(规模(Scaling更大的模型具有更好的效果•我们评测了以CLIP为代表的多模态模型与以GPT-3.5-Turbo为代表的大语言模相关链接STEM数据集:评估模型的基础STEM科目的能力语言与社会规范评测 /pdf/2404.02491/pdf/2404.02491每个年级的技能数量分布每个年级的技能数量分布每个年级的问题数量分布每个年级的问题数量分布预实验:大语言模型的表现大语言模型带来了明显的效果提升,但仍然落后于人类表现预实验:大语言模型的表现大语言模型带来了明显的效果提升,但仍然落后于人类表现,可以通过设计进一步的智能体框架进行提升符号知识符号知识如数学计算可以通过代码执行获得LLMLLM推理知识推理知识可以帮助模型理解抽象与复杂概念我们设计了一个我们设计了一个多智能体交互的方案,增强模型在社会规范数据集上的表现设计思路:不同的智能体可以通过相互交流的方式增强彼此的能力,并获得最终的答案主要实验结果我们的多智能体交互的框架可以我们的多智能体交互的框架可以使LLMs达到和人类水实验分析:模型能力模型效果随规模增大而提升模型效果随规模增大而提升消融实验:推理模块至关重要实验分析:细粒度分数这些技能需要这些技能需要更准确的知识作为支撑,因此我们的多智能实验分析:细粒度分数类似于人类做题时类似于人类做题时随年级提升,题目难度增大,题目准确率降低,模型在测验分数与准确率指标上也有此特征•我们提出了评测大语言模型对于社会规范的基础理解能力的大规模数据集,包含了K-12难度的402个技能知识点的基础题目,共包含12,383道选择题目;•我们评测了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo•我们提出了SocialAgent方案,可以增强模型的推理能力,并利用外部知识使模型更好地理解社会规范,通过该方法大模型在可以获得和人类水平相当的表现总结与展望•我们提出了评测大语言模型对于社会规范的基础理解•我们评测了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo增强模型的推理能力与利用外部知识的能力STEM数据集(ICLR2024)•提出了最大规模的视觉-语言STEM科目数据集,包含•评测了以CLIP为代表的多模态模型与以GPT-3.5-•使用了在线习题网站来评测模型的测验分数,从而和任务二5个子赛道第1名任务一第3名总计约2000名参与者多模态评测方案在评测多模态能力吗?•论文:https://huggingface.co/papers/2407.00468多模态评测方案在评测多模态能力吗?多模态评测方案在评测多模态能力吗?多模态评测方案在评测多模态能力吗?多模态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度智慧农业管理系统软件定制开发合同3篇
- 二零二五年度软件园场地使用权转让协议2篇
- 二零二四年度音乐餐厅经营权转让合同2篇
- 2025至2030年中国PHS基站电源智能保护器数据监测研究报告
- 二零二五年度劳务施工安全教育培训协议3篇
- 2025年中国自动数显控温仪市场调查研究报告
- 临时活动板房买卖协议模板一
- 2025年中国减压装置市场调查研究报告
- 2025年中国不锈钢抛光麻轮市场调查研究报告
- 伐木机械安全操作研究-深度研究
- 《电力用直流电源系统蓄电池组远程充放电技术规范》
- 《哪吒之魔童降世》中的哪吒形象分析
- 信息化运维服务信息化运维方案
- 汽车修理厂员工守则
- 六年级上册数学应用题100题
- 个人代卖协议
- 公安交通管理行政处罚决定书式样
- 10.《运动技能学习与控制》李强
- 冀教版数学七年级下册综合训练100题含答案
- 1神经外科分级护理制度
- 场馆恶劣天气处置应急预案
评论
0/150
提交评论