




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大模型背后的荆棘之路林咏华北京智源人工智能研究院副院长,兼总工程师•大模型更是推动了AI开源社区的进一步蓬勃发展:2023年的AI开源项目比2022年快速增长了59.3%。•大模型一年,AI开源社区受到前所未有的关注和使用:2023年AI开源项目在githubstar的总量是2022年的3倍。第一个问题是选择哪个基座模型?截止到2024年4月底,全球开闭源通用大模型:模型数量主要机构通用基座语言大模型通用对话语言大模型47Google,OpenAI,Meta,Anthropic,MistralAI,DataBricks,CohereF百度,智谱华章&清华KEG,月之暗面,阶跃星程,阿里巴巴,智源研究院,深度求索&幻方量化,字节跳动,上海人工智能实验室&商汤科技,百川智能,零一万物,百川智能,科大讯飞,面壁智能等语言模型—代码大模型通用多模态大模型多模态文生图大模型多模态文生视频大模型8当前评测技术的发展跟不上大模型的发展速度如心智能力(如理解信念,了解情绪,意图理解,如心智能力(如理解信念,了解情绪,意图理解,理解复杂现实情景,对话中的解释能力等)、鉴别能力(误解和事实)等[1]挑战:需要新的复杂的测试集合、定义新的测试方法。哪怕对于像鉴别是否事实这样的例子,由于生成的内容复杂,传统的理解类评测方法已经不能满足。COCO,VOC等传统的AI模型评测集2023:HEIM:针对文生图模型的评测体系除了少量生成任务(如summarization主要依靠人类评分挑战:依靠人类评测,效率低,客观性和评测质量的一致性难以保证当前多使用各种领域的HELM:针对语言大模型HELM:针对语言大模型的整体系统化评测集(以理解能力评测为主,少量生成和认知能力评测)挑战:对更复杂场景的理解能力、新的跨模态(文图、理解能力评测方法能力进行模拟评测人类思维能力人类思维能力认知能力生成能力理解能力挑战:认知的边界难以确定,另一方面各类考题容易进入训练数据生成能力理解能力[1]SparksofArtificialGeneralIntelligence:EarlyexperimentswithGPT-4,Microsoft用于比较大模型性能的各种榜单容易激发各种争议“刷榜”成为主流,难以规避“作弊”的问题没有统一的评测规范,实现的人不同评测结果不同,指标不同结果不同大模型评测的问题问题一:评测集被“过拟合”,难以区分真正的模型性能。评测集合“以新换旧”,“以难换易”。认知推理:代码评测:大模型评测的问题难以区分真正的模型性能。评测集合“以新换旧”,“以难换易”认知推理:代码评测:问题二:评测方法陈旧问题二:评测方法陈旧,不能反映大模型新的使用场景过去的模型评测,局限在概率选择,但大模型使用场景已经扩展到自由对话、指令跟随、大量内容生成等场模型输出对比:ChatbotArena问题三:新的大模型能力问题三:新的大模型能力不断出现智能体:AgentBench,基础模型的训练数据问题•基础模型的训练数据?•没有公开,或仅仅部分公开•训练数据的放入顺序和迭代次数未必公开•是否使用了某些trick和特殊数据集,或训练数据被某些测试数据集所污染•理解基础模型训练数据的重要性:•训练数据是形成模型质量的关键•是否带来有害信息、偏见等的关键。•了解训练数据的分布,才能判断模型在某些领域的适用性。•可以更客观判断模型的性能,而不是仅仅从现有的评测指标进行判断。•了解模型的数据放入顺序、及数据迭代次数,对预估模型的二次学习能力十分重要。GSM1K(1250道题)是一个与GSM8K难度分布相同的新的数学评测集。从大模型在GSM1K与GSM8K的性能差异可以看到,部分模型对GSM8K有过拟合的现象。持续训练中需要解决的行业训练数据问题•需要针对行业领域进行持续训练学习(CL)•行业领域数据的来源?•持续学习时,会出现对已训练数据的遗忘现象,如何降低?•如何构造持续训练的数据集?领域数据和通用预训练数据如何配比?•对多种领域数据进行训练时,持续训练的顺序?行业应用行业应用 行业模型持续训练或微调训练基座模型基座模型基座模型的性能决定了下游行业模型及行业应用的性能。当所依赖的基座模型发生变化:•重新训练行业模型•重新测试下游模型性能•应用集成后的各种出错处理要重新打磨GPT-4在2023年3月和2024年6月两次版本的性能差异•主流AI框架以支持英伟达芯片为主。•AI芯片需要适配多款框架。每次AI框架版本升级,需要重复影响•针对大模型需要的算子及优化方法缺失,导致模型无法运行或者运行效率低。•会出现因为芯片架构和配套的软件实现差异而带来的精度误差问题。•要在非英伟达芯片上实现大模型训练推理,需要大量移植工当我们拿到一个大模型(开源/闭源)后,一切才刚刚开始安全测试、符合监管、规范等上线要求安全测试、符合监管、规范等上线要求•如何获取行业、和应用所需要的训练数据•如何打造高质量数据集•如何分析数据中出现的问题数•如何获取行业、和应用所需要的训练数据•如何打造高质量数据集•如何分析数据中出现的问题数•如何选择算法、修改算法、修改超参数算法模块•如何把“小模型”和“大模型”的算法能力进行融合•如何让训练、推理的效率更高•如何为大模型研发、部署选择•如何让训练、推理的效率更高•如何为大模型研发、部署选择AI芯片系统•如何在不同的AI芯片上面实现平滑迁移力力•如何评测大模型、行业模型•如何构建自己的评测集•如何搭建评测工具、实现高效评测面对这一路的问题,我们可以做些什么?共建人工智能高质量训练数据,推动三大数据使用模式央及北京市多个机构共同努力开源数据开源高质量数据集无版权风险的数据开放支持预训练、微调、文本、多开源数据开源高质量数据集无版权风险的数据开放支持预训练、微调、文本、多模态等多种人工智能应用场景已开源44个数据集共2.4TB高价值数据高价值、有版权诉求的行业与仅在平台上进行“数算一体”已上线6个数据集共393TB数据成员单位间进行共享。严格的数据质量评估体系与积分兑换机制已开放58个数据集共213TB数据/flopsera-open/data/flopsera-share/data-list支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑人工智能数据汇聚与管理:北京人工智能数据平台多模式AI数据运营,数据处理与标注,一键模型训练人工智能数据运营平台平台展示人工智能数据运营平台平台展示NEW1、灵活支持三种AI数据运营模式灵活支持免费开源、团体内共享、可信空间内使用等三种AI数据运营模式;2、数据处理流程插件式工具链配置打通从“原始数据”到“训练数据”的完整数据处理流程,支持插件式工具链配置;3、多类型数据标注支持采用可扩展架构,支持文本、视觉、语音、自动驾驶等多种类型数据标注;4、与算力平台深度融合与算力平台紧密结合,支持算力集群的算法模型一键加载数据开启模型训练。北京智源人工智能研究院、京能数字产业有限公司共同建设大模型评测体系及开放评测平台FlagEval科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台与评测技术”旗舰项目支持下,联合全国30家单位研制•4大评测领域:NLP、CV、语音、多模态四大领域•3大评测对象:大模型、预训练/微调/压缩算法•支持多芯片、多框架评测,支持国产芯片和框架开放平台:/•已完成数十个国内外主流开源模型的全面评测,在2023年完成了1800多模型评测次数,并连续6个月发布“大语言模型月度评测榜单”。•牵头国际标准、参与国家标准:智源牵头,成立了IEEE大模型评测标准工作组及语言大模型评测国际标准(P3419智源参与了由电子标准院牵头的大模型评测国家标准的制定工作。打造新的评测方法和数据集,推动大模型在语言能力、逻辑推理、及鲁棒性等方面取得进步面向复杂任务的代码评测集TACO多语言文图生成评测集面向复杂任务的代码评测集TACO多语言文图生成评测集挑战性更高:采用大量复杂任务应用题挑战性更高:采用大量复杂任务应用题客观评测集主观评测集•数量:18种语言的各50条prompts•来源:涉及到绘画,文学,节日,食物客观评测集主观评测集•数量:18种语言的各50条prompts•来源:涉及到绘画,文学,节日,食物,服饰,地标等特定文化概念细粒度标签辅助模型能力的评测和诊断能、5个难度等级;【测试集】1000题目–7万答案样本GPT-4easy31.50medium19.00medium_hard13.00hard4.50very_hard2.00•当前开源的C-SEMv1.0版本共包括四个子评测项,分别从词汇、句子两个级别评测模型的语义理解能(一辆蓝色的车停CMMU工科图文能力评测集•工科类的图文题目对大多数模型来说挑战巨大,大量考察了多模态大模型的高准确度的图文理解以及推理能力•形成覆盖数学、物理、化学、生物等工程学科(选择、填空分难度,约1万左右的评测集如下图,三角形ABC和三角形ADC分别在AC的两侧,\\angleBAC:\\如下图,三角形ABC和三角形ADC分别在AC的两侧,\\angleBAC:\\angleB:\\angleACB=4:3:2,且\\angle•格式扰动鲁棒性评测(智源FlagEval团队构建基于MMLU、Gaokao2023_v2.0等数据集,进行选项格式扰动,考察模型是否真正理解了问题和选项并遵从指令的格式要求作答。模型评测需要区分基础模型和对话模型,不能混为一谈模型评测需要区分基础模型和对话模型,不能混为一谈新增通用模型的鲁棒性评测指出对大模型评测,不能使用概率比较,而必须严格生成答案高考成绩公布第二天,推出基于2023年高考增加通用大模型安全性、推理能力等重要能”如何避免?即将发布“智源评测”(5月17日下午)•在统一标准下,对国内外百余个开源和商业闭源的语言、视觉与多模态大模型进行系统化能力评估。•首次联合权威教育机构参照人类认知发展阶梯进行大模型K12学科能力测验•与传媒领域知名高校共同制定文生视频大模型主观评价体系多元芯片算力:打造开源开放的统一算子库及编译器传统厂商自成体系模式厂商厂商适配算子库厂商适配算子厂商适配算子库厂商适配算子库厂商编译器厂商厂商编译器厂商编译器厂商编译器•厂商投入巨大:每个厂商都要投入巨大人力开发各自的算子统一的开源算子库+编译器模式统一开源Triton统一开源Triton算子库开源编译器开源编译器Triton•动态图和compile两种模式都获得支持 •开源社区活跃、更新迭代频繁,能够参与共建性能高效•通用算子性能可与CUDA持平•自定义算子、融合算子性能更优开发容易•可基于Python的编程环境运行•比CUDA更低的学习成本、更高的开发效率智源研究院开源面向大模型的Triton算子库•FlagAttention是首个支持长文本模型训练的、使用Triton语言开发、易于多种•PiecewiseAttention:支持长文本分段式Attention算子•FlashAttention:提供了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 室内设计风格选择与实施指南
- 农业生态保护手册
- 项目进度总结与经验分享报告
- 三农合作企业经营管理手册
- 保险行业保险产品设计与管理方案
- 阜阳2025年安徽阜阳临泉县事业单位招聘56人笔试历年参考题库附带答案详解
- 遵义2025年贵州遵义市湄潭县事业单位招聘34人笔试历年参考题库附带答案详解
- 贵州2025年贵州省政协办公厅所属事业单位招聘5人笔试历年参考题库附带答案详解
- 聊城2025年山东聊城高唐县事业单位初级综合类岗位招聘10人笔试历年参考题库附带答案详解
- 温州浙江温州体育运动学校编外工作人员招聘笔试历年参考题库附带答案详解
- 中职高考数学一轮复习讲练测专题一 集合与充要条件(测)原卷版
- 《抽水蓄能电站系统建模与特性分析》6300字(论文)
- 化学-江苏省镇江市2024-2025学年高三下学期期初质量监测试题和答案
- 2025年中考语文一轮复习:民俗类散文阅读 讲义(含练习题及答案)
- 最终版附件1:“跨学科主题学习”教学设计(2025年版)
- 企业财务会计(第四版)教案27:合同成本
- 2025年春季安全教育主题班会教育记录
- 机电一体化专科毕业论文范文
- 医疗入围(药品、耗材集中配送)服务部分方案
- 食品仓储的库房的安全巡检考核试卷
- 财务管理委托代理会计服务 投标文件(技术方案)
评论
0/150
提交评论