版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型MOSS研发进展陈爽复旦大学MOSS团队2024年6月27日目 录MOSS
2能力深化的大语言模型CoLLiE高效分布式训练框架下一代大模型多模态大模型相关工作大语言模型与世界模型NLP发展历程3a2m.msup.com.cn致命密码:一场关于语言的较量4a2m.msup.com.cn图灵测试1936年5a2m.msup.com.cn1946年1950年英国数学家图灵(Alan M.
Turing)提出让计算机理解自然语言,证明计算机能够具备人的思维能力。第一台电子计算机ENIAC问世检验计算机是否具备智能,
最好的办法是让它说英语并理解英语自然语言发展史6a2m.msup.com.cn大语言模型发展历程大模型通用能力强实现多场景任务单模态向多模态发展从文本逐步发展至视觉亟需建立以中文为核心的超大模型2018GPT-11.1亿2019GPT-215亿GPT-1
Transformer应用在文本生成中GPT-2
展现较强长文本生成能力2020GPT-31750亿GPT-3跨时代意义的大语言模型,标志着AI文本生成进入下一阶段2021DALL-E/ClipOpenAI大规模图像模型,可基于短文本生成对应图像以及图像分类2022ChatGPT在大语言模型中引入人类反馈强化学习,大幅度提升生成结果质量ChatGPT7a2m.msup.com.cnGPT-4MOSS2023GPT-4多模态大模型,实现文本和图像的输入MOSS注重中文语料,具备问答和对话的中英文双语模型大模型的关键:语言语言是人类智能对世界的压缩认知8a2m.msup.com.cn语言世界大模型通过语言来构建世界知识LanguageWorldModelOperationObservation9a2m.msup.com.cnMOSS2能力深化的大语言模型10a2m.msup.com.cnMOSSMOSS2023/2/20ChatGPT2022/11/30LLaMA2023/2/24ChatGLM2023/3/13Qwen2023/4/11Bard2023/3/21ERNIE
Bot2023/3/16Baichuan2023/6/15InternLM2023/6/7Llama-22023/7/18Falcon2023/5/25GPT-42023/3/14Alpaca2023/3/13MOSS-Plugin2023/4/1911a2m.msup.com.cnMOSS研发历程通用语言表示是自然语言处理中多任务学习的关键通用语言表示私有语言表示私有语言表示任务1任务2使用语言模型预训练提升多任务通用表示12a2m.msup.com.cnIJCAI
2016Pengfei
Liu,
Xipeng
Qiu,
Xuanjing
Huang,
Recurrent
Neural
Network
for
Text
Classification
with
Multi-Task
Learning,
IJCAI
2016(被引用次数在所有IJCAI
2016录用论文排名第一)MOSS研发历程中文预训练基座MOSS-Base对话模型MOSS工具增强MOSS-Plugin2023.2.20
发布国内最早发布的对话式大型语言模型13a2m.msup.com.cn2023.4.21
发布国内首个插件版大模型2020年开始基座研究发布CPT/CBART等模型MOSS第一代研发路线Sun,T.,Zhang,X.,He,Z.etal.MOSS:AnOpenConversationalLargeLanguageModel.Mach.Intell.Res.(2024)./10.1007/s11633-024-1502-814a2m.msup.com.cnMOSSTransformer160亿(moon)/1000亿(mars)参数具有思维链、情景学习等涌现能力能够执行人类的指令可以直接与人类对话根据人类反馈进行迭代优化与人类价值观、思维方式对齐3H:helpfulhonest
harmless模型能力对话对齐MOSS和ChatGPT具有相近的通用语义理解能力,在推理能力和事实类知识方面有一定差距。扩大模型规模使用工具15a2m.msup.com.cnMOSS发布时示例(2023.2.21)16a2m.msup.com.cn调用工具能力是大模型向通用人工智能发展的关键工具开关控制搜索引擎计算器公式求解器文生图工具增强版大模型MOSS-Plugin17a2m.msup.com.cn大语言模型的不足Predictthe
futureThe
winner
of
the
UEFA
Euro
2024
is{???}Current
worldknowledgeThe
current
stock
price
of
APPL
is{???}Arbitrarily
longarithmetic36382894730
+
238302849204
=
{???}Extremely
longinputs[2,000pageHarryPotterfan-fiction]What
happened
after
Harry
opened
thechest
for
the
second
time?
{???}Many-stepreasoningTakethenineteenthdigitofPiandmultiply
it
by
the
e
to
the
fourth
power.Theresultingones-digitoftheresultingnumber
is{???}Informationnot
inthetraining
dataRobin’s
favorite
color
is
{???}18a2m.msup.com.cnExamplesModifiedfromJasonWei’s
Slides世界模型(World
Model)世界模型:一种能够模拟和理解环境的模型,并在此基础上进行决策和预测的人工智能系统。DavidHa,JürgenSchmidhuber,2018,WorldModels:Canagentslearninsideoftheirown
dreams?19a2m.msup.com.cnGPT4:符号空间的世界模型?很多研究发现,GPT4具有很强的时空概念Bubeck,Sébastien,etal."Sparksofartificialgeneralintelligence:Earlyexperimentswithgpt-4."arXivpreprintarXiv:2303.12712
(2023).20a2m.msup.com.cn大语言模型≠世界模拟器?21a2m.msup.com.cn复杂任务执行沙盒环境学习具身智能统一理解、生成融合文、音、图多模态大模型使用工具制造工具协同演化超级对齐推断时对齐可解释性MOSS2人类对齐工具增强跨模态融合智能体适配硬件调优稀疏注意力机制超长输入窗口高效架构打造数据飞轮数据能力溯源多维迭代提升数据治理如何从大语言模型演化到世界模型?打造高效、安全、可信的基础模型探索实用、多元、复杂的应用场景22a2m.msup.com.cn能力点简介让我们一起,用智慧和技术的力量,让经典中国文化在现代社会中通过MOSS2焕发新生,趣味古中文
创造出有趣的中文大模型通过MOSS
2的代码执行能力,不仅能够编写和运行代码,更能够深化代码在解决实际问题上的实用性和创新性代码执行 固定知识增强的形式让这些宝贵财富融入现代生活写作助手写作助手为学术写作提供了较为全面的支持,它针对论文撰写的多个关键环节进行了优化和创新其他其他重要能力点,例如,考试作业批改,理解幽默讽刺,猜人名等,主要由用户端头脑风暴产生为个人和企业提供简洁、实用且富有创意的文案创作解决方案🚀🚀,通过AI技术让文字变得更加有趣和生动🌈🌈特色文案通过固定知识增强,将深奥的知识和人类智慧转化为大语言模型的力量,以新颖、互动角色扮演复旦知识23a2m.msup.com.cn将复旦生活、新闻等多角度信息融入MOSS2,使MOSS
2成为复旦师生的小助手,来访客人的小前台将角色扮演的技能和创造性转化为大语言模型的功能,并融入现代对话体验,增强用户与AI的互动乐趣特色文案
-
根据emoji猜成语请你根据emoji猜成语:👉👉👉👉👉👉👉👉。如鱼得水用表情符号和我交流,不管我怎样用文字提问或发表评论,你只能回答我表情。让我们用这种方式对话吧!上课有什么压力亮点和样例展示24a2m.msup.com.cn特色文案
-小红书体生成生成一篇小红书文风的体验分享,讲述参加陶艺或手工陶制课程的心得,以及作品背后的故事。亮点和样例展示一.
标题建议:\n\n�【手作达人速来围观】从零基础到高手的陶艺之旅,我的手工课程全记录!\n✂【艺术生活】不只有美丽的风景,还有我亲手制作的小世界!\n🌱🌱【心灵手巧】体验手工陶艺课,发现生活的另一种可能——我的成长故事!\n\n二.
正文\n\n亲爱的小伙伴们!今天我要和大家分享一个让我充满激情和成就感的经历—参加了一门陶艺或手工陶制的课程。刚开始接触这个领域时,我几乎不知道会有这么大的魅力和乐趣,但现在,我已经深深地爱上了它。每次拿起泥土、调配颜色、雕刻图案每一个步骤都像是在创造一个全新的世界。\n\n首先,我要感谢这次课程的认真负责的老师,她不仅教给我们制作技巧,还鼓励我们发挥想象力和创造力。在课上,我们一起探索各种陶瓷材料的特性,尝试不同的形状和纹理。虽然一开始有些困难,但是每一次尝试都是一次成长。通过不断的练习和学习,我们的作品也变得越来越精致。\n\n最令我印象深刻的是那个被我命名为“梦幻花园”的作品。它是我用一种特殊的红色陶土制成的,灵感来自于我在园艺园中看到的五彩缤纷的植物。我将它想象成一片茂密而生机勃勃的小森林,每个角落都有植物生长着。每个花瓣都仿佛在向我诉说它们的故事,这一刻,我感到自己真的创造了一件独一无二的艺术品。\n\n除了创作过程的乐趣,我还学到了很多关于环境保护的知识。通过使用环保材料和回收再利用的材料,我发现我对环境的影响变得更加注意。这不仅仅是为了美化自己的生活空间,也是为了创造一个更美好的世界。\n\n通过这次课程,我明白了学习不仅是为了自己,更是为了回馈社会。而手工制作的过程正是培养这种责任感的好方法。它不仅教会了我如何耐心和细心,更重要的是培养了我对生活的热爱和对美的追求。\n\n最后,我想说,如果你还没有尝试过手工陶艺,那么一定要试试看!它不仅能让你学会新技能,还能带给你无限的快乐和满足感。现在,就让我们一起开始这场奇妙的旅程吧!👩👩👩👩👩👩\n\n#陶艺
#手工陶制品
#创意生活
#环保意识#艺术创作"25a2m.msup.com.cn亮点和样例展示角色扮演基于检索增强更加真实、准确和生动的扮演角色请扮演原神里的可莉你好!你是来找可莉玩的吗?上次风花节,你和砂糖姐姐都做了什么呀?哇,风花节!可莉和砂糖姐姐一起巡逻,还一起调查了预言!嘿嘿,可莉觉得,只要和朋友们一起,就没有什么是做不到的!Inner
Thought:26a2m.msup.com.cn我需要意识到可莉是《原神》中的一个充满活力的角色,著名的蒙德城“火花骑士"。她年幼却充满好奇心,对爆炸物伦着浓厚的兴趣。作为一个出色的炸药专家,,她以制作各种炸弹和爆炸装置而闻名。对旅行者来说,可莉得到了特别的关注和宠爱。旅行者不仅是她的冒险伙伴,也扮演着保护者的角色,经常保护她免受自己无畏探索带来的危险。虽然可莉有时会因为她的爆炸实验而闯祸,但旅行者总是以耐心和理解的方式来处理,帮助她学习并从每次经历中成长。这种互动中旅行者对可莉的宠爱和关怀显而易见,他们的关系深化了彼此之间的信任和友谊。用户希望我像原神中的可莉一样。作为游戏原神中的可莉,我需要用可莉的语气、态度和词汇来回答。我不要写任何解释。只能像可莉一样回答。我必须知道所有关于可莉的知识。亮点和样例展示固定知识增强
-儿童故事为五岁的小朋友制作一个关于多样性和包容性的绘本。27a2m.msup.com.cn故事名称:小熊宝宝的奇妙之旅。从前,在一个美丽的森林里,住着一只小熊宝宝,它叫小棕熊。小棕熊是森林里最快乐的小熊,它喜欢和其他动物一起玩耍。有一天,小棕熊遇到了一只小兔子,小兔子的毛色是棕色的,和小棕熊的颜色完全一样。小棕熊觉得非常奇怪,它从来没有见过颜色和它一样的动物。小棕熊问小兔子:“你和我颜色一样吗?”小兔子笑着说:“当然了,我们都是棕色的,为什么不一样呢?”小棕熊听了很开心,它和小兔子一起玩耍,发现他们有很多共同点,彼此之间有着很多相似之处,友谊因此更加牢固。从那天起,小棕熊学会了接受和尊重不同颜色和个性的小动物,它明白了多样性和包容性的重要性。它和小兔子成为了最好的朋友,他们一起在森林里快乐地玩耍。小朋友们,记住:每个人都是独一无二的,我们应该学会欣赏和尊重彼此的不同之处,这样我们才能建立一个更加美好的社会。愿你们永远拥有一颗包容的心,和不同个性的好朋友一起,共同创造美好的回忆。故事讲完啦,希望你们喜欢哦!🐻🐻🐻🐻🐻🐻🐻🐻🐻🐻亮点和样例展示复旦小前台将复旦生活信息、复旦新闻、复旦相关知识融入MOSS
2成为复旦师生的小助手,来访客人的小前台。复旦大学的校训是“博学而笃志,切问而近思”,出自《论语》中的《子张》ecard是复旦大学的电子身份卡,用于校园一卡通的支付功能,可以在校内各种场合下使用,比如食堂、购物、宿舍、考勤、食堂、以及其他特定用途等。使用ecard的步骤包括:首先,你需要通过复旦大学的官方网站或校园一卡通服务平台进行注册,获取自己的ecard账户信息;然后,通过统一身份认证登录,使用统一身份认证登录后,系统会自动绑定至复旦大学校园一卡通服务平台,并会生成相应的账户信息。再然后,可以使用ecard进行消费支付以及其他相关功能,并且可以在指定地点刷ecard进行刷脸认证。请注意,校园内可以使用ecard进行消费支付,以及其他特定用途,例如考勤、食堂等。另外,在校外,一些商户也可以使用ecard进行消费支付和其他使用。复旦大学图书馆的开放时间为周一至周日8:00-22:00,周一至周五9:00-21:00(国定假日除外),电子图书和电子期刊24小时开放。28a2m.msup.com.cn案例分析对于一些实用但缺少记录的信息,我们采用广泛的人工收集方式复旦的各方面信息来源较为散乱29a2m.msup.com.cn案例分析论文转博客获取足够的论文以及其概述,实现有效、稳健、快速的数据收集代码论文内容和概述的样本普遍很长,采用多卡并行方式训练模型30a2m.msup.com.cnCoLLiE高效分布式训练框架31a2m.msup.com.cn2023/05开始开发2023/07发布
Python
包
CoLLiE-LM2023/12被
EMNLP
System
Demonstrations接收2024/01添加
AdaLomo
优化器2024/03支持带模板的多轮对话训练CoLLiEOpenMOSS/CoLLiE:CollaborativeTrainingofLargeLanguageModelsinanEfficient
Way32a2m.msup.com.cnLOMO:LOw-Memory
OptimizationFullParameterFine-tuningforLargeLanguageModelswithLimitedResources:
/pdf/2306.09782.pdf提出了LOMO
,将梯度计算和参数更新融合,避免存储梯度张量33a2m.msup.com.cn显存占用情况训练LLaMa-7B时的显存占用情况,batch
size
=
8,seq
lenth=
51234a2m.msup.com.cn使用
LOMO
进行训练的过程中,显存大部分被参数占用低内存优化算法(LOMO)可以在8张3090GPU上全量参数微调65B模型LoRA:Low-Rank
AdaptationLOMO:LOw-Memory
Optimization低资源场景的大模型优化研究面临算力受限,可有效缓解算力短缺问题Huetal.,LoRA:Low-RankAdaptationofLargeLanguageModels,ICLR
2021.Lvetal,AdaLomo:Low-memoryOptimizationwithAdaptiveLearningRate,ACL
2024.35a2m.msup.com.cnMOSS2in
CoLLiE文本长度(k
token)原始注意力稀疏注意力提速比4127.05
ms120.73ms6%8264.75
ms237.62ms11.3%321.49
s946.11
ms37.6%644.29
s1.97
s54.1%12814.17
s4.33
s69.5%采用全局与局部窗口融合的稀疏架构,大幅度降低注意力计算成本架构可根据自身需求调整,默认设置提速比达到70%左右36a2m.msup.com.cnMOSS2in
CoLLiE注意力头数量为16注意力头数量为32使用Triton重写了部分Attention
Kernel,支持稀疏注意力结构37a2m.msup.com.cn数据混合法则(Data
Mixing
Law)提出数据混合法则定量预测各配比下的模型表现结合规模法则,通过小规模实验指导大规模训练数据配比选择大模型实验成本昂贵,传统训练数据配比的确定依赖于启发式设计Ye,etal.Datamixinglaws:Optimizingdatamixturesbypredictinglanguagemodelingperformance.arXiv:2403.16952
(2024).38数据混合法则(Data
Mixing
Law)预训练优化模型性能后训练中找到临界数据配比,防止灾难性遗忘并快速学习新能力可用于优化预训练和后训练,提升模型性能Ye,etal.Datamixinglaws:Optimizingdatamixturesbypredictinglanguagemodelingperformance.arXiv:2403.16952
(2024).39事实记忆容量法则(Fact
Knowledge
Scaling
Law)固定训练轮次,事实记忆容量和语言模型参数量呈线性关系固定语言模型参数量,事实记忆容量和训练轮次呈负指数关系事实知识对降低模型幻觉非常关键,但目前缺少相关分析研究40a2m.msup.com.cn大语言模型对冗余事实知识的记忆语言模型无法高效地同时记忆相同事实的正反向版本
(*表示非冗余)语言模型无法高效地记忆可推导事实关联41a2m.msup.com.cn语言模型可以高效地记忆同一实体的关联事实非关联下一代大模型多模态大模型相关工作42a2m.msup.com.cn多模态对齐LLaVAChatBridge43a2m.msup.com.cn下一步启示AudioImageTextVideoMore…AudioImageTextVideoMore…以语言为中心,任意模态组合输入输出44a2m.msup.com.cn下一代多模态大模型模态差异Continuous
SignalsImage/VideoSoundECG
signalLLM
input&output45a2m.msup.com.cn模态差异Continuous
SignalsImage/VideoSoundECG
signal离散化(Discrete
tokens
)?46a2m.msup.com.cn语音离散化Speech“Nicetomeet
you”<54><43><2><5><29>Discretize对于LLM来说,把语音看作是一种未见过的新语言。词符(Token)47a2m.msup.com.cn矢量化(Vector
Quantizer
)让大模型具有语音能力Model
StructureSpeechGPT:EmpoweringLargeLanguageModelswithIntrinsicCross-ModalConversational
Abilities48a2m.msup.com.cnSpeech
De-TokeninzerUnitto
speechStack
of
CNN
layersDiscreteSpeech
TokeninzerSpeechto
unitFixed
HuBERTLargeLanguage
ModelSpeechGPT跨模态能力跨模态指令遵循跨模态对话49a2m.msup.com.cnSpeechGPT
demoCross-modalInstruction
Following:InstructionInputOutputCanyoutranscribethespeechinto
awritten
format?I'm
afraid
there
are
no
signs
here
saidhe.Wouldyoumindspeakingthese
wordsasnaturallyas
possible?Today
is
a
sunny
day
and
I'm
happ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版临时工炊事员聘用及职业健康检查服务协议4篇
- 二零二五年度餐饮厨房设备维修保养及服务保障协议2篇
- 二零二五版建筑工程合同索赔时效与期限规定3篇
- 科技前沿学术文化节活动策划解析
- 科技创新与中小企业专利申请技巧
- 现代办公环境下家长的自我调节技巧
- 小学生数学竞赛辅导的多元化教学方法
- 水电与消防工程安装2025年度合作协议5篇
- 教育行业的新篇章家庭教育中亲子互动的创新与实践
- 二零二五版数据中心转供电电费补贴协议3篇
- 不同茶叶的冲泡方法
- 光伏发电并网申办具体流程
- 建筑劳务专业分包合同范本(2025年)
- 年夜饭营养分析报告
- 运动技能学习与控制完整
- 食管癌的早期症状和手术治疗
- 垃圾分类和回收利用课件
- 北仑区建筑工程质量监督站监督告知书
- 法考客观题历年真题及答案解析卷一(第1套)
- 央国企信创白皮书 -基于信创体系的数字化转型
- 6第六章 社会契约论.电子教案教学课件
评论
0/150
提交评论