




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
王炳宁百川智能预训练负责人博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKMbestpaperrunnerup。博士论文《机器阅读理解关键技术研究》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会执行委员。演讲主题:Transformer效率优化语言模型会将句子的概率拆解成其组成部分的概率P(我是中国人)=P(我)*P(是|我)*P(中|是)*P(国传统统计学习的方法大多都是基于极大似然估计(传统统计学习的方法大多都是基于极大似然估计(maximum传播来优化整个模型。将将feed-forward网络替换为和语言表示更为接近Radford,Alec,etal."Impr•当前语言模型发展的最重要的特征:越来越大。不管是语言模型训练数据的增多,还是本身参数规模的扩大,scaling当前语言模型取得突破的最关键因素•OpenAI的GPT-4和Google的GeminiUltra的训练成本估计分别为7800万美元和1.91亿美元。•大语言模型的训练成本与计算需求之间存在线性相关性,具有更高计算训练需求的模型训练成本要高得多。大语言模型的基础模块-Transformer大语言模型的基础模块-Transformer语言模型的发展之:Transformer-Core的在的在Attention,即模型在预测下一个单词的时候会关注之语言模型的发展之:Transformer-Core好的效果,经过多年认证大概率是同尺寸模型中效果最好的一类方案•需要显式引入位置编码,无法像RNN那样进行位置的自动扩展u传统Attention的计算方法是把Q,K直接计算最后的结果(而不用返回给HBO这样可以显著降低IOQwen-1.5Qwen-1.5Cache:将输入的表示降低到隐含空间C上面,C的大小很小虽然不是主要的部分Cache:将输入的表示降低到隐含空间C上面,C的大小很小个新的位置编码的在的在的劣势,我们可以让现在的Attention改进一下,只关注最近的K个单),Mistral-7B-0.1Xiao,Guangxuan,etal."EfficientStreamingLanguageModelswithAttentionSinks."arXivpreprintarXiv:2309.17453(2023).•RNN:循环神经网络具有天然的“递归”性质,处理时间随着Peng,Bo,etal."Rwkv:Reinventingrnnsforthetransformerera."arXivpreprintarXiv:2305.13048(2023).Q:为什么之前很多模型结构无法替代Transformer?Tay,Yi,etal."Scalinglawsvsmodelarchitectures:Howdoesinductivebiasinfluencescaling?."arXivpreprintarXiv:2207.10551(2022).KaplanJ,McCandlishS,HenighanT,etal.Scalinglawsforneurallanguagemodels[J].arXivpreprintarXiv:2001.08361,2020.•微软亚研之前提出的YoCo模型,提出了利用16层的kvcache复用给所有17-32层进行attention使用Sun,Yutao,etal."Youonlycacheonce:Decoder-decoderarchitecturesforSun,Yutao,etal."Youonlycacheonce:Decoder-decoderarchitecturesforTransformer的效率优化-Parameter-SharingTransformer的效率优化-Parameter-SharingTransformer的效率优化-Parameter-SharingTransformer的效率优化-SparseParameter/blog/accelerating-neural-network-training/Conclustion:•对Transformer的效率优化要从Prefilling和decoding两个阶段去考虑•kv-cache在很多情况下是限制推理速度的主要因素,特别是decode阶段,大量的cache会IO-•GQA、MQA是降低缓存的一个重要手段,但是或多或少会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年超声波洗净机项目投资价值分析报告
- 2025-2030年贴片式整流二极管项目投资价值分析报告
- 2025-2030年豪华游览车项目投资价值分析报告
- 初中语文整合性学习方案试题及答案
- 市场需求分析与马工学的融合试题及答案
- 2025年过滤材料:滤料合作协议书
- 如何使用日程软件来帮助时间管理
- 城市智慧交通系统建设规划
- 2024年聊城市冠县学校招聘教师考试真题
- 2024年乐清市属事业单位考试试卷
- 中职《电子技术基础》测试考试复习题库(含答案)
- 办公设备投标方案(技术方案)
- GB/T 28952-2024中国森林认证产销监管链
- 智能智能化智能手表
- 铁路客运营销培训课件
- 学校食堂员工薪资专项方案
- 2024年辽宁铁道职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 国际人权法案例分析
- 铁路消防安全知识培训课件
- 村庄规划服务投标方案(技术方案)
- 《项脊轩志》公开课课件【一等奖】
评论
0/150
提交评论