2024大模型在系统中的落地实践_第1页
2024大模型在系统中的落地实践_第2页
2024大模型在系统中的落地实践_第3页
2024大模型在系统中的落地实践_第4页
2024大模型在系统中的落地实践_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

录2000年左 2010年左

2015年左 今

45TB570GB清洗后语料(93%175GB模型(在GPU显存

830GB代码数

表征建模能力:推荐系统缺乏语义信息;而大模型推荐能提取高质量的文本表示,并利用编码的世界知识完善物品理解和用户建模个性化内容生成:推荐系统仅能回答用户对给定候选集中物品的偏好;而大模型推荐具备生成能力生成不受限的个性化内容,且具备较好的可解释性 传统大模型推荐1传统大模型推荐1C的传统语言模型(GloveC的传统语言模型(BERTA与BC无关CAB大模型嵌入替代或添加进推荐模型嵌入(大模型嵌入替代或添加进推荐模型嵌入(如BIGRec):利用大模型获取物品的嵌入,将嵌入替代或添加荐嵌入进行后续推荐

训练与推理时延:LLM模型生成嵌入的速度较慢训练与推理时延:LLM模型生成嵌入的速度较慢,导致了额外的传统大模型推荐2传统大模型推荐2无法对辅助信息推理:推荐模型通常只基于序列或特征建模,而LLM可以结合上下文和辅助信息进行

提炼和联想新信息(如KAR):提炼和联想新信息(如KAR):利用LLM从输入中提炼关键信息,并联想开放域知识引入(如CTRL通过嵌入对齐,将开放域知识

通过预训练后的LLM提示工程(如TALLRec、KP4SR):通过设计专门的prompt,输入用户信息、上下文以及候选物品列表作为辅助信息,使M生成推荐结果推荐模型嵌入融入(如LLaRa):将来自推荐模型(如协同过滤模型或图神经网络)的embedding融入到模型中,结合M的语义理解能力和推荐模型提取协同信息的能力设计prompt,处理推荐信

ChatGPT对“是”回答 基于语义embedding获取语义ID,用来代替无意义的物品ID层次化码本:基于残差量化的方式获得重要程度逐级递减的码本(粗粒度->细粒度),

每层码本表达意义的“模长”生成式推荐大模型2:生成式推荐大模型2:生成式推荐大模型2:生成式推荐大模型2:推荐任务->序列生成任务:将输入的各项异构特征整合和编码成一个统一的时间序列,并将召回、排序等推荐任务重构为统一的Seq2Seq序列生成任务,设计基于trsforr的架构生成下一个to。生成式推荐大模型2:生成式推荐大模型2:时间复杂度:不涉及对时间复杂度的在模型架构层面的优化,未来工作可以考虑设计类似于线性注意力机制或最新提出的mamba等一次复杂度的架构代替或部分代替二次复杂度的自注意力机制。但对于新架构,如何保持sligl是一个挑战

GPT成功的数据基石:GPTGPT成功的数据基石:GPT进化中,模型结构保持相似,训练数据的规模、质量亟待解决的问题:,Model-centric同原始数据中学习到的→映射关系具有不同侧重,而Data-centric范式先从原始数据集针对不同模型重生成易于学习模式的数据集′,使学习映射′→更加简单直观Model-centric:Onedataset,AllData-centric:Onedataset,One推荐系统中存在的数据问 odlcentric和data-centric范式对DR4SR预训练阶段(A)学习重生成器:提出滑动窗口策略提取“(序列,模式)”对,构建预训练任务,解决监督信号缺失;提出方法优越性:DR4SR在不同数据集和各类模型上的性能均显著提升,展现了跨模型结构泛化能力以Data-centric和Modlcentric范式互补性,体现了Data-centric进一步分析:虽然DR4SR可以提供模型感知的序列训练数据集,但仍需要基于原始的数据集构建高阶数据模式和用于增广训练的数据,针对不同数据类型扩展D4S数据重生成方法仍需探索基于benchmark数据集在5大类

Entropylaw数据压缩率R:度量了数据中所蕴含的信息密度。可通过现有的各类数据压缩算法对文本数据进行压缩,训练损失L:度量了数据被模型记忆的难易程度。可通过观察LLM训练的第一个epoch的少数训练步数便数据一致性C:度量了数据之间的组合效应。反映给定上下文时,预测下一个token平均数据质量Q:度量了数据的样本级别质量基于EntropylawZIP根据信息冗余度向量,选择K1Entropylaw的实验验证模型效果vs压缩率:压缩率越低,代表了更大的Entropylaw的实验验证模型效果vs压缩率:压缩率越低,代表了更大的信息总量而压缩率接近的do,Clstr,rlity具有接近的损失及模型效果,符合entropylaw模型效果vs训练损失:更低的压缩率通常伴随着更大的训练损失,这是因为数据中信息总量更大,增大了模型的理解难度 Scalinglaw的拟合分析:对于模型的loss与模型维度作scalinglaw拟合,初步验证loss与模型层数,嵌入scaling

L=

(1+

引入近似熵ApEn衡量数据质量,熵值越低,数据质量越高。验证拟合数据参数与数据规模/近似熵成8.38633E-2.58694E-8.12462E-

(R2=ScalingLaw只揭示了loss模型规模影响因素分析:给定数据集规模,推荐模型scalinglaw中最优模型参数正比于模型层数L与嵌入维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论