大模型在系统中的落地实践_第1页
大模型在系统中的落地实践_第2页
大模型在系统中的落地实践_第3页
大模型在系统中的落地实践_第4页
大模型在系统中的落地实践_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型在推荐系统中的落地实践CONT目E录NTS01推荐大模型背景02研究现状03生成式推荐大模型04总结与展望大模型推荐背景推荐系统推荐系统:从用户历史行为数据中学习用户行为模式,预测未来用户行为亟待解决的问题:推荐数据稀疏,存在大量冷启动用户与物品,模型难以挖掘用户行为模式协同过滤2000年左右2010年左右矩阵分解2015年左右神经网络今天???大模型技术大模型技术急速发展,正在成为AI新范式!大模型技术优势基础:海量文本的高质量清洗及超大规模语言模型训练大量认知Prompt任务的有监督训练代码、文本数据融合训练人工反馈下的强化学习:注入了人类偏好45TB原始海量文本语料570GB清洗后语料(93%是英文)175GB模型(在GPU显存)40个众包团队标注人类反馈数据96%是英文增强推理激活知识数万个任务Prompt,涉及生成、问答、头脑风暴、闲聊等830GB代码数据数据来源:InstructGPT官方论文上亿活跃用户持续提供数据数学能力涌现能力:模型参数规模超过某个阈值时,模型精度剧烈增长文本生成 语言理解 知识问答 逻辑推理代码能力推荐系统+大模型大模型推荐

vs

纯推荐系统模型泛化性:推荐系统难以适应新任务与新场景;而大模型推荐能够依赖零/少样本推理能力,快速适应新的推荐任务,高效跨域泛化表征建模能力:推荐系统缺乏语义信息;而大模型推荐能提取高质量的文本表示,并利用编码的世界知识完善物品理解和用户建模个性化内容生成:推荐系统仅能回答用户对给定候选集中物品的偏好;而大模型推荐具备生成能力,可以生成不受限的个性化内容,且具备较好的可解释性可解释性零/少样本推理世界知识、常识生成能力研究现状传统大模型推荐生成式推荐大模型传统大模型推荐大语言模型与推荐模型的结合挖掘用户与物品的深度文本语义关联,增强冷启动场景的推荐能力,可解释性强应用模式:目前大语言模型的推荐以发挥大语言模型的文本能力为主,可根据其应用模式分为三类:大模型生成表征+推荐系统、大模型生成文本+推荐系统、大模型生成推荐结果1).

大模型生成表征+推荐系统 2).

大模型生成文本+推荐系统 3).

大模型生成推荐结果Wu

L,Zheng

Z,Qui

Z,et

a.l

A

suveyr on

lager language

modesl

for

recommendaionJ.][t aXvir pepintrr aXv:2305.19860,ir

2023.传统大模型推荐1:大模型生成表征+推荐系统研究背景推荐模型处理文本信息通常依赖文本编码器:编码文本信息能力弱:相比小语言模型,大模型自身对文本编码能力强大,能提供高质量表征难以深入理解文本信息:凭借着丰富的知识与推理能力,大模型能够引入小语言模型不具有的外部知识B与C相关A的嵌入B的嵌入C的大模型嵌入C的传统语言模型(Glove)嵌入C的传统语言模型(BERT)嵌入A与B,

C无关大语言模型的编码结果与实际上相关的物品更接近Bao

K,Zhang

J,Zhang

Y,

et

a.l

Talec:rl An

efecivetf and

efcentiif tunngi famewokrr to

aignl lager language

model

wthi

recommendaionC//Poceedngsir][t of

the

17ht

ACM

Coneencerf on

Recommender

Sysems.t 2023:

1007-1014.传统大模型推荐1:大模型生成表征+推荐系统使用判别式模型获得文本嵌入,提高推荐模型嵌入质量大模型嵌入替代或添加进推荐模型嵌入(如BIGRec):利用大模型获取物品的嵌入,将嵌入替代或添加进推荐嵌入进行后续推荐推荐模型与大模型的嵌入对齐(如CTRL、ClickPrompt):将大模型生成的嵌入与推荐嵌入通过对比学习、注意力等方法对齐大模型嵌入与推荐模型嵌入拼接嵌入拼接对比学习大模型嵌入与推荐模型嵌入使用对学习对齐Lin

J,Chen

B,Wang

H,et

al.

ClickPrompt:

CTR

Models

are

Strong

Prompt

Generators

for

Adapting

Language

Models

to

CTR

Prediction[C]//Proceedings

of

the

ACM

on

Web

Conference

2024.

2024:

3319-3330.传统大模型推荐1:大模型生成表征+推荐系统总结与展望训练与推理时延:LLM模型生成嵌入的速度较慢,导致了额外的时间和空间开销大模型存在编码对齐困难的问题:大模型的极大参数量使得其迭代更新困难,导致了表征结果和推荐模型的差异性,LLM的编码空间与推荐模型的编码空间难以对齐大模型直接嵌入结果的分布与推荐域分布间存在大量偏差Bao,

Keqn,i et

a.l

"Ab-septi goundngir paadgmir for

lager language

modesl

in

recommendaiont sysems."t aXvir pepintrr

aXv:2308.08434ir (2023.)紫色点表示大模型生成的有偏差的表征结果传统大模型推荐2:大模型生成文本+推荐系统Xi,Yunjia,

et

al.

"Towards

Open-World

Recommendation

with

Knowledge

Augmentation

from

Large

Language

Models."

arXiv

preprint

arXiv:2306.10933

(2023).研究背景缺乏开放域背景知识:推荐模型无法包含开放域知识,而大模型经过大量数据训练,具备广泛的背景知识无法对辅助信息推理:推荐模型通常只基于序列或特征建模,而LLM可以结合上下文和辅助信息进行推理受限于信息质量:相比于直接编码文本信息,大模型可以通过推理和知识整合提高信息的准确性和深度传统推荐模型:模型难以获得外部知识无法加工知识信息质量低大模型推荐模型:利用大模型引入外部知识基于知识进行推理提升知识质量传统大模型推荐2:大模型生成文本+推荐系统利用外部知识库和上下文信息来增强推荐辅助信息提炼和联想新信息(如KAR):利用LLM从输入中提炼关键信息,并联想生成新的相关内容以丰富推荐开放域知识引入(如CTRL)

:通过嵌入对齐,将开放域知识无缝集成到推荐中,增强内容多样性大模型提练关键信息X,i

Yunia,j et

a.l

"Towadsr Open-Woldr Recommendaiont wthi Knowedgel Augmenaiontt fomr Lager Language

Modes."l aXvirpepintrr aXv:2306.10933ir (2023.)L,i

Xangyang,i et

a.l

"CTRL:

Connect

Tabuarl and

Language

Model

for

CTR

Pedcion."tir aXvir pepintrr aXv:2306.02841ir (2023.)大模型引入外部语料信息大模型提升文本质量传统大模型推荐2:大模型生成文本+推荐系统Liu,Qijiong,

et

al.

"ONCE:

Boosting

Content-based

Recommendation

with

Both

Open-

and

Closed-source

Large

Language

Models."

arXiv

preprint

arXiv:2305.06566

(2023).总结与展望额外的推理时延:模型推理过程可能导致响应时间增加,影响实时性生成质量依赖于提示模板:输出结果高度依赖于输入提示的质量,需精心设计以确保生成效果大模型的集成带来了额外的时延问题大模型集成到推荐系统中提示模板需要专门设计传统大模型推荐3:大模型生成推荐结果研究背景推荐可解释性差:推荐模型难以解释推荐结果,而大型语言模型可以对其对推荐结果生成解释数据稀疏和冷启动问题:基于交互的推荐模型难以对冷启动用户生效,大模型的丰富背景知识能够基于文本进行冷启动推理大模型判断用户是否会选取物品大模型判断用户会选取哪个商品Zhai,

Jianyang,

et

al.

"Knowledge

prompt-tuning

for

sequential

recommendation."

Proceedings

of

the

31st

ACM

International

Conference

on

Multimedia.

2023.传统大模型推荐3:大模型生成推荐结果通过预训练后的LLM与推荐任务的对齐,直接生成推荐结果提示工程(如TALLRec、KP4SR):通过设计专门的prompt,输入用户信息、上下文以及候选物品列表作为辅助信息,使LLM生成推荐结果推荐模型嵌入融入(如LLaRa):将来自推荐模型(如协同过滤模型或图神经网络)的embedding融入到模型中,结合LLM的语义理解能力和推荐模型提取协同信息的能力推荐嵌入文本嵌入嵌入融合提示模板输入辅助信息设计prompt,处理推荐信息 推荐模型与文本嵌入融合Lao,i Jay,ii et

a.l"Laa:rl Aignngil lager language

modesl

wthi sequenialt recommendes."r aXvir pepintrr aXv:2312.02445ir

(2023.)传统大模型推荐3:大模型生成推荐结果Bao,

Keqin,

et

al.

"Tallrec:

An

effective

and

efficient

tuning

framework

to

align

large

language

model

with

recommendation."

Proceedings

of

the

17th

ACM

Conference

on

Recommender

Systems.

2023.总结与展望强大的冷启动能力:丰富的背景知识为大模型带来了强大的冷启动能力,远远超过了传统的推荐模型难以生成可控的生成结果:大模型输出存在不可控性,需要以损失通用能力为代价使之与推荐任务对齐GPT的直接输出不可控ChatGPT对是否推荐物品的问题总是用“是”回答两种大模型结果传统推荐模型结果两种大模型结果传统推荐模型结果样本数

低->高 样本数

低->高冷启动场景下大模型取得远超推荐模型的性能传统大模型推荐挑战数据层面:通用大模型预训练阶段缺乏推荐相关数据,不会推荐任务模态角度:通用大模型难以捕获协同信息,难以满足推荐需求传统大模型表现差,与随机猜测(AUC=0.5)表现类似如何借鉴通用大语言模型,扩展传统推荐模型规模,捕捉用户行为模式和物品特征,构建真正的生成式推荐大模型,实现更精准和个性化的推荐,是一个亟待解决的问题Bao,

Keqin,

et

al.

"Tallrec:

An

effective

and

efficient

tuning

framework

to

align

large

language

model

with

recommendation."

Proceedings

of

the

17th

ACM

Conference

on

Recommender

Systems.

2023.生成式推荐大模型将传统推荐小模型做大做深,并使其具备scaling

law具备通用大语言模型的涌现能力,更适合推荐任务,且能够深度挖掘用户与物品的协同关联研究方向:生成式推荐大模型,目前主要在表征和优化层面进行研究,可以分为对应的两类:ID特征的索引与建模、高效训练与推理1).

ID特征的索引与建模 2).

高效训练与推理Raputj S,

Mehat

N,

Snghi A,et

a.l

Recommender

sysemst wthi geneaivetr rereva[J.]lit Advances

inNeualr Inomaiontrf

Pocessngir Sysems,t 2024,

36.生成式推荐大模型1:ID特征的索引与建模研究背景推荐模型通常使用基于ID的表征高基数流式推荐数据:推荐系统需要处理数十亿级别的动态词汇表,基于ID的表征引入大量参数表征信息量低:ID无法表示用户或物品特性,缺乏先验信息带有先验信息的码本,

为码本维护嵌入,替代每个物品维护一个以唯一物品ID为标识的嵌入RajputS,Mehta

N,Singh

A,et

al.Recommender

systems

with

generative

retrieval[J].

Advances

inNeural

Information

Processing

Systems,

2024,

36.生成式推荐大模型1:ID特征的索引与建模基于语义embedding获取语义ID,用来代替无意义的物品ID进行推荐等贡献码本:利用预训练大语言模型获得物品内容特征(如文本描述等)的嵌入,再基于矢量量化的方式生成码本作为语义ID,使其具有内容特征带来的先验信息层次化码本:基于残差量化的方式获得重要程度逐级递减的码本(粗粒度->细粒度),允许更短码本长度物品文本的预训练语言模型嵌入每层码本表达意义的“模长”不同可以用更短的码本长度表达同样丰富的信息码本中每个代码的重要程度一样RajputS,Mehta

N,Singh

A,et

al.Recommender

systems

with

generative

retrieval[J].

Advances

inNeural

Information

Processing

Systems,

2024,

36.生成式推荐大模型1:ID特征的索引与建模总结与展望信息损失:通过量化方法将密集嵌入转换为离散语义

ID

的过程,本质上是一种信息的损失协同信息缺失:语义ID仅基于物品相关描述信息获得,不包含交互或序列特征,无法建模协同信息。尽管工作如ColaRec提出使用预训练的协同过滤模型获得的物品表示增强语义ID,它削弱了对冷启动的处理能力量化过程中丢失信息Snghi A,Vu

T,Keshavan

R,

et

a.l

Betert Geneaizaiontlr wthi Semanict IDs:

A

case

sudyt inRankngi for

RecommendaionsJ.][t

aXvir pepintrr aXv:2306.08121,ir 2023.生成式推荐大模型2:高效序列转换架构研究背景异构特征处理:推荐系统中的特征缺乏明确结构,包括异构特征如高基数ID、交叉特征、计数器、比率等高推理成本:词表规模和候选项数目庞大高计算成本:用户行为规模巨大,推荐系统需要处理的令牌数量远大于语言模型用于训练深度学习模型的计算量GRs:生成推荐器DLRMs:深度学习推荐模型Zhai

J,Liao

L,Liu

X,et

al.

Actions

speak

louder

than

words:

Trillion-parameter

sequential

transducers

for

generative

recommendations[J].

arXiv

preprint

arXiv:2402.17152,

2024.生成式推荐大模型2:高效序列转换架构设计具备scaling

law的模型架构,形成生成式推荐新范式推荐任务->序列生成任务:将输入的各项异构特征整合和编码成一个统一的时间序列,并将召回、排序等推荐任务重构为统一的Seq2Seq序列生成任务,设计基于transformer的架构生成下一个token。效率优化:使用随机长度算法降低attention复杂度,通过算子优化等方法降低内存使用量,通过成本摊销扩大推理规模序列生成任务一次推理处理多个候选物品,增大模型吞吐量Zhai

J,Liao

L,Liu

X,et

al.

Actions

speak

louder

than

words:

Trillion-parameter

sequential

transducers

for

generative

recommendations[J].

arXiv

preprint

arXiv:2402.17152,

2024.生成式推荐大模型2:高效序列转换架构总结与展望长序列处理:当前架构不具备拓展到较长序列的能力时间复杂度:不涉及对时间复杂度的在模型架构层面的优化,未来工作可以考虑设计类似于线性注意力机制或最新提出的mamba等一次复杂度的架构代替或部分代替二次复杂度的自注意力机制。但对于新架构,如何保持scaling

law是一个挑战引入额外的状态变量来降低复杂度线性注意力机制,压缩计算量Guo

J,Chen

X,Tang

Y,et

a.l

SLAB:

Efcentiif Tansomesrrfr wthi Smpiiedfli Lneari Ateniontt and

Pogessveirr Re-paameeizedrtr Bacht NomaizaionJ.][tlr aXvir pepintrr aXv:2405.11582,ir 2024.生成式推荐大模型大模型推荐方法的归纳总结Data-centric大模型研究推荐scaling

law探索多行为推荐大模型大模型推荐方法的归纳总结大模型推荐方法训练方式归纳与定义大模型推荐训练方式:本综述根据训练方式将已有相关方法归纳为判别式大模型推荐和生成式大模型推荐,并进一步系统化梳理并给出未来研究方向训练方式系统性定义:为了便于研究者区分大语言模型推荐中的不同训练方式,本综述对于每种训练方式给出了系统性并且清晰的定义大模型推荐训练方式 对于不同训练方式的解释Wu

L,Zheng

Z,Qui

Z,et

a.l

A

suveyr on

lager language

modesl

for

recommendaionJ.][t aXvir pepintrr aXv:2305.19860,ir

2023.大模型推荐方法的归纳总结大模型推荐相关工作和数据集梳理与总结代表性大模型推荐工作介绍:介绍各个类别中代表性工作的研究思路和贡献,为研究者理清该领域的研究现状和发展趋势大模型推荐公开数据集:目前大语言模型推荐能够使用的一些公开数据集大部分还是基于传统推荐的数据集进行设计和扩充,进一步挖掘大语言模型的潜力仍需文本信息更丰富的数据29已有代表性工作 相关公开数据集Wu

L,Zheng

Z,Qui

Z,et

a.l

A

suveyr on

lager language

modesl

for

recommendaionJ.][t aXvir pepintrr aXv:2305.19860,ir

2023.Data-centric大模型研究以数据为中心(Data-centric)的人工智能GPT成功的数据基石:GPT进化中,模型结构保持相似,训练数据的规模、质量得到极大提升数据导向的模型应用:当模型足够强大,仅仅需要修改推理数据(提示工程)便可完成目标任务Zha

D,Bhat

ZP,Lai

KH,et

al.Data-centric

artificial

intelligence:

A

survey[J].

arXiv

preprint

arXiv:2303.10158,

2023.Data-centric大模型研究:数据重生成推荐系统中存在的数据问题面向序列推荐的数据集重生成方法传统方法的缺陷:传统序列推荐方法常忽视数据中潜在的质量问题和数据缺陷。怎样获得一个信息丰富且泛化性强的训练数据集,以解决序列推荐系统的训练数据质量并提升模型性能亟待解决的问题:推荐系统旨在从原始数据集

�中学习用户偏好

�,

Model-centric范式使不同模型从相同原始数据中学习到的�→�映射关系具有不同侧重,而Data-centric范式先从原始数据集�针对不同模型重生成易于学习模式的数据集�′,使学习映射

�′→�更加简单直观Model-centric:Onedataset,All

modelsData-centric:Onedataset,One

modelmodel-centric

data-centric

范式对比Yin

et

al.

Dataset

Regeneration

for

Sequential

Recommendation

(KDD2024)Paper:

/pdf/2405.17795; Code:

/Graph-TeamData-centric大模型研究:数据重生成DR4SR:模型无关和模型感知的序列数据集重生成框架模型无关的数据集重生成:基于预训练的模型无关数据生成预训练阶段(A)学习重生成器:

提出滑动窗口策略提取“(序列,

模式)”对,构建预训练任务,解决监督信号缺失;

提出多样性增强器建模序列和模式之间的一对多关系,解决序列模式监督信号的冲突推理阶段(B)重生成数据集:提出混合推理策略平衡探索和利用,提高模型发现高阶模式的创造性模型感知的数据集重生成:基于损失引导的模型感知数据生成模型感知阶段(C):提出目标模型评估重生成数据样本的个性化器,采用双层优化策略对其进行高效优化序列到转换模式的一对多映射Yin

et

al.

Dataset

Regeneration

for

Sequential

Recommendation

(KDD2024)Paper:

/pdf/2405.17795; Code:

/Graph-TeamData-centric大模型研究:数据重生成面向序列推荐的数据集重生成方法的结果与分析方法优越性:DR4SR在不同数据集和各类模型上的性能均显著提升,展现了跨模型结构泛化能力,并能体现以Data-centric和Model-centric范式互补性,体现了Data-centric通用性进一步分析:虽然DR4SR可以提供模型感知的序列训练数据集,但仍需要基于原始的数据集构建高阶数据模式和用于增广训练的数据,针对不同数据类型扩展DR4SR数据重生成方法仍需探索基于benchmark数据集在5大类模型架构下显著提升性能DR4SR只为前两个数据集提供了更好的增广样本原始图上的表现更好Yin

et

al.

Dataset

Regeneration

for

Sequential

Recommendation

(KDD2024)Paper:

/pdf/2405.17795; Code:

/Graph-TeamData-centric大模型研究:Entropy

LawEntropy

law:数据压缩与模型智能的紧密关联Data

centric的研究使我们更加关注数据质量的评估,我们的研究通过以下四个维度对数据质量进行计算数据压缩率

R:度量了数据中所蕴含的信息密度。可通过现有的各类数据压缩算法对文本数据进行压缩,随后通过压缩前后的数据大小计算压缩率训练损失

L:度量了数据被模型记忆的难易程度。可通过观察LLM训练的第一个epoch的少数训练步数便可以得到一个指示性的训练损失数据一致性

C:度量了数据之间的组合效应。反映给定上下文时,预测下一个token的概率分布的信息熵平均数据质量

Q:度量了数据的样本级别质量。可通过不同的主观或客观的评价方式评估数据的平均质量Data-centric大模型研究:Entropy

Law基于Entropy

law的数据选择算法ZIP数据选择算法目标:受限于计算资源,选择压缩率相对较低的数据子集算法:多阶段贪心选择全局选择:基于数据压缩率计算,维护一个信息冗余度向量,用于衡量每条样本加入当前数据集的“信息增益”根据信息冗余度向量,选择K1条信息增益最大的样本局部粗粒度选择:重新计算并更新K1条样本的信息冗余度,进一步选择其中信息增益最大的K2条样本局部细粒度选择:聚焦于数据间的组合效应,从K2条样本中逐一挑选K3条样本,使得所选择样本集合的压缩率最低Data-centric大模型研究:Entropy

LawEntropy

law的实验验证Entropy

law的实验验证模型效果vs压缩率:压缩率越低,代表了更大的信息总量,因此模型效果越好。而压缩率接近的Random,Cluster,Perplexity具有接近的损失及模型效果,符合entropy

law的预测模型效果vs训练损失:更低的压缩率通常伴随着更大的训练损失,这是因为数据中信息总量更大,增大了模型的理解难度Yin,Mingjia,

et

al."Entropy

Law:

The

Story

Behind

Data

Compression

and

LLM

Performance."

arXiv

preprint

arXiv:2407.06645

(2024).

Paper:

/abs/2407.06645,

Code:

/Graph-Team推荐scaling

law初探语言模型scaling

law定量拟合现有推荐模型scaling

law论文中的定性比较研究背景通过增大模型和数据规模,推荐模型的效果通常能得到显著提升,然而对于模型规模注意尝试成本高,结果迭代慢。因此需要研究规律以指导推荐大模型的训练现有分析的困难与缺陷:推荐数据集一般词表规模不定,数据集之间的结构差异巨大,现有的推荐scalinglaw往往只进行了定性比较,缺乏定量分析

1�=��

+a

�近似拟合公式H为模型层数,D为嵌入维度拟合a值(数据参数)与截断的数据规模成反比模型Loss与最大序列长度,模型层数,嵌入维度的关系推荐scaling

law初探数据规模、模型规模对于loss的影响Scaling

law的拟合分析:对于模型的loss与模型维度作scaling

law拟合,初步验证loss与模型层数,嵌入维度,数据规模成反比通用大模型scaling

law简化推荐scaling

law初探近似熵�

��,

��

为两个子序列元素的最大差值,在离散序列中,r设置为0截断序列长平均序列长数据规模TokensApEnApen/tokens拟合数据参数2520.725051080.042368.38633E-080.1941255033.78024930.0207

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论