2024阿里妈妈技术年刊

上传人：缘*** IP属地：四川上传时间：2025-02-26 格式：DOCX 页数：306 大小：29.55MB 积分：15 举报 版权申诉

已阅读5页，还剩301页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

阿里妈妈成立于2007年，是淘天集团商业数智营销中台。秉承着“让每一份经营都算数”的使命，阿里妈妈技术团队深耕AI在互联网广告领域的探索和大规模应用，2021年5月，我们开始通过「阿里妈妈技术」微信公众号持续分享我们的技术实践与经验，覆盖广告算法实践、AI平台及工程引擎、智能创意、风控每年此时，我们都会整理过去一年颇具表性和创新性的工作沉淀制作成册，这些工作有的已为业务创造实际收益，有的是一些常见问题的新解法，希望可以为相关领域的期待明年此时，每位朋友都有新的收获，而我们也带着更多探索实践来与大家分享《2024阿里妈妈技术年刊》开放下载，如果对这本电子书有想要探讨的问题，或有更关注阿里妈妈技术，了解更多精彩内容~【NeurIPS'24】开源|AuctionNet:针对大规模博弈环强化学习在广告自动出价场景的大规模落地实践召回/预估模型展示广告多模态召回模型：混合模态专家模型大规模约束优化85【KDD'24】合约广告中的双目标库存分配【KDD'24】合约广告中大规模多重线性约束库存分配问题的高效局部搜索算法智能创意123开源|阿里妈妈技术开源FLUX图像修复及蒸馏加速模型开源|筑基砥柱：EcomXL-万相实验室AIGC电商基础模型131懂你，更懂电商：阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用尺寸魔方：AIGC赋能下的视觉创意智能延展AtomoVideo：AIGC赋能下的电商视频动效生成iimamate<h|目录【ACL'24】视频解说生成算法及在电商广告中【ECCV'24】SPLAM：基于子路径线性近似的扩散因果推断224隐私计算242阿里妈妈营销隐私计算平台SDH：公用云应用案例分享242风控技术252重磅！阿里妈妈新一代反作弊平台「DNA」算法揭秘252算法工程264揭秘阿里妈妈『AI小万』背后的AINative工程能力264AI生成存储基座：自研超大规模向量数据库DolphinVectorDB多智能体292哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS1alimama·te<h|决策智能阿里妈妈首提AIGB并实现大规模商业化落地，将在NeurIPS2024正式开源Benchmark2023年，阿里妈妈首次提出了AIGB（AI-GeneratedBidding）Bidding模型训练新范式。AIGB是一种全新的迭代范式，把自动出价问题建模为生成式序列决策问题，这是生成式AI在该领域的首次应用。经过一年的探索和研发，我们在阿里妈妈广告平台成功部署AIGB并取得显著效果，我们还把过程中的发现和经验总结成论文发表在KDD2024，详细分享了这一全新的迭代范式。为了激发该领域进一步的技术创新，我们今年发起了大规模拍卖中的自动出价比赛，并特别设置了AIGB赛道，这一理念得到了NeurIPS的认同，阿里妈妈成为国内工业界今年唯一一家获得NeurIPS比赛主办权的组织。同时，我们也将在NeurIPS2024上正式开源AIGB的Benchmark：业界首个标准化的大规模模拟竞价系统和论文作者：JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng广告业务是互联网公司营收的一项重要来源。仅在2023年，在线广告市场的规2alimama·te<h|决策智能达到了6268亿美元。在线广告往往是通过流量拍卖的方式进行广告投放。广告主需动广告市场持续增长的关键因素。相比于传统的手动出价，自动出价充分考虑了线上流量分布、竞价环境、预算以及各种限制因素，在为广告主带来了更多价值的同时，促进了平台业务的增长。一种典型的自动出价目标是在给定预算及其他约束的条件下最大化广告主的流量价值。典型的自动出价任务包括给定预算下的最大化拿量任务Max-Return，以及给定预算和ROI约束的最大化拿量任务TargetRoas等。在实践中，自动出价的优化问题一般会被看作一个序列决策问题，出价模型在整个投效果。模型需要具备一定的全局视角，进行整体规划和决策。对于序列决策问题，一优，从而不断提升策略效果。RL也是目前一种主流的Bidding解决方法。但是这种生成式模型助力Bidding范式升级生成式模型近年来得到了迅速的发展，在图像生成、文本生成、计算机视觉等领域取得了重大突破。目前最新的生成式模型在分布拟合以及相关性关联等方面显著地优于浅层神经网络。工业界Bidding策略优化的核心是基于历史的Bidding数据，通过模型挖掘策略与效果之间的相关性从对策略进行优化，是生成式模型落地的一个较为理想环境。基于这一洞察，我们提出了AIGB（AI-GeneratedBidding）解决方案。AIGB是一种基于生成式模型（Transformer、DiffusionModel等）的出价问题解决方案框架。与以往解决序列决策问题的RL思路不同，AIGB将Auto-Bidding视为一个策略生成问题，通过生成模型强大的特征关联以及分布拟合能力，直接捕捉历史Bidding数据集中优化目标和出价策略之间的相关性从而优化策略。相比于RL方法，这种新的建模范式避免了价值函数预估和自举法所所造成的误差，尤其擅长处理3alimama·te<h|决策智能图1：图左历史投放轨迹中，颜色深浅代表计划return的不同。右图为AIGB模型根据不同需求生成的新策略。整个模型看作一个分布处理pipeline，输入历史非最优但存在有效信息的广告投具备相关性的指标视为一个有一定规律的数据分布。在训练阶段，我们可以利用生成模型对这一数据分布进行数据挖掘寻优，这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段，生成式模型可以基于理论上，AIGB范式可以兼容多种生成模型。目前常用的生成式模型包括Trans-former、DiffusionMod主要基于自注意力机制，能够对样本中跨时序和分层信息进行提取和关联，擅长进行自回归处理。而DiffusionModel则缓慢地将随机噪声添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。加噪和去噪的过程可以类比为是把特征用马赛克遮住然后再还原的过程。相比之下，可以从细节到整体捕捉多个层次的相关性，从而提取出更多的有效信息，更擅长进行分布建模。因此，基于不同的生成模型DiffBid：基于扩散模型（DiffusionModel）的AIGB模块组成。对于规划模块，我们首先将一个完整投放周期内广告主剩余预算、消耗速率、ROI、流量价值等出价相关状态信息随着时间不断变化的过程看作一条Bidding以最大似然估计的方式拟合轨迹数据中的分布特征。因此，DiffBid可以基于给定目标规划出对应的出价轨迹。在此基础上，DiffBid会再利用一个逆动力学控制模型根4alimama·te<h|决策智能图2：左为正向过程，右为反向过程。DiffBid正向与反向过程示例，对于一条由剩余正向过程不断加入噪声，破坏其有效信息，然后反向过程生成新的轨迹，最大限度将这部分丢前，DiffBid已经多个场景的实验中相比于传统的RL方法产生了显著的正向效果。其中在某场景Max-Return任务中，产生了GMV+3.6%的结果。在TargetRoas任务中，在保证整体ROI满足要求的情况下取得了GMV+5.0%的结果。特别在TargetRoas中，由于ROI反馈稀疏且滞后，RL方法训练难度较大，而DiffBid受影响较小。因此，DiffBid既为广告主带来更多收益，又与此同时，我们通过进一步分析，发现DiffBid模型在提效的同时，还能够对实际投显著减少，振荡性显著降低，与此同时减少过快消耗的现象。广告主的投放体验也因图3：真实线上剩余预算散点图。横轴为剩余时间，纵轴为剩余预算。越分散代表消耗越振荡，投放平滑性越差。此外在图a中，存在大量提前消耗完毕的投放轨迹。这部分轨迹可能会5alimama·te<h|决策智能除了实际线上效果的优势外，相比于其他方法，DiffBid还具有其他两方面的优势。更好的可解释性（图4）。有助于我们对模型效果进行更好的评估，从而助力优化工作。例如，我们观察模型规划出的轨迹和实际线上的轨迹，如果出现规划出的最终剩余预算不为0的情况说明模型并未能有效利用所有预算。如果规划轨迹与实际轨迹差距较大，则说明逆动力学控制模型自适应能力较差。在定位问题之后，可以较为方便地进行针对性优化。其次，DiffBid对多目标的兼容能力更强，与此同时支持在训练完成后对目标进行调整从而优化规划轨迹。基于这一特点，我们可以更为方便地加入一些将业务逻辑指标作为优化目标，与Bidding模型更好在Max-Return任务优化的过程中，可以将预算使用率合并进入目标中，同时保证图4：横坐标轴表示时间，纵坐标表示剩余预算和但时间步消耗。灰色曲线/柱子为最优轨迹剩余预算曲线/消耗。红色表示不同优化目标所对应的规划轨迹曲线。可以看出，随着目标Return变大，模型规划会逐步逼近最优轨迹。证明模型学到了合理的业务逻除了已经展现出来的诸多优势之外，AIGB框架的开放性也能够兼容诸多不同的方案设计。在阿里妈妈刚刚举办的NeurIPS2024：大规模拍卖中的自动出价比赛中，选手们基于不同的基础生成模型，提出了一批不同于DiffBid的AIGB解决方案，出诸多亮点。其中有的选手充分利用了Transformer的优势，通过自回归的方式预测给定优化目标的出价信息。有的选手提出Transformer全局规划模型与bidding小模型结合的出价方案。也有基于Diffusion模型直接进行在不同程度上展示出了优势，为未来AIGB的进一步迭代提供了启发。但是，我们相6alimama·te<h|决策智能信这仅仅是一个开始。未来随着技术的进一步发展，更多的AIGB方案涌现出来，从而以完全不同的方式重构自动出价的技术体系。阿里妈妈沉淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证，从而推动AIGB技术的发展。期待后续有机7alimama·te<h|决策智能【NeurIPS'24】开源|AuctionNet:针对大规模博弈环境的出价决策Benchmark大规模博弈环境中的决策智能是人工智能领域内的重要研究方向，对实际应用具有深远影响。然而，由于缺乏全面且真实的博弈环境及相关数据集，这一领域的进展受到了限制。为了解决这一问题，本文提出了一种基于在线广告行业的自动出价决策问题的Benchmark，并命名为AuctionNet。AuctionNet境、基于该环境预生成的数据集以及几种基础出价决策算法的效果评估。广告竞拍环境通过深度生成式模型生成广告流量数据，旨在缩小仿真环境与现实问题之间的差距，同时避免敏感数据暴露的风险。数据集中包含了48个不同出价智能体相互竞价的日志，可帮助出价模型更好的训练。这个数据集共有5亿条记录，共计80GB。论文：AuctionNet:ANovelBenchmarkforDecision-MakinginLarge-ScaleGames作者：KefanSu,YusenHuo,ZhilinZhang,ShuaiDou,ChuanYu,JianXu,发表会议：NeurIPS2024DatasetsandBenchmarksTrack（Spotlight）在人工智能领域，大规模博弈中的决策问题是一个基础性的研究方向。在大规模博弈中，智能体需要在竞争环境下，在特定约束条件下做出正确的决策以实现其目标。智能决策的研究进展对广泛的现实应用产生了深远影响。在线广告是其中一种代表性的8alimama·te<h|决策智能应用。其市场规模在2023年超过6000亿美元。这一领域需要在大规模博弈中运用复杂的决策技术。具体来说，在线广告系统主要通过流量拍卖的方式实现广告投放。代表广告主对大量持续到来的广告流量进行出价，目标是在满足特定约束条件（如投大规模广告拍卖中的出价决策是大规模博弈决策的一个典型例子。然而，研究人员通常只能有限地访问到真实的大规模广告竞拍环境，这一现状会对该领域的研究造成阻碍。尽管业界已经有了部分工作旨在为研究者提供一个仿真环境，但此类仿真环境大都无法对广告系统中的复杂的流量分布及博弈行为进行很好的描述，且可扩展性不在本文中，我们提出了AuctionNet——源自真实在线广告平台的大规模广告出价决策基准。AuctionNet由三个部分组成：广告竞拍环境、基于该环境的预生成数据集以及对几种基线出价决策算法的性能评估。具体来说，该环境通过多个模块的交互，有效地复制了真实世界广告竞价的完整性和复杂性：广告流量生成模块基于深度生成式模型。这种方法可以缩小模拟数据和真实世界数据之间的差距，同时降低敏感数据暴露的风险；出价模块实现了使用不同决策算法训练的多样化；拍卖机制模块基于广义二价（GSP）拍卖机制，同时也允许根据需要定制拍卖机制。为了促进研究并提供对博弈环境的深入了解，我们还基于该环境预生成了一个大型数据集。该数据集包含48个不同的智能体相互竞争的轨迹，总计超过5亿条记录，大小达80GB。作为AuctionNet的一部分，我们还提供了线性规划、强化学习和生成式模型等基线算法9alimama·te<h|决策智能2.问题建模在本文中,我们使用部分可观测随机博弈（POSG）来构建这个问题。在POSG中，M={S,A,P,r,7,Z,0,I,T}表示一个元组，其中I=1,2,…,n表示所有智能体的集合，T为时间范围，即一个周期所对应的时间步数，S表示状态空间，A为动作空间，P(·Is,a):SXA→A(S)为转移概率，v表示折扣因子，Z表示观测空间，O(S,i):SXI→Z表示对每个智能体i从状态到观测的映射，r=r1Xr2X…XT'n是所有智能体的联合奖励函数，ri(s,a):SXA→RA2X·…xAn是所有智能体的联合动作。表示广告流量j对智能体i的价值。智能体i的观察值oi(wi,ui,Qi,vi)eZ仅包含状态S中的部分信息，即智能体i可能不知道其他智能体的预算。基于自动出价领域的已有结论，智能体i对流量的出价可以被表示为一个出价系数ai与流量价值vij的乘积。因此，在这个时间步内智能体i对所有广告流量的出价为，其中m是这个时间步长内的广告流量数量。给定所有智能体的出价，根据拍卖机制的决定，智能体i将收到拍卖结果zi=(i1,2i2,""",im)，其中当且仅当智能体i赢得流量j时，cij=1。智能体只会从赢得的流量中获得奖励并付出成本，即奖励ri(s,a)=jm1ijvij以及成本jm-1ijcij。因此下一个时间步的预算wii=wijiijcij，其中cij是展示j对智能体i的成本。其中zt(zt1,zt,…,ztm)vt(vt1,vtwi是智能体i的预算，·表示内积。在实现的时候，我们构造ri(st,at)=cti,vti，T因此优化公式中的目标与t1ri(st,at)是相同的。T对于更复杂的场景，我们可以添加CPA约束以确保预算的有效利用。上述决策制定alimama·te<h|决策智能3.广告竞拍环境为了全面展示真实世界在线广告平台中的大规模博弈，我们开发了一个广告竞拍环境。为了规范自动出价过程，我们将一段时期内的广告流量划分为T个决策时间步。根据目标，自动出价智能体在每个时间步依次进行出价，利用第t步的结果和之前的历史信息来改进第t+1步的策略。这种设计理念使智能体能够持续优化其出价策略，以适应不断变化的环境。在每个时间步内，所有广告流量都是独立且并行执行这个环境通过广告流量生成模块、竞价模块和广告拍卖模块的相互作用，有效地复现了真实世界中广告拍卖的完整性和复杂性。为了更好地模拟现实中的大规模拍卖，环境中输入了大量的广告流量，并配置了数十个出价智能体。这些广告流量是通过深度生成式模型产生的，以此减少模拟环境与现实之间的差距，同时避免敏感数据泄露的3.1流量生成模块广告流量生成模块的目标是生成与真实在线广告数据相似的多样化广告流量。如图2所示，该模块的核心是深度生成式模型。我们使用了潜在扩散模型（LDM）的方法来生成广告流量。LDM在潜在空间中添加噪声并使用扩散模型进行去噪，然后通过编码器和解码器从潜在空间生成数据。具体来说，LDM在训练过程中使用编码器将广告流量特征U映射到潜在向量y，并使用解码器重构这个特征。在生成时，LDM从正态分布中采样一个随机潜在向量，然后基于这个向量生成广告流量特征。令UCRd为广告流量特征数据(ua,U2,,uK)的空间，其中d是原始数据的维别表示为gφ和hy，其中φ和v是参数。编码器gφ的功能是获取原始数据的潜在表征，即gφ(uk)=(μk,Ok)，其中ykN(μk,o2k)且ykeY是潜在表征。在alimama·te<h|决策智能给定潜在表征yk，解码器负责从yk重构原始数据，即hv(yk)=U-keU。除了重构之外，潜在分布N(μk,ok2)需要逼近标准高斯分布N(0,1)。因此，编码器和解LDM在潜在空间中使用扩散模型来生成潜在变量。扩散模型背后的思想是向原始数据添加高斯噪声以获得服从N(0,1)的变量，并从N给定一个潜在变量y，我们将其经过p次迭代后的噪声版本表示为yp。扩散模型包匀采样得到的。网络EO(yp,p)是扩散模型中唯一可学习的组件，它通过基本操作实对于给定的广告流量特征Uk，我们还需要确定这个广告流量与对应广告主类别信息iimamate<h|决策智能信息。我们使用多头注意力机制（Multi-headAttention,MHA）作为信息整合的网3.2出价模块出价模块复现了广告主之间的动态竞争。每个广告主都有不同的广告目标，并使用独立的自动出价智能体，同时对其竞争对手的策略并不了解。研究人员可以控制环境中的部分智能体，而其他智能体则保持不受控制。这种设置可以更好地反映现实世界在3.3拍卖机制模块广告拍卖模块的任务是根据智能体对广告流量的所有出价来确定赢家和中标价格。根据不同的拍卖规则，智能体的成本会有所不同。基于常见的GSP拍卖，获胜者会以第二高的出价而非最高出价来支付。为了方便研究人员进行研究，拍卖模块内部支持包括GSP在内的多种主流拍卖规则。此外，研究人员可以使用拍卖模块的接口设计此外，环境中实现了多坑的属性。多坑源于工业应用，意味着单个广告流量可能有多个广告坑位用于展示。具有较高曝光率的广告坑位对广告主来说更有价值。假设广告位数量为l，那么拍卖模块将把l个广告位分配给出价最高的l个出价者，这些出价者将根据广告位不同的曝光率获得不同的价值。总的来说，多广告位特性增加了最优出4.预生成数据集为了更好地证明生成的数据能够反映真实世界数据的特性，我们对广告流量生成模块本身的有效性进行了验证。广告流量生成模块包含两个组成部分：特征生成式模型和我们随机抽样了10万个真实世界在线广告数据点，并与10万个生成的数据点进行alimama·te<h|决策智能性。3DPCA结果如图3所示。为了更好地展示，我们在3D空间中使用了六个不同的视角。我们观察到生成的数据在3D空间中与原始数据重叠。此外，生成的数据点在3D空间中形成了四个主要的独立簇，这与真实世界的数据点类似。这些可视化结为了进一步比较这两个数据集，我们研究了两个数据集中身份信息和消费行为信息的数值分布。实证结果如图4所示。对比真实数据和生成数据中个人信息相关特征的取值分布：可以发现在年龄、会员等级、偏好的手机价格区间等具体的特征上，生成数在图5中，我们对比了真实数据和生成数据中消费行为相关特征的取值分布：在统计消费行为的相关特征上，我们可以发现生成数据和真实数据都呈现出“长尾分布”，即绝大部分消费者的消费行为都比较稀疏，而存在小部分的消费者消费行为较为频alimama·te<h|决策智能该数据集源自博弈环境中生成的数据，其中多个自动出价智能体相互竞争。我们已经预先生成了大规模的博弈数据，以帮助研究人员更深入地了解竞价系统。这些数据可数据集包含21个广告投放周期，每个周期包含超过500,000个广告流量，并被分为48个步骤。每个流量都包含出价最高的前48个智能体（注：真实世界的数据表明，数据集包含超过5亿条记录，总计80GB大小。每条记录包含预测价值、出价、拍5.评估在实验部分，论文评估了多种基线算法在AuctionNet环境中的性能，包括PIDController、OnlineLP、IQL、BC和DecisionTransformer。值得注意的是，我们使用了论文中的原始算法，并没有在自动出价任务对这些方法做特殊的优化。实验结果如图6所示。为了更好地说明问题，我们将所有基线方法的性能用启发式基线Abid的平均周期奖励进行归一化1.0。OnlineLP取得了最佳性能，这可能是因为它相对稳健，无需为自动出价任务进行特殊适应就能取得良好效果。虽然IQL、BC等方法的表现不如OnlineLP，但我们观察业界有在这些算法基础上针对自动出价问题提出了一些新的解法（如AIGB）并有显著效果提升，证明了这类方法具有巨大的优化潜力。此外，在目标CPA任务中所有基线方法的奖励下降是由于超出约束而产生的CPA惩罚所致。alimama·te<h|决策智能6.在NeurIPS比赛上的应用AuctionNet被应用于NeurIPS2024竞赛“Auto-BiddinginLarge-ScaleAuctions”中。该竞赛解决了在不确定和竞争环境中进行高频出价决策的关键问题，历时3个月并有来自全球1500多支队伍参与其中。竞赛中使用据集和基线出价决策算法均源自该Benchmark。广告竞拍环境为竞赛提供了近万次评估，为参赛者提供了准确、公平的效果评估。数据集和基线算法使参赛者能够快速启动任务并激发他们的创造力，从而产生更多样化和创新的解决方案，推动该领域的7.开源代码alimama·te<h|决策智能8.总结AuctionNet环境仍然存在一定的局限性，包括生成数据与真实数据之间的偏差并没有完全得到解决，以及AuctionNet环境的计算速度仍然偏慢，有待进一步优化。尽管如此，AuctionNet环境和数据集仍然为大规模博弈决策的研究提供了一个有价值的工具。这不仅为研究人员提供了在大规模拍卖中研究自动出价算法的机会，也可以帮助博弈论、强化学习、生成模型、运筹学等领域的研究人员和实践者解决各种决策alimama·te<h|决策智能导读：去年，我们提出了AIGB的初步设想与方案（延展阅读：Bidding模型训练新AIGB的完整方案，并在实际在线广告平台大规模预算AB测试中取得了显著效果。值得一提的是，AIGB的研究成果已被KDD2024大会接收。在本文中，我们将基于KDD公开发表的论文，详细分享这一全新的作者：JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng在2023年，在线广告市场的规模达到了6268亿美元，而自动出价已成为推动这一市场持续增长的关键因素。自动出价需要在顺序到来的海量展示机会中依次做出出价决策，这是一个典型的长序列决策问题。近年来，强化学习（RL）在自动出价中得到了广泛应用。然而，目前大多数基于RL的自动出价方法都采用马尔可夫决策过程（MDP）进行建模，但在面对较长序列决策时，这些方法受到了误差累积等因素的限制，效果表现受限。为了解决这些问题，本文提出了一种新范式AIGB——基于生成式模型的自动出价。在具体实现上，该方法基于条件生成模型，将出价决策轨迹与优化目标直接建模在一起，从而有效避免在长序列决策时跨时间步的误差传播。在应用中，只需设定要达成的优化目标及特定约束，即可生成能够最大化给定目标的出价轨迹，依托此轨迹可以得到具体的出价决策动作。我们将该方法在阿里巴巴广告平台进行大规模部署，并通过预算AB实验进行了长达一个月的效果观察，充分验证了该方法的有效性。在总交易额（GMV）和投资回报率（ROI）上分别实现了4.2%和5.6%的增长，同时显著提升了广告主的投放体验。并且我们对该范式进行了深入细致的分析，在出价轨迹规划及出价动作的有效性上都展现出了不错的潜力，对该范式的深入研究可以带来持续的效果提升。alimama·te<h|决策智能广告主的目标是在满足各个约束的条件下在整个投放周期内部获取最多的流量价值。考虑到广告目标、预算和M个KPI约束，自动出价问题可以被定义为一个带约束的maxviziiS.t·cizi≤Bi0≤i≤1,vi其中，1cie{0,1}表示是否竞得流量i，vi和ci分别表示流量i的价值（流量产生购买或GMV的可能性）和成本。kj是第j个约束的上界。pij表示效果指标，例如CPC、ROI等，cij第j个约束所关联的流量消耗。如果只有预算B进行约束，我们称为MaxReturnBidding。如果同时考虑预算约束和CPC约束，我们称为Target-CPCbidding。如果假设已经知道整个投放周期内流量集合的全部信息，包括能够触达的每条流量以及其流量价值和成本，那么可以通过解决线性规划问题来获得最优。为了求优化问题，我们一般通过对偶变换，构造一个最优出价公式，将原问题转化为求解最价公式共包含m+1个核心参数uk，ke[0,…,M公式中其余项为在线流量竞价时可获得的流量信息。由于最优出价公式存在，对于具有M+1个约束、且希望最大化赢得流量的总价值的问题，最优解可以通过找到M+1个最优参数并根据公式进行出价，而不是分别为每个流量寻找最优出价。理想情况下，通过求解最优参数uk*，即1.2自动出价中的决策问题然而，在实际投放过程中，我们无法提前获知整个投放周期的流量分布，需要在流量集合未知的情况下进行实时竞价。因此，由于无法直接计算出最优参数Wk*，常规的线性规划解决方法并不完全适用。在实践中我们往往需要根据历史信息对Wk*进行预估，并得到预估值。由于环境随机性大，进行实时动态调整以适应环境的变化。基于这一视角，我们可以将自动出价被看作一个序列决策问题。为了对这个问题进行建模，我们引入状态变量st描述实时投放状态，自动出价模型基于st输出出价动作at,环境将动态变迁至下一状态st+1，并获取到相应的奖励rt。接下来我们进行详细状态st：描述在时间段t的实时广告投放状态，包含一下方面的信息：1)剩余投放时间；2)剩余预算；3)预算消耗速率；4)实时点击成本（CostPer动作at：描述在时间段t对出价参数的调整，其维度与竞价参数uk*的数量相符，并用向量形式(atw,…,QwtJ)表达。1.3生成式模型生成式模型近年来得到了迅速的发展，在图像生成、文本生成、计算机视觉等领域取得了重大突破，并催生出了近期大热的ChatGPT等。生成式模型主要从分布的角度去理解数据，通过拟合训练数据集中的样本分布来进行特征提取，最终生成符合数据集分布的新样本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力机制，能够对样本中跨时序和分层信息进行提取和关联，擅长处理长序列和高维特征数据，如图像、文本和对话等。而Diffusion加入越来越多的信息，从而生成目标分布中的样本。这一过程与人类进行绘画过程较依靠生成式模型强大的信息生成能力，我们也可以引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式，达到策略输出的目标。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分别将alimama·te<h|决策智能RL方法[7,8]取得了较好的效果提升。这一结果为我们的Bidding建模提供了一个二、AIGB（AIGeneratedBidding）建模方案AIGB是一种利用生成式模型构造的出价优化方案。与以往解决序列决策问题的RL视角不同，AIGB将自动竞价视为一个轨迹生成问题，直接捕捉优化目标和整个投放轨迹之间的相关性，从而克服RL在处理线上环境高随机性、长序列稀疏回报和有限数据覆盖时的性能瓶颈。在此基础上，我们进一步发挥生成模型的优势，尝试通过多任务的方式解决出价问题。在训练过程中，对约束进行条件化，使得推断时的行为可以同时满足多个约束组合。我们的研究结果表明，使用条件生成模型来解决出价问题的新策略。整个模型看作一个分布处理pipeline，输入历史非最优但存在有效信息的广告投放从生成式模型的角度来看，我们可以将出价、优化目标和约束等具备相关性的指标视为一个联合概率分布，从而将出价问题转化为条件分布生成问题。这意味着我们可以以优化目标和约束项为条件，生成相应出价策略的条件式出价（AIGB）模型的流程：在训练阶段，模型将历史投放轨迹数据作为训练样本，以最大似然估计的方式拟合轨迹数据中的分布特征。这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段，生成式模型可以基于约束和优化目标，以符合分布规律的方式输出出价策略。总训练阶段，条件生成式模型通过最大似然估计进行训练，通过监督学习的方式推断阶段，条件生成式模型可以根据不同的出价类型生成不同的出价轨迹，以alimama·te<h|决策智能2.1模型结构po(t(T)t(T),y)其中出价策略zt(T):(st*,bt*,st*+t19…,ST*)是由未来的最优状态和与之对应的最优及约束项（PPC、ROI、投放平滑性）等。pO被用来估计条件概率分布。模型基于当前的投放状态信息以及策略生成条件输出未来的投放策略，相比于以往的RL策略仅仅黑盒输出单步action，AIGB策略可以被理解为在规划的基础上进行决策，更擅长处理长序列问题。这一优点有利于我们在实践中进一步减小出价间隔，提升策略的快速反馈能力。与此同时，基于规划的出价策略也具备更好的可解释性，能够帮助我们2.2生成式建模我们提出一种基于AIGB范式的出价算法——DiffBid。在训练阶段，DiffBid模型通过最大似然估计历史数据集D中轨迹ti(T):=(SO,S,···,st)和策略生成条件y(T)所对应的轨迹信息进行训练，从而最大限度拟合历史轨迹的分布信息：maTDlogpo((T))1(T),y(T)alimama·te<h|决策智能拟合历史分布的过程可以通过引入Diffusion来完成。以我们真实使用的扩散模型为例，我们将序列决策问题看作一个条件扩散过2K+(T)的转换均通过加入高斯扰动实现；反向过程则表示高斯噪声cK(T)转化为历高斯扰动实现。除此之外，在反向过程中，我们还希望能够表达y(T)与k1(T)的相关性，因此可以引入DD模型中使用的Classifier-free方法，利用(eo(k(T),z'(T),y(T),k)o(rk(T),ac'(T),g,k))其中i表示不同的目标或者约束，w用来调节y(T)的权重。Classifier-free方法可以较为优雅地处理多种优化目标和约束条件，避免以往RL训练过程中由于约束信号稀疏而效果下降的问题。在此基础上，我们可以计算每一个step的重构误差，也L(9,p)=k,TeDEEO(ark(T),y(T),k)I2然后通过最小化误差的方式进行训练。DiffBid模型的策略生成阶段通过给定生成条件y(T)生成符合要求的出价轨迹。具体过程如下：2.3策略生成条件对于只有预算约束的单约束bidding问题，我们利用策略生成条件y(T)来表示优化目标。我们将每一条投放轨迹T在整个投放周期内的总奖励定义为Return，为了方其中Rmin和Rmar分别表示数据集中Retur据集中最好的轨迹，能够更好地服务于广告主的效果提升。R=0表示数据集中最差对于具有多约束的bidding问题，需要要求每一个约束变量都不能超过设定的阈值。我们在此基础上将更多约束相关信息合并进y(T)中，并维护一个二进制变量E来指示最终CPC是否超过给定的约束K：将E合并进y(T)中进行训练。对于多约束变量，除了业内普遍的CPC、ROI等约束以外，利用扩散模型的强大能力，我们得以加入更多个性化的约束，我们称为人类反馈约束。例如，广告主可能会希望预算消耗尽可能均匀，进一步减小爆量发生的概率。我们可以通过定义约束相a=ctct+来实现。其中ct表示广告计划在t时刻的总消耗。广告主可能希望将特定时间段消耗更多的预算以应对促销活动,我们通过a-来表示。为了对AIGB的效果进行验证，我们通过仿真平台和真实线上做了大规模的实验。在离线实验中，我们进行了多维度的实验，包括在MaxReturnBidding、Target-CPCBidding、广告主反馈等。在此基础上，我们将模型部署到线上场景进行了线上的Max-Return场景进行了实验。alimama·te<h|决策智能3.1仿真实验结果bidding方法[1]，目前在业界被括BCQ[10]、CQL[7]以及IQL[10]，USCB-5K表示利用USCB出价模型与环境交互产的数据集，USCBx-5K表示在USCB策略上加入一定的探索扰动。表1展示了DiffBid与基准模型在MaxReturnBidding的效果对比。在这个表DiffBid作为评估的所有方法中表现最好的方法脱颖而出。在所有预算场景和训练数据集中，DIffBid模型始终获得最高的累计奖励。这一显著的表现突显了AIGB在优化出价策略方面的能力，展示了将出价过程进行生成式建模的优势——能够做出更具有全局性的出价策略。另外一个关于AIGB性能的方面是其对探索数据具有更好的融合能力。AIGB比强化学习基线方法能够更有效从探索数据中提取出更好的策略。图3：AIGB与USCB消耗曲线对比，颜色的不同代表不同的预算alimama·te<h|决策智能我们进一步研究AIGB策略的特点，我们比较了基准方法USCB和DIffBid的分时消耗情况。在图3中，我们绘制了一天中剩余预算比例随时间步的变化。从图中我们可以观察到，在USCB下，大部分广告商的消费未能耗尽他们的预算。这归因于USCB面临的线下虚拟环境和真实线上环境之间的不一致性。相反，在AIGB下，预算完成情况有所改善，大部分广告商花费了超过80%的预算。一个可能的原因是DiffBid发现高预算完成比例的轨迹同样会有高累积奖励，因此倾向于生成预算完成比例高的轨迹。此外，小预算的广告商倾向于在下午消费。这是因为下午的流量平均图4：AIGB与IQL在Target-CPCBidding中的表现较。具体来说，我们检查DiffBid和IQL控制整体CPC超额比例的能力，同时最大化总回报。在训练期间，我们设置不同的CPC阈值。然后在测试时，我们让AIGB生成满足期望CPC下的轨迹。在图4中，我们展示了在不同CPC约束和训练设置下的超限比例和总回报。从图中发现，AIGB能够在保持完整回报的同时，控制不同水平的超限比例，显著优于IQL。因此，AIGB在有效解决MCB问题上占据了明显alimama·te<h|决策智能我们还研究了在不同广告商反馈下的性能。在训练期间，我们将阈值将轨迹分为高低两个水平，并学习不同水平下的条件分布。在生成期间，我们调整条件并生成相应的样本，并总结指标。图5显示了低水平、高水平和原始轨迹的指标的统计分布结果。我们发现，部署AIGB获得的轨迹能够很好地受到条件的控制。3.2线上实验结果：表2:线上AB实验结果为了进一步证实AIGB的有效性，我们已经在阿里巴巴广告平台上与表现最优的自动出价方法之一IQL方法进行了比较。通过较长周期的在线A/B测试，实验结果表明（如表2DiffBid可以将购买次数(Buycnt)提高2.72%，总商品交易额(GMV)提高4.2%，投资回报率(ROI)提高5.55%，ROI胜出率提升20.04%，展示了其在优化整体性能方面的有效性。在效率方面，经过GPU加速，AIGB可以很好地保证计算延时不增加太多。AIGB方案有诸多优势，包括解决困扰RLBidding在离线不一致问题，更好地训练alimama·te<h|决策智能多约束出价模型，更好的可解释性以及更为顺畅的与专家经验的结合能力等，这些优势可以帮助我们进一步提升的模型迭代效率和效果上限。基于AIGB的出价方案目前已经在阿里妈妈线上广告场景落地。可以看出，生成式模型驱动的AIGB已经在以完全不同的方式重构自动出价的技术体系。但是，这仅仅是一个开始。阿里妈妈沉淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证，从而推动AIGA技术的发展。与此同时，用户和互联网产品的交互方式也将发生深刻的变化。重塑广告营销模式的机会之门已经在变化之中逐步显现，我们需要做的就是通过持续不断的探索和alimama·te<h|决策智能【KDD'25】AIGA生成式拍卖：感知排列外部性从“先预估后分配”的判别式方法，到直接面向最终拍卖结果的生成式方法，生成式模型能否为在线广告的拍卖机制优化带来持续增量？本文介绍阿里妈妈展示广告机制策略团队在AIGA（AI-GeneratedAuction）方向的前沿探索-生成式拍卖研究广告拍卖机制设计作为在线广告系统的重要一环，在持续优化广告主和平台收益方面起着至关重要的作用。传统的广义二价拍卖（GSP）等拍卖机制依赖于点击率分离假设（将广告点击率拆分为广告自身质量分和广告位曝光权重的乘积忽略了页面中同时展示的其它商品的影响，即外部性影响。近年来，基于深度学习的拍卖机制显著增强了对高维上下文特征的编码能力，但是现有方法仍受限于“先预估后分配”的设计范式。这种范式只能建模参竞广告集合内的外部性，无法捕捉最终分配结果的整页部性影响下的最优拍卖机制，在理论最优解的基础上，我们提出了首个使用生成式模型建模排列外部性的广告拍卖机制-生成式拍卖（ContextualGenerativeAuc-tion,CGA）。该框架通过自回归模型生成广告分配结果，并将激励兼容（Incentive最优计费规则。大规模离线实验和在线A/B实验表明CGA能显著提升平台收入等关基于该项工作整理的论文已被KDD’25ResearchTrack接收，欢迎阅读交流。论文：ContextualGenerativeAuctionwithPermutation-levelExternalitiesfor作者：RuitaoZhu,YangsuLiu,DaguiChen,ZhenjiaMa,ChufengShi,Zhen-zheZheng,JieZhang,JianXu,BoZheng,FanWu2.引言在线广告系统的最优拍卖机制旨在最大化平台期望收入，同时满足经济学性质，包括激励兼容和个体理性（IndividualRationality,IR算时延要求。IC条件要求广告主真实报价最大化其自身效用，IR条件要求广告主的在典型的点击计费（Cost-per-Click,CPC）多坑广告场景下，广告拍卖机制的效果依赖于对广告点击率（CTR）的预估准度。广泛使用的GSP等机制使用精排阶段的单点预估CTR，忽略了页面展示的其它商品的影响。而实际场景中，用户浏览的页面包括多个商品，用户在决策前通常会对不同商品进行比较，因此同时曝光的其它商品会对目标广告的CTR产生影响，称为“外部性”[1]。 VCG（SW-VCG[3]）等工作考虑使用深度网络刻画外部性影响以提升平台收入。然而无论是DNA采用的先预估广告rankscore再进行排序，还是SW-VCG使用的先预估单调性分数再求解二部图最大匹配，这些方法本质上都受到“先预估后分配”（allocation-after-prediction）范式的局限，预估时的上下文信息与分配后的最终上下文信息不一致，因此模型只能捕捉到粗粒度的广告候选集层面的外部性。另一方面，NeuralMulti-slotAuction（NMA[4]）等机制采用类似VCG拍卖的方式，遍历所有可能的排列结果以求解最优分配，但是极高的计算复杂度使其难以应用于在线场景。根据Myerson拍卖理论[5]，拍卖机制的IC条件要求广告主获得的期望价值关于其出价满足非递减关系。大多数现有方法通过保证排序公式中出价的权重为正，使得广告主提高出价能获得相同或更前置的广告位。但是在排列外部性的影响下，即使广告验数据，二者的关系并不满足单调性。因此，在排列外部性影响下，如何设计满足激30alimama·te<h|决策智能本文旨在探索在排列外部性影响下，满足IC和IR约束的收入最大化广告基本形式和高效实现。我们首先给出系统性的理论分析，证明最优解保留Myerson最优拍卖的基本形式，即分配规则和计费规则可以进行解耦。在理论最优解的基础上，我们引入经典的生成器-评估器（Generator-Evaluator）架构，构建感知排列外部性的生成式拍卖。最后，我们进行工业数据集上的离在线实验，在多维度指标上3.问题建模与理论分析在线广告场景可以抽象成一个典型的多坑拍卖问题。对于每条用户请求，由n个广告自身的私有估值vi提交出价bi，其中vi服从价值分布fi(·)。给定出价向量b，用户特征向量u以及所有参竞广告的特征向量X=(a1,21""",an)，平台的拍卖机制决定分配方案A(aij)nxke{o,1}nxk以及广告主的计费p=(pi)neRn，其中aij=1表示广告i分配到广告位j。广告拍卖中的外部性指的是竞胜广告主的效用会受到其它竞胜广告的影响[1]。对于CPC多坑拍卖，外部性影响主要反映在广告CTR上。我们用表示任意感知排列外部性的CTR模型，广告i的CTR可以表示为o(zci;A,X,u)，可以简化表示为oi(b;X,u)。31ui(vi;b;X,u)=(vipi(b;X,u))·oi(b;X,u).个体理性（IR）条件则要求广告主效用非负。广告拍卖机制目标为最大化平台期望收入o~FRevM(b,X,u)=ni1pi(b;X,u)i(b;X,u)，且满足IC和IR约束。求解收入最大化机制的直观想法是遵循经典的Myerson拍卖，我们将排列外部性引入Myerson拍卖，可以写成如下形式，其中-(bi,Fi)表示经过i分配规则：AeargmarAiA-KA,jbi,Fi)(i;A,X,u);bibi0biooi(t,b-i;x,u)dtbioi(b;x,u)ifoi(b;X,u)>0;otherwise.需要注意的是，由于排列外部性的引入，在最终分配结果中其它广告的影响下，广告主提高出价不一定会提高最终的CTR，因此Myerson理论中的“单调分配”性质在排列外部性影响下是否成立需要重新论证。我们理论证明了上述“单调分配”的性质仍然保持，具体表述为如下引理1，完整证引理1:在排列外部性建模下，若拍卖机于任意广告主i以及其它广告主的出价向量bi，o(i;A(bi,bi),X,u)关于出价b;单调不减，或者称分配规则A为单调的。为满足IC、IR约束且最大化平台期望收入的最优拍卖机制，完整推导过程请参考论直接求解上述最优分配结果需要枚举参竞广告的所有可能排列结果，再进行选优，枚举过程的计算复杂度为P(n,k)=，线上场景下n50,k~5，枚举过程的高复杂度无法满足线上推理实验要求。因此我们考虑将拍卖机制进行参数化，通过数据驱动的方式进行学习。为了在端到端学习的过程中满足IC约束并保持优化过程度量化为每个广告主的ex-postregret，即广告主通过虚报出价b'可以获得的最大rgti(vi,X,u)=ma{ui(vi;bii,b-i;X,u)ui(vi;b;X,u)}.iiimamate<h|决策智能给定价值分布F中的L条采样，则广告主i的经验ex-postr4.生成式拍卖前文提到，现有的基于深度学习的拍卖机制受限于“先预估后分配”的设计范式，无法感知排列级外部性。我们提出的生成式拍卖引入了生成器-评估器的基本架构，模型整体架构如图2所示。生成器采用自回归模型，逐坑位感知已经决策完成的序列信息，生成广告序列。评估器捕捉广告序列中的商品相互影响，对精排阶段的单点pCTR结合序列上下文信息进行校准，在训练时为生成器提供奖励信号。在线推理时，仅部署生成器，以保证线上推理时延。此外，我们构建了PaymentNet模块，通过优化ex-postregret学习最优计费规则。4.1生成器根据理论推导的最优分配形式，生成器的目标为根据n个参竞广告，生成长度为k的广告序列A，以最大化期望虚拟福利。我们构建的生成器包括两部分：满足排列alimama·te<h|决策智能不变性（permutation-invariant）的集合编码器，以及满足排列同变性（permuta-不会改变模型输出的结果，排列同变性指的是输入元素的排列顺序改变会引起输出结果的排列顺序产生相同的改变。前者保证输入模型的参竞广告顺序不影响分配结果，后者在自动机制设计[7-9]的研究工作中广泛应用，[10]进一步论证了排列同变性可集合编码器旨在通过建模参竞集合粒度的外部性来增强每个广告的表征。编码器首先[h1,h2,""",hn]=self-attention(le1,e2,""",en]),-,aAkC)=P(aAC)P(aA2C,aA)…P(aAkC,aA1,aA2,-,aAk).我们使用GRU单元建模参竞广告ai在坑位t的条件概率：p(aiC,aAi,-,aAti)，st=GRU(st1,hAt),t=1,2,…,k.ztisoftmaa(MLP([st;hi)+ewini=1)i·其中w为可学习的参数，e始终非负，确保更高的虚拟价值获得更大的分配概率，与最大化虚拟福利的目标保持一致。我们接下来对在坑位t之前分配的广告进行mask操作，并基于概率zt进行采样以决策分配到当前坑位t的广告。重复k次GRU单元作用在每个state-ad对，且编码器满足排列不变性，因此解码器满足排34alimama·te<h|决策智能4.2评估器评估器的目标为预估分配结果A中每个广告的CTR(zci;A,X,u)，进一步在训练过程中为生成器提供奖励信号。为了复用精排阶段从用户行为序列中提取的用户兴趣信息，避免冗余建模，评估器在精排单点pCTRaAe(0,1k的基础上，预估排列外部性校准向量7Ae(0,2)K，再将二者进行逐元素相乘得到最终预估的CTR：OA=min(aAOA,1)。模型结构上同时引入了双向LSTM和self-attention外部性校准向量：7A=2o(r(r(HAs;HAf;HAb;hul))，具体实现细节请参考论文4.3计费模块通过蒙特卡洛采样近似计算积分时，每次采样都需要调用生成器和评估器，在实时推理时的计算开销过大。在前文中，我们将IC条件改写为每个广告主的经验ex-postregret等于0，这使得我们可以通过数据驱动的方式构建计费模块学习上述最优计费规则。计费模块输入包括广告分配序列的表征HAeRkxd，出价矩阵",2AKK表示生成器输出的广告分配概率，oeA,eA2,…,OAk表示评估器输出的外部性校准后的CTR。为了满足IR条件，计费模型通过sigmoid激活函数输出计费比P-o(r(r(IHA;B-;Z.o)))e(o,1k，再与出价相乘得到最终计费P=POb。4.4训练流程训练时将基于生成器-评估器架构的分配求解模块与计费模块的优化进行解估CTR。在评估器训练收敛后，我们冻结其参数，指导生成器训练。类似推荐系统重排工作GRN[11]的损失函数设计思路，我们将奖励函数拆解为两部分。Self-Reward直接刻画每个分配的广告带来的虚拟福利增量，即rAseilf-i·ei(b;A,u)；External-Reward刻画每个分配的广告带来的外部性影响，即类似VCG拍卖中的边际贡献的概念。二者相加即可得到分配广告aAi的整体奖励其中A;表示排除广告aAi后的广告序列。最后，我们使用PolicyGradient定义在生成器-评估器架构训练收敛后，我们冻结其参数，使用增广拉格朗日方法求解第2节最后定义的约束优化问题以优化计费模块，对违反IC条件施加惩罚项，增广拉Lp=-DSED(pi(As)ei(As)iekiekiek（1）更新计费模块的参数wuew=argminwpcp(wpold;dold（2）更新拉格朗日乘子λnew=old+p一rgt(upe").5.实验我们在淘宝展示广告场景的真实数据集上以及线上环境中评估生成式拍卖的有效性。36alimama·te<h|决策智能无外部性建模：GSP广义二价拍卖。集合粒度外部性建模：DNA[2]；SW-VCG[3]。排列级外部性建模：基于枚举实现的VCG拍卖；EdgeNet[12]；理论推导的最5.1离线实验离线实验使用的训练集和测试集分别包括不同日期随机采样的50万条和10万条拍卖日志，每次拍卖约有30个广告参竞。我们考虑广告主出价的条件分布分别服从均标包括平台收入指标RPM（RevenuePerMilleCTR以及评估机制IC条件的指IDlSDikui(i,b;,;u)IDlSDikui(i,b;,;u)实验结果如表1所示。可以观察到随着外部性建模从不考虑外部性到集合粒度外部性，再到排列级外部性，三个指标均趋向更优。此外，注意到与基于枚举法实现的理论最优上界相比，生成式拍卖（CGA）达到了95表1：离线对比实验。指标后的百分比增减量表示基线方法5.2在线实验我们在展示广告场景进行了线上A/B实验果表明，生成式拍卖在推理时延仅增加1.6%的情况下，平台收入指标RPM提高了alimama·te<h|决策智能3.2%，CTR提升1.4%，成交GMV提升6.4%，广告主ROI提升3.5%。实验结果表明生成式拍卖带来的收入提升不是由于直接抬高广告主计费，而是通过感知排列级外部性优化广告分配，实现更精准的广告触达，反映于CTR、GMV以及广告主6.总结本文从广告拍卖机制中的排列级外部性影响出发，打破“先预估后分配”的设计范式，针对在线广告场景提出了感知排列外部性的生成式拍卖。我们的理论结果表明，经典的Myerson拍卖在迁移到排列级外部性的形式后，仍然保持其最优性。基于这一结论，我们设计的生成式拍卖架构将分配和计费模块解耦。在具体实现上，我们构建了基于生成器-评估器的自回归生成式结构来优化分配，并将IC约束量化为最小化期望事后后悔来学习最优支付规则。工业级场景的离在线实验验证了生成式拍卖的有效性。值得注意的是，我们提出的生成式拍卖框架并不局限于特定的生成式模型。我们未来的研究工作将探索引入更加高效的生成式架构，并在拍卖机制中统一分配来[1]ArpitaGhoshandMohammadMahdian.Externalitiesinonlineadvertising.WWW’08.[2]XiangyuLiu,ChuanYu,ZhilinZhang,ZhenzheZheng,YuRong,HongtaoLv,DaHuo,YiqingWang,DaguiChen,JianXu,FanWu,GuihaiChen,andXiaoqiangZhu.Neuralauction:End-to-endlearningofauctionmechanismsfore-commerceadvertising.KDD'21.[3]NingyuanLi,YunxuanMa,YangZhao,ZhijianDuan,YurongChen,ZhilinZhang,JianXu,BoZheng,andXiaotieDeng.Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.KDD'23.[4]GuogangLiao,XuejianLi,ZeWang,FanYang,MuzhiGuan,BingqiZhu,YongkangWang,XingxingWang,andDongWang.2022.NMA:NeuralMulti-slotAuctionswithExternalitiesforOnlineAdvertising.arXivpreprintarXiv:2205.10018(2022).[5]RogerBMyerson.1981.Optimalauctiondesign.Mathematicsofoperationsresearch6,1(1981),58–73.[6]PaulDütting,ZheFeng,HarikrishnaNarasimhan,DavidParkes,andSaiSrivatsaRavindranath.Optimalauctionsthroughdeeplearning[7]ZhijianDuan,HaoranSun,YurongChen,andXiaotieDeng.Ascalableneuralnetworkfordsicaffinemaximizerauctiondesign.NeurIPS'24.[8]DmitryIvanov,IskanderSafiulin,IgorFilippov,andKseniaBalabaeva.O38alimama·te<h|决策智能auctionsthroughattention.Ne[9]JadRahme,SamyJelassi,JoanBruna,andSMatthewWeinberg.Apermutation-equivariantneuralnetworkarchitectureforauctio[10]TianQin,FengxiangHe,DingfengShi,WenbingHuang,andDachengTao.Benefitsofpermutation-equivarianceinauctionmechanisms.NeurIPS'22.[11]YufeiFeng,BinbinHu,YuGong,FeiSun,QingwenLiu,andWenwuOu.2021.GRN:GenerativeRerankNetworkforContext-wiseRecommendation.arXivpreprintarXiv:2104.00860(2021).[12]GuangyuanShen,ShengjieSun,DehongGao,DuanxiaoSong,LibinYang,ZhenWang,YongpingShi,andWeiNing.EdgeNet:Encoder-decodergenerativeNetworkforAuc

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024阿里妈妈技术年刊

文档简介

温馨提示

最新文档

评论

2024阿里妈妈技术年刊

文档简介

温馨提示

最新文档

评论

相关文档