推荐系统:构建、部署和优化的最佳实践-38正式版_第1页
推荐系统:构建、部署和优化的最佳实践-38正式版_第2页
推荐系统:构建、部署和优化的最佳实践-38正式版_第3页
推荐系统:构建、部署和优化的最佳实践-38正式版_第4页
推荐系统:构建、部署和优化的最佳实践-38正式版_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

推荐系统:构建、部署和优化的最佳实践执行摘要我们根据对零售、媒体、电子商务等领域利用推荐系统(recsys)的知名企业的技术负责人的一系列访谈,编制了本报告。腾讯和《纽约时报》等均参与了这项研究工作。本报告的目标受众包括目前正在构建或考虑为生产用例构建推荐系统的数据科学家和机器学习工程师。核心目标是通过提供该领域专家的实用见解以及阐明构建、部署和优化推荐系统的最佳实践,为开展更广泛的行业对话做出贡献。通过本研究确认的核心假设包括:构建相关推荐系统是一个艰难的过程整个行业对分享最有效的方法持开放态度,这对于该领域的发展至关重要因此,编制本报告旨在展示以下方面:行业内推荐系统实践的趋势预览推荐系统简史,介绍1979年到2009年期间,从学术试验到大规模商业成功的演进过程专家访谈内容的精选摘录对观察到的趋势进行总结,并指明未来的发展轨迹深度访谈内容的精选摘录,探讨推荐系统实践的背景信息和细微差别构建、部署和优化的最佳实践|执行摘要  2推荐系统的趋势预览毫无疑问,开源不仅仅只是行业内推荐系统的一种选择,它已经成为入场筹码了。开源生态系统中工具的互操作性对于降低项目风险至关重要,在考虑项目的整个生命周期时尤为如此。这种工具必须足够灵活,才能为试验和探索工作提供支持,同时还必须承认尚未出现的新技术。另一个需要解决的就是数据问题。自从2000年代中期提出“大数据”概念以来,在机器学习方面有一个众所周知的事实,那就是拥有的数据越多,数据的质量越高,构建出的模型往往就越有效。当然,这个道理同样适用于推荐系统。我们不能仅仅依靠卓越的算法来生成模型,还必须拥有良好的训练数据、用于推理的良好客户数据、可靠的反馈以及用于评估指标的仪器等。将有效的数据准备工作放在首位很可能成为一项恒久不变的要求。此外,随着推荐系统的用例大获成功,数据速率将会提升。此外,还涉及从数据中学习的问题,因为需要对指标进行优化才能取得成功。这甚至有助于将数据科学人员重新培养为"指标工程师",以全面了解生产中的推荐系统。除了上述两个问题之外,这项研究还提出了其他一些要点:对于那些刚刚开启推荐系统之旅者,专家们给出了几乎一致的建议:与其急于实施可能符合潮流趋势却复杂的机器学习模型,倒不如先从简单模型着手,想想自己真正需要的是什么。必须了解生产中使用的指标并全面了解手头用例的目标函数,这一点至关重要。尽管推荐系统过去被认为是单点解决方案,但它们正在深入地扩展到业务运营的方方面面。利润率历来微薄的垂直行业现正在使用推荐系统来发展其业务,同时提高客户的信任度和忠诚度。推荐系统的许多生产用例都对快速推理有一定的要求,通常要求在100毫秒内完成推理。随着更先进的人工智能(AI)技术的出现,它们的运行速度是否足以适应这些限制?硬件加速成为推动因素。与行业内推荐系统实践相关的热门话题包括使用特征存储库,利用图神经网络和模型蒸馏。经验教训:为系统升级和不断增长的用例制定路线图规划。尽可能利用有助于推动向前发展的技术,这样不仅能满足目前的扩展要求,而且还能满足未来几年内业务取得成功的需求。推荐系统:起源故事纵观行业内的推荐系统实践,会发现许多共同之处——业界面临共同的挑战,有着共同的顾虑,拥有共同的前瞻性研究领域。同样,纵观推荐系统的历史,随着新的团队开启各自的旅程,并开始从中学习,可以确定几十年来重复不断的一些主题。构建、部署和优化的最佳实践|推荐系统的趋势预览  3本节将回顾一些有助于建立推荐系统领域的著名项目。特别是,本节还会追溯从早期学术试验到大规模商业成功的演进过程。我们可以从过去的模式中汲取经验教训,也可以史为鉴,比较当代实践的问题和主题。20世纪90年代之前:Grundy、深度模型和相关著作早在20世纪90年代,就提出了上线运行的推荐系统的概念,用于密切追踪万维网的整体增长情况。让我们来回顾ElaineRich早期开展的名为Grundy的项目,她在卡内基梅隆大学从事博士研究时启动了该项目,随后她在德克萨斯大学奥斯汀分校担任教职工作期间继续研究该项目。Rich探索了如何使用原型来构建和泛化用户模型。该系统会向用户推荐小说(就像图书管理员那样),然后用户就推荐书籍的质量提供反馈。这项工作处于机器学习相对早期的阶段,但一些关键元素已实施到位,包括特征工程、数据训练,模型评估以及模型迭代改进方面的反馈。考虑到20世纪70年代后期AI社区的普遍看法,Grundy系统依赖于有关每个用户的相对深入的信息,同时试图最大限度地减少用户与系统的互动。20世纪90年代:协同过滤的兴起1992年,DougTerry因在XeroxPARC创建了名为Tapestry的第一个协同过滤推荐系统而备受赞誉。该项目解决了电子邮件过载时出现的问题。用户将对电子邮件进行标注以记录他们的兴趣,而该系统将从这些标注数据中进行学习。Terry在关于Tapestry的原始论文中解释说,其主要的技术创新是一种有效的过滤查询算法,具有可预测的语义。早在1992年,Terry就已经确定了协作过滤的关键点:需要大量的训练数据,用户担心安全和隐私问题,以及Tapestry尚未集成到任何新的"Web浏览器"软件这一事实。两年后,也就是1994年,PaulResnik和其他人在麻省理工学院(MIT)建立了GroupLens项目,如今该项目仍在明尼苏达大学继续进行。他们的工作以Terry的Tapestry项目为基础,为在线新闻组内容提供协同过滤,他们意识到,当人们在线阅读和回应新闻文章时,在很大程度上会忽视数据。与ElaineRich对Grundy秉持的观点不同,GroupLens工作利用的是相对浅层的大量数据。他们还使用开放协议,因此任何人都可以修改新闻客户端以整合评分并预测分数。麻省理工学院、Firefly音乐推荐系统和电子商务对推荐系统的兴趣在麻省理工学院传播开来,教授PattieMaes及其研究生UpendraShardanand开发了Ringo音乐推荐系统。值得注意的是,该系统具有更个性化的推荐功能,用户规模更是增长到2,000多名。Ringo的作者引用了Rich的用户建模原型,并使用基准测试来证明其核心算法的表现优于Resnik及相关人员的GroupLens项目。他们还指出,未来需要使用机器学习,例如,对数据使用聚类算法来帮助加快提供推荐结果并尝试进行内容建模。构建、部署和优化的最佳实践|推荐系统:起源故事  41995年,在随后的项目中,PattieMaes及其他人在麻省理工学院推出了Firefly音乐推荐系统。该公司作为一家风投支持的初创公司分拆上市,1998年被Microsoft收购。该公司从音乐推荐服务扩展到其他内容的推荐服务,例如书籍、新闻等,并在互联网发展的早期阶段将其技术授权给几家有影响力的公司使用,包括Yahoo!、ZDNet、Barnes&Noble、AmericaOnline和Reuters。可以说Firefly代表了利用机器学习从事电子商务的第一个推荐系统。这是早期推荐系统研究项目中第一个取得商业成功的项目,也是当今的社交媒体和电子商务内容推荐概念中最知名的项目。Netflix和Amazon内容推荐功能与此同时,作为1998年新成立的一家初创公司,Netflix提供DVD邮寄订阅服务,向一直以来由Blockbuster主导的录像带到店租赁市场发起了挑战。2000年,Netflix将他们的商业模式转变为"不限量畅享"的订阅服务,不仅扩大了内容库存,还增加了电影的会员评分制度和名为Cinemacch的基于协同过滤的个性化推荐服务。2001年,该公司引入了五星评分制度以进一步推动内容推荐,随后又引入了包含其他算法的生态系统,以帮助实现电影租赁过程的个性化和商品化发展。在此期间,Amazon也在尝试进行内容推荐。该公司的轰动之举是1997年中期在GregLinden的领导下“拆分网站”,开创了水平横向ScaleOut的先例以及后来发展成为云计算的一系列实践。此举带来的结果是,为确定客户互动特征而大规模收集机器数据的现象急剧增加,AndrewNg和其他人称之为数据和机器学习的"良性循环"。2003年,Amazon发布了GregLinden、BrentSmith和JerryYork的著名论文“A推荐:商品到商品的协同过滤”。2003年的这个时候,作者指出,有三种常见的内容发现和推荐方法,包括:协同过滤、聚类模型(例如,用于降维)和搜索。而他们所做研究工作的不同之处在于引入了商品到商品的协同过滤,因而产生了这样一句众所周知的话“购买这本书的人也购买了…”。换句话说,Amazon的推荐系统可以独立于用户数量或内容项目的数量进行扩展。他们优先进行快速推理,以便生成网上的推荐内容、大量数据集以及用于评估推荐成功与否的质量指标。当然,随着Amazon继续扩展规模并建立更多的业务线,他们为推荐系统驱动的电子商务树立了典范。这项研究工作的直接成果还包括云计算的起源、大数据实践和机器学习的商业用例。推荐系统和社交网络许多社交网络紧随其后,向新一代的通信平台应用类似的方法。LinkedIn就是其中一个例子,2006年JonathanGoldman加入的时候,该公司正处于纵向扩展的阶段。Goldman意识到网络分析的价值,因而构建了用于推荐“你可能认识的人”(PYMK)的推荐系统,尽管当时产品团队对此并不感兴趣。事实证明,这项功能在LinkedIn用户中非常受欢迎。起初,基于PYMK的内容的点击率(CTR)比其他方法高30%,因而推荐功能迅速成为这个面向企业的社交网络的用户体验的重要组成部分。构建、部署和优化的最佳实践|推荐系统:起源故事  52000年代后期,推荐系统在生产用例中已经相对普及了。其他类型的企业充分利用这项技术,例如在线约会系统、在线游戏和零售领域的企业。2009年前后,日常语中出现了“数据科学”一词,主流公司纷纷采用该实践,顶尖人才也被吸引到这个领域当中来。可以说,推荐系统及其在电子商务领域的价值在这场演进中发挥了不小的作用。Netflix奖2006年到2009年,Netflix精心策划了名为“Netflix奖”的推荐系统竞赛,各团队竞争排行榜上的排名,使用匿名的客户电影评分来优化推荐内容。虽然入围作品的表现明显优于Netflix算法,但由于各种原因,这些入围作品从未投入到生产环境中。即便如此,竞赛中领先团队的经验表明他们学到了有关以下方面的比较策略的大量信息:构建推荐系统,分析评分数据的陷阱以及机器学习工作最终在生产中体现出的整体价值。推荐系统的演进在不到二十年的时间里,推荐系统已经从帮助管理研究人员的收件箱的小项目发展成为推动领先技术公司收入的核心技术。通过这些早期项目确定的推荐系统的关键概念和要求包括:协作过滤个性化使用海量数据集,但没有特别有用的数据利用分布式系统实现扩展独立于用户或项目数量进行扩展同一用例中的用户建模、内容建模和其他机器学习推荐内容质量的定量评估安全与隐私问题快速推理的必要性在实践中进行有效推荐的困难将推荐内容的质量与业务收入挂钩成功指标,例如引入PYMK后LinkedIn的点击率涨幅观察刚刚介绍的这段历史带我们回到了上一个十年伊始。通过推荐系统的这段历史,我们对机会、挑战和发展方向获得了一些关键的观察结果,稍后我们将使用这些观察结果来分析当前的趋势。构建、部署和优化的最佳实践|推荐系统的演进  6机会:用户参与第一项观察结果是大量的机会。这是早期推荐系统研究项目中第一个取得商业成功的项目,也是当今的社交媒体和电子商务内容推荐概念中最知名的项目。推荐系统已通过多种方式用于增强各种活动的用户体验,包括电子商务、在线约会、新闻阅读器、销售线索、游戏、音乐应用等。从更广泛的范围来看,这个问题几乎总是与发现脱不了干系,而电子商务场景可以说明最常见的模式:导航:当客户确切地知道他们需要购买哪个小组件时,帮助他们导航到该特定小组件的页面,然后结账。在实践中,这种“拉取”情况相对来说很少见,尽管它对于优化用户体验(UX)设计很重要。搜索:当客户大致知道他们需要购买哪个小组件时,帮助他们搜索接近的项目,并让他们在结果集合中进行选择。当然,搜索范围很广泛,并且从历史上看,搜索功能更容易实施并引入到UX中。推荐系统:当客户正在浏览或参与其他活动时,通过个性化他们的网页浏览体验,向他们“推送”推荐的项目。这种客户场景在统计学方面更为常见,尽管实施起来比前两种UX场景更复杂、更微妙,效果却更好。例如,纵观Netflix业务模式的演进历史,可以发现他们的用户体验经历了以下阶段。1998年,最初他们的用户体验依赖的是导航和搜索功能。不久之后就引入了推荐和个性化功能。多年来,在推荐系统越来越多的独特用例的支持下,个性化程度越来越高。然而,采用推荐系统是需要时间的:一开始,Netflix推荐20%的精选内容,随着时间的推移,这一比例上升到80%。当组织采用AI应用程序来增强其在线业务活动时,这条弧线开始呈现上升趋势。从简单模型着手,分阶段加入更复杂、更微妙的方法。最终,给定用例采用的推荐系统不止一个,而可能有若干个。在整个发展过程中,取决于推荐内容的参与程度从“少数”用户体验转变为“大多数”用户体验。挑战:推荐内容的质量第二项观察结果是诸多挑战:让合适的推荐系统有效地运行绝非易事。很难获得用于训练模型的良好数据。人们的喜好发生了巨大的变化。例如,价值最高的广告展示位置的类别之一是高端汽车。新款豪车销售的推荐内容往往在竞价/询价广告网络中表现良好。换句话说,想要购买新款豪车的用户往往会点击相关广告,从而将其转化为价值。可一旦用户购买了新车,他们可能根本不想点击相关广告。原本在一段时间内一直表现良好的推荐内容突然变得很糟糕。由于缺乏关于谁购买了什么商品以及何时购买的信息,广告推荐系统具有质量方面的固有风险——这个问题延伸到了推荐系统的大多数应用领域。对推荐内容质量的抱怨可以追溯到1979年ElaineRich的Grundy系统,自那以后就没有停止过。虽然在给定时间点向给定用户推荐某些商品的做法是可行的,但要在给定时间点向给定用户精确推荐所需的商品,同时避免推荐任何他们不想要的商品,这项工作还是非常具有挑战性的。即便如此,用户在判断自动化系统的好坏时往往会用到这些标准。构建、部署和优化的最佳实践|推荐系统的演进  7而且,推荐是一把双刃剑,当推荐内容太过相关时,有些人会认为用户体验令人毛骨悚然。“恐怖谷理论”这一概念描述了美学和设计中的一个问题,它认为自动化正在入侵人类物种,反过来又引起了观察者的反感。这可能会造成两难境地,因为相关的推荐会被视为系统对用户“太过了解”。对推荐系统中数据隐私的考量可以追溯到1992年在XeroxPARC推出的DougTerry。当然,机器学习在推荐系统的整个发展历史中发挥了如此重要的作用,并且作为一个领域,机器学习在同一时期内也在经历快速的演进。思考这样一个问题,机器学习在很大程度上利用历史数据或综合数据来泛化模型,以便稍后在不同的上下文中应用。在实践中,这与推荐系统的需求几乎完美契合。但同时也带来了一个陷阱,那就是当机器学习模型从训练数据泛化时,它们也往往会丢失上下文信息。很难解释为什么会向给定用户提供特定的推荐内容。当数据团队需要评估推荐内容的质量或者对使用机器学习模型的工作流进行故障排除时,可能会面临严峻的挑战。叙述:推荐系统用例的最佳实践第三项观察结果是大量叙事。在整个发展历程的早期阶段,在形成人们对推荐系统技术的普遍认知方面,少数公司的叙述起到了推动作用。虽然从技术角度来看这是很有趣的现象,并且这种做法往往被行业分析师视为"最佳实践",但总的来说,对于推荐系统用例而言,大型用例的叙述并不总是最佳建议。早期的研究工作往往从信息检索的角度来评估推荐系统,其中模型的好坏与否取决于其准确率和召回率指标。由此带来的一个后果是,ElaineRich的深度用户建模几乎已被人遗忘了。此外,对大规模生产中的复杂系统进行故障排除和调整时,这种学术观点并不是特别有效。Netflix取得的商业成功和后来采用的类似做法强调了非负矩阵分解的使用,这种叙述与ApacheHadoop等大数据工具在当代的普及率不谋而合。最近,随着深度学习的普及,推荐系统实践已转向神经网络和嵌入领域。这些叙述和趋势有助于向更广泛的受众传播领先技术公司的创新成果。此外,随着人们对使用更巧妙的方法解决日益复杂的挑战的需求不断增长,这些叙述和趋势还有助于追踪人们对数据科学的想法的演进。形成良好的推荐系统实践需要潜在的驱动因素和权衡取舍,而这些叙述往往也会混淆两者。我们将在以下章节中更详细地探讨这些驱动因素和需要权衡取舍的问题。总体而言,为了使推荐系统发挥有效的作用,显而易见数据团队必须平衡相互竞争的优先事项与关注问题之间的关系。这可不是简单的任务。在推荐系统实践中,这些需要权衡取舍的问题之间的关系十分紧张,其中一些问题在可预见的未来可能会继续受到关注。有些问题可以通过更好的工具来解决。接下来,我们将思考行业内的推荐系统团队在实践中是怎么做的。构建、部署和优化的最佳实践|推荐系统的演进  8访谈:关键摘录我们与业内推荐系统领域的精选团队与个人合作,和负责推荐系统工作流程的技术主管进行了交谈。为简洁起见,以下各节摘录了完整访谈中的要点。在每次访谈中,我们都探讨了有关其团队的发展历史、团队的工作重心和职责以及他们如何解决团队训练等问题。我们特别询问了他们在数据速率和规模方面的推荐系统实践,用于数据准备和特征工程的方法,他们如何选择合适的技术和框架,用于评估和调整模型的手段,以及他们为优化推荐系统所做的工作。我们还征求了那些刚刚踏上推荐系统之旅的客户的一般建议。让我们来探讨这些访谈内容之间的共同点,以及行业内不同实践之间形成对比的方面。在可能的情况下,我们将使用recsys历史中的关键点作为此次分析的切入点。MonicaRogati,独立顾问人工智能(AI)和数据科学顾问,创建了LinkedInPYMK推荐系统的首个机器学习模型MonicaRogati拥有卡内基梅隆大学(CMU)计算机科学博士学位,研究领域包括应用机器学习、自然语言处理(NLP)和可穿戴设备。她是LinkedIn数据科学团队的早期成员,致力于研究推荐系统和其他数据产品,后来成为Jawbone的数据副总裁,组建并领导了一支由数据科学家和工程师组成的专家团队。Monica目前是一名独立顾问,“AI需求金字塔”图中经常提及她的名字,该图为世界各地遭到误解的数据科学家提供了盾牌。在推荐系统的规模和数据速率方面,Monica构建了各种各样的系统,从零数据系统到将数亿用户与尽可能多的项目匹配的系统,应有尽有。Monica解释说,“高端系列的系统吸引了大部分的注意力,因为它可以解决长尾问题,并进行个性化的推荐,感觉就像魔术一样神奇(或者感觉令人毛骨悚然,具体取决于你的观点)。推荐系统面临的主要挑战在实践中,推荐系统面临的主要挑战是什么?最严峻的挑战之一是为给定用例确定合适的指标和目标函数。“数据科学家最终将成为‘指标工程师’”。如果可能,这是实现自动化的过程中最艰巨的数据任务之一。Monica告诫从业者要谨慎地思考他们试图更大限度提高的指标,即推荐系统的目标函数。目标函数是指用例尝试实现的目标的代理。“当使用你的系统影响目标函数后,它仍然是有效的代理吗?”由于激励机制的一致性,有没有办法玩弄目标函数,无论是故意地还是无意地?问题有多难解决,就性能本身而言,你期望达到的上限是什么?例如,评分者间对于训练数据的同意程度如何?Monica还建议选择合适的技术来构建推荐系统。"除了解决问题的可能性之外,我还牢记这几条标准:易于集成性、成熟度和保留可选性。推荐系统最重要的衡量标准之一就是易于与公司当前的工作流程集成,并将努力与结果的比例保持在尽可能低的水平。构建、部署和优化的最佳实践|访谈:关键摘录  9“在过去几年中,数据工具和框架呈爆炸式增长,我很高兴看到其中许多工具和框架确实易于集成,当工具在特定环境中得到验证和信任之前,无需对工作流程进行重大更改。我最常向工具构建者提出的问题是“你的特洛伊木马是什么?为了让从业者方只需付出很少的努力或者无需付出任何努力就能采用推荐系统并获得信任,你解决的一个问题是什么?关键是在开发生命周期的早期降低技术选择方面的风险,并为突发事件制定备用计划。“最有效的工具包括营销中可能的退出路径,并且除了易于集成之外,还提供数据导出工具。这往往与开源技术非常契合:当优先考虑"易于集成性"时,替换一个组件可以"保留选项",同时最大限度地减少中断并保持努力与结果的比例。启动推荐系统项目“我在IBM研究院实习时从SalimRoukos那里学到了一些东西:在开始使用机器学习系统之前,我会花一个小时的时间标记数据并完成算法工作。成为算法工程师后,你会发现无数的数据质量问题,确定问题定义不清或者你应该放弃推荐时的一系列情况。为了评估模型,MonicaRogati介绍了有助于降低项目风险的流程,由三个步骤构成:制定简单的基准构建要求宽松的线下过滤器在缓慢加速的条件下进行A/B测试第一步是分析数据,然后实施合理但简单的基于规则的基准。即使已有实施到位的模型,无论如何也要尝试此步骤。简单的基准易于调试、可靠、快速,当它们几乎与当前模型一样有效时,应该成为你的首选模型。使用“要求宽松的线下过滤器”改变传统的线下模型评估概念。检查模型是否会导致大规模的中断或非预期损害,以及从宽松意义来看其结果是否有前景。目标不一定是超越现有系统——即使你一开始就超越了简单基准也没有什么可奇怪的。最后,在生产中使用A/B测试对经过训练的机器学习模型进行真实的评估,但要在缓慢加速的条件下进行。例如,先设置1%,然后是2%、5%、10%、20%,以此类推,执行每一步时都要确认其指标。留意操作问题、缺少的特征、意外损害,以及通常可能不会在线下或小规模范围内出现的任何问题。机器学习模型全面运行后,特别是对于推荐系统而言,通常需要经历“预烧期”,新奇效应才会消失。孔祥庭,腾讯腾讯的专家工程师,负责广告推荐系统的设计和开发,主管着腾讯广告和深度学习平台的运行孔祥庭带领腾讯团队专注于广告推荐系统,负责广告训练平台的优化。该平台的组件包括线下特征工程、训练平台、线上推理系统、线上特征工程和游戏平台。他们致力于模型训练、优化和推理,可应用于多种业务场景中,如广告、金融科技和网络数据挖掘。鉴于他们的责任范围和涉及的技术,为了培训团队,他们会组织每周一次或每两周一次的技术分享会。构建、部署和优化的最佳实践|访谈:关键摘录  10孔祥庭建议说,“广告推荐是一个逐渐筛选的过程。整理阶段包括回顾、预排序和排序。每个阶段都有不同的要求。模型的快速调查和迭代更是对训练性能提出了更高的要求。在数据速率和模型复杂性方面,需要考虑一些权衡取舍的重要问题。一方面,为了提高模型质量,可以增加训练/测试数据量并使用更复杂的特征集。另一方面,这些做法也往往会延长模型训练时间并限制模型的更新频率。“随着样本数据训练数量和样本特征的增加,广告推荐的准确性得以提高。但这样一来,训练时间会延长,且模型的更新频率会受到影响。”腾讯团队使用HugeCTR作为推荐系统的训练框架。HugeCTR被集成到广告推荐平台中,使得模型训练的更新频率更快。此外,训练期间可通过使用更多的样本来提升推荐效果。在整体的技术选择方面,孔祥庭介绍了处理开源项目时的优先事项。“我们选择的技术或框架必须与社区生态兼容,这样我们才能更好地进行后续升级。”利用最近的研究成果就目前在实践中利用的研究成果而言,腾讯最近在广告推荐训练系统中集成了压缩稀疏行(CSR)管道。“生成CSR类型的训练数据后,可以直接在GPU上读取训练数据。通过我们对数据处理流水线的优化,CPU负载大幅降低,GPU利用率得到显著提高。”面对刚刚开启其推荐系统之旅的团队,孔祥庭建议在面对快速发展的形势时保持稳定的路线。“选择成熟且与社区生态兼容的技术框架,方便进行后续的系统升级。”FelipeContratres,MagaluMagalu(MagazineLuiza)个性化群体领袖FelipeContratres领导Magalu的个性化团队,该团队负责运行推荐和搜索平台,为其平台和新的推荐系统模型创造新的功能。面对刚刚开启其推荐系统之旅的团队,Felipe建议,“从简单的方法着手:许多问题都可以通过简单的技术轻松解决,从而降低系统整体的复杂度。当需要采用更先进的技术时,选择成熟的包或框架来集成到你的工作流程中。”Felipe还建议尽快在生产环境中测试新的解决方案。“尝试尽快将你的模型投入上线,与真实客户一起进行测试,而不是尝试在线下过度预优化。他们的团队一直在研究将表格事件与文本和图像矢量相结合的多模态特征。“我们正在考虑测试GabrieldeSouzaP.Moreira等人在最近的论文中提出的技术。他们还提出了基于会话的启发式推荐系统,可用于自定义会话之间的用户体验。根据先前的研究成果结合Magalu的商业知识,创建了这个最新的基于会话的推荐系统。构建、部署和优化的最佳实践|访谈:关键摘录  11黄军,美团美团高级技术专家,负责领导美团机器学习平台的训练框架团队。美团表示,“我们的使命是:‘让每一个人吃得更好,活得更好’”。作为中国领先的生活服务电子商务平台,美团的业务围绕“美食+平台”策略展开,以“吃”为核心。美团在中国运营多个知名的移动应用,包括美团、大众点评、美团外卖等。旗下业务涵盖餐饮、外卖、打车、共享单车、酒店和旅游预订、电影票务及其他休闲娱乐和生活服务等200多个品类,覆盖全国2800多个市县。美团的训练框架团队在大规模CPU/GPU集群中部署了高性能的分布式深度学习训练框架。对于推荐系统而言,此框架支持使用约1000亿个稀疏参数和约1000亿个样本进行分布式训练。黄军解释说,“最近,我们设计了基于NVIDIAA100的新一代推荐系统训练系统,大大提高了训练效率和模型的复杂度。在选择合适的技术方面,黄军描述了开源项目的优先事项。“这项技术需要足够先进、开放并兼容生态,这样才能在它的基础之上更好地满足我们的内部需求。我们的团队目前正在构建主要基于开源技术的系统。同时,我们非常高兴将我们的工作成果回馈给开源社区。”硬件在他们的策略中起着至关重要的作用。黄军解释说,“起初,我们基于CPU体系架构优化了训练框架,但随着模型的复杂度越来越高,很难对训练框架进行深度优化。现在,我们正致力于将NVIDIAHugeCTR集成到基于A100GPU的训练系统中。在基于CPU的训练系统中,一台配备8个A100GPU的服务器可以取代数百名工作人员。”面对刚刚开启其推荐系统之旅的团队,黄军建议,“充分了解公司当前的基础架构和业务状况,根据这些信息设计系统和流程。在选择技术堆栈和框架时,需要考虑每个系统的成熟度、社区生态、可扩展性和集成友好性。”ChrisWiggins,《纽约时报》《纽约时报》首席数据科学家ChrisWiggins领导《纽约时报》的数据科学团队,该团队负责为新闻编辑室和业务问题开发和部署机器学习解决方案。关于推荐系统在当代新闻出版中的作用,Chris解释说“,订阅者对《纽约时报》的编辑评判很感兴趣,因此推荐系统意味着提升读者的信任度和忠诚度,确保我们以扩展编辑评判版面的方式实现此目标,而不是取而代之。”推荐系统有助于增强各种不同的新闻服务,包括“编辑精选”“、最受欢迎的文章”、“智能生活”、Cooking应用、移动应用中的“ForYou”个性化选项卡、“YourWeeklyEdition”时事资讯等。Chris建议,在选择合适的技术方面,他使用KrepsLaw——以ApacheKafka开发者JayKreps命名的系统。“将研究成果投入生产的诀窍:阅读最新出版的3-5种刊物,注意他们都声称要解决的愚蠢而简单的问题,然后实施即可。”构建、部署和优化的最佳实践|访谈:关键摘录  12然而,相比之下,“作为一种策略,这在很大程度上取决于我们的产品和新闻编辑室合作伙伴的目标,他们对‘x’(上下文信息)、‘a’(考虑推荐的可能的行动、文章或资产)以及‘y’(我们试图优化的成果)是经过深思熟虑的。”《纽约时报》的推荐系统通过名为Samizdat的平台提供,该平台处理扩展以及隐私/合规性问题。从本质上讲,该平台使用读者的相关信息,对解释过的隐私法规进行分析,然后输出有关如何处理该读者的互动的说明。因此,他们的基础架构团队能够对多个地区的数据法规的解释进行调整,并简化整套产品中的更改。他们采用这种做法管理许多推荐系统模型。面对刚刚开启其推荐系统之旅的新团队,Chris建议,“我倾向于听取其他人的建议,例如KrepsLaw,当然还会参考MonicaRogati的“AI需求金字塔”信息图。《纽约时报》特有的成功源自于数据科学家和软件工程师之间的紧密合作与共同创造,他们并排坐在办公桌前(在办公室里办公时),结合使用Python(特别是数据科学家)和Go(特别是我们的软件工程合作伙伴)进行编码,从而制定出在“统计学和服务水平协议”方面均表现良好的方法。推荐系统面临的主要挑战《纽约时报》的优先事项——例如与受众建立信任,在内容方面更深入、更细分的模型等——向往往运行良好的机器学习模型提供信息。“我们取得的一个成功是从预测方法转向规范方法,例如,可以在我们支持的单独版面和内容池中部署结合上下文的不同的Bandit算法。”通过推荐系统推荐的个性化内容是对编辑评判的补充,这决定了读者更关注新闻报道中的哪些故事。“《纽约时报》的算法策展用于网站和应用的指定部分。我们使用它来选择手动策展效率低下或难以手动策展的内容,例如主页的“智能生活”部分或个性化时事资讯“YourWeeklyEdition”中的内容。Chris解释说,“使用结合上下文的Bandit算法来推荐文章时,这些算法擅长于快速适应读者不断变化的喜好并有效地探索新选项。当然,在实践中,生产环境中复杂的推荐系统可能需要执行很多步骤,因此结合上下文的Bandit算法可以被视为工具包中用于构建推荐系统工作流程的构建块,对于个性化推荐过程的上游出现的内容模型而言尤其如此。“只需构建简单的结合上下文的Bandit算法,即可达到你所需的性能。在内容流失的新闻业务中,你希望在预测性与可解释性之间取得平衡,从而帮助你了解如何推荐内容。”展望未来,Chris指出,“我们总会发现新的问题,并尝试在新闻业的环境发生变化时解决这些问题。。”他建议关注,因为他们的团队将继续记录其推荐系统之旅。KannanAchan,WalmartGlobalTech领导WalmartGlobalTech的个性化和推荐系统团队KannanAchan领导的团队负责向WalmartGlobalTech的客户提供个性化体验。“我们所做的工作就是在给定页面展示一整页的个性化推荐内容”。可以是创意横幅,可以是商品轮播,也可以是CAD。个性化团队需要一次性解决所有问题,因此我们一次性推荐整页的内容。他们的团队分为三个小组,分别负责以下工作:了解客户、了解内容和在线推理。后者需要用到运行时执行的客户特征和内容特征的叉积。关注点分离为组织提供了灵活性,正如Kannan所解释的那样,“这样确实有助于我们扩展规模、开展协作和解决许多有趣的问题。构建、部署和优化的最佳实践|访谈:关键摘录  13推荐系统使用Walmart网站和Walmart门店的全渠道数据。纵观推荐系统用例的历史,你会发现全渠道数据一开始用于分析目的。后来,公司意识到需要更深入地了解客户,同时还需要充分考虑到数据隐私问题。“我们确实发现,有许多客户的购物渠道多种多样。”全渠道数据场景之所以这么复杂——同时这也是网店和实体店零售环境中面临的问题——是因为客户数据中存在称为“意图”的方面。例如,客户可能每周都会去杂货店购物,而在其他情况下,客户可能考虑一次性购买商品,例如电视。推荐系统发挥作用的方式可能会因意图而异。“在推荐系统的应用领域方面,传统上人们认为推荐系统是包含用户和评分的矩阵,即协作过滤器。查看研究结果,你会发现我们必须提供一些更传统的内容,例如“浏览过此商品的人还浏览了……”,但当客户将商品加入购物车的那一刻,我们还必须推荐配套商品。启动推荐系统项目Kannan建议从业者投入时间来构思和真正理解给定用例的目标函数,这与MonicaRogati的建议不谋而合。由于季节性等复杂因素,理解数据的上下文就显得更为重要了。“例如,购买德州西红柿的人也会购买墨西哥辣椒,但在其他地方情况并非如此。他们可能会买一个梅森罐来进行腌制,对吧?”同样,“推荐系统不是一刀切的解决方案。每个推荐系统都有其自己的目标函数。在一定程度上这是由业务策略驱动的。”从概念的角度来看,Kannan建议采用整体方法。“仅展示一页的个性化内容是远远不够的。我们只是在某种程度上将其视为张量,并且我们还必须对整个会话进行个性化定制。在这种情况下,我们的第一要务是了解客户。推荐系统团队致力于了解客户访问网站的原因,然后让客户发现他们在该网站上可能会选择的商品。“这就是发现漏斗中推荐系统真正发挥作用的地方,即帮助提高转化率。更重要的是,纵观推荐系统之旅,我们还开发了让客户再次互动的模型。”此外,请认真思考这样一个问题,在互动的每个阶段客户在做些什么。“零查询是电子商务领域最常见的问题,只有借助推荐系统才能解决这个问题。我是说当主页上出现零查询的情况时,你只拥有客户背景信息、对客户的了解情况,也许推荐URL就是最有效的工具,但你必须展示一整页的个性化推荐内容。”相比之下,在Netflix奖中有人提出将recsys挑战作为单点解决方案。在选择合适的技术方面,Kannan提出了这样的建议:“不要逼近问题本质,而是要制定出解决方案。”他还介绍了在模型复杂度和所需响应时间之间需要权衡取舍的问题。“”由于预计响应时间是40-50毫秒,因此对线上运行的内容有着重大影响。通过这种方式可以确定我们选择的技术类型。有时,我们甚至更愿意使用简单的逻辑回归或梯度提升决策树,因为它们确实有效,它们的可解释性是可以预料到的,并且我们可以合理地控制延迟。在机器学习基础架构方面,他们的团队依赖于开源代码。“我们完全依赖于开源代码。例如,我们会大量用到PySpark、TensorFlow、Airflow和Kubernetes等开源代码。毋庸置疑,NVIDIA的开源代码NVTabular、HugeCTR等对我们如何看待未来的工作流程产生了重大影响。此外,还有图神经网络模型,该模型为线上杂货店中的所有替代品提供支持。构建、部署和优化的最佳实践|访谈:关键摘录  14推荐系统面临的主要挑战对于WalmartGlobalTech的推荐系统而言,硬件发挥了至关重要的作用。“延迟并非小事。如有延迟,我们将无法构建复杂的模型并在线进行评分。通常,我们会使用简单的回归——只需30-40毫秒就能推理出来。但后来我们开发出深度学习模型,这些模型的前景相当看好。借助GPU,你将能够在生产环境中无缝测试和扩展深度学习模型,确实带来了很大的变化。团队密切关注的另一个方面是隐私和公平。“我们总是能意识到隐私和公平,因为我们很严肃地对待这个问题。”这正是结合上下文的Bandit算法感兴趣的问题,推荐系统也因此引起了人们的注意,其原因与《纽约时报》解释的原因相似。Kannan解释说,“我们在探索/利用方面看到了巨大的吸引力,因为探索/利用是众所周知的问题。结合上下文的Bandit算法和丰富的奖励函数建模就是良好的回报。漏洞利用框架有助于增加收入,但也会造成显示偏差。我们在论文中指出,漏洞利用框架对业务非常有用,并且还有助于改进我们的模型,因为它试图消除数据集的偏差。再解释得更详细一点,这种方法其实就是使用结合上下文的Bandit算法作为构建块,有效的学习单元策略性地位于工作流程中。“传统上,推荐系统可能显示前10个候选结果,用户只与前10个候选结果进行交互,而显示在底部的候选结果或者前20或30个候选结果永远都没有这样的机会——除非某些商品缺货。但如果使用探索/利用模型,即使在某些方面表现良好,我们也会持续不断地在线学习,但方差很高时,我们会迅速显示出来,以确保它是否运行良好。这同样适用于模型的某些方面表现糟糕的情况,但如果你不确定是哪些方面出了问题,我们会显示更多信息,确保清除问题。我们使用汤普森采样的变体,有原则地完成这项工作。”在其他研究领域,该团队正在迭代深度学习应用。“这是我们研究的一个重要领域——使用知识嵌入和深度学习模型进行在线推理。NVIDIATriton推理框架设计得很巧妙,它使我们能够毫不费力地在基于CPU的模型和基于GPU的模型之间无缝切换。我们使用“广度网络和深度网络”,在某些情况下,我们有丰富的表示形式,此时GPU开始发挥作用,但当我们没有更深层次的表示时,“广度”网络就会开始发挥作用。这些网络实施起来需要花费时间,但这个框架确实加速了实施过程。展望未来,Kannan提到了用于增强其推荐系统的另外两个技术领域。“我认为自监督学习是很有前景的一个研究领域。当你查看网站时,我们知道有人浏览了网站。也许客户花了10分钟把商品添加到购物车,花了30分钟结账,我们是了解客户购物过程的。而门店数据则只有“此客户购买了这件商品”。我们真的不知道是什么因素促使他们购买商品的,我们甚至都不知道商品的订单。以前,团队需要关联全渠道数据,试图将这两个数据源结合到一起。“一个数据源只显示购物篮中的商品,另一个数据源则显示明确的意图以及意图是如何转化为行动的。”自监督学习提供了跨数据源协调对客户的了解情况的方法。换句话说,就是从一个数据源进行采样,以预测另一个数据源的相关方面——有人可能会想到这是盲人摸象(四个盲人比较他们摸同一头大象后得出的结果)的优化版本。生成对抗网络则代表了无监督或半监督管道增强数据源和整体学习的另一种方式。“我们去年投资研究的领域是使用GAN进行推荐。我们在对抗网络方面取得了一些良好的成果,特别是在隐私和攻击迁移领域。”构建、部署和优化的最佳实践|访谈:关键摘录  15EvenOldridge,NVIDIANVIDIA的NVIDIAMerlin™工程主管Oldridge还领导NVIDIA的NVIDIAMerlin工程团队。Merlin是一个开源框架,为构建在GPU上加速的端到端推荐系统提供支持。其功能包括支持数据预处理、特征工程和训练深度学习模型,并且支持运行生产推理。甚至这样描述,“Merlin是NVIDIA专用于推荐系统的框架。一开始,Merlin专用于基于深度学习的推荐系统,我对这项工作充满热忱。Merlin的功能可满足客户在其整个项目生命周期中的需求,这一点与业内recsys专家的建议(即从简单模型着手)相呼应。“借助Merlin,[我们]提供了[一个]框架,以便你可以从简单模型着手,然后随着时间的推移构建更复杂的模型。这是该领域存在的差距。目前很难从传统的机器学习过渡到深度学习,在这个阶段,许多公司都在苦苦挣扎,他们不得不启动完全不同的管道来完成基于深度学习的工作,这个过程是很复杂的。”此外,价格也很昂贵,正如MonicaRogati及其他专家所告诫的那样,项目路线图中的不连续性可能会转化为风险。Even补充说,“实际上我们正在努力解决的挑战是,团队如何构建有效的推荐系统。怎样才能让推荐系统使用起来更简单?我们如何在管道的每个阶段提供解决方案,而该解决方案不一定是最终的解决方案。“如今,推荐系统的开发和部署是一项非常复杂的任务。构建机器学习模型本来就已经很复杂了,recsys则更为复杂。不过,这种情况正在发生变化,我们目前重点研究Merlin,力求将其打造成为易于使用、易于部署的高性能框架。”需要谨记此方法的一个方面,那就是必须为每个客户制定路线图;今天提到的要求并非一成不变。“HugeCTR团队所做的工作表明,NVIDIA专注于研究推荐系统的高端领域。他们目前正在研究的项目是100TB模型。该模型的规模比我们所知道的任何客户都要大,但客户很快就会需要用到规模如此之大的模型了。当你使用规模如此之大的模型时,你必须聪明地思考,并且客户会研究团队在开源空间方面所做的工作和发布的内容,并试着将研究成果集成到产品中,同时他们也会向其他团队提供指导。有些团队只是通过将技术集成到自己的堆栈中这种方式来采用该技术。在这一层面,我认为我们正在进行的研究主要专注于高端领域,这项研究工作是很有意义的。涉及推荐系统高端领域的业务有很多。使用推荐系统的公司在规模上游很大的差异。而高端领域所需的计算会使低端领域所需的计算相形见绌。”解决重要问题构建可满足复杂需求的机器学习模型是一项艰巨的工作。如前所述,仅构建模型是远远不够的,到目前为止,人们已经不太关注典型的机器学习工作流程了。纠正这种差距对于开源生态系统的蓬勃发展尤为重要。“你如何将这些模型投入生产?对许多公司而言,这是一个巨大的障碍。将模型投入生产绝非易事,特别是深度学习模型,但即使是用于协作过滤的基本模型,投入生产后也需要进行适当的监控,确保它不会偏离轨道,并确保你追踪的所有活动均符合预期。整个流程非常复杂。因此,[Merlin]团队研究的第二个问题是确保模型在生产环境中易于部署。Merlin团队的另一项优先要务是降低推荐系统实践在这些方面的风险。构建、部署和优化的最佳实践|访谈:关键摘录  16启动推荐系统项目面对刚刚开启其recsys之旅的人,Even建议,“我认为关键在于从简单和迭代模型着手。我认为,数据科学家倾向于构建最新、最出色的深度学习模型。而我们只需要从更直接、简单的模型着手即可。根据我的经验来看,有效的数据比有效的模型更有用,这是数据科学家们费了一番苦功才汲取到的经验教训。但我觉得普遍的做法是,随时维护和清理数据,然后经常执行特征发现工作,相较于‘我将尝试使用最新的模型’,这种做法带来的好处更多。”在职业生涯的早期阶段,Even为某个流行的在线约会系统构建了推荐系统。他敦促从业者将流程实施到位,以便他们了解收集到的数据、衡量的指标、部署环境以及用例的目标函数。“这就是我们使用的模型以及我们进行迭代的方式,并且我们将会输出此类模型。”然后与负责生产的团队密切合作,了解他们的流程、约束等。概要这些访谈内容说明了行业内不同的推荐系统实践之间有很多共同点,即使纵观不同的业务垂直领域:零售、新闻、社交媒、游戏等,也会发现许多共同点。首先,开放源代码已成为行业内推荐系统的重要组成部分。开源生态系统中工具的互操作性对于降低项目风险至关重要,在考虑项目的整个生命周期时尤为如此。工具必须足够灵活,才能为试验和探索工作提供支持,同时还必须承认尚未出现的新技术。另一个需要解决的就是数据问题。“大数据”概念出现在2000年代中期。从那以后人们普遍认识到,生产环境中的机器学习拥有的数据越多,数据的质量越高,构建出的模型往往就越有效。当然,推荐系统的情况也是如此。我们不能仅仅依靠更好的算法来改进模型;我们还需要拥有良好的训练数据、用于推理的良好的客户数据、良好的反馈以及用于评估指标的仪器等。将有效的数据准备工作放在首位很可能成为一项恒久不变的要求。请注意,随着推荐系统的用例大获成功,数据速率将会增加。对成功指标进行优化时,不断从数据中学习也很重要。为了全面了解生产中的推荐系统,可以考虑将数据科学人员重新指定为"指标工程师"。以下要点总结了这些专家访谈中强调的其他关键点。要点1:从简单模型着手在启动recsys之旅方面,专家提供的建议是一致的,那就是从简单模型着手。想想自己真正需要的是什么。与其急于实施可能符合业内潮流趋势却复杂的机器学习模型,倒不如尝试使用基于规则的简单基准进行模拟。遵循测试、测量和迭代的流程。然后,你的解决方案可以从简单模型进阶到复杂模型,并且风险更低。PeteWarden写了一篇介绍相关实践的文章——从JetPac开始一直介绍到Google,称为“绿野仙踪”,团队首先模拟提议产品的机器学习组件,并且在现场观众面前以交互方式执行。同时,从使用众所周知、经过验证的技术着手。优先考虑易于集成性,并将努力与结果的比例保持在尽量低的水平。构建、部署和优化的最佳实践|访谈:关键摘录  17要点2:了解目标函数确定成功指标,全面了解手头用例的目标函数。这是专家们重复次数最多的建议。要点3:扩展到商业模式回顾Netflix奖(2006-2009年),推荐系统面临的挑战就是被作为单点解决方案制定。换言之,就是考虑使用推荐系统来提供项目排名列表。有输入和输出,中间提供“黑匣子”解决方案。2009年以来,我们已经看到了生产中的推荐系统是如何改变商业模式的。例如,人们通常认为杂货店利润微薄。在打造杂货店配送商业模式方面的早期尝试举步维艰。引入推荐系统后,可以应用机器学习,不仅在联系客户时很有用,还可以用于深入了解商业流程。推荐系统现在面临的问题是,整个用户体验的个性化范围变得更加广泛了。他们制定应急方案,并帮助优化业务的其他方面。以《纽约时报》为例,机器学习解决方案为企业的经济优势提供支持,而推荐系统则用来提高读者的信任度和忠诚度。我们以扩展编辑评判版面的方式实现此目标,而不是取而代之。起初人们对机器学习的使用是存疑的,但在短短几年的时间里,机器学习已经转变为核心业务策略。在此期间,硬件的演进,以及更复杂、功能更强的机器学习技术的发展,改变了人们对企业文化的这种看法。要点4:快速推理和硬件加速从历史上看,开源项目和供应商服务更多地关注典型机器学习工作流程的早期阶段,如ETL和数据准备。在后期阶段,例如提供模型和实时推理(最接近客户体验)阶段,机器学习往往会降级为最终应用的临时代码。即便如此,推荐系统的许多生产用例都对快速推理有一定的要求,通常要求在100毫秒内完成推理。虽然有许多选项和有趣的技术可供推荐系统使用,但推理所需的时间是一种门函数。如果无法在规定时间内进行高质量的推荐,则必须改为使用更简单的技术。例如,即使在资源丰富的复杂实践中,直至大约两年前,大多数机器学习模型都是相对简单的线性模型。然而最近引入了深度学习模型。可实现快速推理的硬件改变了游戏规则。最终结果是,从整体上看硬件可以采用更复杂的AI,这与刚才我们提到的有关推荐系统深入扩展到商业模式与运营的要点息息相关。随着机器学习领域的继续演进,必定会涌现出更复杂的方法。例如,GAN、自监督学习和增强学习都承诺为推荐系统提供有趣的应用,尽管这项工作在大部分程度上仍然处于研究阶段。这些特定示例还增加了所需的计算资源量。需要解决的一个问题是:更先进的技术是否有足够出色的性能表现,可以在几毫秒内运行?这种限制是否会阻碍生产环境中的推荐系统采用最新的创新?相反,提供大内存空间和硬件加速的编排集群将成为更先进的AI应用的有利因素。构建、部署和优化的最佳实践|访谈:关键摘录  18要点5:关键组件与行业内推荐系统实践相关的热门话题包括使用特征存储库(几年前引入),利用图神经网络和模型蒸馏。要点6:规划路线图提前计划系统升级。就组件而言,例如简单的线性模型将被更复杂的深度学习模型所取代,因此可能需要更改你的运行环境。从另一种意义上讲,由于推荐系统实践有助于增强企业的经济活力,因此有理由发展这种实践。数据速率可能会增加。随着时间的推移,推荐系统将会更深入地扩展到业务流程中。或者其他业务部门可能需要其他推荐系统用例。规划系统升级和用例不断增长的路线图。尽可能利用提供扩展路线图的技术,这样不仅满足了目前的扩展要求,而且还可以满足未来几年内业务取得成功的需求。放眼全球数十亿用户以及他们在网上进行的各种互动——浏览、购物、学习、与朋友聊天——每一刻、每一次活动、每一个会话对于推荐系统而言都是另一个机会,以便更轻松、更快速、通过更加个性化的方式帮助每个人做出明智决策。这意味着数十亿人在网上与数万亿的东西进行互动。了解详情要更深入地了解NVIDIAMerlin,请访问/nvidia-merlin©2021NVIDIACorporation.保留所有权利。NVIDIA、NVIDIA徽标、Merlin及[其他NVIDIA产品和技术]均为NVIDIACorporation在美国和其他国家/地区的商标或注册商标。其他公司名称和产品名称可能为相应各公司的商标。其他所有商标均为其各自所有者的资产。2021年9月 19对负责人和专家的深入访谈在本报告的前半部分,我们总结了趋势,并摘录了各个领域负责人和专家的访谈内容。在本部分中,我们提供一些深入的访谈内容。在某些情况下,为了提高可读性,经受访者批准我们对访谈内容进行了编辑。问:你用于构建推荐系统的数据量是多少?如果我们使用的是大型推荐系统,那么我使用的数据范围包括零数据点以及将数亿用户与尽可能多的项目相匹配的数据。高端系列的系统吸引了大部分的注意力,因为它可以解决长尾问题,并进行个性化的推荐,感觉就像魔术一样神奇(或者感觉令人毛骨悚然,具体取决于你的观点)。数据科学家们青睐于有趣的算法,这就需要用到规模更大、更多样的数据。问:你如何选择合适的技术和框架来支持你的工作?在推荐技术和框架方面,我是非常务实的。除了解决问题的可能性之外,我还牢记这几条标准:易于集成性、成熟度和保留可选性。推荐系统最重要的衡量标准之一就是易于与公司当前的工作流程集成,并将努力与结果的比例保持在尽可能低的水平。我记得有家公司想要把一项技术卖给我在LinkedIn的团队,由于我们在扩展规模时遇到了问题,因此我们积极地尝试这项技术,但除非我们投入大量的精力和时间,否则无法对其进行测试。这样会带来风险,因此你可以利用经过一次又一次的证明、众所周知的技术来承担这种风险——而不是贸然采用新开发的技术。顺便说一句,“使用无聊的技术”就像劝数据科学家“多吃蔬菜”一样——众所周知,理论上这是说得通的,但最新、最出色的有趣技术对工程师和数据科学家很有吸引力。尽管在扩展时使用“无聊”(成熟)技术尤为重要,但在出现偏离正轨的小问题时,总会需要尝试使用最新的工具。在探索和利用之间权衡取舍不仅仅只是推荐系统面临的问题——你可以将新工具的尝试视为对创新的投资,或者使用新工具只是为了提高团队的士气、招聘效率和人才留存率。在过去几年中,数据工具和框架呈爆炸式增长,我很高兴看到其中许多工具和框架确实易于集成,当工具在特定环境中得到验证和信任之前,无需对工作流程进行重大更改。我最常向工具构建者提出的问题是‘你的特洛伊木马是什么?’为了让从业者方只需付出很少的努力或者无需付出任何努力就能采用推荐系统并获得信任,你解决的一个问题是什么?最后但并非最不重要的一点是,在采用框架或技术的早期阶段,保留可选性是非常重要的。如果事实证明它不是最合适的技术,或者我们的需求发生了变化,会怎么样?这不仅仅是锁定现象,而是要在流程的早期阶段降低技术风险并制定备用计划。最有效的工具包括营销中可能的退出路径,并且除了易于集成之外,还提供数据导出工具。

MONICAROGATI人工智能(AI)和数据科学顾问创造了LinkedIn“你可能认识的人”功能的首个机器学习模型MonicaRogati是一名AI和数据科学技术顾问,为拥有5到8,000名员工的公司提供服务,涉足多个行业。在成为独立顾问之前,她是Jawbone的数据副总裁,在那里组建并领导了一支由顶级的数据科学家和工程师组成的团队。在加入Jawbone之前,Monica是LinkedIn数据科学团队的早期成员,曾开发和改进了LinkedIn的关键数据产品,包括将岗位与LinkedIn会员相匹配,发现你可能认识的人,以及推荐专业团体。她的研究领域包括应用机器学习(拥有卡内基梅隆大学的计算机科学博士学位)、NLP和可穿戴设备。Monica的“AI需求金字塔”图为世界各地遭到误解的数据科学家提供了盾牌。问:与开源技术的互操作性有多么重要?非常重要——特别是在选择合适的技术和框架的背景下。“易于集成”功能免费提供,各种开源技术即插即用。同样,必须知道替换(原本希望采用的)模块化技术中出现问题的组件对系统其余部分的破坏性最小,因此上述“保留可选性”标准还有很长的路要走。 2问:你是如何评估模型的?说到重点了,我们会提出一个经过审查的问题,即训练数据是通过合乎道德的方式获得和编译的,并且在最大化给定的目标函数时不会对系统造成任何损害。实际评估起来要难得多。而“良好的意图”远非令人满意的解决方案。你可能需要做些研究,因为专家认可的最佳实践在过去几年中已经不断演进。回到评估模型的原始问题,我通常建议分三个步骤进行:制定基准,构建要求宽松的线下过滤器,在缓慢加速的条件下进行A/B测试。第一步是分析数据,然后实施合理但简单的基于规则的基准。对于推荐系统而言,可能是“过去3个月中最受欢迎的商品”。或者,如果有其他可用信息,请在规则中添加另一个属性:“该人所在国家/州过去3个月内最受欢迎的商品”。对于正面例子相对较少的分类问题,可能是“一直说不”(这就是为什么相对罕见的事件声称的99%的准确率是存在误导性的,尽管从技术上来看确实如此)。如果已有实施到位的模型,并且你跳过了此步骤,无论如何也要尝试一下。简单的基准易于调试、可靠、快速,当事实证明它们几乎与当前模型一样有效时,应该成为你的首选模型。“要求宽松的线下过滤器”改变了传统的线下模型评估概念。目标是确认模型并非会导致大规模的中断或非预期损害的灾难,以及从宽松意义来看是否“前景良好”。目标是*不*一定是击败当前的系统(尽管如果你从上述基准着手的话,很可能会是这样的结果。)最后,真正的评估来了,那就是在生产环境中进行A/B测试,但要在缓慢加速的条件下进行。我们需要留意操作问题、缺少的特征、意外损害,以及通常可能不会在线下或小规模范围内出现的问题。模型全面运行后,特别是对于推荐系统而言,通常需要经历“预烧期”,新奇效应才会消失。问:在推荐系统方面,你需要解决哪些挑战?最大的挑战之一就是设计合适的指标或目标函数。数据科学家最终将成为指标工程师——如果可能,这是实现自动化的过程中最艰巨的数据任务之一。问:如果团队负责人刚刚启动推荐系统之旅,目前正在评估推荐系统的构建、部署和优化工作,你会传达什么建议?谨慎地思考你试图最大化的指标(目标函数)——通常情况下,对于你*实际*试图实现的目标而言,它是更易于衡量的代理。当使用你的系统影响目标函数后,它仍然是有效的代理吗?由于激励机制的一致性,有没有办法玩弄目标函数,无论是故意地还是无意地?问题有多难解决,就性能本身而言,你期望达到的上限是什么——例如,评分者间对于训练数据的同意程度如何?我在IBM研究院实习时也从SalimRoukos那里学到了一些东西:在开始使用机器学习系统之前,我会花一个小时的时间标记数据并完成算法工作。成为算法工程师后,你会发现无数的数据质量问题,确定问题定义不清或者你应该放弃推荐时的一系列情况。 3问:你在腾讯就职什么工作?我是腾讯的一名专家工程师,负责广告推荐系统的设计和开发。同时我也主管着腾讯广告和深度学习平台的运行。我们的平台支持机器学习模型优化、训练和推理,可应用于多种业务场景中,如广告、金融科技和网络数据挖掘。问:你的团队在腾讯负责什么?我们的团队主要开发机器学习平台,我们负责特征工程、模型训练和在线推理。我们正努力实现GPU基于0到1的新一代高性能分布式广告推荐训练系统。问:你和你的团队在推荐系统方面所做的工作给腾讯的整体业务带来了哪些影响?我们的广告推荐训练平台覆盖了整个腾讯业务流。腾讯广告推荐系统被广泛应用于微信、朋友圈、QQ、腾讯游戏、腾讯视频、腾讯新闻等业务。腾讯广告收入甚至达到上亿。广告推荐的准确性是增加广告收入的一大助力。问:你的团队是一个相对较新的团队吗?腾讯决定投资推荐系统的原因是什么?我们的团队已经成立多年。广告业务是腾讯内部比较重要的业务之一,而广告推荐系统则用来提高腾讯的整体广告收入。问:你的团队主要开发的是什么样的推荐系统?我们团队的主要关注点就是广告推荐系统,负责广告训练平台的优化。腾讯广告推荐系统包含线下特征工程、训练平台、线上推理系统、线上特征工程和游戏平台。广告推荐是一个逐渐筛选的过程。整理阶段包括回顾、预排序和排序。每个阶段都有不同的要求。模型的快速调查和迭代更是对训练性能提出了更高的要求。问:你的团队是如何进行训练的?我们会组织每周一次或每两周一次的技术分享会。问:你的团队是如何评估推荐系统的?调优吗?我们通过推荐系统来优化算法策略,增加更多的样本和特征,然后评估其是否能带动收入增长。随着样本数据训练数量和样本特征的增加,广告推荐的准确性得以提高。但这样一来,训练时间会延长,且模型的更新频率会受到影响。为了保证模型更新不脱轨,我们需要不断提升模型的训练性能。模型的训练性能得到提升后,我们就可以训练更多的数据,提高模型的准确率,从而增加广告收入。问:你如何对推荐系统进行优化?据我们了解,腾讯通过使用HugeCTR来进行嵌入式优化。这又是如何帮你实现工作流程的优化呢?作为一个推荐系统的训练框架,HugeCTR被集成到广告推荐训练系统中,使得模型训练的更新频率更快,并通过训练更多的样本来提升线上广告效果。

孔祥庭专家工程师腾讯 4问:你如何选择合适的技术、工具包、方法和框架来进行你的工作?我们选择的技术或框架必须与社区生态兼容,这样我们才能更好地进行后续升级。问:你如何解决模型的扩展问题?模型越大,越利于我们学习更多的特征,也越能提高模型的准确度。问:你的团队近期有哪些成功的项目?我们在训练框架中开发了一种并行数据分布式解决方案。问:最近有没有在你的推荐系统工作流程中使用某种特定的方法?我们最近在广告推荐训练系统中集成了CSR[CommonSparseRow(通用稀疏行)]管道。生成CSR类型的训练数据后,可以直接在GPU上读取训练数据。通过我们对数据处理流水线的优化,CPU负载大幅降低,GPU利用率得到显著提高。问:如果团队负责人刚刚启动推荐系统之旅,目前正在评估推荐系统的构建、部署和优化工作,你会给他们提出怎样的建议,来帮他们加速或简化推荐系统的工作流程呢?选择成熟且与社区生态兼容的技术框架,方便进行后续的系统升级。问:你目前在《纽约时报》担任什么职务?CHRISWIGGINS首席数据科学家,领导团队开发和部署机器学习解决方案,以解决新闻编辑室首席数据科学家和业务问题。《纽约时报》问:你和你的团队在推荐系统方面所做的工作给《纽约时报》的整体业务带来了哪些影响??《纽约时报》的目标是到2025年,付费订阅者的数量达到1000万。订阅者对《纽约时报》的编辑评判很感兴趣,因此推荐系统意味着提升读者的信任度和忠诚度,确保我们以扩展编辑评判版面的方式实现此目标,而不是取而代之。现在,推荐内容出现在各种新闻版面上,包括“MoreIn”、“编辑精选”、“智能生活”、国际主页和“最受欢迎的文章”。我们还在Cooking应用、移动应用中的“ForYou”个性化选项卡、“YourWeeklyEdition”时事资讯中提供推荐功能。 5问:你的团队是一个相对较新的团队吗?《纽约时报》决定投资推荐系统的原因是什么?是还是否。自2013年我在《纽约时报》工作以来,个性化功能不断演进,经历过多次“团队动态重组”,我们仍然还是一个大家庭,但团队阵容和每个人的角色发生了变化,就像英国摇滚乐队的海报一样,不同之处在于,团队重组是由不断变化的基础架构设能力和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论