版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习新技术在搜狗搜索广告中的深化应用本身是一种很复杂的业务形态,有很多问题需要研究,为此专门成立了SEM这个学科。对很多歧义:比如搜“苹果”,可能是指水果,也可能是手机;还有一个典型case,mac,实际问题:比如刚才提到的广告召回、点击率预估、相关性、badcase过滤、排序机制以不知道大家看没看过一部美剧,广告狂人,讲的是20世纪60年代美国广告行业的发展过优选怎么做?假设当前有很多创意,最终选哪种样式的创意?这个任务跟创意匹配不太一行,其实很多年前就有类似的事情,例如MSRA做了一个对联生成系统,你出上联我出下行了之后,就会有很多种方式来做这件事情:典型的比如GAN,这也是前几年刚出现的;还有一些基于seq2seq的翻译模型;CVAE也是生成式模式的一种变种。这几种方法的目个基于CVAE的升级版框架,可用于关键词拓展,大概可分为左半部分和右半部分:左边可以看作传统seq2seq的一种改进,一个编码器加注意力机制加持的decoder;右边这块个系统里的一些模块就是做这个事情,比如DomainClassifiier就是表达这个诉求的一个RewardEstimator来做这个工作,来评价生成结果的离散程度,生成结果的集中度越低,WWW2019比传统的seq2seq效果要更好一些。创意挖掘是指如何从海量信息中挑出有价值的东西,这里选一个场景来介绍,“esonsion相当于有了一个源源不断的素材库。那如何做这个工作,把这个eson切分开,怎么判些都需要做一个切分,也就是eson切分,来评价前后两次输入是否关联。传统的方法会基于一些特征构建模型来进行分类,我们提出了一种基于LTM和tenon机制的eson切分方式,会考虑这个用户的连续输入,用LTM网络生成一个编码,再利用tenin做隐向量的权重分派,对应最终的一个bl,就是说这两个输入是不是一回事要不要做区分,模型训练完之后就可以帮我们来做esn切分的工作。当时取的效果还8年的IGIRser,大家如果感兴趣可以去看一下。虽然只是用来做用户行为分析,但有了高质量的TF-IDF、BM25库可以得到每个分词片段的权重,来了两个query之后,可以对两者做一个匹配,如果匹然后就是意图匹配,基于用户行为数据,比如每天的检索总共好几亿次或者上10亿次,每query,如果点击的网页列表非常相似,querySVD++来挖掘这种关联关系,这是身是一个QPS非常高,计算复杂度非常高的场景,可能会需要有一些比较简单的方法来做不了,或者解决的不够好。具体到这里面涉及到的几个技术,seq2seq及神经机器翻译,达网络,而后进行query的描述,或者其他内容的描述,然后进行一个匹配计算。这是我们16年发表的一篇论文,提出了一种不需要分词的问答系统匹配算法。早些时候,做中文文本相似性计算,或者检索相关的任务,都需要先做一个分词,需要先将query切分成若干term片段,然后再对term进行后续操作。这样会有一些问题,比如典型的word2vec算法,对于中文语料库来讲,分完词之后,term粒度至少在百万量级才够用,termID50100个G这么大,内存开销会比较大,那么有没有好一些的办法?其实这个思想已经大规模的端到端,特别简单粗暴。具体到这个任务,中文也好英文也好,直接把query输入进去,20001150算时,可以结合字符的权重来做query的编码,进行后续的任务,这样内存消耗就可以降流程得到简化,故障就会减少,这是它的一个意义所在。这个成果当时发表在CIKM上,%。同时有很多种样式,我们的产品会做很多的设计,每个样式有不同的特点,比如说QS这个规模,每次一个quy过来,可能会召回上百条广告,每天就有百亿以上的计算,所务稍微复杂一点,一条标注就需要两毛钱甚至一块钱,还是很贵的。比如100万条样本,后,即使有些噪音,但规模大也能缓解这些问题。在文本相关性算法中有个DSSM模型,应用非常广泛,也有很多改进,利用query和title之间的偏序关系进行训练,模型设计并解决疑难杂症。如果发现模型训练之后效果很不好,特别在一些典型case上效果不好,那也都了解,我们首先要有data,一般来自于查询日志和点击日志;然后构建一些特征,可搜狗搜索广告经过了很长时间的演化,最早的点击率预估模型,主要基于liblinear,大概08LRFTRL、FMLR现在为止,LR还是非常有效的,因为它非常简单,就是一个线性模型,原理和公式,一般索,就有了非线性模型,包括GBDT、DNN以及一些级联融合模型,LR+GBDT或LR+DNNWide&DeepNFM我介绍的是搜狗线上的一个模块,如何把这个想法在线上实现。这里的关键点是ModelFeaturePPTLRDNNSession也就是样本,经过FeatureMaker也就是特征抽取,会形成两类,一类是one-hot这种离LRTrainLRModel,LRModel放到里边,包括ctr的特征和模型中间结果,经过DNNTrain得到DNNModel,部署到这时候就有两个模型,DNN和LR。在线上我们的工作也类似,前端收到流量进行召回,QS,也就是排序ServerOneCase,也就是一个样本,然后会得到离散特征,并进入特征池,可以做一个查表,通过CTRTable得到COEC特征,就会得到DNNModelFeatureLRCTR接下来讲wide&deep模型,刚才讲的LR+DNN模型应该是16年左右推到线上,wide&deep是17年,也就是去年的工作。这个模型是16年谷歌应用商店推出来的,用MxnetTensorflow,我MxNet16DNN会有大量特征来表述查询词和广告keyword,以及一些交叉特征和匹配特征。如果特征规模非常大,同时样本量也非常大,一天可能有数亿样本,一般用60天或90天的数据,而且每天都要更新,就会涉及到训练效率的问题。6年解决大规模样本训练时,也想过TnsrlwTnsrlwNetTnsrlw其实是没有更多了解的,比如日志打印,调试时想往里面加代码,Tnsrlw用起来不gogeNet就会好6LR+NNGUWd&eep7年的时候TnsrlwNet。TensorFlow看Wide&Deep模型的效果,因为有开源实现直接调库就能做这个事情。TensorFlow上的小样本实验表明,相比LR+DNN融合模型,wide&deep在AUC上是涨的,做这个事MxNet的,是稠密的,MxNet是基于这种情况来设计的,而搜索广告有很多文本类特征都是离散的,量非常大又很稀疏,所以需要把MxNetSparseTensor,这是第一步的工作,不做这个后面是没法继续的;第二是需要深度定制Embedding层,原来的DNNEmbeddingword2vecCOEC这种特征直接放进去,就没Embedding这层,但Wide&Deep却会牵扯到MxNet的Embedding层效率是不是够的问题,需要对它进行定制来提高训练速度;第三,原本parameterserverCPUCPUGPU好的网络设备,就是IB卡,速度能达到56Gb每秒,这是官方标称的,我也测过,能达到类似的水平,比万兆网卡还要快5倍左右。网络规模上去之后,参数量非常大,训练过程IBipembedding512G30Hadoop间的情况下,能够在5到8个小时内训练一个模型,推到线上供我们使用,上线之后效果AUCAUC会有些经验说法,比如AUC只要提升三个千分点以上,那么上线一定是有效果的,但前提能最后发现效果不行,原来跟老板说上线涨5%,结果上线之后持平或者下跌,这时我该怎bug,这是第一点;第二点就是SurvivalBias的问题,这个问题比较典型,还拿搜索广告举一下种情况的理论分析比较常见,但实际上来说,还是需要先确认有没有bug,这个是最重要然后是模型这块我们目前的现状和计划。我们已经实现了Wide&De
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石河子大学《食品机械与设备》2023-2024学年第一学期期末试卷
- 石河子大学《教育影视赏析》2021-2022学年第一学期期末试卷
- 石河子大学《家畜育种学》2023-2024学年第一学期期末试卷
- 石河子大学《饭店管理》2023-2024学年第一学期期末试卷
- 沈阳理工大学《商业品牌整体策划》2023-2024学年第一学期期末试卷
- 沈阳理工大学《建筑设计》2022-2023学年第一学期期末试卷
- 2018年四川内江中考满分作文《我心中的英雄》8
- 沈阳理工大学《化工安全与环保》2022-2023学年第一学期期末试卷
- 沈阳理工大学《电力变压器设计》2023-2024学年期末试卷
- 沈阳理工大学《产品仿生学应用设计》2021-2022学年第一学期期末试卷
- 2024-2029年中国儿童牙冠行业市场现状分析及竞争格局与投资发展研究报告
- 新时代铁路发展面对面全文内容
- 人工智能与语文阅读理解教学
- 科学素养培育及提升-知到答案、智慧树答案
- 快递主管岗位职责
- 医疗差错、纠纷、事故登记表
- MT-T 5017-2017民用运输机场航站楼安防监控系统工程设计规范
- 七年级第一次期中家长会课件
- 2024下半年四川省广元市直属事业单位招聘104人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 市政道路施工工程重难点分析及对策
- 一例下肢静脉溃疡的伤口个案护理
评论
0/150
提交评论