



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
为看一看及搜一搜“去污”,AI怎么做到的?本文主要介绍低俗色情识别任务在从看一看业务迁移到搜一搜业务中遇到的一些问题、思索以及所做的一些尝试。本文尝试分析一下看一看与搜一搜场景的差异以及因差异导致的应用迁移困难;进而思索如何建立更好的分析机制和评价体系;最终在模型方面谈一下基于Bert的一些迁移改进与应用;本文工作主要集中在短文本事域。
01看一看与搜一搜场景的差异分析
1.
业务焦点的差异
在中心业务进展过程中,低俗色情识别最先应用于看一看场景,主要包括公众号文章、视频和新闻等内容源。在基于上述内容源的推举场景中,由于内容以PGC生产为主,因此低俗色情问题的90%以上都是稍微低俗擦边,完全色情的问题比例很小;经过我们的努力,擦边程度以上的问题被掌握在较低的水平(可参考之前的看一看介绍文章)。
随着搜寻业务的进展,搜寻场景的环境净化也变得刻不容缓,从用户query的提示、相关搜寻到搜寻结果的展现,都需要低俗色情识别来进行过滤。与看一看推举场景不同的是,推举是平台的主动行为,所以搜寻场景90%以上的留意力更关注色情内容的识别过滤,推举分发擦边内容是不行以的。(至少在看一看的调性中如此)
2.
数据的差异
在从推举场景转移到搜寻场景中,我们面对的语料也发生了一些质变,从主要PGC生产的较标准的PGC语料转为了全网开放领域(例如搜寻query与搜狗网页),色情问题规模也是相较之前有了爆发式的增长。因此看一看中多个数据源的模型在迁移到开放的搜寻语料时,存在很大的领域差异,严峻色情问题的召回不足,导致迁移应用的效果较差。
3.
问题解决环境的差异
在问题发觉上,看一看中有较完备的人工轮询机制,同时用户负反馈也可以供应很好的问题发觉和样本。而到了搜一搜这里,相较海量用户query及网页结果,色情case的比例很低,轮询机制的效率极低(比如推举中轮询100个可以发觉1个问题case,而搜寻汇总可能需要轮询1k个);搜寻也缺少像推举那样用户对单个内容的即时负反馈。在问题分布上,由于推举系统的机制及用户习惯,自然 的会将擦边内容推到点击top的集合中;而这一效应在搜寻中并不明显,照旧非常稀疏。由于搜寻场景的问题稀疏,长尾问题更多(各种可能的作弊、黑话),这里不仅要跟黑产做对抗,还需要与用户的输入斗智斗勇,在效果评价上(主要是召回)也更加困难。
02如何更好地分析样本与评价效果
如上文所述,由于两个业务的差异导致原有一些模型迁移到搜寻的语料上时效果较差,模型精度的提升一般相对简单,通过样本清洗、误分样本的订正及特征权重的调整(比如使用Lime帮助分析),可以较快的对精度进行提升。而在面对开放领域的query、网页标题时,问题的稀疏性、长尾性以及问题发觉机制的不健全(或者说低效)都导致了召回的提升是一个难题,同理召回的效果评价也更困难,因此这里也是主要探讨对于样本召回的分析,主要集中在query与搜狗网页标题。
在分析方法上,通过已有模型的baseline结合传统的基于关键词、embedding向量相像可以为我们供应一份较多的种子数据。在此基础上,我们结合搜寻业务的场景特点以及一些可用的学问,尝试了以下一些方法并取得了更好的效果。
1.
搜寻引擎结果的分析
站在巨人的肩膀上,可以关心我们快速取得提升。一些搜寻引擎的搜寻结果质量以及呈现的特征可以帮助我们扩展语义与分析样本。通过分析网址平安中心提示、搜寻结果数、相关搜寻等特征可以关心我们快速分析筛选一些疑似样本。这个方法在色情小说等问题的运用上有较好的效果。
同时,搜寻引擎的搜寻结果以及相关搜寻结果也可以关心扩展query语义以及一些变种,达到举一反三的功效,在实践中得以应用。
2.
Query用户改写串分析
用户行为是我们做分析的一个利器,既然搜寻场景没有推举那样显示的负反馈,那就通过分析用户心理和行为为我们供应隐式的负反馈。这个idea的动身点很简洁,用户的搜寻行为往往是连续的,直到得到想要的结果才会停止。那么在一次用户的连续搜寻行为中,我们可以利用用户query的改写串来进行批量分析,通过已有模型对改写串的打分可以高效的分析目前模型还不能解决的case。
由于个别字的转变(作弊)导致表面语义的飘逸,很简单逃过色情检测。通过这类作弊case,我们可以进一步深挖搜寻黑产所进行的一些seo作弊操作,由session发觉作弊进而映射到uin,可以分析一批作弊用户及其作弊query。与黑产的对抗在低质识别工作中是永恒的话题,矛与盾的不断升级,不断摸索;而借助已有的力量并进一步分析黑产用户的搜寻模式,可以关心我们建立起良性的循环和有效的对抗升级。
3.
Query与点击doc的联动分析
在实际业务中,由于query与网页标题语料的不同,文本长度上,query偏超短文本而网页标题偏短文本;同时二者的表述等也存在领域差异,因此在业务中是训练了各自的模型。那么与query改写分析类似的思路,结合已有模型的力量与用户行为进行样本分析和补充。这里利用搜寻引擎已自带的query与结果的相关性加上用户点击这一强行为特征,尤其在色情领域上使得query与结果的相关性比大盘水平高出许多。那么通过query与点击title的各自模型的猜测得分,就可以较快的将不足的一方进行补全优化,实现多模型的联动升级。
4.
评价指标
在效果评价上,我们一般采纳精度、召回与F1值作为主要的效果评价指标,这里的难点主要在于召回评价上。由于搜一搜场景问题数据的稀疏性和长尾性,采纳大盘随机评测召回需要投入许多人力来猎取一个置信度较高的结果,因此我们尽量采纳多个维度来体现模型的效果。通过比较迭代模型前后的diff胜出率可以实现自身的比较;通过引入其他开放领域测试集帮助验证模型的泛化通用性。除此之外,我们的业务使用方还单独分析了一批业务测试集,对算法侧保持黑盒状态,用打竞赛的方式来评价成果也是一个不错的选择。
03基于Bert的迁移学习改进
在模型方面,可以说Bert(及其各种升级版)是目前在大多数NLP任务中效果最佳的模型。在GPU资源充分的状况下,我们也优先部署Bert提高业务效果,并在Bert的基础上结合业务特点进行一些模型创新。下面将从如何使用pivot词改良Bert的预训练过程和如何利用业务中自然 的多任务学习场景来提高模型最终效果这两点来绽开介绍。
1.
基于可迁移Pivot词的Bert迁移学习
目前对于Bert的应用来说,大多状况(简洁用法)都是直接在少量的标注数据上去Finetune最终一层即可取得较好的效果。对于精细化的升级用法,会先在特定任务的语料上去精调预训练的语言模型,这样的好处是可以让模型更加适应当前任务的语言环境。而这一点在低俗色情问题上是特别匹配且需要的,由于一般Bert预训练语言模型的语料都是类似维基百科这种较正常标准的内容,缺少低俗色情里的许多低俗说法、黑话、作弊等内容(比如“干”“棒棒糖”等词),这就使得预训练得到的语言模型缺少对这些一词多义的理解,即基于上下文的语义理解,而这些的一词多义正是我们这一特定任务最需要的。
对于Bert的优化方向之一就是引入更多帮助任务以及外部学问,对下游的学问类任务或者包含NER相关的任务有直接的效果提升作用。与此思路类似的是,我们引入了pivot词的学问,学术界有不少迁移学习的工作是基于pivot词来提升不同领域之间的迁移效果,这在低俗色情问题上同样非常匹配,通过学习领域不变的pivot特征来桥接源领域和目标领域,从而使得在源域上训练的模型可以适配目标域。
我们的TPT(TransferablePivotTransformer)模型分为两部分,pivot选择网络以及maskpivot的预训练语言模型网络(分别对应模型示意图的右半部分和左半部分)。在pivot选择部分,为了优化色情领域许多新词或作弊词的问题(例如“轮轩”“好庠”等),我们采纳基于字的bi-gram和tri-gram,通过已有标注数据计算互信息MI猎取到一批权重高的pivot词表。进一步为了使得pivot词更具可迁移性,我们通过训练pivot词的领域分类器来选择出领域不行分(即可迁移)的最终pivot词表。
在预训练语言模型阶段,与传统bert的mask策略不同的是,我们加入了针对pivot词的mask策略,我们盼望模型能更多的关注和学习到pivot词在不同上下文语境中的语义。因此在训练语言模型的过程中,我们对于pivot词也许率下进行mask,小概率下保持不变;同时bert原有的随机mask策略可连续使用,最终生成的即为适用于我们这一特定任务场景的预训练语言模型。我们这一idea的工作已发表在AAAI2022上,感爱好的同学可以细看一下。SimultaneousLearningofPivotsandRepresentationsforCross-DomainSentimentClassification
2.
基于Bert学问蒸馏的多任务学习
如前文所述,在搜一搜的低俗色情的任务场景中有query、搜狗网页、公众号文章、视频等多个数据领域,多个领域间均存在不同程度的领域差距,也因此每个领域都会训练生成对应的分类模型。与此同时,多个领域之间的任务目标又非常相像,许多学问是通用的,这非常适合多任务模型的应用。在之前看一看的工作中,我们也尝试了例如基于LSTM的多任务模型、领域迁移对抗模型等,在Bert兴起后,如当年Imagenet的进化路径,Bert可以作为一个优良的底层特征提取器,连续在Bert之上结合传统的多任务学习或者迁移学习的工作进一步提升效果。这里我们尝试了Google发表在ACL2022的工作BAM!Born-AgainMulti-TaskNetworksforNaturalLanguageUnderstanding,其将Bert与多任务学习、学问蒸馏奇妙地结合在一起。
学问蒸馏即将学问从「老师」模型迁移到「同学」模型,执行方式为训练同学模型仿照老师模型的猜测。在「born-againnetwork」(Furlanelloetal.,2022)中,老师和同学具备同样的神经网络架构和模型大小,然而同学网络的性能超越了老师网络。有讨论分析其提升的缘由是由于老师模型的输出不再是原来one-hotlabel的形式,而转为对label分布的输出,这可以供应更多的训练信息(darkknowledge)。
BAM进一步将学问蒸馏扩展到多任务模型训练环境中,在业务应用中,首先对各个领域的数据训练bert的老师模型,进而结合老师模型的猜测值和实际label作为多任务学习的label,在BAM中供应了老师模型退火的机制,即在迭代中渐渐削减老师猜测值的权重,达到青出于蓝而胜于蓝的效果。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西壮族自治区“贵百河”联考2024-2025学年高二下学期3月月考英语试题(PDF版含解析无听力音频有听力原文)
- 工人投诉管理者问题
- 教资班主任相关知识点
- 市场部管理工作总结
- 儿童攀岩墙课件
- 昆明市官渡区光华学校2024-2025学年高一下学期3月第一次月考化学试卷(含答案)
- 2024-2025学年度四川省雅安神州天立高级中学高一第二学期第一次月考历史试题(含答案)
- 一日流程班级常规管理培训
- 建筑工地进场安全教育
- 幼儿园生活中的数学知识
- 成语故事杞人忧天PPT教案
- 部编版三年级上册音乐知识点汇总
- 生命体征的测量PPT幻灯片课件
- 吉林省吉林市高考报名登记表
- 质量保证体系结构图(共3页)
- 天然气长输管道的腐蚀与防护措施
- IEC60335-1(中文)
- 排沙泵检修工艺流程及验收标准
- 常见职业危害相应职业禁忌证(简表)
- Q-BQB_402-2009冷连轧碳素钢板及钢带
- 内蒙古自治区实施少数民族高层次骨干人才计划暂行办法内蒙古教育
评论
0/150
提交评论