版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜狗信息流推荐算法综述提纲Content推荐系统架构1文章NLP2召回算法3个性化排序4推荐系统架构NLP文章数据源CB召回CF召回其他召回个性化排序推荐数据展现处理用户画像提纲Content推荐系统架构1文章NLP2召回算法3个性化排序4文章NLP分类娱乐体育财经港台 明星综艺NBA足球股票关键词火箭队标签乔丹世界杯英超刘德华周杰伦跑男吐槽 大会顺鑫 控股美股房产两限房二手房聚焦主要领域为用户提供信息导航描述比较精确,但又属于 抽象概念的语义领域内热点人物、机构、作品、产品等实体内容文章NLP分类领域划分内容体系模型训练内容覆盖尽量全面有一定用户受众,同时有一定文章量娱乐, 情感, 军事,
2、体育, 健康, 美食, 汽车, 星座, 游戏, 时尚, 财经, FastText文本分类模型分类模型融合朴素贝叶斯 TopN keywords单模型准确率约93%多个模型融合准确率达到96%分类分类标签娱乐电视剧,明星八卦,真人秀,港台娱乐,综艺,韩娱军事武器,海军,陆军,空军,中东局势,环球军事,中国军情健康疾病,保健品,男性健康,女性健康,养生,营养学,食疗,中医,中药,饮食健康科技手机、软件、人工智能、移动互联网、通信、移动支付、穿戴设备、网络安全、大数据教育家庭教育,留学,小学,资格考试,研究生,中考,大学,幼儿园,高考模型训练内容体系领域划分描述比较精确,同时又属于抽象概念的语义Te
3、xtCNN文本分类模型标签full connectfull connectyt1t2tnMaxPoolingReLUBNConv1d(1)ReLUBNConv1d(1)MaxPoolingReLUBNConv1d(2)ReLUBNConv1d(2)MaxPoolingReLUBNConv1d(3)ReLUBNConv1d(3)MaxPoolingReLUBNConv1d(4)ReLUBNConv1d(4)c1 c2cmtitle_conv(1)title_conv(2)Content_conv(1)标签对标题和正文分别进行卷积计算使用两层卷积使用BatchNorm使用两层全连接完成分类计算Te
4、xtCNN数据标 签数据增强:单篇文章拆分多个样本多段文本预测结果拟合132领域划分内容体系模型各分类中的热点人物、机构、作品、产品等实体内容周杰伦, 搜狗, 吐槽大会, OPPO, 奥巴马, 印度, 皇家 马德里, 灌篮高手,相似度模型:Tf-idf、lda、word2vec概率模型: Skip-Gram + 层次Softmax关键词问题定义对于文本S,条件概率 ,表示通过能够猜测出文本大意的可能性 值越高,则w更加适合最为这段文本的关键 词使用朴素贝叶斯假设, = 1, 2, , =1 (|)对(|)建模选取模型:Skip-Gram + 层次Softmax词向量训练方法,预测概率 (|)算
5、法优势基于 较高者为关键词的定义,逻辑上清晰严 谨训练速度快提取准确率89%w1w2wnEmbeddingHierarchical SoftmaxFull connect( = | = )关键词提纲Content推荐系统架构1文章NLP2召回算法3个性化排序4召回算法基于内容(CB)召回其他召回显式分类,标签,关 键词,隐式分类协同过滤(CF) 召回Item-basedLFMNCF地域、人口属性、搜索 历史、订阅内容库内容库推荐模型召回策略召回策略基于内容(CB)召回用户兴趣根据兴趣拉取 相应文章并 rank,获取top 结果离线更新倒 排索引军事手机电影 贾冰军事手机 电影贾冰0.50.40
6、.10.1基于内容(CB)召回基于规则排序AB_= _ _ _基于模型排序将问题简化为预测ctr,结合相关性问题抽象排序的主要目标优质文章指标上表现为阅读多,ctr高,阅读时间长时效性文章生成时间距现在较近相关度高召回原因是文章的主要特征基于内容(CB)召回文章基本特征相关特征热度特征文章样式:视频?图文?单图?多图?Title:长度?包含关键词?特殊标点符号? 内容:topic,tag,keyword账号:等级,来源,地域 入库时间召回词的位置召回词的向量化与其他关键词的夹角文章热度:展现,点击,分享,收藏,不喜欢文章-召回词热度账号热度Item-basedU1U2U3UNDoc1DocNQ
7、ueryLocation协同过滤(CF)召回DocX查询_迪丽热巴Location_杭州协同过滤(CF)召回rui = =1= ,Q隐语义模型(LFM)model-based协同过滤通过降维的方法将评分矩阵补全核心思想是通过隐含特征联系用户和物品对物品和用户进行兴趣分类,对某个用户, 先得到他的兴趣分类,确定他对各类物品的 喜欢程度,再在这个类里挑选他可能喜欢的 物品采取基于用户行为统计的自动聚类神经网络协同过滤(NCF)基于神经网络的技术,来解决在 含有隐性反馈的基础上进行推荐 的关键问题。协同过滤(CF)召回提纲Content推荐系统架构1文章NLP2召回算法3个性化排序4Wide & d
8、eep在FTRL的基础上, 效果再次提升FTRL在LR的基础上,效果提升明显LR最常用的点击率预估模型,速度快,效果好与人工规则相比,效果提 升显著GBDT+LR速度受限,对比LR优化效 果不明显个性化排序个性化排序Wide&deep learning通过Deep Models学习高阶特征,增强模型的泛化能力通过Wide Models 建模,增强模型的”记忆能力”个性化排序deepFMFM层和Deep层共享Embeddings层的结果Embeddings参数训练时 被FM和DNN同时更新相比于wide & deep, 训练参数没有增加ITPU B 学院ITPU砰 院是盛拓传媒IT168企业事业部 ( ITPUB) 旗下企业级在线学习咨询平台历经1驻目支术社区平台发展汇聚5000万技术用户 紧随企业一线IT技术需求打造全方式技术培训与技术咨询服务提供包括企业应用方案培训咨询(包括企业内训) 个人实战技能培训(包括认证培训)在内的全方位IT技术培训咨询服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【名师一号】2021同步学习方略高中政治必修三-期中测试卷
- 2025年人教版八年级数学寒假预习 第02讲 二次根式的乘除(4个知识点+6大考点举一反三+过关测试)
- 2025年人教版七年级数学寒假预习 第02讲 平行线的性质与判定
- 2025年八年级统编版语文寒假复习 专题04 诗词阅读鉴赏(考点剖析+对点训练)
- 2021高考生物限时规范特训:第24讲-从杂交育种到基因工程
- 《创新人才的成长》课件
- 【名师一号】2022届高三地理一轮复习演练:第二章-地球上的大气1-2-3-
- 《东风日产销售礼仪》课件
- 【全程复习方略】2020年高考化学课时提升作业(22)-第十章-第二节-盐类的水解(广东专供)
- 《凡客网站分析》课件
- 综合单价的确定
- 闸门及启闭机安装专项施工方案
- 应征公民体格检查表(征兵)
- 钢筋位置及保护层厚度检测ppt课件
- 岩石坚固性和稳定性分级表
- 张可填充颜色的中国地图与世界地图课件
- CNC程序控制管理办法
- 案例思念休闲吧
- 北京石油机械厂螺杆钻具使用说明书-最新
- (完整版)虚拟语气练习题(含答案)
- 六年级语文(部编)上册词语表拼音
评论
0/150
提交评论