版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第7章 用户画像及 推荐系统温浩宇 西安电子科技大学出版社商业智能:方法与应用目 录O N T E N T S7.1 用户画像7.2 推荐系统用户画像基本概念单个用户画像流程群体用户画像流程用户画像评估用户画像应用推荐系统基本概念相似度度量方法及最近邻确定基于用户的最近邻推荐基于物品的最近邻推荐基于用户与基于物品的方法的比较基于模型的协同过滤7.1 用户画像用户画像基本概念单个用户画像流程群体用户画像流程用户画像评估用户画像应用用户画像基本概念定义特点 分类l单个用户画像 研究对象:某一特定场景下的具体用户 目标:对不同用户做出个体区分,深入了解用户需求l群体用户画像 研究对象:某一特定情境下
2、的特定用户群体 目标:将具有相似特征的用户聚类,方便进一步识别用户群体l真实性l标签化l动态性l领域性 l用户角色(User Persona)倾向于从不同群体中抽象出不同类型的用户角色l用户画像(User Profile)用户信息的标签化;侧重于从不同维度对同一类用户进行刻画,从而进一步细分某一类用户单个用户画像基本流程03 特征提取兴趣属性标签单个用户画像基本流程图单个用户画像基本流程01 数据收集数据类型某电商网站数据分类图行为类型搜索浏览购买发表点赞 接触点帆布鞋匡威 双 十 一大促页 用户数据 静态信息数据商业属性职业动态信息数据人口基本属性性别年龄地域婚姻状况消费等级消费周期行为数据
3、 消费数据消费商品消费总额单个用户画像基本流程01 数据收集数据收集方法123社会调查通过访谈、观察、调研等社会调查的方法,直接收集获取用户画像所需要的数据平台数据库直接从企业数据库采集用户数据或购买接口获得数据 网络数据采集使用网络采集方法获取用户公开数据,如:网络爬虫等单个用户画像基本流程02 数据清洗01去除/补全有缺失的数据去除/修改格式和内容错误的数据去除非必需数据02030504去除/修改逻辑错误的数据不同来源数据关联性验证03 特征提取人口属性标签单个用户画像基本流程人口属性标签内容 性别、年龄、职业、收入等个人信息人口属性标签特点 比较稳定,且在实际应用中不是全部用户提供人口基
4、本属性数据构建人口属性标签方法 标签扩散模型用填写信息的用户作为样本,对无标签用户进行属性预测有信息的用户行为特征模型无信息的用户提取训练预测人口属性标签建立过程示意图03 特征提取兴趣属性标签单个用户画像基本流程 活跃用户用户画像构建方法 分析用户发表文章生成相应兴趣画像获取文章关键词构建兴趣偏好词典赋予不同兴趣偏好权重得到活跃用户兴趣爱好标签 非活跃用户用户画像构建方法 分析用户关注账户或点赞文章计算用户所关注账户信息或所点赞文章信息中每个实体概念所属网站类别的权重得到由网站类别构成的兴趣爱好得到非活跃用户的兴趣爱好03 特征提取地理位置属性标签单个用户画像基本流程常驻地属性标签 基于用户
5、的IP地址信息,对用户的IP地址进行接续,得到常驻城市标签GPS轨迹数据 从手机基于位置的服务(LBS)进行收集导航类APP获取LBS日志数据清洗与汇总 LBS位置与POI匹配用户POI场景判断POI类型到访次数时间段分布天数分布居住工作购物就餐GPS地理位置画像流程单个用户画像基本流程03 特征提取兴趣属性标签用户画像标签体系群体用户画像流程01n 单个用户画像获取 数据收集、数据清洗和特征提取方法获取用户画像数据 推荐系统的数据统计模块获得用户画像数据02n 用户画像相似度计算(1)定量标签相似度计算 计算公式: 不同定量标签数据归一化处理方法:线性函数转换、对数函数转化、反正切函数 转化
6、等 定量标签距离计算方法:欧式距离、曼哈顿距离、余弦相似度、Jacard系数等(2)定性标签相似度计算 将定性标签映射为定量标签,采用定量标签相似度计算方法 基于概念的相似度计算方法群体用户画像流程03n 用户画像聚类及群体用户画像生成 用户画像聚类:对单个用画像根据相似度计算结果进行分类 聚类原则:使类别内差异最小,类别间差异最大 聚类目标:发现用户画像建隐含关系,提取核心用户画像 群体用户画像生成:根据聚类结果,抽象出每个聚类群体的典型用户画像用户画像评估010203定义:被打上正确标签的用户比例计算公式:准确率定义:被打上标签的用户占全量用户的比例计算公式:覆盖率不同特征标签时效性要求不
7、同,需要建立合理的更新机制,以保证标签时间上的时效性时效性用户画像应用应用二应用一应用三基础信息查询构建用户画像的基础上建立用户标签库及用户关系库,实现基础信息查询,便于企业深入了解用户需求精准营销依托用户画像,分析用户的行为习惯及消费习惯,为用户的消费行为打上专属标签,进而实现精准推送产品或服务优化用户画像实现对不同特征的用户进行路径分析,发现用户从新用户到流失用户的隐含原因,进而实现公司运营优化用户画像应用应用四应用五个性化业务定制主要包括个性化推荐、个性化支持和个性化信用评级,同时根据用户实时行为,不断调整用户画像,对定制内容实时反馈调整企业战略制定用户画像在宏观层面的重要意义主要体现在
8、市场走向判断、用户群体划分和产品定位三个方面7.2 推荐系统推荐系统基本概念相似度度量方法及最近邻确定基于用户的最近邻推荐基于物品的最近邻推荐基于用户与基于物品的方法的比较基于模型的最近邻推荐7.2.1.1 推荐系统基本概念定义推荐系统是为满足电子商务发展和解决网络信息超载而产生的。比如基于内容的推荐算法、基于协同过滤的推荐算法、基于知识的推荐算法、基于社交网络的推荐算法等。协同过滤推荐算法 :推荐系统中最早、最成熟的技术。7.2.1.2 协同过滤推荐定义协同过滤推荐算法即根据用户过往对物品或信息的偏好,发现物品或内容本身的相关性,或者用户间的相关性,基于这些相关性预测出当前用户对其它物品或信
9、息的喜好程度,以决定是否进行推荐。从评分的角度可以解释为,用已知的评分去估计未知的评分。分类 基于记忆(memory-based)的基于模型(model-based)的基于用户(user-based)的最近邻推荐基于物品(item-based)的最近邻推荐7.2.2 相似度度量方法及最近邻确定欧几里得距离(Euclidean Distance)皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)相似度度量方法010203)(),(2iiyxyxd),(11),(yxdyxsim22)()()()(),(),(yixiy
10、ixiyxyxyxPearsonyxSim2222),(iiiiyxyxyxyxyxT7.2.2 相似度度量方法及最近邻确定确定邻居用户/物品通常有以下两种方法:给定邻居数量来确定最近邻(K-neighborhoods),如图1.1左。以达到相似度门槛的邻居作为最近邻(Fix-size neighborhoods),如图1.1右。图7.4 最近邻居的选择7.2.3 基于用户的最近邻推荐定义基于用户的最近邻推荐算法是利用这些相似或同类用户对商品评分的加权平均值,来预测目标用户对特定商品的喜好程度,从而根据这一喜好程度对目标用户进行推荐。算法过程 :(1)收集用户的偏好(2)确定最近邻居用户(3)
11、评分预测7.2.3 基于用户的最近邻推荐(1)收集用户的偏好 评分大体上可分为显示评分(explicit feedback)和隐式评分(implicit feedback)两种。评分是由用户对物品的喜爱程度所决定的,可能是连续的值,也可以是离散的值。用户行为用户行为类型类型特征特征作用作用打分连续分值离散分值顺序分值通常为整数量化的偏好,可能的取值是0,n, n为正整数通过用户对物品的打分,精确得到用户的偏好投票二元评分 布尔量化的偏好,取值是0或1通过用户对物品的投票,可以较精确得到用户的偏好转发一元评分 布尔量化的偏好,取值是0或1通过用户对物品的转发,可以精确得到用户的偏好;同时可以推理
12、得到被转发人的偏好(不精确)点赞/收藏 一元评分 布尔量化的偏好,取值是0或1通过用户对物品的点赞或收藏,可以精确得到用户的偏好标记标签文本一些词语,需要对文本进行分析,得到偏好通过分析用户的标签,可以得到用户对内容的理解,同时可以分析出用户的情感:喜欢还是厌恶评论文本一段文字,需要进行文本分析,得到偏好通过分析用户的评论,可以得到用户的情感:喜欢或是厌恶(2)确定最近邻居用户 利用用户的历史喜好信息,通过上述相似度度量公式等计算相似度,计算出用户之间的距离,即用户之间的“近邻”关系。下表是用户Tom和其他两名用户对物品AD的评分数据。分值从1到5分别表示“非常讨厌”“讨厌”“中立”“喜欢”和
13、非常喜欢。通过找出用户1和用户2中谁是与Tom更相似的用户,进而根据该邻居用户对物品D的评分去判断是否应该给Tom推荐物品D。用户用户/ /物品物品物品物品A A物品物品B B物品物品C C物品物品D DTom524推荐?用户14153用户224317.2.3 基于用户的最近邻推荐 设U=u1,un代表用户集,P=p1,pm代表物品集。nm的评分矩阵R=rij,其中i1n,j1m。用Pearson相关系数来衡量两用户之间评分向量的相似度Sim(u1,u2),确定邻居用户集。相关系数的取值为-1,1,代表从强负相关到强正相关。7.2.3 基于用户的最近邻推荐首先,计算每位用户的平均评分u:5 .
14、 2,25. 3,67. 321Tomuu 其次,计算Tom与用户1的相似度:84. 025. 3525. 3125. 3467. 3467. 3267. 3525. 3567. 3425. 3167. 3225. 3467. 35)()()()(),(2222222211, 1,1, 1,)()()()()()()()()()()()(-*-*-*-rrrruTomSimPpuuPpPpuupTompTompTompTom 同理可得到Tom与用户2的相似度为-0.84。综上,我们得出Tom的最近邻用户是用户1,相似度为0.84,意味着用户1 的评分行为与目标用户更为相似。7.2.3 基于用户
15、的最近邻推荐首先,用户的评分需要按行进行均值中心化(mean-centered): 即以每个用户对每一件物品的评分减去该用户的平均评分得到均值中心化的矩阵,如下表:(3)评分预测upu,pu,-r=s用户用户/ /物品物品物品物品A A物品物品B B物品物品C C物品物品D DTom1.33-1.670.33推荐?用户10.75-2.251.75-0.25用户2-0.51.50.5-1.57.2.3 基于用户的最近邻推荐其次,令V表示目标用户u的k个近邻的集合,故预测用户对某一物品的评分,可使用如下预测函数: 示例中,Tom的邻居用户只有用户1,故得到:VvVvpv,upu,v)Sim(u,s
16、v)Sim(u,r25. 0-s41,pu42. 384. 025. 084. 067. 3)(-*r4Tom,p 由此预测出Tom对物品D的评分为3.42,故不建议推荐。7.2.4 基于物品的最近邻推荐定义基于物品的最近邻推荐算法是利用“物品”而非“用户”的相似度来预测目标用户还可能喜欢哪些物品或内容。简单来讲,基于用户是计算评分矩阵的行之间的相似度,而基于物品是计算列之间的相似度。算法过程 :(1)收集用户的偏好(同上)(2)确定最近邻居物品(3)评分预测(2)确定最近邻居物品 利用用户的历史喜好信息,通过上述相似度度量公式等计算相似度,计算出用户之间的距离,即用户之间的“近邻”关系。仍是
17、以上述例子来说明。由余弦相似度公式,得到物品A与物品D的相似度(注意这里选择的必须是对相同物品都做出评价的用户):7.2.4 基于物品的最近邻推荐41. 0)5 . 1()25. 0()5 . 0(75. 0)5 . 1(*)5 . 0()25. 0(*75. 0),(22222,2,UupuUupuUupupu414141ssssppT(3)评分预测 同理,物品B与物品D的相似度: 物品C与物品D的相似度:预测用户对某一物品的评分,依然可使用如下预测函数:7.2.4 基于物品的最近邻推荐通过比较,显然物品A是与物品D最相似的,物品B、C比较相近(余弦相似度均大于零)。15. 0),(42pp
18、T11. 0),(43ppTPpiPppiu,ipu,iip),T(prp),T(pr 故由所有邻居物品的加权平均总和得到Tom对物品D的预测评分:16. 411. 015. 041. 011. 0415. 0241. 05*r4Tom,p4.16高于Tom的平均评分3.67,故可以选择推荐。基于用户和基于物品两种算法共同存在的问题:数据稀疏与冷启动长尾效应当物品的数量庞大而可用的评分数据太小时,得到的评分矩阵一般都非常稀疏,被称为冷启动问题。此时传统的协同过滤模型得到的预测往往会受到很大的影响。用户的评分频率通常会符合一种长尾效应,即经常被评价的热门物品的数量相对较少,而未被评价的冷门物品占绝大多数。7.2.5 基于用户与基于物品的方法的比较优点基于 物品精度较高;物品-物品
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论