版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用户行为分析与数据挖掘模型 研究与应用 2013-03-26 2 介绍框架 用户群体用户群体 个体属性个体属性 (职业/性别/收入等) 社会属性社会属性 (家庭/团队等) 个体偏好个体偏好 (阅读/视频/音乐等) 群体相似性群体相似性 (协同/关联等) 3 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析模型 基于群体相似性的智能推荐模型 目录 4 总体框架 用户属性 训练数据 新用户数据 模型训练 用户调研 特征向量 用户基础 画像数据 关联 二级划分 用户属性 数据处理、 变换 一级划分 数据处理、 变换 训练应用 5 模型描述(一级) 从GPRS数据流量的角度划分 数据总量
2、:约5.5亿,抽样数据:约100万,抽样率 :1.82 低流量客户中流量客户高流量客户 月GPRS流量0, 1M)1M, 30M(30M, +) 抽样客户数393677329375276948 抽样客户占比39.37%32.94%27.69% 6 模型描述(二级) 根据客户个人属性划分:6大属性,37(26)个标 签 属性不可直接获取 抽取部分客户做调研 关联调研数据与基础画像数据,为每一维度每一类别建 立类中心向量模型类中心向量模型 属性性别年龄地域学历职业收入 标签数28(4)2514(7)6 回收9749/发送92万,回收率:10.6 年龄-中老年 地域-农村 年龄-青壮年 职业-学生
3、本地、漫游、 GPRS *括号内为类别优化后的标签数 7 模型应用 应用 第一级 从流量的角度划分 第二级 从用户的角度划分 流量30M 用户群 高流量用户 低流量用户 学历-初中及以下 地域-农村 年龄-50岁以上 地域-城市 手机号码一级标签 二级标签 性别性别年龄年龄地域地域学历学历职业职业收入收入 *高流量男 青壮年 (25-40岁) 城市 大学 本科 自由职业者高于9000元 *低流量女 中老年及老年 (50岁以上) 农村 初中及 以下 农民3001-5000元 8 用户属性及标签 性别 男 女 年龄 青少年(13-24岁) 青壮年(25-40岁) 中年(41-50岁) 中老年及老年
4、(50岁以 上) n 地域 城镇 农村 n 职业 公务员 企业白领 工人 自由职业者 农民 学生 无业 n 学历 初中及以下 高中/中专/技校 大专 大学本科 硕士及以上 n 收入 低于1500元 1501-3000元 3001-5000元 5001-7000元 7001-9000元 高于9000元 9 计算过程 1、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、 费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236, 0.3067,0.8300)。 2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。特征文件中存储的 是
5、各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429 ,0.4552,0.8322);“中流量女用户的类中心”:(0.7651,0.3464,0.8283)。 3、对需要打标签的新数据做与第1步相同的数据转换。 例如某用户本地计费时长90分钟,长途计费时长1分钟总费用30元。 经过数据转换后得到该用户的向量:(0.7435,0.5330,0.8300)。 4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果, 将与用户距离近的类别标签赋予该用户。 10 介绍框架 用户群体用户群体 个体属性个体属性 (职业/性别/收入等) 社会属性社会属性
6、 (家庭/团队等) 个体偏好个体偏好 (阅读/视频/音乐等) 群体相似性群体相似性 (协同/关联等) 11 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析模型 基于群体相似性的智能推荐模型 目录 12 研究目标和意义 关系群体社会网络关系群体社会网络动态移动轨迹动态移动轨迹ODOD稳定点发现稳定点发现 提升家庭、集团 客户营销精准度 针对性制定竞争 策略 加强核心客户维 系和粘性价值 利用群体影响力 拓展营销市场 掌握用户群体出 行规律,强化广 告投放、业务营 销策略 拓展信息化服务 业务产品 提升目标客户群 体圈定的准确率 和效率 丰满客户画像 了解客户分布, 定位商务区、居
7、 民区、流动性大 区域 对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行 建模,判别用户间各类交往关系,如家庭、同事等。 13 研究方法 包括用户个人通话行为、用户交往圈以及用户移动轨迹, 首次引入不同时段的位置信息,提升关系识别精准度。 从数据仓库中读取源数据,校验数据的完整性,去除冗 余和具有明显错误的数据。 1 1)ODOD发现发现/ /轨迹分析轨迹分析:分析基站数据得到用户移动轨 迹的时间和空间规律,可判定用户的OD稳定点,有助 于描述用户行为模式和关系特征; 2 2)特征提取)特征提取:提取样本OD、通话频次、交往规律等 用户行为特征,作为关系分类判别的依据; 3 3)关系分
8、类)关系分类:基于特征建立不同关系分类训练器,计 算不同关系和社群聚类,作为社会关系网络基础。 地图直观展示用户稳定点和关系分布,动态显示用户群 行为轨迹,可作为营销参考依据,并支持灵活扩展配置。 使用河南济源三个月(2010.07-09)数据进行研究。 14 l 阶段一:接口检测 l 检测配置文件,读取数据访问权限 l 阶段二:数据校验 l 检测表结构,清洗数据 l 检查实体完整性和参照完整性 l 运行状态检测 l 检测模型运行状态,运行提示 配置文件数据结构 数据标准化处理校验 15 l 阶段三:OD提取(时间+空间优化) l出现频率大的基站区频繁度得到增强 l出现次数下限大的基站区频繁度
9、得到 增强 l周期性规律更显著的基站区得到突出 OD识别 -解决了数据非实时,数据稀缺的问题解决了数据非实时,数据稀缺的问题 -仍有不足,需要利用时空规律进行改进仍有不足,需要利用时空规律进行改进 -OD同时被多个基站覆盖,数据分散同时被多个基站覆盖,数据分散 -需要进行合并需要进行合并 -手机行为随机,不能只用次数作为频繁度刻画手机行为随机,不能只用次数作为频繁度刻画 -需要用行为的周期性规律对次数做修正需要用行为的周期性规律对次数做修正 OD发现朴素算法发现朴素算法 空间规律利用空间规律利用 时间规律利用时间规律利用 识别效果:识别效果: l共有400000多位用户,其中识别 380000
10、位用户OD,识别率约为识别率约为 95%95%。 l其他12000多位用户由于位置暴 露信息过少无法识别,8000多用户 O和D只能识别其一。 16 关系分类 分类效果:分类效果: l引入交叉验证功能,家庭识别精家庭识别精 度度81%81%,同事识别精度,同事识别精度73%73%。 l正在优化训练样本特征提取,逐 步结果调优。 l 阶段四:产生训练集 l 使用已知集团用户或家庭用户关 系的其中一方除已知关系外的所 有关系作为反例。 l 可通过配置文件定义训练集规模 l 阶段五:训练分类器 l 主要使用用户间通话属性、交往 圈重合、OD来进行分类 17 关系识别 识别效果:识别效果: l识别出8
11、82178个家庭关系, 2147524个同事关系; l形成了形成了1094810948个家庭个家庭,每个家庭 的人数平均为5; l形成了形成了47434743个集团个集团,每个集团的 人数平均为13。 l 阶段六:计算关系 l 利用分类器,对用户的关系进行 分类 l 阶段七:计算群组 l 根据得到的关系,可以将用户聚 集成组,形成家庭和同事群体 18 模型识别效果测试 模块性能效果 OD识别共有400000多位用户,其中识别380000位用户OD,识别率约为95%95% 关系识别模型测试:家庭识别精度81%81%,同事识别精度73%73% 实际外呼测试:家庭识别精度75%75%,同事识别精度6
12、5%65% 群组发现l形成了10948个家庭,每个家庭的人数平均为5; l形成了4743个集团,每个集团的人数平均为13 OD切换时间服从正态分布,与日常规律一致不同关系群体与亲密指数分布符合常态规律 19 关系识别可视化 结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、 OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家 庭集团客户,有助于市场拓展应用和精准营销。 以Googlemap方式展示 家庭、同事、朋友等不同关系 群体分类查询,静态显示住所 和工作地稳定点。 列表给出查询用户附近同类群 体成员信息,可直接点击查看 静态分布。 设定时间段
13、,动态播放该关系 群体的动态轨迹分布,有助于 了解不同群体用户移动出行规 律以及消费特征。 聚类展示该区域集中的居民区 和商务区; 利用热度图展示用户密度分布 20 可视化示意 A)基站分 布图 B)某家庭群体稳 定点分布 C)某集团群体 成员信息 D)某家庭群体 动态行为轨迹 F)聚类展示居民 区和工作区 E)用户分布密度 21 介绍框架 用户群体用户群体 个体属性个体属性 (职业/性别/收入等) 社会属性社会属性 (家庭/团队等) 个体偏好个体偏好 (阅读/视频/音乐等) 群体相似性群体相似性 (协同/关联等) 22 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析应用模型
14、基于群体相似性的智能推荐模型 目录 23 业务偏好应用模型研究的需求 如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务 偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展 激活与推荐。 研究业务偏好应用模型的意义 以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。 以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。 有利于节约成本、提高利润水平,保留和吸引更多用户。 背景意义 24 基于结构化数据的偏好分析模型 通过用户的月基础画像信 息自动对用户分群生成 用户标签。 在每个用户群内,通过用 户的业务使用行为做内容 关联分析针对每类用户 推荐不同
15、的内容。 用户基础 画像数据 用户使用 行为数据 用户分群 内容推荐 商 务 人 士 上 网 一 族 用户标签 小乔布斯精彩演说 概念车竟水上飞驰 视 频 名 称 25 输入数据 用户基础画像数据 业务使用行为数据 以手机视频业务为例手机号码收看过的视频频内容ID1视频内容ID2视频内容ID3频内容ID1视频内容ID2视频内容ID3 基本信息 行为信息 费用信息语音使 用行为 短信使 用行为 GPRS使 用行为 WLAN使 用行为 26 业务偏好计算 用户分群: 数据变换、归一化 :解决各个特征的计量单位、大小范 围差异大的问题。 K-mea
16、ns聚类聚类:使用基础画像信息自动聚出8个类型不 同的用户群。 27 业务偏好计算 (1)高资费人群高资费人群:该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平, 特别是总费用是各类人群中最高的。 (2)标准用户群标准用户群:该类人群特征是绝大部分数值与平均值持平或低于平均值。值得一提的 是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产 生额外的GPRS通信费。 (3)低资费人群低资费人群:该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是 总费用是各类人群中最低的。 (4)上网发烧友上网发烧友:该类人群特征是上网的流量和费用超高,
17、同时通话等传统业务量少。 (5)上网一族上网一族:该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高 。与上网发烧友相比,通话等传统业务使用显得更活跃。 (6)理性上网群理性上网群:该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜 爱上网的上群。同时,GPRS套餐外产生的额外费用几乎没有。 (7)商务人士商务人士:该类人群特征是套餐月租费、漫游通话费、无线上网流量在各类人群中最 高,符合商务人士出差、经常无线上网的特点。 (8)通话达人通话达人:该类人群特征是语音业务套餐费显著高于其他各个用户群。另外,有了语 音业务套餐,本地通话仍很频繁。 28 基于文本的
18、内容过滤推荐模型 功能功能根据用户访问过的项集的文本主题特征,向其推荐可能感兴趣的新内容 适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,要求能够获得项集的文本特 征描述 模型输入模型输入有历史访问行为的目标用户u、该用户访问过的内容项(页面、文章、书籍) 集合Iu及集合中元素的关键词描述、该用户未访问过的内容项集合RIu以及集 合中元素的关键词描述 模型输出模型输出目标用户u可能喜欢的内容项Top-N列表 出于效率考虑,用户数据分析平台以每个用户访问过的项集的文本特征分别建立该用户的 Profile并按日更新,然后通过比对Profile和推荐候选项集的文本特征来实现内容过滤推荐。相
19、比 于传统算法,主要进行了如下改进: a.分层多粒度的标签体系。分层多粒度的标签体系。用户偏好特征按照大类-子类-关键词的方式进行组织,能够适应不同 的营销场景需求。例如,进行手机阅读推荐时主要使用“阅读”类的标签,进行游戏推荐时主 要使用“游戏”类的标签; b.潜在语义分析潜在语义分析。解决不同语境下的多义词问题。 29 基于文本的内容过滤推荐模型 用户用户A用户用户B 用户阅读的文章用户阅读的文章雅虎重组自救,胜算几何? 正文 家用热销2012款新车行情调查 正文 Profile数据数据IT/互联网:德克尔_0.227451汽车:经济型_0.160784 IT/互联网:杨致远_0.4549
20、02汽车:省油_23.470320 IT/互联网:总裁_0.5681205汽车:热销_0.176471 推荐的文章推荐的文章雅虎欲撤换杨致远 新一轮裁员 不可避 雅虎董事会欲撤换杨致远 新一 轮裁员 雅虎股票跌回2月初微软提出收 购前价 新宝来现金优惠6000元 店内现车供应 低油耗对抗高油价 5款小排量增压车 行情 六款配自动空调时尚小车推荐 示例 30 基于文本的内容过滤推荐模型 对于在某一特定文件里的词语 来说,它的重要性可表示为: 是该词在文件 中的出现次数,而分母则是在文件 中所有字词的出现次数之和。 逆向文件频率IDF则计算一个词语普遍重要性。某一特定词语的IDF,可以由总文件数
21、目除以包含该词语之文件的数目,再对数得到。 则一个词语的权重为: 根据用户访问过的文件,用向量wc=(wc1,wc2,.,wck)来表示用户的偏好,其中每个分 量wci表示关键词ki对用户c的重要性。而一个文件可以表示为:ws=(w1j,w2j,.,wkj)。 则用户对该文件感兴趣的程度是: 22 ),cos( sc sc sccs ww ww wwr 31 介绍框架 用户群体用户群体 个体属性个体属性 (职业/性别/收入等) 社会属性社会属性 (家庭/团队等) 个体偏好个体偏好 (阅读/视频/音乐等) 群体相似性群体相似性 (协同/关联等) 32 用户个体属性判别模型 用户社交属性判别模型
22、用户的业务偏好分析应用模型 基于群体相似性的智能推荐模型 目录 33 基于协同过滤的推荐模型 功能功能根据用户之间在历史访问记录上的关联性,预测用户对于未访问项的偏好程 度,并进行推荐 适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,不需要内容的文本特征,只 要有用户的历史访问、下载、评分等数据即可 模型输入模型输入目标用户u、系统中所有用户访问过的内容项(页面、文章、书籍)集合I及 对每个用户对集合中元素的访问权重(可以是访问频次、评分值或根据不同 的用户行为类型指定一个相应权值) 模型输出模型输出目标用户u可能喜欢的Top-N项列表 用户数据分析平台中提供了多种类型的协同过滤算法
23、,主要包括: a.以用户为中心的算法。以用户为中心的算法。为目标用户构建与其偏好类似的近邻集合,向其推荐近邻里用户的喜 好的项集; b.以以Item为中心的算法。为中心的算法。为每个Item构建近邻集合,向目标用户推荐与其历史访问记录相似的 项集; c.基于基于Item影响集合的算法。影响集合的算法。扩展以Item为中心的算法,考虑逆向近邻以改善性能; d.基于二部图随机游走的算法。基于二部图随机游走的算法。利用用户和Item之间的传递关联性改善性能; e.基于矩阵分解的算法。基于矩阵分解的算法。通过矩阵分解技术将用户访问记录矩阵映射到低维空间,提升在线计 算的效率。 34 基于协同过滤的推荐
24、模型 用户游戏a游戏 b游戏 c游戏d游戏e x 1231 y 3413 z 344? 示例为一个用户-项目评分矩 阵,其中评分值代表用户对 项目的偏好度。评分值可以 是由用户提供的,或者是按 照某种转化原则从用户行为 中推导出的,例如浏览为1分、 下载免费版本为2分、付费购 买为3分、给予好评得4分 示例 我们假定任务是向用户z推荐一个他尚未下载过的最喜欢游戏,在本例中,这个问题简化为从 游戏d和游戏e中挑选一个用户z最可能喜欢的。根据历史记录,用户z与用户y的相似程度较高, 因此用户y的评价会更接近于z的观点,游戏e可能是用户z较喜欢的。 实际系统中的用户数和项目数量通常 非常庞大,因此这
25、个筛选过程也要复 杂得多 35 基于协同过滤的推荐模型 用户Item aItem b x34 y24 z4? 用户z对事物b的评分可能是多少?SlopeOne算法认为:平均值也可以 代替某两个未知个体之间的评分差异,事物a对事物b的平均差是:(3 4) + (2 4) / 2 = -1.5,也就是说人们对事物b的评分一般比事物a的评分要高 1.5,于是SlopeOne算法就猜测z对事物b的评分是4 + 1.5 = 5.5 36 基于FP Tree的关联规则推荐模型 功能功能挖掘用户访问记录中存在频繁模式,最后根据频繁模式生成带有置信度权重 的关联推荐规则,用于关联性产品、内容、链接推荐等用途
26、适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,具体展现通常为在页面中生 成相关列表 模型输入模型输入系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对 集合中元素的访问情况,当前的请求项i 模型输出模型输出与当前请求项i相关的Top-N项列表 用户数据分析平台中使用如下方式对关联规则挖掘进行改进: a.基于频繁树的优化。基于频繁树的优化。按照数据库中的访问事务集生成频繁模式树,再对频繁模式树进行挖掘 生成频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则 b.聚类优化聚类优化。预先对项目进行聚类,按照类别生成关联规则。 37 基于FP Tree的关联规则推
27、荐模型 歌曲歌曲1 1歌曲歌曲2 2歌曲歌曲3 3歌曲歌曲4 4歌曲歌曲4 4歌曲歌曲5 5歌曲歌曲5 5歌曲歌曲7 7歌曲歌曲8 8歌曲歌曲9 9歌曲歌曲1010歌曲歌曲1111歌曲歌曲1212 1010000000000 0011000000000 0110110000000 1001001001000 0010000110000 0011101000100 0010000010011 0011001000000 0010100000111 0001000001000 0011001110000 0111100000000 1000010000011 0011000001000 00100
28、00110001 0011001010001 。 示例 规则1:下载过歌曲5的用户也下载过歌曲3(置信度67%,覆盖率5%) 规则2:下载过歌曲5的用户也下载过歌曲6(置信度50%,覆盖率6%) : 规则k: 置信度:规则成立的可 能性 覆盖率:同时下载了规 则中包含歌曲的比率 用途示例:当用户访问歌曲5的页面时,将关联规则中置信度和覆盖率较高的歌曲显示在页面中的 推荐位,以提升用户转化率。 38 基于社会网络的推荐基于社会网络的推荐模型模型 功能功能通过用户的通话、短信、好友关系等信息,构建用户之间的社会网络,向社 会网络中关联较为密切的节点推荐相似的内容 适用范围适用范围 互联网内容资讯、广告等内容推荐,以及兴趣偏好相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国递纸嘴市场调查研究报告
- 二零二五年度二手车出口业务合同
- 2024年中国超大口径电磁感应封口机市场调查研究报告
- 2024年适用:建筑工程招投标与合同管理考试题
- 2024年中国调速电机齿轮市场调查研究报告
- 病症中医护理
- 二零二五年度专业市场委托运营管理与品牌推广协议3篇
- 二零二五年度养老产业PPP项目合同风险分析与风险防范3篇
- 二零二五年度丙方维护服务合同2篇
- 2024年中国火车组合床市场调查研究报告
- Q∕SY 05592-2019 油气管道管体修复技术规范
- 《1.我又长大了一岁》教学课件∣泰山版
- JIS G3141-2021 冷轧钢板及钢带标准
- qes三体系审核培训ppt课件
- 篮球校本课程教材
- 小学数学校本教材(共51页)
- 遗传群体文献解读集
- 工艺装备环保性与安全性的设计要点
- [玻璃幕墙施工方案]隐框玻璃幕墙施工方案
- 国家开放大学电大本科《管理案例分析》2023-2024期末试题及答案(试卷代号:1304)
- 生产安全事故的应急救援预案
评论
0/150
提交评论