版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用户行为分析与数据挖掘模型研究与应用陶振武究院产业市场所2013-03-262介绍框架用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)3 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析模型 基于群体相似性的智能推荐模型目录4总体框架用户属性训练数据新用户数据模型训练用户调研特征向量用户基础画像数据关联二级划分用户属性数据处理、变换一级划分数据处理、变换训练应用5模型描述(一级) 从GPRS数据流量的角度划分 数据总量:约5.5亿,抽样数据:约
2、100万,抽样率:1.82低流量客户中流量客户高流量客户月GPRS流量0, 1M)1M, 30M(30M, +) 抽样客户数393677329375276948抽样客户占比39.37%32.94%27.69%6模型描述(二级) 根据客户个人属性划分:6大属性,37(26)个标签 属性不可直接获取 抽取部分客户做调研 关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型类中心向量模型属性性别年龄地域学历职业收入标签数28(4)2514(7)6回收9749/发送92万,回收率:10.6 年龄-中老年地域-农村年龄-青壮年职业-学生本地、漫游、GPRS *括号内为类别优化后的标签数7模型
3、应用 应用第一级从流量的角度划分第二级从用户的角度划分流量30M用户群高流量用户低流量用户学历-初中及以下地域-农村年龄-50岁以上地域-城市手机号码一级标签二级标签性别性别年龄年龄地域地域学历学历职业职业收入收入*高流量男青壮年(25-40岁)城市大学本科自由职业者高于9000元*低流量女中老年及老年(50岁以上)农村初中及以下农民3001-5000元8用户属性及标签 性别 男 女 年龄 青少年(13-24岁) 青壮年(25-40岁) 中年(41-50岁) 中老年及老年(50岁以上)n 地域 城镇 农村n 职业 公务员 企业白领 工人 自由职业者 农民 学生 无业n 学历 初中及以下 高中/
4、中专/技校 大专 大学本科 硕士及以上n 收入 低于1500元 1501-3000元 3001-5000元 5001-7000元 7001-9000元 高于9000元9计算过程1、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236,0.3067,0.8300)。2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。特征文件中存储的是各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429,0.4552,0.8322);“中流量女用户的类中心”:(0.
5、7651,0.3464,0.8283)。3、对需要打标签的新数据做与第1步相同的数据转换。例如某用户本地计费时长90分钟,长途计费时长1分钟总费用30元。经过数据转换后得到该用户的向量:(0.7435,0.5330,0.8300)。4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。10介绍框架用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)11 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析模型 基于群体
6、相似性的智能推荐模型目录12研究目标和意义关系群体社会网络关系群体社会网络动态移动轨迹动态移动轨迹ODOD稳定点发现稳定点发现提升家庭、集团客户营销精准度针对性制定竞争策略加强核心客户维系和粘性价值利用群体影响力拓展营销市场掌握用户群体出行规律,强化广告投放、业务营销策略拓展信息化服务业务产品提升目标客户群体圈定的准确率和效率丰满客户画像了解客户分布,定位商务区、居民区、流动性大区域对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。13研究方法包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升关系识别精准度。从
7、数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。1 1)ODOD发现发现/ /轨迹分析轨迹分析:分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;2 2)特征提取)特征提取:提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;3 3)关系分类)关系分类:基于特征建立不同关系分类训练器,计算不同关系和社群聚类,作为社会关系网络基础。地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。使用河南济源三个月(2010.07-09)数据进行研究。14l 阶段一:接
8、口检测l 检测配置文件,读取数据访问权限l 阶段二:数据校验l 检测表结构,清洗数据l 检查实体完整性和参照完整性l 运行状态检测l 检测模型运行状态,运行提示配置文件数据结构数据标准化处理校验15l 阶段三:OD提取(时间+空间优化)l出现频率大的基站区频繁度得到增强l出现次数下限大的基站区频繁度得到增强l周期性规律更显著的基站区得到突出OD识别-解决了数据非实时,数据稀缺的问题解决了数据非实时,数据稀缺的问题-仍有不足,需要利用时空规律进行改进仍有不足,需要利用时空规律进行改进-OD同时被多个基站覆盖,数据分散同时被多个基站覆盖,数据分散-需要进行合并需要进行合并-手机行为随机,不能只用次
9、数作为频繁度刻画手机行为随机,不能只用次数作为频繁度刻画-需要用行为的周期性规律对次数做修正需要用行为的周期性规律对次数做修正OD发现朴素算法发现朴素算法空间规律利用空间规律利用时间规律利用时间规律利用识别效果:识别效果:l共有400000多位用户,其中识别380000位用户OD,识别率约为识别率约为95%95%。l其他12000多位用户由于位置暴露信息过少无法识别,8000多用户O和D只能识别其一。16关系分类分类效果:分类效果:l引入交叉验证功能,家庭识别精家庭识别精度度81%81%,同事识别精度,同事识别精度73%73%。l正在优化训练样本特征提取,逐步结果调优。l 阶段四:产生训练集l
10、 使用已知集团用户或家庭用户关系的其中一方除已知关系外的所有关系作为反例。l 可通过配置文件定义训练集规模l 阶段五:训练分类器l 主要使用用户间通话属性、交往圈重合、OD来进行分类17关系识别识别效果:识别效果:l识别出882178个家庭关系,2147524个同事关系;l形成了形成了1094810948个家庭个家庭,每个家庭的人数平均为5;l形成了形成了47434743个集团个集团,每个集团的人数平均为13。l 阶段六:计算关系l 利用分类器,对用户的关系进行分类l 阶段七:计算群组l 根据得到的关系,可以将用户聚集成组,形成家庭和同事群体18模型识别效果测试模块性能效果OD识别共有4000
11、00多位用户,其中识别380000位用户OD,识别率约为95%95%关系识别模型测试:家庭识别精度81%81%,同事识别精度73%73%实际外呼测试:家庭识别精度75%75%,同事识别精度65%65%群组发现l形成了10948个家庭,每个家庭的人数平均为5;l形成了4743个集团,每个集团的人数平均为13OD切换时间服从正态分布,与日常规律一致不同关系群体与亲密指数分布符合常态规律19关系识别可视化结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家庭集团客户,有助于市场拓展应用和精准营销。以Goog
12、lemap方式展示家庭、同事、朋友等不同关系群体分类查询,静态显示住所和工作地稳定点。列表给出查询用户附近同类群体成员信息,可直接点击查看静态分布。设定时间段,动态播放该关系群体的动态轨迹分布,有助于了解不同群体用户移动出行规律以及消费特征。聚类展示该区域集中的居民区和商务区;利用热度图展示用户密度分布20可视化示意A)基站分布图B)某家庭群体稳定点分布C)某集团群体成员信息D)某家庭群体动态行为轨迹F)聚类展示居民区和工作区E)用户分布密度21介绍框架用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似
13、性(协同/关联等)22 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析应用模型 基于群体相似性的智能推荐模型目录23 业务偏好应用模型研究的需求 如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展激活与推荐。 研究业务偏好应用模型的意义 以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。 以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。 有利于节约成本、提高利润水平,保留和吸引更多用户。背景意义24基于结构化数据的偏好分析模型 通过用户的月基础画像信息自动对用户分群生成用户标签。
14、在每个用户群内,通过用户的业务使用行为做内容关联分析针对每类用户推荐不同的内容。用户基础画像数据用户使用行为数据用户分群内容推荐商务人士上网一族用户标签小乔布斯精彩演说 概念车竟水上飞驰视频名称25输入数据 用户基础画像数据 业务使用行为数据 以手机视频业务为例手机号码收看过的视频内容ID1视频内容ID2视频内容ID313800000002视频内容ID1视频内容ID2视频内容ID3基本信息行为信息费用信息语音使用行为短信使用行为GPRS使用行为WLAN使用行为26业务偏好计算 用户分群: 数据变换、归一化 :解决各个特征的计量单位、大小范围差异大的问题。 K-mean
15、s聚类聚类:使用基础画像信息自动聚出8个类型不同的用户群。27业务偏好计算(1)高资费人群高资费人群:该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平,特别是总费用是各类人群中最高的。(2)标准用户群标准用户群:该类人群特征是绝大部分数值与平均值持平或低于平均值。值得一提的是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产生额外的GPRS通信费。(3)低资费人群低资费人群:该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是总费用是各类人群中最低的。(4)上网发烧友上网发烧友:该类人群特征是上网的流量和费用超高,同时通话等传统业务量少。
16、(5)上网一族上网一族:该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高。与上网发烧友相比,通话等传统业务使用显得更活跃。(6)理性上网群理性上网群:该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜爱上网的上群。同时,GPRS套餐外产生的额外费用几乎没有。(7)商务人士商务人士:该类人群特征是套餐月租费、漫游通话费、无线上网流量在各类人群中最高,符合商务人士出差、经常无线上网的特点。(8)通话达人通话达人:该类人群特征是语音业务套餐费显著高于其他各个用户群。另外,有了语音业务套餐,本地通话仍很频繁。28基于文本的内容过滤推荐模型功能功能根据用户访问过的项集
17、的文本主题特征,向其推荐可能感兴趣的新内容适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,要求能够获得项集的文本特征描述模型输入模型输入有历史访问行为的目标用户u、该用户访问过的内容项(页面、文章、书籍)集合Iu及集合中元素的关键词描述、该用户未访问过的内容项集合RIu以及集合中元素的关键词描述模型输出模型输出目标用户u可能喜欢的内容项Top-N列表出于效率考虑,用户数据分析平台以每个用户访问过的项集的文本特征分别建立该用户的Profile并按日更新,然后通过比对Profile和推荐候选项集的文本特征来实现内容过滤推荐。相比于传统算法,主要进行了如下改进:a.分层多粒度的标签体系。分
18、层多粒度的标签体系。用户偏好特征按照大类-子类-关键词的方式进行组织,能够适应不同的营销场景需求。例如,进行手机阅读推荐时主要使用“阅读”类的标签,进行游戏推荐时主要使用“游戏”类的标签;b.潜在语义分析潜在语义分析。解决不同语境下的多义词问题。29基于文本的内容过滤推荐模型用户用户A用户用户B用户阅读的文章用户阅读的文章雅虎重组自救,胜算几何?正文家用热销2012款新车行情调查正文Profile数据数据IT/互联网:德克尔_0.227451汽车:经济型_0.160784IT/互联网:杨致远_0.454902汽车:省油_23.470320IT/互联网:总裁_0.5681205汽车:热销_0.1
19、76471推荐的文章推荐的文章雅虎欲撤换杨致远 新一轮裁员不可避雅虎董事会欲撤换杨致远 新一轮裁员雅虎股票跌回2月初微软提出收购前价新宝来现金优惠6000元 店内现车供应低油耗对抗高油价 5款小排量增压车行情六款配自动空调时尚小车推荐示例30基于文本的内容过滤推荐模型对于在某一特定文件里的词语 来说,它的重要性可表示为: 是该词在文件 中的出现次数,而分母则是在文件 中所有字词的出现次数之和。 逆向文件频率IDF则计算一个词语普遍重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再对数得到。则一个词语的权重为:根据用户访问过的文件,用向量wc=(wc1,wc2,.,wc
20、k)来表示用户的偏好,其中每个分量wci表示关键词ki对用户c的重要性。而一个文件可以表示为:ws=(w1j,w2j,.,wkj)。则用户对该文件感兴趣的程度是:22),cos(scscsccswwwwwwr31介绍框架用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)32 用户个体属性判别模型 用户社交属性判别模型 用户的业务偏好分析应用模型 基于群体相似性的智能推荐模型目录33基于协同过滤的推荐模型功能功能根据用户之间在历史访问记录上的关联性,预测用户对于未访问项的偏好程度,并进行
21、推荐适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,不需要内容的文本特征,只要有用户的历史访问、下载、评分等数据即可模型输入模型输入目标用户u、系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问权重(可以是访问频次、评分值或根据不同的用户行为类型指定一个相应权值)模型输出模型输出目标用户u可能喜欢的Top-N项列表用户数据分析平台中提供了多种类型的协同过滤算法,主要包括:a.以用户为中心的算法。以用户为中心的算法。为目标用户构建与其偏好类似的近邻集合,向其推荐近邻里用户的喜好的项集;b.以以Item为中心的算法。为中心的算法。为每个Item构建近邻集
22、合,向目标用户推荐与其历史访问记录相似的项集;c.基于基于Item影响集合的算法。影响集合的算法。扩展以Item为中心的算法,考虑逆向近邻以改善性能;d.基于二部图随机游走的算法。基于二部图随机游走的算法。利用用户和Item之间的传递关联性改善性能;e.基于矩阵分解的算法。基于矩阵分解的算法。通过矩阵分解技术将用户访问记录矩阵映射到低维空间,提升在线计算的效率。34基于协同过滤的推荐模型用户游戏a游戏 b游戏 c游戏d游戏ex1231y3413z344?示例为一个用户-项目评分矩阵,其中评分值代表用户对项目的偏好度。评分值可以是由用户提供的,或者是按照某种转化原则从用户行为中推导出的,例如浏览
23、为1分、下载免费版本为2分、付费购买为3分、给予好评得4分示例我们假定任务是向用户z推荐一个他尚未下载过的最喜欢游戏,在本例中,这个问题简化为从游戏d和游戏e中挑选一个用户z最可能喜欢的。根据历史记录,用户z与用户y的相似程度较高,因此用户y的评价会更接近于z的观点,游戏e可能是用户z较喜欢的。实际系统中的用户数和项目数量通常非常庞大,因此这个筛选过程也要复杂得多35基于协同过滤的推荐模型用户Item aItem bx34y24z4?用户z对事物b的评分可能是多少?SlopeOne算法认为:平均值也可以代替某两个未知个体之间的评分差异,事物a对事物b的平均差是:(3 4) + (2 4) /
24、2 = -1.5,也就是说人们对事物b的评分一般比事物a的评分要高1.5,于是SlopeOne算法就猜测z对事物b的评分是4 + 1.5 = 5.536基于FP Tree的关联规则推荐模型功能功能挖掘用户访问记录中存在频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则,用于关联性产品、内容、链接推荐等用途适用范围适用范围业务产品、互联网内容资讯、广告等内容推荐,具体展现通常为在页面中生成相关列表模型输入模型输入系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问情况,当前的请求项i模型输出模型输出与当前请求项i相关的Top-N项列表用户数据分析平台中使用
25、如下方式对关联规则挖掘进行改进:a.基于频繁树的优化。基于频繁树的优化。按照数据库中的访问事务集生成频繁模式树,再对频繁模式树进行挖掘生成频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则b.聚类优化聚类优化。预先对项目进行聚类,按照类别生成关联规则。37基于FP Tree的关联规则推荐模型歌曲歌曲1 1歌曲歌曲2 2歌曲歌曲3 3歌曲歌曲4 4歌曲歌曲4 4歌曲歌曲5 5歌曲歌曲5 5歌曲歌曲7 7歌曲歌曲8 8歌曲歌曲9 9歌曲歌曲1010歌曲歌曲1111歌曲歌曲121210100000000000011000000000011011000000010010010010000010
26、00011000000111010001000010000010011001100100000000101000001110001000001000001100111000001111000000001000010000011001100000100000100001100010011001010001。示例规则1:下载过歌曲5的用户也下载过歌曲3(置信度67%,覆盖率5%)规则2:下载过歌曲5的用户也下载过歌曲6(置信度50%,覆盖率6%):规则k:置信度:规则成立的可能性覆盖率:同时下载了规则中包含歌曲的比率用途示例:当用户访问歌曲5的页面时,将关联规则中置信度和覆盖率较高的歌曲显示在页面中的推荐位,以提升用户转化率。38基于社会网络的推荐基于社会网络的推荐模型模型功能功能通过用户的通话、短信、好友关系等信息,构建用户之间的社会网络,向社会网络中关联较为密切的节点推荐相似的内容适用范围适用范围互联网内容资讯、广告等内容推荐,以及兴趣偏好相似的用户群推荐。相比基于内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 招标方案文件编写指南解析3篇
- 招标文件撰写范本3篇
- 工业煤油购销合同3篇
- 教育教学资源开发分包协议3篇
- 换热站施工条件3篇
- 教育培训基础合同3篇
- 数控加工刀具招标文件模板3篇
- 断桥铝门窗维护保养采购招标3篇
- 燃气工程市场社交媒体推广协议
- 剧院舞台漏水处理协议
- 绩效考核管理办法(15篇)
- 格林巴利综合征的康复
- 2024年安徽省蚌埠二中高一自主招生考试英语
- 《比赛场次》(教学设计)-2023-2024学年北师大版数学六年级上册
- 房屋退还协议书范本
- 北京市东城区2023-2024学年八年级上学期期末生物试题【含答案解析】
- 江苏省南京市选调生考试(行政职业能力测验)综合能力题库含答案
- 幼儿园劳动教育国内外研究现状
- 2021-2022学年江苏省无锡市惠山区苏教版四年级上册期末测试数学试卷
- 军事理论-综合版-知到答案、智慧树答案
- 光伏发电技术项目投标书(技术标)
评论
0/150
提交评论