用户行为分析与数据挖掘模型研究与应用_第1页
用户行为分析与数据挖掘模型研究与应用_第2页
用户行为分析与数据挖掘模型研究与应用_第3页
用户行为分析与数据挖掘模型研究与应用_第4页
用户行为分析与数据挖掘模型研究与应用_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用户行为分析与数据挖掘模型研究与应用陶振武,taozhenwu@究院产业市场所2013-03-26介绍框架用户群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)2用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析模型基于群体相似性的智能推荐模型目录3总体框架用户属性训练数据新用户数据模型训练用户调研特征向量用户基础画像数据关联二级划分用户属性数据处理、变换一级划分数据处理、变换训练应用4模型描述(一级)从GPRS数据流量的角度划分数据总量:约5.5亿,抽样数据:约100万,抽样率:1.82‰低流量客户中流量客户高流量客户月GPRS流量[0,1M)[1M,30M](30M,+∞)抽样客户数393677329375276948抽样客户占比39.37%32.94%27.69%5模型描述(二级)根据客户个人属性划分:6大属性,37(26)个标签属性不可直接获取抽取部分客户做调研关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型属性性别年龄地域学历职业收入标签数28(4)2514(7)6回收9749/发送92万,回收率:10.6‰年龄-中老年地域-农村年龄-青壮年职业-学生本地、漫游、GPRS………*括号内为类别优化后的标签数6模型应用应用第一级从流量的角度划分第二级从用户的角度划分…流量<1M…流量>30M用户群高流量用户低流量用户学历-初中及以下地域-农村年龄-50岁以上地域-城市…手机号码一级标签二级标签性别年龄地域学历职业收入***高流量男青壮年(25-40岁)城市大学本科自由职业者高于9000元***低流量女中老年及老年(50岁以上)农村初中及以下农民3001-5000元7用户属性及标签性别男女年龄青少年(13-24岁)青壮年(25-40岁)中年(41-50岁)中老年及老年(50岁以上)地域城镇农村职业公务员企业白领工人自由职业者农民学生无业学历初中及以下高中/中专/技校大专大学本科硕士及以上收入低于1500元1501-3000元3001-5000元5001-7000元7001-9000元高于9000元8计算过程1、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236,0.3067,…,0.8300)。2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。特征文件中存储的是各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429,0.4552,…,0.8322);“中流量女用户的类中心”:(0.7651,0.3464,…,0.8283)。3、对需要打标签的新数据做与第1步相同的数据转换。例如某用户本地计费时长90分钟,长途计费时长1分钟……总费用30元。经过数据转换后得到该用户的向量:(0.7435,0.5330,…,0.8300)。4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。9介绍框架用户群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)10用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析模型基于群体相似性的智能推荐模型目录11研究目标和意义关系群体社会网络动态移动轨迹OD稳定点发现提升家庭、集团客户营销精准度针对性制定竞争策略加强核心客户维系和粘性价值利用群体影响力拓展营销市场掌握用户群体出行规律,强化广告投放、业务营销策略拓展信息化服务业务产品提升目标客户群体圈定的准确率和效率丰满客户画像了解客户分布,定位商务区、居民区、流动性大区域对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。12研究方法包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升关系识别精准度。从数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。1)OD发现/轨迹分析:分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;2)特征提取:提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;3)关系分类:基于特征建立不同关系分类训练器,计算不同关系和社群聚类,作为社会关系网络基础。地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。使用河南济源三个月(2010.07-09)数据进行研究。13阶段一:接口检测检测配置文件,读取数据访问权限阶段二:数据校验检测表结构,清洗数据检查实体完整性和参照完整性运行状态检测检测模型运行状态,运行提示配置文件数据结构数据标准化处理校验14阶段三:OD提取(时间+空间优化)出现频率大的基站区频繁度得到增强出现次数下限大的基站区频繁度得到增强周期性规律更显著的基站区得到突出OD识别解决了数据非实时,数据稀缺的问题仍有不足,需要利用时空规律进行改进OD同时被多个基站覆盖,数据分散需要进行合并-手机行为随机,不能只用次数作为频繁度刻画-需要用行为的周期性规律对次数做修正OD发现朴素算法空间规律利用时间规律利用识别效果:共有400000多位用户,其中识别380000位用户OD,识别率约为95%。其他12000多位用户由于位置暴露信息过少无法识别,8000多用户O和D只能识别其一。15关系分类分类效果:引入交叉验证功能,家庭识别精度81%,同事识别精度73%。正在优化训练样本特征提取,逐步结果调优。阶段四:产生训练集使用已知集团用户或家庭用户关系的其中一方除已知关系外的所有关系作为反例。可通过配置文件定义训练集规模阶段五:训练分类器主要使用用户间通话属性、交往圈重合、OD来进行分类16关系识别识别效果:识别出882178个家庭关系,2147524个同事关系;形成了10948个家庭,每个家庭的人数平均为5;形成了4743个集团,每个集团的人数平均为13。阶段六:计算关系利用分类器,对用户的关系进行分类阶段七:计算群组根据得到的关系,可以将用户聚集成组,形成家庭和同事群体17模型识别效果测试模块性能效果OD识别共有400000多位用户,其中识别380000位用户OD,识别率约为95%关系识别模型测试:家庭识别精度81%,同事识别精度73%实际外呼测试:家庭识别精度75%,同事识别精度65%群组发现形成了10948个家庭,每个家庭的人数平均为5;形成了4743个集团,每个集团的人数平均为13OD切换时间服从正态分布,与日常规律一致不同关系群体与亲密指数分布符合常态规律18关系识别可视化结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家庭集团客户,有助于市场拓展应用和精准营销。以Googlemap方式展示家庭、同事、朋友等不同关系群体分类查询,静态显示住所和工作地稳定点。列表给出查询用户附近同类群体成员信息,可直接点击查看静态分布。设定时间段,动态播放该关系群体的动态轨迹分布,有助于了解不同群体用户移动出行规律以及消费特征。聚类展示该区域集中的居民区和商务区;利用热度图展示用户密度分布19可视化示意A)基站分布图B)某家庭群体稳定点分布C)某集团群体成员信息D)某家庭群体动态行为轨迹F)聚类展示居民区和工作区E)用户分布密度20介绍框架用户群体个体属性(职业/性别/收入等)社会属性(家庭/团队等)个体偏好(阅读/视频/音乐等)群体相似性(协同/关联等)21用户个体属性判别模型用户社交属性判别模型用户的业务偏好分析应用模型基于群体相似性的智能推荐模型目录22业务偏好应用模型研究的需求如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展激活与推荐。研究业务偏好应用模型的意义以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。有利于节约成本、提高利润水平,保留和吸引更多用户。背景意义23基于结构化数据的偏好分析模型通过用户的月基础画像信息自动对用户分群

生成用户标签。在每个用户群内,通过用户的业务使用行为做内容关联分析

针对每类用户推荐不同的内容。用户基础画像数据用户使用行为数据用户分群内容推荐商务人士上网一族……用户标签小乔布斯精彩演说概念车竟水上飞驰……视频名称24输入数据用户基础画像数据业务使用行为数据以手机视频业务为例手机号码收看过的视频内容ID1视频内容ID2视频内容ID3…频内容ID1视频内容ID2视频内容ID3……基本信息行为信息费用信息语音使用行为短信使用行为GPRS使用行为WLAN使用行为25业务偏好计算用户分群:数据变换、归一化:解决各个特征的计量单位、大小范围差异大的问题。K-means聚类:使用基础画像信息自动聚出8个类型不同的用户群。26业务偏好计算(1)高资费人群:该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平,特别是总费用是各类人群中最高的。(2)标准用户群:该类人群特征是绝大部分数值与平均值持平或低于平均值。值得一提的是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产生额外的GPRS通信费。(3)低资费人群:该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是总费用是各类人群中最低的。(4)上网发烧友:该类人群特征是上网的流量和费用超高,同时通话等传统业务量少。(5)上网一族:该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高。与上网发烧友相比,通话等传统业务使用显得更活跃。(6)理性上网群:该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜爱上网的上群。同时,GPRS套餐外产生的额外费用几乎没有。(7)商务人士:该类人群特征是套餐月租费、漫游通话费、无线上网流量在各类人群中最高,符合商务人士出差、经常无线上网的特点。(8)通话达人:该类人群特征是语音业务套餐费显著高于其他各个用户群。另外,有了语音业务套餐,本地通话仍很频繁。27基于文本的内容过滤推荐模型功能根据用户访问过的项集的文本主题特征,向其推荐可能感兴趣的新内容适用范围业务产品、互联网内容资讯、广告等内容推荐,要求能够获得项集的文本特征描述模型输入有历史访问行为的目标用户u、该用户访问过的内容项(页面、文章、书籍)集合Iu及集合中元素的关键词描述、该用户未访问过的内容项集合RIu以及集合中元素的关键词描述模型输出目标用户u可能喜欢的内容项Top-N列表出于效率考虑,用户数据分析平台以每个用户访问过的项集的文本特征分别建立该用户的Profile并按日更新,然后通过比对Profile和推荐候选项集的文本特征来实现内容过滤推荐。相比于传统算法,主要进行了如下改进:a.分层多粒度的标签体系。用户偏好特征按照大类-子类-关键词的方式进行组织,能够适应不同的营销场景需求。例如,进行手机阅读推荐时主要使用“阅读”类的标签,进行游戏推荐时主要使用“游戏”类的标签;b.潜在语义分析。解决不同语境下的多义词问题。28基于文本的内容过滤推荐模型用户A用户B用户阅读的文章雅虎重组自救,胜算几何?正文……家用热销2012款新车行情调查正文…………Profile数据[IT/互联网:德克尔_0.227451][汽车:经济型_0.160784][IT/互联网:杨致远_0.454902][汽车:省油_23.470320][IT/互联网:总裁_0.5681205][汽车:热销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论