用户行为数据分析_第1页
用户行为数据分析_第2页
用户行为数据分析_第3页
用户行为数据分析_第4页
用户行为数据分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于海量用户行为数据分析的互联网增值新业务What , Why and How基于海量用户行为数据分析的互联网增值新业务What , Why and How基于海量用户行为数据分析的互联网增值新业务What , Why and HowWhat ? 要作什么事 对每个宽带用户的每次浏览网页行为进行记录,在海量的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的“画像”。 按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分。 依托运营商平台,利用网络广告、直投、个性化内容推送等手段对宽带用户进行“一对一”的精准营销。What 图解用户上网的历史行为用户属性和行为特征

2、男性年龄25-35岁来自北京.海淀.上地IT从业人士热衷科技产品Nokia N95用户中高端消费等级喜欢户外运动和旅游追求奢侈品.What 图解 续客户群A客户群B客户群C客户群D客户群E客户群F用户标识和特征用户标识和特征用户精细划分用户精细划分精准营销精准营销Why ? - 为网通带来新价值 精准广告收入 合作模式:与网络广告商、传统广告商、SP、广告联盟分成 精准的用户属性将大幅度提高广告的价值,让每一次Page View都变成金子 自营模式:个性化内容推送 例子: “一对一”的个性化号百和12580 想用户所想,急用户所急 直销(DM)分成收入:与最终厂商合作 提升ARPU值,快速拓展

3、新用户 采用精准的营销策略精准的营销策略带动用户升速 分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP会吸引升速用户? 通过DM捆绑销售和优惠的接入价格优惠的接入价格快速拓展新用户 在新竞争格局中领先一步,形成良性的循环:更低的接入价格带来更多的用户,获得更多的增值业务收入How ? HyperCloud解决方案 技术架构 核心处理算法 演示 ROI分析低成本和可靠的低成本和可靠的海量存储子系统海量存储子系统平滑可扩展的平滑可扩展的分布式运算子分布式运算子系统系统高吞吐率的高吞吐率的运营服务子运营服务子系统系统低成本和可靠的海量存储子系统多级别存储,成本降到300$/TB无需RAID

4、支持,保证99.9%可用性多元数据服务器,管理亿级数量文件可在线扩展至PB级规模条带化存储,多数据通路聚合支持对象存储(OSD)接口I/O缓存平滑可扩展的分布式运算子系统 3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化 Key-Value Query with Memory Cache 突破Key-Value Query的瓶颈,单点上亿条规模Key-Value对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz Range Query with Memory Datab

5、ase 列存储(Column-based)结构,突破Range Query的瓶颈,单点上亿条记录的Range Query ( select x from t where a y and y 隐性特征是大样本基础上的机器学习 Machine Learning,ML ),例子 “劲舞团” = 游戏 - 舞蹈类 | 青少年 85% “兰寇” = 化妆品 - 兰寇 | 女 70% 高端 = 65% “铁血” = 爱国 | 男 90% “美女” = 闲逛 | 男 90% “爱卡论坛” /“宝马” = 汽车 - 宝马 | 高端消费人群 70% 中端消费人群 60% 低端 30% “奶粉” = 婴幼儿用品

6、- 奶粉 | 女 70%,有小孩90% “内衣”, “爱慕” = 内衣 - 文胸 - 爱慕 | 女 85%核心处理算法 (3)处理流程HTTP请求数据Radius计费镜像数据垃圾流量过滤器(ML)垃圾流量排名Radius归并过滤器广告流量过滤器(ML)广告流量排名用户会话/ 点击路径识别过滤器高权重行为模式分析器泛行为模式分析器访问统计过滤器第三方PV,UV,ADV,PUV权威排名爬取分词关键词排序(ML)样本库精准匹配模式库行业Top 20样本库样本库用户显性特征(关键词)用户隐性特征(用户分群)隐性特征推理器(ML)Top 10000词推理样本分类库 (行业/职业、商品)统计过滤器 热点、

7、舆情、行业咨询对接运营服务对接运营服务系统(广告或系统(广告或内容推送)内容推送)演示 Get a feeling of it 演示用的数据样本来源 某运营商(江苏南京) 20000用户一周数据 计费系统Radius数据:1000万条 , 10GB 包含:ADSL帐号、上线时间、离线时间、帐号、上线时间、离线时间、IP地址地址 用户所有上网行为数据(未清洗前):14亿条HTTP Requests, 1TB 包含:Client IP地址地址, HTTP Host, URL, Cookie, Referer, Agent 数据分析平台 使用2台双路4核 Dell 1950需要16小时 使用10台双

8、路4核 Dell 1950只需要1小时1、用户群精准定位演示 按关键词关键词关键词“二手二手房房”对对“二手二手房房”关注关注的用户群的用户群宽带用户宽带用户z68862449的的敏感关键词表敏感关键词表用户详细用户详细宽带帐号宽带帐号性别推断性别推断DSLAM位置位置2、用户群精准定位演示 按行业行业行业“汽车汽车”“汽车汽车”相相关的关的SP频频道道Top排名排名对其中某对其中某个频道关个频道关注的用户注的用户群群3、用户深度分析演示宽带用户帐号宽带用户帐号性别分析性别分析消费层次分析消费层次分析最经常访问的最经常访问的内容频道内容频道最经常上的最经常上的网站网站最关注的关键最关注的关键词词ROI分析 成本 每百万用户硬件成本(不含推送系统): 服务器:规格:Dell PowerEdge 1950 ( 1U ) , 双路4核, 4G, SAS 300G * 2,数量:50,造价:15000*50 = 75 (万元) 存储设备,用于存档备份 规格: Dell MD1000 + DIY 磁盘 ,40T,数量: 2-3台,成本:10万元 每百万用户软件成本:0 商业模式 直接投放广告 合作运营商业模式 直接广告投放 网站广告合作广告客户的长尾效应,目前搜索引擎的收入高于门户网站,门户网站的广告位有限,大量PV被浪费,基于用户行为的精准投放极大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论