大数据挖掘v02_20130220资料_第1页
大数据挖掘v02_20130220资料_第2页
大数据挖掘v02_20130220资料_第3页
大数据挖掘v02_20130220资料_第4页
大数据挖掘v02_20130220资料_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据挖掘平台(pngti)2012年12月内部资料 注意(zh y)保密共三十三页目录(ml)大数据挖掘平台总体(zngt)架构数据来源平台功能大数据挖掘平台的数据数据安全面临困难共三十三页精细化运营(ynyng)总体架构视图层即时通类流媒体类网页(wn y)类彩信类互联网O域数据订购信息消费信息三户信息使用信息客户B域数据用户上网汇总营销活动类报表展示类流量运营类其他类立方体层客户标签客户画像流量实时分析营销活动支撑助销系统其他应用层DM层DWADWD层终端信息缴费信息P2P类邮箱类VOIP类其他类客户域用户关键字用户基本信息URL规则库应用规则库产品域关键词库产品订购汇总网页浏览汇总应用

2、使用汇总使用域搜索引擎汇总上网流量汇总基站流量汇总终端流量汇总资源域基站话务汇总指标层用户类收入类使用类资源类营销类基本信息上网喜好行为特征终端属性接触信息其他类其他信息共三十三页目录(ml)大数据挖掘平台(pngti)总体架构数据来源平台功能大数据挖掘平台的数据数据安全面临困难共三十三页数据(shj)分类分类数据描述举例采集周期BSS侧数据用户基本属性性别、年龄、入网时长、住址等;日产品订购信息套餐、增值业务订购等日业务使用行为语音使用、流量使用、增值业务使用等;日用户收入信息ARPU、欠费、缴费等日用户接触信息投诉、咨询等;日DM侧数据用户终端信息操作系统、支撑能力等;日终端与用户匹配信息

3、用户手机号、终端类型日GN侧数据用户上网行为上网时间、基站、访问URL、客户端等1分钟宽带数据宽带上网行为上网时间、地址、访问URL、客户端等1分钟位置信息用户位置变得信息小区、基站、时间等1分钟WIFI侧数据WIFI上网行为上网时间、访问URL、客户端等1分钟暂未接入共三十三页互联网数据(shj)采集(Gn数据采集)共三十三页平台数据(shj)来源及处理流程原始数据数据(shj)沉淀数据挖掘分析流量营销数据集市(DM)数据服务对外数据服务通道输出标准APIFTP服务WEBSERVICE手机上网数据WIFI上网数据分组域GN数据电路域LBS数据网元侧信息终端属性信息用户终端机型信息终端信息产品

4、订购信息增值业务归类客户基本信息用户收入信息客户基本信息Wifi数据固网宽带数据固话通话数据固网侧信息互联网网站信息互联网应用软件信息互联网内容库互联网内容产品域客户域事件域计费域资源域帐务域市场营销域客户投诉信息客户咨询信息投诉信息抽取模型算法核心积累库聚类分析神经网络关联规则统计识别决策树对外服务数据信息客户标签库产品标签库URL/APP识别库营销客户群互联网实时热点万粉微博号码识别结构化数据非结构化数据宽带上网数据微博传播节点识别Web网页数据采集大数据平台仓库对外服务互联网数据红色为目前未接入数据采集广告投放渠道匹配共三十三页目录(ml)大数据挖掘平台总体(zngt)架构数据来源平台功

5、能大数据挖掘平台的数据数据安全面临困难共三十三页9客户画像(hu xing)打标签互联网内容挖掘(wju)分析客户价值产品需求终端属性行为特征渠道偏好生活轨迹客户喜好人文特征增值收入总体收入音乐收入潜在价值业务订购订购特征退订特征捆绑类型屏幕大小业务支持IPhoneAndroid语音行为短信行为彩信行为综合使用缴费渠道订购渠道接触偏好营销接受时尚轨迹运动轨迹生活轨迹购物轨迹性 别入网方式姓 名客户级别入网时间入网套餐音乐喜好视频喜好小说喜好资讯浏览社交通信网上购物聚类分析算法逻辑回归模型梯度营销模型动态价值模型其他统计算法神经网络算法线性回归算法关联分析算法关键词库内容分类库热门词库客户喜好数

6、据仓库基本信息终端信息业务订购业务使用业务收入客户接触手机上网数据输出客户标签库用户关键词库互联网内容分类近期热门词库网站统计信息单一客户视图应用统计信息系统功能管道可视化搜索引擎网站统计应用统计管道可视化网络爬虫中文分词文本分类统计识别关联规则分词库数据仓库已经规划,需要尽快完善补充 客户视图基本信息订购信息消费信息终端信息使用信息接触信息客户喜好共三十三页1、客户画像客观视图(sht)与主观视图(sht)结合用户(yngh)喜好客服评价增值订购新增客户视图是在经分客观的客户视图基础上,结合对客户兴趣喜好的主观评价标签,形成客观与主观结合的360度营销视图;客户画像比单纯的客观视图更全面、更

7、有指导意义。客户标签共三十三页2、客户群提取(tq)每个标签(bioqin)用户数,右键看该标签(bioqin)说明经分数据网元数据客户标签树:是基于客户细分分析结果,构建生成客户标签库,包括人文特征、客户价值、产品需求、终端属性、行为特征、客户服务、客户喜好、客户生活轨迹、客户关系圈、渠道接触偏好等10大类一级架构,300多个标签;基于一级架构保持业务框架的稳定性,保证标签扩展有理可依、有序进行。共三十三页3、基于网络(wnglu)爬虫的互联网分析通过对GGSN手机用户上网信息采集与解码能对用户上网的基本行为进行分析(fnx),比如用户手机终端识别分析(fnx)、用户上网时段分析(fnx)、

8、用户上网流量分析(fnx)等。但我们无法深层次对用户访问的网站、URL进行分析,进而分析用户的喜好(用户上网是看小说?找音乐?看电视?)。通过搜索引擎技术我们可以对用户访问的网站、URL进行分析归类从而发现用户最终的上网目前即用户的喜好。 网络爬虫(又被称为 网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 对用户访问过的URL进行归类标记使用网络爬虫对用户访问URL进行抓取获取其网络地址的title、关键字等进行归类标识URL访问分析网站Title、关键字

9、分析 对用户访问过的网站域名进行归类标记域名网站分析通过三个层次的分析,对用户访问网站域名,URL进行标记,能够有效的检索出用户的喜好共三十三页用户上网(shn wn)行为-关键字搜索实时反应当天(dngtin)互联网词库热度变化情况。关键词 访问量(次)用户数(户)流量(M)户均访问量户均访问量(次)天气14922937062448.51 0.01 4.03 北京5691481880.28 0.02 1.18 百度608134681666.94 0.48 1.75 武动乾坤52772910113.07 0.04 1.81 违章查询助手3012282633.28 0.01 1.07 北京天气5

10、9042580100.86 0.04 2.29 双色球36152520123.06 0.05 1.43 遮天4656236189.51 0.04 1.97 天气预报2814181557.21 0.03 1.55 凡人修仙传3210168668.29 0.04 1.90 总计189489620462781.01 0.76 18.99 2012年10月25日共三十三页流量(liling)分析流量分析:系统分别成应用、网站、时间、地域(dy)、用户数据、流量等纬度对手机上网用户进行了深入分析。共三十三页4、业务(yw)监控业务监控:系统对重点的业务进行实时的监控和分析,包括收入分析、地域(dy)分析

11、(风险过大? )、基站分析、KPI分析等等。(目前基站位置信息来源于经分,但是不全,所以不准确)共三十三页5、助销平台(pngti)16办理(bnl)业务客户1数据共享(推荐产品列表)推荐产品查询将营销结果反馈给系统我们最近推出了手机电视业务1860000 xxxx助销平台,是在营业厅、卖场接触用户的短时间内,通过数据服务通道获取适合该用户的增值业务和应用软件等,抓住机会对客户进行针对性销售,提升销售命中率。助销平台包括营业厅版、手机版、PAD版等。IPHONEANDROIDIPAD引导推荐平台4依据用户行为分析与业务产品匹配,得到适合推荐给用户的产品列表,通过数据服务通道传给前台。数据服务通

12、道自有业务短信包流量包彩信包SP业务北京晚报京华时报32精细化运营平台共三十三页6、周边系统(xtng)及营销活动支撑3G加油站平台智能云管家动漫游戏平台网格经理平台各类分析报告上百次助销系统PUSH精准推送平台业务(yw)监控:系统同时实现了助销系统、网格尽量、Push精准推送平台等多各平台数据的实时支撑。共三十三页PUSH运营(ynyng)平台发送(f sn)模块运营策划数据导入流程管控能力管控Push 发送用户端代理模块用户匹配终端匹配个性页面适配行为记录统计模块效果评估用户行为分析发送情况统计35DBLINK文本导入不使用代理使用代理6页面展示PUSH运营平台,分为三部分:发送模块,保

13、证PUSH按计划进行发送,包括策划、数据导入、黑红名单过滤、能力管控等;代理模块,实现个性化的PUSH页面引导用户驻留,包括页面配置、NET计费、行为记录等;统计模块,对运营效果进行统计评估,包括发送统计、用户行为分析、运营效果评估等。 每日发送能力达到200万条(9:3019:00);平均每包发送20万左右,分为510个精细化数据包。通过net计费接口获取用户手机号码、通过终端数据获取用户终端数据,为用户展示个性化页面。计算现有通道的能力和已有计划的排列,测算发送能力124根据运营活动实际需求可以灵活的选取是否进行个性化的页面PUSH。5发送访问数据发送Wap Push共三十三页营销(yn

14、xio)活动支撑业务(yw)监控:系统累计支撑各类营销运营活动上百次,临时数据提取分析5百次以上。共三十三页目录(ml)大数据挖掘平台(pngti)总体架构数据来源平台功能大数据挖掘平台的数据数据安全面临困难共三十三页经分数据总体(zngt)介绍大数据平台已经接入了经分很大部分的数据,如有必要我们可以继而经分更多的数据,因此(ync)大数据平台理论上可以完成经分系统目前所有的数据提取和挖掘功能。它具备如下数据内容:用户的基础信息用户产品订购信息用户的收入信息用户业务使用信息共三十三页经分基础(jch)信息信息分类数据信息客户信息业务类型、客户类型、客户级别、客户状态、支付方式、入网渠道、性别、

15、证件类型、证件号码、名称、入网日期、归属区域、联系人姓名、联系人地址、信用度等账户信息账户标识、客户标识、账单地址、缴费类型、账户信用度、账户名称、账户余额、账户状态、建立日期等用户信息归属区域、业务类型、入网渠道、用户状态、停机方式、入网时间、用户标识、客户标识、账户标识、集团标识、用户信用度、品牌类型等共三十三页产品(chnpn)订购信息信息分类数据信息用户套餐信息用户标识、业务标识、用户套餐、语音服务计划标识、数据服务计划标识等用户营销计划信息用户标识、营销计划项目标识、营销计划标识、生效日期、失效日期、业务标识等用户服务计划信息用户标识、服务计划标识、服务计划包标识、生效标识、失效标识

16、、业务标识等共三十三页收入(shur)信息信息分类数据信息应收信息账务月份、业务类型、费用类型、客户标识、账户标识、用户标识、业务标识、应收金额、实收金额、调账金额等欠费信息账务月份、业务类型、费用类型、客户标识、账户标识、用户标识、业务标识、欠费金额用户缴费信息账务月份、业务类型、缴费类别、账户类型、缴费途径、缴费方式、业务标识、客户标识、账户标识、用户标识、业务标识共三十三页业务使用(shyng)信息信息分类数据信息语音使用信息用户标识、本方号码、对方号码、通话日期、通话时间、通话时段、本方归属城市、本方通话城市、本方业务类型、呼叫类型、对方归属城市等短信使用信息用户标识、本方号码、对方号

17、码、本方归属城市、本方使用城市、本方业务类型、信息条数、短消息话单类型、短信业务细分类型等GPRS使用信息手机号码、起始时间、起始时段、本方业务类型、漫游类型、GPRS业务类型、位置区码、小区标识、用户标识、业务标识、计费项目、发送字节数、接受字节数等彩信使用信息手机号码、起始时间、起始时段、本方业务类型、漫游类型、GPRS业务类型、位置区码、小区标识、用户标识、业务标识、计费项目、发送字节数、接受字节数等共三十三页DM终端(zhn dun)数据信息分类数据信息用户终端清单用户号码、手机卡串号、手机终端串号、变更时间、厂商编码、终端编码、操作系统、采集月份用户终端变更清单用户号码、手机卡串号、

18、手机终端串号、变更时间、厂商编码、终端编码、操作系统、采集月份、采集日期共三十三页GN手机(shu j)上网数据信息分类数据信息GN 上网数据信息手机号码、位置区编码、CI号码、终端类型、流量类型、开始时间、结束时间、时长(秒)、上行流量(bytes)、下行流量(bytes)、总流量(bytes)、RATType、终端IP、访问IP、状态码、User Agent、APN、IMSI、SGSN IP、GGSN IP、Content-Type、源端口、目的端口、记录标识、合并记录数、网址/特征信息流量类型彩信、网页、即时通信、流媒体 、邮件、往来电话、文件传输及P2P、其它衍生信息通过网络爬虫,对用

19、户进行喜好分析,包括用户上网行为,用户喜好,用户使用APP等相关信息。共三十三页目录(ml)大数据挖掘平台总体(zngt)架构数据来源平台功能大数据挖掘平台的数据数据安全面临困难共三十三页29大数据挖掘平台有大量用户隐私数据,数据提取(tq)风险极大!数据安全重于泰山(zhng y ti shn)1、系统安全:能访问数据库服务器的终端与公网隔离,且封死USB口2、目前临时需求现状:需求以推广中心居多,合作、规划也有不定期需求3、临时需求的临时提取流程:各三级部门经各部门领导口头同意或书面同意后,汇总给推广中心李威,邮件传送。据了解,目前集团和北分信息化部的临时数据提取流程也是指定人邮件传送的方式建议:要兼顾安全与效率,在二者间找到合理的平衡。1、未来临时需求提取流程:通过办公网访问7/vass2、固化需求,减少临时提取数据需求,提高效率共三十三页目录(ml)大数据挖掘平台(pngti)总体架构数据来源平台功能大数据挖掘平台的数据数据安全面临困难共三十三页面临巨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论