版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电信行业数据挖掘与大数据心得体会夏明武xiamingwu@培训专用互联网市场大小2011中国互联网收入,广告512亿元,增长57%网络游戏428亿,增长20%;电商7735.6亿,增长68%行业排头兵净利润率估计,广告35%,网游55%,电商1%,利润分别为179亿,235亿,77亿假设2012增长与利润水平不变,行业利润分别为广告280亿,游戏280亿,电商130亿艾瑞咨询培训专用互联网数据挖掘三个方向
培训专用互联网数据挖掘三个方向
培训专用中国移动数据经营分析系统10年经营分析系统建设,BI是否有用?SAS、SPSS在中国移动市场消失,数据挖掘基本失败,原因?客户细分问题?分析报告一定是正确的吗?培训专用信令数据介绍CS域语音主叫语音被叫短信发送短信接收位置更新开机关机位置切换培训专用信令数据介绍PS域彩信发送彩信接收WAP连接WAP使用WAP断开培训专用信令名词解释LAC:
locationareacode位置区码(移动通信系统中),是为寻呼而设置的一个区域,覆盖一片地理区域。CELL:
采用基站识别码或全球小区识别进行标识的无线覆盖区域叫做小区。IMSI:
InternationalMobileSubscriberIdentificationNumber国际移动用户识别码,是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息。培训专用信令名词解释IMEI:InternationalMobileEquipmentIdentity,是国际移动设备身份码的缩写,国际移动装备辨识码,是由15位数字组成的“电子串号”,它与每台手机一一对应,而且该码是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是综合业务数字网,是IntegratedServiceDigitalNetwork的简称),即手机号码。培训专用信令数据能做什么?实时营销(精准营销、精确营销)事件营销(信令监控、信令分析、数据挖掘)培训专用基于信令数据和客户统一视图的数据挖掘高中生高中生家长大学生飞机来港客户飞机离港客户景区游客火车站到达客户火车站离开客户培训专用数据挖掘的创新规则以界面化的方式展示给业务人员参数可调整,业务人员可以根据业务经验调整业务人员可以直接界面执行数据挖掘,重跑数据通过外呼查全和查准前端界面规则配置到数据库中环境发生大变化时,业务人员熟悉模型规则,就能很方便给研发提新需求,研发远程开发后远程发包部署培训专用
实时营销(精准营销、精确营销)
速度实时合适的时间合适的地点给客户推荐合适的内容培训专用实时营销(精准营销、精确营销)
案例
两城一家机场旅客推荐各种套餐高考考生推荐各种业务体育场观众推荐歌星歌曲培训专用实时营销(精准营销、精确营销)
流量规划功能简介根据url实时分类,做实时内容营销url无法分类结果,可以开发程序,调用爬虫,获取网站分类规则,做实时内容营销(socket调用获取url分类结果)根据搜索关键字,做实时内容营销结合信令数根据IMEI提取终端信息,结合url分类,做实时流量营销根据基站信息,做url实时位置营销据,实时提取BOSS侧流量信息,当流量超标时实时提醒(如看视频超出流量套餐)数据来源于信令PS域(Gn、Gb接口)核心规则处理由标准C程序开发,针对信令数据特征优化,简洁高效培训专用中国移动面临的问题用户会大规模从2G迁移到3G,或者是4G3G时代,流量费和2G相比,价格大幅下降。用户会自主选择使用什么应用。如苹果的AppStore、谷歌的GooglePlayStore。电信运营商的短信、彩信、手机报等等,对普通大众,都不在重要,通过套餐包提供就行。3G时代,语音业务,不再区分本地、长途、国内漫游。培训专用中国移动面临的问题全国统一套餐有几十个套餐基本就够了,不再需要每省几千、几万个套餐,那是一个太庞大、太复杂系统。3G时代,腾讯微信提供的语音视频,苹果FaceTime的视频通话,都将使语音直接走流量包就可以,套餐中无法再单独包括语音部分的资费。流量的价格远远低于语音的价格。这会使电信运营商彻底管道化。变成卖水、卖电一样的企业。培训专用中国移动面临竞争的个人建议培训专用中国移动面临竞争的个人建议将来的趋势就是移动互联网。中国移动,包括中国联通、中国电信,如果自己做不好移动互联网,那就投资给这些移动互联网企业。合适的多占股份,风险大的就少占股份。完全可以向风投转变。中国移动也可以继续尝试做各种应用,做平台,和各厂商合作。深挖互联网数据金矿。培训专用中国移动面临竞争的个人建议互联网时代,电信运营商面临着和阿里巴巴一样的问题,互联网的大数据,成本压力,财报压力。为了压缩成本,也需要去做去IOE化运动。现有系统无需改变,也不必迁移。电信运营商完全可以从零开始,打造一套适应互联网竞争的新一代互联网系统。培训专用中国移动面临竞争的个人建议未来的实时数据仓库(新一代经营分析系统)和全国互联网数据集中化中,在成本压力,财报压力,外部竞争压力加剧,互联网企业颠覆式创新的革命下,也不得不走阿里巴巴曾经走的路。投资阿里巴巴、支付宝、腾讯、京东、凡客、库巴、优酷、土豆、新浪、网易、搜狐、携程、大众点评网、豆瓣、如家快捷酒店、锦江之星等等。中国移动也可以去做电商。如果觉得自己业务运营水平高,可以学习亚马逊、京东做电商,做的更全面。培训专用中国移动面临竞争的个人建议如果觉得自己国企特色,做不好,可以学习阿里巴巴(天猫)、淘宝,做开放平台。这条路也挺不错。需要有大魄力才行。培训专用中国移动和百度合作的建议移动互联网时代,手机号码仍然是稀缺资源。百度、腾讯、阿里巴巴三大巨头,腾讯和阿里巴巴都有自己的号码(用户id)资源,这背后代表着用户信息。百度没有用户信息,在移动互联网时代处于很大劣势。移动运营商用户资源很丰富,信息也很全。中国移动完全可以和百度合作,把用户信息共享给百度,这样百度就可以做预搜索或其它各种工作。中国移动投资百度,资源共享,合作共赢。培训专用
关于10张标签表,每张表8000万记录,每张表几百几千个标签字段,关联取数据,秒级出结果的高效方法?大数据关联查询创新案例培训专用方案1:数据库内方案
把所有客户统一视图大标签宽表先按地市分表,再按号码分别拆分为10000张表。每张小表中包括所有需要的几百、几千个字段。小表总表数为1万到几万之间,详细为地市数量*1000。有的省份,小表数据量为2000条到8000条。前端访问时,不再需要做多表sql关联,数据量级别为千行级的单表sql查询语句速度也很快。起10000个线程并发执行,可以做到实时。培训专用方案2:数据库外方案
把所有客户统一视图大标签宽表按地市分文件,再按号码继续拆分为1000个文件。每个小文件中包括所有需要的几百、几千个字段。小文件总数量为1万到几万之间,详细为地市数量*1000。如果是直辖市,直接拆分为10000个小文件。使用标准C,开发出处理程序,并发启动1万到几万个线程,每个线程把小文件数据加载到各自内存中。当需要处理数据时,实用LUA来访问数据,每个线程需要处理的数据量为千行级。总体速度应该在毫表级,可以实时把数据回传给前端。像有的省,如果地市用户提取客户群,则同样只需访问此地市的1000个小内存文件,速度能更快。培训专用方案1细节:表文件、和线程的数量可以根据实际需要调整,可以调整到100张表、1000张表、或者是100个文件、1000文件、再或者是100个线程、1000个线程。具体还需要查询资料,依据现场机器配置,做性能调优而定。如果并发线程压力太大的话,可以考虑改为减少并发线程数,或者改为串行。当数据无法做大表关联时,每次只需从单行记录就可去到。培训专用方案1细节:分表或分文件时,按手机号码尾号2位或3位来分,手机号码尾号本身是均匀的。在同一地市的小表中,每张小表的数据量是基本接近相同的。地市之间,考虑到不同地市的用户数不同,则可以对不同地市的分表或分文件数量做优化,用户数多的地市分表和文件多,用户数少的地市分表或文件少,尽量和所有的100、1000或10000以上的表或文件中数据量保持一致,这样并发处理线程同时处理,完成时间也能基本相同。
培训专用方案2细节:数据为每月或每日凌晨初始化读入,载入到内存后。在上班时间访问,直接查询内存静态数据,速度快,但也涉及到内存分配太大的问题。此时,需要考虑做并发或者分布式处理。涉及到硬件投资增加问题,不建议采购小型机,改为采购刀片服务器或其它服务器。数据也可采用前端调用时再动态加载,根据机器配置,让线程分批次加载数据并处理。这样对硬件要求低,但速度相对会慢。培训专用方案2细节:前端向后台通信采取socket方式,后台处理完数据后,可以把最终数据合并,再加载到数据库中的表,也可以由各线程把各自数据分批插入到数据库中的表。数据加载完成后,再通过socket通知前端处理完毕。LUA具体如何处理和优化,细节尚待研究,需要花时间。细致工作还有很多,需要继续研究和深入下去。培训专用方案2细节:如果要考虑到硬件成本、分布式部署、开发时间和难度问题,可以接下来优化为采用hadoop方案。采用hadoop方案后,整体数据量在千万级,有些省例外,到了亿级。硬件投资改为采购几台PC
Server,硬件投入为几万元。数据都在库外处理,NOSQL方式,数据库可以改为使用开源数据库MySQL,存放配置信息。这样DB2、Oracle或其它数据库都可以替换掉。培训专用方案2细节:整体来说,实用hadoop方式或库外标准C开发方式后,可以更有效减少中国移动在硬件上的投入,在数据库的投入。可以把节省的成本投一部分到应用软件厂商上。这样,中国移动就可以和应用软件厂商实现共赢。这也是IT业界的发展趋势。至于hadoop方案,客户统一视图标签月表每月生成一次,日表每日按生产一次。生成后为静态数据,每日上班时间数据不会更新,为静态数据。培训专用方案2细节:基于此特点,可以在每日凌晨把客户统一视图数据加载到hadoop中,白天访问时直接查询数据,速度快,效率高。数据加载到内存数据库中做查询,我目前用到的是solo+lucene,有的同事用的是MongoDB。云计算方案,应该是可以考虑借鉴谷歌做搜索查询这块的成功经验。云计算方案,貌似用流计算也不错。Yahoo
的S4听说挺不错。培训专用微薄友的点评:得意的那些事儿大表,谷歌的bigtable是最佳实践blueprint,思想可以参考。从分表分库转向规模的bigdatarebalance。这才是所有的性能优化的起源和本质。这里面cap理论和dht算法是技术实现原理。当然mapreduce大大简化了数据的normalize和并行计算。hadoop的出现提供了这些。各种混合架构只是在融合实时处理而已…不胜人生一场醉PMBAR每秒上百G的吞吐量,我不认为关系数据库和几台PC服务器能搞的定培训专用微薄友的点评:风流搞技术用oracle就麻烦了,最多1000列,超255列,会带来过多IO,非关系型数据库解决此类问题应该在行原来远去如果自己采用写程序在内存里面做关联计算,mysql之类只是做数据备份存储,倒是有可能。热数据全在内存里面,只是冷数据需要查一下mysql。冷热处理有些难度。同时内存利用率这块怎样控制,否则很容易爆掉。自己写,涉及一个distinct,groupby之类,秒级计算出结果,困难比较大。培训专用《论中国》西方战略家思考如何在关键点上集结优势兵力,而孙子研究如何在政治和心理上取得优势地位,从而确保胜利。西方战略家通过打胜仗检验自己的理论,孙子则通过不战而胜检验自己的理论。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论