夏明武电信行业数据挖掘与大数据心得体会_第1页
夏明武电信行业数据挖掘与大数据心得体会_第2页
夏明武电信行业数据挖掘与大数据心得体会_第3页
夏明武电信行业数据挖掘与大数据心得体会_第4页
夏明武电信行业数据挖掘与大数据心得体会_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信行业数据挖掘与大数据心得体会夏明武互联网市场大小2011中国互联网收入,广告512亿元,增长57%网络游戏428亿,增长20%;电商7735.6亿,增长68%行业排头兵净利润率估计,广告35%,网游55%,电商1%,利润分别为179亿,235亿,77亿假设2012增长与利润水平不变,行业利润分别为广告280亿,游戏280亿,电商130亿艾瑞咨询互联网数据挖掘三个方向

广告水军剔除

剔除水军,可以大大减少广告开支、节约成本。这是节流。商品推荐这一块可以参考amazon的商品推荐,现在电商都在学amazon的商品推荐,只是都做得不好。这一块做好可以增加销售量。带来真金白银。这也就是开源。社交网络分析等现在新浪微薄的数据质量最高,大有可为。目前已经有很多公司在新浪上做社会化网络数据挖掘,但还可以容纳更多公司。

上周,美国小型音乐公司LimitedRun宣布他们确信其在Facebook上的广告点击有超过80%来自于机器人程序,并表示将会向Facebook追究此事。@wx伍星

:真心觉得直接的收入才驱动数据分析挖掘的发展,广告,电商,游戏行业的挖掘分析,较web网站挖掘分析先进很多回复@孙晗:这是真实的人际社会,所填信息比较真实和准确,能得到大量其它信息根本不可能产生的信息。

//@孙晗:为何说新浪的数据质量高咧互联网数据挖掘三个方向

中国移动数据经营分析系统10年经营分析系统建设,BI是否有用?SAS、SPSS在中国移动市场消失,数据挖掘基本失败,原因?客户细分问题?分析报告一定是正确的吗?信令数据介绍CS域语音主叫语音被叫短信发送短信接收位置更新开机关机位置切换信令数据介绍PS域彩信发送彩信接收WAP连接WAP使用WAP断开信令名词解释LAC:

locationareacode位置区码(移动通信系统中),是为寻呼而设置的一个区域,覆盖一片地理区域。CELL:

采用基站识别码或全球小区识别进行标识的无线覆盖区域叫做小区。IMSI:

InternationalMobileSubscriberIdentificationNumber国际移动用户识别码,是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息。信令名词解释IMEI:InternationalMobileEquipmentIdentity,是国际移动设备身份码的缩写,国际移动装备辨识码,是由15位数字组成的“电子串号”,它与每台手机一一对应,而且该码是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是综合业务数字网,是IntegratedServiceDigitalNetwork的简称),即手机号码。信令数据能做什么?实时营销(精准营销、精确营销)事件营销(信令监控、信令分析、数据挖掘)基于信令令数据和和客户统统一视图图的数据据挖掘高中生高中生家家长大学生飞机来港港客户飞机离港港客户景区游客客火车站到到达客户户火车站离离开客户户数据挖掘掘的创新新规则以以界面面化的的方式式展示示给业业务人人员参数可可调整整,业业务人人员可可以根根据业业务经经验调调整业务人人员可可以直直接界界面执执行数数据挖挖掘,,重跑跑数据据通过外外呼查查全和和查准准前端界界面规规则配配置到到数据据库中中环境发发生大大变化化时,,业务务人员员熟悉悉模型型规则则,就就能很很方便便给研研发提提新需需求,,研发发远程程开发发后远远程发发包部部署实时营销((精准营销销、精确营营销)速度实时合适的时间间合适的地点点给客户推荐荐合适的内内容实时营销((精准营销销、精确营营销)案例两城一家机场旅客推推荐各种套套餐高考考生推推荐各种业业务体育场观众众推荐歌星星歌曲实时营销((精准营销销、精确营营销)流量规划功功能简介根据url实时分类,,做实时内内容营销url无法分类结结果,可以开发程程序,调用用爬虫,获获取网站分分类规则,,做实时内内容营销((socket调用获取url分类结果))根据搜索关关键字,做做实时内容容营销结合信令数数根据IMEI提取终端信信息,结合合url分类,做实实时流量营营销根据基站信信息,做url实时位置营营销据,实时提提取BOSS侧流量信息息,当流量量超标时实实时提醒((如看视频频超出流量量套餐)数据来源于于信令PS域(Gn、Gb接口)核心规则处处理由标准准C程序开发,,针对信令令数据特征征优化,简简洁高效中国移动面面临的问题题用户会大规规模从2G迁移到3G,或者是4G3G时代,流量量费和2G相比,价格格大幅下降降。用户会会自主选择择使用什么么应用。如如苹果的AppStore、谷歌的GooglePlayStore。电信运营商商的短信、、彩信、手手机报等等等,对普通通大众,都都不在重要要,通过套套餐包提供供就行。3G时代,语音音业务,不不再区分本本地、长途途、国内漫漫游。中国移动面面临的问题题全国统一套套餐有几十十个套餐基基本就够了了,不再需需要每省几几千、几万万个套餐,,那是一个个太庞大、、太复杂系系统。3G时代,腾讯讯微信提供供的语音视视频,苹果果FaceTime的视频通话话,都将使使语音直接接走流量包包就可以,,套餐中无无法再单独独包括语音音部分的资资费。流量的价格格远远低于于语音的价价格。这会会使电信运运营商彻底底管道化。。变成卖水、、卖电一样样的企业。。中国移动面面临竞争的的个人建议议电信运营商商可以一方方面收购使使用水、使使用电的的的上下游公公司的股份份。可以考虑成成立投资公公司做投资资。收购腾讯的的部分股权权,支持腾腾讯,腾讯讯发展壮大大,中国移移动也能跟跟着获益。。中国移动入入股,买下下雅虎所占占股份。也也可以投资资支付宝。。中国移动面面临竞争的的个人建议议将来的趋势势就是移动动互联网。。中国移动动,包括中中国联通、、中国电信信,如果自自己做不好好移动互联联网,那就就投资给这这些移动互互联网企业业。合适的多占占股份,风风险大的就就少占股份份。完全可可以向风投投转变。中国移动也也可以继续续尝试做各各种应用,,做平台,,和各厂商商合作。深深挖互联网网数据金矿矿。中国移动面面临竞争的的个人建议议互联网时代代,电信运运营商面临临着和阿里里巴巴一样样的问题,,互联网的的大数据,,成本压力力,财报压压力。为了压缩成成本,也需需要去做去去IOE化运动。现有系统无无需改变,,也不必迁迁移。电信运营商商完全可以以从零开始始,打造一一套适应互互联网竞争争的新一代代互联网系系统。中国移动面面临竞争的的个人建议议未来的实时时数据仓库库(新一代代经营分析析系统)和和全国互联联网数据集集中化中,,在成本压压力,财报报压力,外外部竞争压压力加剧,,互联网企企业颠覆式式创新的革革命下,也也不得不走走阿里巴巴巴曾经走的的路。投资阿里巴巴巴、支付付宝、腾讯讯、京东、、凡客、库库巴、优酷酷、土豆、、新浪、网网易、搜狐狐、携程、、大众点评评网、豆瓣瓣、如家快快捷酒店、、锦江之星星等等。中国移动也也可以去做做电商。如如果觉得自自己业务运运营水平高高,可以学学习亚马逊逊、京东做做电商,做做的更全面面。中国移动面面临竞争的的个人建议议如果觉得自自己国企特特色,做不不好,可以以学习阿里里巴巴(天天猫)、淘淘宝,做开开放平台。。这条路也也挺不错。。需要有大魄魄力才行。。中国移动和和百度合作作的建议移动互联网网时代,手手机号码仍仍然是稀缺缺资源。百度度、、腾腾讯讯、、阿阿里里巴巴巴巴三三大大巨巨头头,,腾腾讯讯和和百度没有用户信息,在移动互联网时代处于很大劣势。移动运营商用户资源很丰富,信息也很全。中国移动完全可以和百度合作,把用户信息共享给百度,这样百度就可以做预搜索或其它各种工作。中国移动投资百度,资源共享,合作共赢。关于于10张标标签签表表,,每每张张表表8000万记记录录,,每每张张表表几几百百几几千千个个标标签签字字段段,,关关联联取取数数据据,,秒秒级级出出结结果果的的高高效效方方法法?大数数据据关关联联查查询询创创新新案案例例方案案1:数数据据库库内内方方案案把所所有有客客户户统统一一视视图图大大标标签签宽宽表表先先按按地地市市分分表表,,再再按按号号码码分分别别拆拆分分为为10000张表表。。每张张小小表表中中包包括括所所有有需需要要的的几几百百、、几几千千个个字字段段。。小小表表总总表表数数为为1万到几万之间间,详细为地地市数量*1000。有的省份,小小表数据量为为2000条到8000条。前端访问问时,不再需需要做多表sql关联,数据量量级别为千行行级的单表sql查询语句速度度也很快。起10000个线程并发执执行,可以做做到实时。方案2:数据库外方方案把所有客户统统一视图大标标签宽表按地地市分文件,,再按号码继继续拆分为1000个文件。每个小文件中中包括所有需需要的几百、、几千个字段段。小文件总总数量为1万到几万之间间,详细为地地市数量*1000。如果是直辖市市,直接拆分分为10000个小文件。使用标准C,开发出处理理程序,并发发启动1万到几万个线线程,每个线线程把小文件件数据加载到到各自内存中中。当需要处理数数据时,实用用LUA来访问数据,,每个线程需需要处理的数数据量为千行行级。总体速速度应该在毫毫表级,可以以实时把数据据回传给前端端。像有的省,如如果地市用户户提取客户群群,则同样只只需访问此地地市的1000个小内存文件件,速度能更更快。方案1细节:表文件、和线线程的数量可可以根据实际际需要调整,,可以调整到到100张表、1000张表、或者是是100个文件、1000文件、再或者者是100个线程、1000个线程。具体还需要查查询资料,依依据现场机器器配置,做性性能调优而定定。如果并发线程程压力太大的的话,可以考考虑改为减少少并发线程数数,或者改为为串行。当数数据无法做大大表关联时,,每次只需从从单行记录就就可去到。方案1细节:分表或分文件件时,按手机机号码尾号2位或3位来分,手机机号码尾号本本身是均匀的的。在同一地地市的小表中中,每张小表表的数据量是是基本接近相相同的。地市之间,考考虑到不同地地市的用户数数不同,则可可以对不同地地市的分表或或分文件数量量做优化,用用户数多的地地市分表和文文件多,用户户数少的地市市分表或文件件少,尽量和和所有的100、1000或10000以上的表或文文件中数据量量保持一致,,这样并发处处理线程同时时处理,完成成时间也能基基本相同。方案2细节:数据为每月或或每日凌晨初初始化读入,,载入到内存存后。在上班班时间访问,,直接查询内内存静态数据据,速度快,,但也涉及到到内存分配太太大的问题。。此时,需要考考虑做并发或或者分布式处处理。涉及到到硬件投资增增加问题,不不建议采购小小型机,改为为采购刀片服服务器或其它它服务器。数据也可采用用前端调用时时再动态加载载,根据机器器配置,让线线程分批次加加载数据并处处理。这样对对硬件要求低低,但速度相相对会慢。方案2细节:前端向后台通通信采取socket方式,后台处处理完数据后后,可以把最最终数据合并并,再加载到到数据库中的的表,也可以以由各线程把把各自数据分分批插入到数数据库中的表表。数据加载完成成后,再通过过socket通知前端处理理完毕。LUA具体如何处理理和优化,细细节尚待研究究,需要花时时间。细致工作还有有很多,需要要继续研究和和深入下去。。方案2细节:如果要考虑到到硬件成本、、分布式部署署、开发时间间和难度问题题,可以接下下来优化为采采用hadoop方案。采用hadoop方案后,整体体数据量在千千万级,有些些省例外,到到了亿级。硬硬件投资改为为采购几台PCServer,硬件投入为为几万元。数据都在库外外处理,NOSQL方式,数据库库可以改为使使用开源数据据库MySQL,存放配置信信息。这样DB2、Oracle或其它数据库库都可以替换换掉。方案2细节:整体来说,实实用hadoop方式或库外标标准C开发方式后,,可以更有效效减少中国移移动在硬件上上的投入,在在数据库的投投入。可以把节省的的成本投一部部分到应用软软件厂商上。。这样,中国国移动就可以以和应用软件件厂商实现共共赢。这也是是IT业界的的发展展趋势势。至于hadoop方案,客户户统一视图图标签月表表每月生成成一次,日日表每日按按生产一次次。生成后后为静态数数据,每日日上班时间间数据不会会更新,为为静态数据据。方案2细节:基于此特点点,可以在在每日凌晨晨把客户统统一视图数数据加载到到hadoop中,白天访访问时直接接查询数据据,速度快快,效率高高。数据加载到到内存数据据库中做查查询,我目目前用到的的是solo+lucene,有的同事事用的是MongoDB。云计算方案案,应该是是可以考虑虑借鉴谷歌歌做搜索查查询这块的的成功经验验。云计算方案案,貌似用用流计算也也不错。Yahoo的S4听说挺不错错。微薄友的点点评:得意的那些些事儿大表,谷歌歌的bigtable是最佳实践践blueprint,思想可以以参考。从从分表分库库转向规模模的bigdatarebalance。这才是所所有的性能能优化的起起源和本质质。这里面面cap理论和dht算法是技术术实现原理理。当然mapreduce大大简化了了数据的normalize和并行计算算。hadoop的出现提供供了这些。。各种混合合架构只是是在融合实实时处理而而已…不胜人生一一场醉PMBAR每秒上百G的吞吐量,,我不认为为关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论