版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从零开始搭建大数据平台白德鑫@leoobai摘要屌丝的数据分析土豪要和屌丝做朋友屌丝的进化屌丝变土豪构建电视分析数据平台本案例是在为在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享。对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持。通过对电视数据挖掘来进行系统优化和服务提升。
白德鑫来自乐视网TV开放平台事业部历经电信、游戏、互联网三个行业,互联网电视拓荒者,目前负责乐视网超级电视运营平台、LetvStore、TV数据挖掘分析平台、TV开放平台项目建设。微博:@leoobai
G粉,钓鱼迷和摩托迷屌丝如何成为糕富帅苦逼屌丝配置两台MySQL(主从)记录日志,通过CronJob加上SQL方式在Slave进行统计分析发奋图强的屌丝尝试使用Cassandra将日志存储,使用Hadoop进行计算,然后把结果塞到MySQL里太多的数据组合,屌丝尝试使用MySQL集群加上Kettle进行统计分析鸟枪换炮屌丝开始使用大规模杀伤性武器Kafka、Storm、Hadoop、Hbase、Hive、Oozie、Sqoop苦逼屌丝的数据起点数据越来越大,需求越来越多,土豪上门了人员离职造成系统失控,Cassandra没人维护了人员离职对系统影响很大不一定时刻都有合适的人接替招聘成本很高,因为有技术的土豪都不愿意和屌丝做朋友人员流失往往带来技术的流失一个萝卜一个坑,萝卜走了坑要很久才能填上重回屌丝时代土豪和我们做朋友了数据量从年初的3个月翻一倍到目前每个月翻一倍数据每月一亿条增长到每周一亿条只用了半年不到超级电视及盒子的快速增长引起需求快速变化,从设备行为快速向用户行为转变一边找土豪一边增强自身能力为此成立了独立的数据研发团队及数据分析人员从年初我们也开始了鸟枪换炮的工作增强内功数据研发团队通过将近半年的努力,逐步搭建并完善了新的平台新平台通过Kafka接收其他系统、超级电视、乐视盒子等业务数据、日志数据、以及其他元数据(包括内容、应用)然后整合加工Storme通过整合Kafka加工之后的数据存入MySQL及Hbase中去通过Hadoop及数据服务为AD-HOC、开放数据平台、数据门户对各个业务部门提供数据服务这些是人才依靠招聘和内部自荐的方式进行扩充屌丝的豪华七件套数据入门第一套测试服务器两台4corecpu,6Gmemory,20个线程数据入门第一套测试服务器1台4corecpu,6Gmemory,20个线程数据入门第一套测试服务器1台4corecpu,6Gmemory,20个线程数据入门第二套Storm集群SpoutSpoutSpout…ParserBoltParserBoltParserBolt…BoltBoltBolt…CbaseKafka消息随机…WriterBoltWriterBoltWriterBolt…组合计算数据入门第三套案例ROI分析数据量每月基本翻一倍,原有的系统架构根本无法满足新的数据需求Kettle方式的数据整合时间越来越久采用Hadoop+Storm等方案,数据量增长不会对数据挖掘产生特别大的影响。数据从原来每日抽取报表到实时数据随意查询整合还有很多事情要做案例启示不同的阶段选择不同的方案人员流失会导致技术流失技术储备和内部自荐要比招聘牛人更快对于新业务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青年调研报告
- 有关四川九寨沟导游词(34篇)
- 运动员运动会加油稿致400米
- 商场新年活动方案范文(3篇)
- 政治课教学反思
- 新时代青年的使命与担当4
- 词两首课件教学课件
- 常用电子线路的安装与调试操作技能
- 《事故车辆查勘与定损》教学课件-项目三-车身变形的修复与工时核定
- 工厂车间安全培训试题含答案(研优卷)
- 2024年共青团入团考试题库(附答案)
- 内部控制制度调查表和内部控制测试程序表
- 九年级历史与社会上册复习提纲
- 系统思维与系统决策:系统动力学智慧树知到期末考试答案2024年
- 2024年康养政策项目申请报告范稿
- MOOC 美国文学经典-北京第二外国语学院 中国大学慕课答案
- 瓜蒌薤白半夏汤的药效学研究
- 2022版义务教育(信息科技)课程标准(附课标解读)
- 小学人教四年级数学四年级(上)平行与垂直
- 钛合金在人体健康中应用课件
- 汽车维护保养与安全驾驶课件
评论
0/150
提交评论