Apache Kylin大数据驱动商务革新_第1页
Apache Kylin大数据驱动商务革新_第2页
Apache Kylin大数据驱动商务革新_第3页
Apache Kylin大数据驱动商务革新_第4页
Apache Kylin大数据驱动商务革新_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Apache Kylin大数据驱动商务革新技术创新 变革未来摘要介绍基于Apache Kylin的多个案例,展现大数据如何驱动商务革新,创造商业价值。移动省级运营商, 用Kylin做用户行为数据挖掘和网络质量分析,近百倍性能提升,节约硬件成本1600万国美,用Kylin作为运营参谋分析技术平台,支撑利润、风控、缺货、调价等商业决策京东,用Kylin做数据服务平台,利用Kylin高速高并发的特点,将数据变现eBay,用Kylin多维分析做精准营销,提升收益5%以上eBay,用Kylin实时监控预防渠道流量导入风险,稳健营收易观,用Kylin优化人群画像技术,服务效率提升10倍Hadoop Sum

2、mit 2016开幕Key Note,Hortonworks CEO Rob Bearden:“数据正在改变商业世界”。“Hadoop技术走过了十年,大数据不再是象牙塔和实验室里的玩具,它已经能切实地创造商业价值,深切地改变商业世界。零售商通过大数据技术做精准市场预测,洞察物流效率,每年可以节省7000万美元系统开支,营收增长8%,利润增长3%。保险公司通过实时分析司机的驾驶模式,动态计算行驶风险并奖励安全驾驶,带来每年26亿美金的保险金增长,减少4%的理赔损失。”问题概述:大数据转化商业价值的关键阻力大数据商业模式数据/需求积累大数据平台建设应用实施价值回报技术缺失 (超高成本)实施周期长转

3、化效率低- 成本 - 风险 -问题描述:缺乏高速高效、易实施的大数据分析技术,阻碍了大数据商业化传统技术大数据能力缺失百度,MySQL多维分析平台,百万级封顶eBay,传统数仓不支持大数据,2GB封顶技术实施成本高,落地周期长eBay,每年过100万美金的数据平台维护费用电信运行商,数据仓库一体机满配,2000多万,不含维保国美,运营参谋系统,计划开发周期一整年大数据处理效率低,利润转化效率低eBay,搜索引擎流量分析,数据处理滞后2天易观,用户画像人群分析,单次分析耗时3分钟并发量非常有限(100),对比数千分析师商业化模式风险高,回报不确定,试错成本高快销行业,销量预测案例,3-5年的不确

4、定回报汽车行业,IoT案例,不确定的业务需求传统数据仓库传统RDBMS商用大数据系统MPP一体机SQL on HadoopHive, SparkSQL 解决方案:Apache Kylin成就大数据商业化大数据商业模式数据/需求积累大数据平台建设应用实施利润回报技术缺失 (超高成本)周期长效率低支持万亿记录为大数据而生Hadoop平台纯SQL接口无需编程高速实施秒级查询速度互联网级并发百倍生产效率全球最大的开源软件基金会与Apache Kylin团队一起合作使Kylin通过孵化成为顶级项目对我而言非常激动人心,Kylin在技术方面当然是振奋人心的,但同样令人兴奋的是Kylin代表了亚洲国家,特别

5、是中国,在开源社区中越来越高的参与度 Ted Dunning, Apache 孵化项目副总裁,MapR首席架构师顶级项目Apache Kylin, 中国唯一的Apache顶级开源项目,核心开发者及贡献者都在中国,Kyligence贡献超过90%代码行业认可连续两年荣获InfoWorld ”最佳开源大数据工具奖”,今年更是与Google TensorFlow一起获得该奖用户认可国内外超过100多家大型公司正式使用Kylin作为大数据分析平台解决方案,分布各个行业技术优势在超大规模数据集上,Kylin以O(1)的时间复杂度远远超过其他MPP等技术的O(n)算法,目前没有比Kylin更快,并发更高,

6、成本更省的技术生态社区活跃的社区,众多用户及开发者,广泛的开源、商业合作伙伴体系Apache Kylin 预计算引领无限数据的高速查询Apache Kylin 全球案例,广受好评省级移动移动某省级运营商:用户行为分析中国移动某省级运营商应用:用户行为数据挖掘,和网络质量分析数据量:原始数据每天数据增量是20B+条,相当于15+TB之前:Oracle Exadata一体机现状:Kylin/Hadoop集群成本满配Exadata一体机,2000多万,不含维保实现同样需求只要70节点集群,成本在400万左右数据规模只能满足TB级别数据分析支持PB级别分析,能够做以往做不到的明细数据分析和应用数据加工

7、分析模型运算过程超过8小时,客户担心数据量激增后无法满足进一步需求同样任务Kylin只要40分钟查询性能查询性能在秒级到几十秒Kylin只需要几秒甚至毫秒级扩展性可扩展性差,无法水平扩展易于水平扩展,增加节点即可未来发展专有技术,外企产品,未来收到限制基于开源技术,符合公司未来架构发展规划结论基于Kylin的大数据分析平台大大降低了总体拥有成本,并能在此基础上为客户提供远超传统数据仓库分析的数量级和能力,并同时提供更加快速的计算和查询性能千万成本节省移动某省公司:网络流量多维分析平台背景概述JOB用户超过2000万原始数据超过300亿/天ETL入库3TB/天任务规模超过800/天集群规20+4

8、00TB固定报表实时性要求不高的场景低延时、灵活性高的场景数据规模数据需求探索性数据分析需求旺盛数据爆炸式增长移动某省公司:网络流量多维分析平台为什么选择Kylin?部署速度快查询速度快执行资源执行时长备注hive86vcores+380GBMEM1522秒orc+zlibspark sql131vcores+912GBMEM125秒orc+zlibkylinHbase5台节点3.43秒*执行测试语句:select rat,count(distinct msisdn) from phone_usertmp where reportdate=20160225 group by rat;*原始数据

9、大小103GB,条目数11亿移动某省公司:网络流量多维分析平台选择Kylin后带来的架构变化Kylin弥补了分析/可视化工具与大数据平台之间的鸿沟移动某省公司:网络流量多维分析平台应用场景一:用户上网统计分析Cube1:统计类固定报表维度:终端制式,域名,网络类型,应用类型,应用名称,日期,小时指标:次数求和,流量求和,时长求和,ID排重求和Cube2:详单的灵活查询维度:ID,终端制式,域名,网络类型,应用类型,应用名称,日期,小时(mandatory=Y)指标:次数求和,流量求和,时长求和Cube Build的统计信息原始数据47GBCube1:80分钟(非独占),17GB 膨胀率 36%

10、Cube2:51分钟(非独占),22GB 膨胀率 47%移动某省公司:网络流量多维分析平台应用场景二:流量方向统计分析通过统计,分析不同方向的流量规模和成功率,以实现精准的网络负载优化超过40个维度,hostname的基数超过500万单条查询 0.5S精准查询 200SAPPTYPE APPNAME HOSTNAME BJIDCFLAG BJCMCDNDLFLAG BJCMCDNWSFLAG BJCMCDNLXFLAG BJCMCACHEHWFLAG BJCMCACHEKWFLAG BJCMZHILIANFLAG WSCMFLAG WSCMZHILIANFLAG OTHERFLAG BDRAT

11、E BWRATE TIMEDELAY TIMEDELAYFLAG SUCRATE LOADDATE DNSIDC DNSBJCMCDNDL DNSBJCMCDNWS DNSBJCMCDNLX DNSBJCMCACHEWX BJCMCACHEWX DNSBJCMCACHEHW DNSBJCMCACHEKW DNSBJCMZHILIAN DNSWSCM DNSWSCMZHILIAN DNSOTHER 某家电网购平台 Cube最大Cube10个维度,目前有8个cube,可用指标20+最大表流量数据和部分业务数据10个维度6亿源数据日处理数各类数据40G查询速度90%的查询在5秒内返回5秒某家电网购平

12、台:运营参谋分析平台实用快速简单一个月上生产某家电网购平台:运营参谋分析平台业务目标流量PC/WAP/APP会员用户画像标签销售毛销售,妥投商品各类商品属性仓储自营,联营的商品可卖数24153国美运营参谋12345缺货风控利润调价 某家电网购平台:运营参谋分析平台大数据平台架构FlumeNginxCanalOGG流量日志MySqlKafkaSqoop接口数据Oracle业务DB任务调度HDFSMapReduceHiveSparkKylin数据仓库离线计算缓存数据RedisHBase实时计算Storm数据服务Kylin数据应用运营参谋热力图商家助手服务接口数据平台管理YARNRedis 某家电网

13、购平台:运营参谋分析平台应用展现京东云京东云:全面使用Kylin支持内外部数据服务KylinJCloud 京东宙斯API调用分析应用KylinJCloud 京东云海数据服务平台KylinJCloud 数据云数据分析支撑平台百倍变现效率京东宙斯:API调用分析应用Kylin作为运营人员分析JOS API调用情况的OLAP查询引擎,2015年6月上线使用日志数据量为100G/天。对API调用成功率,调用延时等情况的分析,帮助各个应用进行产品改进和故障定位等。分析查询延迟要求达到秒级Cube规模:单个Cube最大维度16个,最大数据条数100+亿,Cube占用最大存储空间400G查询场景:跨天,周,

14、月方式多维分析查询性能:95%的查询响应时间在15秒以内京东云海:数据服务平台Apache Kylin作为云海数据开放后台原始数据高频率低延时查询引擎,2015年5月上线使用Cube规模:单个Cube最大维度8个,最大数据条数4亿,最大存储空间800G。30个Cube占用4TB空间。性能:平均响应时间200ms,查询QPS=50,平均响应时间1s,查询QPS=200集群规模:30台(和其他业务共用),可以对Apache Kylin Query Server和HBase集群水平扩容来提高并发查询能力和减小响应时间。第三方合作商ISV开发者商家元数据管理任务管理任务监控数据质量管理京东云海集成开发

15、环境IDE离线计算实时计算批处理引擎流处理引擎数据仓库Spark SQLHadoopHBaseHiveMySQLKylin离线数据推送实时Kafka源JOS API京东云海云海将京东POP商家数据进行ETL处理,分主题进行数据表开放。ISV通过商家授权后,通过京东云海数据开放API获取授权后的数据进行应用开发。ISV开发的应用在京东服务市场进行销售。商家购买应用对自己店铺各项情况进行分析。京东数据云:数据分析支撑平台Apache Kylin作为京东数据云在线数据分析产品数千工坊底层支撑平台数千工坊(DF):通过拖拽,所见即所得的数据操作方式,对海量数据进行可视化分析,使用户轻松上手大数据处理及分析。2016年4月上线对外开放其他用户案例eBay易观:用户画像数据服务UserTagApp定义人群旅游、医疗、白领集合交、并、补在人群上多维分析男女、地域偏好、消费习惯5M+300+25K+200倍变现效率提升!SparkSQLKylin企业版8 SQLs查询23 分钟10 秒并发能力 5100+小结:Apache Kylin是高速高效、易实施的大数据分析平台大数据商业模式数据/需求积累Hadoop + KylinSQL应用价值回报支持万亿记录为大数据而生Hadoop平台纯SQL接口无需编程高速实施秒级查询速度互联网级并发百倍生产效率小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论