版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析平台平台演进及数据分析⽅法应⽤⽬录.CONTENTSPA
RT
/
01
PA
RT
/
02PA
RT
/
03PA
RT
/
04我是谁:个⼈简介做什么:数据分析领域简介怎么来:数据分析平台演进历史能⼲什么:数据分析驱动数据分••••••析平台性能优化我们是谁:数据平台部简介怎么做:数据分析平台3.0详解02
数据平台部简介(1/3)数据采集与传输数据存储与计算数据应⽤与消费⼀站式数据研发平台⼀站式AI研发平台RDSOB机器学习(PAI,TensorFlow)业务运营及PD数据应⽤数据同步ꢀꢁ
ꢂ
ꢃꢄꢅꢆꢇꢈꢉꢊꢋꢃꢌꢍꢊꢋDB⽇志解析同步⽇志消息OSS⽂件(DRC)⽇志⽂件同步实时流式计算(Kepler,SparkStreaming)分析师数据科学家业务技术(SLS)通⽤同步⼯具ꢀꢁꢂꢃꢀꢁꢂꢃ(DataX)同步中⼼(DTM)……批量计算(ODPS,Spark,Raya)ꢀꢁꢂꢃꢀꢁꢂꢃ02
数据平台部简介(2/3)业务场景⽀付全球化芝麻⽹商财富保险微贷云数据实验室数据⼯作台DataOS桌⾯蚂蚁数据⻔户、知数据APP……⼈群画像平台、位置服务平台……开发者中⼼……数据决策平台
数据实验平台外部数据采集平台数据资产管理平台数据研发平台数据分析平台(全球数据爬取)(资产规范、搜索)(多引擎,批流合⼀)(多维分析,智能洞察)(敏捷决策)(ab实验,分析)数据引擎任务执⾏与调度引擎数据科学引擎决策服务引擎核⼼能⼒DataOS内核数据安全隐私保护数据质量权限元数据中⼼流程数据治理……基础框架多环境适配租户/账户体系02
数据平台部简介(3/3)每⼀个微⼩的念头
都值得⽤数02
数据分析数据分析领域体系化结构01
身边的数据分析01
身边的数据分析01
身边的数据分析01
身边的数据分析01
身边的数据分析01
身边的数据分析01
身边的数据分析01
身边的数据分析02
数据分析领域⾃动(机器为中⼼)分析阶段⼈⼯(⼈为中⼼)描述型分析发⽣了什么?诊断型分析为什么会发⽣?决策⾏动预测型分析将会发⽣什么?数据决策辅助⾃动决策指导型分析我需要做什么?02
数据分析领域⾃动(机器为中⼼)分析阶段⼈⼯(⼈为中⼼)描述型分析发⽣了什么?人工参与越来越少机器参与越来越多诊断型分析为什么会发⽣?价值越来越大决策⾏动预测型分析将会发⽣什么?复杂度越来越高数据Hindsight-Insight-Foresight决策辅助⾃动决策指导型分析我需要做什么?03
数据分析平台蚂蚁数据分析平台演进及技术详解01
传统数据分析流程与⽭盾ETL技术ETL技术ETL技术PD数据采集服务端技术数据回流ETL技术前端技术数仓建模报表需求报表展示ETL01
传统数据分析流程与⽭盾ETL技术ETL技术开发资源瓶颈ETL技术PD数据采集服务端技术前端技术数据回流ETL技术数仓建模报表需求需求多需求易变报表展示ETL流程⻓需求落地周期⻓02
数据分析平台2013V1.0ꢈꢂꢃꢀꢁꢄꢓꢉꢊꢋꢌꢏꢐꢅꢑꢀꢃꢄꢁꢅꢀꢁꢆꢇꢍꢎꢔꢆꢕꢖꢈꢉꢄꢓꢀꢁꢏꢇꢙꢐꢣꢒꢎꢢꢍꢎꢀꢁꢄꢕꢖꢗꢇꢋꢌꢄꢓꢎꢢꢈꢉSQLꢀꢁꢂꢟꢤꢃꢇꢘꢈꢉꢟꢠꢡꢌꢍꢋꢜꢝꢞꢧꢠCubeꢍꢎJDBCꢀꢁꢂꢉꢊꢕꢖꢄꢓꢍꢎꢙꢚꢛSQLꢒꢚꢛGarudaꢒꢦHigoꢒꢦ03
数据分析平台1.0新的⽭盾分析功能不⾜分析性能不⾜数据能⼒与靠ETL加⼯靠半⾃动回流业务⼯作台分裂星型模型、雪花模型不⽀持明细处理函数不⽀持需要ETL加⼯ODPS即时分析性能不⾜⽤户⼈⼯回流数据到其他数据源⽤户⻔槛较⾼数据分析平台独⽴系统⼩⼆有⾃⼰的业务⼯作台数据能⼒与业务⼯作台分裂⽤户切来切去ETL资源瓶颈依赖ETL资源04
数据分析平台2014-2016V2.0ꢀꢁꢂꢃꢄꢅꢀꢅꢁꢆꢂꢇꢈꢉDigger
Server
Base
on
Mondrianꢊ
ꢇꢍꢃꢄ
ꢄꢎꢅꢆꢟꢎꢠꢡꢟꢎꢆꢂꢊꢋꢥAd-hocꢊꢋꢊꢋꢋꢌꢘꢙM
DXꢊꢋꢦꢧSQL
ꢚꢛꢜꢇꢏꢎꢢꢋꢌROLAPODPꢋꢌꢏꢐꢑꢒꢋꢌꢔꢈꢑꢒRDSꢉꢕꢋꢌꢔꢈꢓꢇꢋꢌꢔꢈꢉꢕꢀꢁꢖꢗ05
重新定义新分析洞察(1/3)05
重新定义新分析洞察(2/3)我们曾经生活在一个非此即彼的世界。您要么懂得如何编程,要么与高级分析技术无缘。要么学习R、Python和/或SAS,要么请人帮您攻克难关。Tableau相信,为了真正地扩充人类智能,我们需要为技术能力千差万别的用户提供丰富的功能。我们信奉的原则是,让每个技能级别的人都能够从数据中获取见解和证据。——Tableau05
重新定义新分析洞察(3/3)/客户分层及不同层次需求客户能⼒分层⾦字塔⻆⾊业务线需要的能⼒让有业务分析⽅法论的同学可以赋能给⼊⻔的同学决策辅助(构建时间⻓)头部(BI,数据科学家,业务专家)腰部(PD,运营,BI,技术)腿部(运营)业务⽅B诊断型分析(诊断时间⻓)端
做让技能专精的⼈⾼效⼯作(诊断、探索、科学计算)数据分析的⼈⽤户描述型分析让不会的⼈更容易变会不太懂数据分析腿部看数据分析结果并做决策的⼈洞⻅传播C端⽤户实时在线协作让洞⻅产⽣、流通更⾼效产品、运营、⾼管技术基于数据的传播丰富的可视化,便于快速理解06
数据分析平台V3.0ꢈꢑꢉꢒꢊꢀꢁꢂꢃꢄꢀꢅꢁꢆꢇꢈꢉꢊꢋꢂꢃꢌꢄꢂꢃꢍꢅꢨꢩꢶꢑꢷꢙꢔꢿꢨꢩꢹꢺꢻꢼꢽꢾꢔꢿꢨꢩꢞꣂꢔꢿꢓꢒꢔꢕꢊꢚꢛꢪꢫꢛꢕꣁꢞꣂZꢖꢗꣀꢓꢳꢔꢐꢕꣁ
ꢂꢃꢹꢺꣃ꣄ꣅꢞꣂꢛꢨꢖꢘꢤꢥꢊꢋIDEꢦꢧꢨꢩꢪꢫꢍꢬꢟꢠꢭꢮꢯꢨꢩꢶꢑꢷꢏꢐꢳꢴꢒꢸꢡꢢꢎꢵ
ꢡꢢꢅꢣꢖꢋꢗꢋꢘꢙꢊ
ꢀꢘꢚꢛꢡꢢꢰꢱꢲOLAPꢟꢠConnectorꢜꢝꢌꢞꢟꢠꢀꢘꢎꢌꢞ06
数据分析平台V3.0核⼼能⼒细化Intelligence,
Self-Service,
End-to-End
Solution,
Embedded分析洞察平台会员增长平台智慧人群服务AB实验平台国际增长地图开放服务门面:SDK
/
API
/
DSL数据科学平台能力语言运行解释编译优化调试数据集集成轻加工能力:明细科学分析能力:检验、模型复合分析模型:人群、留存智能路由智能优化多源适配(SPI)缓存&队列管控多语言(R,Python等)
开发者工具多维分析能力:钻取统计支撑
/
健康检查iPrepare(智能预计算,原iCube)iSync(智能同步中心)iEngine(计算引擎)科学计算运行容器多租户隔离同步任务管理智能任务优先级智能选源选格式在线查询路由多策略计算逻辑定义智能生命周期管理任务自动运维和管控智能合并路径最优化多引擎支持(SPI)查询最优路由及改写算子可插拔热升级资源自适应同步任务调度执行多引擎支持(SPI)多版本多上下文隔离大数据量高性能统一元数据中心
/
全链路血缘基础设施:ODPS
/
RDS
/
ADS
/
Explorer
/
AntSpark
/
SparkOnODPS
/
Kud07
数据分析平台核⼼技术(2/3)/智能同步⽇常分析量分析函数智能洞察对外输出千万
次5
垂直⽅案公有云
专有云180+
个性能数据源洞察提效数据⺠主化10+
个5
⽇业务
61%开发
19%BI
12%N天
到
分钟级p981s
内04
数据分析应⽤数据分析驱动数据分析平台性能优化报表查询15秒打开⼀些⻚⾯要8秒个别报表查询要90秒太慢了期望提升到秒级简直不能忍显然这里的问题是RT的问题:⽤户的期望是能够达到秒级响应,但是我们知道,就像稳定性⼀样,实际困难是不可能100%达到秒级的。体验指标查询RT在1秒内占⽐98%什么是一个好的指标:⼀个好的指标应该简单易懂,⼀个好的指标应该是个⽐率,⼀个好的指标可以指导⾏为改变,例如汽⻋⾥程和速度。ꢀꢁꢂꢨꢩꢪꢫLꢬꢭꢭ特点与挑战ꢀꢁꢂ
ꢃꢄ&
ꢅꢄꢆ
ꢇꢄꢆ请求链路视角查询链路⾮常复杂ꢀꢁꢂꢍꢒꢚꢖꢛꢜ
ꢝꢒꢙꢄꢑ
ꢕꢖꢘꢄꢆ✦✦✦数据源多种多样,能⼒参差不⻬ꢤꢥꢦꢧ查询是⽤户⾃助通过界⾯拖拽⽣成,会造成形形⾊⾊的查询,规律⾮常不明显ꢍꢅꢕꢞꢟꢠꢡꢢꢠꢣEꢕꢖꢗꢘꢕꢒꢖꢙꢊꢋꢈDꢉꢌꢍꢅꢎꢏꢐꢑꢒꢆꢄꢆꢓꢍꢔꢅꢊꢋ逻辑模块视角04
分解后⽤数学的⽅式对指标进⾏抽象!1ꢀ
ꢁꢂqyꢃT
ꢄꢅꢆꢁꢂꢇrꢈgꢉꢊꢋꢌeꢧ0!2ꢀ
(∑
ꢍMnrecall
∗pa
ttern
∗
∗
)snPꢇr
DꢎꢃT
ꢏꢐꢑꢒꢌ
ꢓꢔꢕꢖꢑꢒꢌ
ꢗRnꢘpꢙꢁꢂꢇrꢈgꢉꢊꢋꢌ123!3ꢀ
18ꢚꢛ0ꢓꢔꢕꢖꢑꢒꢌ
ꢗ(∑
ꢜꢝꢕꢖꢆ056
789)ꢊꢍMnqyꢊꢃT
ꢗꢄꢅꢆꢞ
8ꢚꢛ0ꢟꢄꢇrꢈgꢉꢊꢋꢌ123!4ꢀ
ꢠ
5
..23
0ꢡ1ꢓꢔꢕꢖꢑꢒꢌ
(∑
ꢜꢝꢕꢖꢆ0;<
==>?9
@AꢊꢍMnqyꢊꢃT
ꢗꢄꢅꢆꢠ
5.
.
230ꢡ1ꢟꢄꢇrꢈgꢉꢊꢋꢌ)ꢀ123ꢈ!5ꢀ
ꢞꢢqyꢃT
ꢄꢅꢆꢞꢢ
ꢟꢄꢇrꢈgꢉꢊꢋꢌ0!6ꢀ
(!7ꢀ
(∑
ꢣu5EFGH
)ꢀꢍMnqyꢊꢃT
ꢄꢅꢆꢤ
ꢥ*ꢦꢟꢄꢇrꢈgꢉꢊꢋꢌꢗR123∑
Q1ꢈgꢉꢀꢁꢢꢨꢩꢪꢀSTU0∑
ꢣu)ꢀꢍMnqyꢊꢃT
ꢄꢅꢆꢤ
ꢥ*ꢦꢟꢄꢇrꢈgꢉꢊꢋꢌJK
LHMNJN123VWVXY
ꢀZ[\]^!8ꢀ
1−
ꢄꢅꢑꢒꢌ
∗
ꢀꢇrꢃT
ꢗꢄꢅꢆꢤ
ꢥ*ꢦꢟꢄꢇrꢈgꢉꢊꢋꢌꢯlꢫꢬꢭꢮRnꢘpꢙꢁꢂꢇrꢈgꢉꢊꢪꣃꢲꢳmꢴꢵꢶ9ꢘpꢙꢄꢅ9ꢇrTSꢱ9ꢈg%ꢷꢸꢇrTS*ꢀ
ꢈgꢉꢊꢋꢌꢥꢀ
ꢻꢼꢽꢔꢾOꢊꢈgꢉꢋꢌꢊꢿꣀꣁ=ꢪꢈg%ꢹꢸꢈgꢷꢷꢺ%ꢸꢷꣂꢺ%ꢸ05
利⽤数据分析找到问题并制定⾏动策略Server
RT
<=1%%ꢆꢇꢈꢉ
ꢊServer
RT
<=1
0ꢆꢇꢈꢉꢊ*!"1E3
=L
ꢀB
=
%
&'
(
)'+,-&
ꢁ
ꢂꢃꢄꢅQAꢆꢀBꢇ)
=
./
0SE3Oꢈ
ꢀB--ꢀꢁꢂꢅ&
ꢁ
ꢉꢃꢄꢅQAꢆꢀBꢇ)
=
./
0SE3Oꢈ
ꢀB11&
ꢁ
ꢊꢋꢌꢍꢎꢉꢊꢉꢅQAꢆꢀ
Bꢇ
)
=
ꢊꢋꢌꢍꢎꢉꢊꢉ
SE
3O
ꢈꢀ
B22&
ꢁ
ꢏꢐꢑꢒꢊꢅQAꢆꢀB
ꢇ)
=
ꢏꢐꢑꢒꢊS
E3
Oꢈ
ꢀB33&
ꢁ
ꢎꢃꢌꢄꢅQAꢆꢀBꢇ)
=
ꢎꢃꢌꢄS
E3
Oꢈ
ꢀB44&
ꢁ
ꢐꢂꢐꢓꢊꢅQAꢆꢀBꢇ)
=
ꢐꢂꢐꢓꢊS
E3
Oꢈ
ꢀBQRꢣLꢤꢥꢦꢧC55&
ꢁ
ꢔꢕꢄꢖꢍꢅQAꢆꢀBꢇ)
=
ꢔꢕꢄꢖꢍS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 燃烧仿真.湍流燃烧模型:多尺度湍流燃烧:燃烧仿真软件Fluent入门
- 驾驶监控系统行业市场深度分析及发展策略研究报告(2024-2030版)
- 燃烧仿真.燃烧器设计与优化:燃烧效率提升:燃烧基础理论与化学反应动力学
- 2023年医用高能射线设备项目综合评估报告
- 燃烧仿真.燃烧器设计与优化:燃烧器基本结构:燃烧器未来发展趋势与创新
- 2024-2030年鹅去氧胆酸行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年马拉松输送带行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年饲料霉菌毒素粘合剂和修饰剂行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年飞机行业市场发展现状及发展趋势与投资前景预测研究报告
- 2023年ABS系统项目评价分析报告
- 模拟联合国介绍-课件
- 个人所得税课程设计
- 【培训】统编高中语文教材使用建议
- ICU床旁交接班清单
- 2020年AMC8真题及答案(中文版)
- 2023年清华大学考博英语真题及答案详解
- 国家自然科学基金标书写作课件
- 表单:纳税人办税授权委托书
- 英语泛读教程2(王守仁)答案
- 《Google-Cash》快速致富手册(中文版)
- 律师手稿:公司常年法律顾问报价单模板
评论
0/150
提交评论