




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
百度大数据即席查询服务百度大数据即席查询服务1百度开放云百度开放云2即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•3即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•4Ø大数据即席查询(Ad-Hoc
Query)平台ØPAAS:开箱即用,用户无需关心机器/集群的运维/细节Ø高性能/规模:裸机/优化/最大PB量级以上Ø低成本:多租户共享集群/按使用付费BigSQL
定位Ø大数据即席查询(Ad-HocQuery)平台ØPAAS:5Ø
数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)Ø
使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)Ø
语法集:兼容开源SparkSQL/HQLØ
按使用付费:按(Query复杂度+扫描数据量)计费Ø
多用户协同:灵活的权限管理BigSQL
特点Ø数据格式:半结构化(CSV/JSON/Parquet/P6•
面向“人”的查询ü交互式(Interactive):Ø查询具有较高时效性ü即席(Ad-Hoc):Ø查询模式相对不固定Ø数据没有(时间/成本)做过多预处理Ad-Hoc
Query•面向“人”的查询ü交互式(Interactive):7Ad-HocQueryOLAP数据密度弱(半)结构化高度结构化加工过程粗(浅)加工深度加工查询模式相对随机相对固定即席查询
vs
多维分析Ad-HocQueryOLAP数据密度弱(半)结构化高度结构8MPP/ImpalaSQLonHadoop/SparkSQL扩展性1000台以内/PB以下千台以上/PB以上查询延迟毫秒~秒秒~分钟架构复杂性中等复杂容错无有调度策略Gang/Transaction分批启停开销小/常驻进程大/现启动与存储结合程度紧密松散MPP/Shared-NothingMPP/ImpalaSQLonHadoop/SparkSQL9BigSQLServiceWebServe
rTools/SDKBOSBigSQL
示意图
User
QueryUser
QueryStreamingBatchBigSQLServiceWebServeTools/SDK10即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•11
REST
API接入层(Http
Server)
SessionManagerSparkContextSessionWorker
Query
Query
SchedulerCompute
&
Storage
ClusterSparkContextSessionWorker
Query
QuerySparkContextSessionWorker
Query
QuerySDKCLIToolsMetaStoreIAM账单监控StateStoreConsoleBigSQL
整体架构 RESTAPISparkContextSession12Ø
易用性:各种形式的APIØ
可用性:关键节点容错Ø
安全:租户认证和鉴权、Quota限制Ø
账单Ø
监控BigSQL整体架构:接入层Ø易用性:各种形式的APIØ可用性:关键节点容错Ø安全13计算引擎(Spark)SessionWorkerSessionWorkerSessionWorkerSessionWorker
APPExecutorExecutor
APPExecutorExecutor
Executor
分布式缓存(Cache
Manager)存储引擎(DFS/Column
Storage)
APPExecutor
APPExecutorExecutorBigSQL整体架构:引擎层
接入层计算引擎(Spark)SessionWorkerSessio14即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•15高性能ShuffleBigSQL
关键技术(一)高性能ShuffleBigSQL关键技术(一)16高性能ShuffleBigSQL
关键技术(一)高性能ShuffleBigSQL关键技术(一)17BigSQL
关键技术(一)BigSQL关键技术(一)18数据缓存层BigSQL
关键技术(二)UserUser
接入层
计算引擎(Spark)
Cache
Manager
Cache存储引擎(HDFS
+
Parquet)数据缓存层BigSQL关键技术(二)UserUser 19数据缓存策略l
按需缓存Ø
Query运行时触发Cache
miss,异步load到缓存l
数据预取Ø
周期性Load相关Table/Partition到缓存Ø
根据过去Query信息统计热点数据,提前Load到缓存典型案例:跨地域查询加速(提升至少一个数量级)BigSQL
关键技术(二)数据缓存策略ØQuery运行时触发Cachemiss,异20优化执行l
智能参数优化Ø
利用Combine类InputFormat,减少MapTask数Ø
根据上游输出,自动优化Reduce
Partition数目l
调度优化Ø
评估数据量,自动复用Application
或者
启用新的Applicationl
近似查询Ø
长尾任务自动忽略,保证时效性BigSQL
关键技术(三)优化执行l智能参数优化Ø利用Combine类InputF21资源隔离/安全l
基于Cgroup/Namespace的Container隔离Ø
CPU/Memory/FSØ
Container本身的加固Ø
网络的互通与隔离l
JVM沙箱层的多种安全策略l
计算/存储框架层的安全认证和加密传输BigSQL
关键技术(四)资源隔离/安全l基于Cgroup/Namespace的Co22即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•23在Baidu内部的应用凤巢广告数据分析l
漏斗分析Ø
分析广告被过滤的原因,各个维度特征等l
系统优化和问题定位Ø
分析系统业务日志,发现可优化的指标和潜在问题日均扫描数据量:xx
PB在Baidu内部的应用凤巢广告数据分析Ø分析广告被过滤的原24即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•25l
持续投入技术研发Ø更智能的数据缓存层:细粒度/物化视图选取Ø实时更新Ø向量执行:提高CPU
cache命中率ØCBO:Cost-based
OptimizerBigSQL
后续规划l持续投入技术研发Ø更智能的数据缓存层:细粒度/物化视图26l
构建通用大数据处理平台Ø日志收集服务Ø数据变形/ETL服务Ø报表/多维分析Ø即席查询服务Ø批处理服务Ø预测服务BigSQL
后续规划l构建通用大数据处理平台Ø日志收集服务Ø数据变形/ETL服27DWTransformHDFSCollect
OLAPStorageTransform特征库Transform多维分析ETL报表
LogService即席查询批处理
服务预测服务通用大数据处理平台DWTransformHDFSCollect OLAPTra28百度大数据即席查询服务百度大数据即席查询服务29百度开放云百度开放云30即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•31即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•32Ø大数据即席查询(Ad-Hoc
Query)平台ØPAAS:开箱即用,用户无需关心机器/集群的运维/细节Ø高性能/规模:裸机/优化/最大PB量级以上Ø低成本:多租户共享集群/按使用付费BigSQL
定位Ø大数据即席查询(Ad-HocQuery)平台ØPAAS:33Ø
数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)Ø
使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)Ø
语法集:兼容开源SparkSQL/HQLØ
按使用付费:按(Query复杂度+扫描数据量)计费Ø
多用户协同:灵活的权限管理BigSQL
特点Ø数据格式:半结构化(CSV/JSON/Parquet/P34•
面向“人”的查询ü交互式(Interactive):Ø查询具有较高时效性ü即席(Ad-Hoc):Ø查询模式相对不固定Ø数据没有(时间/成本)做过多预处理Ad-Hoc
Query•面向“人”的查询ü交互式(Interactive):35Ad-HocQueryOLAP数据密度弱(半)结构化高度结构化加工过程粗(浅)加工深度加工查询模式相对随机相对固定即席查询
vs
多维分析Ad-HocQueryOLAP数据密度弱(半)结构化高度结构36MPP/ImpalaSQLonHadoop/SparkSQL扩展性1000台以内/PB以下千台以上/PB以上查询延迟毫秒~秒秒~分钟架构复杂性中等复杂容错无有调度策略Gang/Transaction分批启停开销小/常驻进程大/现启动与存储结合程度紧密松散MPP/Shared-NothingMPP/ImpalaSQLonHadoop/SparkSQL37BigSQLServiceWebServe
rTools/SDKBOSBigSQL
示意图
User
QueryUser
QueryStreamingBatchBigSQLServiceWebServeTools/SDK38即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•39
REST
API接入层(Http
Server)
SessionManagerSparkContextSessionWorker
Query
Query
SchedulerCompute
&
Storage
ClusterSparkContextSessionWorker
Query
QuerySparkContextSessionWorker
Query
QuerySDKCLIToolsMetaStoreIAM账单监控StateStoreConsoleBigSQL
整体架构 RESTAPISparkContextSession40Ø
易用性:各种形式的APIØ
可用性:关键节点容错Ø
安全:租户认证和鉴权、Quota限制Ø
账单Ø
监控BigSQL整体架构:接入层Ø易用性:各种形式的APIØ可用性:关键节点容错Ø安全41计算引擎(Spark)SessionWorkerSessionWorkerSessionWorkerSessionWorker
APPExecutorExecutor
APPExecutorExecutor
Executor
分布式缓存(Cache
Manager)存储引擎(DFS/Column
Storage)
APPExecutor
APPExecutorExecutorBigSQL整体架构:引擎层
接入层计算引擎(Spark)SessionWorkerSessio42即席查询服务(BigSQL)•
BigSQL定位/特点•
BigSQL架构•
BigSQL关键技术•
BigSQL在Baidu内部的应用•
下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•43高性能ShuffleBigSQL
关键技术(一)高性能ShuffleBigSQL关键技术(一)44高性能ShuffleBigSQL
关键技术(一)高性能ShuffleBigSQL关键技术(一)45BigSQL
关键技术(一)BigSQL关键技术(一)46数据缓存层BigSQL
关键技术(二)UserUser
接入层
计算引擎(Spark)
Cache
Manager
Cache存储引擎(HDFS
+
Parquet)数据缓存层BigSQL关键技术(二)UserUser 47数据缓存策略l
按需缓存Ø
Query运行时触发Cache
miss,异步load到缓存l
数据预取Ø
周期性Load相关Table/Partition到缓存Ø
根据过去Query信息统计热点数据,提前Load到缓存典型案例:跨地域查询加速(提升至少一个数量级)BigSQL
关键技术(二)数据缓存策略ØQuery运行时触发Cachemiss,异48优化执行l
智能参数优化Ø
利用Combine类InputFormat,减少MapTask数Ø
根据上游输出,自动优化Reduce
Partition数目l
调度优化Ø
评估数据量,自动复用Application
或者
启用新的Applicationl
近似查询Ø
长尾任务自动忽略,保证时效性BigSQL
关键技术(三)优化执行l智能参数优化Ø利用Combine类InputF49资源隔离/安全l
基于Cgroup/Namespace的Container隔离Ø
CPU/Memory/FSØ
Container本身的加固Ø
网络的互通与隔离l
JVM沙箱层的多种安全策略l
计算/存储框架层的安全认证和加密传输BigSQL
关键技术(四)资源隔离/安全l基于Cgroup/Namespace的Co50即席查询服务(BigSQL)•
BigSQL定位/特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 移动通信技术在智慧社区服务的综合应用考核试卷
- 残值及回购合同范本
- 礼仪用品行业品牌法律风险防控考核试卷
- 种子批发商品牌形象塑造与传播考核试卷
- 广播影视设备网络营销咨询批发考核试卷
- 渔业机械制造企业的服务化转型考核试卷
- 【部编版】四年级语文下册第五单元《交流平台 初试身手》精美课件
- 会展现场应急管理与救援考核试卷
- 罐头食品生产流程优化考核试卷
- 食道癌护理小讲课
- 内蒙古鄂尔多斯市2020年中考英语试题(解析版)
- Vue.js前端开发实战(第2版) 课件 第2章 Vue.js开发基础
- 异面直线 高一下学期数学湘教版(2019)必修第二册
- 笔墨时空-解读中国书法文化基因智慧树知到期末考试答案2024年
- 计算机网络故障的诊断与解决方法
- GLB-2防孤岛保护装置试验报告
- 的沟通技巧评估表
- 职场人健康状况调查报告
- 卵巢囊肿诊治中国专家共识解读
- 两癌筛查的知识讲座
- 仪器共享平台方案
评论
0/150
提交评论