阿里巴巴离线大数据处理平台_第1页
阿里巴巴离线大数据处理平台_第2页
阿里巴巴离线大数据处理平台_第3页
阿里巴巴离线大数据处理平台_第4页
阿里巴巴离线大数据处理平台_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阿里巴巴离线大数据处理平台阿里巴巴离线大数据处理平台第1页提要阿里巴巴离线大数据处理平台第2页大数据时代阿里巴巴离线大数据处理平台第3页大数据时代挑战阿里巴巴离线大数据处理平台第4页阿里巴巴大数据产品探索阿里巴巴离线大数据处理平台第5页淘宝贷款处理小微企业贷款难问题:金额高流程长授信难周期长完全以数据驱动产品对现有数据进行二次挖掘颠覆原有业务模式规模优势阿里巴巴离线大数据处理平台第6页阿里巴巴大数据事业部阿里巴巴离线大数据处理平台第7页阿里巴巴离线大数据处理平台ODPS(OpenDataProcessingService)支持海量结构化数据离线存放和计算以RESTfulAPI方式提供服务基于阿里巴巴自主知识产权分布式操作系统支持高吞吐量数据上传下载服务支持SQL和存放过程支持MapReduce、BSP编程框架支持惯用矩阵运算和数据挖掘算法支持多用户管理和基于ACL和policy权限控制基于ODPS能够打造完整数据仓库处理方案阿里巴巴离线大数据处理平台第8页我们面临主要问题阿里巴巴离线大数据处理平台第9页高效稳定计算模型SQL、MapReduce依然是离线运算主流,不过,频繁IO带来性能瓶颈…模型描述能力局限…阿里巴巴离线大数据处理平台第10页准实时查询优势:防止IO消耗节约调度成本劣势:Failover资源占用数据规模适用场景:Adhoc分析阿里巴巴离线大数据处理平台第11页图编程功效:统一API、授权、数据存放、metaMaster-slave,worker负责子图经过迭代在节点间通讯和修改图拓扑挑战:数据倾斜时内存控制与其它类型作业共存错误恢复优势:方便处理图数据多轮迭代性能远好于MR应用场景:推荐、社交网络、物流、…阿里巴巴离线大数据处理平台第12页利用图编程实现SSSP算法(1)GraphLoader–图加载基类publicstaticclassSSSPGraphLoaderextends

GraphLoader<LongWritable,LongWritable,LongWritable,LongWritable>{

@Overridepublicvoidload(Recordrecord,MutationContext<...>context){

SSSPVertexvertex=newSSSPVertex();vertex.setId((LongWritable)record.get(0));String[]edges=record.get(1).toString().split(",");for(inti=0;i<edges.length;i++){String[]ss=edges[i].split(":");vertex.addEdge(newLongWritable(Long.parseLong(ss[0])),newLongWritable(Long.parseLong(ss[1])));

}context.addVertexRequest(vertex);

}

}阿里巴巴离线大数据处理平台第13页利用图编程实现SSSP算法(2)Vertex–点基类publicstaticclassSSSPVertexextends

Vertex<LongWritable,LongWritable,LongWritable,LongWritable>{

@Overridepublicvoidcompute(ComputeContext<…>context,Iterablemessages){longminDist=(getId()==1)?0:Integer.MAX_VALUE;for(LongWritablemsg:messages){if(msg<minDist){minDist=msg;}}if(minDist<this.getValue()){this.setValue(minDist);for(Edgee:this.getEdges()){context.sendMessage(e.getDestVertexId(),minDist+getValue());}}else{

voteToHalt();}}}阿里巴巴离线大数据处理平台第14页利用图编程实现SSSP算法(3)阿里巴巴离线大数据处理平台第15页矩阵和算法运算支持基于MPI算法运算包图形化交互界面支持算法:SVD分解逻辑回归随机森林…连接R与ODPS集成ODPS算法-ODPS阿里巴巴离线大数据处理平台第16页多集群架构业务增加速度永远快于技术完善速度,怎样支撑日益膨胀存放和计算需求?阿里巴巴离线大数据处理平台第17页多集群架构多计算机群处理规模瓶颈统一meta准实时数据同时降低热数据跨机房业务迁移多控制机群灰度公布业务分离阿里巴巴离线大数据处理平台第18页多租户模型怎样支持多个团体在一个平台上开发?阿里巴巴离线大数据处理平台第19页多租户模型用户空间授权访问跨空间访问受保护空间空间互信阿里巴巴离线大数据处理平台第20页ODPS安全架构数据安全是每个平台产品需要处理关键问题阿里巴巴离线大数据处理平台第21页Web服务器ODPS安全架构(MetaOTSStore)ODPS服务计算集群n计算集群1…ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群OdpsWorkerSchedulerExecutorHiveServer阿里巴巴离线大数据处理平台第22页云帐号Shenshu(授权服务)KDC

(SSO服务)Web服务器OTS(MetaStore)域帐号…用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1…ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群1.认证.2.检验用户权限,检验数据保护策略.3.给FuxiJob配置最小权限Capability.eg,pangucap权限以下:{“pangu://odps/prjA/shop/”:R,“pangu://odps/prjB/sale_detail/”:R,“pangu://odps/prjB/t1/”:W}SQL实例:INSERTOVERWRITEprjB.t1ASSELECTa.shop_name,b.sale_totalFROMprjA.shopaLEFTOUTERJOINprjB.sale_detailbONa.shop_name=b.shop_name;OdpsWorkerSchedulerExecutorHiveServer阿里巴巴离线大数据处理平台第23页云帐号Shenshu(授权服务)KDC

(SSO服务)Web服务器OTS(MetaStore)域帐号…用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1…ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群JavaSandboxProcessSandboxGuestOSKernel用户提交MapReduce程序可能会:恶意耗尽集群资源(CPU,Memory,Network,Disk);直接访问Pangu文件,窃取或篡改其它用户数据;窃取Linux节点上飞天系统进程敏感数据(如Tubocapability);...基于沙箱纵深防御体系1.Java沙箱2.Linux进程级沙箱3.虚拟机沙箱OdpsWorkerSchedulerExecutorHiveServer阿里巴巴离线大数据处理平台第24页灵活授权方式{"Version":"1","Statement":[{"Effect":"Allow","Principal":"zinan.tang","Resource":"acs:odps:*:projects/sampleprj/tables/test_*","Action":["odps:Update","odps:Select"]"Condition":{"IpAddress":{"acs:SourceIp":"10.32.180.0/23"}}}]}阿里巴巴离线大数据处理平台第25页数据上传下载服务怎样处理系统与多个数据源之间数据交换问题?阿里巴巴离线大数据处理平台第26页数据上传下载服务服务化:REST结构化数据流式数据传输高并发上传下载服务能力水平扩展可靠传输Failover&断点续传统一认证鉴权流控和防攻击提供可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论