腾讯⼤数据能⼒输出之路_第1页
腾讯⼤数据能⼒输出之路_第2页
腾讯⼤数据能⼒输出之路_第3页
腾讯⼤数据能⼒输出之路_第4页
腾讯⼤数据能⼒输出之路_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、腾讯数据能输出之路Agenda概览基础平台任务调度云化Part01概览发展历程20092011201320152010201220142016TDW v0.1发布搭建第个hadoop集群 智胜广告上线发布腾讯大数据套件TBDS V1.0TDBank上线全面代替原有外购商业产品 发布机器学习平台TeslaTRC正式开放TDW开源Gaia单集群实现8800台Docker on Gaia发布TPR全实时流程上线 上线2500台Spark集群 大数据私有云平台数智3.0发布云市场细分私有云公有云单租户公有云多租户大数据平台能力数据敏感性客户免运维、弹性需求客户成本极敏感、数据融合诉求数智略产品家族图谱

2、数据分析引擎机器学习引擎离线计算多维分析引擎资源调度管理(CPU、GPU)搜索MPP分布式存储(HDFS、Ceph)AngelMarianaMLGraph数据接入引擎大规模任务调度Tesla实时计算TDP/Spark StreamingGE数据可视化文智NLP开放推荐洞察分析热力图语音识别AAI优图识别FR小云客服ICS舆情iData游戏大数据平台MTA移动分析平台灯塔移动运营平台信鸽Push地图位置大数据更多数智方略行业产品站式、全流程大数据服务平台数智产品特点高度集成化,接入、存储、离线/实时计算、机器学习、可视化展现服务提供可拖拽式的支持分钟级调度的任务调度系统提供高性能多维分析引擎提供

3、全局设备、组件、任务纬度的运维系统数智产品优势站式 门户30+深度优化组件统数据 安全管控源于社区,完美兼容,平滑过渡全开放API数智家族图谱用户开发及应用系统洛子任务调度IDEIDEA黄金眼数据采集TDBank算法应用平台Tesla图计算机器学习AngelMariana流处理Stream SQL多维分析Hermes分布式数据库PGXZ批处理MapReduceSparkPig流式计算TStorm资源调度管理DockerOnGaia(GPU、CPU)分布式存储HDFSCephKV系统HBaseTDE数智数据平台架构管理控制台服务器大数据套件 组件层腾讯自研社区改造版社区版本公有云私有云非云化环境

4、大数据套件 服务层统日志中心统权限管控组件协调器Rest API运行时/工作流管理部署.!I控数Lhotse任务调度PGXZ HIVEPIGEasyCountSparkMapReduceTStormHDFSKafka/TubeDockerOnGaiaTDEHermesHBaseTPG黄金眼 报表展示据接入TDBANKTRE广告推荐处理能Gaia业务 在线 系统存储MR数据产品精准推荐/秒级.!I控/多 维分析/用户画像/数据接入7万亿条2资0源0调0度0台HDFS2/P5G0/HPBase/离2线0计P算5实万时亿计算TRC 条任务5调0度0万次&工 作流Lhotse3数0据0分亿发次Part

5、02基础平台盾点1.资源管理YARN vs I层(Infrastructure)数据存储HDFS vs I层(Infrastructure)云基础设施14Cluster Operating System(GAIA)Docker DaemonDocker DaemonHost OSHost OSServer(PM/VM)Server(PM/VM)Docker DaemonHost OSServer(PM/VM)Docker DaemonHost OSServer(PM/VM)Batch jobHPC MPIONLINESTREAMINGSERVICEmonitordeployDocker on

6、Gaia腾讯Gaia运营现状p 8800:单集群节点数p 20w+:调度能力覆盖20w个核p 8k:作业并发度数p 2500:资源池个数p 0.2ms:container平均调度匹配时间p 1.3亿:日运行container数p 120w: 日运行作业数p 95%:峰值vcore、memory使用率DockerOnGaia解决什么问题?资源共享异构环境共存动态扩缩容容灾容错自动化运维键式部署:申请资源后提交app,剩余事情交给dockerongaia用户聚焦业务灰度运营以container为单位进行升级、回滚等操作Gaia Scalable FairScheduler多业务共享公平的使用集群资

7、源 保证各自业务的quota保证高优先级作业抢占 Service batch集群整体资源利用率cpu和memory-intensive的作业混布 大作业和小作业混布Service和batch混布可扩展性调度吞吐Gaia 服务注册与发现Gaia 资源控制接MemoryNetwork IODisk spaceCPUGaia 资源管理纬度增加资源维度更多的资源管理纬度 弹性的CPU控制弹性的内存控制弹性的磁盘容星控制 弹性的网络出带宽控制 弹性的网络入带宽控制 弹性的Disk IO控制 Buffer IO控制Gaia - EMCSoftlimitEMC Elastic Memory Control(

8、弹性内存控制)1)不会触发系统oom kill:使用了 container机制,且task_cgroup是hardlimit。2)可以容纳更多container: 可按照平均值分配container。3) 作业失败率大大降低:container 之间是softlimit机制。4) 对用户资源评估能力要求降低/cgroupstask_cgroupscgroup 1container 1container ncontainer 2cgroup 1cgroup 1attachattachattachcallBackFuncnm_cgroupdn_cgroupsys_cgroupGaia kill p

9、olicyhardlimitGaia - EMCGaia - EMCGaia 络带宽管控1)TC+cgroups相结合的方式控 制。2) container之间的网络带宽可以 相互borrow,可以充分利用网络资 源。3)内核实现专门控制网络入带宽 的cgroup controller,兽力netrx subsystemRoot class(1:)container 2attachcontainer 1child class ncontainer nattachborrowchild class 1child class 2attachattachGaia 络带宽设计目标在某个cgroup网络

10、繁忙时,能保 证其设定配额不会被其他cgroup挤 占在某个cgroup没有用满其配额时, 其他cgroup可以自动使用其空闲的部 分带宽在多个cgroup分享其他cgroup的空 闲带宽时,优先级高的优先; 优先级 相同时, 配额大的占用多,配额小的 占用少尽星减少为了流控而主动丢包Gaia 络带宽队列: 不兽力队列, 对每个报文直接在正常代码路径上进行决策Cgroup区分(标记): 在正常处理流程中,报文查找到目标socket结构之后,根据socket的owner process来确定cgroup报文决策: 令牌桶 + 共享令牌池 + 显式借令牌专利2013107167896 - 种保证速

11、率和充分利用空余带宽的流星调度方法限速方式: ECN标记 + TCP滑窗 + 丢包专利201310743471.7 - 通过接收端主机标记ECN进行网络入流星限速的方法专利2013107175144 - 根据令牌桶的水位调整TCP通告窗口的网络入流星主动限速方法Gaia Disk IO对buffer io失控。cgroup通过识别pid,控制磁盘io。但在buffer io中,失去了 原有的pid信息,导致不可控。Gaia Disk IO三个cgroup,分别配置“保证带宽”为40, 60, 80 kB/s, 模拟磁盘的带宽为180kB/sGaia 其他CPU管控Cpu share+cpuse

12、t结合管控NM和DN进程纳入container管理容器中资源显示问题通过FUSE实现用户态的文件系统使用cgroup的数据统计container实际资源使用生成仿真的meminfo、stats、diskstats、cpuinfo等文 件,并绑定mount到container中Container数据存储使用hostvolume存储不需要保留的数据;使用Ceph RBD存储需要保留的数据:使用Ceph volume plugin 为每个container分配个RBD存储 目录Docker Registry改造基于hdfs的存储,实现无限容星基于tpg修改registry为无状态的多registry server的负载均衡Docker热升级功能Part03任务调度云化云化收益环境致运行环境镜像化环境隔离容器间运行环境隔离版本管理通过构建新镜像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论