数据治理能力_第1页
数据治理能力_第2页
数据治理能力_第3页
数据治理能力_第4页
数据治理能力_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据治理能力提升第一章 综述1.1数据治理能力提升项目介绍数据能力治理提升致力打造一个将非结构数据通过计算模型转换成结构化数据,用于可视化图表展示的云服务,将隐藏在数据中的信息直观展现于用户面前。使用该平台可以使用户或者技术人员通过可视化配置的方式快速制作模型、图表,节省人员工作量、减少人员数量投入,在无需修改底层代码的情况下,能完成数据计算、分析及展示。极大的提升开发效率、数据的价值应用和管理。1.2 Spark算法平台介绍数据能力治理提升中,对数据中心的原始数据进行算法计算的部分成为Spark算法平台,通过Spark集群的处理,将不同的算法运行到集群上,通过增加机器的方式,可以横向扩展算法

2、的性能。动态的调整算法使用的资源大小,并通过集群监控软件对各任务的处理情况进行查看。1.3 Spark算法平台组成spark集群由4台机器组成,其中三台为计算节点,master节点为HA高可用节点,并搭建了一系列系统监控及管理应用。第二章 Spark算法平台的优势2.1集群扩展性1. 算法平台是完全可扩展的解决方案。并通过机器的扩展、可以方便的扩充算法的性能。图1. 几种计算机系统的可扩展性2. 原算法运行为单机运行,只能通过增加机器性能或者对称多处理系统来提高性能,这种提高性能的方式见图一,无法达到集群处理的线性增长。2.2集群高可用性1. 算法平台可解决系统硬件问题,由原来的单机改为集群运

3、行,可解决所有的服务器硬件故障,当某一台服务器出现任何故障,如:硬盘、内存、CPU、主板、I/O板以及电源故障,运行在这台服务器上的算法就会切换到其它的服务器上。2. 算法平台可解决软件系统问题,在计算机系统中,用户所使用的是应用程序和数据,而应用系统运行在操作系统之上,操作系统又运行在服务器上。这样,只要应用系统、操作系统、服务器三者中的任何一个出现故障,系统实际上就停止了向客户端提供服务,比如我们常见的软件死机,就是这种情况之一,尽管服务器硬件完好,但服务器仍旧不能向客户端提供服务。而算法平台的最大优势在于对故障服务器的监控是基于应用的,也就是说,只要服务器的算法停止运行,其它的相关服务器

4、就会接管这个应用,而不必理会应用停止运行的原因是什么。3. 算法平台可以解决人为失误造成的应用系统停止工作的情况,例如,当管理员对某台服务器操作不当导致该服务器停机,因此运行在这台服务器上的应用系统也就停止了运行。由于集群是对应用进行监控,因此其它的相关服务器就会接管这个应用。2.3多算法并发1. 没有依赖关系的算法可以并行执行,缩短算法运算时间,提高服务器资源的使用。2. 有依赖关系的算法可以串行,可以通过web页面进行手动配置组合,方便算法流程的修改。2.4 spark任务调度1. 可以自动分配集群资源,保证各节点的资源合理2. 可以通过web页面查看资源使用情况,方便系统运维2.5 sp

5、ark任务失败重试与黑名单机制1. spark会选择合适的任务调度运行,并且监控任务的执行状态,任务被提交启动执行后,执行过程中会将执行状态上报给调度程序的后端,调度程序的后端则告诉任务调度, 可以得到任务的失败与成功状态,对于失败的任务,会记录它失败的次数,如果失败次数还没有超过最大重试次数,那么就把它放回待调度的任务池中,否则整个Application失败。在记录任务失败次数过程中,会记录它上一次失败所在的位置,这样下次再调度这个任务时,会使用黑名单机制,避免它被调度到上一次失败的节点上,起到一定的容错作用。2. 任务首先会统计成功的任务数,当成功的Task数超过75%(可通过参数控制)时

6、,再统计所有成功的任务的运行时间,得到一个中位数,用这个中位数乘以1.5(可通过参数控制)得到运行时间门限,如果在运行的任务的运行时间超过这个门限,则认为子任务出现问题时(包括执行时间过长,子任务异常停止),会重新执行该子任务(如下图)。2.6资源动态配置1. 可以创建不同的任务队列,通过修改任务执行的队列,使不同的任务执行时可以使用不同的服务器资源。2. 可以对每个队列使用的资源进行动态配置,方便给不同需求的数据不同的算法计算和处理速度。3. 可以动态的配置算法资源文件输入路径,输出路径,应对不同情况的业务需求2.7算法扩展性1. 算法平台已经定义好了输入和输出结构,当有新增算法时,通过对算

7、法的包装,增加算法的输入输出路径,及其他参数,可以将快捷的增减算法。2. 可视化后台添加算法启动脚本,便捷的增减算法2.8算法可视化1. 通过web页面方式可以方便快捷的进行算法的顺序改变2. 通过web页面方式可以查看失败的位置,及其执行的位置第三章 Spark算法测试数据3.1 测试结果1. 以下测试算法为:文本分类算法2. 服务器配置:16C + 128G + 4T 3. 服务器系统:CentOS 7.24. 单机运行为一台上述配置的服务器,参照数据中心启动了12个线程测试,运行过程中CPU满载5. 集群运行为上述配置的两台服务器200w 数据运行结果 文件大小4.9G :第一次 200W数据第二次 200W数据第三次 200W数据spark集群运行3min 21sec3min 17sec 3min 25sec单机运行5 min 20 sec6 min 07 sec6 min 04 sec1000W 数据运行结果 文件大小23G:第一次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论