云计算平台技术方案建议书_第1页
云计算平台技术方案建议书_第2页
云计算平台技术方案建议书_第3页
云计算平台技术方案建议书_第4页
云计算平台技术方案建议书_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 云计算平台技术方案建议书目 录 TOC o 1-3 h z u HYPERLINK l _Toc502142580 1系统总体概述 PAGEREF _Toc502142580 h 4 HYPERLINK l _Toc502142581 1.1系统需求分析 PAGEREF _Toc502142581 h 4 HYPERLINK l _Toc502142582 1.2系统基本功能 PAGEREF _Toc502142582 h 4 HYPERLINK l _Toc502142583 1.3系统建设的主要设计思想和设计目标、设计原则 PAGEREF _Toc502142583 h 5 HYPERL

2、INK l _Toc502142584 1.4系统的主要技术特点 PAGEREF _Toc502142584 h 6 HYPERLINK l _Toc502142585 1.5系统总体构架 PAGEREF _Toc502142585 h 7 HYPERLINK l _Toc502142586 1.6cProc云处理平台简介 PAGEREF _Toc502142586 h 8 HYPERLINK l _Toc502142587 1.7cStor云存储系统简介 PAGEREF _Toc502142587 h 10 HYPERLINK l _Toc502142588 1.8OpenStack简介 P

3、AGEREF _Toc502142588 h 13 HYPERLINK l _Toc502142589 1.9系统设计性能 PAGEREF _Toc502142589 h 13 HYPERLINK l _Toc502142590 1.9.1数据流量处理能力 PAGEREF _Toc502142590 h 13 HYPERLINK l _Toc502142591 1.9.2数据存储读取能力 PAGEREF _Toc502142591 h 14 HYPERLINK l _Toc502142592 1.10系统功能 PAGEREF _Toc502142592 h 16 HYPERLINK l _To

4、c502142593 2系统设计实施与关键技术方法 PAGEREF _Toc502142593 h 17 HYPERLINK l _Toc502142594 2.1cProc云处理平台 PAGEREF _Toc502142594 h 17 HYPERLINK l _Toc502142595 2.1.1数据立方(DataCube) PAGEREF _Toc502142595 h 17 HYPERLINK l _Toc502142596 2.1.2任务监控器(JobKeeper) PAGEREF _Toc502142596 h 20 HYPERLINK l _Toc502142597 2.1.3c

5、Proc数据处理 PAGEREF _Toc502142597 h 22 HYPERLINK l _Toc502142598 2.1.4数据压缩 PAGEREF _Toc502142598 h 24 HYPERLINK l _Toc502142599 2.1.5适应应用需求的混合存储策略 PAGEREF _Toc502142599 h 25 HYPERLINK l _Toc502142600 2.1.6HBase数据存储 PAGEREF _Toc502142600 h 26 HYPERLINK l _Toc502142601 2.1.7数据库存储 PAGEREF _Toc502142601 h

6、27 HYPERLINK l _Toc502142602 2.2cProc云处理平台可靠性设计 PAGEREF _Toc502142602 h 29 HYPERLINK l _Toc502142603 2.2.1可靠性概述 PAGEREF _Toc502142603 h 30 HYPERLINK l _Toc502142604 2.2.2HDFS可靠性设计 PAGEREF _Toc502142604 h 31 HYPERLINK l _Toc502142605 2.2.3HBase可靠性设计 PAGEREF _Toc502142605 h 33 HYPERLINK l _Toc50214260

7、6 2.2.4MapReduce可靠性设计 PAGEREF _Toc502142606 h 35 HYPERLINK l _Toc502142607 2.2.5Zookeeper可靠性设计 PAGEREF _Toc502142607 h 37 HYPERLINK l _Toc502142608 2.2.6数据存储的可靠性设计 PAGEREF _Toc502142608 h 39 HYPERLINK l _Toc502142609 2.2.7处理与存储集群Master单点失效容错处理 PAGEREF _Toc502142609 h 41 HYPERLINK l _Toc502142610 2.2

8、.8处理与存储集群的负载均衡处理 PAGEREF _Toc502142610 h 47 HYPERLINK l _Toc502142611 2.3cStor云存储系统 PAGEREF _Toc502142611 h 50 HYPERLINK l _Toc502142612 2.3.1技术架构 PAGEREF _Toc502142612 h 50 HYPERLINK l _Toc502142613 2.3.2工作原理 PAGEREF _Toc502142613 h 52 HYPERLINK l _Toc502142614 2.3.3管理机制 PAGEREF _Toc502142614 h 53

9、HYPERLINK l _Toc502142615 2.3.4关键技术 PAGEREF _Toc502142615 h 54 HYPERLINK l _Toc502142616 2.4OpenStack介绍 PAGEREF _Toc502142616 h 56 HYPERLINK l _Toc502142617 2.4.1OpenStack是什么 PAGEREF _Toc502142617 h 56 HYPERLINK l _Toc502142618 2.4.2云服务提供商的概念架构 PAGEREF _Toc502142618 h 58 HYPERLINK l _Toc502142619 2.

10、4.3OpenStack Compute架构 PAGEREF _Toc502142619 h 59 HYPERLINK l _Toc502142620 2.4.4OpenStack Image Service PAGEREF _Toc502142620 h 67 HYPERLINK l _Toc502142621 2.4.5OpenStack Object Storage PAGEREF _Toc502142621 h 68 HYPERLINK l _Toc502142622 2.4.6OpenStack界面图 PAGEREF _Toc502142622 h 75 HYPERLINK l _T

11、oc502142623 2.5平台安全 PAGEREF _Toc502142623 h 75 HYPERLINK l _Toc502142624 2.5.1云处理平台信任保护 PAGEREF _Toc502142624 h 75 HYPERLINK l _Toc502142625 2.5.2基于多级信任保护的访问控制 PAGEREF _Toc502142625 h 79 HYPERLINK l _Toc502142626 2.5.3云处理平台安全审计 PAGEREF _Toc502142626 h 82 HYPERLINK l _Toc502142627 2.5.4云处理平台安全网关 PAGE

12、REF _Toc502142627 h 85 HYPERLINK l _Toc502142628 2.6软硬件设施清单 PAGEREF _Toc502142628 h 88 HYPERLINK l _Toc502142629 3项目管理和实施 PAGEREF _Toc502142629 h 88 HYPERLINK l _Toc502142630 3.1项目开发周期 PAGEREF _Toc502142630 h 88 HYPERLINK l _Toc502142631 3.2项目计划进度 PAGEREF _Toc502142631 h 89 HYPERLINK l _Toc502142632

13、 3.3项目实施 PAGEREF _Toc502142632 h 90 HYPERLINK l _Toc502142633 3.4客户受益 PAGEREF _Toc502142633 h 90系统总体概述系统需求分析系统需要广泛应用于移动互联网、金融证券、电子政务、教育科研等需要海量数据存储和处理的领域。同时,能为中小企业提供基于SaaS的低成本的信息化服务、虚拟化服务,降低企业信息化的门槛。云计算平台的建设能增强苏州市云计算与智能信息处理领域的自主开发能力,从而有力的推动该产业长期稳定的发展,进一步提升苏州市信息技术产业的竞争力和影响力;能为苏州市中小企业提供信息化、虚拟化服务平台,对目前企

14、业信息集成中存在的主要问题,如基础数据缺失、计划和安排生产的盲目性、流程不规范、现场采集数据困难等提供解决方案,推动苏州信息基础设施建设和中小企业信息化进程。系统基本功能本项目在充分研究云计算现有成果的基础上,面向中小企业智能信息服务、新一代智能信息处理、移动互联网等重点领域的云计算需求,开展云计算关键技术研究。首先研究绿色环保节能云计算中心构建方案,基于先进的海量数据云存储技术构建一个高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问的云存储系统平台,用于海量的教学信息资源的存储和共享,并为上层云计算数据处理和应用服务提供基础的数据存储平台;然后研究建立适合于中小企业智能信息服务

15、、移动互联网应用服务等的云计算应用模式;最后针对云服务中的用户数据安全与隐私保护等核心问题开展研究,形成支撑具体云服务应用的关键技术体系。最终为后续具体应用服务构建一个安全、稳定、可靠的基础云平台。系统基本功能和组成如下:海量信息智能搜索与数据挖掘技术能够支撑Deep Web深度挖掘、自然语言处理、图形图像处理与理解和大规模知识库自动构建等需要复杂信息处理基于云计算的新型移动服务基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统,为移动互联网用户提供新颖的拍照购物搜索服务和基于位置的地理信息服务基于智能生成模型的云计算信息技术支撑服务建立动态工作流的智能生成模型,该模型能

16、依据业务类型智能生成动态工作流,并能依据过程信息反馈调整生成类型基于云计算的海量数据存储平台搭建高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问,用于海量的教学信息资源的存储和共享,并为上层云计算数据处理和应用服务提供基础的数据存储平台企业虚拟化服、网站托管为企业提供资源虚拟化、资源共享等服务,最大利用硬件资源,节约成本的同时,降低企业对资源的管理难度系统建设的主要设计思想和设计目标、设计原则设计思想:在充分研究移动互联网、云计算理论的基础上,研究基于云计算的移动互联网应用服务,通过云计算提供的高性能计算和海量数据存储能力,突破移动终端在计算能力和存储空间上的限制、扩展移动应用软

17、件的类型、提高移动软件的服务质量和降低服务成本。设计目标:采用云计算、物联网和信息网格技术,构建一个绿色环保、安全、稳定、可靠的云基础平台;基于云计算技术实现Deep Web、自然语言处理、图形图像处理与理解和大规模知识库自动构建等海量信息的高效处理;建立基于云计算的企业信息化应用软件模式,开发出涵盖企业产品全生命周期的集成应用支撑软件系统和中小企业智能信息服务平台;建立基于云计算的移动互联网软件服务的应用模式,实现基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统。设计原则:(1)技术领先,性能优异系统将采用国际先进的云存储和云计算技术,并在此基础上提供高效的查询和分析

18、处理、资源虚拟化服务、网站托管等功能。(2)数据安全可靠系统将采用多种容错技术保证存储的数据安全和故障的自动恢复。系统的主要技术特点海量数据存储及处理:基于先进的海量数据云存储技术构建一个高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问的云存储系统平台,用于海量的教学信息资源的存储和共享,并为上层云计算数据处理和应用服务提供基础的数据存储平台高效处理能力和实时性:平台在高效率并行分布式软件的支撑下,可以实时完成数据入库、分析和管理工作。海量数据入库不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。高可靠性:基于对云计算可靠性深厚的研究积累,彻底解决了

19、当前分布式计算平台易出现的单点故障问题。任何一个节点出现故障,系统将自动屏蔽,而且不会出现丢失数据的现象。可伸缩性:在不停机的情况下,增加节点,平台的处理能力自动增加;减少节点,平台的处理能力自动缩减。这样,可以做到与云计算平台的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。高性价比:采用X86架构廉价计算机构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省10倍左右的成本。全业务支持:采用分布式数据库模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库中

20、,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。系统总体构架构建一个绿色环保、安全、稳定、可靠的云基础平台;基于云计算技术实现Deep Web、自然语言处理、图形图像处理与理解和大规模知识库自动构建等海量信息的高效处理;建立基于云计算的企业信息化应用软件模式,开发出涵盖企业产品全生命周期的集成应用支撑软件系统和中小企业智能信息服务平台;建立基于云计算的移动互联网软件服务的应用模式,实现基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统;图表1 系统示意图云存储系统层:在普通x86服务器上搭建高性价比的云存储系统,提供海量数据云

21、存储能力,具有高度可靠、可在线弹性伸缩、能够支持高并发大吞吐量的快速存取访问等特性,能够支撑海量教学信息资源的存储和共享,并为上层云处理平台和应用服务提供基础的数据存储平台。云处理平台层:云处理平台包含公司自主研发的数据立方(DataCube)和任务监控器(JobKeeper),数据立方提供所有数据的管理能力,而JobKeeper管理所有的请求任务,通过其具有的负载均衡能力,让所有处理几点并发的处理请求,采用智能搜索技术、数据挖掘技术、不确定处理技术、分布式并行处理技术,为上层提供高性能处理服务。虚拟化管理层:通过开源系统OpenStack,管理用户、证书、镜像等,可以将硬件资源虚拟化成多个节

22、点机器,用户可以租用自己的虚拟服务,互不干扰,而且任意节点宕机,不会影响整个虚拟化管理系统的运行,还能支持网站托管等功能。应用层:通过云处理平台可以为应用层提供Deep Web深度挖掘、自然语言处理、图形图像处理与理解、大规模知识库自动构建、拍照购物搜索服务 、基于位置的地理信息服务 、移动图像搜索与挖掘系统等服务 ;其中所有的数据都存储在云存储系统上,而通过OpenStack虚拟化管理系统可以为用户企业提供资源虚拟化服务 。cProc云处理平台简介云存储层包括公司自主研发的云储存系统cStor和apache开源云储存系统HDFS;而在数据管理层中,包含数据立方、Hbase;数据处理层包含Jo

23、bKeeper和MapReduce;最后的监控协调层则包括zookeeper和Chukwa来实现对整个系统的实时监控和数据管理。下图为cProc云处理平台架构:通过数据立方,可以对元数据进行数据分析、清理、分割。对结构化数据任意关键字索引,形成一个多维数据模型,数据立方的命名也由此而来。数据立方是独立于cProc云处理平台的技术架构,用户可以选择性采用数据立方,也可以单独采用Hbase、Hive等技术框架,通过数据立方或Hbase,可以将结构化数据看成一张无限大的表,操作这张表跟操作传统关系型数据库一样,上层应用无需修改,完全符合用户原来操作习惯。对于非结构化数据,cProc云处理平台采用公司

24、自主研发的超安存算法,对这些数据块进行分割,散乱存储到云储存系统上,然后采用分布式并行处理,对数据进行实时处理,cProc云处理平台的处理性能随着节点的增多而成倍数增长。cProc云处理平台拥有以下特点:1.对任意多关键字实时索引2.支持类SQL复杂并行组合查询3.分布式万兆实时数据流秒级处理4.高可靠性,系统无单点,确保意外情况下,系统的正常运行以上特点由公司自主研发的下面几大功能来提供保证,分别是数据立方,分布式数据处理,调度均衡器、数据传输接口等。数据立方对数据建立高效的索引结构。数据立方是公司研发的高效数据结构,该结构成功解决了海量数据的快速索引和查询问题,使得百亿条记录级的数据能够秒

25、级处理。分布式数据处理是公司研发的处理海量数据的处理框架,用于对大规模数据集的并行处理。处理能力可以通过增加或减少机器达到动态调整。采用先进的容错技术,确保处理任务的可靠性,即使在异常情况下,如机器宕机、断网的情况下,确保处理任务的实时性和准确性。调度均衡器是公司研发的解决单点故障的一项技术,用于解决系统内的单点问题,确保某机器的应用程序状态在宕机或断网时,可将状态从异常机器转移到其他机器上,中间无数据丢失。数据传输接口是公司经过多年积累,专门针对地面数据传输研究出高性能可靠文件传输协议,采用并行流水线方式、将传输与存储作联合优化,并支持多点中继高效传输。经过多项实地远程传输试验,结果表明该技

26、术的传输效率在1Gb/s光纤线路上达到了带宽的80%左右,处于国际最高水平。几大功能相辅相成,高效且可靠地处理海量数据,确保响应迅速,传输速度快,处理结果准确。cStor云存储系统简介cStor云存储系统是公司自主研发的、具有自主知识产权的高科技产品,是国内最早实现并保持领先的云存储系统,整套系统包括软件与硬件,是一个海量的云存储平台。图2 C1000系列云存储产品存储机柜与传统的大规模存储系统相比,cStor针对绝大多数数据密集型应用的特点从多个方面进行了优化,从而在一定规模下达到成本、可靠性和性能的最佳平衡。cStor凭着超低的价格、优异的性能、高度可靠、绿色节能、无限容量、在线自动伸缩、

27、易用通用等诸多压倒性优势,获得了广电、安防、刑侦、政务、交通、动漫等各行业用户青睐,产品代理和销售商已发展到数十家。目前,cStor云存储系统已成熟应用于安防视频监控、刑侦、广电、交通、电信、医疗、政务等诸多领域,性能卓越,表现出色,从未出现故障,得到用户一致称赞。图3部署在政务云数据中心机器下图4为一简单的cStor云存储系统部署示意图。图4 cStor云存储系统部署示意图cStor云存储系统采用了分布式的存储架构,元数据服务器采用主备双机容错的方式管理各个存储节点,文件分散存储在各存储节点上。客户端与元数据服务器间只有控制流,数据流直接在各存储节点间交互。因此,系统的整体吞吐率随着存储的规

28、模的增大是线性增加,直到达到带宽的饱和利用。OpenStack简介OpenStack是一个与Amazon EC2兼容的IaaS系统。OpenStack包括OpenStack Compute和OpenStack Object Storage两个部分。 OpenStack Compute又包含Web前端、计算服务、存储服务、身份认证服务、存储块设备(卷)服务、网络服务、任务调度等多个模块。OpenStack Compute的不同模块之间不共享任何信息,通过消息传递进行通讯。因此,不同的模块可以运行在不同的服务器上,也可以运行在同一台服务器上。 OpenStack Object Store可以利用通

29、用服务器搭建可扩展的海量数据仓库,并且通过冗余来保证数据的安全性。同一份数据的在多台服务器上都有副本,将出现故障的服务器从集群中撤除不会影响数据的完整性,加入新的服务器后系统会自动地在新的服务器上为相应的文件创建新的副本。从功能上讲,OpenStack Object Store同时具备Eucalyptus中的Walrus服务和弹性块设备(SC)服务。不过OpenStack Object Store不是一个文件系统,不能够保证数据的实时性。从这个方面来考虑,OpenStack Object Store更适合用于存储需要长期保存的静态数据,例如操作系统映像文件和多媒体数据。 OpenStack通过

30、Agent的方式来管理计算资源。在每一个计算节点上,都需要运行nova-network服务和nova-compute服务。这些服务启动之后,就可以通过消息队列来与云控制器进行交互。系统设计性能数据流量处理能力以下是各部分处理能力统计: 数据存储查询系统器配置: 8核CPU2,主频2GHz以上,内存32G,硬盘82T SATA处理能力:折合数据入库流量 80Mb/s 应用分析系统器配置: 8核CPU2,主频2GHz以上,内存32G,硬盘82T SATA处理能力:折合处理并发访问量1000次/s 数据存储读取能力原始数据存储采用云存储平台,分布式文件系统存储系统。性能指标:存储量指标单系统应支持P

31、B级存储容量。吞吐量指标Infiniband网络上文件读、写性能:(1)写文件性能1个客户端写250G文件,文件平均写性能为932MB/s,峰值为1.9GB/秒。(2)读文件性能1个客户端读250G文件,文件平均读性能为852MB/s,读文件峰值为1.2GB/s上述性能测试数据是1个客户端、8个存储节点的测试结果,由于本次测试受测试资源影响,没能完全测出Infiniband最优性能。但在8个存储节点上,文件写性能达到932MB/s,写峰值为1.9GB/s,读性能达到852MB/s,读峰值为1.2GB/s。吞吐量是指在没有帧丢失的情况下,设备能够接受的最大速率。吞吐量根据应用系统读写方式和应用系

32、统读取存储内容大小分成四个指标。分布式文件存储系统按照32个节点并发500个用户计算,单节点8块2T大小的硬盘情况下,每个节点指标具体内容如下表所示:表8分布式文件存储系统吞吐量指标编号读写方式存储内容大小总吞吐量指标(MBps)平均吞吐量指标(MBps)1100%读250GB24000482100%写250GB20000403100%读100KB23000464100%写100KB1900038图表 分布式文件存储系统吞吐量指标系统响应时间指标千兆网络环境下,局域网客户端从分布式文件存储系统中读取4096字节存储内容的响应时间应不高于20ms。系统功能数据存储:通过云存储平台存储海量数据,教

33、学信息资源存储和共享智能信息处理:基于云计算框架研究海量信息的智能搜索、数据挖掘、不确定性处理等技术,将云计算中的分布式并行计算技术应用到Deep Web深度挖掘、自然语言处理、图形图像处理与理解和大规模知识库自动构建等需要复杂信息处理领域,采用云计算并行计算模型,大大提升信息处理的性能中小企业智能信息服务平台:以工作流为特征的企业信息化应用软件系统平台、面向企业的智能信息处理和企业信息化项目云构建等开展研究,建成针对中小企业的智能信息服务平台。资源虚拟化:在搭建的云存储平台上,采用虚拟化管理软件,为中小企业提供资源虚拟化、资源共享等服务,最大利用硬件资源,节约成本的同时,降低企业对资源的管理

34、难度。移动服务技术:研发基于云计算的移动图像搜索与挖掘系统和基于云计算的移动位置地理信息服务系统,为移动互联网用户提供新颖的拍照购物搜索服务和基于位置的地理信息服务系统设计实施与关键技术方法cProc云处理平台数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社

35、会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据立方(DataCube)我们以B+树的结构建立了字段的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方(DataCube)”。如下图所示: 数据立方(DataCube)是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加快数据的查询和检索效率。数据立方的原理:由一个或多个管理节点,

36、一个或多个处理及存储节点(数据节点)组成,系统在数据建立与查询时,分布式建立与应用数据立方索引结构,在数据建立及存储时,对规范化的数据设定1个或多个关键字字段,将不同的关键字字段分别建立索引,每张不同的索引生成一张独立的B+树结构,多个B+树结构垛叠在一起,与全局数据表形成一个完整的数据立方结构。利用数据立方存储索引结构,可方便快捷的在海量数据云处理系统中准确检索定位数据。B+树的插入仅在叶结点上进行。 每插入一个(关键码-指针)索引项后都要判断结点中的子树棵数是否超出范围。当插入后结点中的子树棵数大于 m 时, 需要将叶结点分裂为两个结点。它们的双亲结点中应同时包含这两个结点的最大关键码和结

37、点地址。此后, 问题归于在非叶结点中的插入了。在非叶结点中关键码的插入与叶结点的插入类似, 非叶结点中的子树棵数的上限为m, 超出这个范围也要进行结点分裂。在做根结点分裂时, 因为没有双亲结点, 就必须创建新的双亲结点, 作为树的新根。这样树的高度就增加一层了。当有新的记录到来时,我们要将新的数据记录对应的一条索引记录插入到所有的字段索引中,这时要采取一定的写入策略。当新的记录积累到n1条或经过一定时间t1时,对于存储在MemCache中的字段索引,可以将这些数据记录对应的索引记录一次性批量写入;当新的记录积累到n2条或经过一定时间t2时,可以将这些数据记录对应的索引记录一次性批量写入HDFS

38、(固态磁盘)上的索引文件。对B+树的查找类似于二分查找,对于m阶,叶子节点中记录个数为n的B+树来说,其查找的时间复杂度为O(log m+(n+1)/2)。因此对于值匹配和范围查找来说,有很快的速度。此外,由于对值按照大小顺序进行了指针链接,因此m阶B+树还可以进行对值进行顺序查找。 我们对重要字段建立索引,存储在HDFS(固态磁盘)上。将最近常用的字段索引加载到MemCache中,同时删除最不常用的字段索引以节省空间。详细来说,对于每次查询,系统统计每个字段索引被调用的次数,对于被调用次数最多的那些字段索引就被加载到MemCache中,而在MemCache中被调用次数最少的某些字段将被删除。

39、数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。任务监控器(JobKeeper)JobKeeper调度平台是建立于虚拟化资源层之上,统一调度,统一配置的管理平台,用于对集群中任务实时的处理调度,实时结果集的反馈,集群的负载均衡,失败调度,集中管理,集中配置的平台。用来保证整个集群的超低人员干预。同时,提供完善的集群伸缩机制为整个服务提供更高的可靠性。JobKeeper云调度技术架构图 应用层是一组用于管理和结果反馈的显示组件。用于显示任务的处理情况以及集群中机器的活动情况,同时

40、其也是一个上层应用和底层服务的对接平台。是整个系统面向用户和开发人员的基础承载。 业务层是对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。 数据处理层是独立的数据处理程序,是对不同需求数据的统一处理方案,他的运行与监控的工作将由JobKeeper调度平台进行统一的配置管理。 存储层是用来存储数据存储层的处理结果集或者其他中间结果集的单元。 虚拟化资源层是将实体的机器进行虚拟化,形成更大范围的服务集群。 JobKeeper调度平台是由一组管理节点(Master Node)和一组处理节点(Task Node)组成,管理节点组是一组基于Webse

41、rver的RPC(RPC采用客户机/服务器 HYPERLINK /view/37878.htm t _blank 模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后, HYPERLINK /view/930.htm t _blank 客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行。)服务器,负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存

42、,对应的信息镜像存储在基于cStor或者NFS服务的存储系统上,保证每个管理节点中的镜像信息的实时同步。同时架设在管理节点上的ZooKeeper服务(ZooKeeper是一个分布式的,开放源码的 HYPERLINK /view/553502.htm t _blank 分布式应用程序协调服务,包含一个简单的原语集。分布式应用可以使用它来实现诸如:统一命名服务、配置管理、分布式锁服务、集群管理等功能。)用于对整个管理节点组进行统一的配置化管理。处理节点组通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。(注:这里的程序,可以是任何语言

43、任何形式的独立程序,但是必须提供执行脚本,和运行参数选项)处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。如果在若干个心跳间隔后管理节点组仍然没有获取到处理节点心跳报告,那么该处理节点将会被踢出处理节点组,同时该节点处理的所有处理任务也会被重新调度。随着集群处理数据量的不断增大,处理节点组提供了简单高效的自动化部署方案,当新机器加入处理集群后,会主动的与管理节点组同步心跳信息,从同一配置服务器ZooKeeper上获取相关配置信息,通过WebServer服务获取任务列表,开始执行数据处理工作。 JobKeeper调度平台提供了一套基于Web的管理化界面,可以实时的

44、观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。 任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并和本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根据各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。cProc数据处理cProc云处理是公司研发的处理海量数据的

45、处理框架,特点是实时性高。主从式的管理节点监控着所有处理节点(slave),并接受任务,分配子任务,监控任务以及处理各类异常情况。处理节点(slave),接受子任务,监控子任务,向主节点汇报任务。结构如下图所示:cProc云处理是cProc云处理平台分布式的核心。该架构内部避免了大多数分布式系统内部存在的单点问题。里面的两个管理员节点(主节点和备节点)对整个集群进行着管理,通过先进的调度监控器解决了管理节点的单点问题和数据同步问题,确保在主节点异常情况下,主从节点的切换不丢失管理数据。cProc云处理内部采用高效的数据结构cProcJob,维护每个任务以及子任务的状态,并严格按照任务状态转移表

46、进行任务状态切换。在cProc分布式数据处理的过程中,系统采用以下三个原则:1.数据尽可能的本地性原则在任务提交后, 管理节点根据数据所在位置分配处理,这样在每个处理节点上要处理的存储介质上的数据块就在本地,直接操作本地文件,避免了数据的移动,极大地减少了网络IO负载,缩短了处理时间。2.数据分布的平衡性原则cProc并行处理架构能够周期性地对存储介质上的数据进行维护,保持存储节点上所存储的数据量的平衡,减少因数据负载的不平衡而导致的处理负载的不平衡。3.调度任务公平的原则公平调度是一种多用户的赋予作业(job)资源的策略,它的目的是让所有的作业随着时间的推移,都能获取与权值相应的共享资源。当

47、单独一个作业在运行时,它将使用整个集群。当有其它作业被提交上来时,系统会将任务空闲处理单元赋给这些新的作业,以使得每一个作业都大概获取到与权值相应的处理时间。这个特性让短作业在合理的时间内完成的同时又保证了长作业的服务质量。公平调度器按资源池(pool)来组织作业,默认情况下,每一个用户拥有一个独立的资源池。在Slave处理节点上设置有同时运行的任务个数上限,若未达到上限,则就产生了空闲处理单元。当集群上出现空闲处理单元时,调度按两步进行,首先空闲处理单元在作业池之间分配,其次在作业池内的作业间分配。数据压缩 HDFS数据压缩与组织方法任何一种数据资源都具有生命周期,不同的时期有其存在的不同意

48、义。在数据刚生成的数日内,访问频率最高,带来的使用价值也最高。随着时间推移,访问频率会逐渐降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。不同生命周期的数据是提供给不同使用对象的,这就为以最低的成本获得最高的使用价值提供了可能。通常情况下,某段时间内访问量比较大的数据只有不到20%,80%的数据是不经常被访问的,虽然这些数据访问量低,但这些数据仍然很重要,必须完好的保存。同时考虑到方便数据压缩,这里采用了分级存储策略,这样不仅可以方便为访问量大的数据项设置缓存,而且为数据压缩提供了方便,显著提高了效率。分级存储就是以信息生命周期管理理论为依据,根据数据所能提供的使用价

49、值来决定存储成本、存储设备。文件依据用户需求有选择地对某些数据进行迁移,如进行远端备份等。数据分级存储之所以重要,是因为它既能最大限度地满足变化的需求,又能方便文件的组织和压缩。数据分级存储的优点有减少总体存储成本、性能优化、改善数据可用性、数据迁移对应用透明。借助云平台,分级存储满足以下要求:数据的安全性、数据的高可用性、容量可扩展性、设备的兼容性、管理的高效性、经济效益性。数据将被组织成两级,一级称为chuck,一级称为block。chuck被分为多个block,文件将以block的形式存储在数据服务器上。block的优点是方便文件压缩和文件的传输,适合多种备份方式,在很大程度上提高了存储

50、效率和可扩展性。下图给出了基于分级存储的数据块级压缩方式。图表 SEQ 图表 * ARABIC 31 HDFS数据压缩与组织处理流程如下:1)将一个chunk划分成为多个block。2)读取一个block,对该block进行数据压缩并写入到临时缓存中。3)将临时缓存的压缩数据拷贝到缓冲池中。4)重复2-3步直到一个chunk中的block都被压缩拷贝完成。5)将缓冲池中的内容按顺序回写到存储区域。适应应用需求的混合存储策略 混合存储策略可以简述为HDFS分布式文件系统用来存储海量数据,可以根据存储的数据类型建立索引,HBase也可用来存储海量数据,其由查询条件建立索引表, 数据库对小型数据的存

51、储处理。 分布式文件系统HDFS是一个开源云处理平台Hadoop框架的底层实现部分,适合运行在通用硬件上的分布式文件系统,具有高容错性,能提高吞吐量的数据访问,非常适合于大规模数据集上的应用。MapReduce在HDFS的基础上实现的并行框架,为用户提供容易使用的并行编程模式,MapReduce处理包括两个阶段,Map(映射)阶段和Reduce(规范)阶段。首先,Map函数把一组(Key,Value)输入,映射为一组中间结果 (Key,Value),然后通过Reduce函数把具有相同Key值的中间结果,进行合并化简。MapReduce将处理作业分成许多小的单元,同时数据也会被HDFS分为多个B

52、lock,并且每个数据块被复制多份,保证系统的可靠性,HDFS按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行处理。 HBase类似Bigtable的分布式数据库,是一个稀疏的,长期存储的,多维的,排序的映射表.这张表的索引是行关键字,列关键字和时间戳。所有数据库的更新都是一个时间戳标记,每个更新都是一个新的版本,而HBase会保留一定数量的版本,这个值是可以设定的。客户端可以获取距离某个时间最近的版本,或者一次获取所有版本。HBase数据存储 HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HB

53、ase技术可在廉价PC Server上搭建起大规模结构化存储集群。其目的是处理庞大的表,可以用普通的处理机处理10亿行数据,并且有数百万列元素组成的数据表这张表的索引是行关键字。Hbase可以直接使用本地的文件系统和Hadoop作为数据存储方式,不过为了提高数据的可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统。1、数据模式 HBase类似Bigtable的分布式数据库,是一个稀疏的,长期存储的,多维的,排序的映射表.这张表的索引是行关键字,列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串,没类型。用户在表格中存储数据,每一行都是一个可排序

54、的主键和任意多的列。由于是稀疏存储的,所以同一张表里面的每一行数据都可以有截然不同的列。列名字的格式是:,都是由字符串组成,每一张表有一个family集合,这个集合是固定不变的,相当于表的结构,只能通过改变表的结构来改变。但是lable值相对于每一行来说都是可以改变的。HBase把同一个family里面的数据存储在同一个目录底下,而HBase的写操作时锁行的,每一个都是一个原子元素都可以加锁。所有数据库的更新都是一个时间戳标记,每个更新都是一个新的版本,而HBase会保留一定数量的版本,这个值是可以设定的。客户端可以获取距离某个时间最近的版本,或者一次获取所有版本。2、 概念视图一个表可以想象

55、成一个大的映射关系,通过主键,或者主键+时间戳,可以定位一行数据,由于是稀疏数据,所以某些列可以是空白的,下面就是数据的概念视图: Row KeyTime StampColumnColumn anchorColumn mimen.wwwt9anchor:CNNt8anchor:my.look.caCNN.comt6.t5.text/htmlt3.3、物理视图从概念视图看每个表格是有很多行组成,但是在物理存储上,它是按照列来保存的。Row KeyTime StampColumn contentsn.wwwt6.t5.t3.Row KeyTime StampColumn anchorn.wwwt9

56、anchor:CNNt8anchor:my.look.caCNN.comRow KeyTime StampColumn minen.wwwt6text/html在概念视图上面有些列是空白的,这样的列实际上并不会被存储,当请求这些空白的单元格的时候,会返回null值。如果在查询的时候不提供时间戳,那么会返回距离现在最近的那个版本数据。因为在存储的时候,数据会按照时间戳排序。数据库存储数据库(Database)是存储在一起的相关数据的集合,这些数据是结构化的,无有害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式

57、进行。当某个系统中存在结构上完全分开的若干个数据库时,则该系统包含一个“数据库集合”。数据库中的数据有两种性质:1、数据整体性 数据库是一个单位或是一个应用领域的通用数据处理系统。数据库中的数据是从全局观点出发建立的,他按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。 2、数据共享性 数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一

58、个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。数据库的基本结构分为三层: 1.物理数据层它是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。 2.概念数据层它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。 3.逻辑数据层它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。 数

59、据库不同层次之间的联系是通过映射进行转换的。主要特点: (1)实现数据共享。 数据共享包含所有用户可同时存取数据库中的数据,也包括用户可以用各种方式通过接口使用数据库,并提供数据共享。 (2)减少数据的冗余度。 同文件系统相比,由于数据库实现了数据共享,从而避免了用户各自建立应用文件。减少了大量重复数据,减少了数据冗余,维护了数据的一致性。 (3)数据的独立性。 数据的独立性包括数据库中数据库的逻辑结构和应用程序相互独立,也包括数据物理结构的变化不影响数据的逻辑结构。 (4)数据实现集中控制。 文件管理方式中,数据处于一种分散的状态,不同的用户或同一用户在不同处理中其文件之间毫无关系。利用数据

60、库可对数据进行集中控制和管理,并通过数据模型表示各种数据的组织以及数据间的联系。 (5)数据一致性和可维护性,以确保数据的安全性和可靠性。 主要包括:安全性控制:以防止数据丢失、错误更新和越权使用;完整性控制:保证数据的正确性、有效性和相容性;并发控制:使在同一时间周期内,允许对数据实现多路存取,又能防止用户之间的不正常交互作用;故障的发现和恢复:由数据库管理系统提供一套方法,可及时发现故障和修复故障,从而防止数据被破坏 (6)故障恢复。 由数据库管理系统提供一套方法,可及时发现故障和修复故障,从而防止数据被破坏。数据库系统能尽快恢复数据库系统运行时出现的故障,可能是物理上或是逻辑上的错误。比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论