




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XXX高校数字校内数据中心建设方案建议书书目一、 项目概述 41.1建设背景 41.2建设目标 51.3建设原则 61.4云平台技术打造大数据与高性能优势 7二、 需求分析 92.1现状分析 92.2总体建设 9XXX高校校内云平台需求 10大数据分析需求 10高性能需求 12三、 数据中心总体规划 14四、 云数据中心建设规划 174.1资源池规划 184.2资源池规划内容 204.3虚拟化软件选型规划 234.4云管理平台建设规划 244.5数据中心统一管理平台规划 27五、 大数据建设规划 295.1大数据平台规划 295.2大数据架构介绍 345.3新型分布式处理技术基础 355.4分布式文件系统 355.5MapReduce计算框架 365.6数据管理与分析 385.7分布式数据库 385.8Hive数据仓库 395.9大数据调优服务 39六、 高性能建设规划 426.1高性能平台建设内容 426.2高性能平台总体性能要求 426.3节点配置详解 43计算节点(大数据DataNode节点) 43 GPU节点 43 八路胖节点 44管理节点(NameNode节点) 456.3.5IO节点(JobTracker、TaskTracker节点) 45存储系统 46计算网络 466.3.8TSDM集群部署软件介绍 516.3.9备份还原软件介绍 53集群并行环境介绍 54七、 机房建设规划 55八、 方案配置清单 56
项目概述1.1建设背景遍布全球的互联网络正在无时无刻、无所不在地渗透到人们工作、生活和学习中,成为推动社会发展的强大动力。在商业化的世界中,众多企业正在把自己转变成一种称为“数字神经系统”的新型组织,让企业能够以数字神经系统的方式对内部业务流程、学问共享和网络商务进行整合,快速响应全球化的竞争。高校不仅担当着人才培育的重任,还担当了一些前沿科技和技术的探讨。同样,作为培育和造就新世纪人才的教化系统和学校,也面临同样的社会环境变更趋势。然而,很多学校却明显落在了互联网络时代的后面,尽管学校已经采纳了一些先进的设备和工具,但是还在沿用千百年来的传统教学方法和管理模式。电化教学设备、电脑乃至校内网都变成了利用率很低的简洁摆设,真正起确定性变更的管理和教学的方法和模式却没有随着社会发展的大趋势进行相应变革。面对学问全球化和民族素养提高的教化要求,以及一系列的教化市场化竞争的挑战,“数字化校内”正在日臻成熟并发挥越来越重要的作用。“数字化校内”的目标就是为了使校内的运用者可以更有效的利用校内来开展教学、科研活动并更便利快捷地进行学习、生活。因此校内的主子:学生——老师——管理人员就成为数字化校内的服务对象,他们的主要校内活动:教学——科研——管理——生活就成为数字化校内的内容主体。“数字化校内”的目标用一个词来表示就是服务”,为学生、老师、管理人员供应更好的服务就是数字化校内的宗旨。目前云计算、互联网+、大数据分析、移动和物联网发展迅猛,数以亿计的用户通过互联网服务时时刻刻都产生大量的交互,这些交互通过手持设备、RFID、无线传感器产生大量的数据,IDC预料到2020年全球数据将增加到35ZB(1ZB=1024EB、1EB=1024PB),是2009年的45倍,其中80%以上为非结构化数据。这些须要处理的数据量越来越大、增长迅猛,而业务需求和竞争压力对数据处理的实时性、有效性又提出来更高的要求,常规的数据库技术手段根本无法应付与处理。由此而生产了BigData技术来处理此类问题。大数据技术将是IT领域新一代的技术与架构,他将帮助人类从大量、困难的数据中提取价值,它可以帮助决策者在储存的海量信息中挖掘出须要的信息,并且对这些信息进行分析探讨,从而发觉重要的趋势信息。因此大数据的有效管理和挖掘将成为将来竞争和增长的基础,并日益成为企业的生产要素和战略资产,预料也将带来新一轮生产率的提升和消费者体验改善,类似工业革命的大数据时代已经来临,我们有理由信任将来大数据的产业规模将会至少以万亿美元来进行衡量。大数据将给IT行业开拓一个新的黄金时代,作为成都重要的高校我们有义务在这些前沿科技上做出对人类、社会、四川、成都有帮助的探讨并造福人类、造福四川和成都。云计算是一种新型的信息资源管理和计算服务模式,是继大型计算机、个人电脑、互联网之后信息产业的一次革命。云计算可将分散的计算、存储、服务资源有机整合起来管理和服务,转变了传统IDC运行管理理念,是将来计算的发展方向。云计算以其资源动态安排、按需服务的设计理念,具有低成本解决海量信息处理的独特魅力。云计算+大数据将会为现有的数据中心增加可用性特点能高效地、平安地运营;另一方面,并能降低数据中心的能源消耗和运行成本;我们对云计算的理解是:云计算一种基于网络的支持异构设施和资源流转的服务供应模型,它供应应客户可自治的服务,实现资源的按需安排、按量计费。云计算导致资源规模化,促进分工的专业化,使得资源供应商和用户都更加关注于自己的业务,有利于降低单位资源成本,促进全社会的开拓创新。浪潮从事教化行业已经有数十年阅历,致力于帮助教化用户供应一体化的数字化校内解决方案,在教化行业有数量众多的胜利案例,浪潮承诺站在用户角度,寻求最为合理的解决方案,最大限度满足客户需求。1.2建设目标本次建设目标为:利用云计算技术打造XXX高校大数据分析、高性能应用等高校科研基础平台。云计算资源中心建设后,将包括校内云计算虚拟化中心、大数据分析、和高性能计算中心,并为此三个中心供应统一管理平台。通过云计算资源中心的建设,物理资源将被组织起来统一调配和供应,供应应学校各学院、部门、老师及学生运用。并且通过云数据中心为学校供应大数据分析和高性能计算服务。通过资源集中化,资源的共享得以实现,应用在资源之间的迁移也成为可能。当资源集中后,对于相同资源进行管理的代价将大幅度降低,而资源的运用率将成倍提升。从而解决数据中心当前面临的问题,更有效的推动信息化的发展。基于云计算的大数据和高性能中心建设目标主要有以下几个方面:1、资源纬度集约化。通过虚拟化方式,为各学院、部门和师生供应基础计算服务和数据存储。2、数据纬度一体化。便利数据共享,为大规模数据整合和交换供应可能。3、管理纬度服务化。利用云计算方式,实现基础软硬件资源的统一管理、按需安排、综合利用,降低各部门系统建设成本和日常运行维护费用。高校数字校内云计算平台建设着重点为:供应IAAS服务的服务器虚拟化中心,供应校内师生教学办公用的校内云盘中心和供应高性能计算服务的高性能计算中心。建设完成后的高校云计算平台实现以下功能:1、建设服务器虚拟化中心;为学校各大业务平台供应IAAS服务,以虚拟服务器的方式为校内各大业务平台供应业务支撑服务;2、建设大数据分析;为前沿的大数据分析和探讨供应服务,为部分在校学生课题供应服务;3、建设校内高性能计算中心;为学校一些须要进行高性能计算的部门供应高性能计算基础平台,为业务部门高性能计算需求供应服务;4、建设云计算中心统一管理平台;为校内云计算中心中的业务云平台、大数据分析系统、高性能计算中心供应统一的管理平台,为不同管理用户和业务用户供应统一入口;5、通过建设云计算平台,学校实现对资源的大集中统一管理并提升整体计算实力;通过虚拟化技术提高资源利用率,避开重复建设,节约整体成本。1.3建设原则结合本项目的实际应用和发展要求,在进行云计算+大数据+高性能平台方案设计过程中,应始终坚持以下原则:(1)可扩展性原则为了爱护已有的投资以及不断增长的业务需求,系统必需具有敏捷的结构并留有合理的扩充余地,以便依据须要进行适当的变动和扩充;主要业务平台系统应采纳开放的结构,符合国际标准、工业标准和行业标准,适应技术的发展和变更。(2)合理性原则在肯定的资金条件下,以适当的投入,建立性能价格比高的、先进的、完善的业务系统。全部软硬件的选型和配置要坚持性能价格比最优原则,同时兼顾与已有设备和系统的互联互通实力,以及与目前操作系统和应用系统的兼容性。在满足系统性能、功能以及考虑到在可预见的将来不失去先进性的条件下,尽量取得整个系统的投入合理性,以构成一特性能价格比优化的应用系统。系统架构的设计应尽可能地运用虚拟化、云计算等新技术,以符合将来的技术发展方向。这种设计方法可以最大化地利用投资,并在利用率、管理、能源等各方面提高用户投资的效率,降低总体拥有成本,削减奢侈的发生。结合新技术的运用,也可以让各应用系统更好地融入将来整体IT建设规划中,避开发生推到重建的现象,从而更好地爱护学校在信息系统上的投入。(3)牢靠性原则系统要具有高牢靠性及强大的容错实力。该系统必需保证7×24全天候不间断地工作,核心设备比如数据库服务器和存储设备具有全容错结构,并具有热插拔功能,可带电修复有关故障而不影响整个系统的工作,设计应保持肯定数量的冗余以保证整体系统的高牢靠性和高可用性。即便是在系统建设初期也要着重考虑系统可用性、牢靠性问题,防止出现系统停顿等问题造成信息系统的中断服务。通过结合云计算等新技术,可以更好地提高系统的牢靠性和可用性。(4)可管理性原则选择基于国际标准和开放的技术,采纳标准化、规范化设计;同时采纳先进的设备,易于日后扩展,便于向更新技术的升级与连接,实现系统较长的生命力;保证在系统上进行有效的开发和运用,并为今后的发展供应一个良好的环境;在设计、组建中心机房系统时,采纳先进的、标准的设备;在选购服务器、存储和连接设备时,选用同一家公司的系列产品,确保系统部件间的严密协作和无缝联接,并获得良好的售后服务和技术支持;整个系统建成后依据整理一套完整的文档资料,以便提高整个系统的可管理性与可维护性。1.4云平台技术打造高校数字化校内优势通过建立云计算平台,通过服务的方式交付对物理硬件的需求,代替传统硬件设备跟随着应有系统的增加而增加的模式,对现有应用系统进行整合,实现IT服务的快速交付,节能响应国家号召,提升业务系统平安。1、合理利用硬件资源,削减运行消耗云计算平台可将服务器物理资源转换成池化的可动态安排的计算单元,从学校业务具体需求动身,在资源池中划分出适合具体业务须要的服务计算单元,不再受限于物理上的界限,从而提高资源的利用率,简化系统管理,让信息化建设对学校业务工作的变更更具适应力,从而构建出信息系统平台的基础。云平台建成后,可削减物理服务器数量至原有数量的一半以上,机房空间占用面积大大削减,机房相应配套设施建设也可能够相应削减,在实际工作中预料可节约能源达到70%以上,响应国家节能减排的要求。2、增加业务部署速度,提高即时响应实力云平台能够对学校业务系统提出的建设需求做到快速响应、快速部署,部署更新工作时间由原来数天或数星期缩短为只需几分钟即可完成。假如总资源池中的硬件计算资源告急,只须要添加相应的物理服务器,简洁的将新购的服务器部署到资源池集群中,云平台会依据整体资源池的动态资源平衡来自动安排新增加的计算资源给应用程序,真正的实现新服务器的即插即用。3、完善应急平安机制云平台可以自动监控资源池中计算单元和应用单元的可用性,检测物理服务器故障,假如检测到故障,可重新在资源池中其他物理服务器上重新启动相关业务,整个过程无需人工干预。通过专线光纤将同城异地的两个云平台连接起来,既可形成一个稳定的基于云平台技术的容灾系统。可以实现应用级数据备份和业务系统的应用级容灾,容灾系统切换时间可以实现分钟级,并且能进行容灾演练操作。4、供应便捷的管理运维方式。云平台可以通过一个统一的管理平台,来进行对平台中运行的各项业务设立不同权限的管理账号,依据工作须要设置不同的管理权限,并可通过其管理日志追溯操作过程。还可以通过在平台上安装第三方平安软件的方式,一次性解决平台内全部计算单元的病毒防护、木马查杀、补丁升级等工作。
需求分析2.1现状分析随着信息技术的不断发展,学校在信息化建设方面加大投入,各部门接连购置了相关业务软件和服务器,越来越多的业务实现了信息化。学校目前运用的服务器多数为一路、两路的小型PC架构服务器,每台服务器仅仅只能运行单一操作系统和单个应用程序,且服务器运用时间基本上都在5年以上。目前的平台建设模式导致服务器数量越来越多,产生了如下问题:1.服务器运用效率低。由于一台物理服务器对应一个应用系统,服务器的计算、存储等资源得不到充分利用。2.系统存在平安隐患。大多数服务器购置于5、6年前,设备老化,牢靠性下降;相当一部分服务器管理权在学院或者部门,缺乏技术人员管理;除学校一卡通服务器采纳双机热备模式以外,其余的应用没有做任何爱护,每周须要做一次手工备份,数据丢失危急时刻存在。3.机房空间惊慌。4.电力系统告急,能耗增加,空调功率跟不上。5.系统不便管理,新业务部署时间长。6.校内师生对云盘的应用需求日益剧烈,对移动办公、数据备份等需求明显。7.一些院系有高性能计算的业务需求,自建高性能中心涉及重复投资且高性能计算中心维护困难,分散维护困难。2.2总体建设现有应用系统与底层硬件之间存在的“竖井式”结构,须要依据海量数据处理、实现应用弹性、构建多活数据中心等关键技术的发展,渐进式的对基础架构进行全方位规划。现有的服务器、网络、存储、终端须要依据云计算平台的发展需求,对硬件资源进行动态的统筹划分,充分发挥了现有硬件的整体效能,以满足云计算平台的发展须要。通过云计算中心平台建设,利用虚拟化技术、集中建设服务器虚拟化中心、大数据分析系统和高性能计算中心,为校内供应弹性,即时,可定制的云计算服务。节约建设成本,提升云计算服务质量,为校内内广阔师生和业务部门供应基于云计算的IAAS,云盘,高性能计算等业务支撑服务。XXX高校数字化校内云平台需求在信息化建设的不断发展过程中,校内中业务不断发展,对服务器数量需求不断增加,同时各部门各院系分散申购服务器,奢侈极大,维护不便利,集中部署服务器又造成机房空间压力不断增大,维护难度不断增大,服务器数量不断增加等一系列问题。基于服务器虚拟化技术为基础的服务器虚拟化中心供应弹性、可扩展、可定制的虚拟服务器系统,即IAAS服务。2.2.2XXX高校常见业务系统分析需求一卡通业务系统校内“一卡通”系统是指利用智能卡技术、网络技术、数据存储技术、数据加密技术、系统与网络平安技术、计算机限制技术和软件工程等技术;采纳银行卡社会金融功能与校内卡校务管理功能相结合的方式;遵循国家金融、技术标准和行业规范;在校内内供应身份认证和金融服务的管理信息系统。一卡通系统(以下简称“一卡通”)是数字化校内的基础工程和重要的有机组成部分,旨在为广阔师生员工的教学、科研和生活供应便利、快捷的电子化服务,使其既可以代替学校目前运用的各种证件,又可以应用于各个消费场所,还可以应用于须要身份认证的场所,同时又可通过银行转帐系统与指定的银行进行转帐、圈存,实现校内无现金流通,从根本上实现“一卡在手,走遍校内”的设想。给师生带来一种全新便利的现代生活,从而有效提升工作效率,提高学校的现代化管理水平。“一卡通”系统是以软件、硬件集成的综合信息集成系统,构建在数字化校内之上的统一身份认证、数据中心平台、统一信息门户等基础平台,与学校其它业务管理信息系统紧密结合,实现数据共享和交换,组成数字化校内的重要信息采集网络,为学校供应实时牢靠的信息来源和决策依据。综合信息服务系统综合信息服务系统以学校数据中心为基础,将分散在各部门的数据集中到一起,以师、生角色为主线,供应跨部门立体式的人事、教学、学工、科研、设备资产、财务经费等综合查询服务。查询服务以学校基表(由教化部制定的,用以反映高等教化的各级各类学校基本状况的基层统计报表)为基础,支持面对主题的多维查询。个人用户也可以查询自身相关基本状况(个人数字档案)。同时通过全面的数据分析,给院系领导、校领导决策供应数据支持,可以对学校的基本状况有一个全面的了解,通过其驾驭学校发展的宏观状况。校内网站系统校内网站系统主要供应Web页面的阅读服务。整个网站系统供应了对外及对外接口。对外访问接口供应了外界了解学校的途径,展示学校形象以及师资力气,招生最新信息等。对内接口的主要适用对象为校内师生,为在校师生供应内部信息展示,课程支配,最新活动询问等相关信息。另外,目前Web、FTP、BBS三类应用有极大的相关性,便利老师和学生进行课内外沟通和授课内容、课外辅导资料等的下载等。同时,可以将图书馆供公开运用的资料在Web服务器上公布,即整合图书馆信息系统和校内网系统。邮件系统E-Mail服务器是一套电子邮局系统和信件发送、接收系统,主要为校内广阔的老师及学生供应便利、刚好的电子通信手段。邮件系统主要运用对象为校内老师,假如应用资源条件允许,可以考虑为学生开设独立的邮箱账户,便利师生沟通。办公OA系统办公自动化服务器只为学校日常办公服务,现在的OA技术能够供应文字处理、表格制作、公文流转、会议支配等等服务。教务系统主要担当教务处日常新闻发布、学生没学期课程支配和选课等应用,考虑峰值同时选课学生在线人数。数据库系统数据库系统是整个系统中的核心业务系统,举荐运用两台物理服务器做RAC部署,保证业务的连续稳定以及性能的足够。数据库主要存放师生注册信息,一卡通消费信息记录,日常报表学生成果等校内核心信息,是整个系统最为关键的部分,举荐采纳OracleRAC。2.2.3大数据分析需求当前中国正面临从粗放到可持续发展方式的转变挑战。大数据技术能够将隐藏于海量数据中的信息和学问挖掘出来,为人类的社会经济活动供应依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能商务智能可有效提高企业运营活动的效率。如在零售行业,由于同类产品的差异小,可替代性强的特点,零售企业销售收入的提高离不开精彩的购物体验和客户服务。零售企业须要依据销售有特色的本地化商品并增加流行款式和生命周期短的产品,零售企业须要运用最先进的计算机和各种通信技术对变更中的消费需求快速做出反应。通过对大数据的挖掘,零售企业在选择上架产品时,为确保供应式样新奇的商品,须要对消费者的消费行为以及趋势进行分析;在制定定价、广告等策略时,需进行节假日、天气等大数据分析;在稳定收入源时,须要对消费群体进行大数据分析,零售企业可以利用电话、Web、电子邮件等全部联络渠道的客户的数据进行分析,并结合客户的购物习惯,供应一样的特性化购物体验,以提高客户忠诚度。同时,从微博等社交媒体中挖掘实时数据,再将它们同实际销售信息进行整合,能够为企业供应真正意义上的智能,了解市场发展趋势、理解客户的消费行为并为将来制定更加有针对性的策略。政府决策通过对大数据的挖掘,可有效提高政府决策的科学性和时效性。如:日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了具体的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制定了具体的应急方案,并将制作的海啸影响模型发布在YouTube等网站。公共服务一方面,政府利用大数据技术把积累的海量历史数据进行挖掘利用,可以供应更为广深的公共服务,另一方面,政府可以通过对卫生、环保等领域的大数据实时分析,提高危机的预判实力,为实现更好、更科学的危机响应供应了技术基础。如在交通系统,随着汽车工业的发展,车辆保有量的不断攀升,车与路,车与环境之间的冲突日趋加剧,诸如交通堵塞、事故增多、能源奢侈和环境污染等问题的恶化,须要通过对历史以及现在的车辆状况、路网状况的实时大数据分析,制定更为优化的系统方案,使车辆行驶在最佳路径上,缩小行车时间、节约燃料、削减环境污染,提高路网通行实力和服务质量。大数据虽然极具价值,但由于类型困难、规模巨大,不论传统的OLAP数据仓库技术还是新兴的分布式处理技术等单一方案都有特定的短板,不行能满足全部的需求,因此,要真正释放大数据的能量,推动大数据应用并非易事,主要面临着以下问题和挑战。挑战一:基础设施的持续扩展问题IDC公司2012年发布的数据显示,数据总量每两年至少增长一倍,但是硬件基础设施由于摩尔定律失效很难进行无限制扩展,即使是MapReduce等分布式技术的扩展性比OLAP等技术有了重大的提高,但是仍存在扩展上限,如OracleRAC最大支持100个节点,Hadoop集群技术理论支持4000个节点,并且其设计初衷是建立在大量廉价、低端服务器上的,在充分横向扩展架构的同时也须要纵向扩展才能进一步提升整体性能。与此同时,基础设施规模不断增大也会带来其他的问题,首先是系统的可用性,因为大规模分布系统只要其中一个节点出现故障,就会引起整个系统的复原,所以分布式系统应当实行多副本、检查点等容错技术。另外,随着系统节点规模的扩展,网络流量的增加是指数级的,网络瓶颈也会制约系统性能的提升,限制系统的可扩展性。挑战二:数据处理的特性化、一体化需求问题大数据时代同时催生了多种数据类型结构,无论是结构化、半结构化还是非结构化的数据,从采集到挖掘都须要精细划分,形成准结构化数据,并在此基础上进行关联性分析,最终呈现挖掘后的结果。在上述过程中,每一个环节对于数据、软件和硬件的要求是不一样的,用单一的软硬件无法满足全部类型应用。更为重要的是,作为大数据应用的主体的行业用户并非都是IT方面的专家,不行能独立实现上述过程以及大数据相关技术方案的整合部署和应用的移植、二次开发,因此就须要一个涵盖数据采集、归类、挖掘、呈现、部署和移植的一体化解决方案。总之,多类型、多维度数据处理环节的困难性确定了无法依靠单一类型的设备完备处理,为不同的应用类型和数据处理阶段供应针对性的软硬件一体化方案也是大数据应用面临的挑战。挑战三:天价成本问题目前数据存储越来越频繁,相对于存储的低廉价格,大规模数据处理成本仍旧较高,特殊采纳传统的方法,比如构建数据仓库技术通常需花费几千万元,而能够处理数据规模不过是TB级的,平均每TB的成本超过十万元。以此推算,若要处理PB级数据也许需100亿元,这个成本对于很多用户来说无法接受。如何找寻低成本的方案帮助用户实现大数据的处理技术,也将为大数据的应用带来挑战。探讨大数据领域对社会和人类、还有学校都具有很大的意义,所以XXX高校建立大数据分析系统是很有必要性的。2.2.4高性能需求XXX高校作为人才培训和学术探讨的重要机构,学科主要探讨方向有:“网络与通信技术”探讨新型网络体系架构,转发与限制分别技术系列标准、关键设备、产业化应用;“信息平安与量子通信”探讨量子信息、密码技术、网络和系统平安;“系统建模和先进限制”探讨系统建模、智能检测、综合自动化、非线性限制、Petri网;“信息传输与无线网络”探讨泛在网络、计算机视觉、融合网络;“信号检测与智能信息处理”探讨信号检测、RFID、人工智能、模糊神经系统等。随着探讨的加深和项目的增多,现有的设备无法满足教学和探讨的需求,有效提升了和增加设备燃眉之急。
数据中心总体规划云资源中心加大数据分析与高性能主要分为计算资源、内存资源、存储资源、网络资源,大数据分析系统,高性能作业调度系统,本项目在充分整合XXX高校数据中心资源的基础上,配置必要软硬件设备,为XXX高校信息系统供应统一的基础设施服务,在IaaS层构建较为完整的XXX高校云计算平台。建设内容包括以下几部分:硬件设备:服务器、存储、、SAN交换机、交换机、负载均衡、VPN网关。软件设备:物理服务器和虚拟服务器的操作系统、虚拟化软件、中间件、大型数据库系统、云计算管理平台、Hadoop组件、高性能管理软件、高性能作业调度软件、高性能集群存储系统。平安系统:防火墙、入侵防卫、防毒墙、网页防篡改、身份认证系统、运维平安审计系统、数据库平安审计系统、漏洞扫描系统。同时选购 专业机构供应的云平安服务等。机房配套设备:UPS、精密空调、标准机架。如上图,XXX高校云计算中心将建设三大块业务中心,分别是云平台虚拟化中心、大数据分析系统和高性能计算中心。并且通过统一管理平台供应对整体云计算中心的统一软硬件管理,为学校云平台虚拟化应用、大数据分析系统、高性能计算业务和管理供应统一界面入口,对服务器虚拟化中心软硬件设施、大数据分析平台硬件设施、高性能计算软硬件设施以及三大业务中心的业务管理供应统一管理运维平台。为学校云计算用户供应业务发布、业务运用、业务管理等功能。服务器虚拟化云中心:在校内云计算资源中心中利用服务器虚拟化技术、存储虚拟化技术和网络虚拟化技术等建设集中统一的服务器虚拟化中心,利用高性能云计算服务器组成虚拟化集群,为各院系供应数以百计,数以千计的弹性虚拟服务器架构,并且供应虚拟服务器的生命周期管理、利用服务器虚拟化的高可用技术供应业务连续性保障。为各院系和校内各业务系统供应弹性可扩展、快速可复原、平安牢靠的服务器基础架构。为旧业务的迁移、新业务的部署供应快速、平安、自动化的业务部署模式。大数据分析系统:高校探讨项目众多,老师教学任务等很多都会用到大数据分析平台,大数据将给IT行业开拓一个新的黄金时代,作为成都重要的高校我们有义务在这些前沿科技上做出对人类、社会、四川、成都有帮助的探讨并造福人类、造福四川和成都,为提高资源利用率所一建议建立统一的大数据分析平台供学校各学科教学和个科研方向探讨运用。高性能计算中心:高校有很多院系都存在须要进行高性能计算的相关业务需求,比如水文分析、化学分子分析、机械模型分析、数据建模等都有高性能计算的须要。假如各院系都自己建设高性能计算平台的话,会造资源的极大奢侈。通过在云数据中心建设一套统一的高性能平台,在各院系须要进行相关计算时,进行对应的软件部署,并进行相关业务运算。即可以提高硬件的运用效率,又可以节约资源。本期方案将为学校在云数据中心建设一套高性能计算中心,以便为学校各院系服务。统一管理平台:高校云计算资源中心包括服务器虚拟化中心、校内云盘系统、高性能计算中心等云计算系统,这些系统的维护均有自己的维护页面,再加上云计算中心的硬件设施,维护会特别困难,为了降低维护和运用难度,供应统一管理平台,为各系统管理员供应统一管理的界面。对各系统进行统一维护,且供应平安保障。在硬件上实现散热、电源、管理功能等非IT资源的集中化和模块化,并利用软件虚拟化技术实现计算、存储等IT资源的池化和集中管理;将非计算部分的存储、网络等IO设备进行池化,机柜内采纳高速网络互联,并以软件定义的计算、软件定义的存储和软件定义的网络来满足业务需求,并实现完全的软件定义;将CPU、内存等全部的IT资源完全池化,从硬件上可实现随意组合,依据应用需求智能地安排和组合相关资源,实现完全意义上业务驱动的软件定义数据中心,软件上实现业务驱动和应用感知。
云数据中心建设规划云计算平台逻辑架构图云设施即服务(IaaS,CloudInfrastructureasaService):系统供应商可以向用户供应同颗粒度的可度量的计算、存储、网络和单机操作系统等基础资源,用户可以在之上部署或运行各种软件,包括客户操作系统和应用业务。云平台即服务(PaaS,CloudPlatformasaService):云计算平台供应商将业务软件的开发环境、运行环境作为一种服务,通过互联网提交给用户。云平台即服务,须要构建在云基础设施之上。用户可以在云平台供应商供应的开发环境下创建自己业务应用,而且可以干脆在云平台的运行环境中上运营自己的业务。云软件即服务(SaaS,CloudSoftwareasaService):运营商通过互联网,向用户供应软件服务的一种软件应用模式。传统的SaaS与云SaaS,在客户体验上基本类似,如新浪邮箱和Gmail邮箱,客户感受是类似的。但传统的SaaS干脆构建在硬件设备之上,不能实现后台资源的多租户共享,也无法实现资源的动态流转,实际并不属于云计算的范畴。云SaaS,要求这些软件业务运行在云平台服务层或构建在云基础设施层之上。云SaaS的优势,体现在后台资源的动态伸缩和流转上,资源可扩展性更强,这一重大优势是传统SaaS所不具备的。本方案中云计算平台由资源池、虚拟化平台、云管理平台组成。资源池部分主要有物理设备组成,包括服务器,存储和网络等基础架构资源,通过虚拟化平台对基础架构设备进行池化,从而形成资源池;虚拟化平台就是将物理资源进行池化的软件组合;云计算管理平台就是对底层资源池和虚拟化软件进行管理,并且,针对管理和运维须要,云计算管理平台实现云计算服务的交付和云计算中心用户和流程的管理以及数据中心的监控。4.1资源池规划什么是资源池云计算的核心特性是利用规模化效应降低单位资源的管理成本和运用成本,而规模化的一个前提是资源的物理集中,因此被管理的资源最好集中在少数几个中心,而不是分布在很多物理位置。云计算资源池是采纳池化的方法,把服务器、存储、网络等资源依据不同的标准组织成不同的资源池。通过资源池的管理模式,云计算管理员无需去考虑具体的服务器、存储和网络配置。在一个资源池内,通常可以包括服务器、存储空间、网络端口等,这样,在一个资源池中我们就可以为某一个应用系统供应它所须要的全部计算资源。通过云计算的自动化功能,云计算平台管理员可以便利、快速的在资源池中定制化的选择应用系统须要的计算资源数目,依据业务的应用类型进行云计算平台资源的安排。资源池的特征(1)多实例通过服务器虚拟化,在一个物理服务器上可以运行多个虚拟服务器,即可以支持多个客户操作系统。服务器虚拟化将服务器的逻辑整合到虚拟机中,而物理系统的资源,如CPU,内存,硬盘和网络等,是以可控方式安排给虚拟机的。(2)隔离性在多实例的服务器虚拟化中,一个虚拟机与其他虚拟机完全隔离。通过隔离机制,即便其中的一个或者多个虚拟机崩溃,其他的虚拟机也不会受到影响,虚拟机之间也不会泄露数据。假如多个虚拟机内的进程或者应用程序之间想相互访问,只能通过所配置的网络进行通信,就犹如采纳虚拟化之前的几个独立的物理服务器之间须要通过网络来访问一样。(3)封装性即相对硬件独立性。在采纳了服务器虚拟化才智,一个完整的虚拟机环境对外表现为一个单一的实体(例如一个虚拟机文件、一个逻辑分区),这样的实体特别便于再不同的硬件间备份、移动和复制等。同时,服务器虚拟化将物理机的硬件封装为标准化的虚拟硬件设备,供应应虚拟机内的操作系统和应用程序,保证了虚拟机的兼容性。(4)高性能与之间在物理机上运行的系统相比,虚拟机与硬件之间多了一个虚拟化抽象层。虚拟化抽象层通过虚拟机监视器VMM或者虚拟化平台来实现,并会产生肯定的开销。这些开销为服务器虚拟化的性能损耗。服务器虚拟化的高性能是指虚拟机监视器VMM的开销要被限制在可承受的范围之内。(5)兼容性随着技术的不断推动,新的服务器无法运行原来比较古老的操作系统,例如,某客户很久之前在某个服务器上安装了win2000的操作系统,应用的开发团队因为某些缘由解散了,因而用户失去了应用升级的支持。随着时间的发展,原来的服务器已经损耗特别严峻,用户希望对服务器进行升级。在没有做相应新的驱动开发的状况下,无法在新的服务器上安装win2000。通过虚拟化技术可以虚拟出一个标准的虚拟硬件设备,兼容略微陈旧的操作系统。这样就能实现用户应用运行在原有的系统环境中,但是支持用户应用系统是最新架构的、性能强劲的新的服务器。资源池规划要素(1)硬件类型。应当支持同样的虚拟化引擎。例如X86服务器和Power服务器的虚拟化技术不同,它们不能划入同一资源池。(2)性能差异。高端和低端服务器在性能上存在较大差异,假如划入统一资源池,会导致上面的应用体验到不同的性能指标。因此,应当采纳统一档次、统一类型的服务器。(3)网络分区。同一资源池应当位于一个局域网,这样可以避开大量数据的跨局域网传输。因此,对于多个数据中心的资源,举荐为每个数据中心独立创建一个资源池。(4)敏捷扩展。能够对云计算平台进行设备的热添加。在业务不中断的状况下对资源池进行扩充、对业务进行扩展,确保云计算平台资源池满足当下应用及将来三至五年业务增长的需求。(5)平安隔离。生产系统一般对应用的平安性有很强的要求,因此对服务器及存储资源进行不同程度的隔离,如物理隔离、逻辑隔离(如VLAN)等。云计算的引入不能破坏现有的平安要求,因此资源池的组织也须要依据相应的规则进行。4.2资源池规划内容资源池建设硬件部分围围着计算、存储和网络三个方面进行,包括服务器、存储空间、网络端口等。资源池示意图计算资源池建设规划方案规划为用户云计算平台建设一个高性能计算实力的虚拟机的云计算平台,从而满足用户业务的IT需求。云计算平台要求具备超高的扩展性,动态地对云计算平台进行扩展,以满足业务快速增长的需求。方案采纳虚拟化技术,在虚拟化技术中物理服务器计算实力影响着虚拟机性能。将单台物理服务器的计算实力最大化,以便于进行资源池资源动态安排,有别于传统的部门级和企业级服务器。云计算中心的数据库较传统模式更大,所处理的数据规模也将会十倍于、甚至百倍千倍于现在的系统,这些系统须要更大的集中式处理的服务器,而不是集群系统。因此对于底层的硬件资源我们应当从更大规模和尺度去考虑,系统须要有更高的计算性能、更大的内存、更好的可扩展性,本方案中我们建议选择性能更加强劲、扩展性更好的x86八路服务器平台。目前浪潮4路服务器服务器,具备60个计算核心、120个逻辑核心,是传统服务器计算实力的20倍以上。服务器整机采纳模块化设计,支持物理分区,具备高性能、高牢靠、高扩展、高可用等特性。在性能及牢靠性等方面均可与IBM、HP、SUN等传统UNIX小型机竞争,填补了国产品牌的空白,是构建云计算和物联网的最佳选择。存储资源池建设规划统一SAN存储系统:成熟的SAN网络技术,运用存储虚拟化技术进行不同SAN协议和网络的融合,最终向云计算平台供应统一的数据存放接口。目前主流采纳8GbFC主机接口,供应海量存储空间,适合于对于海量数据存放的性能和平安性有较高要求的高校业务应用系统。业务高可用建设规划业务高可用示意图由上图可以看出,系统采纳多台x86服务器,每台服务器运行多个业务系统,后端共同连接一个磁盘阵列。高可用方案能够不间断地监控资源池中的全部服务器并监测服务器故障。放置在每台服务器上的代理睬不断向资源池中的其他服务器发送“心跳信号”,而心跳信号的中止会导致全部受影响的业务应用在其他服务器上重新启动。高可用方案确保资源池中始终有足够的资源,以便能够在出现服务器故障时在不同的物理服务器上重新启动业务应用。当服务器上的随意一个业务系统运行出现故障的时候,通过高可用方案管理节点可以在其他两台服务器上依据资源利用状况,重启一个故障的业务应用环境,使业务接着运行下去。即使当一台服务器出现故障的时候,其他两台服务器仍旧能够依据资源利用的状况,通过高可用方案管理节点重启已宕服务器上的全部业务应用环境,这样就使整个系统都处于一种HA状态,进而保证了整个系统业务运行的连续性。同时削减了硬件投入数量和开销。4.3虚拟化软件选型规划虚拟化技术的诞生已经有将近30年的历史。它曾经用于一些大规模的、预算足够的单位,而如今已经应用于计算机的方方面面,包括硬件、软件、通信等等方面。在很多状况下,这项技术是免费的、开源的,或者是包含在一些收费的产品中,例如操作系统或存储硬件中。在应用软件和硬件之间加入了一层抽象的层。能够降低IT设施的成本和困难度。供应相互独立的计算资源,从而增加稳定性和平安性。提高服务层次以及服务质量(QoS)。能够使IT流程与单位目标相一样。尽可能削减IT设施中的冗余,最大化IT设施的利用率。当今最常见的虚拟化形式都聚焦于服务器硬件平台的虚拟化,而这项技术的实现及其实现目标其实对数据中心中关键而昂贵的组件也很有意义,例如存储和网络基础设施。虚拟化技术能够允许在一台计算机上同时运行多个操作系统实例。每个操作系统实例都共享了同一物理硬件上的肯定量的资源,就像下图所展示的那样。一个称作虚拟机监视器(VirtualMachineMonitor,VMM)的软件限制着底层CPU、内存、存储和网络资源的运用和许可。虚拟化示意图作为中国领先的云计算服务供应商,和业界领先的云计算解决方案供应商,浪潮和vmware在2006年就起先在云计算领域进行深度合作,并于2008年与VMware公司正式签订战略合作伙伴关系。与此同时,浪潮近些年投入强大的研发科技力气着力进行云计算软件的开发,目前已开发出浪潮云海平台。其中iVirtual3.2是浪潮云海虚拟化管理软件。浪潮虚拟化产品架构图浪潮云海•服务器虚拟化系统是数据中心虚拟化基石,是业界最完善的虚拟化平台。该产品不仅仅将IT硬件转变为牢靠的云计算数据中心后台,而且还能为用户的应用服务供应最高级别的可用性,平安性和扩展性。浪潮云海·服务器虚拟化系统基于服务器,存储和网络设备构建资源池,在资源池上通过资源的管理、调度和镜像管理实现系统的各种高级功能,例如计算层面的系统负载均衡和虚拟机高可用,存储层面的镜像复制和冗余。系统支持以主机或者虚拟群集为单位管理资源,虚拟群集为一组共享存储资源的物理主机。
浪潮云海·服务器虚拟化iVirtual3.2系统为B/S架构,用户可以通过阅读器访问并运用系统。具体系统运用功能包括:概览、主机、虚拟机、集群、网络、日志、系统拓扑等等。另外系统对外供应API,支持用户进行二次开发。4.4云管理平台建设规划本方案中举荐采纳浪潮云计算操作系统云海OSV3.2作为云计算平台的云管理平台。浪潮云海OSV3.2产品架构图浪潮云海OSV3.2是云数据中心资源管理及资源交付软件,兼容不同的虚拟化架构,监控、管理云资源和数据中心软、硬件资源,实现基础设施的服务化。平台供应丰富的功能组件和API接口,帮助用户快速部署企业服务,有效提升云数据中心管理运维效率。浪潮云海OSV3.2为用户构建一个资源共享、平安可控的云计算平台,对云计算平台内异构资源进行统一管理。通过添加VMWarevCenter、iVirtualcenter,实现对异构虚拟化资源池的集中管理,可横向、动态扩展云资源规模和容量,以适应将来发展的需求。浪潮云海OSV3.2以模块化的设计理念,涵盖云数据中心的全部需求:云海OSV3.2涵盖了服务供应所需各个环节的管理,可轻松实现用户对数据中心各类资源的统一管理,供应一站式运维,便于用户维护,降低维护成本;通过云资源管理主要实现对数据中心云资源的统一管理,包括虚拟限制中心管理、集群管理、存储管理、虚拟数据中心管理、虚拟网络管理及镜像管理;通过云海OSV3.2平台采纳开放、敏捷的架构设计和模块化设计,客户可以功能模块按需组合,满足不同层次用户需求,便于扩展及定制化开发;云海OSV3.2具备大规模、细粒度、高精度的监控系统,对资源进行完善的监控管理、故障报警、日志记录等;系统支持自定义角色类型,可定义拥有不同权限的角色,实现敏捷而平安的系统权限管理,且拥有基于权限的用户限制技术和组织网络隔离技术,可以保持多租户环境下的平安性和牢靠性。针对用户业务,云海OSV3.2供应敏捷的业务审批流程,可自定义业务流程,实现业务申请审批流程的可视化、自动化管理;精确的计费管理,终端用户可以通过Web界面在线自助申请所需的计算、存储、网络资源,实现资源的按需获得并通过实时的资源运用状况统计,让用户精确掌控自身资源和费用运用状况。
4.5数据中心统一管理平台规划计算资源中心包括硬件基础设施、服务器虚拟化中心、大数据分析系统和高性能计算中心,采纳统一管理平台统一管理接口,保证统一管理平台,实施基于ITIL的运维流程特别重要,同时,云计算资源中心供应包括IAAS、PASS(高性能计算业务)和SAAS(云盘业务)等多种云业务,通过统一管理平台供应业务发布平台,全部的云业务均通过业务发布平台进行业务发布,为用户供应统一访问入口,将为用户供应极大的便利性。统一管理平台方统一管理平台基础架构如下:统一管理平台通过配置数据库,调用底层各应用系统的API接口,和底层各应用系统进行对接。运维人员通过统一界面对各业务系统进行监控和维护,调用各业务系统的功能,进行相关业务发布。通过工作流引擎定义运维流程和发布流程,为用户供应云业务。云计算中心统一管理平台供应了管理框架,通过此管理框架,可以集成多种不同的云业务,并通过集成工作流引擎,敏捷配置管理和发布流程,和企业OA和ERP平台进行集成,供应符合公司企业业务流程的管理平台。统一管理平台基础功能底层平台多云配置及管理添加和管理平台支持的多个云业务平台,其中云业务平台接口集成须要定制开发;管理每个客户项目须要的虚拟化平台;Openstack接口集成集成Openstack的常规管理接口,封装成可以干脆被业务层调用的API。通过API调用具体云平台业务。虚拟化层监控组件监控平台支配中包括物理层、虚拟化层和应用层监控,其中虚拟化层监控的功能从底层平台接入,物理层通过第三方厂商业务集成接入,应用层通过业务定制组件集成接入。须要管理的监控项通过虚拟化平台接口集成实现客户自服务中心云业务管理分数据中心、分不同云业务类型对云业务平台进行管理。对全部的云业务管理供应三个维度的标签管理,业务类型、监控优先级管理功能分类如下:日常运维管理类当前用户权限范围内的已有资源数量、运用状况、资源池总量和运用状况、报警信息、历史记录、操作日志网络类网络相关的设置和管理,VPN、子网等配置资源变更类资源池内资源的新建、扩容和销毁。供应申请“资源扩容”的入口,低级管理员向高级管理员申请,顶级管理员不供应功能入口物理层管理数据中心、机柜、服务器、交换机等物理资源的管理和关系建立。建立虚拟化平台和物理层的关联关系。监控呈现监控工具的功能呈现,包括①报警项列表及管理②分资源监控页面用户及权限对应到用户、角色、权限组的管理,包括角色之间的层级关系。系统内各功能权限的设定基于角色建立,资源池配额基于用户建立。工单管理系统供应工单和工作流管理,为用户发觉问题,提交问题,云业务中心管理员解决问题供应了跟踪流程。为业务上线、业务发布、业务回收供应了完整的流程管理。配置管理系统管理员具备权限,设定系统内可以操作的虚拟化资源配置模板以及非标模板资源的关联关系(CPU、内存、硬盘等的限制条件)大数据建设规划5.1大数据平台规划本次支配将分散在网络中的数据归集起来,为分析机构供应数据提取和查询服务;本项目支配实现网络信息的综合查询与分析,实现综统报表、监管报表、业务日报表、综合报表的信息共享;信息预警系统,实现网络信息的联动查询统计。通过建立逻辑数据模型,并建立适合各类专题分析须要的数据集市,形成企业级中心数据仓库,以中心数据仓库为纽带完成业务数据向管理信息的过渡;大数据ETL和数据仓库随着信息技术运用的不断深化,互联网上积累了大量原始数据,而这些数据是依据关系型数据库结构存储,在更新,删除,有效存储(少冗余数据)方面表现精彩,但在困难查询方面效率却特别低下。为充分利用已有数据,供应困难查询,供应更好的决策支持,就须要采纳数据仓库(DataWarehouse)技术。数据仓库与数据库(这里的数据库指关系型数据库)的区分在于,数据仓库以便利查询(或称为按主题查询)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等供应数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。数据仓库的数据组织是商业智能中最重要的课题,中心数据仓库不是各系统数据简洁的积累,而是业务数据的有组织的存储,来支持异源异构数据的联动分析和挖掘。它必需具有敏捷性和可扩展性,适应将来的业务需求的增加和变动。1、数据仓库的逻辑结构在数据层前是数据源和转换区,数据源是业务信息库中的原始数据,转换区用于存放从数据源抽取到的数据,并在转换区进行转换,是ETL的工作区域。数据层负责全部数据的长久存储,包含中心数据仓库(DW),数数据源据集市(DM)和多维模型OLAP(MDB)。中心数据仓库(DM)存放从各个数据源抽取的数据,是经过转换后的细微环节数据。数据集市(DM)存放的是面对业务应用宏观的汇总数据,基于好用化和运行效率的考虑,数据集市ETL采纳数据库存储过程来实现。多维模型(MDB)是将数据数据集市中的数据加载到OLAPSERVER中,为多维分析供应数据。2、逻辑数据模型逻辑数据模型LDM是数据仓库体系结构的基础。数据模型的设计既要满足本项目的业务需求,同时要充分考虑将来业务发展的须要,也就是说,数据模型应具有较强的扩展性;数据模型的设计应充分考虑最终用户的查询/分析效率和数据抽取、转换和加载的速度,保证系统具有较高的运行效率;数据模型的设计应充分考虑当今数据库技术和数据建模技术的发展动态,保证数据模型的设计方法、设计过程、设计结果的科学性和先进性;数据模型的设计应具有较强的可读性,数据模型应便于业务人员和技术人员理解,项目投入运行后,数据模型便于技术人员维护。中心数据仓库存储全部最具体的业务数据,数据的组织方式依关系型数据库的第三范式规则。数据仓库逻辑数据模型主要包括六个主题域:客户、产品、帐户、交易、渠道和机构。3、数据集市模型依据业务需求将中心数据仓库数据分类成几个不同的数据集市,每个数据集市完成不同的分析和查询需求,数据集市中的数据通常由中心数据仓库的数据聚合而来,依据数据聚合程度的不同包含轻度聚合、中度聚合和高度聚合三种不同的层次。汇总的方式将依据数据量的大小和运用频率综合考虑。4、ETL的设计ETL指源系统数据经过数据抽取、转换和加载处理进入数据仓库的整个过程。ETL流程主要包括以下主要步骤:数据抽取:数据抽取就是将数据仓库须要的业务数据抽取到数据转换区的过程;数据检查和出错处理:在数据转换区中,对源系统数据质量进行检查,形成检查报告,并进行相应的出错处理,对于严峻错误,须要系统维护人员现场做出相应的处理。数据转换:数据转换包括对源系统数据进行整理、剔除、合并、验证等一系列转换工作,最终形成数据仓库物理数据结构所需的数据,存放在转换区的数据表中。数据加载:数据加载将数据转换的结果数据加载到数据仓库,并形成数据加载状况的报告。ETL工具需包括下列模块:EXTRACT模块(数据抽取),TXTLOAD模块(文本装载),TRANSFER模块(数据转换),DWLOAD模块(数据仓库装载),QUALITY模块(质量检查),CODEMANAGER模块(标准代码管理)和WADMIN模块(总控)。从各个数据源到中心数据仓库的ETL可以由ETL工具实现。首先在各个源系统安装extract模块,将源数据抽取为文本数据,打包后通过ftp传送到数据仓库主机上。在数据仓库主机上通过txtload将文本数据装入交换区,然后通过在交换区内通过Transfer模块进行数据转换,最终将交换区的数据通过dwload装入中心数据仓库。ETL每个模块都是现了参数化配置,通过配置相应的ini配置文件实现。从中心数据仓库到数据集市的数据装载利用存储过程实现。在开发过程中针对每个数据集市设计相应的存储过程,实现数据从中心数据仓库到数据集市的装载。BI体系构建通过引入先进的商业智能工具,提高数据挖掘水平,是快速变更信息工作无法满足业务发展须要的必由之路。数据挖掘系统将以原始数据为基础,以先进的数据建模理论对业务信息库进行重新规划,建立信息管理的基础数据支持平台。随着数据量的不断扩大以及新的应用系统不断上线,一期建设的大数据系统在不能满足需求的状况下,须要对大数据系统进行扩容。浪潮云海大数据一体机采纳ShareNothing架构,可以敏捷扩展,并且在扩展的基础上能够保证性能的近线性提升。浪潮目前支持两种扩容方式:一:增加节点实现扩容,将节点添加到原有系统中,实现整个系统性能和存储实力的提升。二:增加新的大数据一体机,与原有系统形成相互独立的两套大数据系统。方式一适用的场景:数据量增大,原有系统存储量无法满足要求。方式二适用的场景:客户须要重新搭建一套大数据平台,实现业务和数据的隔离。5.2大数据架构介绍本次大数据平台系统包括硬件、操作系统层和软件层三部分。1)、硬件层大数据一体机硬件层分为计算、存储和网络三个模块,其主要特征包括:①适用于大数据处理的计算单元。针对视频数据挖掘、在线交易这样的应用,由于这类应用对于计算量要求高,因此采纳CPU多、内存多的重载节点,并增加专用的加速芯片,针对对计算、存储和IO均衡的应用,采纳通用数据单元,第三类则是针对对数据处理快速响应的应用场景,供应轻量计算单元。②适用于大数据处理的存储单元。采纳整体一体解决方案,充分发挥新型存储节制的作用,比如闪存盘的技术,将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类型,实现全局的算法,降低冗余率。③大数据互联交换芯片。互连核心交换融合了数据通信与存储网络,实现对系统级消息通信、数据交换、以及I/O操作的统一支持,提高系统通信性能和扩展实力。④全局交换网络。互连核心交换融合了数据通信与存储网络,实现对系统级消息通信、数据交换、以及I/O操作的统一支持,提高系统通信性能和扩展实力。2)、操作系统层大数据一体机采纳特地面对关键应用业务开发的操作系统,不仅针对架构进行了特地的优化,性能大幅提升,而且在平安性和容错性方面实力突出。3)、软件层大数据一体机软件层包括分布式文件系统HDFS、分布式数据库HBase、并行数据处理引擎MapReduce,数据仓库Hive、数据分析、挖掘工具Mahout和管理系统等几个模块。本次在开源Hadoop之上开发了管理和监控工具,可简化Hadoop集群的安装、部署、运用与管理,主要功能包括:①节点动态增减②集群部署卸载③MapReduce作业管理④平台配置与参数更改⑤集群监控报警系统5.3新型分布式处理技术基础浪潮云海大数据一体机所采纳的分布式处理技术核心基础包含两部分:1)是用于海量数据存储与吞吐的分布式文件系统;2)是用于海量数据处理的分布式运算框架。5.4分布式文件系统HDFS分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能供应高吞吐量的数据访问,特别适合大规模数据集上的应用。HDFS的特点主要包括:运用低成本存储和服务器构建,能够存放PB以上级数据高可扩展性,实际生产环境可扩展至4000个节点高牢靠性和容错性,数据自动复制,可自我修复高带宽,支持高并发I/O访问分布式文件系统HDFS运行在运用低端通用服务器构建的大规模集群之上,采纳键值对(key/value)模型进行数据存储。整个HDFS系统采纳元数据集中管理、数据块分布存储的架构,包括一个主服务器和多个块服务器,支持多个客户端访问。大规模数据被分割成固定大小的块(64MB或128MB),块服务器将块以文件形式保存至硬盘,并依据块句柄和字节范围读写数据。为了实现容错以确保牢靠性,每个块被缺省的复制3个备份。主服务器采纳B+树管理文件系统的名字空间、文件映射、块物理位置等元数据。此外,HDFS的设计充分考虑了互联网应用负载和环境特征,通过服务端与客户端的联合设计,使性能和可用性达到最优,主要体现在四个方面:1)考虑到节点的失效问题,以软件方式实现系统故障复原功能;2)采纳特殊的文件系统参数,文件大小以GB计并支持大量小文件;3)适应应用特征,增加追加写文件操作以优化磁盘依次读写速度;4)部分文件操作不再透亮,由应用程序完成。5.5MapReduce计算框架为满足对海量数据的智能分析和深度挖掘需求,采纳HadoopMapReduce并行计算框架对各类结构化、非结构化数据进行离线分析。Hadoop是一个利用key/value数据并行性进行分布运算而后汇总结果的计算框架,适合作用于具有可划分属性(时间、空间等)的数据集合的,利于线性扩展;采纳数据本地化处理优化,通过移动计算,而非移动数据来实现高效数据处理;同时,Hadoop通过与HDFS协作运用和容错设计,具有高牢靠性。为了简化集群环境下的并行编程负担,Hadoop实现了MapReduce编程模型,使得程序员只需关注应用处理逻辑,而由运行环境负责集群应用的任务调度、数据通信、牢靠性和可伸缩性保障等底层处理细微环节。MapReduce把数据处理过程分解为Map阶段和Reduce阶段两个阶段,程序员只需编写map和reduce方法即可实现对海量数据的并行处理。map方法处理key/value键值对数据生成一系列key/value中间结果,reduce方法合并具有相同键值的中间结果得到最终结果。MapReduce的执行过程如图1.6所示,首先对数据进行分块并安排给多个Map任务执行map方法,然后依据某种规则对中间结果进行划分(partition)并写入本地硬盘;Map阶段完成后进入Reduce阶段,具有相同key值的中间结果被从多个Map任务节点收集(shuffle)到Reduce节点进行合并排序(sort),并执行reduce方法,输出结果写入分布式文件系统。MapReduce模型为Map:k1,v1List(k2,v2)Reduce:k2,List(v2)list(v2)其中,Map方法将key/value数据[k1,v1]转换为[k2,v2],Reduce方法针对每个k2的值列表List(v2)做list操作。此外,MapReduce模型中还包括partition、combine和sort等方法,可依据须要进行定制。将已有智能分析和挖掘应用MapReduce化的一般过程为:分析问题并行性,即输入数据集是否可被切分处理编写Map函数,在第一阶段计算<Key,Value>对。Map方法可以完成选择、投影等运算编写Reduce函数,在其次阶段用于汇总Map函数的结果,Reduce方法可以完成表中定义的其他key/value代数运算5.6数据管理与分析为满足海量数据的分布式计算和处理需求,采纳基于无共享集群架构的并行化数据处理方式完成海量数据的组织、检索、传输等工作,提高业务效率。同时,建立标准统一的开发平台向编成人员屏蔽底层分布式计算细微环节,提高业务实现效率。5.7分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库,为高速在线数据服务而设计,HBase的特点主要包括:1)采纳NoSQL数据库结构面对列存储、可压缩,有效降低磁盘I/O,提高利用率多维表结构,在四个维度中三个维度可变,适合描述困难嵌套关系敏捷的表结构,可动态变更和增加(包括行、列和时间戳)支持单行的ACID事务处理2)基于分布式架构高性能,支持高速并发写入和高并发查询可扩展,数据自动切分和分布,可动态扩容,无需停机高可用性,建立在HDFS分布式文件系统之上为了支持互联网应用的格式化和半格式化数据,可构建了弱一样性要求的大规模数据库系统HBase。HBase数据模型包括行、列以刚好间戳,多个行组成一个子表(Tablet),保存在子表服务器中。为使性能最大程度地适应需求,HBase体系结构也是基于客户端和服务器架构设计的(如图-HBase体系结构)。HBase依靠于集群任务调度器、HDFS文件系统以及分布式锁服务ZooKeeper。HBase运用具有鲁棒性的分布式锁ZooKeeper来保存根元数据表的指针,客户端应用首先通过程序库从ZooKeeper中获得根表的位置,然后与主服务器进行元数据通信,进而与子表服务器进行数据通信。HBase运用一台服务器作为主服务器管理元数据,并对子表服务器进行监控、故障处理和负载调度。图-HBase体系结构5.8Hive数据仓库为支持进一步开发针对海量数据的智能分析和深度挖掘应用,在HDFS/HBase之上建立数据仓库Hive。Hive是建立在Hadoop上的数据仓库基础构架。它供应了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。并供应完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive的主要特点包括:采纳HDFS进行数据存储,采纳Map/Reduce进行数据操作供应类似于SQL的查询语言高扩展性(scale-out),动态扩容无须停机针对海量数据的高性能查询和分析系统供应敏捷的语言扩展,支持困难数据类型,扩展函数和脚本等5.9大数据调优服务在本次项目中须要具有软硬一体化、专业化方面的优势,借鉴大量实际案例和生产实践阅历,供应下列增值服务。1)、Hadoop调优浪潮在Hadoop发行版供应的平台之外,还具备进一步优化的实力,具体包括硬件优化、操作系统优化、Hadoop配置优化和应用优化。硬件优化:采纳硬件加速技术,包括采纳FPGA卡将某些功能通过微码的形式固化,干脆与硬件交互,大大提高处理速度。还可以采纳存储加速技术,将某些频繁运用、干脆影响性能的操作进行存储加。操作系统优化:采纳内核优化,提高内存访问速度,削减进程切换和削减运用非本地内存,以及缓存技术等进行操作系统层面的优化。Hadoop配置优化:对Hadoop底层及应用的精通帮助进行Hadoop配置优化,优化方向包括操作系统参数优化、网络优化、HDFS优化、Map/Reduce优化、HBase优化等。在大的集群规模和数据量的实际场景下的优化阅历是特别珍贵的,是实测得出的阅历。应用优化:包括数据模型优化和应用逻辑重构,由于特别熟识Hadoop技术的优势所在,将针Hadoop的特点对数据模型进行优化。另外的一个优化方面是将针Hadoop的特点对应用逻辑重构,保障应用逻辑正确的条件下,结合对银行应用的精确理解,进行应用逻辑重构,优化系统性能。2)、Hadoop数据导入工具从本地磁盘导入到Hadoop集群和HBase数据库,是一个特别困难的过程,假如没有工具支持,很难保证性能,而且简洁出错。依据过去的项目阅历,浪潮开发了Hadoop数据导入工具,实现高性能的数据导入。具体功能包括:任务调度:以pipe的方式,进行任务调度。按批次导入的方法的缺点是系统利用率无法达到最优,会出现资源奢侈。按pipe方式导入可以避开按批次导入的方法的缺点,最大限度利用资源。另外,通过对任务资源代价排序,可以实现集群资源的平衡运用。数据分发:依据各节点的资源列表,将数据平均分发到各节点。并发限制:以可配置方式,实现并发数的限制,供应并行执行任务的实力。配置工具:供应参数配置,以参数形式限制导入的过程,避开硬编码带来的敏捷性问题。日志管理:供应丰富的日志信息,对于出错日志单独记录,便于分析问题和实行订正措施。3)、HBase开发工具采纳面对对象的设计和开发方法,并采纳分层模型,对HBase的操作进行封装,想HBase的困难性对开发者透亮,并提高开发效率,削减开发中的BUG。具体特点包括:Java对象化将HBase的数据进行Java对象化,开发者只要定义JavaBean,并通过HBase开发工具供应的简洁接口就可以实现select,insert,update,delete.HBase底层抽象把HBase的会话连接,HTable操作,SCAN操作等进行抽象,形成dbo类和query类,结合Java对象化实现优雅地开发HBase应用程序。HBase表维护进行HB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度黑龙江省高校教师资格证之高等教育心理学题库附答案(典型题)
- 邮政快递智能技术专业大纲+样卷+参考答案
- 文学批评与理论研究试题及答案
- 文艺汇演开幕词7篇
- 汤姆索亚历险记读书笔记10篇
- 2025年个人向个人借款协议
- 租赁期满解除合同(2025年版)
- 消防设施性能标准试题及答案
- 平台合作协议(2025年版)
- 离婚协议女方专用成品(2025年版)
- 中等职业技术学校《新能源汽车概述》课程标准
- 雷军2024演讲破釜沉舟
- 安徽省沿淮教育联盟2025届九年级英语第一学期期末学业水平测试试题含解析
- CJT151-2016 薄壁不锈钢钢管
- 2024年民航安全检查员(三级)资格理论考试题库大全-上(单选题部分)
- 2024年支气管激发试验临床应用中国专家共识(完整版)
- FZT 73022-2019 针织保暖内衣
- 墙式消火栓检查维保记录表
- 马克思主义基本原理考试题库附答案【典型题】
- 邻近铁路营业线施工安全监测技术规程 (TB 10314-2021)
- 新生儿防烫伤
评论
0/150
提交评论