华中科技学院大数据科研教学平台解决方案_第1页
华中科技学院大数据科研教学平台解决方案_第2页
华中科技学院大数据科研教学平台解决方案_第3页
华中科技学院大数据科研教学平台解决方案_第4页
华中科技学院大数据科研教学平台解决方案_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概 背 建设目 教学科研大数据平台概要设 整体架构设 cProc云计算系统架 hadoop教学平台架 教学科研大数据平台优 cProc云计算系统优 hadoop教学平台优 minicloud教学科研多样化优 教学科研大数据平台设 高端教学和高精尖科研cProc云计算系 cProc云计算系统概 数据立方 混合策 cProc云计算技 Hadoop大数据基础教学平 Hadoop大数据教学平台概 Hadoop大数据教学关键技 Hadoop大数据基础教学参 科研教学多样化私有云 Minicloud迷你 云创网 产品配 2010ZBIDC监测,人类自有史以来所有数1818202035ZB、30倍。大数据的需求趋势越来越多。大数据科学研究也在不断壮大,美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学名古屋大学、韩国釜山国立大学等纷纷成立大数据科学研究机构加州大学伯克利分校和伊利诺、华技大学学院着眼于未来,着手从全球的技术重点难点-大数据的科研和教学出现,拟打造数据教学科研的标杆,建设新一代的大数据研究教学。特此建设大数据教学科研,建立大数据教学科研平台,旨在建立一套具有高可靠、可弹性伸缩,提供数据内在关系和价值的大数据平台。在高校开发云计算大数据科研平台、建立云计算大数据科研、创设云计算教大数据学培训等,实现高效教学科研流程。海量教学资源平台的实现使高校中海量教学资源数据能够有效和共享对今后数字化校园的建设有学生就业机会和薪资水平,逐步培养互联网时代IT行业的大数据人才。大数据平台建设以硬件平台搭配软件为基础支撑电子数据信息的存针对华技大学学院的具体需求,我们采用三部分来实现1hadoopcProc云计算系统;minicloud来实现教学科研多样化;cProccProc是一种用于数据分析与索引的技术架构。它是针对大数据(bigdata)的处云层包括公司自主研发的云系统cStor和apache开源云系统HDFS;而在数据管理层中,包含数据立方(Dube)、Hbase;数据处理层包含MapReduce对整个系统的实时和数据管理。cProccProc对结构化数据任意关键字索引,形成一个数据模型,数据立方名也性采用数据立方,也可以单独采用Hbase、Hive等技术框架,通过数据立方或Hbase,可以将结构化数据看成一张无限大的表,操作这跟操作传统关系型数据立方是凌驾于数据层和数据库系统之上的,通过cProc解析后,可hadoopSyste(HDFS它Hadoop集群中所有节点上的文件。HDFS(对于本文)的上一层是MapReduceJobTrackersTaskTrackersHadoop分布式计算平台最的分布式文件系统HDFS、MapReduce处理过程,以及数据所有技术。1在HDFS内部提供元数据服务;DataNode,它为HDFS提供块。由于仅存NameNode,因此这是HDFS的一个缺点(单点失败。在HDFS中的文件被分成块,然后将这些块到多个计算机(DataNodeRAID架构大不相同。块的大小(通常为64MB)和的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。MapReduce系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(ask,并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Mapeduce节点同时负责这些节点的执行状态,并负责Map节点执行的同步控制。Reduce节点前会进行一定的合ReduceMap节点,为了避免Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略Reduce节点;此外,系统以服务器构成的大规模MapReduce计算集群中节点硬(主机磁盘、内存等)出错和软件出错是常态,因此MapReduce需要能检测并出HBaseHadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存上图描述HadoopEcoSystem中的各层系统其中,HBase位于结构化层,HadoopHDFS为HBase提供了高可靠性的底层支持,HadoopMapReduce为据统计处理变的非常简单。SqoopHBaseRDBMS数据导入功HBase中迁移变的非常方便。量分布式数据计算技术基础之上根据各种应用数据的产生方式和使用特点,cProccProc1Gb/s光纤线达到了带宽的80%左右,处于国际最高水平。全业务支持:NoSQL+关系数据库混合模式,绝大部分海量数据存放于分布式平台hadoopHadoop集群指的便是为了对海量的非结构化数据进行和分析而设计的要在于其进行数据提取、数据变形以及加载等方面优势非常的明显。Hadoop分布式架构能够让大数据处理时候引擎靠更近。Hadoop本身的扩展性非常发展,数据量也会不断的增加,这种方式并不能够彻底地解决问题。Hadoop人的,这不是较少的便能够解决的问题。HadoopHadoop高校更快捷地进行新数据的并且还能够对这些类型不同的数据进行一定的Hadoop市场活动进行一定的分析,甚至还能够对进行检测。HadoopHadoopHadoopTBHadoopHadoopHadoopHadoop系统采用云架构,底层数据被分块在不同的节点上,数据实现数据完整可靠,系统对外服务不间断。HDFS的管理节点采用了主7×24HadoopHadoop平台所依赖的数据层云数据库容量仅受限于卷管理服务器内存,Hadoop系统提供的API接口,供开发人员调用HadoopMinicloud采用可靠的分布式云,最大支撑三个36TB的节点,采用种重要数据提供安全可靠的,重要数据包括用户设计文档、设计图纸、经营海量完全的两套系统。而Minicloud具有节省空间的得天独厚优势,550mm长度×441mm宽度×350mm的、磁盘的、CPU的以及内存的。Minicloud微型云计算数据中心界提供配置接口,通过配置可实现第应用程序的双机热备。Minicloud微型云计算数据中心支持Windows客户端、、Android客户端、/iPad客户端,方便用户随时随地Minicloud。数据同步获取:在您出差在外时,无论是、笔记本还是平板电脑,均可同步上传数据;内数据,分布:网盘系统数据和内部局域网数据做到逻辑上完全教学科研环境仅需要一台瘦客户端和简单的输入、输出设备,所有的计算Minicloud数据集中管控:Minicloud桌面虚拟化系统能够实现数据的集中管控。用户通过桌面虚拟化系统所产生的数据均不驻留本地而是集中在Minicloud到数据不泄漏、不丢失;原有环境,同步兼容:桌面虚拟化系统亦可利用您原有的教学科研环境。于公司数据的需要通过桌面虚拟化系统在管理员的之下进行,数据管控不误便捷教学科研。大数据平台建设以硬件平台搭配软件为基础支撑电子数据信息的存1hadoopcProc云计算系统;minicloud来实现教学科研多样化;式的云节点对外提供高速的服务并且基于分布式架构的云平cProccProc秒级完成数据处理、查询和分析工作。平台可以对数据进行实时索引,对数据进行分析、清理、分割,并将其在云系统上,不仅在入库和检索时具同时cProc云计算软件支持和关系数据库混合模式,绝大部分海量数据存放数据挖掘和商业智能分析业务要求对标准SQL规范支持度达到50%以上提供 D数据立方Dube是凌驾于数据层和数据库系统之上的,通过cProc100PB100Gbps关键字段实时创建Java1小时范围查询:1-324小时范围查询:3-57*24小时范围查询:5-10SQL采用和关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很不仅支撑查询、统计、分析业务,还可支撑深度数据20系统连续运行7*24既可以在很小规模机器上跑,也可以在成千上万台的提供web界面对分布式文件进行,支持查看、用于根据表结构,导入带有记录的文语句webservicewebservicewebservicewebservicewebservice件(sql句webservice入库数据量(条入库时间1105020020005000148

入库数据量(条查询时间1105020020005000148混合策略可以简述为HDFS分布式文件系统用来海量数据,可以根据的数据类型建立索引,HBase也可用来海量数据,其由查询条件建立索引表,数据库对小型数据的处理分布式文件系统支持扩展到PB级容量分布式文件系统HDFS是一个开源云计算平台Hadoop框架的底层实现部分,,非常适合于大规模数据集上的应用。MapReduce在HDFS的基础上实现的Map(映射)阶段和Reduce(规范)阶段。首先,Map函数把一组(Key,Value)输入映射为一组中间结果(Key,Value),然后通过Reduce函数把具有相同Key值的中间结果,进行合并化简。MapReduce将处理作业分成许多小的单元,同时数据也会被HDFS分为多个Block,并且每个数据块被 靠性HDFS按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduceHBase类似Bigtable的分布式数据库,是一个稀疏的,长期的,的,排序的映射表.这的索引是行关键字,列关键字和时间戳。所有数据库HBasecProc云计算技IPMasterIP第一步Master节点能过心跳得知宕机负载均衡机第二步IPMasterMaster第一步Master节点宕机,负载均衡节点及计算节点能过心跳得Master第二步所有负载均衡节点,重出Master节点,并通知计算节点Master所有计算节点,根据负载均衡IP列表,请求新Master节点,后向MasterMasterMasterMaster NFS

用户

Master它定期AvatarNode0的日志来更新自己内存和磁盘中的元数据,并定期做checkpoint,AvatarNode0fsimageeditlog。DataNode节点向AvatarNode0和AvatarNode1同时发送心跳信息和BlockReport,BlockNFS服务器AvatarNode0和AvatarNode1的fsimage和editlog。就是写入者)、已的数据服务器位置,密切相关。其算法基本思路是只考体算法,自行参见源码。此外,HDFSBalancer个服务器上。Balancer会向相关的目标数据服务器发出一个DataTransferProtocol.OP_RECE_BLOCK消息接收到这个消息的数据服池内作业间计算槽的分配,可以按照池间算法或按照hadoop默认 系统采用基于HDFS的版本的改进方案Avatar方案NFS

AvatarZooKeeper示tar存贮所有Region的寻址实时RegionServer的状态,将Regionserver的上线和下线信息实Master4分布式数据立方的schema,包括有哪些table,每个table有哪columnfamilyRegionserverregionserverregionserverHDFS上的文件回schemaRegionRegionserverMaster分配给它的region,处理对这些regionIOMaster由于master只表和region的元数据,而不参与表数据IO的过程,master宕机仅导致所有元数据的修改被冻结(无法创建删除表,无法修改表的schema数据立方集群没有影响。从上线过程可以看到,master通过使用ZooKeeper的机制解决MapReduce的单点故障当用虚拟IPIPJobTrackerJobTrackerZooKeeperMapReduceJobTrackerJobTracker0IPJobTracker1启动JobTracker进程替代JobTracker0节点,虚拟IP会指向此节点,TaskTrackerMapReduceZooKeeper接受客户端提交的MapReduce作业的,JobTracker0和1ZookeeperZooKeeper可为分布式应用建立更次的同步(synchronization)、配置管理(configurationmaintenance)、群组(groups)以及命名服务(naming)。在编程上,ZooKeeper使用的数据模型风格很像文件系统的 有点类似windows中表的结构,有名称,有树节点,有Key(键)/Value(值)Zookeeper的基本工作结构如下图所示。ZookeeperZookeeper分为2个部分:服务器端和客户端,客户端只连接到整个ZooKeeper在具体实现上使用Zookeeper基于计算集群完成统一的控制。基本设计方法是将计算集群中所有的计算节点都纳入Zookeeper的管理,选择其中3个计算节点为Zookeeper的服务器节点负责并行计算任务的调度和分发节点,Zookeeper将自动在这3个服务器节点中一个主服务器节点。当主服务器节点出现故障时,Zookeeper将能自动从剩下的2个服务器节点中重 ZookeeperZookeeper将能在Zookeeper中所的当前有效的计算节点中挑选一个空闲的节点并把Zookeeper搜集审计的过程。数据分析的目的是把隐没在一大批看来杂乱无章的数据中产品的整个周期包括从到和最终处置的各个过程都需要点,对同一个数据挖掘功能,K-Miner通过多种算法进行实现,例如“分类预测”据源的也是影响系统的重要因素,因此需要高效的ETL数据抽方案。引擎、支持、统计信息等。全量抽取类似于数据迁移或数据它将数据源中的表或视图的数据原封ETL在ETL使用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增触发器方式(又称快照式构成。ETLupdate操作,在数据准确性上受到了一定的限制。优点:ETL加载规则简单,速度快。ETL对源表和临时表进行的比对,不同,进行Update操作,如目标表没有存在Insert操作。规则由ETL完成,管理统一,可以实现数据的递增加载,没有风险ETL加载时,通过读日志表数据决定加载那些数据及如何加载。改记录日志信息日志表较为麻烦对原有系统有较大影响工作量较大,Oracle变化数据捕捉(CDC方式通过分析数据库自身的日志来判断变化的数据。Oracle的改变数据捕获(CDC,ChangedDataCapture)技术是这方面的代表。CDCOracle9i数据库中引入的。CDC能够帮助你识别从上次抽取之后发生变化的数据。利用CDCinsertupdate或delete等操作的同时就可以提取数据,CDC体系结构基于发布的是哪些变化数据一个订阅者可能不会对发布者发布的所有数据都感。订阅者需要创建一个订阅者视图来经发布者可以的变化数据。CDC分为同步模式和异步模式,同步模式实时的捕获变化数据并到变化表中,发布者与订阅都位于同一数据库中;异步模式则是基于Oracle的流技术。APICDCETL杂,并且需深入研究方能实现。或者通过第工具实现,价格昂贵。ETLETLETLETL供了支持,使得用户可以以一种编程的方式定制数据的转换和加工行为。SQLSQLsubstr函数,case相比在ETLSQL语句中进行转换和加SQLETL引擎处理。ETLSQLinsert、update、delete大多数情况下使用 法因为它们进行了日志记录并且是可恢复的但是ETL通过高速的数据挖掘引擎以及成分布式并行挖掘算法库可以高效快速cProcMapReduce架构的job提交过程较为复杂,客户端将job提交到MapReducecProcjob在提交jobjarjobmastertaskslaveHDFScProc并行计算架构能够周期性地对HDFS上的数据进行,保持Master:HDFSMap0:SearchIndexHDFSHDFSMap1:SearchData方法,根据数据文件路径和偏移量并发送最终结果集、多折线图托图等10类可视化利于用户对数据和模型的观察和理解、HadoopHadoopHadoopHadoop由许多元素构成。其最底部是HadoopDistributedFile(HDFS,它Hadoop集群中所有节点上的文件。HDFS(对于本文)的式平台的所有技术。Hadoop下面从HDFSMapReduceHBase三大部分详细介绍Hadoop的关键指数HDFS1在HDFS内部提供元数据服务;DataNode,它为HDFS提供块。由于仅存在NameNode,因此这是HDFS的一个缺点(单点失败。在HDFS中的文件被分成块,然后将这些块到多个计算机中(DataNode内部的所有通信都基于标准的TCP/IP协议。MapReduceMapReduce(Task作业和任务调度功能主要负责分配和调度计算节点(MapReduce同时负责这些节点的执行状态,并负责Map节点执行的同步控制。ReduceMap磁盘、内存等)出错和软件出错是常态,因此MapReduce需要能检测并出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将数据HBace为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover此外,Pig和Hive还为HBase提供了语言支持,使得在HBase上进行数HBaseHadoop云计算、大数据时代,社会急需相关人才。Hadoop第1章 神奇的大象——Hadoop第2章 HD——不怕故障的海第3章 分久必合——Maedue第4 一张无限大的表——第5章更上一层楼——MapReduce进阶第6章Hive——飞进数据仓库的蜂第7章Pig——一头什么都能吃的猪 第9章Chukwa——收集数据的大乌龟第10章一统天下——ZooKeeper第11章1——打造一个搜索引擎第12章综合实战2——生物信息学应用第13章3——移动通信信令监测与查询第14章高枕无忧——Hadoop容错用案例,系统地讲授了Hadoop的 MapReduceHBaseHive和ZooKeeper等并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。 —二Eucalyptus:AmazonAmazonVMware云计算第1第7第8 使用,也可作为云计算研发人员 者的学习和参考资料第9第9 云计算仿真器第10章云计算研究热点第11章总结与展望HadoopHadoopHDFSMapReduce、YarnMR2.0HDFS集群状态查看MapReduce示例程序运行、状态查看HDFSHDFS分布式文件系统的常用命令操作与MapReduceMapReduceMapReduceAPIHBaseHBaseHBaseHBaseHBaseAPI调用应用开发Hive部署Hive分布式数据仓库利用Hadoop、为什么要选择我们呢?第一点:国内最畅销的云计算和第一本Hadoo编程书籍由我们。第二点:国内第一的云计算和大数据由我们MinicloudMinicloud迷你云是针对用户专门设计的安全教学科研私有云产品。不中断;Minicloud时对于数据的局域网内部共享的数据与通过互联网的数据在逻辑上完全,因此用户既能在保证内部数据安全的基础上,亦可实现教学科研数据的,Minicloud迷你云用最少的成本为用户部署云以及用户教学科研应用幅度降低了用户IT建设的门槛与风险,并同时全面保障用户数据安全其采用三用户都喜欢使用云盘服务,如云盘、360云盘等。数据存放在云盘,安全性很高,而且不管通过什么设备都可以自己的数据给别人也很方便。但单位的数据一般不敢放在公有云的云盘里,Minicloud迷你云不仅可靠,还自带 ,Minicloud数据是业务系统应用的最终保障不但要保证整套系统能够7X24运行,而且系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作或。性靠措施,提供统一的系统管理和平台,进行有效的故障定位、。性数据,极大提高数据性;系统具有自适应管理能力,安装、、升级简易方便,提供统一易用WEB配置管理平台,实现智能化管理系统采用基于云的平台设计模式,打造的同步检索云云创网盘系统包括【文件同步管理系统【文 服务系统【文件文件服务系统是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的设备通过应用软件集合起来协同工作共同对外提供数据和业务功能的一个系统文件同步管理系统是指以云系统为基础,通过多种智能设备终端收集数据,将数据同步到统一云上。文件分析系统是指在已有数据的基础上,通过全文索引,按照权限划分等方式对系统中的各种类型数据进行全文检索,同时对等相关文件进行格式转换,供用户进行浏览。文件服务系统采用cStor云系统为文件管理服务端提供底层数据 高可用性原则:7x24统一前端、分布中端、统一后端架构问权限,从而有效地保护私人。操作直观方便简单:根据所使用的网络硬盘直接在网上使用云创网盘系统是针对用户文件管理且易丢失的情况且不断增长的情况云创网盘系统还提供的共享、文件历史版本恢复、文件外链、操作自主1.功能描述、基于云平台的多终端数据同步服务为用户提供个性化的数据管理方式。作为数据应用系统,为用户提供个人数据服务,保护数据安全等基础者实现全方位的管理和。、满足用户安全特性,通过的控制,可以达到安全的要求,同时对用户数据集进行模块化分析,防止用户数据用。收集数据集中随时随 数据提供基于PC、web、Android、/iPa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论