H3C DataEngine大数据平台最佳实践之华中农业大学v1.1_第1页
H3C DataEngine大数据平台最佳实践之华中农业大学v1.1_第2页
H3C DataEngine大数据平台最佳实践之华中农业大学v1.1_第3页
H3C DataEngine大数据平台最佳实践之华中农业大学v1.1_第4页
H3C DataEngine大数据平台最佳实践之华中农业大学v1.1_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

H3CDataEngine大数据大数据平台最佳实践之华中农业大学关键字:DataEngine、高校大数据、数据整合、大数据分析、学生画像撰写人:牛传正08889、舒俊浩09332部门:战略Marketing一部用户简介华中农业大学是中华人民共和国教育部直属的一所以生命科学为特色,农、理、工、文、法、经、管协调发展的全国重点大学,是国家“211工程”、“985工程优势学科创新平台”重点建设院校。目前,华中农业大学已经建立较完善的高校业务信息化系统,包括教务系统、学工系统、校园卡系统、图书馆系统、校医院HIS系统和网络认证和上网行为审计系统等,并完成了多个系统的业务上云,在“数字化校园“建设工作上卓有成效。但是当前仍存在着各系统数据分散、信息孤岛现象严重、业务系统使用率低和服务化程度不够等问题,需要藉由新的技术架构来解决。华农信息化建设现状分析当前信息化建设成果业务系统建设成果华中农业大学的校园信息化建设当前已取得不俗的成绩,建成了包括教务系统、学工系统、校园卡系统、图书馆系统、校医院HIS系统和网络认证和上网行为审计系统等在内的较为全面的高校信息化应用体系,基本能够满足各职能部门的管理需求。虚拟化与业务上云为了提高学校信息资源的利用率,减少硬件环境的重复建设,华农基于华三云平台建成共享的云计算资源池,实现了底层硬件资源(计算、存储和网络)的统一纳管,并实现业务上云,见下图。极大提高IT资源的使用效率,增加系统的可靠性,同时也实现业务的快速部署。下阶段信息化建设目标与方向为了贯彻“十三五”信息化规则中阐述的”服务化“和“智慧化”精神,实现业务流程的信息化向服务的信息化的转边。建立面向全校师生、使用率高的“服务“性的系统。要求集成全校各系统数据,主要用于实现数据查询、分析和展现相关的应用。智慧校园的智慧校园建设方针为“大平台轻应用”,建设原则上不允许直接对学校原有应用系统的数据做操作,一是防止干扰现有系统正常运作,二是分析应用的建设需要综合多系统的数据,需要有与现有系统松耦合的底层技术架构支撑。因此,智慧校园建设一般遵循“大平台轻应用”的方针:实现底层与上层应用服务的独立建设,全新搭建一个大数据平台,将各系统数据整合集中,并再此基础上建立数据仓库,为上层业务建立专题库和数据模型搭建,上层各种应用只需专注于自身的业务逻辑梳理。基本架构见下图:建设需求解决数据孤岛问题华中农业大学部门机构繁多,经常会出现学院和行政部门各自建网站、找了不同的公司开发、使用完全不同的系统,数据结构庞杂。这就导致了教务处、财务处、人事处等系统及数据各自独立,部门数据不能有效及时交互;新生数据不能及时同步到各部门,导致各部门工作难以有效开展;学籍变动、人事变动,信息缺乏互通;学生处和后勤部门信息不统一,学生突发状况很难处理,学校内部信息流通亟待畅通。大数据处理并非只是处理大数据量,如何将现有的业务系统数据打通、数据整合是亟需解决的大数据问题。大数据平台建设高校信息化业务系统正在从偏管理向重服务的方向转型,流程的整合、数据的融通、服务的智慧化,个性需求及时的满足是未来高校信息化建设的方向。然而当前高校业务系统独立分散、重交互轻分析的技术架构体现并不能满足建设需求,只有建立统一的大数据平台,拉通各业务体系,整合全校数据资源,实现海量数据的高效存储和计算,完成数据专项建模,才能为未来各项个性化、智慧化的应用提供有力的底层技术架构支撑。大数据分析展现、大数据管理决策学生管理、引导、评价仅仅局限在很少的维度,很难收集学生的全面数据,去对学生进行深度分析,形成精确画像,辅助教学管理决策。评价引导学生,本身就是一个非常复杂的课题,能否在已有研究成果基础上,尽可能将关于学生的评价的多维度数据进行长期的收集,如何做到长期有序的收集是挑战,全面的分析、合理引导学生是挑战。大数据人才培养计划在过去一段时间内,为了满足信息技术产业的发展,国内多数高校、职业院校开设了计算机通信相关专业,但毕业生的就业前景却日渐黯淡。据权威机构调查,国内计算机专业毕业生就业后的专业相关度仅为50%,并且,毕业生就业三年后转换行业的现象非常普遍。究其原因,超过1/4的毕业生反馈在校学习的课程知识较为陈旧,面对大数据、云计算、移动互联网等新型技术的兴起,自己所掌握的知识、技能和实践经验均无法满足行业需求。华农正在申请建设大数据相关专业方向的硕士点,在其中设立大数据挖掘分析研究方向,培养大数据挖掘分析领域的高层次人才。建立大数据的课程体系:在计算机类本科专业高年级阶段开设大数据相关课程,如《大数据基础》、《大数据原理及应用》等,并编写数据科学与工程相关专业的教材,构建大数据教学资源与数据平台,提供给华农及兄弟院校学生进行学习与实践。培养和引进大数据领域师资:聘请专业人才对教师进行培训指导,引进大数据相关的高层次师资力量。引导大学生在大数据领域创新创业,培养大学生创新创业队伍,形成大数据领域的创新创业基地。解决方案数据孤岛问题解决ETL工具是大数据平台的重要组件,主要用于数据的抽取、清洗、装换,并装载至大数据存储组件中。数据抽取,支持结构化、非结构化、半结构化数据及丰富业务场景数据源。数据清洗,主要是清楚冗余数据、错误数据。数据转化,结构化数据和非结构化数据转换,数据的计算、拆分、合并等。数据加载,支持数据源丰富、加载速度快、支持全量及增量加载。利用H3CDataEngineETL组件完美解决了华农业务系统数据孤岛问题。大数据平台建设解决方案H3C采用Hadoop和MPP分布式数据库混搭的计算框架为华农提供一套完整的大数据平台解决方案,包括数据采集转换、计算存储、分析挖掘、开发接口、BI展示以运维管理、安全管理等全系列功能。帮助学校构建海量数据统一处理系统,发现数据的内在价值,助推校园智慧化建设转型。整个大数据平台系统架构分为如下几部分:存储计算层大数据平台的数据存储和加工计算层,也是大数据平台的核心层。对平台采集和产生的大数据进行存储,包括结构化数据存储、半结构化数据和非结构化数据存储。其中具有高价值密度的结构化数据使用MPP数据库集群以数据仓库的方式来负责存储管理,低价值密度的音视频、互联网等半结构化和非结构化大数据以Hadoop的HDFS、HBase分布式存储系统负责存储管理。离线计算MapReduce、实时计算Strom和内存计算Spark等计算框架根据不同数据处理需求对Hadoop平台中的数据做计算。MPP和Hadoop中的数据经过进一步的汇总和提取后存入数据仓库,数据仓库高效的数据访问性能为上层业务做有利的数据支撑。数据仓库与数据管理将存储计算层汇总和加工后的数据做进一步的抽取,建立全文库和关联库,并从学校关注的各类专题角度出发形成专题库,专题库中包含了多维数据库,以便于各类专题应用调用数据。对数据资源进行全面的梳理和监管,包括功能有:数据标准管理、数据质量检测、数据资源监控、数据资源编目等。数据服务层提供高性能服务接口,为上层应用提供丰富的数据服务和开发接口。安全管理安全管理主要用于构筑整体监控大数据平台的安全防护,主要功能包括:网络安全、OS安全、访问安全、数据安全、用户认证、数据加密和容灾备份等。运维管理平台提供Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。大数据分析展现、大数据教学管理决策BI+大数据应用系统,整合学生信息,建立主题数据仓库,形成学生画像。对学生个体或特定群体进行精准化描述,个性化选择个体或群体间PK较量,不错过任何一个精彩瞬间,不放过任何一点进步空间,学生画像系统帮助高校教学管理者带来更有针对性的教学与管理,从而引导学生学业就业全面提升。依托华三DataEngine平台强大的大数据处理能力,借助大数据平台的数据建模和数据分析结果,基于对高校现有业务的理解建立各项大数据专题应用。实现全数据多维度的数据分析和挖掘,实现应用有如学生画像、失联预警、行为分析、影响力调查和成绩预测等。帮助学校实达成教学管理提升,提供决策支撑,实现个性化推送服务,提升校园整体人文情怀。通过对学生学习情况、消费情况、校园行为等多类数据的分析,对学生个体或特定群体进行精准化描述,揭示学生不同的成长轨迹。帮助职能部门了解特定群体的特征,从而开展具有针对性的教学及管理。人才培养计划解决方案H3C提供了全方位的人才培养服务,包括实训室建设、实验室教学教材配套、师资培养、就业服务指导等。项目当期将配套定制开发相关大数据课程。课程由面向学校内师生。教学内容包括大数据教学大纲,实训资源包课程以及专业产品认证课程三大类。课程内容结合了目前国内外主流的Hadoop平台和高性能计算平台,剖析主流的大数据平台产品、高性能数据挖掘和混合分布式系统平台技术应用,引导学生利用Hadoop大数据技术、分布式文件系统技术(HDFS)、高性能计算技术(MapReduce、Spark)、高性能并行存储系统技术解决行业中存在的I/O存储、分析处理性能瓶颈问题,熟练掌握大数据技术应用项目的解决方案。主要课程提纲及实验提纲如下:课程主要提纲内容梗概大数据采集处理技术及其应用互联网应用日志大数据采集Web网页爬虫数据采集实时物联网设备监控数据流采集ETL工具-Pentahokettle的安装、配置与管理;Kettle任务开发等内容。实时日志采集与数据收集技术,以及Flume&Flume-NG日志采集系统的原理、架构分析与应用介绍Fluentd日志收集系统架构、技术实现、运维部署、日志查询与分析Scribe分布式日志搜集系统架构、技术实现、用户行为收集与个性化访问数据实时采集技术Chukwa监控数据采集系统架构、技术实现、应用部署、与Hadoop对接技术、日志实时收缩分析Hadoop大数据技术平台原理与应用大数据文件存储系统技术和分布式文件系统平台及其应用分布式文件系统HDFS概述、功能、作用、优势、应用范畴、应用现状和发展趋势HDFS分布式文件系统核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展HDFS系统SHELL命令操作、I/O流式操作,文件数据读取、写入、追加、删除、文件状态查询,数据块分布机制、数据同步与一致性、元数据管理技术、主节点与从节点工作机制、大数据负载均衡技术,以及HDFS大数据存储集群管理技术大数据分布式处理与数据并行分析计算技术实现以及平台应用并行计算与函数式编程技术概述,MapReduce工作机制、技术原理和处理架构MapReduce作业执行与调度技术,JobTracker和TaskTracker组件详解,MapReduce程序开发、性能调优、以及高级应用技巧常见的Hadoop故障错误分析策略以及监控工具详解,云文件存储系统状态以及海量作业执行状态监控与故障解决经验介绍序号实验名称实验内容实验一Hadoop大数据生态系统部署Hadoop生态系统平台的安装部署,包括HDFS、MapReduce、Yarn与MR2.0HDFS集群状态查看MapReduce示例程序运行、状态查看实验二基于Hadoop平台的二次应用程序开发HDFS分布式文件系统的常用命令操作与存储程序开发MapReduce统计程序开发并运行Hadoop程序开发实验上线效果上线效果H3C运维管理平台(DataEngineManager)是一个可视化的集群管理和监控平台,集群的节点、主机、组件的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。图:DataEngine大数据平台管控界面大数据应用系统截图如下图,学生画像的首页展示左侧展示学校所有院系,可点击院系进入院系简介右侧显示学校基本概况.如下图,左侧班级里所有学生展示,右侧学生基本信息展示,包括籍贯、学号、影响力等影响力从多个维度来评估,比如:成绩、社团活动、荣誉、证书、才艺等如下图展示生源分布情况,如湖北学生占比:34.71%,其中三好学生占比6.22%,贫困学生占比24.49%,普通学生占比69.28%。如下图,展示食堂的消费情况,可以按照年级维度查看某时间段食堂消费情况。最佳实践亮点实现各业务系统数据的整合拉通,解决数据孤岛问题。建立统一的大数据处理平台,为高校大数据应用建设提供强有力的底层技术架构支撑,助力高校信息化建设向服务化、个性化与智慧化转型。建立高校大数据应用系统,帮助学习提升教学管理水平,提供决策支撑。为高校提供包括软硬件资源、课程课件、培养计划在内的完整成体系的大数据人才培养方案。基于H3CDataEngine实施规划基础环境我司提供了测试所需的包括软硬件设备,清单如下:硬件环境:名称数量配置备注H3CFlexServerR390服务器4台2路6核CPU,64G内存,8*900GSAS硬盘,4*GE网口用于部署Hadoop组件H3CFlexServerR390

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论