教育大数据治理平台整体解决方案_第1页
教育大数据治理平台整体解决方案_第2页
教育大数据治理平台整体解决方案_第3页
教育大数据治理平台整体解决方案_第4页
教育大数据治理平台整体解决方案_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、教育大数据治理平台整体解决方案 TOC o 1-5 h z HYPERLINK l bookmark2 o Current Document 前言 2 HYPERLINK l bookmark4 o Current Document 平台概述 3 HYPERLINK l bookmark6 o Current Document 平台系统架构 5 HYPERLINK l bookmark8 o Current Document 硬件需求 9一前言针对国内目前教育智慧化校园中存在的信息孤岛问题。着眼国 家产业技术创新需求,集聚科技创新要素,开发教育大数据治理 平台。该平台着力解决各教育信息孤岛问题

2、,通过对教育各系统 数据的整合、分析、挖掘,为教育提供精准的辅助决策数据和分 析报告。开发目标包括:海量、多样的教育大数据的采集、清洗、 计算与分析,海量教育大数据的动态图表与可视化报告以及教育 大数据通过人工智能手段进行数据挖掘的技术。二平台概述平台的主要作用海量、多样的教育大数据的采集、清洗、计算与分析随着教育信息化的迅猛发展,信息孤岛的问题日益严峻起来。 目前教育各信息化系统彼此独立,数据存储方式和数据类型多样化, 主要有DBMS数据库、NOSQL数据库、JSON格式文件、EXCEL文 件、TXT文件等,另外还包括一些消息队列、日志等实时性数据,数 据量大、冗余多、存在脏数据且种类多样,

3、还有实时分析等的需求, 这就需要采用现代大数据技术进行采集、清洗和计算。数据采集使用 Sqoop、Flume、Kafa、Kettle等大数据工具,可以对接前教育各信息 系统的各种数据源,以及实时采集消息队列和日志等数据。通过 Python、Hive等对数据进行清洗,去除冗余以及脏数据。使用Kylin、 Spark集群进行数据的处理和计算。使用HDFS、HBase进行处理结果 的保存。海量教育大数据可视化图表的展示与报表基于Hadoop大数据技术栈进行进行数据的计算和分析后,通 过Web JavaScript、VUE、JQuery、EChart等前端技术进行数据的动 态图表的绘制与展示以及图表的

4、可订制化,并且可以动态生成可视化 报表。教育大数据数据挖掘的技术大数据的数据挖掘技术是以机器学习和深度学习为基础的。依据教育大数据计算特点,设计“存储计算挖掘”一体化的教育 大数据框架,充分利用集群的多层次异构并行计算能力,分别从 集群层面、多核并行层面和GPU并行层面等实现计算的并行加速, 协同完成大规模计算任务;采用MapReduce、RDD等高性能实现 方法,结合数据的局部性原理,实现基于“存储计算”一体化集群 环境的任务划分与分配策略;通过机器学习、深度学习实现数据 的挖掘与分析,从数据操作底层为多核并行和GPU高性能计算的 实施提供支持,为教育大数据计算效率的提高奠定基础。从而推 动

5、教育向数据决策化发展。平台的主要服务能力平台主要从学生、学校、教师三个维度的数据进行数据的分析高校大数据治理T台13空总匕匕官:上出也比tr不小三# T:-; .飞I虻 科赚脸 片,小WRr: K V 1因世:K ?a:世:k 才1喈据冲 f 训T:世:K翻不完台Ui鼻 匚:”:白才 1,一土,. 物的K梆测 打了日咐誓和挖掘,从而为学校提供全方位的辅助决策支持。一为三叼 衅比坳忻 一方I 王,中手圻 语:七,听 才:: 圻 .寸听 i-7T7-r:|彳由京西,听 i - n 班三平台系统架构平台系统架构平台系统整体架构包括大数据处理,数据挖掘,硬件环境, 客户端等四个部分。其中大数据部分构成

6、整个治理平台的基 础,硬件和软件系统构成平台的容器,客户端是平台的出口。首户制web移动慢落业务系统架构在集群硬件环境支持下,使用微服务架构+SpringCloud技 术以及docker+kubernetes等技术实现一键布署。各微服务支 撑教育大数据的所有业务场景、功能以及展示、报表所需要的 资源;微服务通过Restful WebAPI实现与客户终端的连接,微 服务以这种接口形式实现服务与客户端的分离,从而可以灵活 的实现多终端的接入以及为第三方提供服务能力;SpringCloud 为微服务提供安全、熔断、负载均衡、治理等能力。Docker+Kubernetes实现微服务的管理与发布从而实现

7、所有微 服务的一键发布。API同久数相3. 大数据系统架构Docker-i-kubernetesSpring Cloud低户微眼若帐户微服务停电蹄p匚僦大数据系统框架从数据采集到数据处理、分析、计算,使用 了 hadoop技术栈中大部分技术。可以采集从结构化到非结 构化数据以及syslog、消息队列、文本数据、网页内容等,几乎涵盖了目前行业内,存在的大多数数据类型。能够处理 离线和实时流数据,数据量可达TB级别,实时处理千万条 数据可达到秒级或亚秒级,且所用设备量较少。现在离线处 理数据每年是40T-90T左右;实时流数据,日处理数据达 4500万条、100G左右。mpalcSpark SQL

8、HIVE hSQL实时计算S to rm/S p a rkStre aming离缆博Kylin/MapReduce4. 硬件架构整个硬件结构共包括大数据采集、清洗、计算用的x86架 构服务器集群和机器学习与深度学习使用的GPU服务器集群, 服务器将统一调度系统集群平台的资源、数据、软件、服务、 数据挖掘等能力,并通过RESTful标准服务提供给客户端。客户端又根据具体应用的形式、目的的不同,分为PC终端、移动终端、大屏展示终端等多种形式。GPU服务揩篥器III而校内网交换讥Retort 2四硬件需求基础需求目前大数据治理平台分为服务部分、大数据的采集、处理部分和 分析与挖掘部分三大块,对于三大部分所需求的硬件也是不同的。 服务和大数据部分都可以采用普通的x86架构的服务器;分析与 挖掘部分需采用GPU服务器。服务部分:可以采用普通的x86架构的四核单CPU、8G-16G内 存服务器,按服务量的大小增减服务器;按目前服务2万人的学 校,使用服务器2-4台左右。按数据量数据量,主要是指大数据部分,所需要处理的数据量。大数据部分:可以采用普通的x86架构的八核单CPU或双CPU、64内存服务器,按数据量的大小增减服务器。按目前服 务2万人的学校,使用服务器8-15台左右。数据分析与挖掘部分:必须采用2片GPU的GPU服务器,按 分析数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论