版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教育大数据之数据集成系统
一个风雨交加的晚上,领导把我拉到会议室说:老影啊,公司接到一个
项目,需要在3个月里完成一个大数据平台的开发,用于项目的交付,
这个任务交给你了,加油搞!此刻的我:搞?搞事情啊!由此我开始了
数据平台的“闯关之路",遇到的第一个boss就是数据集成系统……
01什么是数据集成?
百科里的解释是:把不同来源、格式、特点性质的数据在逻辑上或物理
上有机地集中,从而为企业提供全面的数据共享;通俗讲就是把分散在
各个系统中的各种类型的数据统一汇聚起来,主要体现在一个"集"字。
而数据集成系统就是提供数据集成能力的平台,是一站式解决异构数据
存储互通,消除数据孤岛的同步平台,为大数据各系统和业务方提供数
据集成的高效通道。
拿现实中的实例类比来说,数据集成就好比把各种粮食通过不同的管道
灌输到一个大粮仓中,这些管道就是数据集成系统,我们可以支持接入
各式各样的粮食,小麦、玉米、大豆等等,同时支持在这些管道中加一
些滤网,比如在大豆的管道中加上5mm的滤网,此时从大豆管道过来
的粮食只有5mm以下的大豆,这就相当于数据集成系统中的数据过滤
功能;这个粮仓相当于集成目的,我们把数据集成进来之后存储在这里,
供其他各方消费。
02教育为什么要做数据集成?
1.数据大爆炸
现在是一个信息大爆炸时代,互联网的高速发展、迅速普及,让信息无
处不在、无孔不入,每天在我们所生活在的这个世界出现了大量的信息,
教育场景下也不例外,随着各种信息化系统的涌入,信息以空前的速度
增长,教育从业者体验着信息时代便捷的同时,也给他们带来了问题和
"副作用",从浩如烟海的信息海洋中迅速而准确地获取他们最需要的
信息,变得非常困难。
2.数据来源多样化
随着《教育信息化2.0行动计划》的提出,教学过程中的信息化系统越
来越多,比如作业系统、考试系统、选课系统、智慧课堂等等,每个系
统都会产生大量的数据,存储在各自的数据库中,如果系统的服务商不
同,可能数据的格式也不一样,致使教育场景下的数据越来越多,越来
越难以管理。
3.数据集不同结构
教育场景下的数据集可能是结构化的、半结构化的,甚至非结构化的;
比如:考试系统中的数据是结构化的,评价系统中的数据是半结构化的,
课堂实录中的数据是非结构化的;不同结构的数据需要整合成统一的结
构才能够进行统计和分析。
4.数据冗余
数据中有很多冗余、错误、敏感数据,如果不进行数据清洗,会影响数
据分析的效率和结果;在这种情况下需要我们配置统一的标准,对数据
进行简单的处理,以便于后续进行统计分析。
03数据集成系统对教育的价值是什么?
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,按照科学
的教育评价准则,对教学数据进行科学的统计分析,提供有价值的教学
质量测评与分析数据,实现对教育活动,教育过程和教育结果的价值评
判,为提高教育质量,教育决策以及学校改进日常教学方法提供科学的
依据,实现教育管理的智能化,提升教育管理与服务水平。
数据集成系统作为底层基础支撑性服务,是大数据系统的核心组成部分。
通过提供数据集成能力,将教育各部门和来自互联网的结构化和非结构
化的数据进行统一的汇聚接入,存储到大数据存储组件,并支持数据的
预处理,为大数据系统提供原始数据支撑。
04数据集成系统怎么做?
1.建设原则
数据采集系统针对实际项目中复杂的、异构的数据环境,实现对多种数
据源的集成,支持的关系数据库有Oracle、MySQL、Sqlserver等,
支持的文件类型有txt文件、csv文件、excel文件等,支持的接口类型
有webservice接口、http接口、socket接口等。
对于不同的大数据存储需求,实现对多种大数据存储组件的支持,支持
的大数据存储组件包括、、、等。
HDFSHBaseHiveSolrsElasticserach
针对数据的预处理需求,实现对数据的清洗、转换、标准化等预处理的
支持,并且支持清洗规则、转换规则的用户自定义,以及清洗、转换、
导入流程的用户自定义。
在数据采集系统中,各类功能点模块化、组件化,便于步骤独立,保证
系统内部模块自治,同时便于多种步骤、方法的组合应用。
简化用户操作,通过图形化的配置方式,简单,灵活,使得用户无需过
分关心数据库的各种内部细节,而专注于功能。
2.数据集成信息框架
(
任务执行
数据故据处理
清洗转操
组件Is组H件
数据集成信息流
3.功能结构
为了快速实现数据集成系统,满足后续项目交付,经过和研发大佬的多
次沟通,优先实现为业务提供数据集成的能力的数据源管理和集成任务
管理。明确了第一版需求,只要包含数据源管理和集成任务管理就可以
支持项目交付,因此功能结构设计如下:
集成任务管理
-----------------------
新增数据源数据集成
批■删除\/
统辑数据源管理
--碘------/--
删除/
数据集成系统功能结构图
4.建设内容
1)数据源管理
数据源模块主要管理平台支持的数据组件的基础信息,包含各种数据组
件的新增,配置和管理,如关系型数据库的数据库IP,端口,访问信息
等。这里大家可以理解为一个中间层,先通过数据抽取组件将各系统数
据抽取到这里,以备后续集成任务管理模块的调用。
在这里可以对数据源进行增删改查,前提是需要和数据来源方沟通好,
需要提供数据库IP相关信息,下方是页面示例:
□数据集成系统
0哂西
|o数福源名称:诩如\数据源类型:全部
数据源名悔数据源类暨描建
1testMySQL
2
3
4
5
6
7
8
9
10
共15条
数据源管理列表
2)集成任务管理
当用户创建好数据源之后,需要有一个模块支持用户创建集成任务,相
当于上文中讲到的,上游的所有粮食都准备好了,需要我们提供搭建管
道的地方,让用户把所有的管道搭起来,然后把各种粮食都汇聚到一起。
此时集成任务管理模块诞生了,这个模块下主要对数据集成的任务进行
统一的管理,支持用户对数据集成任务进行增删改查。
①操作列表功能
1.上线:集成任务完成创建状态默认为未上线,此时用户可将集成
任务上线,上线为就绪状态;
2.运行:上线状态下的任务支持运行,运行自动调用任务执行组件,
开始数据集成;
3.下线:已上线的任务支持下线;
4.删除:未上线和已下线的任务支持删除;
5.编辑:未上线和已下线的任务支持编辑。
□数据集成平台
攀粒集成任努
|0集成任务
0数据源任务名称:请输入接口类型:全部▼状态:全部
任务名称描述接口类暨状态创曲人前
1任和政冤匿未上线admin202M2
2已上线admin2021-12
3已上线admin2021-12
4已上线admin2021-12
5已上线admin20232
6已上线admin2021-12
7已上线admin2021-12
8已上线admin2021-12
9已上线admin2021-12
10已下线admin2021-12
共15条1123…10
数据集成任务列表
②任务运行
1.集成任务创建好之后,如果需要周期性的拉取数据,这时候需要
支持进行例行周期配置,支持用户配置定时任务;
2.同时支持用户进行失败策略、任务执行优先级等相关参数的配置。
3)新增集成任务
为了方便用户填写,支持用户选择不同的数据源类型,数据接口类型不
同,需要配置的参数信息也不同;但是总体来说数据集成主要分为三步:
1.数据接入:回答数据从哪来的问题;
2.数据处理:回答对数据要做什么的问题;
3.数据输出:回答数据要到哪去的问题。
下方以将第三方数据库数据集成到hive中为例举例说明。选择数据库
之后,页面进入数据集成任务配置页,三个步骤依次如下:
①数据接入
主要配置数据源相关信息,需要用户填写数据源表相关信息:
1.数据源:数据集群相关信息;
2.数据库:源数据存储数据库;
3.是否分表:如果分表存储需要从多个表抽取数据;
4.表名:源数据所在表名;
5.数据归属产品/系统这部分数据在目录管理系统维护这里直接引用;
6.数据预览:支持用户对所选表进行预览,查看数据格式。
□数据集成平台
任务详情
*集成任务_______________________
、敢据接入
数据源
I基就信息
・任务名称:请输入
任务描述:谓输入
I选择数据源
•数据源:试选撵,
•数据库:谓选择・
•是否分表:0是@否—
如果选掾分表,调输入表前境.无需用表后维
•表名:话选择▼
•数据归属产品/系统:谓选择”
下一步
数据接入
②数据处理
到在数据集成过程中会对数据进行预处理,考虑到后续的扩展性,这里
直接将各种处理步骤提炼为公共组件,支持用户自定义选择,第一期可
支持:字段映射过滤、账号匹配、数据脱敏、数据转换;为了节省操作,
数据处理默认以字段映射过滤开始,自动选择一项,用户可直接点击下
一步。
回数据集成平台
P■任务详情
*集成任务
2、敢密处
*数据源
|字段映射过滤
字段映射过浦
源头裳目标表
字段名字段类型揖作字段名
stujdvarcharslu_id
gradeJdvafchatgradeJd
class_klvarcharcla$s_id
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Tiamo-basical-configuration参考资料说明
- 烧伤患者的皮肤护理
- 医院护理投诉处理的满意度管理
- 泌尿系统疾病病人的护理
- 妇科肿瘤的早期发现与护理
- 老年患者的护理需求
- 消防安全汉字创意设计
- 泵车队长面试技巧
- 火腿销售技巧话术
- 山东威海一模试卷及答案
- 法律服务行业数字化转型与2025年挑战与机遇报告
- 公司投标知识培训内容课件
- 外墙真石漆专项施工方案
- 信息安全供应商培训课件
- 七年级数学数轴上动点应用题
- 自主导航移动机器人 (AMR) 产业发展蓝皮书 (2023 版)-部分1
- 典型事故与应急救援案例分析
- 数字乡村综合解决方案
- 猪肉推广活动方案
- 电工职业道德课件教学
- 第十四届全国交通运输行业“大象科技杯”城市轨道交通行车调度员(职工组)理论知识竞赛题库(1400道)
评论
0/150
提交评论