南开大学2019年9月大数据导论期末考试答案_第1页
南开大学2019年9月大数据导论期末考试答案_第2页
南开大学2019年9月大数据导论期末考试答案_第3页
南开大学2019年9月大数据导论期末考试答案_第4页
南开大学2019年9月大数据导论期末考试答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南开大学2019年9月大数据导论期末考试答案大数据导论一、单选12345678910CAAACDCDAD二、不定项12345678910ABCDACABABDABCDABCBCDACDACBCD三、名词解释1.数据变换在对数据进行统计分析时,要求数据必须满足一定的条件,如在方差分析时,要求试验误差具有独立性、无偏性、方差齐性和正态性二但在实际分析中,独立性、无偏性比较容易满足,方差齐性在大多数情况下能满足。正态性有时不能满足。有时若将数据经过适当的转换,如平方根转换、对数转换、平方根反正弦转换,则可以使数据满足方差分析的要求。所进行的此种数据转换,称为数据变换。2.数据仓库William H.

2、 Inmon在1992年出版Building the Data Warehouse一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得到大规模应用的序幕。在该书中,将数据仓库定义为:“一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,用于支持管理决策。3.大数据分析大数据分析是大数据理念与方法的核心,是指对海量增长快速、内容真实、类型多样的数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。4.RDD弹性分布式数

3、据集RDD弹性分布式数据集,简单来说,是一种自定义的可并行数据容器,可以存放任意类型的数据。弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息(Spark中称为“血统”)重构它:分布式指的是能对其进行并行的操作。除了这两点,它还能通过persist或者cache函数被缓存在内存里或磁盘中,共享给其他计算机,可以避免Hadoop那样存取带来的开销。四、简答题1. 大数据处理的关键技术都有哪些?并做简要描述。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。1).数据采集,又称数据获取,是大数据生命周

4、期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。2).数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换、归约等并最终加载到数据存储的过程。3).数据存储,需要将采集到的数据进行存储管理,建立相应的数据库。4).数据计算处理。单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算平台。5).数据分析与挖掘,是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。6).大数据可视化技术,可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通

5、过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户,供其分析使用。2. 解释为什么要进行数据预处理。高质量的数据是能够满足应用需求的数据。数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。1)不完整数据的出现可能有多种原因:重要的信息并非总是可以得到、用户输入时的遗漏、用户理解错误导致相关数据没有记录、设备故障导致的输入缺失、记录中不一致数据的删除、记录历史或被修改的数据被忽略、缺失的数据,特别是某些属性缺失值的元组。2)不正确数据的出现原因有:收集数据的设备出现故障、人为或计算机内部错误在数据输入时出现、数据传输中的错误也可能出现、出于个人隐

6、私考虑,用户故意向强制输入字段输入不正确的信息。3)不一致数据,如命名约定或所用的数据代码不一致、输入字段(如日期)的格式不一致等。4)时效性:数据更新不及时对数据质量产生负面影响。5)可信性反映了有多少数据是用户信赖的。6)可解释性反映了数据是否容易被理解。以上因素影响数据质量,低质量的数据将导致低质量的挖掘效果,因此需要对数据进行预处理。3. 存储虚拟化技术有哪几个实施层次,分别叙述这几个层次的特点。根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化。1)基于主机虚拟化。基于主机的虚拟化存储的核心技术是,通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号,从而把多个物理磁盘阵列映射成一个统一的虚拟逻辑块,来进行存储虚拟化的控制和管理。2)基于存储设备虚拟化。基于存储设备虚拟化技术依赖于提供相关功能的存储设备的阵列控制器模块,常见于高端存储设备,其主要应用针对异构的SAN存储构架。3)基于存储网络虚拟化。基于存储网络虚拟化技术的核心是在存储区域网中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现的。4.请分析大数据未来的发展趋势。1. 大数据从概念化走向价值化2. 大数据安全与隐私越来越重要3. 大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论