大数据课堂测验2_第1页
大数据课堂测验2_第2页
大数据课堂测验2_第3页
大数据课堂测验2_第4页
大数据课堂测验2_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——大数据课堂测验21、简述大数据的来源与数据类型

大数据的来源十分多,如信息管理系统、网络信息系统、物联网系统、科学试验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段

(1)被动式生成数据(2)主动式生成数据(3)感知式生成数据3、大数据处理的基本流程

1.数据抽取与集成2.数据分析3.数据解释4、大数据的特征

4V1OVolume,Variety,Value,Velocity,On-Line5、适合大数据的四层堆栈式技术架构

6、大数据的整体技术和关键技术

大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预计和结果浮现等。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据浮现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。7、新一代数据体系的分类

新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义

临床试验电子数据采集(ElectricDataCapture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的基本功能

数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC系统的优点

(1)提高了临床研究的效率,缩短了临床研究周期(2)通过规律检查提高了数据质量

1第页(共3页)

(3)对研究质量的监测更加便利11、大数据采集的数据来源

大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块

网络爬虫(Spider)、数据处理(DataProcess)、URL队列(URLQueue)和数据(Data)。13、大数据集成

在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分派给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。14、数据集成时应解决的问题

数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。

15、网络数据处理的四个模块及主要功能

分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据,如图2-17所示。这四个模块的主要功能如下。

1)分词:对抓取到的网页内容进行切词处理。2)排重:对众多的网页内容进行排重。

3)整合:对不同来源的数据内容进行格式上的整合。4)数据:包含两方面的数据,SpiderData和DpData。16、大数据建模概念

大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。17、大数据分析模式分类

根据实时性,可分为在线分析和离线分析根据数据规模,可分为内存级、BI级和海量级根据算法繁杂度的分类18、大数据建模流程

定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律

以业务目标作为实现目标业务知识是每一步的核心做好数据预处理

试验对寻觅解决方案是必要的数据中总含有模式

数据挖掘增大对业务的认知预计提高了信息作用能力

大数据建模的价值不在于预计的确凿率模式因业务变化而变化20、数据可视化的概念

数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。

2第页(共3页)

21、数据可视化流程

22、数据可视化工具的特性

1)实时性2)简单操作3)更丰富的浮现4)多种数据集成支持方式23、数据可视化在生物领域中的应用

测序数据可视化分子结构数据可视化关系网络可视化临床数据可视化24、Hadoop优点

1)可扩展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hadoop的核心模块

HDFS、MapReduce、Common及YARN,其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口,YARN可以控制整个集群并管理应用程序向基础计算资源的分派。

26、YARN的基本设计思想

将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分派,而ApplicationMaster则负责单个应用程序的管理。27、Hive

Hive最早是由Facebook设计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。28、HBase

HBase即HadoopDatabase,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。29、Avro

Avro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。30、Chukwa

3第页(共3页)

Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。31、Pig

Pig是一个对大型数据集进行分析和评估的平台。32、Spark原理

Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP试验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。33、Spark的优点

轻量级快速处理支持多语言支持繁杂查询实时的流处理

可以与Hadoop数据整合34、HDFS的设计目标

高效的硬件响应流式数据访问大规模数据集简单的一致性模型

异构软硬件平台间的可移植性35、HDFS架构——解释下图

答案在P107-P108

36、以一个文件FileA(大小100MB)为例,说明HDFS的工作原理。

4第页(共3页)

读操作流程

写操作流程

答案在P109-P11137、HDFS的4类源代码

基础包实体实现包应用包

WebHDFS相关包38、MapReduce

MapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。

5第页(共3页)

39、HDFS接口

远程过程调用接口与客户端相关接口HDFS各服务器间的接口40、HDFS和MapReduce的关系

HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。

MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作,并收集结果。41、MapReduce技术特征

易于使用良好的伸缩性大规模数据处理42、MapReduce工作机制

答案在P116-P11743、MapReduce执行流程

Map(映射)和Reduce(化简)是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。

6第页(共3页)

向MapReduce框架提交一个计算作业时,它会首先进行Split(分片),将File(文件)分派为多个数据片段,保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务,然后分派到不同的结点上去执行,每一个Map任务处理输入数据中的一部分。当Map任务完成后,它会生成一些中间文件,把这些文件重新组织作为Reduce阶段的输入,该过程称为Shuffle(洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。44、Common

Common为Hadoop的其他模块提供了一些常用工具程序包,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务,同时为软件开发提供了API。45、大数据的一致性策略

CAP,即一致性(Consistency)、可用性(Availability)和分区容错性(PartitionTolerance)46、大数据分区技术

通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。47、几种常见的数据分区算法

范围分区列表分区哈希分区

48、分布式环境下的数据缓存技术特点

高性能动态扩展性高可用性易用性

49、NoSQL数据库种类

键值(Key-Value)存储列存储(Column-Oriented)文档(Document-Oriented)存储图形存储(Graph-Oriented)。

7第页(共3页)

50、四种类型NoSQL的特点及典型产品

存储类型键值存储列存储文档存储图形存储特性可以通过键快速查询到值,值无需符合特定格式可存储结构化和半结构化数据,对某些列的高频率查询具有很好的I/O优势数据以文档形式存储,没有固定格式以图形的形式存储数据及数据之间的关系RedisBigtable、Hbase、CassandraCouchDB、MongoDBNeo4J典型工具

51、Bigtable

Bigtable是Google开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。52、Bigtable数据库的架构

答案在P135.

53、Bigtable数据库特点

适合大规模海量数据,PB级数据。分布式、并发数据处理,效率极高。易于扩展,支持动态伸缩。适用于廉价设备。

适合于读操作,不适合写操作。不适用于传统关系型数据库。54、云计算定义

云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络便利的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。55、云计算基本特征

规模经济性强大的虚拟化能力高可靠性高可扩展性通用性强按需服务

8第页(共3页)

价格低廉

支持快速部署业务56、云计算服务模式

基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)是云计算的三种应用服务模式57、云计算部署模式

公有云、私有云和混合云58、虚拟化技术

把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的思路,在IT领域就称为虚拟化技术。59、云计算数据中心的构成

云计算数据中心本质上由云计算平台和云计算服务构成60、云计算安全关键技术

可信访问控制密文检索与处理

数据存在与可使用性证明数据隐私保护虚拟安全技术云资源访问控制可信云计算

61、大数据解决方案系统架构及各层功能

平台层:其中的大数据存储平台提供大数据存储服务,大数据计算平台提供大数据计算服务,多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。

功能层:包括大数据集成、存储、管理和挖掘部分,各部分为大数据存储和挖掘提供相应功能。服务层:基于Web技术和OpenAPI技术提供大数据最终的浮现服务。62、医学大数据的种类

医院医疗大数据

区域卫生信息平台大数据

基于大量人群的医学研究或疾病监测大数据自我量化大数据网络大数据生物信息大数据

63、大数据挖掘与传统数据挖掘方法的区别

样本数量少量数据样本传统数据挖掘大数据挖掘分析与事物相关的所有数据,研究的样本数量趋9第页(共3页)

近于总体数量事物之间的关系追求的目标挖掘方式遵循事物之间的因果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论