大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年

上传人：1*** IP属地：北京上传时间：2024-07-10 格式：DOCX 页数：19 大小：16.19KB 积分：1.2 举报 版权申诉

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年_第2页

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年_第3页

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年_第4页

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年_第5页

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据基础与应用_北京理工大学中国大学mooc课后章节答案期末考试题库2023年大数据的特性不包括

答案:

分布地域广

Kafka是一个高吞吐、分布式、基于发布订阅的消息系统，利用Kafka技术可在廉价PCServer上搭建起大规模消息系统。

答案:

正确

网络和层次化数据可视化的主要技术有力导图和TreeMap。

答案:

正确

如下关于大数据分析流程的哪一项是正确的？

答案:

数据采集、数据清洗、数据管理、数据分析、数据呈现

大数据分析与传统的数据分析的区别主要在于：

答案:

大数据分析的对象是大规模类型多样的海量数据，使用的模型较为复杂；而传统数据分析则作用在有限的小规模数据集上，模型较为简单。_传统数据分析主要是描述性分析和诊断性分析，而大数据分析主要是预测性分析。_大数据分析主要是为了发现新的规律和知识，而传统数据分析主要是为了了解正在发生的事件及其原因。

1、大数据主要是由于数据规模巨大、来源分散、格式多样，所以需要新的体系架构、技术、算法和分析方法来对这些数据进行采集、存储和关联分析，以期望能够从中抽取出隐藏的有价值的信息。

答案:

正确

数据科学家主要负责开发、构建、测试和维护系统，比如数据库和大规模处理系统

答案:

错误

大数据分析的目的是从类型多样的海量数据中挖掘出隐藏的有价值的信息。

答案:

正确

大数据分析能够应用在哪些领域？

答案:

交通医疗足球零售天文政治

Hive的数据模型主要包括：

答案:

表（Tables）_桶（Buckets）_分区（Partitions）

NoSQL数据库的主要类型包括：

答案:

图形数据库_键值数据库_文档数据库_列族数据库

下列数据类型中，不属于Python内置数据类型的是：

答案:

dtype

以下不属于高维数据可视化技术的是.

答案:

词云

以下哪个是常见的大数据处理流程.

答案:

数据获取、数据清洗、数据分析、数据可视化

测得一组身高（cm）数据如下：176、165、173、168、176、180、177、168、174、176，则其众数和中位数分别是：

答案:

176,175

数据清洗的方法不包括

答案:

数据可视化

以下哪个不属于分布式文件系统HDFS的特有特性

答案:

随机读写

以下哪种方法不属于预测性（有监督学习）模型

答案:

关联分析

Apriori算法的加速过程依赖于以下哪个策略

答案:

剪枝

Spark是使用以下哪种编程语言实现的？

答案:

Scala

大数据分析与传统数据分析的不同之处在于

答案:

大数据分析是预测性分析

对字符串中某一子串执行replace（）操作后，再次对其进行一次输出，则输出结果与原字符串

答案:

一定相同

请计算下列数据{10,12,16,18,22,35,45,50,90,100}的p=40%的截断均值_____

答案:

过拟合指的是（）

答案:

模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般

决策树的生成由两个阶段组成：_____、______

答案:

判定树构建树剪枝

假设有四个样本分布在坐标系中，已知A区两点分别（2,5）和（1,4），B区（8,1）和（9,2），若使用KNN算法（距离使用欧氏距离【图片】），求M（4,3）属于哪一区？

答案:

以下关于日志采集工具Flume的说法不正确的是：

答案:

Flume适用于大量数据的实时数据采集

以下关于数据分发中间件Kafka的说法不正确的是：

答案:

Kafka主要是使用c++、Java语言实现的

以下关于分布式文件系统HDFS的说法不正确的是：

答案:

HDFS支持多用户写入，任意修改文件

HDFS集群中管理文件系统的元数据、负责客户端请求响应的节点是：

答案:

NameNode

HDFS（Hadoop1.X版本中）默认的块大小是：

答案:

64MB

以下关于分布式数据库HBase的说法不正确的是：

答案:

HBase比传统关系数据库系统具有更加丰富的数据类型

已知p=np.arange(20).reshape((4,5))，则p[3][2]的值是。

答案:

HBase中分布式存储和负载均衡的最小单元是：

答案:

Region

以下关于数据仓库Hive的说法不正确的是：

答案:

Hive能够在大规模数据集上实现低延迟快速的查询

大数据分析技术可以应用于哪些行业.

答案:

其他全是

峰度是数据分布偏斜程度的测度。

答案:

错误

过拟合的解决方法有（）

答案:

增大数据集_交叉检验_正则化_特征选择

以下属于k-means算法的基本步骤的是（）

答案:

将数据集中全部元素按照新的中心重新聚类_从数据集中随机取k个对象，作为k个簇的初始聚类中心_根据聚类结果，更新k个簇的中心，计算方法是取簇中所有对象各自维度的算术平均数_计算剩下的对象到k个簇中心的相似度，将这些对象分别划分到相似度最高的簇

数据可视化有哪几种（）

答案:

文本数据可视化_网络和层次数据可视化_时空数据可视化_高维数据可视化

求众数的函数是（）

答案:

mode（）

假设d是一个DataFrame类型对象，其中包含name和age两列100行数据。则下列表达式中，错误的是.

答案:

d[2,’name’]

KNN算法的优点在于不需要指定K的个数。

答案:

错误

“尿布与啤酒”案例属于哪种机器学习的典型任务？

答案:

关联

“推荐系统”场景属于哪种机器学习的典型任务？

答案:

聚类

Python中从网络抓取数据需要使用的库是（）

答案:

requests

使用Pandas处理数据的时候，经常会遇到重复值。下列说法中错误的是

答案:

duplicated()返回值中用1表示重复，0表示不重复

matplotlib提供了图形文本显示，下列函数可以在图像中任意位置显示文字的是

答案:

text()

对于matplotlib的plot方法原型：pyplot.plot([x],y,[format],…)，下列说法错误的是

答案:

x轴数据必须提供

某网站提供形式多样的财经大数据服务：①提供一个第三方python库，调用库中方法可以直接返回DataFrame对象；②提供一个网站api，可以返回json格式字符串；③提供静态页面，内含表格数据；④提供查询功能，使用JavaScript动态脚本生成查询结果。假设上述各种服务样式均可返回所需数据，则从减少编程工作量的角度看，用户应选择的方案编号是

答案:

①

使用json库进行Python的内置数据类型与Json类型转换时，字典dict将被转换为

答案:

object

若想要对某个字符串按照逗号分割为多个字符串，应使用的函数为（）

答案:

split

由于Python的list列表足够强大，完全可以代替ndarry这种数组。

答案:

错误

DataFrame结构为一个二维结构，每一列可以为不同的值类型，但一列之内的类型必须相同。

答案:

正确

使用文件打开命令时，即使使用withas语句也应该调用close()方法显式关闭文件，以保证文件安全。

答案:

错误

词典中的key不能是字典类型，但value可以是字典类型。

答案:

正确

关于异常处理下列说法正确的是（）

答案:

使用try/except(else/finally)捕获异常_发生异常时需要捕获并处理，否则程序会终止执行_异常是一个Python对象，表示一个错误

直接用Python处理CSV文件需要哪几步？（）

答案:

使用split()切割以去除分隔符_使用open函数打开文件_读入数据到列表中并处理行尾的回车符

以下属于中位数特点的是（）

答案:

适合作为顺序数据的集中趋势测度值_数据分布偏斜程度较大时应用_不受极端值影响

Numpy的Series对象在进行运算时，其默认索引值是0到n-1可以参与运算，而自定义索引值不会参与运算。

答案:

错误

用户处理numpy的ndarray对象时，可以改变数组维度。下列描述中错误的是

答案:

resize方法不能修改原andarray数组

1.importsqlite32.fromfakerimportFaker3.f=Faker("zh_cn")4.conn=sqlite3.connect(":memory:")5.c=conn.cursor()6.c.execute("createtableuser(idvarchar(10)primarykey,namevarchar(20))")7.foriinrange(0,100):8.c.execute("insertintouser(id,name)values('{}','{}')".format(i,()))9.c.execute("select*fromuser")10.result=c.fetchall()11.print(len(result))上述代码执行的结果是？

答案:

100

K-means算法属于分类算法。

答案:

错误

用python处理本机文件时，可以使用glob完成文件查找功能。下列有关glob的说法中，错误的是

答案:

glob为内置库，无需import即可使用

1.n1={'a':1,'b':2}2.n2=n13.n1['a']=54.s=n1['a']+n2['a']5.print(s)代码的结果是？

答案:

1.m=[1,2,[3]]2.n=m[:]3.n[1]=44.n[2][0]=55.print(m)代码的执行结果是？

答案:

[1,2,[5]]

Python代码：r=5+"5"的执行结果是

答案:

报错

机器学习的任务类型有（）

答案:

强化学习_无监督学习_有监督学习

文本数据可视化目的是（）

答案:

理解一个文档_将内容相似的文档分组_找出文档或文档集中最重要的信息并用简洁连贯的短文进行表示

“垃圾邮件的处理”场景属于哪种机器学习的典型任务？

答案:

分类

方差与标准差的关系是（）

答案:

方差就是标准差的平方

“二手车价格预测”场景属于哪种机器学习的典型任务？

答案:

回归

依据下面两组数据，分别计算两组年收入数据的方差。第一组：99个年收入10万的人和1个年收入1000万的人，第二组：60个年收入10万的人和40个年收入34.75万的人。

答案:

9801148.5

以下属于数据分析流程的是

答案:

数据分析_数据清洗_数据呈现_数据获取

以下属于旅游大数据分析流程的是（）

答案:

数据抓取_数据去重_数据清洗_数据分析

决策树学习的目标是（）

答案:

根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类

请计算下列数据{1,3,7,9,0,3,5}的中列数。

答案:

4.5

请计算下列数据{10,12,13,14,25,30,40,50,90,100}的p=40%的截断均值。（保留2位小数）

答案:

28.67

已知9个家庭的人均月收入数据分别为：1500、750、780、1080、850、960、2000、1250、1630，请计算该组数据的四分位数。（请使用较准确的位置确定方法。）

答案:

8151565

偏度系数在0.5~1或-1~-0.5之间被称为高度偏态分布。

答案:

错误

数据工程师的主要工作职责是整理和组织数据，进行描述性统计，分析开发潜在的价值，构建模型解决商业问题。

答案:

错误

已知10个家庭的人均月收入数据分别为：660、750、780、850、960、1080、1250、1500、1630、2000，请计算该组数据的中位数。

答案:

1020

在偏态分布时，用（）更加具有实际意义。

答案:

中位数

预测降雨量属于机器学习中的回归任务的应用场景。

答案:

正确

某组数据的峰态系数小于0，则并表明该组数据为扁平分布或者平峰分布。

答案:

正确

偏度是数据分布扁平程度的测度。

答案:

错误

如下关于数据分析框架的流程，哪一项是正确的？

答案:

业务理解、数据理解、数据准备、建立模型、模型评估

使用matplotlib绘制多图时，可以使用subplots和subplot方法。如：1.fig,ax=subplot(rows,cols)

答案:

错误

当在DataFrame中试图补全空值时，可以使用fillna，但该方法只能为整个DataFrame设置相同的补全值。

答案:

错误

使用requests库爬取回来的字符串数据，可以加载到BeautifulSoup库中，形成一个树状的HTML页面结构，供用户检索使用。

答案:

正确

语句json.dumps({'name':'David','age':20})将一个Python对象转为一个J

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年

文档简介

温馨提示

最新文档

评论

大数据基础与应用-北京理工大学中国大学mooc课后章节答案期末考试题库2023年

文档简介

温馨提示

最新文档

评论

相关文档