大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学_第1页
大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学_第2页
大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学_第3页
大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学_第4页
大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据应用基础知到智慧树章节测试课后答案2024年秋山东建筑大学第一章单元测试

数据计量单位中,T是G的()倍。

A:8B:1000C:16D:1024

答案:1024一般来说,科学实验产生的数据体量较小,质量不高。()

A:对B:错

答案:错以下行为正确的是()。

A:及时删除不明电子邮件的附件B:使用国产替换软件C:使用简单的密码或长时间不修改密码D:使用破解软件,以节约成本

答案:及时删除不明电子邮件的附件;使用国产替换软件一般来说,和PaaS模式的云服务相比,使用SaaS云服务,用户需要自行管理更多的资源。()

A:错B:对

答案:错为了快速发展数字经济,可以允许一些平台收集用户的隐私信息。()

A:错B:对

答案:错解决数据伦理问题,最根本的是企业或组织坚守伦理底线,践行科技向善的原则。()

A:对B:错

答案:对

第二章单元测试

下列调查适宜用调查问卷的是()

A:对你所在班级的学生最喜欢的体育活动进行调查B:对上海市常住人口家庭收入情况进行调查C:电商平台调查某商品的用户使用感受D:检测某城市的空气质量

答案:对你所在班级的学生最喜欢的体育活动进行调查;对上海市常住人口家庭收入情况进行调查下列选项中,获取数据的直接来源的方法有()

A:从《人口普查资料汇编》当中获取的数据B:某大学、科研机构发布的研究数据C:问卷调查D:某企业发布的经营报表数据E:实验检测获取数据

答案:问卷调查;实验检测获取数据网络爬虫能够爬取互联网上的任何数据。()

A:错B:对

答案:错Response类对象的下列属性中,用于表示HTML代码的是()

A:textB:status_codeC:encodingD:content

答案:text运行以下程序,结果是()

A:TrueFalseTrueB:FalseTrueTrueC:TrueTrueFalseD:TrueTrueTrue

答案:TrueTrueTrue利用八爪鱼采集器采集数据过程中,如果希望只采集满足条件的部分数据,可以尝试通过判断条件功能来完成。()

A:对B:错

答案:对

第三章单元测试

文本文件中的数据的存储结构依赖应用程序,所以文件不适合管理较大规模的数据。()

A:错B:对

答案:对数据库管理系统的主要功能包括以下几个方面()

A:管理计算机的硬件资源B:数据操作C:数据库的建立与维护D:数据组织、存储和管理E:数据定义

答案:数据操作;数据库的建立与维护;数据组织、存储和管理;数据定义大数据时代,数据类型繁多,半结构化和非结构化的数据成为主流数据形式,而NoSQL数据库没有固定的表结构,数据约束也比较宽松,更适合海量的非结构化数据存储。()

A:对B:错

答案:对NoSQL是大数据时代的主流存储方式,可以全面替代传统的关系数据库。()

A:错B:对

答案:错列族数据库的查找速度快、可扩展性强、复杂性低,代表性的软件有HBase、Cassandra等。()

A:对B:错

答案:对

第四章单元测试

现实世界中直接采集到的数据大多是不完整、结构不一致、含噪声的数据,无法直接用于数据分析或挖掘。()

A:错B:对

答案:对数据预处理的目的()

A:抽取精准的数据B:尽可能的简化数据C:调整数据格式D:提高数据质量E:清理“脏”数据

答案:抽取精准的数据;尽可能的简化数据;调整数据格式;提高数据质量;清理“脏”数据数据集成的过程中需要处理的问题有()

A:其余选项都是B:冗余与相关性分析。C:数据冲突和检测D:实体识别

答案:其余选项都是数据归约指数据降维,是从原有的数据中删除不重要或不相关的属性,或者通过对属性进行重组来减少属性的个数。()

A:错B:对

答案:对pandas库中的DataFrame对象的replace方法可以替换指定数据。()

A:错B:对

答案:对

第五章单元测试

Matplotlib中的()模块提供了一系列操作和绘图函数。

A:plotB:rcparamsC:barD:pyplot

答案:pyplot下列参数中调整后显示中文的是()。

A:lines.linewidthB:lines.linestyleC:axes.unicode_minusD:font.sans-serif

答案:font.sans-serif散点图无法反映特征之间的统计关系。()

A:对B:错

答案:错折线图的主要功能是查看因变量y随着自变量x改变的趋势。()

A:对B:错

答案:对在seaborn中要移除图形中的轴线,使用的方法是despine方法。()

A:对B:错

答案:对

第六章单元测试

下面有关回归分析的描述,不正确的是()。

A:回归分析的预测过程是利用得到的模型对新样本进行预测B:回归分析包括学习过程和预测过程C:回归分析属于无监督学习D:回归分析的学习过程是利用有标签的训练数据集学习得到一个模型

答案:回归分析属于无监督学习关于下面这段代码,描述不正确的是()。

A:第7行代码用于查看所估计回归方程的判定系数R方B:第2行代码建立了一个名为regr的线性回归模型C:第6行代码用于对所建立的回归模型进行参数估计D:第8行代码用于查看所估计回归方程的回归参数

答案:第7行代码用于查看所估计回归方程的判定系数R方下面有关分类的描述,正确的是()。

A:分类问题的因变量是类别变量B:分类是一种无监督学习C:分类包括学习过程和分类过程D:分类是一种监督学习

答案:分类问题的因变量是类别变量;分类包括学习过程和分类过程;分类是一种监督学习利用逻辑回归模型进行类别预测的方法是()。

A:LinearRegression.predict()B:LogisticRegression.predict()C:LogisticRegression.fit()D:LogisticRegression.score()

答案:LogisticRegression.predict()以下关于聚类的描述,正确的是()

A:聚类的数据集包含特征变量和类别变量B:决策树方法是一种聚类方法C:聚类的数据集只包含特征变量不包含类别变量D:聚类属于监督学习

答案:聚类的数据集只包含特征变量不包含类别变量在K-means聚类过程中,计算不同K值时的内平方和WWS如下表所示,请问最优K值是()。

K值WWS值162.8212.339.449.359.269.1

A:3B:2C:4D:1

答案:3有关K-means聚类命令sklearn.cluster.KMeans(),以下说法不正确的是()。

A:可通过属性labels_查看聚类之后的样本点分类B:可通过属性cluster_centers_查看聚类之后的质心坐标C:用于计算K-means聚类的方法是fit()D:可通过参数n_clusters指定初始聚类中心位置

答案:可通过参数n_clusters指定初始聚类中心位置关于下面这段代码,描述不正确的是()。

A:sklearn.model_selection.train_test_split()方法可用于将数据集分为训练集和测试集两部分B:x_test,y_test分别是指测试集的自变量和因变量C:训练集和测试集的比例为0.25:0.75D:x_train,y_train分别是指训练集的自变量和因变量

答案:训练集和测试集的比例为0.25:0.75有关文本分析的描述,不正确的是()。

A:词性标注是指为词语标注相应词性的过程B:去除停用词是指去除文本中包含信息较多、使用频率又很高的词C:一般而言,进行文本分析的起始步骤是词语分词D:词干提取可用于英文文本分析

答案:去除停用词是指去除文本中包含信息较多、使用频率又很高的词可用于英文分词的方法是()。

A:nltk.word_tokenize()B:stopwords.words()C:nltk.FreDist()D:nltk.pos_tag()

答案:nltk.word_tokenize()

第七章单元测试

更改一个文件权限的命令是()。

A:chmodB:catC:attribD:chown

答案:chmodLinux中权限最大的账户是()。

A:adminB:guestC:superD:root

答案:rootLinux的命令由连续的字符组成,命令和参数之间可以没有空格。()

A:对B:错

答案:错Linux操作系统的主要特点是()。

A:安全B:多用户多任务C:免费D:开源

答案:安全;多用户多任务;免费;开源从目录/home/glxy/app切换到目录/home/glxy/hadoop的相对路径是()

A:../hadoopB:hadoopC:./hadoopD:

/home/glxy/hadoop

答案:../hadoop

第八章单元测试

一种典型的数据处理使用模式是:首先使用()工具对原始海量数据进行分析,产生较小规模的数据集,再使用()工具对该数据集进行快速查询,获取最终结果。

A:批处理、流处理B:流处理、批处理C:批处理、交互式处理D:交互式处理、批处理

答案:批处理、交互式处理大数据管理平台技术的发展历程为()。

A:流处理阶段B:内存计算阶段C:初始阶段D:开源阶段

答案:流处理阶段;内存计算阶段;初始阶段;开源阶段常用的流数据处理技术有()。

A:HadoopB:SparkStreamingC:FlinkD:Strom

答案:SparkStreaming;Flink;Strom下述哪些技术不属于开源技术()。

A:SparkB:GFSC:HadoopD:Flink

答案:GFS大数据管理平台技术可以应用到下述哪些领域场景中()。

A:互联网B:医疗C:电信D:交通

答案:互联网;医疗;电信;交通

第九章单元测试

在HDFS中负责保存文件数据的节点被称为()。

A:NodeManagerB:DataNodeC:SecondaryNameNodeD:NameNode

答案:DataNode下面与HDFS类似的框架是()?

A:FAT32B:EXT3C:GFSD:NTFS

答案:GFS下面哪个程序负责HDFS数据存储()。

A:NameNodeB:DatanodeC:secondaryNameNodeD:Jobtracker

答案:DatanodeHDFS中的NameNode节点用于存放元数据,数据内容包含()。

A:客户端硬件配置数据B:每个数据块的内容C:文件与数据块的映射表D:数据块与数据节点的映射表

答案:文件与数据块的映射表;数据块与数据节点的映射表HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行。()

A:对B:错

答案:错

第十章单元测试

Spark生态系统支持批处理、交互式处理和流处理。()

A:错B:对

答案:对以下哪个组件不属于Spark生态(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论