大数据分析与应用知到智慧树章节测试课后答案2024年秋西安理工大学

上传人：题*** IP属地：浙江上传时间：2024-12-25 格式：DOCX 页数：23 大小：24.97KB 积分：7.2 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与应用知到智慧树章节测试课后答案2024年秋西安理工大学第一章单元测试

大数据泛指巨量的（）。

A:数组集

B:数据集

C:数字集

D:字符集

答案:数据集

数据分析指的是用适当的（）对收集来的大量数据进行分析，提取有用信息并形成结论。

A:定性与定量方法

B:系统分析方法

C:统计分析方法

D:概率分析方法

答案:统计分析方法

浏览数据这一步骤可以通过对大数据进行（）来实现。

A:分析化

B:可视化

C:简易化

D:流程化

答案:可视化

Gartner将大数据定义为是需要新处理模式才能具有更强的（）以及高增长率和多样化的信息资产。

A:流程优化能力

B:洞察发现力

C:数据处理能力

D:决策力

答案:流程优化能力

；洞察发现力

；决策力

我们通常用“4V”来反映大数据的特点，4V是指（）。

A:Variety

B:Velocity

C:Valid

D:Various

答案:Variety

；Velocity

大数据分析可以应用在那些领域（）。

A:医疗卫生领域

B:交通运输领域

C:农业领域

D:商业领域

答案:医疗卫生领域

；交通运输领域

；农业领域

；商业领域

大数据分析的过程包括（）。

A:数据优化

B:数据理解

C:数据处理

D:数据准备

答案:数据理解

；数据准备

数据只要有足够的规模就可以称为大数据。（）

A:错B:对

答案:对大数据分析是大数据到知识，再到信息的关键步骤。（）

A:错B:对

答案:错大数据分析模型用于描述数据之间的关系。如确定自变量、因变量，进而通过聚类、回归等方法确定其关系。（）

A:错B:对

答案:对

第二章单元测试

数据仓库的定义于哪一年提出（）。

A:1991

B:2015

C:1902

D:2002

答案:1991

符合选择建立数据仓库平台的公认标准的是（）。

A:是否支持串联操作

B:数据库对大数据量的支持能力

C:是否支持对数据库的管理

D:是否提供支持少量数据的数据加载

答案:数据库对大数据量的支持能力

建立数据仓库的首要步骤是（）。

A:数据预处理

B:构建模型

C:数据仓库管理

D:确认主题

答案:确认主题

数据仓库的数据模型进行逻辑建模的分析角度是（）。

A:业务分析

B:经济分析

C:政治分析

D:逻辑分析

答案:业务分析

建立数据仓库的选择平台是（）。

A:维度表

B:建模工具

C:分析工具

D:数据库

答案:建模工具

；分析工具

；数据库

建立数据仓库的步骤是（）。

A:选择平台

B:确认主题

C:数据清洗

D:数据传输

答案:选择平台

；确认主题

；数据清洗

；数据传输

符合多维度数据模型构成的是（）。

A:事实表

B:电子表

C:维度表

D:测量表

答案:事实表

；维度表

属于衡量业务性能指标的是（）。

A:时间

B:销售量

C:地点编号

D:销售额

答案:销售量

；销售额

数据仓库的逻辑数据模型是一维结构的数据视图。（）

A:对B:错

答案:错元数据是对数据仓库中数据的描述信息。（）

A:错B:对

答案:对

第三章单元测试

下列哪项属于随机抽样的缺点？（）

A:抽样方法不具有科学性

B:需要将样本分为不同类别

C:样本不具有代表性

D:样本中个体数量过多，效率低下

答案:样本中个体数量过多，效率低下

整群抽样中将总体各单位归并成若干个（）的集合，成为群，然后以群为单位抽取样本。

A:可以交叉，可以重复

B:可以交叉，互不重复

C:互不交叉，可以重复

D:互不交叉，互不重复

答案:互不交叉，互不重复

数据抽样和过滤的相似之处是它们的目的都是为了减少要处理的数据量。（）

A:错B:对

答案:对以下哪种方法适用于原始数据的取值范围已经确定的情况？（）

A:Z-score标准化

B:反正切函数

C:0-1标准化

D:log函数转换

答案:0-1标准化

数据有那些性质？（）

A:精确性

B:一致性

C:时效性

D:完整性

答案:精确性

；一致性

；时效性

；完整性

数据缺陷有哪些类型？（）

A:缺失数据

B:噪声数据

C:非规范化数据

D:错误数据

答案:缺失数据

；噪声数据

；非规范化数据

先将总体的观察按某一顺序号分为n个部分，再从每一部分各抽取一定数量的观察组成样本，属于哪种抽样方式？（）

A:按比例抽样

B:整群抽样

C:随机抽样

D:系统抽样

答案:系统抽样

数据清洗浪费时间，是没有意义的。（）

A:错B:对

答案:错数据标准化就是为了方便数据的下一步处理，而对数据进行的等比例缩放。（）

A:对B:错

答案:对下列属于逻辑错误清洗的是（）

A:去除不合理值

B:修正矛盾内容

C:去重

D:改正格式错误

答案:去除不合理值

；修正矛盾内容

；去重

第四章单元测试

关于经济计量模型进行预测出现误差的原因，正确的说法是（）。

A:只有系统因素

B:既有随机因素，又有系统因素

C:只有随机因素

D:其他三个选项都不正确

答案:既有随机因素，又有系统因素

在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）。

A:多重共线性

B:异方差性

C:序列相关

D:高拟合优度

答案:多重共线性

Logistic回归系数与优势比OR的关系为（）。

A:β＞0等价于OR＞1

B:β=0等价于OR=1，β＞0等价于OR＞1

C:β＜0等价于OR＜1

D:其他三个选项均正确

答案:其他三个选项均正确Logistic回归可用于（）。

A:其他三个选项均正确B:预测

C:校正混杂因素

D:影响因素分析

答案:其他三个选项均正确Logistic回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛选时可用（）。

A:软件自动筛选的逐步法

B:软件自动筛选的后退法

C:软件自动筛选的前进法

D:应将几个哑变量作为一个因素，整体进出回归方程

答案:应将几个哑变量作为一个因素，整体进出回归方程

在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中，计算得多重决定系数为0.8500，则调整后的多重决定系数为（）。

A:0.8327

B:0.8603

C:0.8655

D:0.8389

答案:0.8327

半对数模型中，参数1的含义是（）。

A:Y关于X的边际变化

B:Y关于X的弹性

C:X的绝对量变化，引起Y的绝对量变化

D:X的相对变化，引起Y的期望值绝对量变化

答案:X的相对变化，引起Y的期望值绝对量变化

回归变差，或回归平方和是指（）。

A:解释变量变动所引起的被解释变量的变差

B:被解释变量的总变差与剩余变差之差

C:被解释变量的回归值与平均值的离差平方和

D:被解释变量的实际值与平均值的离差平方和

答案:解释变量变动所引起的被解释变量的变差

；被解释变量的总变差与剩余变差之差

；被解释变量的回归值与平均值的离差平方和

剩余变差是指（）。

A:被解释变量的变差中，回归方程不能做出解释的部分

B:随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和

C:被解释变量的总变差与回归平方和之差

D:被解释变量的实际值与回归值的离差平方和

答案:被解释变量的变差中，回归方程不能做出解释的部分

；随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和

；被解释变量的总变差与回归平方和之差

；被解释变量的实际值与回归值的离差平方和

参数的估计量具备有效性是指（）。

A:Var()=0

B:为最小

C:Var()为最小

答案:Var()为最小

第五章单元测试

以下不属于数据挖掘软件的是（）

A:Weka；

B:ApacheSpark；

C:SPSSModeler；

D:Knime；

答案:ApacheSpark；

购物篮分析中，数据是以（）的形式呈现

A:布尔变量；

B:自变量；

C:对称二元变量；

D:不对称二元变量；

答案:不对称二元变量；

一个关联规则同时满足最小支持度和最小置信度，我们称之为（）

A:弱规则；

B:简洁规则；

C:强规则；

D:关联规则；

答案:强规则；

在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做（）

A:间接相关；

B:正相关；

C:负相关；

D:直接相关；

答案:负相关；

给定关联规则A-B，意味着：若A发生，B也会发生。（）

A:错B:对

答案:错不满足给定评价度量的关联规则是无趣的（）

A:对B:错

答案:错频繁闭项集可用来无损压缩频繁项集。（）

A:对B:错

答案:对下面购物篮能够提取的最大项集和最小项集的数量是多少（）。ID购买项：1.牛奶，啤酒、2.面包，黄油，牛奶、3.牛奶，尿布，饼干、4.面包，黄油，饼干、5.啤酒，饼干，尿布、6.牛奶，尿布，面包，黄油、7.面包，黄油，尿布、8.啤酒，尿布、9.牛奶，尿布，面包，黄油、10.啤酒，饼干

A:2；

B:1；

C:4；

D:3；

答案:4；

；3；

关联规则的评价度量主要有（）

A:置信度；

B:频繁度；

C:支持度；

D:饱和度；

答案:置信度；

；支持度；

关联分析中表示关联关系的方法主要有（）

A:项集；

B:强关联规则；

C:单项集；

D:关联规则；

答案:项集；

；关联规则；

第六章单元测试

朴素贝叶斯算法是贝叶斯算法中最简单的一个算法，假设它里边的各个类条件是（）。

A:相同的

B:相似的

C:独立的

D:交叉的

答案:独立的

关于朴素贝叶斯算法，下列说法正确的是（）。

A:对数据的缺失值不敏感，所需估计的参数也比较少

B:假设样本各属性之间是相互独立的

C:有着坚实的数学理论基础，分类效果比其他分类器好

D:通过先验概率的结果，对后验概率不断地调整

答案:假设样本各属性之间是相互独立的

随机森林的训练过程分为？（）。

A:生成过程

B:决策过程

C:投票过程

D:生长过程

答案:投票过程

；生长过程

影响随机森林分类性能的主要因素（）。

A:单颗决策树的分类强度

B:森林中决策树的相关度

C:决策树的数量

D:决策树的分类算法

答案:单颗决策树的分类强度

；森林中决策树的相关度

随机森林结合策略有哪些？（）。

A:投票法

B:简单平均法

C:迭代法

D:加权平均法

答案:投票法

；简单平均法

；加权平均法

人工神经网络的结构包括？（）。

A:隐含层

B:输出层

C:隐藏层

D:输入层

答案:隐含层

；输出层

；输入层

单层神经网络有几层？（）。

A:3

B:4

C:1

D:2

答案:2

神经网络的各层之间的初始参数是如何设定的？（）。

A:算法设定

B:随机产生

C:模型规定

D:人为设定

答案:随机产生

深度学习模型有哪些？（）。

A:循环神经网络

B:生成-对抗神经网络

C:卷积神经网络

D:深度神经网络

答案:循环神经网络

；生成-对抗神经网络

；卷积神经网络

；深度神经网络

神经网络模型构思来源于对人脑的模拟。（）

A:错B:对

答案:对

第七章单元测试

聚类分析是将样品或变量按照它们在性质上的什么进行分类的（）。

A:亲疏程度

B:距离

C:簇

D:密度

答案:亲疏程度

哪个方法不是类间距离的度量方法（）。

A:最近距离法

B:最远距离法

C:重心距离

D:欧式距离

答案:欧式距离

闵可夫斯基距离λ可以取哪些值（）。

A:无穷大

B:负数

C:正数

D:其他三个选项均正确

答案:其他三个选项均正确关于聚类分析下列说法正确的是（）。

A:系统聚类属于有监督分类

B:K-means属于无监督分类

C:系统几类并不适合数据量很大的情形

D:通过K-means聚类和系统聚类，可以直接输出分为ｎ类和数值ｎ

答案:K-means属于无监督分类

；系统几类并不适合数据量很大的情形

根据簇之间的关系，聚类分析可以分为（）。

A:重叠聚类

B:划分型聚类

C:指数聚类

D:层次型聚类

答案:重叠聚类

；划分型聚类

；层次型聚类

哪些属性可以通过取值的差来衡量相异度（）。

A:对称属性

B:比率属性

C:非对称属性

D:区间属性

答案:比率属性

；区间属性

聚类与分类一样，具有预测功能。（）

A:对B:错

答案:错K-Means算法需要用初始随机种子点来做，不同起点结果不同，可能导致算法陷入局部最优。（）

A:错B:对

答案:对DBSCAN是基于密度的噪声应用空间聚类。（）

A:错B:对

答案:对紧密度和分离度是聚类分析评价的两个原则。（）

A:错B:对

答案:对

第八章单元测试

待定系数a称为灰色作用量（）。

A:错B:对

答案:错马尔科夫过程是具有马尔科夫性质的离散随机过程。（）。

A:对B:错

答案:对在马尔科夫过程中，在给定当前信息或知识时，过去对于预测未来是有关的。（）。

A:错B:对

答案:错马尔科夫分析法是研究随机事件变化趋势的一种方法。（）。

A:对B:错

答案:对预测分析的基本思路为：列出并分析现有数据-寻找计算手段-得出结论。（）。

A:错B:对

答案:对预测的方法可以分为定性预测方法和定量预测方法。（）。

A:对B:错

答案:对在诸多的灰色模型中，哪种模型最常用？（）。

A:GM(1，1)

B:GM(2，1)

C:GM(1，2)

D:GM(2，2)"

答案:GM(1，1)

马尔科夫性中，n+1时刻的状态的条件概率只依存哪种时刻的状态（）。

A:n+1

B:n

C:n-1

D:n+2

答案:n

以下哪几点是预测分析的关键点（）。

A:数据的数量

B:数据的相关性

C:数据在时间上的持续性

D:数据的全面性

答案:数据的数量

；数据在时间上的持续性

；数据的全面性

预测分析主要对以下哪些方面的作用（）。

A:成本控制

B:自适应管理

C:绩效管理

D:决策管理

答案:成本控制

；自适应管理

；绩效管理

；决策管理

第九章单元测试

基于聚类的离群点检测可以分为几类？（）。

A:两类；

B:三类；

C:四类；

D:五类

答案:两类；

基于聚类的离群点检测有什么缺点？（）。

A:产生的离群点集非常依赖所用的簇的个数；

B:空间复杂度是线性或接近线性的；

C:时间复杂度是线性或接近线性的；

D:可能同时发现簇和离群点；

答案:产生的离群点集非常依赖所用的簇的个数；

基于密度的离群点检测优点是？（）。

A:不会忽视基于簇的离群点的存在

B:可以处理拥有不同密度区域的数据集；

C:参数选择容易；

D:计算的时间复杂度一直很低；

答案:可以处理拥有不同密度区域的数据集；

在基于聚类的离群点检测中，对象是否被认为是离群点可能高度依赖于簇的个数。（）

A:错B:对

答案:对基于聚类的离群点分析方法，在已有聚类结果的基础上，计算量小，效率高，但是它的有效性也非常依赖聚类的结果。（）

A:错B:对

答案:对对于基于原型的聚类，评估对象属于簇的程度主要有两种方法：一是度量对象到簇原型的距离，二是考虑到簇具有不同的密度，可以度量簇到原型的相对距离。（）

A:对B:错

答案:对对于基于距离的离群点分析方法，其基本思想是一个对象如果远离大部分其它对象，那么它是离群的。（）

A:错B:对

答案:对基于距离的离群点分析可以处理多维数据。（）

A:对B:错

答案:对当数据集包含不同密度的区域时，基于距离的离群点检测方法不能很好地识别离群点。（）

A:错B:对

答案:对基于距离的离群点检测方案简单，不必知道数据的分布，计算量大。（）

A:错B:对

答案:错

第十章单元测试

用于提取主题的文本分析方法包括（）。

A:PLDA

B:LSA

C:LDA

D:PLSA

答案:PLDA

；LSA

；LDA

；PLSA

可以通过词汇来判断文档之间的相似度。（）

A:对B:错

答案:对以下哪些属于文本分析模型？（）

A:主题模型

B:TextRank

C:TF-IDF

D:统计语言模型

答案:主题模型

；TextRank

；TF-IDF

；统计语言模型

中文分词的难点是什么？（）

A:未登录词问题

B:计算问题

C:歧义问题

D:规范问题

答案:未登录词问题

；计算问题

；歧义问题

；规范问题

词的同义和多义现象是文本分析中存在的问题。（）

A:对B:错

答案:对词嵌入方法将词表示为数值向量。（）

A:对B:错

答案:对主题抽取使得文本的处理大大简化。（）

A:对B:错

答案:对某词的IDF值越高，说明该词越不常见。（）

A:对B:错

答案:对网络上的信息错综复杂，没有办法对文本进行分析。（）

A:错B:对

答案:错基于

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与应用知到智慧树章节测试课后答案2024年秋西安理工大学

文档简介

温馨提示

最新文档

评论

大数据分析与应用知到智慧树章节测试课后答案2024年秋西安理工大学

文档简介

温馨提示

最新文档

评论

相关文档