大数据分析与预测技术知到智慧树章节测试课后答案2024年秋山东财经大学

上传人：题*** IP属地：浙江上传时间：2025-01-10 格式：DOCX 页数：18 大小：22.71KB 积分：6 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与预测技术知到智慧树章节测试课后答案2024年秋山东财经大学第一章单元测试

以下哪些情景可以使用大数据分析与预测建模技术？

A:预测某移动运营商客户转移到竞争对手的可能性B:预测电商网站某商品未来的销售量C:统计某零售超市一个月内哪类牛奶的销量最大D:保险公司的骗保分析

答案:预测某移动运营商客户转移到竞争对手的可能性；预测电商网站某商品未来的销售量；保险公司的骗保分析有关大数据分析与预测的过程认识正确的是？

A:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。B:大数据分析与预测得到的结果需要通过检验样本的测试，甚至需要在现实中实验才能投入使用。C:大数据分析与预测一般需要人的参与，只要把数据输入合适的算法就可以得到有用的结果。D:大数据分析与预测的问题一般都是用户给定的，因此不需要与用户交流和调研。

答案:大数据分析与预测得到的结果需要通过检验样本的测试，甚至需要在现实中实验才能投入使用。有关数据质量的认识正确的是？

A:有些机器学习算法具有比较强的抗噪型，因此不需要预处理也能得到有用的规律。B:数据质量一般可以由机器自动完成，不需要数据分析人员参与。C:各种数据质量问题对机器学习算法的影响很大，因此需要充分预处理才能进入建模阶段。D:数据预处理就是删除有问题的数据。

答案:各种数据质量问题对机器学习算法的影响很大，因此需要充分预处理才能进入建模阶段。下面有关机器学习正确的说法是？

A:每种机器学习算法都有一定的使用范围，只能处理某类数据和问题。B:在机器学习过程中，需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。C:机器学习就是简单的统计分析。D:机器学习可以从有限的样本数据中得到有用的规律，并能对新样本进行一定的泛化预测。

答案:每种机器学习算法都有一定的使用范围，只能处理某类数据和问题。；在机器学习过程中，需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。；机器学习可以从有限的样本数据中得到有用的规律，并能对新样本进行一定的泛化预测。组织通过销售数据或洞察以创造新的收入来源，这属于大数据应用成熟度的哪一个阶段？

A:业务优化B:业务转型C:数据货币化D:业务监控

答案:数据货币化如果以药品Ｂ来代替药品Ａ的使用，那么这个病人生存的几率有多大？这种分析属于

A:规范性分析B:预测性分析C:诊断性分析D:描述性分析

答案:预测性分析NoSQL数据库作为非关系型数据库，只能够用来存储非结构数据。

A:错B:对

答案:错根据患者的视网膜图像等相关医疗信息，使用机器学习算法进行建模，预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法？

A:诊断性分析B:监督学习C:无监督学习D:统计分析

答案:监督学习大数据分析的预测建模任务主要包括哪几大类问题？

A:模式发现B:关联分析C:回归D:分类

答案:关联分析；回归；分类下列哪些分析需要机器学习？

A:统计移动运营商的用户在某段时间对短信的使用数量B:比较不同移动运营商用户对漫游业务的使用量C:寻找移动运营商用户对某类套餐使用的潜在客户D:预测移动运营商用户未来使用的网络流量

答案:统计移动运营商的用户在某段时间对短信的使用数量；寻找移动运营商用户对某类套餐使用的潜在客户；预测移动运营商用户未来使用的网络流量

第二章单元测试

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

A:分类和预测B:数据预处理C:数据流挖掘D:频繁模式挖掘

答案:数据预处理下面哪个步骤不属于数据预处理的过程？

A:分类和预测B:数据归约C:数据转换D:数据清洗

答案:分类和预测下面哪种不属于数据预处理的方法？

A:变量代换B:离散化C:估计遗漏值D:聚集

答案:估计遗漏值以下哪种方法不属于特征选择的标准方法

A:抽样B:包装C:过滤D:嵌入

答案:抽样下面不属于创建新属性的相关方法的是

A:特征构造B:特征修改C:映射数据到新的空间D:特征提取

答案:特征修改数据清洗包括以下哪几个方面？

A:噪声数据平滑技术B:缺失数据处理方法C:按标准差进行的标准化D:时间相关数据的处理

答案:噪声数据平滑技术；缺失数据处理方法；时间相关数据的处理以下哪几个是数据归约的策略？

A:数值归约B:数据压缩C:数据立方体聚集D:维度归约E:离散化和概念分层产生

答案:数值归约；数据压缩；数据立方体聚集；维度归约；离散化和概念分层产生以下哪些是数据离散化技术？

A:分箱技术B:基于熵的离散化C:ChiMerge技术D:饼图分析

答案:分箱技术；基于熵的离散化；ChiMerge技术特征选择的目标有哪些？

A:挖掘多个抽象层上的数据B:提供更快、性价比更高的学习过程C:提高数据挖掘模型的性能D:更好地理解生成数据的基本过程

答案:提供更快、性价比更高的学习过程；提高数据挖掘模型的性能；更好地理解生成数据的基本过程特征选择算法一般分为那几类？

A:子集选择算法B:特征排列算法C:分箱技术D:基于熵的离散化

答案:子集选择算法；特征排列算法

第三章单元测试

有关决策树的说法哪个是错误的？

A:对新样本起到分类预测的作用B:决策树的深度越大越好C:决策树的算法和神经网络的原理不一样D:可以转化为决策规则

答案:决策树的深度越大越好有关决策树与特征工程的关系，以下说法错误的是？

A:决策树可以得到对分类重要的属性，因此可以作为分类特征获取的一种方法。B:如果要了解影响签署合同快慢的主要因素，可以使用决策树算法。C:决策树获得的特征可以作为其他算法（例如回归算法的自变量）输入的依据。D:决策树获得的特征是区分不同类别的最优特征。

答案:决策树获得的特征是区分不同类别的最优特征。下面有关支持向量机错误的说法是？

A:支持向量机是把高维的数据投影到低维的空间进行分类。B:支持向量机一般处理两分类的问题。C:对于小样本集，支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。D:支持向量机既可以处理线性可分的问题，也可以处理非线性可分的问题。

答案:支持向量机是把高维的数据投影到低维的空间进行分类。以下哪些不是贝叶斯网络的应用场景？

A:机器故障诊断B:招聘人才选拔规则C:中文分词D:根据客户消费行为对其进行分组

答案:招聘人才选拔规则；根据客户消费行为对其进行分组下面有关线性判别分析错误的说法是哪个？

A:通过对原始的数据进行线性变换，使得不同类的样本尽量分开。B:线性判别分析中线性变换可以使同类样本的方差变大。C:提高不同类样本的可分性。D:线性变换可以使不同类别样本的距离加大。

答案:线性判别分析中线性变换可以使同类样本的方差变大。下面有关随机森林的说法哪个是错误的？

A:类似装袋法的样本抽样方法，保证每棵树的学习样本集的多样性。B:随机森林训练后只需选择性能最好的树最为预测模型。C:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。D:随机森林是一种集成算法，可以使用CART等基学习器提高分类的性能。

答案:随机森林训练后只需选择性能最好的树最为预测模型。如果发现决策树模型的检验结果达不到要求，可以执行下面哪些方法进行改进？

A:修改用户的需求。B:补充或调整样本的选择，并加强样本的预处理。C:对算法的选择以及参数的调整进行优化。D:采用多种算法组合。

答案:补充或调整样本的选择，并加强样本的预处理。；对算法的选择以及参数的调整进行优化。；采用多种算法组合。以下哪个算法不是基于规则的分类器？

A:C5.0B:贝叶斯分类器C:ID3D:C4.5

答案:贝叶斯分类器如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法？

A:线性回归分析B:决策树类算法C:聚类分析D:关联分析

答案:决策树类算法以下哪个指标不能用于决策树的性能评价指标？

A:召回率B:ROC曲线下的面积AUCC:准确率D:决策树规则的数目

答案:决策树规则的数目以下关于人工神经网络（ANN）的描述正确的说法是？

A:只能用于分类B:神经网络对训练数据中的噪声不敏感，因此数据质量可以差一些也没关系C:不能确定输入属性的重要性D:训练ANN是一个很耗时的过程

答案:训练ANN是一个很耗时的过程神经网络由许多神经元（Neuron）组成，下列关于神经元的陈述中哪一个是正确的？

A:一个神经元可以有多个输入和多个输出B:一个神经元可以有多个输入和一个输出C:其他选项都正确D:一个神经元可以有一个输入和多个输出

答案:其他选项都正确有关前馈神经网络的认识正确的是？

A:神经网络训练过程是拟合训练数据模式的过程B:神经网络训练后很容易得到分类的规则C:神经网络模型的分类能力比决策树好D:神经网络可用于分类和聚类

答案:神经网络训练过程是拟合训练数据模式的过程下面关于感知机的说法中正确的是？

A:其他都不对B:某一神经元可以连接下一层的多个神经元，表示该神经元有多个输出C:在感知机中引入激活函数可以解决与异或问题（XOR）D:单个感知机是线性回归的训练过程

答案:单个感知机是线性回归的训练过程在一个神经网络里，确定每一个神经元的权重和偏差是模型拟合训练样本的目标，比较有效的办法是什么？

A:根据人工经验随机赋值。B:其他选项都不正确C:赋予一个初始值，然后迭代更新权重，直至代价函数取得极小。D:搜索所有权重和偏差的组合，直到得到最佳值。

答案:赋予一个初始值，然后迭代更新权重，直至代价函数取得极小。有关神经网络训练时使用的学习率参数说法正确的是

A:网络训练时刚开始学习率可以大一些，以便提高学习速度，随后应减少学习率，以免引起学习震荡。B:学习率过大更容易导致训练陷入局部极小值。C:学习率可以与其他网络参数一起训练，对降低代价函数是有利的。D:学习率可以随着训练误差动态调整效果更好。

答案:网络训练时刚开始学习率可以大一些，以便提高学习速度，随后应减少学习率，以免引起学习震荡。；学习率可以与其他网络参数一起训练，对降低代价函数是有利的。；学习率可以随着训练误差动态调整效果更好。激活函数通过具有以下哪些性质？

A:单调性B:计算简单C:可微性D:非线性

答案:单调性；计算简单；可微性；非线性在神经网络训练中，有关学习率调整说法错误的是？

A:学习率可以根据损失函数（代价函数）减少的快慢动态调整。B:固定学习率设置太大可能会使神经网络训练震荡不收敛。C:学习率太小会使神经网络的训练迅速达到极小值。D:学习率设置不当会引起神经网络过拟合。

答案:学习率太小会使神经网络的训练迅速达到极小值。；学习率设置不当会引起神经网络过拟合。减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。

A:错B:对

答案:错BP神经网络在训练过程中，损失函数可能比较大，但随着训练的进行，损失函数基本不变化了，这种现象说明神经网络陷入全局最优解

A:对B:错

答案:错

第四章单元测试

以下哪些数据的特征会对聚类有影响？

A:高维性B:噪声C:离群点D:样本规模

答案:高维性；噪声；离群点；样本规模有关聚类算法不正确的说法是？

A:聚类是分类的基础B:聚类算法可以找出每组样本不同的特征C:必须给出聚类的组数D:把分析的样本根据距离分组

答案:必须给出聚类的组数聚类是一类重要的机器学习算法，以下哪些场景不属于聚类问题？

A:某网商对客户的购物行为进行分析，从而分析不同组用户的偏好。B:对数据库的论文根据内容主题的不同做划分。C:判断一个网络访问是否为入侵访问。D:根据学生的成绩，给出学生的名次。

答案:判断一个网络访问是否为入侵访问。；根据学生的成绩，给出学生的名次。对联通客户进行分组，以便根据各组的特点，策划不同的营销方案，需要客户哪些数据？

A:家庭男女组成B:客户长途市话以及漫游等通话数据C:客户人口数据D:收入数据

答案:家庭男女组成；客户长途市话以及漫游等通话数据；客户人口数据下列说法错误的是？

A:聚类分析可以看作是一种非监督的样本分组过程B:k均值算法的计算耗时与初始假设聚类中心的位置有关C:k均值算法是一种常用的聚类算法，簇的个数算法不能自动确定D:在聚类分析中，簇之间的相似性越大，簇内样本的差别越大，聚类的效果就越好

答案:在聚类分析中，簇之间的相似性越大，簇内样本的差别越大，聚类的效果就越好有关聚类的算法，正确的说法有以下哪些？

A:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。B:自底向上的层次聚类算法对样本的输入顺序比较敏感。C:聚类的结果要考虑业务的可解释性。D:聚类的簇密度指样本的个数多少。

答案:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。；聚类的结果要考虑业务的可解释性。有关k-means下列说法正确的是？

A:可以确定样本属性的重要性B:聚类的结果与初始选择的假设聚类中心有关C:可以处理凸型分布数据的聚类D:适合任意数据集的分组

答案:可以处理凸型分布数据的聚类根据用户使用移动运营商的数据，可以为他们设计合适的套餐，使用哪种挖掘方法比较合适？

A:聚类B:关联分析C:回归分析D:神经网络

答案:聚类对于Kmeans而言，不同的初始聚类中心选择可能导致不同的聚类结果。

A:错B:对

答案:对在kmeans的训练过程中，可以选择不同的k值，比较使绝对误差标准较小的k值，结合聚类业务的可解释性，从而选择合适的k值。

A:对B:错

答案:对

第五章单元测试

以下有关关联算法错误的说法是哪个？

A:关联算法是一种非监督学习算法。B:关联算法主要由2个步骤组成：首先是求频繁项目集，然后再筛选满足最小置信度的关联规则。C:关联算法可用于分析新闻库中经常一起出现的人物。D:提升度是强关联规则的一个必要条件。

答案:提升度是强关联规则的一个必要条件。以下哪种情景最不适合用关联分析？

A:根据以前的股价预测未来的股价。B:在警务领域，发现有些罪犯会在一次犯罪的过程中实施多种罪行。C:分析一个论文集中相关的研究主题。D:在医疗诊断领域，对一种疾病确诊时提醒其他疾病的可能性。

答案:根据以前的股价预测未来的股价。在频繁项目集的分析过程中，以下说法哪种是正确的？

A:FP增长算法计算频繁项目集仅仅扫描1次样本集。B:频繁项目集的交集肯定是频繁的。C:如果一个项目集是非频繁的，那么它的子集肯定不是频繁的。D:两个频繁项目集的并集也一定是频繁的。

答案:频繁项目集的交集肯定是频繁的。以下有关关联分析的说法，正确的是哪些？

A:关联分析就是相关性分析。B:关联分析的结果表明在同次事务中，有关联的项目存在因果关系。C:关联分析本身就是一种推荐方法，用于网商商品的推荐，理由是购买某种商品的人在同次购物也可能会买其他商品。D:提升度可以帮忙改进某些商品的推荐或营销效果。

答案:关联分析本身就是一种推荐方法，用于网商商品的推荐，理由是购买某种商品的人在同次购物也可能会买其他商品。；提升度可以帮忙改进某些商品的推荐或营销效果。以下哪些领域可比较适合使用关联分析？

A:预测贷款的人群中哪些人可能会产生坏账。B:从公司应聘的候选人中选择可能适合某岗位的候选人。C:从学生评教数据中，找到评分较好的课程相关重要因素。D:分析网上商品的评论和评分数据，讨论什么样的商品容易得到好的评分。

答案:从学生评教数据中，找到评分较好的课程相关重要因素。；分析网上商品的评论和评分数据，讨论什么样的商品容易得到好的评分。有关Apriori算法和FP-增长算法，正确的说法有哪些？

A:对于同样的样本集和算法参数（支持度和置信度等），Apriori算法的速度一般要慢于FP增长算法。B:Apriori算法发现的关联规则要比FP增长算法多，因为前者扫描的次数多。C:对于同一个样本集，Apriori算法和FP增长算法的结果是相同的。D:对于Apriori算法和FP增长算法，随着最小支持度的提高（最小置信度不变），得到的关联规则数会增加。

答案:对于同样的样本集和算法参数（支持度和置信度等），Apriori算法的速度一般要慢于FP增长算法。；对于同一个样本集，Apriori算法和FP增长算法的结果是相同的。假设{花生，啤酒，可乐，牛奶}项目集的支持度大于最小支持度，请问下面哪些项目集的支持度一定能达到最小值支持度要求？

A:{啤酒，可乐}B:{花生，可乐，土豆}C:{花生，啤酒，可乐}D:{花生，啤酒}

答案:{啤酒，可乐}；{花生，啤酒，可乐}；{花生，啤酒}下面哪个通常不是关联算法的应用领域？

A:分析某些用户一次访问网站购买的商品B:分析论坛用户是否在一次访问中浏览了不同版面的帖子C:分析文档集是否有一定数量的文档含有某2个主题D:分析信用卡欺诈

答案:分析信用卡欺诈关联规则中前向和后项存在因果关系才能投入使用。

A:错B:对

答案:错关联规则是有方向的，A->B与B->A的支持度相同，它们的置信度也相等。

A:对B:错

答案:错

第六章单元测试

常用的异常检测算法有哪些？

A:基于聚类的方法B:KNN（K-最近邻）C:分类算法D:高斯分布建模

答案:基于聚类的方法；KNN（K-最近邻）；高斯分布建模下面这些场景中哪些用到异常检?

A:利用公交车上手机位置数据，优化车辆调度和交通实时讯息B:系统入侵异于正常用户登录行为检测入侵异常C:从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈D:使用传感器采集油气井的地球物理数据，构建预测模型预测油气井产量

答案:系统入侵异于正常用户登录行为检测入侵异常；从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈基于统计方法的异常检测有以下哪些局限性？

A:对于高维数据难以估算其真实分布B:许多情况下数据对象的分布是未知的C:大多数统计模型检验只是针对单个特征D:高维空间里，数据是稀疏的，邻近度变得没意义

答案:对于高维数据难以估算其真实分布；许多情况下数据对象的分布是未知的；大多数统计模型检验只是针对单个特征基于邻近度的异常检测算法的局限性有哪些？

A:高维空间里，数据是稀疏的，邻近度变得没意义B:对于高维数据难以估算其真实分布C:参数k选择困难D:对参数k选择敏感，如k太小，少量的邻近点导致离群点得分较低，而k太大，则点数少于k的数据点都可能成为离群点

答案:高维空间里，数据是稀疏的，邻近度变得没意义；对参数k选择敏感，如k太小，少量的邻近点导致离群点得分较低，而k太大，则点数少于k的数据点都可能成为离群点以下哪个场景用到基于统计方法的异常检测？

A:正常数据出现在高密度邻域，异常数据位于稀疏邻域B:正常数据出现在高密度邻域，异常数据则远离其最近邻C:正常数据出现在随机模型的高概率区域，异常数据则位于随机模型的低概率区域D:高维空间里，数据是稀疏的

答案:正常数据出现在随机模型的高概率区域，异常数据则位于随机模型的低概率区域下面哪个是基于密度的方法算法的局限性？

A:许多情况下数据对象的分布是未知的B:不能处理不同密度区域的数据集C:参数k选择困难D:对于高维数据难以估算其真实分布

答案:参数k选择困难高维空间里，数据是稀疏的，我们会用到以下哪种异常检测的方法

A:基于邻近度的方法B:支持向量机C:基于密度的方法D:基于统计方法

答案:基于密度的方法异常检测（Anomalydetection）是发现与大部分其他对象不同的对象，所以又成为离群点检测

A:错B:对

答案:对数据分析任务通常是去掉离群点，离群点是没有意义的点

A:对B:错

答案:错在基于邻近度的方法中，离群点的定义不包括以下哪个？

A:一个对象的离群点得分是该对象周围密度的逆B:在距离D内，最近邻点数少于P的数据点为离群点C:到K个最近邻平均距离最大的前n个数据点为离群点D:到第K个最近邻的距离最大的前n个数据点为离群点

答案:一个对象的离群点得分是该对象周围密度的逆

第七章单元测试

有关文本特征的理解，错误的说法是哪个？

A:信息增益是文本特征提取的方法。B:one-hot可以表示一个词的重要性。C:TF-IDF和互信息都是文本特征提取的方法。D:文本不方便直接处理，需要提取表征内容的特征数值化。

答案:one-hot可以表示一个词的重要性。下面哪个选项不是文本分析的组成？

A:语义分析B:句法分析C:词法分析D:文本翻译

答案:文本翻译有关文本分析的说法，正确的是哪些？

A:文本属于非结构化数据，因此需要经过预处理转化为向量等结构才方便处理。B:从一个word文档中查询是否包含某个词汇属于文本分析。C:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。D:从一个文本集中查询包含某些主题的文本也属于文本分析。

答案:文本属于非结构化数据，因此需要经过预处理转化为向量等结构才方便处理。；处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。；从一个文本集中查询包含某些主题的文本也属于文本分析。以下有关文本分词的说法正确的是哪个？

A:分词算法都需要一个词典。B:分词合适与否不会引起句子的歧义。C:基于统计的分词方法的性能与训练语料库的质量密切相关。D:英文文本不需要分词。

答案:基于统计的分词方法的性能与训练语料库的质量密切相关。下面有关向量空间模型（VSM）的描述中，错误的是哪个？

A:以向量来表示文档后，两者的夹角余弦值越小说明相似度越高B:文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息C:在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重D:基于向量的文本相似度计算中，除了内积外，还可以用夹角余弦等方法

答案:文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息下面哪种方法是文本特征获取的方法？

A:one-hot表示法B:互信息C:卡方统计量D:信息增益

答案:互信息；卡方统计量；信息增益面关于词法分析的描述中，正确的说法有哪些？

A:基于统计的命名实体识别方法目前还主要采用统计的方法B:基于词频统计的分词方法是一种无字典分词方法C:语义依存分析主要用于分析词和词之间的依存关系，例如句⼦的主语、谓语、宾语等形式结构D:语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系

答案:基于统计的命名实体识别方法目前还主要采用统计的方法；基于词频统计的分词方法是一种无字典分词方法下面哪些算法不能用于文本的分词？

A:词嵌入B:基于规则的分词C:TF-IDF算法D:反向最大匹配法

答案:词嵌入；TF-IDF算法下面有关文本分析正确的说法是哪些？

A:时间和日期都是需要识别的命名实体。B:信息抽取不需要了解实体之间的语义关系。C:句法分析可以表达组成句子的词语之间的搭配或修辞关系。D:文本分类可以通过贝叶斯分类器完成。

答案:时间和日期都是需要识别的命名实体。；句法分析可以表达组成句子的词语之间的搭配或修辞关系。；文本分类可以通过贝叶斯分类器完成。使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。

A:对B:错

答案:对

第八章单元测试

可视化分析的说法正确的是哪一个？

A:可视化就是简单的画图，美观就行。B:可视化分析前不用对数据进行预处理，因为可视化反映了数据的趋势和大致规律。C:可视化是一种基本的数据分析方法，需要选择合适的图表，展示数据中隐藏的信息。D:目前的可视化工具可以自动展示数据中的规律。

答案:可视化是一种基本的数据分析方法，需要选择合适的图表，展示数据中隐藏的信息。有关可视化分析的方法，下面错误的说法是哪种？

A:可视化只是表格数据的另一种简单呈现。B:可视化分析在分析前，对数据进行一定的变换，可能会提升分析结果的有用性。C:可视化分析有多种图形可供选择，每种图形只适用某些场合。D:错误的数据如果不进行处理，可能会影响可视化分析的结果质量。

答案:可视化只是表格数据的另一种简单呈现。有关可视化分析与其他机器学习方法的关系，错误的说法是哪一种？

A:可视化分析可以为神经网络等分类算法初选重要的变量。B:可视化分析可以作为决策树算法的预处理方法，从中找出错误或异常的数据。C:可视化分析可以对分类模型的正确率进行评估。D:可视化分析可用于展示神经网络的训练过程，从中确定模型是否出现过拟合。

答案:可视化分析可以对分类模型的正确率进行评估。下面哪种可视化方法比较适合聚类分析？

A:条状图B:散点图C:箱图D:直方图

答案:散点图在线教学学生行为的分析中，下面哪个选项不是可视化的作用？

A:可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。B:可视化可用于分析不同类别学生的学习轨迹（流程）。C:可视化可以帮助发现有问题的学生，从而可以提前做学情预警。D:可视化可动态展示不同时期学生群体的学习行为。

答案:可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。有关可视化分析错误的说法有哪些？

A:对于同样数据、同样的问题，不同数据分析师给出的可视化分析结果是一样的。B:可视化分析可以与其他机器学习算法组合使用，可以应用于机器学习的各个阶段。C:可视化分析的结果是否可用不需要人工检验。D:可视化分析可以帮助决策者获得其以前没有意识到的规律。

答案:对于同样数据、同样的问题，不同数据分析师给出的可视化分析结果是一样的。；可视化分析的结果是否可用不需要人工检验。有关箱（线）图的说法，正确的是哪些？

A:若某变量的中位数是10，说明这个变量有一半的取值平均值小于10。B:在箱图中，某个变量上四分位和下四分位的差（四分位矩）越大，说明此变量的方差可能越小。C:箱图可用于分析某个变量A对变量B的影响程度，主要看A的不同取值对应B变化的箱子的大小和位置变化。D:从箱图可以发现变量的异常或噪声。

答案:若某变量的中位数是10，说明这个变量有一半的取值平均值小于10。；箱图可用于分析某个变量A对变量B的影响程度，主要看A的不同取值对应B变化的箱子的大小和位置变化。；从箱图可以发现变量的异常或噪声。在可视化分析的应用过程中，最终用户抱怨没有看到有用的信息，可能的原因有以下哪些？

A:数据没有充分的预处理，展示出来的信息基本是已经的事实。B:图表展示出来了容易让人误解的信息，误导了用户。C:图画的不好看，未能引起用户的兴趣。D:数据分析人员对业务理解不够，未能选

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与预测技术知到智慧树章节测试课后答案2024年秋山东财经大学

文档简介

温馨提示

最新文档

评论

相关文档