大数据分析与可视化智慧树知到期末考试答案2024年

上传人：题*** IP属地：浙江上传时间：2024-03-26 格式：DOCX 页数：9 大小：17.87KB 积分：6 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与可视化智慧树知到期末考试答案2024年大数据分析与可视化以下属于关联分析的是（）。

A:股票趋势建模B:CPU性能预测C:购物篮分析D:自动判断鸢尾花类别答案:购物篮分析常见的统计图表有（）

A:维恩图B:饼图C:箱线D:散点图答案:饼图;散点图;维恩图;箱线基于密度的聚类可以发现任意形状的簇。（）

A:对B:错答案:对基于距离的孤立点检测可以在不知道数据分布的情况下对数据进行多维分析。（）

A:错误B:正确答案:正确在同一个聚类中的对象应彼此相似，不同聚类中的对象应有所差异。（）

A:正确B:错误答案:正确方差和标准差是数据离散程度的最常用测度值，反映了各变量值与均值的平均差异。根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差。（）

A:错误B:正确答案:正确所谓等深分箱，是指每个分箱中的样本的平均值相等。（）

A:正确B:错误答案:错误给定关联规则A--＞B，意味着：若A发生，B也会发生（）

A:对B:错答案:错使用数据挖掘分析技术可以从股票交易的历史数据中得到股票交易的规则或规律。（）

A:错误B:正确答案:正确所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。（）

A:错误B:正确答案:正确非线性回归可以用最小二乘法来求解回归系数的值。（）

A:错误B:正确答案:正确在构建FP-Tree的过程当中如果遇到低于minSuport的项目要把它插入到FP-Tree中（）

A:正确B:错误答案:错误可以用分类的方法来预测明天是晴天、多云还是下雨（）

A:正确B:错误答案:正确描述统计的目的包括描述数据特征，和找出数据的基本规律。（）

A:错误B:正确答案:正确小波变换可以消除噪声，也可以用于图像增强、钝化和锐化。（）

A:错误B:正确答案:正确线性回归可以用最小二乘法来求解回归系数的值。（）

A:错误B:正确答案:正确在BP神经网络中，信号向前传播，误差向后传播。（）

A:错误B:正确答案:正确在前向神经网络中，同一层内的神经元之间不能有连接。（）

A:错误B:正确答案:错误四分位差是对顺序数据离散程度的测度，也称为内距或四分间距，反映了中间90%数据的离散程度。（）

A:错误B:正确答案:错误数据挖掘分析技术对高科技的研究是必不可少的,其主要的功能是对大批量数据的处理。（）

A:错误B:正确答案:正确小波变换适合稀疏数据；PCA适合高维数据。（）

A:错误B:正确答案:错误数据挖掘分析的任务是从数据中发现模式，模式按功能分为预测型(Predictive)和描述型(Descriptive)。（）

A:错误B:正确答案:正确利用简洁性约束，我们可以在计数前进行剪枝，从而避免产生－测试方式的过大开销（）

A:错B:对答案:对可以用决策树算法来预测未来房价的走势。（）

A:正确B:错误答案:错误推断统计，是利用样本信息和概率论对总体的数量特征进行估计和检验。（）

A:正确B:错误答案:正确在有反馈的前向神经网络中，输出层会对输入层产生反馈信息。（）

A:错误B:正确答案:正确概念分层是指通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据。（）

A:正确B:错误答案:正确关联规则应用场景实例不包括（）。

A:穿衣搭配推荐B:目标检测C:依据用户轨迹的商户精准营销D:气象关联分析答案:AI参考:正确选项是B:目标检测。\n\n关联规则是一种挖掘数据间潜在关系的方法，主要用于发现交易数据中项集之间的有趣关系，找出同时出现的项目集。它的应用场景包括但不限于购物篮分析、推荐系统等。目标检测是计算机视觉中的一个任务，用于识别和定位图像中的特定目标，如人脸、车辆等，与关联规则的应用场景不相关。其他选项如穿衣搭配推荐、依据用户轨迹的商户精准营销和气象关联分析都是关联规则的典型应用场景。'在加权平均法中，________是关键？（）。

A:平均数计算B:转化率计算C:众数计算D:权重计算答案:AI参考:在加权平均法中，关键的是权重计算。加权平均法是一种根据不同商品的价格和重量，按照一定的加权平均价格来计算商品总成本的方法。其中，权重是用来衡量每种商品对其总成本影响的比例，它是加权平均法的关键因素。而平均数计算、转化率计算、众数计算等都不是在加权平均法中起关键作用的因素。因此，正确答案为D：权重计算。'发表论文提出了关系数据库的理论以下关于孤立点产生的原因，错误的是（）。

A:数据变异B:噪声C:度量错误D:执行错误答案:AI参考:正确选项是【执行错误】。\n\n在关系数据库的理论中，孤立点产生的原因主要包括数据变异、噪声、度量错误和执行错误。其中，执行错误是指由于程序或系统在处理数据时出现错误，导致数据出现异常或缺失。其他选项如数据变异、噪声和度量错误通常是由于数据来源或数据处理过程中的问题导致的，而执行错误则是数据处理的直接结果。因此，关于孤立点产生的原因，错误的是执行错误。'ECharts底层依赖轻量级的（）库ZRender提供直观，生动，可交互，可个性化定制的数据可视化图表

A:形状B:矢量图形C:位图D:矩阵答案:AI参考:正确选项是【B:矢量图形】库ZRender提供直观，生动，可交互，可个性化定制的数据可视化图表。ECharts是一个使用JavaScript实现的数据可视化库，它底层依赖轻量级的矢量图形库ZRender来实现图表的可视化效果。矢量图形是一种基于数学方程的图形表示方式，具有轻量、高效、可交互、可个性化定制等优点，适合用于数据可视化领域。相比之下，位图、形状和矩阵都不是用于数据可视化的底层库，它们各自具有其他的特点和应用场景。'artist的（）属性控制绘图顺序

A:pickerB:FigureC:ZorderD:Axes答案:AI参考:正确选项是【C:Zorder】。\n\n在Python的matplotlib库中，artist对象的Zorder属性用于控制绘图的顺序。Zorder的值越小，绘制的顺序越靠前。在绘制图形时，如果有多条线或者图形需要重叠，可以通过调整Zorder的值来控制它们的绘制顺序。因此，选项C是正确答案。'（）能够帮助人们提高理解与处理数据的效率

A:智能化B:音频化C:可视化D:面向对象答案:AI参考:正确选项是【C:可视化】。\n\n可视化是一种将数据转换为图形或图像的技术，可以帮助人们更好地理解和处理数据，提高理解和处理数据的效率。智能化、音频化、面向对象等选项虽然也与数据处理有关，但它们并不直接帮助人们提高理解与处理数据的效率。因此，正确答案为C：可视化。'下以下关于数据压缩说法不正确的是？（）

A:音频/视频压缩通常是有损压缩B:小波变换和主要成分分析是两种无损数据压缩的方法C:数据压缩分为有损压缩和无损压缩D:字符串压缩，通常是无损压缩答案:AI参考:关于数据压缩说法不正确的是D：字符串压缩，通常是无损压缩。\n\n字符串压缩通常是有损压缩，也就是说在压缩和解压过程中，可能会产生一定的数据损失，无法完全恢复原始数据。这种压缩通常用于存储和传输大量字符串数据，如电子邮件、文本文件等。而A、C、B选项都是关于音频/视频压缩、无损压缩和小波变换和主要成分分析的相关描述，这些描述都是正确的。'以下哪个说法是正确的？（）。

A:样本有3个数值，即x1=2，x2=4，x3=9，则x=5。当x=5确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值。B:当样本数据的个数为n时，若样本均值x确定后，只有n-1个数据可以自由取值，其中必有一个数据则不能自由取值。C:从实际应用角度看，在抽样估计中，当用样本方差s2去估计总体方差σ2时，s2是σ2的无偏估计量。D:一组数据中不可以自由取值的数据的个数。答案:AI参考:正确选项【B:当样本数据的个数为n时，若样本均值x确定后，只有n-1个数据可以自由取值，其中必有一个数据则不能自由取值。】。\n\n解释：\nA选项中，样本有3个数值，但每个样本数据都有三个可能的取值，所以x1、x2和x3有三个数据可以自由取值，因此A选项错误。\nC选项中，用样本方差s^2去估计总体方差σ^2时，样本方差s^2是总体方差σ^2的有偏估计量，而不是无偏估计量。\nD选项描述的是数据的自由度，与本题无关。\n\n在样本均值确定后，由于样本数据的个数为n，所以只有n-1个数据可以自由取值，其中必有一个数据不能自由取值。这是样本均值的性质之一。因此，B选项是正确的。'以下哪些是神经网络的优点（）

A:有良好的推广性B:可以用于分类预测问题C:有良好的自组织学习能力D:对异常值不敏感答案:AI参考:以下哪些是神经网络的优点（）正确答案是：A:有良好的推广性；B:可以用于分类预测问题；C:有良好的自组织学习能力；D:对噪声和异常值不敏感。\n\n神经网络的优点包括有良好的推广性、可以用于分类预测问题、有良好的自组织学习能力以及对噪声和异常值不敏感等。因此，答案为A、B、C、D。'以下关于分类和预测的说法正确的是（）

A:分类法主要用来预测类标号B:两者都需要构建模型C:预测法主要用来估计连续值D:两者都是用模型来估计未知值答案:AI参考:关于分类和预测的说法正确的是：两者都是用模型来估计未知值。\n\n分类和预测都属于机器学习中的方法，分类主要是对数据进行分类，预测主要是对未来数据进行预测。两者都需要使用模型，通常使用分类器或算法来建立模型，并对未知数据进行预测。因此，选项D是正确的。而选项A和C是不正确的，因为分类法不仅可以预测类标号，还可以预测连续值或类别之间的顺序关系，而预测法主要用于预测连续值。'以下哪些情况会引起空缺值？（）

A:对数据的改变没有进行日志记载插入B:在输入时，有些数据应为得不到重视而没有被输入C:与其他已有数据不一致而被删除D:设备异常答案:AI参考:正确选项为：A:对数据的改变没有进行日志记载插入\n\n其他选项B、C、D描述的情况不会直接导致数据空缺值，但可能间接影响数据的完整性和准确性。B选项中的情况可能导致数据不完整或错误，C选项中的情况可能导致数据不一致或丢失，D选项中的情况可能影响数据的获取或处理过程。但是，A选项描述的情况是对数据的改变没有进行日志记载插入，这会导致数据丢失或错误，从而产生空缺值。因此，正确答案是A。'数据清理的任务有哪些？（）

A:填写空缺的值B:识别离群点和平滑噪声数据C:纠正不一致的数据D:解决数据集成造成的冗余答案:AI参考:数据清理的任务包括：\n\nB,C:识别离群点和平滑噪声数据、纠正不一致的数据\n\n所以答案是B和C。数据清理的主要任务是识别并平滑噪声数据，纠正不一致的数据，识别并处理离群值等。其中，填写空缺的值和解决数据集成造成的冗余也是数据清理的一部分，但并非主要任务。'处理噪声数据的方法有哪些？（）

A:分箱B:回归C:聚类D:计算机和人工检查结合答案:AI参考:处理噪声数据的方法有分箱、聚类和计算机和人工检查结合。因此，正确选项为A、C、D。\n\n分箱是一种将数据按照一定标准分为若干个互不重叠的区间，以便对数据进行分类的方法。\n\n聚类是一种将数据按照相似性和差异性进行分类的方法，可以用于噪声数据的识别和处理。\n\n计算机和人工检查结合是一种常用的处理噪声数据的方法，通过计算机自动化处理和人工检查相结合，可以提高数据处理效率和准确性。\n\n回归是一种统计方法，通常用于预测连续型数据，不适用于处理噪声数据。因此，选项B不符合题意。'对于频繁项集挖掘分析，在分析过程中使用的约束包括以下几种类型（）

A:简洁的B:可转变的C:反单调的D:不可转变的答案:AI参考:对于频繁项集挖掘分析，在分析过程中使用的约束包括以下几种类型：B:可转变的、C:反单调的。\n\n选项A的“简洁的”并不适用于频繁项集挖掘分析中的约束条件，因为频繁项集的挖掘需要考虑到各种复杂的因素，而不是追求简单的解决方案。\n\n选项D的“不可转变的”则与频繁项集挖掘过程中的约束条件相悖，因为约束条件是为了限制和分析过程中的变化，以确保分析结果的准确性和可靠性。\n\n而选项B和C描述的是可以应用于频繁项集挖掘过程中的约束条件。可转变的约束条件是指在分析过程中，可以根据实际情况进行适当的调整和改变，以适应不同的数据集和场景。反单调的约束条件则是指在进行频繁项集挖掘分析时，需要考虑到数据集中的项的出现频率不是单调的，因此需要采用反单调的约束条件来应对这种情况。这些约束条件有助于提高频繁项集挖掘的准确性和可靠性。'以下哪些是概念分层生成的典型方法？（）

A:直方图分析B:基于熵的离散化C:聚类分析D:分箱技术答案:AI参考:正确选项是【基于熵的离散化、聚类分析、分箱技术】。\n\n概念分层生成的方法包括基于熵的离散化、聚类分析、分箱技术等。其中，基于熵的离散化是一种常用的离散化方法，它根据数据集的熵值来确定最佳的分割点，以达到更好的数据压缩和分类效果。聚类分析是一种无监督学习方法，可以将相似的数据点聚集在一起，从而实现数据的分层和分类。分箱技术则是将数据按照一定的范围划分为不同的箱子，以便于后续的数据处理和分析。这些方法都是概念分层生成中常用的典型方法。而直方图分析主要用于数据的可视化，不是概念分层生成的一种方法。'以下哪些属于决策树算法的优点（）

A:易于理解和实现B:构建高效，分类速度快C:对数据分布有严格要求D:可以帮助其他模型算法挑选自变量答案:AI参考:以下属于决策树算法的优点（）答案是：ABD。\n\n决策树算法的优点包括：\n\n1.易于理解和实现：决策树算法通常基于直观的决策规则，易于理解和实现。\n\n2.构建高效，分类速度快：决策树算法通常采用递归方式构建决策树，可以快速地构建决策树，并且分类速度较快。\n\n3.可以帮助其他模型算法挑选自变量：决策树算法可以通过特征选择和剪枝等技术，帮助其他模型算法挑选出有用的自变量。\n\n然而，决策树算法也存在一些缺点，如过度拟合问题、对噪声数据的敏感性和解释性差等。因此，在实际应用中，需要结合具体情况和需求选择合适的算法。\n\n综上所述，正确选项是ABD。C选项不属于决策树算法的优点，因此不正确。'Matplotlib绘图库的API包含三个图层，其含义分别为（）

A:backend_bases.FigureCanvas(画板)B:artist.Rectangle（矩阵）C:backend_bases.Renderer(渲染)D:artist.Artist(如何渲染)答案:AI参考:选项A、C、D正确。\n\nMatplotlib绘图库的API包含三个图层：\n\n1.**backend_bases.FigureCanvas**：这是一个用于绘制图形的画板，可以添加各种元素（如线条、矩形等）并最终呈现图形。\n2.**backend_bases.Renderer**：这是一个用于渲染图形的类，负责根据用户的设置和图形的大小、颜色等属性生成实际的图形。\n3.**artist.Artist**：这是Matplotlib中用于表示图形元素的基类，例如线条、矩形、圆形等。每个具体的图形元素都是一个Artist对象，它描述了如何渲染这个元素。\n\n因此，选项A、C和D都是Matplotlib绘图库API的一部分，分别对应画板、渲染器和如何渲染这三个层次。而选项B中的**artist.Rectangle**是一个具体的图形元素类，不属于API的层次结构。'以下属维归约处理方法的有？（）

A:判定归纳树插入B:向前选择和向后删除相结合C:逐步向前选择D:逐步向后删除答案:AI参考:以下属维归约处理方法的有（向前选择和向后删除相结合、逐步向前选择）：\n\nB和C选项都涉及到逐步向前选择或向后删除的概念，这些都是属维归约的处理方法。A选项的判定归纳树插入，是一种具体的归纳方法，不是归约方法。D选项中逐步向后删除不是属维归约的方法。\n\n因此，答案是B和C选项。'不论是表头项节点还是FP-Tree中有节点，它们至少有2个属性，分别是（）

A:nameB:countC:rootD:ID答案:AI参考:正确选项为：A:nameB:count。\n\n解释：FP-Tree是一种基于FP-树的聚类算法，它表示了聚类结果，并且表头项节点和FP-Tree中的节点都需要具有至少两个属性，包括名称（name）和计数（count）。其中，名称表示节点的标识符，计数表示该节点所包含的数据点的数量。root不是必需的属性，ID也不是FP-Tree中节点的必需属性。因此，正确选项为A和B。'数据可视化是与（）等并列的概念（）

A:科学可视化B:信息可视化C:可视分析学D:数据挖掘答案:AI参考:正确选项为：ABCD。\n\n数据可视化、信息可视化、可视分析学和数据挖掘都是与数据相关的概念，它们都是为了更好地理解和利用数据而出现的。其中，数据可视化是其中一个重要的分支，它通过图形、图表等视觉手段，将数据以更加直观、易于理解的方式呈现出来，帮助人们更好地理解和分析数据。信息可视化则是将信息以图形、图表等视觉手段呈现出来，帮助人们更好地理解和传递信息。可视分析学则是通过视觉手段进行数据分析的方法，而数据挖掘则是

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与可视化智慧树知到期末考试答案2024年

文档简介

温馨提示

最新文档

评论

大数据分析与可视化智慧树知到期末考试答案2024年

文档简介

温馨提示

最新文档

评论

相关文档