数据挖掘与石油勘探开发知到智慧树章节测试课后答案2024年秋中国石油大学(华东)_第1页
数据挖掘与石油勘探开发知到智慧树章节测试课后答案2024年秋中国石油大学(华东)_第2页
数据挖掘与石油勘探开发知到智慧树章节测试课后答案2024年秋中国石油大学(华东)_第3页
数据挖掘与石油勘探开发知到智慧树章节测试课后答案2024年秋中国石油大学(华东)_第4页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与石油勘探开发知到智慧树章节测试课后答案2024年秋中国石油大学(华东)第一章单元测试

根据数据挖掘的对象不同,数据挖掘技术可分为分类规则挖掘、聚类规则挖掘和关联规则挖掘等。()

A:错B:对

答案:错

第二章单元测试

数据仓库的数据量通常较大,且强调数据可以进行实时更新。()

A:对B:错

答案:错数据仓库通常指一个数据环境,而不是指一件产品,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。()

A:错B:对

答案:对ETL过程的作用是为了识别错误数据,而不是处理它们。()

A:对B:错

答案:对粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越低,回答查询的种类越丰富。()

A:错B:对

答案:错由于数据仓库的设计是一个不断改进和完善的螺旋式发展过程,在刚开始时选择部分比较重要的主题作为数据仓库设计的起点是很有必要的。()

A:对B:错

答案:对

第三章单元测试

知识评估的主要目的是评估所得知识是否符合商业目标。()

A:错B:对

答案:对数据预处理包括数据清洗、缺失值处理、异常值检测和处理等步骤,但不包括特征选择和降维操作。()

A:对B:错

答案:错在数据分析中,分箱技术可用于将连续型变量离散化为若干个区间,并对每个区间进行编码。()

A:对B:错

答案:对在数据预处理中,可以直接删除包含缺失值的样本,而不考虑填补缺失值的方法。()

A:错B:对

答案:错规范化(标准化)是数据预处理中常用的操作之一,通过将数据按比例缩放到特定的范围,使得数据具有相似的尺度和分布。()

A:错B:对

答案:对

第四章单元测试

数据可视化依照(),可以分为科学可视化和信息可视化。

A:信息传递方式B:数据对象C:数据类别D:数据属性

答案:数据对象以下()不属于格式塔理论的八大原则。

A:重复原则B:经验原则C:连续原则D:好图原则

答案:重复原则数据清洗过程主要处理哪些数据()。

A:不一致数据B:最大值C:噪声值D:缺失值

答案:不一致数据;噪声值;缺失值在可视化流程概念图中,各个模块的联系仅仅是顺序的线性联系。()

A:对B:错

答案:错直接体绘制中使用到的光线投射算法是基于射线扫描过程的。()

A:错B:对

答案:对

第五章单元测试

构造分类模型的步骤是()。

A:方法评估标准B:选择分类方法C:数据准备D:选择优化方法

答案:方法评估标准;选择分类方法;数据准备ID3算法的类别属性可以取的值有()。

A:yesB:wrongC:falseD:success

答案:yes;false;success决策树的缺点包括()

A:决策树算法不稳定(数据中很小的变化可能导致生成一个完全不同的树)B:输出属性必须是分类性,不允许输出连续属性C:测试属性选取问题D:数值型数据必须离散化

答案:决策树算法不稳定(数据中很小的变化可能导致生成一个完全不同的树);输出属性必须是分类性,不允许输出连续属性;测试属性选取问题;数值型数据必须离散化由于连续属性没有可划分的结点,这个时候要用到连续属性离散化技术,最简单的策略就是采用二分法(bi-partition)对连续属性进行处理,C4.5决策树算法采用的就是这种机制。()

A:错B:对

答案:对哪种方法是用于避免过拟合的决策树剪枝策略?()。

A:特征选择B:损失函数最小化C:聚类分析D:正则化

答案:正则化

第六章单元测试

在层次聚类中,聚类的停止标准可以是基于哪种方法?()。

A:密度B:方差C:距离D:类别数量

答案:距离按照聚类的尺度,聚类算法可以分为()

A:离散型数据聚类算法B:基于互联性的聚类算法C:基于密度的聚类算法D:基于距离的聚类算法

答案:基于互联性的聚类算法;基于密度的聚类算法;基于距离的聚类算法以下说法正确的是()

A:带权的欧氏距离计算公式就是欧式距离计算公式中的每一个平方项都加一个权重。B:距离函数不需要要满足同一性和对称性。C:余弦相似度中,余弦值的范围在[-1,1],值越接近1,两个对象越不相似。D:基于在数据标准化后,两个对象之间的差异程度可以由两个对象之间的距离来确定,常用的距离计算公式有欧氏距离和Manhattan距离等。

答案:带权的欧氏距离计算公式就是欧式距离计算公式中的每一个平方项都加一个权重。;基于在数据标准化后,两个对象之间的差异程度可以由两个对象之间的距离来确定,常用的距离计算公式有欧氏距离和Manhattan距离等。那个不是层次聚类方法的距离度量法:()。

A:最短距离B:最长距离C:相对距离D:中间距离

答案:相对距离k-means算法的缺点没有什么:()。

A:计算方法复杂B:对孤立点敏感C:对噪声敏感D:用户需事先指定k的个数

答案:计算方法复杂

第七章单元测试

频繁项集、最大频繁项集之间的关系是:()

A:频繁项集=最大频繁项集B:没有关系C:最大频繁项集⊇频繁项集D:频繁项集⊇最大频繁项集

答案:频繁项集⊇最大频繁项集下面的购物篮中,如果顾客购买了薯片,他们还会购买()

A:面包B:水果C:牛奶D:牛奶和面包

答案:牛奶事务数据库如下所示,假定支持度阈值为50%,在产生候选3-项集时,候选2-项集中需要剪枝的是()

A:a、cB:b、dC:c、dD:a、d

答案:b、d;a、d关联规则挖掘的最终目标是发现满足最小支持度的所有项集。()

A:错B:对

答案:错利用Apriori先验性质可以加快频繁项集的生成过程。()

A:对B:错

答案:对

第八章单元测试

计算TF-IDF时,某个单词的词频越低,且包含该单词的文章越多,则相应的值()。

A:越小B:越大C:无影响

答案:越小计算TF-IDF时,中log里的分子和分母分别代表什么?()

A:分子表示文档的数量,分母表示索引词出现的文档数量B:分子表示文档中单词的数量,分母表示文档数量C:分子表示文档的数量,分母表示文档数量D:分子表示文档中单词的数量,分母表示索引词出现的文档数量

答案:分子表示文档的数量,分母表示索引词出现的文档数量SVD矩阵分解后得到的Σ矩阵的主对角线元素的含义什么?()

A:无特殊意义B:用作标记C:特征值D:用作计数

答案:特征值当矩阵A为方阵时,对其进行特征分解的结果为()。

A:B:C:D:

答案:当矩阵A不是方阵时,对其进行特征分解的结果为()。

A:B:C:D:

答案:

第九章单元测试

导致推荐算法变得火热的主要原因为()。

A:信息爆炸导致信息过载,用户需求不明确B:信息爆炸导致信息过载,用户需求明确C:互联网和数字化内容的快速发展D:重要的商业价值

答案:信息爆炸导致信息过载,用户需求不明确根据热度排行榜为用户进行内容推荐的方式属于()。

A:根据用户的手机信息B:利用用户注册信息C:利用物品的内容信息D:利用非个性化推荐

答案:利用非个性化推荐基于用户的协同过滤的特点有()。

A:适用于用户较少的场合B:用户有新行为不一定造成推荐结果的立即变化C:适用于物品数明显小于用户数的场合D:用户有新行为一定会导致推荐结果的实时变化

答案:适用于用户较少的场合;用户有新行为不一定造成推荐结果的立即变化基于协同过滤的推荐系统一般应用于有用户评分的系统之中,通过分数去刻画用户对于物品的喜好。()

A:错B:对

答案:对大型成熟网站的推荐系统一般是基于各种推荐算法的优缺点以及适合场景分析的情况下,选择单一的推荐算法使用。()

A:对B:错

答案:错

第十章单元测试

根据网络的定义与表示,以下哪些陈述是正确的?()

A:邻接矩阵是分析网络结构的一个有效工具,其元素表示节点之间是否存在连边。B:根据网络中边的有向性和是否有权重,网络可以被分为无向无权、有向无权、无向有权和有向有权四种类型。C:在网络科学中,一个网络不能同时具有自环和重边。D:图提供了一种方法,通过抽象的点和线表示实际网络,使得研究者能够通过现象看本质。E:网络的拓扑性质与网络中节点的具体物理特性无关,而只与节点之间的连接方式有关。

答案:邻接矩阵是分析网络结构的一个有效工具,其元素表示节点之间是否存在连边。;根据网络中边的有向性和是否有权重,网络可以被分为无向无权、有向无权、无向有权和有向有权四种类型。;图提供了一种方法,通过抽象的点和线表示实际网络,使得研究者能够通过现象看本质。;网络的拓扑性质与网络中节点的具体物理特性无关,而只与节点之间的连接方式有关。在小世界网络中,下列关于小世界现象的描述,哪个是正确的?()

A:任意两个节点之间的平均距离与网络的节点数量成线性关系增长。B:网络的聚类系数接近0,表明网络中几乎没有集聚成团的现象。C:任意两个节点之间的平均距离与网络的节点数量的对数成比例增长。D:网络的所有节点都直接相连,形成一个完全图。

答案:任意两个节点之间的平均距离与网络的节点数量的对数成比例增长。关于网络的基本性质,以下哪项描述是正确的?()

A:无向网络的平均度与网络中节点数量成正比。B:在无向网络中,网络的平均度是所有节点度数之和的两倍除以节点总数。C:有向网络中,节点的出度总是小于入度。D:在任何网络中,所有节点的度都相同。

答案:在无向网络中,网络的平均度是所有节点度数之和的两倍除以节点总数。介数中心性(BetweennessCentrality)主要衡量了一个节点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论