南开大学22年春学期《数据挖掘》在线作业-00001_第1页
南开大学22年春学期《数据挖掘》在线作业-00001_第2页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-本页为预览页PAGE14-本页为预览页-本页为预览页22春学期(高起本1709-1803、全层次1809-2103)数据挖掘在线作业-00001第1题. 如果规则集中的规则按照优先级降序排列,则称规则集是( )。选项A:无序规则选项B:穷举规则选项C:互斥规则选项D:有序规则参考答案:D第2题. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。选项A:基于类的排序方案选项B:基于规则的排序方案选项C:基于度量的排序方案选项D:基于规格的排序方案参考答案:B第3题. 为了发现任意形状的聚类结果,提出了( )的聚类

2、方法。这类方法将簇看作是数据空间中被低密度区域分割开的高密度对象区域。选项A:基于密度选项B:基于网格选项C:基于模型选项D:层次方法参考答案:A第4题. 分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。选项A:1选项B:2选项C:3选项D:4参考答案:C第5题. ( )是影响数据质量的因素,反映数据是否容易理解。选项A:时效性选项B:可信性选项C:可解释性选项D:正确性参考答案:C第6题. 通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可

3、以再次进行数据清理,检测和删去可能由集成导致的冗余。选项A:预处理选项B:分析选项C:存储选项D:挖掘参考答案:A第7题. 有关数据仓库的开发特点,不正确的描述是( )。选项A:数据仓库开发要从数据出发选项B:数据仓库使用的需求在开发出去就要明确选项C:数据仓库的开发是一个不断循环的过程,是启发式的开发选项D:在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式参考答案:A第8题. 下面哪种不属于数据预处理的方法?( )选项A:变量代换选项B:离散化选项C:聚集选项D:估计遗漏值参考答案:D第9题. 顾客数据包含年龄和年薪属性。年薪属

4、性的取值范围可能比年龄大得多。这样,如果属性未( ),则距离度量在年薪上所取的权重一般要超过距离度量在年龄上所取的权重。选项A:挖掘选项B:归约选项C:存储选项D:规范化参考答案:D第10题. ( )是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。选项A:回归选项B:多元线性回归选项C:二元回归选项D:曲线回归参考答案:B第11题. ( )可能使挖掘过程陷入混乱,导致不可靠的输出。选项A:脏数据选项B:一致性数据选项C:可信性数据选项D:可解释性数据参考答案:A第12题. 下列哪个不是专门用于可视化时间空间数据的技术?( )选项A:等高线图选项B:饼图选项C:曲面图选项D

5、:矢量场图参考答案:B第13题. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是( )。选项A:有放回的简单随机抽样选项B:无放回的简单随机抽样选项C:分层抽样选项D:渐进抽样参考答案:D第14题. ( )是一种不使用目标变量(至少不明确使用)的数据挖掘。选项A:无指导数据挖掘选项B:有指导数据挖掘选项C:聚类选项D:数据分析参考答案:A第15题. 设X=1,2,3是频繁项集,则可由X产生( )个关联规则。选项A:4选项B:5选项C:6选项D:7参考答案:C第16题. 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215

6、使用等宽(宽度为50)划分成四个箱时,15在第( )个箱子内。选项A:第一个选项B:第二个选项C:第三个选项D:第四个参考答案:B第17题. 标称变量是二元变量的推广,它可以具有( )的状态值。例如,map_color是一个标称变量,它可能有5个状态:红色,黄色,绿色,粉红色和蓝色。选项A:两个选项B:多于两个选项C:一个选项D:三个参考答案:B第18题. ( )减少所考虑的随机变量或属性的个数。选项A:维归约选项B:数量归约选项C:离散选项D:聚集参考答案:A第19题. 下面关于数据粒度的描述不正确的是( )。选项A:粒度是指数据仓库小数据单元的详细程度和级别选项B:数据越详细,粒度就越小,

7、级别也就越高选项C:数据综合度越高,粒度也就越大,级别也就越高选项D:粒度的具体划分将直接影响数据仓库中的数据量以及查询质量参考答案:C第20题. ( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。选项A:离散化选项B:属性构造选项C:聚集选项D:规范化参考答案:C第21题. 数据仓库包含了海量数据。要求OLAP服务器在若干秒内回答决策支持查询。因此,数据仓库系统要支持高效的( )。选项A:变换选项B:数据立方体计算技术选项C:存取方法选项D:查询处理技术参考答案:B,C,D第22题. 在图象和视频

8、数据库中可以挖掘涉及多媒体对象的关联规则,至少包含以下三类规则:( )。选项A:与时间关系有关的图象内容的关联选项B:图象内容和非图象内容特征间的关联选项C:与空间关系无关的图象内容的关联选项D:与空间关系有关的图象内容的关联参考答案:B,C,D第23题. Web日志记录提供了有关Web动态的丰富信息,典型的Web日志记录条目包含了( )等。选项A:图像选项B:时间戳选项C:所请求的URL选项D:发出请求的IP地址参考答案:B,C,D第24题. 数据预处理的主要步骤有:( )。选项A:数据清理选项B:数据集成选项C:数据归约选项D:数据变换参考答案:A,B,C,D第25题. 神经网络的优点有:

9、( )选项A:预测的准确率通常很高选项B:强壮性好,当训练样本包含错误时很有效选项C:输出可以是离散的、实数值的或几个离散或实数值属性的向量选项D:学习目标函数的快速评估参考答案:A,B,C,D第26题. ( )都属于分裂的层次聚类算法。选项A:二分K均值选项B:MST选项C:Chameleon选项D:组平均参考答案:A,B第27题. 以下哪些学科和数据挖掘有密切联系( )?选项A:统计选项B:计算机组成原理选项C:矿产挖掘选项D:人工智能参考答案:A,D第28题. 层次聚类方法包括( )。选项A:划分聚类方法选项B:凝聚型层次聚类方法选项C:分解型层次聚类方法选项D:基于密度聚类方法参考答案

10、:B,C第29题. 下表是一个购物篮,假定支持度阈值为40%,其中( )是频繁闭项集。TID项:1.abc;2.abcd;3.bce;4.acde;5.de.选项A:abc选项B:ad选项C:cd选项D:de参考答案:A,D第30题. 通过( ),并解决不一致性来“清理”数据。选项A:填写缺失的值选项B:光滑噪声数据选项C:识别离群点选项D:删除离群点参考答案:A,B,C,D第31题. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。选项A:对选项B:错参考答案:B第32题. 数据挖掘和其他任何一种技术一样,它的应

11、用有好的一面也有坏的一面。因为数据挖掘揭示不容易发现的模式或各种知识,如果不正确使用的话,它可能对隐私和信息安全构成威胁。选项A:对选项B:错参考答案:A第33题. 数据清理通常是一个两步的迭代过程,包括偏差检测和数据变换。选项A:对选项B:错参考答案:A第34题. 可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。选项A:对选项B:错参考答案:A第35题. 术语“数值属性”和“连续属性”通常可以互换使用。选项A:对选项B:错参考答案:A第36题. 离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成

12、群或“簇”。直观地,落在簇集合之外的值被视为离群点 。选项A:对选项B:错参考答案:A第37题. 标称、二元和序数属性都是定性的,描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常代表类别的词,如:0表示小杯饮料,1表示中号杯,2表示大号杯。数值属性是定量的,是可度量的,用整数或实数值表示。可以计算平均数等。选项A:对选项B:错参考答案:A第38题. 噪声和伪像是数据错误这一相同表述的两种叫法。选项A:对选项B:错参考答案:B第39题. 如果规则X-Y-X不满足置信度阈值,则形如X1-Y-X1的规则一定也不满足置信度阈值,其中X1是X的子集。选项A:对选项B:错参考答案:A第40题.

13、 空间数据立方体中有两类不同的度量:数字度量仅包含数字数据。空间度量包含一组指向空间对象的指针。选项A:对选项B:错参考答案:A第41题. 数据清理(data cleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据。选项A:对选项B:错参考答案:A第42题. OLTP系统管理历史的数据,而OLAP管理当前数据。选项A:对选项B:错参考答案:B第43题. 分箱也可以作为一种离散化技术使用。选项A:对选项B:错参考答案:A第44题. 散点图是一种观察双变量数据的有用方法,用于观察点簇和离群点,或考察相关联系的可能性。对于维数超过4的数据集,散点图一般不

14、太有效。选项A:对选项B:错参考答案:A第45题. 数据挖掘结果经常看上去是可靠的,因为它们是基于实际的数据,以看似科学的态度进行处理。这种可靠性看上去非常具有欺骗性,因为数据可能不正确或者与手头的问题无关;汇总之类的数据转换可能会破坏或隐藏重要信息,模式可能不代表任何基本规则等。选项A:对选项B:错参考答案:A第46题. 频繁项集指满足最小支持度的项集,是挖掘关联规则的基本条件之一。选项A:对选项B:错参考答案:A第47题. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。选项A:对选项B:错参考答案:B第48题. 聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。选项A:对选项B:错参考答案:A第49题. 由标称数据产生概念分层是一种数据变换策略,属性,如street,可以泛化到较高的概念层,如city或country。许多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论