




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、单项选择题(下列每小题的备选参考答案为中,只有一个正确参考答案为)1.在数据集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意()。A.数据的规模B.数据的结构C.数据的传输速度D.数据的价值参考答案为:B2.C1:2;C2:4,该分类的信息熵为()。A.1B.0C.0.65D.0.92参考答案为:D3.()是找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知对象的类标号的过程。A.回归B.聚类C.数据分类D.关联规则参考答案为:B4.对于以下项集:{A,B};{A,C,D,E};{B,C,D,F};{A,B,C,D},{A,B,C,F}。其中,{A,C}→{A,B,C}的置信度为()。A.2/5B.3/5C.3/2D.2/3参考答案为:D5.以下聚类算法不属于基于原型聚类方法的是()。A.模糊c均值B.EM算法C.SOMD.CLIQUE参考答案为:D6.()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法参考答案为:C7.()是为布尔关联规则挖掘频繁项集的原创性算法。它逐层进行挖掘,利用先验性质:频繁项集的所有非空子集也都是频繁的。A.Apriori算法B.频繁模式增长算法C.使用垂直数据格式的算法D.knn算法参考答案为:A8.霍普金斯统计量的值接近0.5,表明数据分布为()。A.均匀分布B.高度左倾斜C.高度右倾斜D.不确定参考答案为:A9.以下选项中,不能作为判断数据挖掘模式有趣的依据是()。A.在某种确信度上,对于新的或检验数据是有效的B.新颖C.潜在有用D.不易被人理解参考答案为:D10.SVM通过搜索()来处理该问题。A.最小边缘超平面B.最大边缘超平面C.横截面D.支持向量参考答案为:B11.数量归约方法使用参数或非参数模型,下列选项中不属于非参数模型方法的是()。A.对数线性模型B.直方图C.聚类D.数据立方体聚集参考答案为:A12.在决策树中,()表示该测试的一个输出。A.根结点B.分支C.内部结点D.树叶结点参考答案为:D13.同时满足最小支持度阈值和最小置信度阈值的规则称为()。A.强规则B.弱规则C.关联规则D.频繁项集参考答案为:A14.因变量总的波动中不能通过回归模型解释的部分是()。A.离差平方和B.回归平方和C.残差平方和D.R2参考答案为:C15.()属于一种数据仓库技术,具有汇总、合并和聚集以及从不同的角度观察信息的能力。A.数据清理B.数据集成C.联机事务处理D.联机分析处理参考答案为:D16.以下选项中,不属于数据预处理方法的是()。A.变量代换B.离散化C.集成D.估计遗漏值参考答案为:D17.敏感度的公式为()。A.(TP+TN)/(P+N)B.(FP+FN)/(P+N)C.TP/PD.TN/N参考答案为:C18.假设12个销售价格记录组已排序如下:5,10,11,13,15,35,50,55,72,92,204,215,这组数据的中列数是()。A.42.5B.105C.210D.81参考答案为:B19.现实生活中,顾客倾向于先购买相机,再购买内存卡,再购买其他配件,这样的模式就是一个()模式。A.频繁子序列B.频繁项集C.频繁子结构D.频繁规则参考答案为:A20.()可以用来把数据压缩到较小的区间,例如0.0到1.0。A.数据集成B.数据归约C.数据变换D.数据清理参考答案为:C21.使用簇内方差和关于簇数的曲线拐点来估计簇数的方法为()。A.经验方法B.肘方法C.交叉验证D.以上都不是参考答案为:B22.DBSCAN在最坏情况下的时间复杂度是()。A.O(m)B.O(m2)C.O(logm)D.O(m*logm)参考答案为:B23.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.7参考答案为:C24.()属性的值用固定、相等的单位测量。A.标称B.二元C.区间标度D.比率标度参考答案为:C25.假设12个销售价格记录组已排序如下:5,10,11,13,15,35,50,55,72,92,204,215,等频(等深)划分时,15在第()个箱子内。A.第一B.第二C.第三D.第四参考答案为:B26.KDD是指()。A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现参考答案为:A27.假设属性income的最大最小值分别是12000元和98000元,利用最大最小规范化的方法将属性的值映射到0至1的范围内,对属性income的73600元将转化为()。A.0.821B.1.224C.1.458D.0.716参考答案为:D28.数据对象(1,2)和(3,5)之间的曼哈顿距离是()。A.5B.3.16C.3D.2参考答案为:A29.数据挖掘是商务智能的核心,在现实生活中,()技术可以更好地理解每组顾客的特征,并开发定制顾客奖励计划。A.聚类B.联机分析处理C.特征挖掘D.预测参考答案为:B30.q-分位数共有数据点()个。A.q+1B.qC.q-1D.3参考答案为:C31.()数据库中每个记录代表一个事务,如顾客的一次购物、一个航班订票等。A.事务B.关系C.数据仓库D.空间参考答案为:A二、多项选择题(下列每小题的备选参考答案为中,有两个或两个以上符合题意的正确参考答案为)1.数据平滑的方法主要有()。A.平均值法B.边界值法C.最小熵法D.中值法参考答案为:A、B、D2.以下属于分类属性选择度量的有()。A.信息增益B.增益率C.基尼指数D.k-means参考答案为:A、B、C3.下列属于时间相关或序列数据的有()。A.历史记录B.股票交易数据C.时间序列D.生物学序列参考答案为:A、B、C、D4.属于分裂的层次聚类算法有()。A.二分K均值B.MSTC.ChameleonD.组平均参考答案为:A、B5.朴素贝叶斯分类方法可以用于()。A.新闻分类B.情感分类C.疾病分类D.垃圾邮件分类参考答案为:A、B、C、D6.对于数据挖掘中的原始数据,存在的问题有()。A.不一致B.重复C.完整性D.维度高参考答案为:A、B、D7.可靠的分类器准确率估计方法有()。A.保持方法B.随机二次抽样C.交叉验证D.自助法参考答案为:A、B、C、D8.抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。假定大型数据集D包含N个元组。那么下述可以用于数据归约的、最常用的对D的抽样方法有()。A.无放回简单随机抽样B.有放回简单随机抽样C.簇抽样D.分层抽样参考答案为:A、B、C、D9.聚类评估的外部指标包括()。A.DBI指数B.Jaccard系数C.rand指数D.轮廓系数参考答案为:B、C10.数据变换的方法包括()。A.平滑B.属性构造C.聚集D.规范化参考答案为:A、B、C、D11.盒图中可以观察到的指标有()。A.方差B.四分位数C.最小值D.众数参考答案为:B、C12.单模矩阵有()。A.词向量矩阵B.数据矩阵C.相异性矩阵D.相关系数矩阵参考答案为:C、D13.数据分类是一个两阶段过程,包括()。A.学习阶段B.分类阶段C.抽样阶段D.聚合阶段参考答案为:A、B14.以下方法采用的是贪心方法的有()。A.ID3B.C4.5C.CARTD.DBSCAN参考答案为:A、B、C15.关于DBSCAN聚类算法的描述不正确的有()。A.集群中的数据点必须处于到核心点的距离阈限内B.它对数据空间中数据点的分布有很强的假设C.它具有相当高的时间复杂度O(n3)D.它不需要预先知道期望出现的簇的数量参考答案为:B、C16.决策树中包括()结点。A.根结点B.内部结点C.外部结点D.树叶结点参考答案为:A、B、D17.欧几里得距离具备的数学性质有()。A.同一性B.非负性C.连续性D.满足三角不等式参考答案为:A、B、D18.Apriori算法的计算复杂度受()影响。A.支持度阀值B.项数(维度)C.事务数D.事务平均宽度参考答案为:A、B、C、D19.K近邻分类的距离计算方法有()。A.欧式距离B.曼哈顿距离C.马氏距离D.海明距离参考答案为:A、B、C、D20.度量数据散布的度量有()。A.极差B.中列数C.方差D.标准差参考答案为:A、B、C、D21.数据集成可能产生的问题有()。A.属性冗余B.元组冲突C.数据值冲突D.属性值缺失参考答案为:A、B、C22.联机分析处理的操作包括()。A.钻取B.上卷C.切块D.旋转参考答案为:A、B、C、D23.可以应用()来检测数值属性的冗余数据。A.卡方检验B.相关系数C.协方差D.非参数检验参考答案为:B、C24.支持向量机使用()发现超平面。A.支持向量B.边缘C.距离D.检验元祖参考答案为:A、B25.多重共线性的解决方法有()。A.岭回归B.LassoC.主成分回归D.偏最小二乘法参考答案为:A、B、C、D26.K近邻分类的核心问题包括()。A.K值的确定B.距离的计算C.快速预测D.最大边缘参考答案为:A、B、C27.电影推荐系统是包含()的应用实例。A.分类B.聚类C.回归D.判别参考答案为:A、B28.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的有()。ID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐。A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶参考答案为:B、D29.在挖掘过程中,一旦识别闭项集就尽快对搜索空间进行剪枝。其中,剪枝包括()策略。A.项合并B.抽样C.子项集剪枝D.项跳过参考答案为:A、C、D30.对于频繁项集挖掘,已经开发了许多有效的、可伸缩的算法,由它们可以导出关联和相关规则。这些算法可以分成()。A.类Apriori算法B.基于频繁模式增长的算法C.使用垂直数据格式的算法D.使用水平数据格式的算法参考答案为:A、B、C31.数据归约中,参数方法包括()。A.回归B.聚类C.对数-线性模型D.抽样参考答案为:A、C32.组合方法可以通过学习和组合一系列个体(基)分类器模型提高总体准确率。以下属于组合方法的有()。A.装袋B.提升C.随机森林D.支持向量机参考答案为:A、B、C33.数值属性相异性的测度指标有()。A.闵可夫斯基距离B.曼哈顿距离C.欧几里得距离D.上确界距离参考答案为:A、B、C、D三、判断题1.数据挖掘把大型的数据集转换成知识。()参考答案为:正确2.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。()参考答案为:正确3.相关分析可以用来检测属性冗余问题。()参考答案为:正确4.在决策树中,顶层节点是树叶节点。()参考答案为:错误5.回归是一种常见的处理噪声数据的方法。()参考答案为:正确6.强规则一定是有趣的。()参考答案为:错误7.数据库的行对应于数据属性,列对应于数据对象。()参考答案为:错误8.定量属性可以是整数数值或者连续值。()参考答案为:正确9.最佳分离超平面上的点称为支持向量。()参考答案为:错误10.中位数是数据中心趋势的度量。()参考答案为:正确11.负倾斜的数据中,众数<中位数><均值。()<body></均值。(></中位数>参考答案为:错误12.聚类形成簇的主题一定是互斥的。()参考答案为:错误13.ROC曲线下方的面积是模型准确率的度量,面积越接近于0.5,模型准确率越高。()参考答案为:错误14.余弦度量是两个与A和B相关的关联规则“AeB”和“BeA”的几何平均置信度。()参考答案为:正确15.对于二维数据,SVM需要找到一条最好的分离直线,使分类误差最小。()参考答案为:正确16.具有较高的支持度的项集具有较高的置信度。()参考答案为:错误17.提升度的值等于零表明两个项不相关。()参考答案为:正确18.一个数据序列只能一个众数。()参考答案为:错误19.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。()参考答案为:正确20.闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广。()参考答案为:正确21.k-均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。()参考答案为:错误四、简答题1.数据挖掘的相关技术有哪些?参考答案为:(1)统计学;(2)机器学习;(3)数据库;(4)可视化技术;(5)算法。2.简述数据仓库的特点。参考答案为:(1)主题与面向主题;(2)数据的集成性;(3)数据的不可更新性;(4)数据的时态性。3.决策树算法的属性选择度量方法有哪些?参考答案为:(1)信息增益;(2)信息增益率;(3)GINI指数。4.简述数据变换采用的几种策略。参考答案为:(1)光滑;(2)属性构造;(3)聚集;(4)规范化;(5)离散化;(6)由标称数据产生概念分层。5.常见的数量归约方法有哪些?参考答案为:(1)参数方法:回归和对数-线性模型;(2)非参数方法:直方图、聚类、抽样、数据立方体聚集。6.多重共线性的解决办法有哪些?参考答案为:(1)岭回归;(2)Lasso;(3)主成分回归;(4)偏最小二乘回归。7.简述如何计算非对称二元属性对象的相异性。参考答案为:(r+s)/(q+r+s)q:对象i和j都取1的属性数;r:对象i取1,对象j取0的属性数;s:对象i取0,对象j取1的属性数。8.分类器的评估指标有哪些?参考答案为:(1)准确率;(2)错误率;(3)灵敏性;(4)特效性;(5)精度;(6)召回率;(7)F(1)度量;(8)Fβ度量。9.简述三种描述数据散布的统计量及其计算方法。参考答案为:极差:观测值最大值与最小值之间的差;方差:观测值与平均数差的平方的平均值;标准差:方差的算术平方根;中列数:观测值最大值与最小值的平均值;四分位数极差:第三个四分位数与第一个四分位数之间的差。10.简述基于密度聚类方法的一般特点。参考答案为:(1)可以发现任意形状的簇;(2)簇的对象空间中被低密度区域分隔的稠密区域;(3)簇密度:每个点的“领域”内必须具有最少个数的点;(4)可能过滤离群点。11.简述支持向量机的基本思想。参考答案为:SVM算法即寻找一个分类器使得超平面和最近的数据点之间的分类边缘(超平面和最近的数据点之间的间隔被称为分类边缘)最大,对于SVM算法通常认为分类边缘越大,平面越优,通常定义具有“最大间隔”的决策面就是SVM要寻找的最优解。并且最优解对应两侧虚线要穿过的样本点,称为“支持向量”。其处理的基本思路为:把问题转化为一个凸二次规划问题,可以用运筹学有关思想进行求解:1目标函数在线性SVM算法中,目标函数显然就是那个"分类间隔",使分类间隔最大2约束条件即决策面,通常需要满足三个条件:
(1)确定决策面使其正确分类;
(2)决策面在间隔区域的中轴线;
(3)如何确定支持向量因此求解SVM问题即转化为求解凸二次规划的最优化问题。12.简述分类与回归的区别。参考答案为:分类是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测;回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。13.数据质量可以从哪几个方面进行评估?参考答案为:(1)准确性;(2)完整性;(3)一致性;(4)时效性;(5)可信性;(6)可解释性。14.简述k-均值聚类方法的缺点。参考答案为:(1)必须实现诶出要生成的簇数;(2)不适于发现非凸形状的簇,或大小差别很大的簇;(3)对噪声和离群点敏感。15.简述凝聚的层次方法的聚类质量改进方法,并对每种方法举出一个实例。参考答案为:分析每个层次划分中的对象连接,例如Chameleon;在微簇聚类的基础上结合其他聚类技术,例如BIRCH。16.简述三条数据挖掘对聚类的典型要求。参考答案为:(1)可伸缩性;(2)可处理不同属性类型数据;(3)可发现任意形状的簇;(4)具备对确定输入参数相关领域的知识;(5)具有处理噪声数据的能力;(6)增加聚类和输入次序不敏感;(7)具有处理高维数据的能力;(8)具有较好的可解释性和可用性;(9)聚类适应于不同的约束前提。17.简述描述型的机器学习算法类型。参考答案为:(1)聚类;(2)关联规则;(3)序列分析;(4)离群点检测。18.简述由频繁项集产生关联规则的步骤。参考答案为:(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果满足置信度要求,则输出规则SeL-S。五、计算题1.假设所分析的数据中数据元组的值为26,14,20,59,66,69,72,23,32,24,34,37,53,17,19,38,43,48,49,56。(1)该数据的均值是多少?中位数是多少?众数是多少?(2)该数据的中列数是多少?方差和标准差是多少?(3)该数据的四分位数极差是多少?绘制该数据的盒图。参考答案为:(1)均值39.95,中位数37.5,众数无(2)中列数43,方差319.05,标准差17.86(3)四分位数极差302.在决策树分类中,依据分裂规则的不同提出了不同决策树算法,信息增益准则在ID3分类方法中采用。我们希望能够学习出一个贷款申请的决策树,当新的客户提申请贷款时,根据申请人的特征利用决策树决定是否批准申请贷款。请完成如下的计算。ID年龄有工作有自己的房子信贷情况是否批准贷款申请1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否(1)假设目前在根节点,包含所有15个样本点,请计算根节点分类所需的期望信息?(2)计算“年龄”、“有工作”、“有自己的房子”、“信贷情况”四个属性的信息增益。(3)说明基于信息增益准则,应该选择什么属性作为分裂属性。参考答案为:应该选择“有自己的房子”的信息增益最大,因此作为分类属性。3.下面的相依表汇总了超市的事务数据。其中hotdogs表示包含热狗的事务,hotdogs表示不包含热狗的事务,hamburgers表示包含汉堡的事务,hamburgers表示不包含汉堡的事务。hot
dogshotdogs∑hamburgers20005002500hamburgers100015002500∑3000200050
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度企业法人变更与股权收购合同
- 2025年度非婚生子女监护权及生活费用保障协议
- 2025年度知识产权交易付款委托三方协议
- 二零二五年度企业反垄断法律顾问服务协议
- 2025年度未成年人监护权委托代理合同模板
- 2025年度甲级写字楼办公室合租管理合同
- 二零二五年度汽车保险代理合同
- 二零二五年度花卉租摆与植物养护服务合同
- 二零二五年度信用卡透支贷款协议书
- 二零二五年度银行与交通企业物流金融合同标准
- 2025年内蒙古北方职业技术学院单招职业倾向性测试题库及答案一套
- 2025年安徽水利水电职业技术学院单招职业适应性测试题库(含答案)
- 中国瓶装水饮用水项目投资可行性研究报告
- 山东省青岛市市北区2024-2025学年七年级上学期期末考试英语试题(含答案+解析)
- 餐饮及食品安全管理制度
- 湖北省襄阳市襄州区2024-2025学年九年级上学期期末语文试题(含答案)
- 2025年安徽电气工程职业技术学院单招职业技能测试题库及答案1套
- 2024年世界职业院校技能大赛高职组“市政管线(道)数字化施工组”赛项考试题库
- 摄影入门课程-摄影基础与技巧全面解析
- 追觅科技在线测评逻辑题
- 城市轨道交通乘客服务课件(完整版)
评论
0/150
提交评论