数据挖掘-选择题

上传人：1*** IP属地：湖北上传时间：2024-09-05 格式：DOCX 页数：47 大小：265.72KB 积分：6 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1.未来房价的预测，这种属于数据挖掘的哪类问题？(D)A.分类B.聚类C.关联规则D.回归分析2.以下哪些算法是关联规则挖掘?(D)A.DBSCANB.ID3C.K-MeansD.Apriori3.下列哪个描述是正确的?(C)A.回归和聚类都是有指导的学习B.回归和聚类都是无指导的学习C.回归是有指导的学习，聚类是无指导的学习D.D．回归是无指导的学习，聚类是有指导的学习4.当分析顾客\t"/qwop446/article/details/_blank"消费行业，以便有针对性的向其推荐感兴趣的服务，属于什么问题？(C)A.分类B.聚类C.关联规则D.主成分分析5.关联规则的评价指标是？(C)A.均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度D.平均绝对误差、相对误差6.下列关于凝聚层次聚类的说法，说法正确的是？(B)A.一旦两个簇合并，该操作还能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度 D.具有全局优化目标函数7.决策树中不包含以下哪种节点？(C)A.根节点B.内部节点C.外部节点D.叶节点8.我们想在大数据集上训练决策树,为了使用较少时间,我们可以(C)A.增加树的深度B.增加学习率(learningrate)C.减少树的深度D.减少树的数量9.关于欠拟合（under-fitting），下面哪个说法是正确的？(C)A.训练误差较大，测试误差较小B.训练误差较小，测试误差较大C.训练误差较大，测试误差较大D.训练误差不变，测试误差较大10.以下哪种技术对于减少数据集的维度会更好？(A)A.删除缺少值太多的列B.删除数据差异较大的列C.删除不同数据趋势的列D.都不是11.以下不属于影响聚类算法结果的主要因素有(A)A.已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度12.影响基本K-均值算法的主要因素有(B)A.样本输入顺序B.模式相似性测度C.聚类准则D.样本的数量13.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：(B)A.二分类问题B.多分类问题C.层次聚类问题D.k-中心点聚类问题14.一般，k-NN最近邻方法在(B)的情况下效果较好A.样本较多但典型性不好B.样本较少但典型性好C.样本呈团状分布D.样本呈链状分布15.“点击率问题”是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是（C）A.模型预测准确率已经很高了,我们不需要做什么了B.模型预测准确率不高,我们需要做点什么改进模型C.无法下结论D.以上都不对1.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分类？(B)A.分类B.聚类C.关联规则D.主成分分析2.Apriori算法的计算复杂度不受影响？(B)A.支持度阈值B.时间C.事务数D.项数(维度)3.下列算法中不属于监督式学习算法的是(D)A.K-近邻算法B.线性回归C.逻辑回归D.K-Means算法4.下列两个变量之间的关系中，哪一个是线性关系(D)A.学生的性别与他（她）的数学成绩B.人的工作环境与他的身体健康状况C.儿子的身高与父亲的身高D.正方形的边长与周长5.线性回归能完成的任务是(B)A.预测离散值B.预测连续值C.分类D.聚类6.以下哪个方法不可以直接来对文本分类(A)A.KmeansB.决策树C.支持向量机 D.KNN7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题(B)A.减少模型中特征的数量B.向模型中增加更多的特征C.增加更多的数据D.以上全是8.关于主成分分析PCA说法不正确的是(C)A.我们必须在使用PCA前规范化数据B.我们应该选择使得模型有最大variance的主成分C.我们应该选择使得模型有最小variance的主成分D.我们可以使用PCA在低纬度上做数据可视化9.以下说法正确的是(C)A.一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的B.如果增加模型复杂度，那么模型的测试错误率总是会降低C.如果增加模型复杂度，那么模型的训练错误率总是会降低D.我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习10.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C)A.增加树的深度B.增加学习率C.减小树的深度D.减少树的数量11.协同过滤算法解决的是数据挖掘中的哪类问题(C)A.分类问题B.聚类问题C.推荐问题D.自然语言处理问题12.逻辑回归适用于以下哪个问题(C)A.回归问题B.聚类问题C.二分类问题D.多分类问题13.以下对k-means聚类算法解释正确的是(C)A.能自动识别类的个数,随即挑选初始点为中心点计算B.能自动识别类的个数,不是随即挑选初始点为中心点计算C.不能自动识别类的个数,随即挑选初始点为中心点计算D.不能自动识别类的个数,不是随即挑选初始点为中心点计算14.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联规则发现D.主成分分析15.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。A.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购买行为和购买记录1.未来房价的预测，这种属于数据挖掘的哪类问题？(D)A.分类B.聚类C.关联规则D.回归分析2.以下哪些算法是关联规则挖掘?(D)A.DBSCANB.ID3C.K-MeansD.Apriori3.下列哪个描述是正确的?(C)A.回归和聚类都是有指导的学习B.回归和聚类都是无指导的学习C.回归是有指导的学习，聚类是无指导的学习D.回归是无指导的学习，聚类是有指导的学习4.当分析顾客\t"/qwop446/article/details/_blank"消费行业，以便有针对性的向其推荐感兴趣的服务，属于什么问题？(C)A.分类B.聚类C.关联规则D.主成分分析5.关联规则的评价指标是？(C)A.均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度D.平均绝对误差、相对误差6.下列关于凝聚层次聚类的说法，说法正确的是？(B)A.一旦两个簇合并，该操作还能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度 D.具有全局优化目标函数7.决策树中不包含以下哪种节点？(C)A.根节点B.内部节点C.外部节点D.叶节点8.我们想在大数据集上训练决策树,为了使用较少时间,我们可以(C)A.增加树的深度B.增加学习率(learningrate)C.减少树的深度D.减少树的数量9.关于欠拟合（under-fitting），下面哪个说法是正确的？(C)A.训练误差较大，测试误差较小B.训练误差较小，测试误差较大C.训练误差较大，测试误差较大D.训练误差不变，测试误差较大10.以下哪种技术对于减少数据集的维度会更好？(A)A.删除缺少值太多的列B.删除数据差异较大的列C.删除不同数据趋势的列D.都不是11.以下不属于影响聚类算法结果的主要因素有(A)A.已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度12.影响基本K-均值算法的主要因素有(B)A.样本输入顺序B.模式相似性测度C.聚类准则D.样本的数量13.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：(B)A.二分类问题B.多分类问题C.层次聚类问题D.k-中心点聚类问题14.一般，k-NN最近邻方法在(B)的情况下效果较好A.样本较多但典型性不好B.样本较少但典型性好C.样本呈团状分布D.样本呈链状分布15.下列表述中，在k-fold交叉验证中关于选择K说法正确的是（D）A.较大的K并不总是好的，选择较大的K可能需要较长的时间来评估你的结果B.相对于期望误差来说，选择较大的K会导致低偏差（因为训练folds会变得与整个数据集相似）C.在交叉验证中通过最小化方差法来选择K值D.以上都正确16.下面哪项不是常用的自然语言处理技术：(D)A.词条化B.词性标注C.句法分析D.交叉验证17.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘18.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B)A.分类B.聚类C.关联分析D.隐马尔可夫链19.什么是KDD？(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现20.数据仓库是随着时间变化的,下面的描述不正确的是(C)A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合1.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分类？(B)A.分类B.聚类C.关联规则D.主成分分析2.Apriori算法的计算复杂度不受影响？(B)A.支持度阈值B.时间C.事务数D.项数(维度)3.下列算法中不属于监督式学习算法的是(D)A.K-近邻算法B.线性回归C.逻辑回归D.K-Means算法4.下列两个变量之间的关系中，哪一个是线性关系(D)A.学生的性别与他（她）的数学成绩B.人的工作环境与他的身体健康状况C.儿子的身高与父亲的身高D.正方形的边长与周长5.线性回归能完成的任务是(B)A.预测离散值B.预测连续值C.分类D.聚类6.以下哪个方法不可以直接来对文本分类(A)A.KmeansB.决策树C.支持向量机 D.KNN7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题(B)A.减少模型中特征的数量B.向模型中增加更多的特征C.增加更多的数据D.以上全是8.关于主成分分析PCA说法不正确的是(C)A.我们必须在使用PCA前规范化数据B.我们应该选择使得模型有最大variance的主成分C.我们应该选择使得模型有最小variance的主成分D.我们可以使用PCA在低纬度上做数据可视化9.以下说法正确的是(C)A.一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的B.如果增加模型复杂度，那么模型的测试错误率总是会降低C.如果增加模型复杂度，那么模型的训练错误率总是会降低D.我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习10.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C)A.增加树的深度B.增加学习率C.减小树的深度D.减少树的数量11.协同过滤算法解决的是数据挖掘中的哪类问题(C)A.分类问题B.聚类问题C.推荐问题D.自然语言处理问题12.逻辑回归适用于以下哪个问题(C)A.回归问题B.聚类问题C.二分类问题D.多分类问题13.以下对k-means聚类算法解释正确的是(C)A.能自动识别类的个数,随即挑选初始点为中心点计算B.能自动识别类的个数,不是随即挑选初始点为中心点计算C.不能自动识别类的个数,随即挑选初始点为中心点计算D.不能自动识别类的个数,不是随即挑选初始点为中心点计算14.简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作(B)A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类15.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。A.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购买行为和购买记录16.决策树中不包含一下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点17.以下哪些分类方法可以较好地避免样本的不平衡问题（A）A.KNNB.SVMC.朴素贝叶斯D.神经网络18.以下哪些学科和数据挖掘有密切联系？(A)A.统计B.计算机组成原理C.矿产挖掘D.云存储19.下列哪项不是NLTK模块实现词条化方法的是（D）A.sent_tokenize()B.word_tokenize()C.PunktWordTokenizer()D.tokenize()20.图像数据分析的常用方法不包括（D）A.图像变换B.图像编码和压缩C.图像增强和复原D.图像数据采集1、OLAP技术的核心是:(D) A.在线性; B.对用户的快速响应; C.互操作性. D.多维分析;2、多维数据分析包括哪些方法？(ABEF)(多选) A、切片 B、切块 C、降维 D、统计 E、钻取 F、旋转3、数据的度量单位包括（ABC）(多选) A、GBB、YBC、ZBD、NB4、大数据一般具备以下特征（ABC）(多选) A、规模大B、速度快C、类型多D、用户广5、讨论下列每项活动是否是数据挖据任务(FGH)(多选) A、根据性别划分公司的顾客。 B、根据可赢利性划分公司的顾客。 C、计算公司的总销售额。 D、按学生的标识号对学生数据库排序。 E、预测掷一对骰子的结果。 F、使用历史记录预测某公司未来的股票价格。 G、监视病人心率的异常变化。 H、监视地震活动的地震波。 I、提取声波的频率6、交叉验证如果设置K=5，会训练几次？（E） A、1 B、2 C、3 D、4 E、5 F、67、如下图所示，对同一数据集进行训练，得到3个模型。对于这3个模型的评估，下列说法正确的是？（ACD） A.第一个模型的训练误差最大 B.第三个模型性能最好，因为其训练误差最小 C.第二个模型最稳健，其在测试集上表现应该最好 D.第三个模型过拟合8、下面有关分类算法的准确率，召回率，F1值的描述，错误的是(C) A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率 C.正确率、召回率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高 D.为了解决准确率和召回率冲突问题，引入了F1分数9、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下哪些步骤？（ABCD）（多选） A、选择一个算法过程使评分函数最优 B、决定如何量化和比较不同表示拟合数据的好坏 C、决定要使用的表示的特征和结构 D、决定用什么样的数据管理原则以高效地实现算法10、Pandas处理缺失值的函数有？（A） A、fillna()B、fit() C、predict()D、iloc()11、Python内建的数据类型有哪些？（ABCDE） A、元组 B、列表 C、字典 D、集合 E、函数12、Python标准数据类型为元组，如何标识？（B） A．[] B．() C．{} D．“”13、一般k-NN最近邻方法在（B）的情况下效果较好 A样本较多但典型性不好 B样本较少但典型性好 C样本呈团状分布 D样本呈链状分布14、当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A、分类B、聚类C、关联规则发现D、主成分分析15、以下哪些算法是监督学习算法：(ABD)(多选) A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机1、下面有关分类算法的准确率，召回率，F1值的描述，错误的是(C) A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率 C.正确率、召回率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高 D.为了解决准确率和召回率冲突问题，引入了F1分数2、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下哪些步骤？（ABCD）（多选） A、选择一个算法过程使评分函数最优 B、决定如何量化和比较不同表示拟合数据的好坏 C、决定要使用的表示的特征和结构 D、决定用什么样的数据管理原则以高效地实现算法3、Pandas处理缺失值的函数有？（A） A、fillna()B、fit() C、predict()D、iloc()4、Python内建的数据类型有哪些？（ABCDE） A、元组 B、列表 C、字典 D、集合 E、函数5、Python标准数据类型为元组，如何标识？（B） A．[] B．() C．{} D．“”6、一般k-NN最近邻方法在（B）的情况下效果较好 A样本较多但典型性不好 B样本较少但典型性好 C样本呈团状分布 D样本呈链状分布7、当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A、分类B、聚类C、关联规则发现D、主成分分析8、以下哪些算法是监督学习算法：(ABD)(多选) A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机9、以下哪项关于决策树的说法是错误的（C） A、冗余属性不会对决策树的准确率造成不利的影响 B、子树可能在决策树中重复多次 C、决策树算法对于噪声的干扰非常敏感 D、寻找最佳决策树是NP完全问题10、NaveBayes是Bayes分类器的一种,如特征变量是X,类别标签是C,它的假定是（C） A、各类别的先验概率P(C)是相等的 B、以0为均值.sqr(2)/2为标准差的正态分布 C、特征变量X的各个维度是类别条件独立随机变量 D、P(X|C)是高斯分布11、逻辑回归适用于以下哪个问题(C) A、回归问题B、聚类问题C、二分类问题D、多分类问题12、Lasso回归与传统的线性回归方程区别是(A) A、增加L1范数惩罚因子B、增加L2范数惩罚因子 C、无区别 D、Lasso回归是线性方程在sigmoid函数上的嵌套13、概率论中P(A|B)表示什么意思？（B） A、A事件发生情况下B事件的概率 B、B事件发生的情况下A事件发生的概率 C、A事件和B事件同时发生的概率 D、A事件或者B事件发生的概率14、未来房价的预测，这种属于数据挖掘的哪类问题？（ D ） A．分类 B．聚类 C．关联规则 D．回归分析15、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（C） A．欠拟合 B．模型很棒 C．过拟合1、以下哪项关于决策树的说法是错误的（C） A、冗余属性不会对决策树的准确率造成不利的影响 B、子树可能在决策树中重复多次 C、决策树算法对于噪声的干扰非常敏感 D、寻找最佳决策树是NP完全问题2、NaveBayes是Bayes分类器的一种,如特征变量是X,类别标签是C,它的假定是（C） A、各类别的先验概率P(C)是相等的 B、以0为均值.sqr(2)/2为标准差的正态分布 C、特征变量X的各个维度是类别条件独立随机变量 D、P(X|C)是高斯分布3、逻辑回归适用于以下哪个问题(C) A、回归问题B、聚类问题C、二分类问题D、多分类问题4、Lasso回归与传统的线性回归方程区别是(A) A、增加L1范数惩罚因子B、增加L2范数惩罚因子 C、无区别 D、Lasso回归是线性方程在sigmoid函数上的嵌套5、概率论中P(A|B)表示什么意思？（B） A、A事件发生情况下B事件的概率 B、B事件发生的情况下A事件发生的概率 C、A事件和B事件同时发生的概率 D、A事件或者B事件发生的概率6、未来房价的预测，这种属于数据挖掘的哪类问题？（ D ） A．分类 B．聚类 C．关联规则 D．回归分析7、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（C） A．欠拟合 B．模型很棒 C．过拟合8、关于欠拟合（under-fitting），下面哪个说法是正确的？（C） A.训练误差较大，测试误差较小 B.训练误差较小，测试误差较大 C.训练误差较大，测试误差较大9、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？(A) A、关联规则发现 B、聚类 C、分类 D、自然语言处理10、使用k=1的knn算法,下图二类分类问题,“+”和“o”分别代表两个类,那么,用仅拿出一个测试样本的交叉验证方法,交叉验证的错误率是多少（B） A．0% B．100% C．0%到100 D．以上都不是11、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C) A.增加树的深度 B.增加学习率 C.减小树的深度 D.减少树的数量12、以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC13、以下描述错误的是？(AC) ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier） B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好 C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题 D聚类分析可以看做是一种非监督的分类14、假定某同学使用NaiveBayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是（BD）（多选） A、这个被重复的特征在模型中的决定作用会被加强 B、模型效果相比无重复特征的情况下精确度会降低 C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样 D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题15、决策树中那类节点不包括属性？（D） A、根节点 B、父节点 C、子节点 D、叶子节点？1、未来房价的预测，这种属于数据挖掘的哪类问题？（ D ） A．分类 B．聚类 C．关联规则 D．回归分析2、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（C） A．欠拟合 B．模型很棒 C．过拟合3、关于欠拟合（under-fitting），下面哪个说法是正确的？（C） A.训练误差较大，测试误差较小 B.训练误差较小，测试误差较大 C.训练误差较大，测试误差较大4、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？(A) A、关联规则发现 B、聚类 C、分类 D、自然语言处理5、使用k=1的knn算法,下图二类分类问题,“+”和“o”分别代表两个类,那么,用仅拿出一个测试样本的交叉验证方法,交叉验证的错误率是多少（B） A．0% B．100% C．0%到100 D．以上都不是6、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C) A.增加树的深度 B.增加学习率 C.减小树的深度 D.减少树的数量7、以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC8、以下描述错误的是？(AC) ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier） B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好 C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题 D聚类分析可以看做是一种非监督的分类9、假定某同学使用NaiveBayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是（BD）（多选） A、这个被重复的特征在模型中的决定作用会被加强 B、模型效果相比无重复特征的情况下精确度会降低 C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样 D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题10、决策树中那类节点不包括属性？（D） A、根节点 B、父节点 C、子节点 D、叶子节点？11、以下哪些算法是分类算法？（B） A、DBSCANB、LogisticregressionC、K-MeanD、EM12、以下哪个是回归模型评判的指标？（A） A、mean_squared_error(MSE)B、准确率 C、召回率D、轮廓系数13、关于K均值和DBSCAN的比较.以下说法不正确的是？（A） A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇 D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇14、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？（B） A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类15、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种（C）凝聚层次聚类技术。 A、单链接B、全链接C、组平均D、质心距离1、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C) A.增加树的深度 B.增加学习率 C.减小树的深度 D.减少树的数量2、以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC3、以下描述错误的是？(AC) ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier） B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好 C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题 D聚类分析可以看做是一种非监督的分类4、假定某同学使用NaiveBayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是（BD）（多选） A、这个被重复的特征在模型中的决定作用会被加强 B、模型效果相比无重复特征的情况下精确度会降低 C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样 D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题5、决策树中那类节点不包括属性？（D） A、根节点 B、父节点 C、子节点 D、叶子节点？6、以下哪些算法是分类算法？（B） A、DBSCANB、LogisticregressionC、K-MeanD、EM7、以下哪个是回归模型评判的指标？（A） A、mean_squared_error(MSE)B、准确率 C、召回率D、轮廓系数8、关于K均值和DBSCAN的比较.以下说法不正确的是？（A） A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇 D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇9、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？（B） A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类10、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种（C）凝聚层次聚类技术。 A、单链接B、全链接C、组平均D、质心距离11、影响基本K-均值算法的主要因素不包括？（A） A、样本输入顺序B、模式相似性测度 C、聚类准则D、初始类中心的选取12、下列关于凝聚层次聚类的说法，说法错误的是？（D） A．一旦两个簇合并，该操作就不能撤销 B．算法的终止条件是仅剩下一个簇 C．空间复杂度为O(m2) D．具有全局优化目标函数13、下列哪个描述是正确的?（C） A．分类和聚类都是有指导的学习 B．分类和聚类都是无指导的学习 C．分类是有指导的学习，聚类是无指导的学习 D．分类是无指导的学习，聚类是有指导的学习14、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?(A) A．MIN(单链) B．MAX(全链) C．组平均 D．Ward方法15、对于下图,最好的主成分选择是多少?（B） A．7 B．30 C．35 D．Can’tSay1、决策树中那类节点不包括属性？（D） A、根节点 B、父节点 C、子节点 D、叶子节点？2、以下哪些算法是分类算法？（B） A、DBSCANB、LogisticregressionC、K-MeanD、EM3、以下哪个是回归模型评判的指标？（A） A、mean_squared_error(MSE)B、准确率 C、召回率D、轮廓系数4、关于K均值和DBSCAN的比较.以下说法不正确的是？（A） A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇 D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇5、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？（B） A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类6、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种（C）凝聚层次聚类技术。 A、单链接B、全链接C、组平均D、质心距离7、影响基本K-均值算法的主要因素不包括？（A） A、样本输入顺序B、模式相似性测度 C、聚类准则D、初始类中心的选取8、下列关于凝聚层次聚类的说法，说法错误的是？（D） A．一旦两个簇合并，该操作就不能撤销 B．算法的终止条件是仅剩下一个簇 C．空间复杂度为O(m2) D．具有全局优化目标函数9、下列哪个描述是正确的?（C） A．分类和聚类都是有指导的学习 B．分类和聚类都是无指导的学习 C．分类是有指导的学习，聚类是无指导的学习 D．分类是无指导的学习，聚类是有指导的学习10、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?(A) A．MIN(单链) B．MAX(全链) C．组平均 D．Ward方法11、对于下图,最好的主成分选择是多少?（B） A．7 B．30 C．35 D．Can’tSay12、对于下面三个模型的训练情况，下面说法正确的是（ACD) A第一张图的训练错误与其余两张图相比，是最大的 B最后一张图的训练效果最好，因为训练错误最小 C第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型第三张图相对前两张图过拟合了 D三个图表现一样，因为我们还没有测试数据集13、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。 A、客户的朋友B、客户的个人信息 C、客户的兴趣爱好D、客户过去的购买行为和购买记录14、下列哪些适合用来对高维数据进行降维？（BC）（多选） A、LASSOB、主成分分析法 C、特征选择D、聚类分析15、协同过滤算法解决的是数据挖掘中的哪类问题？（C） A、分类问题B、聚类问题 C、推荐问题D、自然语言处理问题1、影响基本K-均值算法的主要因素不包括？（A） A、样本输入顺序B、模式相似性测度 C、聚类准则D、初始类中心的选取2、下列关于凝聚层次聚类的说法，说法错误的是？（D） A．一旦两个簇合并，该操作就不能撤销 B．算法的终止条件是仅剩下一个簇 C．空间复杂度为O(m2) D．具有全局优化目标函数3、下列哪个描述是正确的?（C） A．分类和聚类都是有指导的学习 B．分类和聚类都是无指导的学习 C．分类是有指导的学习，聚类是无指导的学习 D．分类是无指导的学习，聚类是有指导的学习4、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?(A) A．MIN(单链) B．MAX(全链) C．组平均 D．Ward方法5、对于下图,最好的主成分选择是多少?（B） A．7 B．30 C．35 D．Can’tSay6、对于下面三个模型的训练情况，下面说法正确的是（ACD) A第一张图的训练错误与其余两张图相比，是最大的 B最后一张图的训练效果最好，因为训练错误最小 C第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型第三张图相对前两张图过拟合了 D三个图表现一样，因为我们还没有测试数据集7、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。 A、客户的朋友B、客户的个人信息 C、客户的兴趣爱好D、客户过去的购买行为和购买记录8、下列哪些适合用来对高维数据进行降维？（BC）（多选） A、LASSOB、主成分分析法 C、特征选择D、聚类分析9、协同过滤算法解决的是数据挖掘中的哪类问题？（C） A、分类问题B、聚类问题 C、推荐问题D、自然语言处理问题10、通过聚集多个分类器的预测来提高分类准确率的技术称为（A） A、集成(ensemble)B、聚集(aggregate) C、合并(combination)D、投票(voting)11、对于随机森林和GradientBoostingTrees,下面说法正确的是(B) A在随机森林的单个树中,树和树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的. B这两个模型都使用随机特征子集,来生成许多单个的树. C我们可以并行地生成GradientBoostingTrees单个树,因为它们之间是没有依赖的,GradientBoostingTrees训练模型的表现总是比随机森林好12、图像分类存在的困难和挑战主要包括（ABCDEF）（多选） A、视角变化B、大小变化C、形状变化 D、遮挡E、光照条件F、背景干扰13、下面那个算法可以将文本数据转换为数值数据？（A） A、TF-IDFB、决策树C、PCAD、DBSCAN14、在以下不同的场景中,使用的分析方法不正确的有(B) A根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级 B根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式 C用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫 D根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女15、以下对k-means聚类算法解释正确的是(C) A能自动识别类的个数,随即挑选初始点为中心点计算 B能自动识别类的个数,不是随即挑选初始点为中心点计算 C不能自动识别类的个数,随即挑选初始点为中心点计算 D不能自动识别类的个数,不是随即挑选初始点为中心点计算1、以下哪些算法是监督学习算法：(ABD)(多选) A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机2、逻辑回归适用于以下哪个问题(C) A、回归问题B、聚类问题C、二分类问题D、多分类问题3、未来房价的预测，这种属于数据挖掘的哪类问题？（ D ） A．分类 B．聚类 C．关联规则 D．回归分析4、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？(A) A、关联规则发现 B、聚类 C、分类 D、自然语言处理5、以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC6、决策树中那类节点不包括属性？（D） A、根节点 B、父节点 C、子节点 D、叶子节点？7、关于K均值和DBSCAN的比较.以下说法不正确的是？（A） A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇 D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇8、影响基本K-均值算法的主要因素不包括？（A） A、样本输入顺序B、模式相似性测度 C、聚类准则D、初始类中心的选取9、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?(A) A．MIN(单链) B．MAX(全链) C．组平均 D．Ward方法10、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。 A、客户的朋友B、客户的个人信息 C、客户的兴趣爱好D、客户过去的购买行为和购买记录11、通过聚集多个分类器的预测来提高分类准确率的技术称为（A） A、集成(ensemble)B、聚集(aggregate) C、合并(combination)D、投票(voting)12、对于随机森林和GradientBoostingTrees,下面说法正确的是(B) A在随机森林的单个树中,树和树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的. B这两个模型都使用随机特征子集,来生成许多单个的树. C我们可以并行地生成GradientBoostingTrees单个树,因为它们之间是没有依赖的,GradientBoostingTrees训练模型的表现总是比随机森林好13、下面那个算法可以将文本数据转换为数值数据？（A） A、TF-IDFB、决策树C、PCAD、DBSCAN14、在以下不同的场景中,使用的分析方法不正确的有(B) A根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级 B根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式 C用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫 D根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女15、下列关于PCA说法正确的是（ABD）？ A.在使用PCA之前，我们必须标准化数据 B.应该选择具有最大方差的主成分 C.应该选择具有最小方差的主成分 D.可以使用PCA在低维空间中可视化数据第7章管理规则与协同过滤某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)

A.关联规则发现B.聚类

C.分类D.自然语言处理设X={1，2，3}是频繁项集，则可由X产生(C)个关联规则。

A.4B.5C.6D.7考虑下面的频繁3-项集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含（C）

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘-选择题

文档简介

温馨提示

最新文档

评论