大数据竞赛理论题每日一侧-9月26日附有答案

上传人：喝*** IP属地：广西上传时间：2022-12-08 格式：DOCX 页数：19 大小：21.43KB 积分：30 举报 版权申诉

免费预览已结束，剩余14页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据竞赛理论题每日一侧-9月26日[复制]您的姓名：[填空题]*_________________________________1.当相关系数r=0时，说明（）。[单选题]*A.现象之间相关程度较小B.现象之间完全相关C.现象之间无直线相关(正确答案)D.现象之间完全无关答案解析：相关系数〃刻画了两个变量之间的相关程度，|「|W1,|,|越接近1表示两个变量相关度越高，反之相关度越低。相关系数,=0只能说明线性无关，不能说明完全无关。2.在图集合中发现一组公共子结构，这样的任务称为（）。[单选题]*A.频繁子集挖掘B.频繁子图挖掘(正确答案)C.频繁数据项挖掘D,频繁模式挖掘答案解析：解析：频繁子图挖掘是指在图集合中挖掘公共子结构。3.下列说法正确的是（）。[单选题]*A.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则B.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式C.数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好地完成描述数据、预测数据等任务(正确答案)D.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差答案解析：解析：关联规则挖掘过程是发现满足最小支持度的所有项集代表，再利用代表生成需要的关联规则，根据用户设定的最小置信度进行取舍，最后得到强关联规则。数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好地完成描述数据、预测数据等任务。在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越好。4.通过K-means算法进行聚类分析后得出的聚类结果的特征是（）。[单选题]*A.同一聚类中的对象间相似度高，不同聚类中的对象间相似度高B.同一聚类中的对象间相似度高，不同聚类中的对象间相似度低(正确答案)C.同一聚类中的对象间相似度低，不同聚类中的对象间相似度低D.同一聚类中的对象间相似度低，不同聚类中的对象间相似度高5.对分类任务来说，学习器从类别标记集合中预测出一个标记，最常见的结合策略是（）。[单选题]*A.投票法(正确答案)B.平均法C.学习法D.排序法6.在k近邻学习算法中，随着左的增加，上界将逐渐降低，当左区域无穷大时，上界和下界碰到一起，k近邻法就达到了（）o[单选题]*A.贝叶斯错误率(正确答案)B.渐进错误率C.最优值D.上界7.下列不属于判别式模型的是（）。[单选题]*A.决策树B.BP神经网络C.支持向量机D.贝叶斯(正确答案)8.标准正态分布的均数与标准差分别是（）。[单选题]*A.0，1(正确答案)B.1,0C.0,0D.1,1答案解析：标准正态分布是均值为0，标准差为1的正态分布9.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的方法（disagreement・basedmethods）使用多学习器，而学习器之间的分歧（disagreement）对未标记数据的利用至关重要。（）是此类方法的重要代表。[单选题]*A.协同训练(正确答案)B.组合训练C.配合训练D.陪同训练答案解析：解析：协同训练是此类方法的重要代表，它很好地利用了多视图的相容互补性。10.下列关于线性模型的描述错误的是（）。[单选题]*A.支持向量机的判别函数一定属于线性函数(正确答案)B.在样本为某些分布情况时，线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C.在一般情况下，线性分类器只能是次优分类器D.线性分类器简单而且在很多情况下效果接近最优，所以应用比较广泛答案解析：解析：支持向量机的判别函数不一定是线性函数。11.下列关于降维的表述错误的是（）。[单选题]*A.降维过程中可以保留原始数据的所有信息(正确答案)B.多维缩放的目标是要保证降维后样本之间的距离不变C.线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D.核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失答案解析：解析：降维过程中尽量保留原始数据的信息，但不能保留原始数据的全部信息。12.一组数据相加后除以数据个数得到的值叫作（）。[单选题]*A.最大值B.平均值(正确答案)C.中位数D.众数答案解析：平均值有算术平均值、几何平均值、平方平均值（均方根平均值）、调和平均值、加权平均值等。算术平均值是指一组数据相加后除以数据个数的平均值13.在其他条件不变的前提下，（）容易引起机器学习中的过拟合问题。[单选题]*A.增加训练集量B.减少神经网络隐藏层节点数C.删除稀疏的特征D.SVM算法中使用高斯核/RBF核代替线性核(正确答案)答案解析：解析：神经网络减少隐藏层节点，就是在减少参数，只会将训练误差变高，不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂，容易过拟合。14.下列回归模型中最能影响过拟合与欠拟合之间平衡的步骤是（）。[单选题]*A.多项式的阶数(正确答案)B.是否通过矩阵求逆或梯度下降学习权重C.使用常数项D.使用正则化答案解析：解析：选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高，越容易产生过拟合现象。15.讨论变量之间的关系，主要有（）、方差分析和回归分析三个方法。[单选题]*A.参数分析B.逻辑分析C.假设分析D.相关分析(正确答案)答案解析：相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如，人的身高和体重之间、空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。方差分析用于两个及两个以上样本均数差别的显著性检验。16.下列关于支持向量的说法正确的是（）。[单选题]*A.到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量(正确答案)B.训练集中的所有样本点都是支持向量C.每一类样本集中都分别只有一个支持向量D.支持向量的个数越多越好答案解析：解析：在支持向量机中，距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。一般情况下，支持向量的个数等于训练样本数目，并不是越多越好。17.参加奥运会前，需要对运动员模拟比赛的成绩进行统计分析，判断运动员成绩是否稳定，因此需要知道运动员模拟比赛的（）。[单选题]*A.平均数或中位数B.方差或频率C.频数或众数D.差或极差(正确答案)18.子集搜索中，逐渐增加相关特征的策略称为（）。[单选题]*A.前向搜索(正确答案)B.后向搜索C.双向搜索D.不定向搜索19.下列关于Apriori算法原理的叙述错误的是（）。[单选题]*A.Apriori算法通常使用先验知识或者假设B.如果某个项集是频繁的，那么它的所有子集也是频繁的C.如果一个项集是非频繁集，那么它的所有超集也是非频繁的D.Apriori算法不可以用来发现频繁集(正确答案)答案解析：解析：Apriori算法可以用来发现频繁集。20.（）不是k最近邻分类器的特点。[单选题]*A.它使用具体的训练实例进行预测，不必维护源自数据的模型B.分类一个测试样例开销很大C.最近邻分类器基于全局信息进行预测(正确答案)D.可以生产任意形状的决策边界答案解析：解析：k最近邻中（k-nearestneighbors,KNN）的近邻指的是距离待预测数据的数据点，而k近邻指的是取距*最近的几个数据点，并非基于全局信息进行预测。21.统计描述的种类主要包括均值、百分位数、中位数、众数、全距和方差等，（）是指如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值。[单选题]*A.均值B.百分位数(正确答案)C.中位数D.众数22.（）不是长短时记忆神经网络三个门中的一个门。[单选题]*A.输入门B.输出门C.遗忘门D.进化门(正确答案)答案解析：长短时记忆神经网络（LSTM）增加了三个门用来控制信息传递和最后的结果计算，三个门分别为遗忘门、输入门、输出门。23.在集成学习中，对于数据型输出，最常见的结合策略是（）。[单选题]*A.平均法(正确答案)B.投票法C.学习法D.以上答案都正确答案解析：解析：在集成学习中，对于数据型输出，最常见的结合策略是平均法。对于分类任务来说，最常见的结合策略是投票法。当训练数据很多时一种更为强大的结合策略是学习法。24.当训练样本近似线性可分时，（）。[单选题]*A.通过硬间隔最大化，学习一个非线性支持向量机B.通过软间隔最大化，学习一个线性支持向量机(正确答案)C.通过硬间隔最大化，学习一个线性支持向量机D.通过软间隔最大化，学习一个非线性支持向量机25.在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在（）。[单选题]*A.异方差B.序列相关C.多重共线性(正确答案)D.高拟合优度26.在支持向量机中，（）允许支持向量机在一些样本上出错。[单选题]*A.硬间隔B.软间隔(正确答案)C.核函数D.拉格朗日乘子法答案解析：在支持向量机中，软间隔允许支持向量机在一些样本上出错。27.所有预测模型在广义上都可称为一个或一组（）。[单选题]*A.公式B.逻辑C.命题D.规则(正确答案)28一组数据中出现最多的变量值叫作（）。[单选题]*A.最大值B.平均值C.中位数D.众数(正确答案)答案解析：众数是样本观测值在频数分布表中频数最多的哪一组的组中值29.通常来说，（）能够用来预测连续因变量。[单选题]*A.线性回归(正确答案)B.逻辑回归C.线性回归和逻辑回归D,以上答案都不正确答案解析：解析：逻辑回归被用来处理分类问题。30.考虑值集｛12243324556826}的四分位数极差是（）。[单选题]*A.21(正确答案)B.24C.55D.3答案解析：四分位差也称为内距或四分间距，它是上四分位数（QU,即位于75%）与下四分位数（以，即位于25%）的差。计算公式为QD=QU-QLO将数据从小到大排序，可得到QU=33,QL=12,因此QD=QU-QL=2131在一个简单的线性回归模型中（只有一个变量），如果将输入变量改变一个单位（增加或减少）,那么输出将改变（）。[单选题]*A.—个单位B.不变C.截距D.回归模型的尺度因子(正确答案)32.令N为数据集的大小［注：设训练样本（耳，凹），N即训练样本个数］,d是输入空间的维数（注：d即向量玉的维数）。贝I］硬间隔SVM问题的原始形式［即在不等式约束［乂（A+6）N1］下最小化（1/2）糾在没有转化为拉格朗日对偶问题之前是（）。[单选题]*A.一个含N个变量的二次规划问题B.—个含NH个变量的二次规划问题C.一个含d个变量的二次规划问题D.—个含d+1个变量的二次规划问题(正确答案)答案解析：解析：欲找到具有最大间隔的划分超平面，也就是要找到能满足题中不等式约束的参数w和如是一个含d+1个变量的二次规划问题。33.下列关于决策树的说法错误的是（）。[单选题]*A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感(正确答案)D.寻找最佳决策树是NP完全问题答案解析：解析：决策树算法对于噪声的干扰具有相当好的鲁棒性。34.下列关于Boosting算法的描述错误的是（）。[单选题]*A.可将强学习器降为弱学习器(正确答案)B.从初始训练集训练基学习器C.对训练样本分布进行调整D.做错的训练样本多次训练答案解析：解析：Boosting是一种集成学习算法，由一系列基本分类器按照不同的权重组合成为一个强分类器。35.下列关于随机森林的说法正确的是（）。[单选题]*A.随机森林对于高维数据集的处理能力比较好B.在对缺失数据进行估计时，随机森林是一个十分有效的方法C.当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法D.以上答案都正确(正确答案)答案解析：解析：随机森林对于高维数据集的处理能力比较好，在对缺失数据进行估计时，随机森林是一个十分有效的方法，当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法。36.下列机器学习算法中，不需要归一化处理的是（）。[单选题]*A.DecisionTree(正确答案)B.SVMC.K-meansD.LogisticRegression答案解析：解析：DecisionTree属于概率模型，不需要归一化处理；SVM、K-means和LogisticRegression之类的最优化问题需要归一化处理。37.（）算法可以较好地避免样本的不平衡问题。[单选题]*A.KNN(正确答案)B.SVMC.BayesD.神经网络答案解析：解析：KNN只是取了最近的几个样本点做平均，离预测数据较远的训练数据对预测结果不会造成影响，但是SVM、Bayes和KNN的每一个训练样本结果都会对预测结果产生影响。38.绝对多数投票法的基本思想是（）。[单选题]*A.对于若干和弱学习器的输出进行平均得到最终的预测输出B.少数服从多数，数量最多的类别为最终的分类类别C.不光要求获得最高票，还要求票过半数(正确答案)D.将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果答案解析：解析：绝对多数投票法：若某标记得票过半数，则预测为该标记；否则拒绝预测。39.下列关于K均值与DBSCAN比较的说法不正确的是（）。[单选题]*A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象(正确答案)B.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇答案解析：解析：DBSCAN与K均值都是将每个对象指派到单个簇的划分聚类算法，但K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。40.如果线性回归模型中的随机误差存在异方差性，那么参数的OLS估计量是（）。[单选题]*A.无偏的、有效的B.无偏的、非有效的(正确答案)C.有偏的、有效的D.有偏的、非有效的41.Spark的组件包括（）。*A.SparkStreaming(正确答案)B.MLib(正确答案)C.GraphX(正确答案)D.SparkR答案解析：解析：Spark的组件包括SparkSQL、SparkStreaming、MLid、GraphXo42.下列关于Pig的说法正确的有（）*A.弥补MapReduce编程复杂性(正确答案)B.封装MapReduce处理过程(正确答案)C.PigLatin是一种数据分析语言(正确答案)D.适用于并行处理(正确答案)答案解析：解析：Pig建立在MapReduce之上,好地封装了MapReduce的处理过程；PigLatin是数据分析的描述语言；Pig的结构适用于并行处理。43.假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%,假设现在模型在训练集上表现为99%的准确度，那么下列说法正确的有（）。*A.准确度并不适合衡量不平衡类别问题(正确答案)B.准确度适合衡量不平衡类别问题C.精确度和召回率适合于衡量不平衡类别问题(正确答案)D.精确度和召回率不适合衡量不平衡类别问题答案解析：精确度和召回率适合于衡量不平衡类别问题，准确度并不适合衡量不平衡类别问题。44,下列关于Pig的说法正确的有（）。*A.Pig的主要目的是弥补MapReduce编程的复杂性(正确答案)B.Pig的核心是一种数据分析语言(正确答案)C.Pig程序的结构适合串行处理D.Pig主要包含PigLatin和Pig执行环境两部分(正确答案)答案解析：解析：Pig程序的结构适合并行处理。45.一个回归模型存在多重共线问题，在不损失过多信息的情况下，可釆取的措施有（）。*A.剔除所有的共线性变量B.剔除共线性变量中的一个(正确答案)C.通过计算方差膨胀因子（varianceinflationfactor,VIF）来检查共线性程度，并采取相应措施(正确答案)D.删除相关变量可能会有信息损失，我们可以不删除相关变量，而使用一些正则化方法来解决多重共线性问题，例如Ridge或Lasso回归(正确答案)答案解析：为了检查多重共线性，我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量（阈值根据情况设定）。除此之外，可以使用VIF方法来检查当前存在的共线变量。刃FW4表明没有多种共线，刃FN]0表明有着严重的多重共线性，也可以使用公差（tolerance）作为评估指标。但是，移除相关变量可能导致信息的丢失，为了保留这些变量，可以使用带惩罚的回归方法。可以在相关变量之间随机加入噪声，使得变量之间存在差异。但增加噪声可能影响准确度，因此这种方法应该小心使用46.Hadoop框架的缺点有（）。*A.MapReduce编程框架的限制(正确答案)B.过多的磁盘操作，缺乏对分布式内存的支持(正确答案)C.无法高效支持迭代式计算(正确答案)D.不支持多用户写入和任意修改文件(正确答案)答案解析：解析：以上四项都为Hadoop的缺点。47线性模型的基本形式有（）*A.线性回归(正确答案)B.对数几率回归（二分类问题）(正确答案)C.线性判别分析（Fisher判别分析）(正确答案)D.多分类学习(正确答案)48.Spark提交工作的方式有（*A.Client(正确答案)B.Cluster(正确答案)C.Standalone）oD.YARN答案解析：解析：Spark提交作业的方式是Client和Cluster。49特征选择方法有（）*A.AIC赤池信息准则B.LARS嵌入式特征选择方法(正确答案)C.LVW包裹式特征选择方法(正确答案)D.Relief过滤式特征选择方法(正确答案)答案解析：AIC赤池信息准则是常用的模型选择方法50.Hadoop运行的模式包括（）。*A.单机版(正确答案)B.伪分布式(正确答案)C.分布式(正确答案)D.全分布式答案解析：解析：Hadoop运行模式包括单机版、伪分布式和分布式。51.下列关于相关与线性关系的说法正确的有（）*A.相关不一定是线性关系，可能是非线性关系(正确答案)B.相关一定是线性关系，不可能是非线性关系C.相关时若有相关系数为0,说明两个变量之间不存在线性关系，仍可能存在非线性关系(正确答案)D.相关系数为0是两个变量独立的必要不充分条件(正确答案)答案解析：相关不一定是线性关系，可能是非线性关系52.SparkRDD的依赖机制包括（）*A.宽依赖(正确答案)B.深度依赖C.广度依赖）oD.窄依赖(正确答案)答案解析：解析：RDD之间的依赖关系可以分为窄依赖和宽依赖两种。53.（）是通过对无标记训练样本的学习来进行分类的。*A.密度估计(正确答案)B.异常检测(正确答案)C.线性回归D.聚类分析(正确答案)54.下列属于数据挖掘方法的有（）*A.聚类(正确答案)B.回归分析(正确答案)C.神经网络(正确答案)D.决策树算法(正确答案)答案解析：利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等。分类方法有决策树算法、KNN算法（k-nearestneighbor）,SVM算法、VSM算法、Bay

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据竞赛理论题每日一侧-9月26日附有答案

文档简介

温馨提示

最新文档

评论

大数据竞赛理论题每日一侧-9月26日附有答案

文档简介

温馨提示

最新文档

评论

相关文档