




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE1HCIE-BigData-DataMiningH13-731笔试必备题库(重点题)一、单选题1.以下哪个选项不是矩阵乘法对向量的变换?A、投影B、伸缩C、曲线化D、旋转答案:C2.SparkMLlib中的BasicStatistic是专⻔⽤于进⾏⼤数据集群上的统计分析⼯具,以下哪个不属于BasicStatistic
⽀持的功能?A、假设检验B、特征抽取C、汇总统计D、⽣成随机数答案:B解析:BasicStatistic是SparkMLlib提供专⻔⽤于进⾏⼤数
据集群上的统计分析⼯具。BasicStatistic为⼤数据集
中数据预处理中数据的分析提供⽀撑⽅法,包括
Summarystatistics(汇总统计),Correlations(相
关系数),Stratifiedsampling(分层抽样)
,Hypothesistesting(假设检验),Randomdata
Generation(随机数⽣成),Kerneldensityestimation
(核密度估计)等数据分析⽅法。3.“点击率问题”是这样⼀个预测问题,99%的⼈不会点击,⽽1%的⼈会点击,所以这是⼀个⾮常不平衡的数据集。假设,现在我们已经建了⼀个模型来分类,⽽且有了99%的预测准确率,我们可以下的结论是?A、模型预测准确率已经很⾼了,我们不需要做什么了。B、模型预测准确率不⾼,我们需要做点什么改进模型。C、⽆法下结论D、以上都不对答案:C4.以下关于特征选择定义的理解说法错误的是哪⼀项?A、特征选择是指从原始特征中挑选出⼀组最有代表性、分类性能好的特征。B、特征选择不像算法和模型是确定的步骤,更多是⼯程上的经验和权衡,⼀般需要耗费较多的时间和精⼒。C、对于不同的数据挖掘任务,所需要的特征组合都是相同的。D、特征选择(Featureselection)也被称为变量选择、属性选择或变量⼦集选择。它是为了构建模型⽽选择相关特征⼦集的过程。答案:C5.请问以下选项中,不属于分类算法的是哪—项?A、决策树B、随机森林C、线性回归D、SVM答案:C解析:线性回归属于回归算法6.以下哪个选项是求解等式约束最优化的常⽤⽅法?A、⽜顿法B、梯度下降法C、拉格朗⽇乘法⼦D、KKT条件答案:C解析:考查等式约束最优化的问题,其中提到⽤拉格朗⽇乘法
⼦⽅法来将约束优化问题转化为⽆约束优化问题7.在案例“银⾏客⼾精准画像”中,关于其数据挖掘不同阶段的操作描述,属于数据建模阶段的是?A、在客⼾分类问题中采⽤的主要是数据挖掘中分类和聚类的算法,需要结合需求规划出适⽤模型。B、将来⾃数据仓库中多个数据表,经过了数据采集.清理和集成,⽣成⼀个针对数据挖掘⽬标确定与交易⾏为有关的数据项集合。C、结果分析,并提供参看策略。D、对最近三个⽉的原始交易数据进⾏计算获得变量。并整合在客⼾的实际交易情祝上定义客⼾的⾏为,每个客⼾作为⼀条观测从中隧机抽取2867个客⼾作为研究实例的代表性样本。答案:D解析:A选项:算法选择,B选项:数据理解和数据准备,C选项:结果分析8.以下关于离散特征编码的表述,错误的是哪⼀项?单A、离散特征的取值之间没有⼤⼩的意义,使⽤one-hot编码。B、因为机器学习算法接收的是数字型变量。所以需要对属性进⾏编码。C、离散特征的取值有⼤⼩的意义,直接使⽤映射。D、想要⽅法pandas.get_dummies()的作⽤等同于onehot编码的效果,只需要设置其参数drop_first=True。答案:D9.以下关于Wrapper(包装法)和FiLter(过滤法)的描述不正确的是?A、Wrapper⽅法由于每次对⼦集的评价都要进⾏分类器的训练
和测试,所以算法计算复杂度很⾼。B、Wrapper⽅法选出的特征通⽤性较强,当改变学习算法时,
也不需要针对该学习算法重新进⾏特征选择。C、相对于Filter(过滤法),Wrapper⽅法找到的特征⼦集分类性
能通常更好。D、对于⼤规模数据集来说,Wrapper算法的执⾏时间很⻓。答案:B解析:相对于Filter⽅法,Wrapper⽅法找到的特征⼦集分类
性能通常更好。但是因为Wrapper⽅法选出的特征通⽤
性不强,当改变学习算法时,需要针对该学习算法重新
进⾏特征选择。10.以下不属于决策树算法?A、ID3B、CARTC、C4.5D、KNN答案:D解析:KNN不属于决策树算法。11.请问以下关于特征选择⽅法的⼀些表述,不正确的是哪⼀项?A、卡⽅值描述了⾃变量与因变量之间的相关程度:卡⽅值越⼩,相关程度也越⼤,所以很⾃然的可以利⽤卡⽅值来做特征选择,保留相关程度⼤的变量。B、递归消除特征法使⽤⼀个基模型来进⾏多轮训练,每轮训练后,移除若⼲权值系数的特征,再基于新的特征集进⾏下⼀轮训练。它解决思路没有过滤法直接,它是在确认后续的算法模型后,把模型本⾝的性能作为评价准则:选择⼀个⽬标函数来⼀步步的筛选特征。C、基于树的嵌⼊⽅法能够⽤来计算特征的重要程度,因此能⽤来去除不相关的特征。D、保留⼤的⽅差的实际意义,就是该列特征的数据分散情况⽐较⼤,对结果的划分的影响⼒度就⼤,反过来,如果⽅差很⼩,⽐如⼀列数据的值全部⼀样,⽅差为0,确实对结果的分类来说意义不⼤,有没有这列特征都不能影响分类⽬标产⽣不同的结果,这个也是⽅差选择法的原理。答案:A12.关于实时流处理整体架构中数据缓存和消息中间件描述错误的是()。A、Redis:提供⾼速key/value存储查询能⼒,⽤于流处理结果数据的⾼速缓存。B、Katka:分布式消息系统,⽀持消息的⽣产和发布,以及多种形式的消息缓存,满⾜⾼效可靠的消息⽣产和消费。C、Kafka:消息中间件可对实时数据进⾏缓存,⽀持⾼吞吐量的消息订阅和发布。D、HBase:⽤于⾏键查询(Key-Value)检索,查询条件复杂且多样。答案:C13.下列代码的作⽤是?StringvertexId=getVertexIdByProperty(api,graphName,"person","name","marko");api.queryVertex(vertexId,graphName);A、查询点B、查询属性C、查询边D、以上全不正确答案:B14.朴素⻉叶斯分类⽅法(NaiveBayes)是⼀种特殊的Bayes分类器,特征变量是x,类别标签是C,它的⼀个假定
是?A、以0为均值,sqr(2)/2为标准差的正态分布B、P(XIC)是⾼斯分布C、特征变量x的各个属性之间互相独⽴D、各类别的先验概率P(C)是相等的答案:C解析:朴素⻉叶斯的条件就是每个变量相互独⽴。15.以下哪种场景⽐较适⽤于在保证召回率的前提下,
尽量提升精确率的情况?A、搜索B、地震检测C、⾦融欺诈D、癌症检测答案:A解析:查全率(Recall)∶⼜被称为召回率,是指分类器预测为
正例的样本占实际正例样本的⽐例。在实际项⽬中,
常常需要根据具体情况做出取舍,例如⼀般的搜索情
况,在保证召回率的条件下,尽量提升精确率。⽽像
癌症检测、地震检测、⾦融欺诈等,则在保证精确率
的条件下,尽量提升召回率。16.以下关于Python函数的描述中,错误的是A、函数是⼀段可重⽤的语句组B、每次使⽤函数需要提供相同的参数作为输⼊C、函数通过函数名进⾏调⽤D、函数是⼀段具有特定功能的语句组答案:B17.以下哪种⽅法属于判别式模型(discriminativemodel)?单A、隐⻢尔科夫模型(HMM)B、SVMC、LDAD、朴素⻉叶斯答案:C解析:LDA(LinearDiscriminantAnalysis):线性判别式分析,也叫Fisher线性判别,是模式识别中的经典算法,它的数据集的每样本是有
类别输出的。18.下列哪个选项不是常⽤的聚类算法?A、SVMB、DBSCAN算法C、K-means算法D、HierarchicalClustering算法、BIRCH算法答案:A解析:常⽤聚类算法:1、基于原型聚类(partitioning
Methods)K-Means算法,K-Mediods2、算法基于层次
聚类(hierarchicalmethods)HierarchicalClustering算
法、BIRCH算法3、基于密度聚类(density-based
Methods)DBSCAN算法19.我们想在⼤数据集上训练决策树,为了使⽤较少时间,我们可以A、减少树的数量B、增加树的深度C、减少树的深度D、增加学习率(1earningrate)答案:C解析:增加树的深度,会导致所有节点不断分裂,直到叶⼦节点是纯的为⽌.所以,增加深度,会延⻓训练时间。所以需要减少使⽤时间,应该选择减少树的深度。20.设X.Y是两个随机变量,C是常数,以下关于⽅差的性质描述错误的是?A、D(C)=OB、D(0)=0的充要条件是X以概率1取常数E(X),即P{X=E(X)}=1C、D(X+Y)=D(X)+D(Y)D、D(CX)=C²D(X)答案:C解析:X与Y相互独⽴时才有C选项成⽴,题⽬中没有X与Y相互独⽴的前提,所以选择C选项。21.Python中列表数据类型元素的切⽚⾮常强⼤,对于列表mylist=[1,2,3,4,5,6,7,8,9],下⾯操作正确的是A、mylist[1:9:0]B、mylist[1:9:2]C、mylist(6:-9:-2)D、mylist[10::]答案:B22.我们可以使⽤Python中sklearn库的()函数,来解决⽆序分类变量的离散化问题?A、cut()函数B、map()函数C、OneHotEncoder()函数D、KMeans()函数答案:C解析:⽆序分类变量的离散化⽅法较为常⽤⽅法有∶独热编码(One-HotEncoding)、哑编码(DummyEncoding)。23.以下关于SparkMLlib中协同过滤算法参数描述不正确的是哪⼀项?A、Iterations:模型中潜在因⼦的数量。B、numBlocks:⽤于并⾏计算的块数,如设置为-1则为⾃动配置。C、Lambda:ALS中的正则化参数。D、0implicitPrefs:指定是使⽤显式反馈ALS变体还是使⽤适⽤于隐式反馈数据的变量。答案:A解析:24.以下对分类模型以下描述,错误的是哪⼀项?A、逻辑回归算法速度快,解释性也较好。B、利⽤神经⽹络系列算法,需要⼤量数据点才能达到较好的预测效果。C、线性⽀持向量机和朴素⻉叶斯算法都具有较好的解释性。D、GBDT⼀般是适⽤于⼆分类问题,但单独的使⽤GBDT模型,容易出现过拟合。答案:B25.以下关于有监督连续变量的离散化分析错误的是哪⼀项?A、1R⽅法是分箱法的有监督版本,每个区间⾄少包含6个变量(最后⼀个区间除外)B、基于卡⽅检验的⽅法,运⽤卡⽅检验的策略,⾃顶向下合并数值进⾏有监督离散化,核⼼操作是Herge.C、有监督的连续变量的离散化相对于⽆监督的⽅法来说,可以减少在离散化的过程中异常值的影响D、基于信息熵的⽅法运⽤了决策树的理念进⾏变量离散化,是⼀种⾃顶向下的分裂技术。答案:B26.以下关于SparkML1ib中决策树模型超参数描述不正确的是?A、impurity:⽤于在候选分割之间进⾏选择的杂质度量。B、subsamplingRater⽤于学习决策树的训练数据的分数,但对于训练单个决策树,该参数不太有⽤。C、maxBins:树的最⼤深度。D、maxMemoryInMB⽤于收集⾜够统计信息的内存量。答案:C解析:maxBins:离散连续特征时使⽤的箱数;maxDepth:树的最⼤深度27.关于GaussDB200的逻辑架构,下列说法正确的是A、DN是实际数据节点,所以只负责存储数据。B、CN是协调节点,协助CM管理整个集群。C、CM是集群的管理模块,那么负责集群的⽇常管理和运维。D、GTM是全局事务控制器,负责⽣成和维护全局事务ID等全局唯⼀信息。答案:D28.重新采样是不均衡数据处理的常⽤⽅法之⼀,对于类别占⽐很⾼的样本集,适⽤于以下哪种重采样⽅法?A、⽋采样B、组合采样C、过采样D、SMOTE算法答案:A解析:
29.以下关于逻辑回归算法的损失函数描述不正确的是哪⼀项?A、在逻辑回归的推导中,它假设样本服从伯努利(0-1)分布,然后求得满⾜该分布的似然函数,接着⽤对数求极值。B、逻辑回归算法⼀定要计算最⼤似然函数。C、逻辑回归算法的损失函数可以使⽤对数函数。D、逻辑回归并没有求对数似然函数的最⼤值,⽽是把极⼤化当做⼀个思想,进⽽推导出它的⻛险函数为最⼩化的似然函数。答案:B30.请问在Pandas中,DataFrame对象可以使⽤以下哪个⽅法查看前n条数据?A、readB、tailC、describeD、head答案:D解析:DataFrame.head(n=5)∶显⽰前n条数据,n表⽰显⽰的数据量。DataFrame.tail(n=5)∶显⽰底部数据,n表⽰显⽰的数据量。31.决策树中不包含以下哪种节点?A、内部节点(internalnode)B、外部节点(externalnode)C、根节点(rootnode)D、叶节点答案:B32.⼀般情况下,若要提⾼ElasticSearch检索效率,可以采取什么操作?A、调整索引分⽚数B、使⽤Hive做底层存储C、压缩素引D、正价EsMaster节点答案:A33.假设A,B,C是三个矩阵,A是2X2,B是2X2阶,C是3x2阶,以下哪⼀个矩阵的运算是有意义的?A、A+BB、ACC、AB+ACD、B+C答案:A34.关于GaussDB200的数据导⼊导出下列说法正确的是(A、gsql元命令和COPY命令在使⽤和⽤法上是⼀样的。B、GDS在数据导⼊时可以做预处理,⽐如⾮法字符替换、容错处理、数据聚合等。C、COPY⽅式使⽤简单,⼀般⽤在⼤量数据的导⼊导出中。D、INSERT数据写⼊适合数据量不⼤,并发度不⾼的场景。答案:B35.假设现在要做⼀个可以根据线索指导运维⼈员进⾏排障的功能,你建议选择下列哪个⼯具实现该功能?A、LuceneB、ElasticSearchC、HBaseD、GES答案:B36.企业数据分析平台在根据不同的业务场景需求,搭建不同的⼤数据分析平台,如适应离线批处理的Hadoop平台;适应实时处理的流计算等,这种架构属于哪种类型的架构?A、融合架构B、分离架构C、单⼀架构D、多维架构答案:A37.假设现在要做⼀个可以根据线索指导运维⼈员进⾏排障的功能,你建议选择下列哪个⼯具实现该功能?A、LuceneB、HBaseC、ElasticSearchD、GraphBase答案:C38.Numpy中创建全为0的矩阵使⽤A、onesB、emptyC、zerosD、arange答案:C39.以下关于Python正则表达式描述不正确的是?A、re正则表达式可以处理字符串数据,也能处理数值数据。B、re正则表达式模块使Python语拥有部分正则表达式功能。C、re正则表达式是⽤于处理字符串的强⼤⼯具。D、Python⾃1.5版本起增加了re正则表达式模块。答案:A40.下列关于存储过程的特点说法正确的是A、编写的SQL存储在数据库中,因此执⾏速度快。B、创建时编译,执⾏时调⽤,因此开发效率⾼。C、⽤⼾创建的存储过程或⾃定义函数可以重复调⽤,因此数据传输量少。D、通过指定存储过程的访问权限,因此安全系数⾼。答案:D41.当决策树出现过拟合后,需要使⽤()技术来缩⼩树的结构和规模。A、剪枝B、回归C、⼩波D、调和答案:A解析:决策树容易过拟合,需要剪枝来缩⼩树的结构和规模
(包括预剪枝和后剪枝)。剪枝是决策树后期处理的重
要步骤,也被视为必不可少的⼀个步骤。其根本⽬的就
是为了去掉⼀些不必要的节点使得决策树模型具有更好
的泛化能⼒,以解决过拟合问题。42.以下对聚类算法KMeans的缺点描述正确的是哪些项?A、该算法对噪⾳和异常点⽐较的敏感。B、如果各隐含类别的数据不平衡,⽐如各隐含类别的数据量严重失衡,或者各隐含类别的⽅差不同,则聚类效果不佳。C、聚类结果可能具有⼀定的随机性。D、K值是超参数,它的选取不好把握。答案:D43.DUGP(UnitiedDataGovernancePlatform)华为⼤数据统⼀数据治理平台,为运营商提供全⾯⾼效的数据资产管控环境。实现
了数据集中.统⼀和共享。包括统⼀的数据采集和整合。统⼀的安全、标准、⽣命周期和质量管理。以及多维度数提云图功能。提供开箱即
⽤的可以实现全⽣命周期的主数据管理。包括主数据的集中存储、()、主数据清洗、主数据监管和主数据的共享满⾜集团对于企业级别主数
据的管理平台的要求。A、主数据合并B、主数据关联C、主数据标记D、主数据迁移答案:A解析:DUGP(UnifiedDataGovernancePlatform)华为⼤数据统⼀数据治理平台,为运营商提供全⾯⾼效的数据资产管控环境,包括主数据
的集中存储、主数据合并、主数据清洗、主数据监管和主数据的共享,满⾜集团对于企业级别主数据管理平台的需求。故选择A选项44.在MRSManager界⾯中,对Loader的操作不包括下列哪个选项?A、配置Loader参数B、启动Loader实例C、切换Loader主备节点D、查看Loader服务状态答案:C45.以下哪项不是KNN算法的三要素?A、K值的选取B、分类决策规则C、距离度量的⽅式D、特征的顺序答案:D解析:KNN的算法三要素︰1.K值的选取。2.距离度量的⽅
式。3.分类决策规则。46.HDFS的副本放置策略中,同⼀机架不同服务器之间的距离是?A、1B、2C、3D、4答案:B47.下列哪个不属于决策树的是?A、KNNB、CARTC、ID3D、C4.5答案:A解析:A)KNN(K-NearestNeighbor)就是k个最近的邻居的意思,即每个样本都可以⽤它最接近的k个邻居来代表。KNN常⽤来处理分类问
题,但也可以⽤来处理回归问题,不属于决策树。B)CART(ClassificationandRegressionTree)分类回归树∶是在ID3的基础上进
⾏优化的决策树。C)ID3算法是由RossQuinlan提出的决策树的⼀种算法实现D)C4.5算法是决策树的⼀种是基于ID3的改进和提
升。48.关于FusionlnsightMiner的功能描述不准确的是哪⼀项?A、业务场景包括极⼤团分析。B、⼯作流暂不⽀持⾃定义算法。C、⽀持R语⾔。D、⽀持Python2和Python3语⾔。答案:B49.)建设⼀个完整的数据治理平台,作为数据平台的管控系统,从制度、标准、()、流程⼏个⽅⾯提升数据信息管理能⼒。解决⽬
前所⾯临的数据标准问题、数据质量问题、元数据管理问题和数据服务问题。A、实时B、管理C、分化D、监控答案:B50.以下关于Python中函数定义的描述不正确的是?A、函数内容以冒号起始,并且缩进。B、在python中只能⽤关键字def创建函数。C、Return⽤于返回⼀个函数执⾏的结果。D、⽤def声明函数,后⾯跟函数名和⼩括号,括号内可以放置所需参数。答案:B解析:考查Python的函数创建。Python中除了def可以创建函
数外,还提供了lambda来创建匿名函数。51.以下关于KNN(K-NearestNeighbor)K最近邻⽅法的描述不正确的是哪⼀项?A、可⽤于⾮线性分类B、计算量⼩C、常⽤来处理分类问题,但也可以处理回归问题D、对数据没有假设,⽀持增量学习,⽆需估计参数答案:B52.⼀般⽽⾔,若数据类别⽐例超过(),即认为数据集中存在不均衡数据的现象。A、2:1B、4:1C、1:1D、3:1答案:B解析:考查数据预处理中,不均衡数据处理的影响。⼀般⽽⾔,若数据类别⽐例超过4:1,即认为数据集中存在不均衡数据的现象53.Numpy中向量转换成矩阵使⽤A、reshapeB、revalC、arrangeD、random答案:A54.以下哪个选项不属于直接删除包含缺失值的元组(或记录)产⽣的影响?A、降低模型准确性B、可能会引⼊噪⾳节点C、数据缺失占⽐较多时,直接删除可能会改变原始数据的分布情况D、破坏数据的历史完整性答案:B解析:删除不会引⼊噪⾳节点55.以下哪些⽅法不可以⽤来做分类?A、KNNB、⽀持向量机C、K-MeansD、决策树答案:C解析:考查有监督学习的分类算法。KNN常⽤来做分类算法,
也可以⽤来处理回归问题,⽀持向量机就是SVM,⽤于
分类算法,K-Means是聚类算法。决策树是分类算法。56.属于聚类问题常⽤的评估⽅法是哪⼀项?A、均⽅误差B、Silhonette轮廓系数C、F-scoreD、ROC曲线答案:B解析:聚类的评价⽅式在⼤⽅向上被分成两类,⼀种是分析外
部信息,另⼀种是分析内部信息。较为常⽤的分析内部
信息的⽅法:互信息评分,兰德系数,轮毂系数等。57.在其它条件不变的前提下,以下哪⼀⽅法容易引起模型的过拟合问题?A、增加训练集数量B、减少神经⽹络隐藏层节点数C、删除稀疏的特征D、SVM算法中使⽤⾼斯核/RBF核替代答案:D58.以下关于PCA算法(主成分分析)说法不正确的是A、必须在使⽤PCA前规范化数据B、使数据降低到低维度上做数据可视化C、应该选择使得模型有最⼩variance的主成分D、应该选择使得模型有最⼤variance的主成分答案:C解析:PCA对数据尺度很敏感,打个⽐⽅,如果单位是从km变
为cm,这样的数据尺度对PCA最后的结果可能很有影
响。我们总是应该选择使得模型有最⼤variance的主成
分,有时在低维度上作图是需要PCA降维帮助的59.以下关于特征缩放的处理⽅法,最⼩值−最⼤值归⼀化和标准化的应⽤场景描述错误的是?A、在实际应⽤中,特征缩放的标准化操作更常⽤。B、标准化⽅法在分、聚类算法中需要使⽤PCA技术进⾏降维C、最⼩值−最⼤值归⼀化的数据不符合正态分布。D、最⼩值最⼤值归⼀化和标准化都需要使⽤距⾼来度量相似
性。答案:D解析:考查特征缩放的应⽤场景,最⼩值最⼤值归⼀化应⽤场
景中说明最⼩值最⼤值归⼀化不涉及距离度量60.通过聚类的簇是否紧密相连来判断样本点是否属于⼀个簇的聚类算法是以下哪⼀项?A、层次聚类B、原型聚类C、原点聚类D、密度聚类答案:D解析:密度聚类的思想不同于K-Means,它是通过聚类的簇是否紧密相连来判断样本点是否属于⼀个簇,代表性的算法就是DBSCAN,它基
于⼀组邻域参数来判断某处样本是否是紧密。61.从数据库架构设计来看,主要有以下哪些设计思路?A、Shared-DiskB、Shared-EveryingC、Shared-NothingD、以上全正确答案:D62.请问在Python中以下哪个选项正确?A、Python中的类对象⽆法实现多重继承。B、Python⾯向对象编程的封装性只体现在不允许私有化变量被访间。C、变量是对象,但函数不是对象。D、Python的多态性表现在⼦类可以覆盖⽗类的属性或⽅法。答案:D63.某开发⼩组计划利⽤GraphBase实现⼀些功能,以下哪些功能可以实现?A、物流最优路径规划B、社交分析C、⾦融反欺诈D、以上全都正确答案:D64.以下关于SparkMLlib中集成算法的相关描述,表述错误的是哪⼀项?A、valboostingStrategy=BoostingStrategy.defaultParams(“Classification”)boostingStrategy.numlterations=3boostingStrategy.treeStrategy.numClasses=2boostingStrategy.treeStrategy.maxDepth=5valmodel=GradientBoostedIrees.train(trainingData,boostingStrategy)表⽰训练梯度提升分类树模型,设置类别数维度为2,树的最⼤深度为5。B、SparkMLlib包含两种算法RandomForest和GradientBoostedDecisionIree(GBDT),⼆者都是⽤决策树算法作为基学习器。C、valmodel=RandomForest.trainRegressor(trainingData,categoricalFeaturesInfo,numIrees=2,"auto","variance",maxDepth=4,32)该语句采⽤随机森林算法进⾏分类模型训练,并且指定属性选择的⽅式为基尼系数度量。D、valmodel=newLogisticRegressionWithLBFGS().setlumClasses(10).run(training)表⽰创建逻辑回归LBFGS的模型进⾏分类问题的求解,同时采⽤训练数据进⾏预测,样本类别数是10。答案:C65.Oracle数据治理产品包括OracleDatabase12c、()、Oracle⼤数据SOL、和⼤数据连接器开始⼊⼿。A、Oracle⼤数据共享系统B、Oracle⼤数据清洗系统C、Orac1e⼤数据存储系统D、Oracle⼤数据管理系统答案:D解析:Oracle公司从旗舰产品OracleDatabase12c、Oracle⼤数据管理系统、Oracle⼤数据SQL和⼤数据连接器开始⼊⼿。对于特定的数
据管理,它具有Oracle企业元数据管理器(OEMM)和Oracle企业数据质量(EDQ)。故选择D选项66.请问最⼩值-最⼤值归⼀化的结果不会受到以下哪种数据点影响?A、离群点B、极值点C、异常点D、平均点答案:D解析:最⼩值-最⼤值归⼀化受训练集中最⼤值和最⼩值影响
⼤,存在数据集中最⼤值与最⼩值动态变化的可能。容
易受噪声(异常点、离群点)影响。67.以下哪⼀项不属于抽样的类别?A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样E、循环抽样答案:E解析:抽样⽅法1、简单随机抽样:在简单随机抽样
中,总体所有成员被选为样本的概率是相等的。2、
分层抽样∶将总体分成不同的⼦群,然后对所有的⼦
层进⾏随机抽样。3、系统抽样:⾸先将总体中各单位
按⼀定顺序排列,根据样本容量要求确定抽选间,然
后随机确定起点,每隔⼀定的间隔抽取⼀个单位,以
得到所需要的样本。4、整群抽样∶整群地抽选样本68.Flume的⾼级组件不包含以下哪个?A、SinkProcessorB、ChannelInterceptorC、ChannelSelectorD、Sourcelnterceptor答案:B69.以下关于SparkMLlib中K-Means优化参数描述不正确的是?A、initializationMode指定随机初始化。B、Runs:运⾏Kmeans算法的次数。C、maxIterations:要运⾏的最⼤迭代次数。D、Epsilon:确定K-Means收敛的距离阈值。答案:A解析:Epsilon指的是K-Means已收敛的距离阈值,⽽⾮收敛的距离阈值。70.以下关于DataNode的描述不正确的是?A、DataNode管理数据块元数据B、DataNode执⾏数据块的读/写操作。C、DataNode的数量受数据规模影响。D、DataNode是⽤来存储数据库。答案:A71.以下关于聚类算法的理解正确的是?A、簇内的相似性越⼤,簇间的差别越⼩,聚类的效果就越好。B、簇内的相似性越⼤,簇间的差别越⼩,聚类的效果就越差。C、簇内的相似性越⼤,簇间的差别越⼤,聚类的效果就越好。D、簇内的相似性越⼤,簇间的差别越⼤,聚类的效果就越差。答案:C解析:簇内的相似性越⼤,簇间的差别越⼤,聚类的效
果就越好72.以下关于SparkMLlib中降维算法的相关描述,表述错误的是哪⼀项?A、奇异值分解(SVD)通常不需要完全因式分解,只需要顶部奇异值及其相关的奇异向量,这可以节省存储,降噪并恢复矩阵的低秩结构。B、SparkMLlib为RowMatrix类的降维提供⽀持。C、奇异值分解(SVD)将矩阵分解为三个矩阵,分别是左奇异矩阵,对⻆矩阵和⼀个右奇异上三⻆⾮正交矩阵。D、PCA通常⽤于⾼维数据集的探索与可视化,还可以⽤于数据压缩。答案:C解析:73.Flume中⼀个ChannelSelector的作⽤是什么?A、设置多个channel发往多个sink的策略B、设置⼀个source发往多个channel的策略C、设置多个source发往多个channel的策略D、设置⼀个channel发往多个sink的策略答案:B74.打开⽂件的不正确写法为A、f=open(‘test.txt','r)B、withopen('test.txt’,'r)asfC、f=open(‘C:\Apps\test.txt';r)D、f=open(r‘C:\Apps\test.txt';'r)答案:C75.我们可以使⽤Python中scikit-learn库的()函数,来对样本集进⾏feature_selection(特征选择)和dimensionality
Reduction(降维)?A、sklearn.neighborsB、sklearn.feature_selectionC、sklearn.linear_modelD、sklearn.cluster答案:B解析:在sklearn.feature_selection模块中的类可以⽤来对样
本集进⾏featureselection(特征选择)和
Dimensionalityreduction(降维),这将会提⾼估计
器的准确度或者增强它们在⾼维数据集上的性能。76.请问在Python中以下哪项描述是正确的?A、定义⼀个空集合的命令为:x={}。B、t=(42,)和t=(42)都可以⽤于定义tuple。C、animals.remove(‘fish’)可以把animals这个列表中所有‘fish‘元素都删除。D、animals.insert(1,’fish’)是往animals这个列表中索引为1,也就是第⼆个位置添加'fish'元素。答案:D解析:x={}是定义⼀个空字典(dict),故不选A;
T=(42,)定义的是tuple,但t=(42)定义的是整型,故不选B;
Animals.remove(‘fish’)只会删除第⼀个fish,故不选C;77.请问在sklearn中,下列哪个选项中关于lasso回归描述是不正确的?A、在函数LassoCV()中可设置参数alpha是多少(序列格式),默认不设置则找适合训练集最优alpha。B、函数LassoCV()会返回mse这⼀统计学指标,其值越趋近1,表⽰拟合程度越好。C、lasso回归模型中有⼀个超参数需要选择,也就是正则化的参数alpha,合适的超参数选择是获取好的模型的重要因素。D、属性alpha_会返回最佳惩罚系数alpha的值。答案:B78.如⼀个原始数据为3⾏4列的数据框需要降维⾄两维,利⽤SparkMLlib的实现思路下述不正确的是?A、在PCA中,可以选取值最⼩的2个特征值对应的特征向量,并由该两个特征向量组成矩阵CB、求协⽅差矩阵B的右特征向量C、求取矩阵A的协⽅差矩阵BD、将原始3⾏4列的数据转换得到⼀个3乘4的矩阵A答案:B79.RISP-DM(跨⾏业数据挖掘标准流程)模型中的数据准备环节除了包括数据选择,数据清洁,数据创建,数据合并外,还包含以
下哪个步骤?A、数据变换B、确定业务⽬标C、模型结果评估D、选择建模技术答案:A解析:PPT“第⼀章数据挖掘介绍”第32⻚原题80.以下哪个措施属于反爬措施?A、字体B、滑块验证码C、数据收费D、以上全部正确答案:D解析:常⻅的反爬⼿段:1、Headers字段:cookie,refer,
User-Agent等字段。2、验证码︰数字,滑块,计
算,⽂字,12306等。3、JavaScript:通过
JavaScript⽣成请求参数、数据加密、数据混淆、⻚
⾯跳转。4、IP地址检测︰通过检测访问者的IP地
址,判断是否为正常⽤⼾。81.以下关于Apriori算法的描述不正确的是哪⼀项?A、Apriori算法是⼀个⾮常经典的频繁项集的挖掘算法,很多算法都是基于Apriori算法⽽产⽣的,包括FP-Tree,GSP,CBA等。B、Apriori算法适⽤于⾮重复项集数元素较多的案例。C、python的⼯具库mlxtend⽬前提供实践Apriori算法的⽅法。D、使⽤先验原理,⼤⼤提⾼了频繁项集逐层产⽣的效率。答案:A82.对于随机森林和GradientBostingTrees.下⾯说法正确的是?A、可以并⾏地⽣成GradientBoostingTrees单个树,因为它们之间是没有依赖的B、这两个模型都使⽤随机特征⼦集,来⽣成许多单个的树C、在随机森林的单个树中,树和树之间是有依赖的,⽽GradientBostingTrees中的单个树之间是没有依赖的D、GradientBoostingTrees训练模型的表现总是⽐随机森林好答案:B解析:随机森林是基于bagging的,⽽GradientBoostingtrees是基于boosting的,所以在随机森林的单个树中,树和树之间是没有依赖的,⽽
GradientBoostingTrees中的单个树之间是有依赖关系。83.以下哪些不属于⽆量纲化特征缩放的⽅法?A、最⼤-最⼩归化B、OneHot编码C、缩放成单位向量D、特征标准化E、均值归⼀化答案:B解析:考查常⻅的⽆量纲化特征缩放⽅法:标准化、归⼀化
(均值归⼀化、最⼤-最⼩归化)、缩放成单位向量84.银⾏进⾏客⼾购买⼒分析,⾸先获取客⼾历史账单,确定其中各项商品的计算权重,得出每位客⼾的购买⼒评分并存储记录。最后将结果图表显
⽰。请问该过程对应于以下哪个项⽬数据流程设计。A、数据源->数据处理->数据落地->数据可视化B、数据可视化->数据源->数据落地->数据处理C、数据可视化->数据源->数据处理->数据落地D、数据源->数据落地->数据处理->数据可视化答案:A85.Pandas中的DataFrame的df.iloc[1:3]A、查询的是1,2⾏B、查询的是2,3列C、查询的是2,3⾏D、查询的是1,2列答案:C86.在华为MLS中,“线性回归”节点的参数设置描述错误的是?A、最⼤迭代次数,模型训练的最⼤迭代次数。B、正则化函数。正则化⽅法,可选参数仅包括Auto、None、L1、L2C、正则化参数:⽤于调节正则化项的权重.D、弹性⽹络参数,L1和L2正则化的分配权重。答案:B解析:“线性回归”节点的参数设置:1)正则化函数:正则化⽅法。包括Auto、None、L1、L2和L1andL2。2)正则化参数:⽤于调节
正则化项的权重。3)弹性⽹络参数:L1和L2正则化的分配权重。4)最⼤迭代次数:模型训练的最⼤迭代次数。B选项中的仅包括
是错误的,还有L1andL2⽅式,故选择B选项87.请问以下关于ID3算法中说法错误的是哪⼀项?A、选取信息增益最⼤的特征,作为树的根节点B、节点分裂依据为信息增益C、以信息增益度量属性选择,选择分裂后信息增益最⼩的属性进⾏分裂D、ID3算法是建⽴在奥卡姆剃⼑的基础上答案:C解析:ID3算法的核⼼思想∶以信息增益度量属性选择,选择分裂后信息增益最⼤的属性进⾏分裂。故C错误88.癌症检查数据样本有1000个,其中10个数据样本是有癌症,其它是⽆癌症。假设分类模型在⽆癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。则该预测模型的召回率为多少?A、90%B、76.27%C、47.36%D、99.89%答案:A解析:召回率计算公式TP/(TP+FN),即9/(9+1)=0.9
真阳性(TP)、真阴性(TN)、假阳性、假阴性(FN)。89.以下哪个选项不是连续变量的数值特征离散化⽅法?A、OneRB、独热编码C、分箱D、基于信息熵的⽅法答案:B90.在数据抽取、转换和加载过程中,以下哪种不是数据抽取的⽅式?A、全量抽取B、倒置抽取C、更新抽取D、增量抽取答案:B解析:考查数据预处理的知识点。ETL⼯具中数据抽取的三种
⽅式:更新抽取、增量抽取、全量抽取91.在有监督学习中,我们如何使⽤聚类⽅法?1.我们可以先创建聚类类别,然后在每个类别上⽤监督学习分别进⾏学习2.我们可以使⽤聚类“类别id”作为⼀个新的特征项,然后再⽤监督学习分别进⾏学习3.在进⾏监督学习之前,我们不能新建聚类类别4.我们不可以使⽤聚类“类别id”作为⼀个新的特征项,然后再⽤监督学习分别进⾏学习A、3和4B、1和4C、1和3D、1和2答案:D92.Redis不适⽤于以下哪个应⽤场景?A、获取PB级Value数据B、获取TOPN操作C、获取⼿机验证码D、获取最新N个数据的操作答案:A93.以下不属于⼤数据治理的⽬的的是哪⼀项?A、保障企业或组织可以明确定位到其核⼼数据信息,如客⼾、供应商、产品等信息描述。B、帮助企业等组织建⽴其现有数据的清单,就像建⽴物理资产的清单⼀样。C、兼顾开放性,如多分析引擎统⼀管理,满⾜多样化的数据分析场景和挖掘能⼒。D、防御其财务、企业资源规划和⼈⼒资源应⽤程序中的关键业务数据受到未授权更改。答案:C94.以下哪种⽅法不属于Embedded(嵌⼊法)?A、特征扩增B、基于L1的正则化⽅法C、平均不纯度减少(MeanDecreaselmpurity)D、平均精度下降(MeanDecreaseAccuracy)答案:A95.若随机变量X服从正态分布N(μσ^2),则随机变量Y=aX+b服从以下哪个正态分布?A、N(a^2μ+b,a^2σ^2)B、N(aμ+b,a^2σ^2)C、N(aμ+b,a^2σ^2+b)D、N(aμ,a^2σ^2)答案:B96.以下关于⼤数据Kappa架构描述不正确的是?A、Kappa架构在Lambda架构的基础上进⾏了优化,将实时和流部分进⾏了合并,将数据通道以消息队列进⾏替代,依旧以流处理为主,但是数据却在数据湖层⾯进⾏了存储B、在Kappa架构中,如果需要进⾏离线分析或者再次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播⼀次C、Kappa架构的缺点:实施难度相对较⾼,尤其是在数据重播的部分D、Kappa架构的优点:解决了Lambda架构⾥⾯的冗余部分,以数据可重播的超凡脱俗的思想进⾏了设计,整个架构⾮常简洁答案:B解析:Kappa架构在Lambda架构的基础上进⾏了优化,将实
时部分和流部分进⾏了合并,将数据通道以消息队列进
⾏替代,依旧以流处理为主,但是数据却在数据湖层⾯
进⾏了存储。97.ElasticSearch进⾏全⽂检索—般需要哪⼏个步骤?A、清洗、分词、建⽴素引B、清洗、分词C、清洗、建⽴素引D、清洗、建⽴素引、分词答案:A98.协同过滤推荐算法,是最经典、最常⽤的推荐算法。要实现协同过滤。以下哪个步骤不需要?A、计算推荐B、找到相似的⽤⼾或物品C、收集⽤⼾偏好D、收集⽤⼾来源答案:D解析:要实现协同过滤,需要以下⼏个步骤∶1)收集⽤⼾偏好;2)找到相似的⽤⼾或物品;3)计算推荐。没有收集⽤⼾来源,所以选择D选项99.以下关于数据分析与数据挖掘的描述错误的是?A、数据分析更侧重于统计学上⾯的⼀些⽅法,经过⼈的推理演译得到结论。数据挖掘更侧重于侧重由机器进⾏⾃学习,直换得到结论。B、数据挖掘是从⼤量的数据中,挖掘出未知的、且有价值的信息和知识的过程,重点是从数据中发现“知识规则”。C、数据分析和数据挖掘的界限是⾮常清晰的。D、数据分析会⽤到成熟的分析⼯具,⽐如EXCEL.SPSS.SAS等。数据挖掘则需楚有编程基础。答案:C解析:都跟数据打交道,知识技能有很多交叉点,在职业上他们没有很明显的界限,数据分析与数据挖掘的本质都是⼀样的,都是从数据⾥
⾯发现关于业务的知识(有价值的信息),从⽽帮助业务运营、改进产品以及帮助企业做更好的决策。狭义的数据分析与数据挖掘构
成⼴义的数据分析。100.下列哪个不属于常⽤的⽂本分类的特征选择算法?A、主成分分析B、信息增益C、互信息法D、卡⽅检验答案:A解析:常⻅的六种特征选择⽅法:1)DF(DocumentFrequency)⽂档频率2)MI(MutualInformation)互信息法3)(InformationGain)信
息增益法4)CHI(Chi-square)卡⽅检验法5)WLLR(WeightedLogLikelihoodRation)加权对数似然6)WFO(Weighted
FrequencyandOdds)加权频率和可能性主成分分析属于降维⽅法,是对特征进⾏转化⽽不是特征选择,所以选择A选项。101.以下关于模型超参数的特征描述不正确的是?A、模型超参数通常根据给定的预测建模问题⽽调整B、模型超参数常应⽤于估计模型参数的过程中C、模型的超参数可以通过数据直接得到,也可以通过⼈的经验来设定D、模型超参数通常可以使⽤启发式⽅法来设置E、模型超参数通常由实践者直接指定答案:C解析:考查超参数具有的特征:模型超参数常应⽤于估计模型
参数的过程中,模型超参数通常由实践者直接指定,模
型超参数通常可以使⽤启发式⽅法来设置,模型超参数
通常根据给定的预测建模问题⽽调整。没有C选项102.在LogisticRegression中,如果同时加⼊L1和L2范数,不会产⽣什么效果?A、以做特征选择,并在⼀定程度上防⽌过拟合B、可以获得更准确的结果C、能解决维度灾难问题D、能加快计算速度答案:B103.⼤数据的4V不包含哪⼀个?A、数据量⼤B、种类多C、价值密度低D、分布式E、处理速度快答案:D104.以下关于特征选择⽅法中哪个不属于特征减少的⽅法?A、Embedded(嵌⼊法)B、Wrapper(包装法)C、交叉验证⽅法D、Filter(过滤法)答案:C解析:考查常⻅特征选择⽅法,特征减少的选择⽅法有单变量
特征选择⽅法:Filter(过滤法),基于模型的特征西安
则⽅法:Wrapper(包装法)、Embedded(嵌⼊法)105.以下选项中属于需要模型通过训练获得的参数是哪些?A、随机森林中的树的个数。B、神经⽹络中的学习速率。C、线性回归或逻辑回归中的系数。D、SVM算法中的核函数。答案:C106.在python中,关于Pandas模块中的数据读取函数read_table以下说法不正确的是?单A、names:读取数据时,可以通过names属性设置列索引。B、header:⽤来制定标题⾏,如果数据集中没有标题⾏,则制定为NoneC、index_col:可以将数据集中的某⼀列(某⼏列)设置为⾏索引,通过indexcol来进⾏指定。D、usecols:通过usecols参数来设置需要使⽤的列。E、se/edaiter:⽤来制定数据之间的分隔符,read_table默认为逗号,red.csv默认为表符。答案:E解析:seq/delimiter:⽤来制定数据之间的分隔符,read_csv默认为逗号,read_table默认为\t(制表符)。E选项说反了107.请问对于CRISP-DM模型基本步骤的描述,以下哪项是正确的?A、1.商业理解2.数据理解3.数据准备4.建⽴模型5.模型评估6.模型实施B、1.数据理解2.商业理解3.数据准备4.建⽴模型5.模型评估6.模型实施C、1.数据理解2.商业理解3.数据准备4.建⽴模型5.模型实施6.模型评估D、1.商业理解2.数据理解3.数据准备4.建⽴模型5.模型实施6.模型评估答案:A解析:108.以下哪些选项不属于数值特征离散化的必要性?A、数值⾼散化实际是⼀个数据简化机制,通过数值离散化过程,⼀个完整的数据集变成⼀个个按照某种规则分类的⼦集,增强了模型的稳定性。B、离散化数值在提⾼建模速度和提⾼模型精度上有显著作⽤。C、离散化过程并没有带来信息丢失D、离散化后的特征对异常数据有很强的鲁棒性,能减少噪⾳节点对数据的影响。答案:C解析:1、在数据挖掘理论研究中,数值离散化对数据预处理影响重⼤。研究表明离散化数值在提⾼建模速度和提⾼模型精度上有显著作⽤。2、数值离散化实际是⼀个数据简化机制。因为通过数值离散化过程,⼀个完整的数据集变成⼀个个按照某种规则分类的⼦集,增强了模型的稳定性。3、离散化后的特征对异常数据有很强的鲁棒性。能减少噪⾳节点对数据的影响。109.若要修改HBase表,下列API哪个最先被调⽤?A、createConnection()B、getTable()C、getConnect()D、getAdmin()答案:A110.请问以下哪些算法最适合配合线性判别分析LDA使⽤?A、聚类算法B、⾮线性回归算法C、多元线性回归算法D、⼀元线性回归算法答案:B111.下⾯这条GaussDB200语句“calldbms_erval(1,'sysdate+1.0/24');"的意思是A、修改Job的Interva为每隔24⼩时执⾏⼀次。B、修改Job的Interval为每隔1⼩时执⾏—次。C、修改Job的Interval为每隔1/24⼩时执⾏⼀次。D、修改Job的Interval为每隔24分钟执⾏⼀次。答案:B112.在DGC平台架构下提供企业级的元数据管理。数据资产管理可视,⽀持钻取、溯源等。通过数据地图,实现数据资产的数据⾎缘和数据全景可视,提供数据智能搜索和运营监控的模块是哪个?A、数据开发B、数据资产管理C、规范设计D、数据集成答案:B113.以下哪个选项是异常值处理的⽅法?A、删除异常值B、将异常值视为缺失值,按照缺失值处理⽅法来处理异常值C、估算异常值D、以上全都正确答案:D解析:异常值处理⽅法包括:1)删除异常值。适⽤于异常值较少的情况。2)将异常值视为缺失值,按照缺失值处理⽅法来处理异常值。3)估算异常值。Mean/Mode/Median估计数据填充异常值。114.请问以下哪种场景不需要降维算法?A、数量统计B、视频压缩C、⽤⼾画像D、⼈脸识别答案:A115.利⽤Python中的seaborn模块可以快速的制作出数据集中特征之间的相关关系图。以下对该相关系数热⼒图描述
错误的是哪⼀项?A、通过相关关系热⼒图观察到属性之间相关系数值都不⼤,说明属性之间普遍相关性不⾼,但是部分属性具备相关性挖掘的可能。B、相关系数热⼒图矩阵是对称的。C、相关关系热⼒图中,各个特征⾃⾝的相关系数值均为1。D、绘制相关关系热⼒图时,如果选择相关关系计算的参数为spearman相关系数,则是⽤于描述两个变量之间的线性相关关系。答案:D解析:Spearman相关系数不关⼼两个数据集是否线性相关,
⽽是单调相关116.以下关于KMeans对⽐K-Mediods的描述,表述错误的是哪⼀项?A、K-Mediods质⼼可能是计算产⽣的,不属于数据集中的点。B、如果数据集本⾝不存在特别多的异常值,也不需要使⽤K-Mediods替代K-Means。C、K-Mediods⽐K-Means效果更稳定。D、K-Mediods算法对⽐K-Means算法,质⼼的计算复杂度更⾼。答案:A解析:117.关于SparkMLlib中SVD算法的使⽤说法错误的是?A、必须先通过已有数据创建出相应矩阵类型的对象,然后调⽤该类的成员⽅法来进⾏SVD分解。B、如果需要获得U成员,可以在进⾏SVD分解时,指定puteU参数,令其等于False,即可在分解后的svd对象中拿到U成员.C、SparkMLlib中SVD⽅法位于org.apache.spark.mllib.Linalg包下的RowMatrix和IndexedRowMatrix类中.D、将数据转换成RowMatrix后,可调⽤RowMatrix⾃带的puteSVD⽅法计算分解结果。答案:B118.以下关于Python全局变量和局部变量的描述中,错误的是A、局部变量在函数内部创建和使⽤,函数退出后变量被释放B、全局变量⼀般指定义在函数之外的变量C、使⽤global保留字声明后,变量可以作为全局变量使⽤D、当函数退出时,局部变量依然存在,下次函数调⽤可以继续使⽤答案:D119.df.tail()这个函数是⽤来A、⽤来创建数据B、⽤来展现数据C、⽤来分析数据D、⽤来测试数据答案:B120.下列⽅法中,不可以⽤于特征降维的⽅法包括。A、最⼩⼆乘法LeastSquaresB、主成分分析PCAC、矩阵奇异值分解SVDD、局部线性嵌⼊LLEE、线性判别分析LDA答案:A解析:考查常⻅降维⽅法,有:SVD-奇异值分解、PCA-主成分分析、LDA-线性判别分析、LLE-局部线性嵌⼊121.可以通过以下哪个命令创建节点数据?A、ls/nodeB、get/nodeC、set/nodedataD、create/node答案:D122.决策树是⼀种树形结构,其中每个内部节点表⽰个()上的测试,每个分⽀代表个测试(),每个叶节点代表⼀种().A、输出、类别、属性B、属性、类别、输出C、属性、输出、类别D、类别、输出、属性答案:C解析:考查分类问题模型选择中的决策树,在内部进⾏决策树的⽐较,每个分⽀代表类别,每个叶节点作为输出123.以下关于⼤数据Lambda架构描述不正确的是哪⼀选项?A、Lambda架构是⼤数据系统⾥⾯举⾜轻重的架构,⼤多数架构基本都是Lambda架构或者基于其变种的架构。B、Lambda架构很好的兼顾了实时处理和离线处理,⼏乎覆盖了⼤多数的数据分析和需求处理。可以很好地满⾜同时存在实时和离线需求的场景。C、Lambda架构将数据通道分为两个分⽀:实时流和离线。实时流类似流式架构,保障了其实时性,⽽离线则以批处理⽅式为主,保障了最终⼀致性。D、Lambda架构的缺点:离线层与实时流内部处理的逻辑是不相同的,因此有⼤量冗余和重复的模块存在。答案:D124.SparkML1ib汇总统计主要是对RDD数据集进⾏整体的统计性描述,主要通过调⽤colStats函数,该函数中获取数据每列的L1范数的参数是下列选项中的哪⼀项?A、normlL1B、numNonzerosC、normL2D、variance答案:A125.Gremlin中查询单个点的信息该⽤什么命令?A、gV().hasLabel("test").values("age")B、gV().hasLabel("test").valuelap("string_list","age")C、gV(13464736).valueMap()D、gV().hasLabel("test")答案:A126.设X、X1、X2、Y是四个随机变量,a,b是常数,以下关于协⽅差的性质描述错误的是?A、如果Cov(X,Y)=0,则随机变量X,Y相互独⽴B、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)C、Cov(aX,bY)=abCov(X,Y)D、如果随机变量x,Y相互独⽴,则Cov(X,Y)=0答案:A127.离线批处理⽅案的应⽤场景不包括?A、占⽤计算存储资源多B、快速⾼效,实时的数据处理C、数据处理格式多样D、处理⼤规模数据答案:B128.关于模型部署的描述不正确的是哪⼀项?A、模型⼀经部署,就可以永久的固化下来。B、模型部署可以借助的⼯具越来越多。C、在⽣产环境下部署模型也存在许多挑战,如:如何进⾏性能调优,安全性,如何⽀持AB测试等。D、模型部署就是把训练好的机器学习的模型部署到⽣产环境。答案:A129.请问在机器学习中,我们通常将原始数据按照⽐例分割为“测试集”和“训练集”,从
Sklearn.model_selection中调⽤train_test_split函数,以下哪项对该函数的描述不正确?A、参数random_state:是随机数的种⼦。使⽤不同的随机数也可以保证每次拆分的数据集⼀致。B、对数据集进⾏切分:训练集和测试集的语句可以是:X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)C、该函数的⼀般写法是:train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train),其中test_size参数表⽰样本占⽐。D、导⼊该函数所在模块的语句是:fromsklearn.model_selectionimporttrain_test_split答案:C解析:test_size参数表⽰测试集的⼤⼩,如果是⼩数的话,值
在(0,1)之间,表⽰测试集所占有的⽐例;如果是整
数,表⽰的是测试集的具体样本数;130.⼀个典型的⼤数据平台系统架构不包括以下哪个层次?A、数据平台层B、数据服务层C、数据应⽤层D、数据可视化层答案:D解析:⼀个典型的⼤数据平台系统架构应包括以下层次︰1.数据平台层(数据采集、数据处理、数据分析);2.数据服务层((开放接⼝、开放流程、开放服务);3.数据应⽤层(针对企业业务特点的数据应⽤);4.数据管理层(应⽤管理、系统管理)。131.在MLS中,“决策树分类”节点的参数设置描述不准确的是?A、不纯度:树节点标签的混杂度计算标准,选值仅有“Gini”.B、最⼤树深度:模型训练的最⼤迭代次数。取值区间为[1,30]。C、最⼤分箱数:对连续的值进⾏范围划分,不能⼩于各分类特征的最⼤取值数⽬。D、处理异常值选项中可以选择,“null"值代替答案:A解析:“决策树分类”节点的参数:不纯度:树节点标签的混杂度计算标准,选值有“Gini”和“Entropy"。不是仅有“Gini”,所以选择A
选项132.Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听?A、ACKB、watcherC、checkpointD、分布式锁机制答案:B133.下列哪些⽅法不适合⽤来对⾼维数据进⾏降维?A、⼩波分析法B、线性判别分析LDAC、聚类分析D、主成分分析法答案:C解析:聚类分析属于分类算法,⽤于分类⽽不适合降维。134.Flink的窗⼝,按窗⼝⾏为划分不包含以下哪种?A、容量窗⼝B、滑动窗⼝C、滚动窗⼝D、会话窗⼝答案:A135.机器学习中做特征选择时,以下哪种技术属于Filter法(过滤法)?A、⽅差选择法B、互信息法C、卡⽅检验D、相关系数法E、以上全都正确答案:E解析:Filter常⽤的具体技术有下述四种:⽅差选择法、相关
系数法、卡⽅验证、互信息法。136.“ab”+”c”*2结果是A、abc2B、abcabcC、abccD、ababcc答案:C137.关于GaussDB200的发展史,下列说法错误的是(A、GaussDB200已经在华为云发布了云化产品。B、GaussDB200专注国内业务,不涉及海外。C、GaussDB200从⼀开始就⽀持ARM架构的部署。D、GaussDB200前⾝叫GaussDB,是GaussDB的⼦项⽬。答案:B138.购买与登录专属版MLS的描述不正确的有?A、确认集群信息⽆误后,依次单击“⽴即购买”、“提交”.B、在购买专属版MLS实例之前需要先购买“MapReduce服务”。C、在购买界⾯上,依次配置所需参数,其中,Kerberos认证:关闭或者开启均可。D、⼀旦提交,集群会⽴刻创建完成。答案:D解析:在“规格确认”界⾯,核实规格正确⽆误后,单击“提
交”。然后等待⼤约15-20分钟,系统创建完成。139.以下哪个选项不属于数据清洗的范畴?A、缺失值处理B、不均衡数据处理C、异常值处理D、数据加载处理答案:D解析:考查数据预处理中数据清洗的知识。数据清洗:缺失值处理、异常值处理、不均衡数据处理140.现实中⼤数据挖掘任务往往特征属性过多,⽽⼀个普遍存在的事实是,⼤数据集带来的关键信息只聚集在部分甚⾄少数特征上,因此我们需要进⾏以下哪种操作?A、特征标准化B、特征选择C、特征归⼀化D、特征清洗答案:B解析:考查对特征⼯程中,特征选择的使⽤背景理解141.请问以下关于随机森林说法错误的是哪⼀项?A、随机森林是bagging框架下的⽅法。B、⼦学习器⼀般是单颗决策树。C、随机森林引⼊⼀次随机性。D、随机森林⽀持并⾏操作。答案:C142.⼤数据计算任务中,关于IO密集型任务的描述不正确的是哪-项?A、IO密集型任务执⾏期间,⼤部分时间都花在IO处⾥上B、通过提升⽹络传输效率和读写效率可⼤幅度提升性能C、CPU消耗⾼D、任务越多,CPU效率越⾼答案:C143.以下哪⼀个架构是数据全程以流的形式处理,适⽤于预警、监控,对数据有实时处理要求的?单A、⼤数据流式架构B、⼤数据Kappa架构C、⼤数据统⼀架构D、⼤数据基础架构答案:A解析:⼤数据流式架构:⼤数据流式架构数据全程以流的形式处理,适⽤于预警、监控、对数据有实时处理要求的场景。
⼤数据Kappa架构:⼤数据Kappa架构在Lambda的基础上进⾏了优化,将批处理和流式处理进⾏了合并。将数据通道以消息队列进
⾏替代。Kappa以流处理为主,但是数据却在数据湖层⾯进⾏了存储。
⼤数据统⼀架构:⼤数据统⼀架构对Lambda进⾏了改造,在流处理层新增了机器学习层。适⽤于有⼤量数据分析需求,同时对机器
学习有需求或者规划的场景。
⼤数据基础架构:⼤数据基础架构主要为了解决传统BI中在处理⼤数据时的性能等问题,提供满⾜⽇常数据分析和数据处理的能⼒。144.以下关于模型评估描述不正确的是?A、在分类问题中,AUC越⼩,分类的质量越好。B、在聚类问题中,常⽤的性能度量参数包括Silhonette轮毂系数、兰德系数(AdjustedRandindex)。C、在回归问题中,最常⽤的性能度量参数是均⽅误差(Mse)、均⽅根误差(Rmse)、平均绝对误差(Mae)。D、在分类问题中,常⻅的评估指标包括混淆矩阵(ConfusionMatrix)、精确率(Precision)、召回率(Reca11)、F1值(F1-Measure)、AUC、ROC曲线(ReceiverOperatingCharacteristic)、PR曲线(PrecisionandRecall)答案:A解析:AUC越⼤,分类的质量越好145.请问主成分分析PCA对数据进⾏中⼼化后,使得每⼀维度上的均值是多少?A、-1B、0C、1D、以上都不正确答案:D146.以下关于K-折交叉验证法描述错误的是?A、K折交叉验证取K:k最常⽤的取值是10,此时称为10折交叉验证。其他常⽤的K值还有5、20等。B、交叉验证的思想是,每次⽤k个⼦集的并集作为训练集,余下的那个⼦集作为测试集,这样就有K种训练集/测试集划分的情况,从⽽可进⾏K次训练和测试,最终返回k次测试结果的均值。C、如果训练集相对较⼩,则增⼤K值。D、如果训练集相对较⼤,则减⼩K值。答案:B解析:考查K-折交叉验证,选择B,每次⽤k-1个⼦集的并集作
为训练集,⽽不是k个交叉验证的思想∶每次⽤k-1个
⼦集的并集作为训练集,余下的那个⼦集作为测试集,
这样就有K种训练集/测试集划分的情况,从⽽可进⾏K
次训练和测试,最终返回k次测试结果的均值。147.GaussDB200⽀持什么格式的数据存储?A、⾏存储B、列存储C、⾏列混存D、以上都对答案:D148.以下关于数据挖掘描述不准确的是?A、⼤数据挖掘主要基于⼈⼯智能、机器学习、模式学习、统计学等。通过对⼤数据⾼度⾃动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。B、通过数据挖掘可以建⽴起企业整体⽽不是某个业务过程局部的不同类型的模型。C、⽬前,在很多领域尤其是在商业领域如银⾏、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业⻛险规避等D、⼤数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的⼤型数据库中发现隐含在其中有价值的、潜在有⽤的信息和知识的过程。答案:B解析:通过数据挖掘可以建⽴起企业整体或某个业务过程局部
的不同类型的模型。149.当不知道数据所带标签时,可以使⽤哪种技术促使相似的数据与其他不相似的数据相分离?A、分类B、关联分析C、聚类D、隐⻢尔科夫过程答案:C解析:聚类分析是分析研究对象(样品或变量)如何按照多个⽅⾯的特征进⾏综合分类的⼀种多元统计⽅法,它是根据物以类聚的思想将相
似的样品(或变量)归为⼀类。聚类分析属于⽆监督学习(⽆监督:只给数据,不给标签)150.以下关于SparkMLlib中FP-Growth的超参数描述不正确的是?A、minConfidence:⽣成关联规则的最⼩置信度。置信度表明关联规则被发现的真实程度。B、minSupport:对项⽬集的最⼩⽀持被识别为频繁。C、numPartitions:⽤于分发⼯作的分区数。D、transform:以⾼于minConfidence的置信度⽣成的关联规则。答案:D解析:考查SparkMLlib中FP-Growth的超参数。以⾼于
MinConfidence的置信度⽣成的关联规则的超参数是:
AssociationRules多选题1.以下哪些是连续变量离散化过程的核⼼步骤?A、Sorting:对连续型变量进⾏排序,为离散化做准备。B、Evaluating:对Splitting来说评估分割点(⾃顶向下),对Merging来说评估合并点(⾃底向上)。C、Stopping:达到停⽌条件,停⽌离散化。D、SplittingorMerging:分割或合并区间。答案:ABCD解析:2.机器学习的分类主要有哪些?A、⽆监督学习B、强化学习C、监督学习D、半监督学习答案:ABCD解析:机器学习分类:有监督学习、⽆监督学习、半监督学习、强化学习。3.ElasticSearch⽤于⽇志搜索和分析,离不开其拥有的⽣态圈系统和解决⽅案,这些开源软件之间互相配合使⽤,完美衔接,⾼
效地满⾜了很多场景的应⽤。那么其⽣态圈系统具体包括以下哪些内容?A、插件扩展层B、数据持久化与分析层ElasticsearchC、数据接⼊层LogstashD、⽤⼾接⼊层Kibana答案:ABCD解析:4.求解优化问题⼀般有哪些⽅法?A、启发式优化法B、拉格朗⽇乘数法C、最速下降法D、⽜顿法答案:CD5.传统的ETL与ELT存在局限性,为了更好地适应多数据源、实时数据处理、⾼容错、并⾏化等业务需求,基于Kafka的ETL框架应运⽽⽣,以下关于KafkaConnect的描述正确的是?A、ApacheKafka是由ApacheHadoop开发的,能够实时处理数据,为所有的消息处理⽬的地提供现实状况来源管道。B、KafkaConnect将数据源和数据⽬的地视为彼此独⽴的任务,源端和⽬的端完全解耦,彼此不知道对⽅的存在。C、Sources负责从其他异构系统中读取数据并导⼊到Kafka中。D、Sinks负责把Kafka中的数据写⼊到其他的系统中。答案:AB6.请问使⽤KNN算法进⾏缺失值处理有以下哪些优点?A、K值的选择是关键,过⼤和过⼩都会影响最终结果。B、缺失值处理时把数据之间的相关性考虑在内。C、不需要为含有缺失值的每个属性都建⽴预测模型。D、⼀个属性有多个缺失值也可以解决。答案:BCD解析:K值的选择是关键,过⼤和过⼩都会影响最终结果是缺点,故不选A7.凸优化是机器学习的⼀个根本性问题,很多⾮凸问题可以通过⼀定的⼿段或⽅法转化为⼀个凸问题,⼀旦转化为⼀个凸问题,那么理论上来说,这个问题便得到了解诀。以下哪些是⾮凸优化问题转化为凸优化问题的⽅法?A、⽬标函数为凸函数B、约束条件为凸集C、抛弃⼀些约束条件,使新的可⾏域为凸集并且包含原可⾏域D、修改⽬标函数,使之转化为凸函数答案:ABCD解析:考查凸优化问题和⾮凸优化问题转化为凸优化问题的⽅法。凸优化满⾜:约束条件为凸集,⽬标函数为凸函数。⾮凸优化问题转化为凸优化问题的⽅法:修改⽬标函数,使之转化为凸函数,抛弃⼀些约束条件,使新的可⾏域为凸集并且包含原可⾏域8.在进⾏完数据预处理和特征⼯程后,接下来要进⾏的就是选择合适的模型来训练我们⼰经处理好的数据和选择的特征。假如你是⼀名数据挖掘⼯程师,⼀般会从以下哪⼏个⽅⾯来进⾏特征分析?A、其他要求∶性能、时间、空间。B、特征是否独⽴C、对拟合程度的要求D、特征空间的维度E、是否为线性特征答案:ABCDE9.以下关于⼤数据架构重要性的描述正确的有?A、好的⼤数据架构可扩展性强,可维护性⾼,能为企业未来的业务发展提供数据⽀撑。B、⼤数据架构作为数据提供者⻆⾊为⼤数据系统提供可⽤的数据。C、好的⼤数据架构需要围绕着企业的业务进⾏设计,⽽不是单单围绕着技术架构。业务是核⼼,⽽技术是业务的⽀持,好的⼤数据架构能满⾜业务的持续发展。D、⼤数据架构作为⼤数据应⽤程序提供者可以是单个实例,也可以是⼀组更细粒度的⼤数据应⽤提供者实例的集合,集合中的每个实例执⾏数据⽣命周期中的不同活动。答案:ABCD解析:1.好的⼤数据架构需要围绕着企业的业务进⾏设计,
⽽不是单单围绕着技术架构。业务是核⼼,⽽技术是
业务的⽀持,好的⼤数据架构能满⾜业务的持续发
展。好的⼤数据架构可扩展性强,可维护性⾼,能为
企业未来的业务发展提供数据⽀撑。2.⼤数据架构作
为系统协调者⻆⾊提供系统必须满⾜的整体要求,包
括政策、治理、架构、资源和业务需求,以及为确保
系统符合这些需求⽽进⾏的监控和审计活动。3.⼤数
据架构作为数据提供者⻆⾊为⼤数据系统提供可⽤的
数据。4.⼤数据架构作为⼤数据应⽤提供者在数据的
⽣命周
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情感真挚的写作表达试题及答案
- 2025年轻油蒸汽转化催化剂项目合作计划书
- 个体心理咨询与团体咨询试题及答案
- 心理咨询师考试答题思路试题及答案
- 心理咨询师考试心态调整与试题及答案
- 现代文写作框架设计试题及答案
- 小学体育教学总结10篇
- 2024年平度市属事业单位考试试卷
- 2025年助悬剂合作协议书
- 2024年南宁市富济劳务有限公司招聘 考试真题
- 木僵状态病因介绍
- 励志班会:学习虽苦但请珍惜 课件
- T-CSUS 69-2024 智慧水务技术标准
- 第二次世界大战后资本主义的变化及其实质
- 铁路钢轨探伤合同(2篇)
- 广州市海珠区六中鹭翔杯物理体验卷
- 国家职业技术技能标准 6-28-01-14 变配电运行值班员 人社厅发2019101号
- 肿瘤患者的康复与护理
- 电机学完整全套教学课件2
- 新版《铁道概论》考试复习试题库(含答案)
- 中国柠檬行业分析报告:进出口贸易、行业现状、前景研究(智研咨询发布)
评论
0/150
提交评论