版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据理论考试大数据理论考试(习题卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共195题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.HDFS是Hadoop平台上的分布式文件系统,那么它是由()构成的。A)由一个Namenode和多个Datanode组成?B)由一个Datanode和多个Namenode组成C)由多个Namenode和多个Datanode组成D.由一个Namenode和一个Datanode组成[单选题]2.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的()A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对[单选题]3.Hbase的一个典型应用是webtable,它是一个以网页()为主键的表。A)标题;B)URL;C)内容;D)类别;[单选题]4.下面算法属于局部处理的是()。A)灰度线性变换B)二值化C)傅里叶变换D)中值滤[单选题]5.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果A)DB)KC)ED)F[单选题]6.下列判断错误的是()。A)XML数据属于半结构化数据B)JSON文件属于非结构化数据C)PPT文件属于非结构化数据D)音视频文件属于非结构化数据[单选题]7.关于缺失值填补,不正确的说法是()。A)填补数据可以用中位数或者众数等B)pandas.dropna可以用来填补缺失值C)用平均值填补会引入相关性D)哑变量填补是将缺失值当做一类新特征处理[单选题]8.在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。A)留出法B)交叉验证法C)自助法D)留一[单选题]9.下面关于Hive四种排序方式的区别,描述正确的是()A)orderby是要对输出的结果进行全局排序,多个reducer可以实现全局排序B)sortby不是全局排序,只是在进入到reducer之前完成排序C)distributeby指的是按照指定的字段划分到不同的输出reduce文件中,常见使用方式是orderbydistributebyD)clusterby不仅支持正序排序,也支持逆序排[单选题]10.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A)一次写入,少次读B)多次写入,少次读C)多次写入,多次读D)一次写入,多次读[单选题]11.采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。A)降低B)不变C)提高D)无[单选题]12.()是指理解挖掘项目的目标业务需求。A)业务理解B)数据理解C)数据准备D)数据建模[单选题]13.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的,对吗()。A)对的B)不知道C)看情况D)不[单选题]14.一篇文章中某些名词的TF-IDF值比较大,则说明()。A)这些名词对这篇文章的区分度比较高B)这些名词对这篇文章的区分度比较低C)不能说明什么D)以上答案都不正[单选题]15.下面关于Hive各个格式使用场景描述错误的是()A)Parquet对于大型查询的类型是高效的,对于扫描特定表格中的特定列的查询,Parquet特别有用B)目前Parquet默认使用gzip压缩格式C)ORC可以支持复杂的数据结构(比如Map等)D)RCFile是一种行列存储相结合的存储方[单选题]16.相关关系是一种与函数关系区别的非确定性关系,而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法,以下不属于相关性分析方法的是()。A)Pearson相关系数B)Spearman秩相关系数C)Kendall相关系数D)傅里叶系数[单选题]17.在MapReduce中,哪个组件是用户不指定也不会有默认的()A)CombinerB)OutputFormatC)PartitionerD)InputFormat[单选题]18.以下哪种说法是正确的?A)数组可以包括不同类型的元素B)数组是不可变的C)数组最多不可以超过50个元素D)数组最多不可以超过22个元[单选题]19.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的()。A)定量思维B)相关思维C)因果思维D)检验思维[单选题]20.输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后,得到的特征图尺寸是多少()A)28x28B)27x27C)29x29D)32x32[单选题]21.数据科学项目应遵循一般项目管理的原则和方法,涉及()。A)整体、范围、时间、成本、质量、沟通、风险、宣传、消费B)整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C)整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D)整体、范围、时间、成本、质量、人力资源、采购、宣传、运维[单选题]22.scipy库中用于物理和数学常量计算的模块是()。A)scipy.clusterB)scipy.ioC)scipy.constantsD)scipy.linalg[单选题]23.Spark的Stage的Task的数量由什么决定__。A)PartitionB)JobC)StageD)TaskScheduler[单选题]24.()算法是决策树学习的基本算法,其他多数决策树学习方法都是它的变体。A)Find-S算法B)KNN算法C)概念算法D)I算[单选题]25.关于__name__的说法,下列描述错误的是()A)它是Python提供的一个方法B)每个模块内部都有一个__name__属性C)当它的值为?main?时,表示模块自身在运行D)当它的值不为?main?时,表示模块被引用[单选题]26.关于ZooKeeper临时节点的说法正确的是()A)创建临时节点的命令为:create-s/tmpmyvalueB)一旦会话结束,临时节点将被自动删除C)临时节点不能手动删除D)临时节点允许有子节[单选题]27.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()。A)[1101001]B)[1111111]C)[1111100]D)[1110100[单选题]28.子集搜索中,逐渐增加相关特征的策略称为()。A)前向搜索B)后向搜索C)双向搜索D)不定向搜[单选题]29.关于数据分析,下列说法正确的是()。A)描述性分析和预测性分析是对诊断性分析的基础B)断性分析分析是对规范性分析的进一步理解C)预测性分析是规范性分析的基础D)规范性分析是数据分析的最高阶段,可以直接产生产业价值[单选题]30.采用模板[-11]主要检测()方向的边缘。A)水平B)45°C)垂直D)135[单选题]31.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A)活性B)惰性C)实时D)非实时[单选题]32.下列关于配置机架感知的相关描述哪项不正确()A)如果一个机架出问题,不会影响数据读写和正确性B)写入数据的时候多个副本会写到不同机架的DataNode中C)MapReduce会根据机架的拓扑获取离自己比较近的数据块D)数据块的第一个副本会优先考虑存储在客户端所在节点[单选题]33.机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是什么()。A)Mini-Batch为偶数的时候,梯度下降算法训练的更快B)Mini-tch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理C)不使用偶数时,损失函数是不稳定的D)以上答案都不正[单选题]34.使用SQL语句进行分组检索时,为了去掉不满足条件的分组,应当A)使用WHERE子句B)在GROUPBY后面使用HAVING子句C)先使用WHERE子句,再使用HAVING子句D)先使用HAVING子句,再使用WHERE子[单选题]35.假设有列表a=['name','age','sex']和b=['Dong',38,'Male'],请使用一个语句将这两个列表的内容转换为字典,并且以列表a中的元素为?键?,以列表b中的元素为?值?,这个语句可以写为()。A)c=dict(cross(a,b))B)c=dict(zip(a,b))C)c=map(zip(a,b))D)c=b[单选题]36.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集。A)rioriB)EMC)PD)PA[单选题]37.假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。选择下面的描述,哪个表达了偏差和方差与λ的关系()。A)在λ非常小的情况下,偏差低,方差低B)在λ非常小的情况下,偏差低,方差高C)在λ非常小的情况下,偏差高,方差低D)在λ非常小的情况下,偏差低,方差低[单选题]38.关于Logistic回归和SVM不正确的是:()。A)Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B)Logistic回归的输出就是样本属于正类别的几率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D)SVM可以通过正则化系数控制模型的复杂度,避免过拟[单选题]39.以下关于Mahout说法正确的是()。A)存储框架B)数据管理框架C)数据可视化专业工具D)可扩展的机器学习算法及其实现[单选题]40.在机器学习中,不属于常用的冲突消解策略是()。A)投票法B)排序法C)元规则法D)加权法[单选题]41.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误差之间的差距会如何变化()。A)增大B)减小C)无法确定D)无明显变化[单选题]42.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A)MahoutB)FlumeC)SqoopD)HBase[单选题]43.以下哪种可以正确计算数组a的长度?A)count()B)take(1)C)tail()D)length([单选题]44.()主要提供内存计算框架A)Spark核心层B)资源计算层C)服务核心层D)Spark层[单选题]45.关于数据创新,下列说法正确的是()。A)个数据集的总和价值等于单个数据集价值相加B)于数据的再利用,数据应该永久保存下去C)同数据多次用于相同或类似用途,其有效性会降低D)数据开放价值可以得到真正释放[单选题]46.对于一组数据,我们应该如何将每个要素缩放到[-1,1]范围,而不会破坏稀疏性()。A)使用preprocessing.MaxAbsScaler()方法B)使用preprocessing.LabelEncoder()方法C)使用preprocessing.maxabs_scale()方法D)使用preprocessing.MinMaxScaler()方法[单选题]47.表达式int('101',2)的值为()。A)5B)6C)"10"D)3[单选题]48.将两篇文本通过词袋模型变为向量模型,通过计算向量的()来计算两个文本间的相似度。A)正弦距离B)余弦距离C)长度D)方[单选题]49.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A)HDFSB)PostgresqlC)HiveD)HBase[单选题]50.DBSCAN算法的MinPts参数的意义是()。A)数据点的邻域半径B)密度阈值C)高密度点距离阈值D)低密度点距离阈值[单选题]51.随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈()下降,最终趋向于零。A)指数级B)对数级C)线性级D)平方[单选题]52.著名的C4.5决策树算法使用()来选择最优划分属性。A)信息增益B)增益率C)基尼指数D)均值[单选题]53.MapReduce编程模型中以下组件哪个是最后执行的()A)MapperB)PartitionerC)ReducerD)RecordReader[单选题]54.一幅256*256(2^16)的图像,若灰度级数为16,则该图像的大小是:()A)128KB)32KC)1MD)2MB[单选题]55.PHOTO_PATH="./photo/{}.jpg"指令可以实现()。A)复制jpg文件到photo目录下B)定义一个名为photo的存储路径C)打开photo里所有的jpg文件D)重命名目录[单选题]56.关于创建api,以下描述正确的是:()。A)创建api只能通过脚本模式创建B)创建api只能通过向导模式创建C)创建api可以通过脚本模式和向导模式两种方式创建D)以上说法均不正[单选题]57.DWS的stream算子不包括下列哪个:A)broadcastB)gatherC)redistributeD)has[单选题]58.在大数据计算服务的数据仓库中的订单表fact_order,建表语句如下:createtablefact_order(order_iD、string,order_amtdouble,order_dtstring)partitioneD、by(dtstring);此表中的数据是从ods_order加工而来,ods_order建表语句如下:createtableods_order(order_iD、string,order_amtbigint,order_dtstring);ods_order中有一条记录数据值是order_iD、order_amtorder_dt000110020160301运行SQL语句将数据从ods_order加载到fact_order中:insertoverwritetablefact_orderpartition(dt=?20160301?)select*fromods_order;对此语句的执行结果描述正确的是:()。A)提交SQL时会报语法错误B)语句可以执行,order_amt的值会被自动的转为double类型C)语句可以执行,但是这条数据会被当作脏数据丢弃D)目标表与源表中的数据类型不一致,执行出错[单选题]59.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。A)身高一定是145.83cmB)身高一定超过146.00cmC)身高一定高于145.00cmD)身高在145.83cm左右[单选题]60.()是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分[单选题]61.下列哪种算法可以用神经网络构建?(__)1.K-NN最近邻算法2.线性回归3.逻辑回归A)1and2B)2and3C)1,2and3D)Noneoftheabov[单选题]62.基于Bagging的集成学习代表算法有()。A)AdaboostB)GBDTC)XGBOOSTD)随机森林[单选题]63.以下关于数据服务API开放方使用流程,描述正确的是:()。A)创建api并发布apiB)获取APIC)调用APID)创建应用并获取授[单选题]64.数据可视化的方法论基础是()。A)统计图表B)视觉编码理论C)图论D)图形符号学[单选题]65.Hadoop环境下MapReduce中,()实现中间结果中的重复key做合并A)OutputKeyClassB)OutputValueClassC)CombinerClassD)ReducerClass[单选题]66.np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),最终的输出结果是()。A)[[1,4],[9,7]]B)[[1,3],[9,7]]C)[[1,8],[3,4]]D)[[2,9],[3,6]][单选题]67.对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题()A)循环神经网络B)感知机C)多层感知机D)卷积神经网[单选题]68.python不支持的数据类型有A)charB)intC)floatD)list[单选题]69.以下哪一个不是spark的特点A)随处运行B)代码简洁C)使用复杂D)运行快[单选题]70.当图像通过信道传输时,噪声一般与()无关。A)信道传输的质量B)出现的图像信号C)是否有中转信道的过程D)图像在信道前后的处[单选题]71.给定词汇表如下:{Bob,ok,like,football,car}。则下面句子Botlikesfootball的词袋模型表示为:A)[11100]B)[10110]C)[10010]D)[01101[单选题]72.以下哪个数据库出现时间最早A)oracleB)postgresqlC)sybaseD)greeplu[单选题]73.下列关于计算机存储容量单位的说法中,错误的是()。A)1KBB)基本单位是字节(te)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字[单选题]74.以下关于随机森林的说法正确的是()。A)随机森林对于高维数据集的处理能力比较好B)在对缺失数据进行估计时,随机森林是一个十分有效的方法C)当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法D)以上答案都正[单选题]75.select语句的执行过程是从数据库中选取匹配的特定记录和字段,并将这些数据组织成一个结果集,然后以()的形式返回。A)结构体数组B)系统表C)永久表D)临时[单选题]76.图像灰度方差说明了图像的哪一个属性()。A)平均灰度B)图像对比度C)图像整体亮度D)图像细[单选题]77.以下关键点检测描述正确的是()。A)关键点检测就是检测目标的关键点B)在人体或者人脸关键点检测中应用较多C)在电网的应用中,我们主要用来进行人员违章动作的判断D)以上答案都正[单选题]78.在DAYU数据集成中,下列关于批量数据迁移系统限制和约束的说法错误的是A)批量数据迁移系统不会自动备份用户的作业配置,需要用户通过作业的导出功能进行备份B)集群创建好以后支持修改规格C)不支持集群自动升级到新版本,需要用户通过作业的导入和导出功能,实现升级到新版本D)文件迁移时,单个任务支持千万数据量的文件,如果待迁移目录下文件过多,建议拆分到不同目录并创建多个任[单选题]79.如果线性回归模型中的随机误差存在异方差性,那么参数的OLS估计量是()。A)无偏的,有效的B)无偏的,非有效的C)有偏的,有效的D)有偏的,非有效[单选题]80.下列哪个不属于CRF模型对于HMM和MEMM模型的优势(__)。A)特征灵活B)速度快C)可容纳较多上下文信息D)全局最[单选题]81.以下关于异常处理的描述,正确的是()。A)try语句中有except子句就不能有finally子句B)Python中,可以用异常处理捕获程序中的所有错误C)引发一个不存在索引的列表元素会引发NameError错误D)Python中允许利用raise语句由程序主动引发异常[单选题]82.以下关于traintestsplit函数的说法正确的是()。A)train_test_split能够将数据集划分为训练集、验证集和测试集B)train_test_split的输入只能是一个数组C)train_test_split每次的划分结果不同,无法解决D)train_test_split函数可以自行决定训练集和测试集的占比[单选题]83.Maxcompute的mapreduce不支持的功能是:()。A)统计信息B)任务进度汇报C)推测执行D)文件压缩[单选题]84.回归方程判定系数的计算公式R^2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A)式中的SSE指残差平方和B)式中的SSR指总离差平方和C)判定系数用来衡量回归方程的扰合优度D)判定系数R^2等于相关系数的平方[单选题]85.下面与HDFS类似的框架是()A)NTFSB)FAT32C)GFSD)EXT3[单选题]86.下列不属于深度学习内容的是(__)。A)深度置信网络B)受限玻尔兹曼机C)卷积神经网络D)贝叶斯学[单选题]87.以等可能性为基础的概率是()A)古典概率B)经验概率C)试验概率D)主观概率[单选题]88.数据仓库的最终目的是()。A)收集业务需求B)建立数据仓库逻辑模型C)开发数据仓库的应用分析D)为用户和业务部门提供决策支持[单选题]89.随机森林是在()上的一个扩展变体。A)BoostingB)AdaBoostC)RFD)Bagging[单选题]90.统计描述的种类主要包括均值、百分位数、中位数、众数、全距和方差等,()是指如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值.A)均值B)百分位数C)中位数D)众数[单选题]91.Spark可以处理的数据任务包括()A)数据批处理任务;B)交互式处理任务;C)图数据处理任务;D)A,B和C;[单选题]92.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的()。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)以上答案都不正确[单选题]93.不属于Mayer-SchönbergerV和CukierK.在其著名论著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大数据时代统计的思维变革的是()。A)不是随机样本,而是全体数据B)不是精确性,而是混杂性C)不是描述性分析,而是预测性分析D)不是因果关系,而是相关关系[单选题]94.以下哪项关于决策树的说法是错误的()。A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题[单选题]95.在Apriori算法中,候选项集划分为不同的桶,存放在()中。A)字典B)集合C)Hash树D)列[单选题]96.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A)计划B)执行C)检查D)改进[单选题]97.在HDFS中()是文件系统的工作节点。A)DataNodeB)ClientC)NameNodeD)Flume[单选题]98.DNN常用的激活函数有(__)。A)sigmoidB)tanhC)ReLUD)以上答案都正[单选题]99.Spark中Job的划分是依据()A)依赖B)ction算子C)依赖D)aransformation算子[单选题]100.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他人员。下面哪种学习方法最适合此种应用需求()A)二分类问题B)层次聚类问题C)多分类问题D)回归问[单选题]101.在Hadoop的分区阶段,默认的Partitioner是()。A)RangePartitionerB)PartitionerC)HashPartitionerD)用户自定义的Partitioner[单选题]102.属于卷积神经网络应用方向的是(__)。A)图像分类B)目标检测C)图像语义分割D)以上答案都正[单选题]103.ggplot2的核心理念是()。A)绘图与数据分离B)结构与数据分离C)绘图与结构分离D)绘图与数据和结构分离[单选题]104.主成分分析的优化目标是一个()。A)不含约束条件的二次规划问题B)含有约束条件的二次规划问题C)不含约束条件的线性规划问题D)含有约束条件的线性规划问题[单选题]105.为了允许支持向量机在一些样本上出错,引入()的概念。A)软间隔B)硬间隔C)间隔D)误[单选题]106.(__)网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间,同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的临近神经元。A)SOM网络B)R网络C)ART网络D)ELman网[单选题]107.关于数据服务中,app说法正确的是:()。A)一个用户只能创建一个APPB)一个APP只能申请一个API的权限C)一个用户可以创建多个APP,一个APP可以申请多个API的权限D)一个API只能被一个APP使[单选题]108.在MaxComputeSQL中,concat('a',null,'b')的执行结果是:()。A)aB)anullbC)abD)null[单选题]109.关于SOM神经网络描述错误的是:(__)。A)一种竞争学习型的无监督神经网络B)将高维输入数据映射到低维空间,保持输入数据在高维空间的拓扑结构C)SOM寻优目标为每个输出神经元找到合适的权重D)输出层神经元以矩阵方式排列在二维空[单选题]110.sklearn.cluster模块实现了哪个功能()。A)集群B)降维C)回归D)聚类[单选题]111.泛化误差可分解为偏差、方差与噪声之和,当学习器拟合程度不够强时,是()主导了泛化错误率。A)偏差B)方差C)噪声D)差与方差共同[单选题]112.关于OLAP的特性,下面正确的是:(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性()A)(1)(2)(3)B)(2)(3)(4)C)(1)(2)(3)(4)D)(1)(2)(3)(4)(5)[单选题]113.在MaxComputeSQL中,用于执行显示类型转换的函数是:()。A)CASTB)CONCATC)TOD)LIKE[单选题]114.所有预测模型在广义上都可称为一个或一组()。A)公式B)逻辑C)命题D)规则[单选题]115.stats.describe()函数的作用是()。A)计算变异系数B)计算数据集的样本偏度C)计算所传递数组的几个描述性统计信息D)计算关于样本平均值的第n个矩[单选题]116.下列哪一项能反映出X和Y之间的强相关性()A)相关系数为0.9B)对于无效假设β=0的p值为0.0001C)对于无效假设β=0的t值为30D)以上说法都不对[单选题]117.关于基本数据的元数据是指()。A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息[单选题]118.在深度学习中,下列对于sigmoid函数的说法,错误的是()。A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问[单选题]119.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A)组合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)[单选题]120.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变多少()A)一个单位B)不变C)截距D)回归模型的尺度因[单选题]121.以下选项正确的是()。ImportnumpyasnpNm=('raju','anil','ravi','amar')Dv=('f.y.','s.y.','s.y.','f.y.')Ind=np.lexsort((nm,dv))Print(ind)A)[3012]B)[1359]C)[3198]D)['amar,f.y.''anil,s.y.''raju,f.y.''ravi,s.y.'][单选题]122.决策树中的叶结点对应于()。A)属性B)样本C)决策结果D)标签值[单选题]123.下列关于Hive特点总结正确的选项是()A)Hive支持自由的扩展集群的规模,只需要重启服务即可B)Hive支持自定义函数,用户可以根据自己的需求去定义函数C)HiveSQL执行时,需要避免节点出现问题D)Hive适合处理小批量数[单选题]124.下面哪个问题不适合使用机器学习方法解决()。A)判断电子邮件是否是垃圾邮件B)判断给定的图中是否有环C)判断是否给指定用户办理信用卡D)对滴滴拼车乘客分簇[单选题]125.下面哪个程序负责HDFS数据存储()A)NameNodeB)JobtrackerC)DatanodeD)secondaryNameNode[单选题]126.以下关于降维,表述错误的是:()。A)降维过程中可以保留原始数据的所有信息B)多维缩放的目标是要保证降维后样本之间的距离不变C)线性降维方法目标是要保证降维到的超平面能更好的表示原始数据D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢[单选题]127.关联规则的评价指标是()。A)均方误差、均方根误差B)Kappa统计、显著性检验C)支持度、置信度D)平均绝对误差、相对误[单选题]128.图象与灰度直方图间的对应关系是:()A)一一对应B)多对一C)一对多D)都不对[单选题]129.关于循环神经网络设计的叙述中,错误的是()。A)能处理可变长度的序列B)基于图展开思想C)基于参数共享思想D)循环神经网络不可应用于图像数[单选题]130.Hadoop生态系统中,()主要解决的是日志类数据的收集和处理问题。A)MahoutB)FlumeC)SqoopD)HBase[单选题]131.()将观测值分为相同数目的两部分,当统计结果为非对称分布时,经常使用它。A)众数B)标准差C)中位数D)均值[单选题]132.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A)表达观点的关键词B)表达程度的关键词C)表达情绪的关键词D)表达客观事实的关键[单选题]133.下列关于RNN说法正确的是(__)。A)RNN可以应用在NLP领域B)LSTM是RNN的一个变种C)在RNN中一个序列当前的输出与前面的输出也有关D)以上答案都正[单选题]134.ndarry是一个通用的()数据容器。A)单维同类;B)单维多类;C)多维同类;D)多维多类;[单选题]135.从优化角度来看,大数据计算服务的MapReduce对于哪个节点处理哪个分片这个问题,采用了()策略。A)本地性原理,即数据在哪台机器上,就在哪台机器上启动mapB)能者多劳原理,将数据移动到计算能力最强的节点上,启动mapC)基于历史处理信息的优化原理,即将数据移到从历史执行信息看处理效果最好的机器上,启动mapD)负载均衡原理,即将数据放在当前负载最小的节点上启动map[单选题]136.线性模型中的权重w值可以看做各个属性x的()。A)正则化系数B)对最终决策结果的贡献度C)高维映射D)取值[单选题]137.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。A)基于图论的分割方法B)分水岭算法C)SLI法D)基于阈值的方[单选题]138.Hadoop默认对3个副本的存放策略是()A)第一个副本存放在client所在的datanode中--》第二个副本存放在与第一个副本不同机架的随机datanode中--》第三个副本存放在与第二个副本同机架的不同datanode中;B)第一个副本存放在client所在的datanode中--》第二个副本存放在与第一个副本同机架的不同datanode中--》第三个副本存放在与第一个副本不同机架的随机datanode中;C)第一个副本存放在随机datanode中--》第二个副本存放在与第一个副本同机架的不同datanode中--》第三个副本存放在与第一个副本不同机架的随机datanode中;D)第一个副本存放在随机datanode中--》第二个副本存放在与第一个副本不同机架的随机datanode中--》第三个副本存放在与第一个副本同机架的不同datanode中;[单选题]139.在用户验证权限时,应当在?服务列表?中选择数据复制服务,进入DRS主界面,单击右上角(),尝试购创建迁移任务。A)修改迁移任务B)创建迁移任务C)查阅权限D)删除迁移任[单选题]140.DAGScheduler的作用是什么()A)负责分配任务;B)负责调度Worker的运行;C)负责创建执行计划;D)负责清理执行完毕的任务;[单选题]141.()是利用样本的实际资料计算统计量的取值,并以引来检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法A)假设检验B)逻辑分析C)方差分析D)回归分[单选题]142.采用模板[-1,1]主要检测()方向的边缘A)水平B)45°C)垂直D)135°[单选题]143.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是()A)32MB)64MC)128MD)256M[单选题]144.依托(),结合应用推进数据归集,形成统一的数据资源中心。A)全业务数据中心和数据中台B)营销基础数据平台和大数据平台C)全业务中心和营销基础数据平台D)全业务数据中心和大数据平[单选题]145.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。A)穷举搜索B)随机搜索C)Bayesian优化D)以上全是[单选题]146.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A)主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B)在经主分量分解后,协方差矩阵成为对角矩阵C)主分量分析就是K-L变换D)主分量是通过求协方差矩阵的特征值得到[单选题]147.()是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。A)数据治理B)数据战略C)数据加工(DataWrangling或DataMunging)D)数据能力[单选题]148.运营人员为了搞促销,需要找出目标客户名单,这批客户的信息存储在大数据计算服务(MaxCompute,原ODPS)的user表中,并且用户名字段username中包含?vip?字样,通过执行SQL语句()可以找出这批客户。A)select*fromuserwhereusernamecontains(?vip?)B)select*fromuserwhereusername=?vip?C)select*fromuserwhereusernamelike?*vip*?D)select*fromuserwhereusernamelike?%vip%?[单选题]149.下列关于数据科学流程与方法的描述中,错误的是()。A)数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging)、数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B)对于数据形态不符合要求的乱数据,要通过清洗成为规整数据C)数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D)数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉假象[单选题]150.一幅图像在采样时,行、列的采样点与量化级数()。A)既影响数字图像的质量,也影响到该数字图像数据量的大小B)不影响数字图像的质量,只影响到该数字图像数据量的大小C)只影响数字图像的质量,不影响到该数字图像数据量的大小D)既不影响数字图像的质量,也不影响到数字图像数据量的大[单选题]151.以下两种描述分别对应哪两种对分类算法的评价标准?()a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。b)描述有多少比例的小偷给警察抓了的标准。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC[单选题]152.利用到每个聚类中心和的远近判断离群值的方法,可以基于的算法为()。A)K-MeansB)KNNC)SVMD)LinearRegression[单选题]153.关于HDFS安全模式说法正确的是()A)在安全模式下只能写不能读B)在安全模式下只能读不能写C)在安全模式下读写都不允许D)在安全模式下读写都可[单选题]154.以下四个选项中,()是Spark的核心数据结构。A)弹性分布式数据集B)列表C)元组D)字典[单选题]155.有订单表orders,包含用户信息userid、产品信息productid两列,以下语句能够返回至少被订购过两回的productid的语句是A)SELECTproductidFROMordersWHEREcount(productid)>1B)SELECTproductidFROMordersWHEREmax(productid)>1C)SELECTproductidFROMordersWHEREhavingcount(productid)>1GROUPBYproductidD)SELECTproductidFROMordersGROUPBYproductidHAVINGcount(productid)>[单选题]156.下列选项中,用于触发异常的是()。A)tryB)catchC)raiseD)except[单选题]157.Numpy的数组中Ndarray对象属性描述错误的是()。A)Ndarray.ndim秩,即轴的数量或维度的数量B)Ndarray.shape数组的维度,对于矩阵,n行m列C)Ndarray.size数组元素的总个数,也是shape属性中n*m的值D)Ndarray.itemsizeNdarray对象的元素类型[单选题]158.基于词的n元文法模型,其最后的粗分结果集合大小()N。A)大于B)大于等于C)小于D)小于等于[单选题]159.以下哪种不是Hive支持的数据类型()A)StructB)IntC)MapD)Long[单选题]160.A=np.array([[1,1],[0,1]]),B=np.array([[2,0],[3,4]]),A*B的结果是()。A)[[2,0],[0,4]]B)[[5,4],[3,4]]C)[[3,4],[5,4]]D)无法计算[单选题]161.事务对数据对象加锁后拥有何种控制权是由封锁的()决定的。A)状态B)类型C)数量D)属性[单选题]162.关于MapReduce的描述错误的是()A)MapReduce框架由一个单独的masterJobTracker和每个集群设备一个slaveTaskTracker共同组成B)master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上C)master监控slave上任务的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务D)slave不仅负责执行由master指派的任务,还会重新执行失败的任[单选题]163.关于混合模型聚类算法的优缺点,下面说法正确的是()。A)当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B)混合模型很难发现不同大小和椭球形状的簇C)混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布D)混合模型在有噪声和离群点时不会存在问题[单选题]164.MapReduce中,Shuffle操作的作用是()。A)合并B)排序C)降维D)分区[单选题]165.读代码,请写出程序正确的答案()。#!/usr/bin/envpython3N=100Sum=0Counter=1Whilecounter<=n:Sum+counterCounter+=1Print("1到%d之和为:%d"%(n,sum))A)结果:1到100之和为:5000B)结果:1到100之和为:0C)结果:1到100之和为:2050D)结果:1到100之和为:5020[单选题]166.从行为目的与思维方式看,下列哪个属于描述统计方法()。A)线性回归B)参数估计C)相关分析D)主成分分析[单选题]167.RDD默认的存储级别是()A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND)SKMEMORY_ANSK_SER[单选题]168.()不是Spark服务层的功能。A)SQL查询B)实时处理C)机器学习D)内存计[单选题]169.逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用()。A)Sigmoid函数B)tanh函数C)ReLU函数D)LeakyReLU函数[单选题]170.对模型进行超参数优化详尽搜索指定参数的估计值使用以下哪种方法()。A)ParameterGrid()B)ParameterSampler()C)GridSearchCV()D)RandomizedSearchCV()[单选题]171.可分解为偏差、方差与噪声之和的是()。A)训练误差(trainingerror)B)经验误差(empiricalerror)C)均方误差(meansquarederror)D)泛化误差(generalizationerror[单选题]172.()技术可以将所有数据的特性通过图的方式展现出来。A)支持向量机B)神经网络C)数据可视化D)数据挖掘[单选题]173.大数据计算服务的数据仓库的管理员发现用户表user没有备注信息,为了方便其他人员的使用,可以通过()方式给这张表加上备注。A)alterB)删除表user,在重建时指定comment选项C)touchD)change[单选题]174.在SQL语言分类中,以下属于DQL的是:A)updateB)selectC)insertD)delet[单选题]175.关于层次聚类算法:(1)不断重复直达达到预设的聚类簇数(2)不断合并距离最近的聚类簇(3)对初始聚类簇和相应的距离矩阵初始化(4)对合并得到的聚类簇进行更新。正确的执行顺序为()。A)1234B)1324C)3241D)341[单选题]176.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。A)相似B)相同C)推荐D)预[单选题]177.以下内容符合物体识别任务的是()。A)不能对图像进行压缩或剪裁B)遵守误差最小准则和最佳近似准则C)可以不指定分类的类别数量D)事先给定样本的分布特[单选题]178.下列不属于数据科学跨平台基础设施和分析工具的是()。A)微软AzureB)Google云平台C)阿里云D)Adobephotoshop[单选题]179.关于eval函数,以下选项中描述错误的是().A)eval函数的作用是将输入的字符串转为Python语句,并执行该语句B)如果用户希望输入一个数字,并用程序对这个数字进行计算,可以采用eval(input(<输入提示字符串>))组合C)执行eval("Hello")和执行eval("'Hello'")得到相同的结果D)eval函数的定义为:eval(source,globals=None,locals=None,/)[单选题]180.关系云的一个重要功能是提供()。A)数据库即服务B)虚拟服务C)弹性计算D)按需服务[单选题]181.能使图像亮度得到平缓渐变,减小突变梯度,改善图像质量的是()。A)图像平滑B)图像分类C)图像识别D)图像分[单选题]182.假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。A)仍然能正确分类数据B)不能正确分类C)不确定D)以上均不正确[单选题]183.诊断性分析主要采取的分析方法是()和()。A)关联分析和因果分析法B)关联分析和分类分析法C)关联分析和运筹学D)因果分析和分类分析[单选题]184.在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性()。A)互信息B)最大熵C)卡方检验D)最大似然[单选题]185.常见的图像预处理方法不包括()。A)图像降噪B)图像增强C)图像尺寸归一化D)图像标[单选题]186.Numpy.linspace(0,3,3)的结果为()。A)[0,1,2]B)[1,2,3]C)[0,1.5,3]D)[0,3,6][单选题]187.HBase使用一个()节点协调管理一个或多个regionserver从属机。A)namenode;B)datanode;C)jobtracker;D)master;[单选题]188.对分类任务来说,学习器从类别标记集合中预测出一个标记,最常见的结合策略是()。A)投票法B)平均法C)学习法D)排序[单选题]189.传统的MapReduce模型要求每一轮MapReduce操作之后,数据必须落地到分布式文件系统上。而一般的MapReduce应用通常由多个MapReduce作业组成,每个作业结束之后需要写入磁盘,接下去的Map任务很多情况下只是读一遍数据,为后续的Shuffle阶段做准备,这样其实造成了冗余的IO操作。为了解决这一问题,提供更优的性能,大数据计算服务提供了扩展的MapReduce模型,该模型区别于普通MapReduce模型的主要特点是:()。A)支持Map后连接任意多个Reduce操作,如Map-Reduce-ReduceB)支持Map后不连接Reduce,而是连接另一个map,如Map-Map-ReduceC)支持ChainD)支持没有Map,直接进入Reduce[单选题]190.HadoopMapReduce2.0中,()负责资源的管理和调度。A)JobTrackerB)YARNC)TaskTrackerD)ApplicationMaster[单选题]191.DWS实例中,下列哪项不是主备配置的:A)CMSB)GTMC)OMSD)coordinato[单选题]192.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接()A)循环神经网络B)卷积神经网络C)限制玻尔兹曼机D)都不[单选题]193.某工厂共有100名员工,他们的月工资方差是s,现在给每个员工的月工资增加3000元,那么他们的新工资的方差()。A)为s+3000B)小了C)大了D)不变[单选题]194.视觉编码的前提是分析并了解目标用户的(),尽量降低目标用户的()。A)视觉感知特征;感知障碍B)视觉感知特征;感知时间C)视觉感知习惯;感知障碍D)视觉感知习惯;感知时[单选题]195.以下说法错误的是:(__)。A)当目标函数是凸函数时,梯度下降的解时全局最优解B)进行PCA降维时需要计算协方差矩阵C)沿负梯度下降的方向一定是最优的方向D)利用拉格朗日函数能解带约束的优化问第2部分:多项选择题,共65题,每题至少两个正确答案,多选或少选均不得分。[多选题]196.以下关于集成学习的说法正确的是:()。A)随机森林是减少模型的方差,而GBDT是减少模型的偏差B)组成随机森林的树可以并行生成,而GT是串行生成C)随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之[多选题]197.我们希望减少数据集中的特征数量。你可以采取以下哪一个步骤来减少特征()。A)使用正向选择法(ForwardSelection)B)使用反向消除法(ckwardElimination)C)逐步选择消除法(Stepwise)D)计算不同特征之间的相关系数,删去相关系数高的特征之[多选题]198.下列说法中,对Python中的for语句描述正确的是()。A)Python中for语句只有一种写法:?forin?B)for语句可以用break终止当前循环,重新进入循环&C)continue语句可以跳过循环的当前一步D)for语句可以有else部分[多选题]199.关于HDFS的文件写入,正确的是()。A)不支持多用户对同一文件的写操作;B)用户不可以在文件任意位置进行修改;C)默认将文件复制成三份存放;D)复制的文件块默认不存在同一机架上;[多选题]200.下面对范数规则化描述正确的是()。A)L0是指向量中0的元素的个数B)L1范数是指向量中各个元素绝对值之和C)L2范数向量元素绝对值的平方和再开平方D)L0是指向量中非0的元素的个[多选题]201.API网关是:华为云提供的一个API托管的应用服务,API网管包括的功能有:()。A)API全生命周期的管理B)权限控制C)访问控制D流量控D)PI网关是:华为云提供的一个API托管的应用服务,API网管包括的功能有:()。A、API全生命周期的管理B、权限控制C、访问控制D流量控[多选题]202.下列不属于聚类性能度量内部指标的是()。A)DB指数B)Dunn指数C)Jaccard系数D)FM系[多选题]203.下列关于情感分析的说法正确的是()。A)简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B)情感分析的发展得益于社交媒体的兴起C)按照处理文本的粒度不同,情感分析大致可分为词语级,句子级、篇章级三个D)情感分析可以应用于文本挖[多选题]204.31、以下哪些选项是Kafka的特点?A)支持消息随机读取B)高吞吐C)分布式D)消息持久化[多选题]205.参数估计可以分为()。A)点估计B)一致估计C)区间估计D)无偏估计[多选题]206.下面导入模块正确的是()。A)importnumpyB)importnumpyasnpC)frommatplotlibimportpyplotD)frommatplotlibimportpyplotasplt[多选题]207.下面是python标准库的是()。A)osB)sysC)numpyD)re[多选题]208.以下哪几项属于汉语未登录词的类型()。A)存在于词典但出现频率较少的词B)新出现的普通词汇C)专有名词D)专业名词和研究领域名[多选题]209.对以下代码说法正确的是()。X=np.linspace(0.05,10,1000)Y=np.sin(x)Plt.plot(x,y,ls="-.",l=2,c="c",label="plotfigure"Plt.legend()Plt.grid(linestyle=":",color="r")Plt.show()A)该图表是一个蓝绿色的散点图B)图表中有红色实线的网格线C)图表中有图例D)该图画的是sin曲线;[多选题]210.下面哪些是spark比Mapreduce计算快的原因()。A)基于内存的计算;B)基于DAG的调度框架;C)基于Lineage的容错机制;D)基于分布式计算的框架;[多选题]211.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:()。A)把NaN直接作为一个特征,假设用0表示B)用均值填充C)用随机森林等算法预测填充D)以上答案都不正确[多选题]212.下列关于探索型数据分析常用图表的说法,正确的有:A)绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B)探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C)在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D)直方图和箱型图都可以用来展示数据的分布情况[多选题]213.关于Python组合数据类型,以下选项中描述正确的是()。A)Python的str,tuple和list类型都属于序列类型B)Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C)组合数据类型可以分为3类:序列类型,集合类型和映射类型D)序列类型是二维元素向量,元素之间存在先后关系,通过序号访问[多选题]214.Spark组件包含哪两个算子()。A)Map;B)Action;C)Transformation;D)Reduce;[多选题]215.行存表相比于列存表的区别是()A)行存表面向百万级以下数据量,列存表面向千万级以上数据量。B)行存表适合数据更新,列存表适合做数据聚合。C)行存表按行存储数据,列存表按列存储数据。D)同样的数据,采用行存表存储比列存储所耗的时间更[多选题]216.关于总体和样本的说法,正确的是:A)总体也就是研究对象的全体B)如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10秒抽取的产品C)样本是从总体的随机抽样D)如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生[多选题]217.Python函数包括下述哪些内容()。A)函数名称B)参数C)执行语句D)返回值[多选题]218.以下可以查看schema中所有表的语句是:A)元命令\dB)showtables;C)selecttablenamefrompg_tableswhereschemaname='test_schema';D)元命令\[多选题]219.ETL技术主要涉及()操作。A)抽取B)转换C)加载D)分析[多选题]220.关于Dropout说法正确的是:(__)。A)Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNNB)DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C)丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络D)opout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟[多选题]221.大数据偏见包括()A)数据源的选择偏见B)算法与模型偏见C)结果解读方法的偏见D)数据呈现方式的偏见[多选题]222.以下网络结构中可以应用于图像识别任务的是()。A)LeNet-5B)AlexNetC)ND)VGG-ne[多选题]223.神经网络的拓扑结构可以分为()和随机型网络等。A)前向型B)后向型C)反馈型D)自组织竞争[多选题]224.Dataworks中,调度系统提供了一些常用的时间参数,周期性调度任务使用这些参数后,在调度运行时参数会自动赋值为具体的时间,以下()参数是调度系统内置时间参数。A)${yyyymmdd}B)${date}C)${yyyy-mm-dd}D)${bdp.system.cyctime}[多选题]225.非频繁模式()。A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感[多选题]226.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包括()等元素A)行键B)时间戳C)列簇D)数据类型[多选题]227.下面哪些是Spark的组件()。A)SparkStreamingB)MLibC)GraphXD)SparkR[多选题]228.以下哪些选项是Kafka的特点?A)支持消息随机读取B)高吞吐C)分布式D)消息持久[多选题]229.有两种策略常用来缓解BP网络的过拟合,分别是()和()。A)晚停B)早停C)正则化D)加入损失函[多选题]230.大数据计算服务(MaxCompute,原ODPS)提供的是海量数据的存储和计算能力,和我们熟悉的关系型数据库存在较大的差别。以下说法中正确的是:()。A)不支持事务B)不支持deleteC)不支持索引D)不支持压缩[多选题]231.关于学习器结合的描述正确的选项是()。A)避免单学习器可能因误选而导致泛化性能不佳B)降低陷入局部极小点的风险C)假设空间扩大,有可能学得更好的近似D)多学习器结合有可能冲[多选题]232.正则表达式可以用非常灵活的方式来处理字符串,在大数据计算服务SQL中的正则函数支持POSIX格式,以下对正则表达式描述正确的有:()。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[:alnum:]]匹配字母字符和数字字符D)[[:digint:]]匹配数字字符[多选题]233.在建立模型时,需要用到()。A)训练数据B)测试数据C)原始数据D)验证数据[多选题]234.下面不是Python关键字的是()。A)noB)NoneC)nullD)none[多选题]235.图像识别的精度会受到以下那些因素的影响()。A)数据类别数量不平衡B)输入图像尺寸不同C)图像中存在类标之外的环境干扰D)图像中存在随机噪[多选题]236.常用的代价函数有()。A)均方误差B)均方根误差C)平均绝对误差D)交叉熵[多选题]237.下面哪些是循环神经网络的输出模式(__)。A)多输出B)单输出C)同步多输出D)异步多输[多选题]238.对于主成分分析方法,降维后低维空间的维数d可以通过()方法确定。A)由用户事先指定B)通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C)可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D)随机设置[多选题]239.Web内容挖掘实现技术()。A)文本总结B)文本分类C)文本机器学习D)关联规[多选题]240.特征向量的归一化方法有哪些()A)线性函数转换B)对数函数转换C)反余切函数转换D)减去均值,除以方差[多选题]241.对于决策树的优点描述正确的是()。A)可读性强B)分类速度快C)只用于回归问题D)是无监督学习[多选题]242.云上DWS部署架构中,BMS裸金属方式部署相较于ECS虚机方式的优势有哪些:A)BMS部署具有更好的IO性能B)BMS部署方式具备更好的安全性C)BMC部署方式更易维护D)集群发生DN主备切换不影响BMS集群性[多选题]243.实时计算类应用主要通过()来实现。A)流计算组件B)内存计算组件C)MPP数据库D)Hadoop的后台定时分析计算任务[多选题]244.可作为决策树选择划分属性的参数是()。A)信息增益B)增益率C)基尼指数D)密度函[多选题]245.python中,字符串格式化的方式()。A)%B)formatC)inD)input[多选题]246.传统关系数据库的优点包括()。A)数据一致性高B)数据冗余度低C)简单处理的效率高D)产品成熟度高[多选题]247.下面哪些是基于核的机器学习算法(__)。A)最大期望算法B)径向基核函数C)线性判别分析法D)支持向量[多选题]248.以下关于Pig说法正确的是()。A)弥补MapReduce编程复杂性B)封装MapReduce处理过程C)PigLatin是一种数据分析语言D)适用于并行处[多选题]249.下列属于描述gensim库的特性的是()。A)训练语料的预处理B)主题向量的变换C)文档相似度的计算D)文章切分词语统计计算[多选题]250.Spark有哪些缺陷()。A)于内存的计算B)持Schema信息C)支持增量迭代计算D)支持细粒度更新操作[多选题]251.以下属于数据挖掘与分析工具的有()。A)TableauB)PythonC)SPSSD)Altey[多选题]252.已定义级(DefinedLevel)的主要特点包括()。A)组织机构已明确给出了关键过程的?标准定义?,并定期对其进行改进。B)已提供了关键过程的测量与预测方法。C)关键过程的执行过程并不是简单或死板地执行组织机构给出的?标准定义?,而是根据具体业务进行了一定的?裁剪?工作。D)数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一[多选题]253.Spark中的Scheduler模块可以分为以下哪几个部分()。A)DAGScheduler;B)ResourceScheduler;C)TaskScheduler;D)JobScheduler;[多选题]254.Hadoop框架的缺陷有()。A)MR编程框架的限制;B)过多的磁盘操作,缺乏对分布式内存的支持;C)无法高效支持迭代式计算;D)不支持多用户写入并任意修改文件;[多选题]255.以下算法中可以应用于图像分割的是()。A)边缘检测技术B)阈值分割技术C)基于区域的分割技术D)区域生长方[多选题]256.以下()是scipy.stats可实现的连续随机变量方法。A)rvsB)pdfC)ppfD)cdf[多选题]257.以下()属于数据统计分析工具。A)WekaB)SASC)SPSSD)Matlab[多选题]258.下面对于超链接的说法,正确的是()。A)语句<ahref=?formhtml?>FillOurForm</a>指向的是同一服务器同一目录下的formhtmlB)语句<ahref=?stuff/cathtml?>Catalog</a>指向的是同一服务器子目录stuff下的cathtmlC)语句<ahref=?/parenthtml?>Parent</a>指向的是同一服务器父目录下的parenthtmlD)语句<ahref=?wwwdevbgorg?target=?_blank?>BASD</a>指向的是内部的网站[多选题]259.关于TF-IDF模型描述正确的有()。A)TF意思是词频B)IDF是逆文本频率C)该模型基于统计方法D)在信息检索中应用较[多选题]260.列存表有以下哪些特性:A)insert效率高B)适用于OLAPC)select效率高D)update效率1.答案:A解析:HDFS由一个Namenode,一个secondaryNameNode和多个Datanode组成。2.答案:C解析:根据训练样本误差为零,无法推断测试样本误差是否为零。如果测试样本集很大,则很可能发生过拟合,导致模型不具备很好的泛化能力。3.答案:B解析:webtable中,以网页URL为主键。4.答案:D解析:中值滤波是将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值,在图像处理中常用于保护边缘信息,是一种局部处理方法。5.答案:B解析:划分聚类算法K-Means将数据点集分为K个子集。6.答案:B解析:JSON文件属于半结构化数据。7.答案:B解析:pandas.dropna可以用来删除缺失值。8.答案:C解析:自助法更适用于数据集较小、难以划分训练集和测试集的情况。9.答案:B解析:10.答案:D解析:HDFS的设计以?一次写入、多次读取?为主要应用场景。11.答案:C解析:采样分析的精确性随着采样随机性的增加而提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从新个体上得到的信息会越来越少。12.答案:A解析:根据CRISP-DM(cross-industrystandardprocessfordatamining,跨行业数据挖掘标准流程)模型,业务理解是指从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。13.答案:D解析:不对,神经网络对于未知的数据不是均匀预测的,会对莫一种或多种类别存在偏向。14.答案:A解析:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。名词的TF-IDF值越大说明这些名词对这篇文章的区分度越高。15.答案:B解析:16.答案:D解析:傅里叶系数由Fouriercoefficient翻译而来,有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《骆驼寻宝记》教学设计
- 环保工程师劳动合同聘用协议书
- 生态农业园区建设施工合同
- 生物科技二手房交易模板
- 租赁车辆防雾霾装备要求
- 城市交通规划公众参与
- 矿山工程招投标模板
- 广告拍摄墙体壁画施工合同
- 居民区翻新施工合同
- 化妆品租赁田地合同
- 城市轨道交通线路选线设计-徐振廷
- 工程委外维保流程ppt课件
- 探究如何提高机电工程施工质量的方法
- 中建股份公司合同管理手册
- 仓库分区及状态标识
- 浅析微博营销对消费者购买行为的影响
- 超高层建筑电气设计要点分析
- 德国支持中小企业科技创新的政策资料
- 1到10套文章听力 (1)[教案教学]
- 全公安机关易制爆危险化学品安全监管要点暨检查记录表
- 关于集中式供水单位卫生监督管理情况汇报
评论
0/150
提交评论