大数据开发基础(习题卷27)_第1页
大数据开发基础(习题卷27)_第2页
大数据开发基础(习题卷27)_第3页
大数据开发基础(习题卷27)_第4页
大数据开发基础(习题卷27)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷27)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.消息系统Kafka如何保证高吞吐能力?A)多订阅者机制B)Partition机制C)持久性机制D)冗余备份机制答案:B解析:[单选题]2.有关Hive支持的基本数据类型,以下那个是8byte有符合整数()A)TinyintB)SmalintC)IntD)Bigint答案:D解析:[单选题]3.()是人类获得信息的最主要途径.A)味觉B)视觉C)听觉D)触觉答案:B解析:[单选题]4.优化管理体系,实现管理模式从(___)向(___)转变,向各级组织和业务赋能。A)数据化,业务化B)平台化,集约化C)条块化,共享化D)纵向贯通,横向贯通答案:C解析:[单选题]5.不属于数据脱敏的要求的是()。A)双向性B)单向性C)无残留D)易于实现答案:A解析:[单选题]6.各单位应对各域间边界、尤其是互联网边界的数据流量,建立健全数据监测、审计机制及相关技防措施,审计日志应留存不少于()个月A)一B)三C)六D)十二答案:C解析:[单选题]7.以下关于增益率说法正确的是(___)A)ID3算法使用增益率选择最优划分属性B)增益率准则对可取值数目较多的属性有所偏好C)属性a的可能取值数目越多,IV(a)的值通常越大D)C4.5算法先从候选划分属性中找出信息增益低于平均水平的属性,再从中选择增益率最高的答案:C解析:[单选题]8.关于正则化项,说法错误的是()A)、在机器学习中,如果单方面追求?误差函数?的取值最小,则很容易造成机器学习的?欠拟合?现象。B)、?过拟合(Overfit)?就是目标函数在已知数据(如训练集)上的拟合性能非常高(如准确率达到100%),而在未知数据(如测试集或新数据)上的拟合准确率低(如准确率低于50%)。C)、为了防止过拟合现象的出现,机器学习通常采取?正则化项?。D)、正则化项有L1项(L1Loss)和L2项(L2Loss),二者的区别在于所涉及的距离计算方法和回归方法不同答案:A解析:[单选题]9.在其他条件不变的前提下,()容易引起机器学习中的过拟合问题。A)增加训练集量B)减少神经网络隐藏层节点数C)删除稀疏的特征D)SVM算法中使用高斯核/RBF核代替线性核答案:D解析:神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。[单选题]10.下面哪种不属于数据预处理的方法?A)变量代换B)离散化C)聚集D)估计遗漏值答案:D解析:[单选题]11.(__)假设聚类结构能通过一组原型刻画,在显示聚类任务中极为常用。A)原型聚类B)密度聚类C)层次聚类D)AGNES答案:A解析:[单选题]12.安装HBase,配置环境变量,命令是()A)vi/etc/profile.d/mysql-eco.shB)vi/etc/profile.d/hive-eco.shC)vi/etc/profile.d/hbase-eco.shD)vi/etc/profile.d/hadoop-eco.sh答案:D解析:[单选题]13.下列算法中sklearn中未提及的是()。A)K-means聚类算法B)LogisticRegressionC)KNN算法D)Apriori关联规则算法答案:D解析:关联规则在Sklearn库中未涉及。[单选题]14.一般而言,在个体学习器性能相差较大时宜使用(),而在个体学习器性能相近时宜使用()A)简单平均法,加权平均法B)加权平均法,简单平均法C)简单平均法,简单平均法D)加权平均法,加权平均法答案:B解析:[单选题]15.()模式,多个Hive用户通过网络连接到数据库。A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:B解析:[单选题]16.IDC的定义除了揭示大数据传统3V基本特征,即Volume、Variety和Velocity,还增添了一个新特征是A)量大B)速度快C)应用广D)价值答案:D解析:[单选题]17.任何一个核函数都隐式地定义了一个()空间。A)希尔伯特空间B)再生希尔伯特空间C)再生核希尔伯特空间D)欧式空间答案:C解析:[单选题]18.x=1defchange(a):x+=1printxchange(x)代码执行结果是(___)。A)1B)2C)3D)报错答案:D解析:[单选题]19.以下()文件中主要用来配置ResourceManager,NodeManager的通信端口,web监控端口等。A)core-site.xmlB)mapred-site.xmlC)hdfs-site.xmlD)yarn-site.xml答案:D解析:[单选题]20.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]21.ClusterManager是()A)主节点B)从节点C)执行器D)上下文答案:A解析:[单选题]22.概率图模型中最常用的采样技术是马尔科夫链蒙特卡洛(MCMC)方法,以下关于其方法流程有如下内容,1.设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布;2.通过马尔科夫链产生符合后验分布的样本;3.利用估计结果构造马尔科夫链;4.对样本进行估计;请选择正确的排序:A)1,2,3,4B)4,3,1,2C)3,1,2,4D)1,2,4答案:D解析:[单选题]23.大数据解决方案中的哪一层可以帮助定义和分类各个必要的组件?A)业务层B)网络层C)服务层D)逻辑层答案:D解析:[单选题]24.sparksql开发的一般过程是A)创建DataFrame->sql开发->查看结果/写表B)创建DataFrame->查看结果/写表->sql开发C)sql开发->创建DataFrame->查看结果/写表D)sql开发->查看结果/写表->创建DataFrame答案:A解析:[单选题]25.对ElasticSearch描述正确的是?A)客户端必须把索引请求发给EsMasterB)客户端必须把索引请求发给shardC)客户端必须把索引请求发给EsNodeD)客户端必须把索引请求发给指定的EsNode答案:A解析:[单选题]26.Hive创建内部表之后,表的?Table_type?属性的值为()A)Managed_tableB)Manag_tableC)Managed_dataD)以上都不对答案:A解析:[单选题]27.计算之树中,通用计算环境的演化思维是怎么概括的()A)元器件--由电子管、晶体管到集成电路、大规模集成电路和超大规模集成电路B)程序执行环境--由CPU-内存环境,到CPU-存储体系环境,到多CPU-多存储器环境,再到云计算虚拟存储环境C)网络运行环境--由个人计算机到局域网、广域网再到InternetD)以上三个说法都不对答案:B解析:[单选题]28.可分解为偏差、方差与噪声之和的是()。A)训练误差(trainingerror)B)经验误差(empiricalerror)C)均方误差(meansquarederror)D)泛化误差(generalizationerror)答案:D解析:泛化误差可分解为偏差、方差与噪声之和。[单选题]29.OTS的单表可以存储规模较大的数据。目前单表存储的限制为:()。A)10TB)100TC)没有上限D)1T答案:C解析:[单选题]30.下面关于数据科学与统计学的关系描述不正确的有(__)。A)数据科学是统计学的主要基础理论之一B)数据科学的工具往往来自于统计学C)统计学家在数据科学的发展中做出过突出贡献D)第一篇以?数据科学?为标题的论文是由统计学家完成的答案:A解析:[单选题]31.关于SOM神经网络的描述,错误的是()A)一种竞争学习型的无监督神经网络B)将高雄输入数据映射到低维空间,保持输入数据在高维空间的拓扑结构C)SOM寻优目标为每个输出神经元找到合适的权重D)输出层神经元以矩阵方式排列在二维空间答案:C解析:[单选题]32.有人发现统计数字会撒谎,产生这种现象的原因不包括()。A)采集的数据不完整B)存储的数据被篡改C)数据内容更新慢D)可视化技术效果单一答案:D解析:[单选题]33.下面这条GaussDB200语句?calldbms_erval(1,'sysdate+1.0/24');"的意思是A)修改Job1的Interva为每隔24小时执行一次。B)修改Job1的Interval为每隔1小时执行一次。C)修改Job1的Interval为每隔1/24小时执行一次。D)修改Job1的Interval为每隔24分钟执行一次。答案:B解析:[单选题]34.在Flink框架中,下列()是流处理和批处理的计算引擎。A)standaloneB)RuntimeC)FlinkCoreD)DataStream答案:B解析:[单选题]35.下列有关OGG的描述错误的是()。A)OGG可以实现一对一、广播、聚合、级联等多种灵活的拓扑结构B)OGG管理维护相对直观,使用自带的管理工具,能够对其进行图形化界面的管理C)OGG支持异构复制D)OGG不支持异构复制答案:D解析:[单选题]36.下列关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述,正确的是()A)隐藏层层数增加,模型能力增加B)Dropout的比例增加,模型能力增加C)学习率增加,模型能力增加D)都不正确答案:A解析:[单选题]37.HBase依赖()提供消息通信机制A)ZookeeperB)ChubbyC)RPCD)Socket答案:A解析:[单选题]38.机器学习研究的主要内容是在计算机上从数据中产生()的算法,即学习算法。A)模型B)样本C)规律D)示例答案:A解析:[单选题]39.在分布式环境系统中,引入()可以防止内存数据就会丢失A)HLogB)HRegionC)ZooKeeperD)Server答案:A解析:[单选题]40.下面关于数据科学与机器学习的关系描述不正确的有(__)。A)机器学习为数据科学中充分发挥计算机的自动数据处理能力提供了重要的手段B)机器学习是数据科学的主要理论基础之一C)机器学习为数据科学中扩展人的数据处理能力提供了重要的手段D)机器学习的基础理论包含数据科学答案:D解析:[单选题]41.下列关于软支持向量机的说法正确的是(__)。A)软间隔支持向量机不可应用拉格朗日乘子法求解B)软间隔支持向量机和硬间隔支持向量机完全相同C)软间隔支持向量机只能使用Hinge损失函数D)软间隔支持向量机的目标函数仍是一个二次规划问题答案:D解析:[单选题]42.在回归分析中,说法正确的是()。A)解释变量和被解释变量都是随机变量B)解释变量为非随机变量,被解释变量为随机变量C)解释变量和被解释变量都为非随机变量D)解释变量为随机变量,被解释变量为非随机变量答案:B解析:[单选题]43.以下()组件负责接收来自应用的访问请求,并向客户端返回执行结果。A)GTMB)WLMC)CND)DN答案:C解析:[单选题]44.将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工这一过程称为()。A)数据抽取B)数据转换C)数据加载D)数据存储答案:B解析:[单选题]45.OLAM技术一般简称为?数据联机分析挖掘?,下面说法正确的是:A)OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性B)由于OLAM的立方体和用于OLAP的立方体有本质的区别C)基于WEB的OLAM是WEB技术与OLAM技术的结合D)OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作答案:D解析:[单选题]46.()是指制定数据资产发展战略、规划和年度计划并组织实施。A)数据资产规划与计划管理B)发展战略管理C)数据质量管理D)年度使用计划管理答案:A解析:[单选题]47.批处理常用的组件不包括哪个?A)StormB)HiveC)FlumeD)Spark答案:A解析:[单选题]48.关于Hadoop单机模式和伪分布式模式的说法,正确的是A)两者都起守护进程,且守护进程运行在一台机器上B)单机模式不使用HDFS,但加载守护进程C)两者都不与守护进程交互,避免复杂性D)后者比前者增加了HDFS输入输出以及可检查内存使用情况答案:D解析:hadoop配置A.两者都起守护进程,且守护进程运行在一台机器上【因为不需要与其他节点交互,单机模式不加载守护进程】B.单机模式不使用HDFS,但加载守护进程【单机模式不使用HDFS,不加载守护进程】C.两者都不与守护进程交互,避免复杂性【伪分布式模式在单机模式之上允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互】D.后者比前者增加了HDFS输入输出以及可检查内存使用情况【对的对的】[单选题]49.用决策树法训练大量数据集时,()最节约时间。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个数答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。[单选题]50.执行如下代码:importtimeprint(time.time())以下选项中描述错误的是A)time库是Python的标准库B)可使用time.ctime(),显示为更可读的形式C)time.sleep(5)推迟调用线程的运行,单位为毫秒D)输出自1970年1月1日00:00:00AM以来的秒数答案:C解析:[单选题]51.一个关系只有一个()A)外码B)候选码C)超码D)主码答案:D解析:[单选题]52.下列描述说法错误的是?()A)SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。B)Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。C)VMwareWorkstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。D)SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。答案:D解析:[单选题]53.Sklearn库中对数据进行预处理和规范化主要依靠()模块。A)neighbors模块B)preprocessing模块C)pipeline模块D)datasets模块315答案:B解析:sklearn.preprocessing模块包括缩放、居中、归一化、二值化和插补方法,主要是对数据进行预处理和规范化。[单选题]54.客户端首次查询HBase数据库时,首先需要从哪个表开始查找()A)METAB)ROOTC)用户表D)信息表答案:B解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.我们想要减少数据集中的特征数即降维,以下方案合适的是()。A)使用前向特征选择方法B)使用后向特征排除方法C)我们先,把所有特征都使用,去训练一个模型,得到测试集上的表现。然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现。如果表现比原来还要好,我们可以去除这个特征D)查看相关性表,去除相关性最高的一些特征答案:ABCD解析:前向特征选择方法和后向特征排除方法是特征选择的常用方法。如果前向特征选择方法和后向特征排除方法在大数据上不活用,可以用这里C中方法。用相关性的度量去删除多余特征也是一个可行的方法。[多选题]56.下面有关Mahout组件的功能表达正确的是()。A)推荐引擎B)聚类C)分类D)查询答案:ABC解析:[多选题]57.Python非常重视代码的可读性,对代码布局和排版有非常严格的要求。以下关于Python代码编写说法正确的是()。A)字符串加字符串程序运行后会出错。B)尽量不写过长的语句,以保证代码具有较好的可读性。C)如果在正确的位置输入冒号,下一行会自动进行缩进。D)等号(=)是赋值的意思,左边是值,右边是变量。答案:BC解析:[多选题]58.在哪些场景下不能使用HBase作为存储系统()?A)需要ACID特性B)海量数据存储C)主键查询D)大文件,视频等答案:AD解析:[多选题]59.关于ADS的ECU说法()是正确的。A)ECU的型号在DB创建后不可更改B)资源计量的最小单位C)ECU数量可以在使用中扩容或者缩容D)ECU数量变化是瞬时的同步操作。答案:ABC解析:[多选题]60.Kafka的特点包括()。A)分布式B)消息持久化C)高吞吐D)支持消息随机读取答案:ABC解析:[多选题]61.数据资产维护是指为保证数据质量,对数据进行()等处理的过程。A)更正B)删除C)补充录入D)查询答案:ABC解析:[多选题]62.在Hive架构中,支持的数据操作有()。A)插入B)查询C)删除D)分析答案:BD解析:Hive提供简单的HiveQL查询、分析功能,可以较好地满足基于数据仓库的统计分析需要。[多选题]63.Maxcomputetunnel命令目前支持的操作包括:()。A)mergeB)purgeC)uploadD)list答案:BC解析:[多选题]64.HBaseHMaster主要负责什么?A)表的增删改查B)Region分布调整C)用户数据读写D)Regionserver负均衡答案:ABD解析:[多选题]65.下面关于flink窗口的描述错误的是A)滚动窗口在时间上是重叠的B)滚动窗口在时间上是不重叠的C)滑动动窗口之间时间点不存在重叠D)滑动窗口之间时间点存在重叠答案:AC解析:[多选题]66.Spark的部署模式包括()。A)本地模式B)Standalone模式C)SparkOnYARND)SparkonMesos答案:ABCD解析:[多选题]67.建立大数据需要设计一个什么样的大型系统A)能够把应用放到合适的平台上B)能够开发出相应应用C)能够处理数据D)能够存储数据答案:ABCD解析:[多选题]68.CNN能应用于playingGo的原因描述正确的是?A)第一层hiddenlayer用于检测图像的pattern,而大部分patter通常比整张图像的大小要小,对于一个neuron来说不用去看整张图像来检测patternB)同样pattern可能出现在图像的不同区域,而这些pattern代表同样的含义,可以共用同一个neuron同一组参数C)一幅图像可以做subsampling来减少图片的大小,从而减少参数D)对图片像素点进行行列抽取答案:AB解析:[多选题]69.如图所示,Flink流式理接口DataStreamAPI支持的语言包括?A)JavaB)C语言C)ScalaD)Python答案:ACD解析:[多选题]70.下列说法正确的是(___)。A)Windows系统默认未安装Python,但有必要检查系统是否安装了它B)在Python2.7中,print是函数C)Python3没有内置函数unicode()D)print不应用作变量名答案:ACD解析:[多选题]71.Oracle数据库中事务的特性包括()。A)原子性B)一致性C)隔离性D)持久性答案:ABCD解析:[多选题]72.下列关于文本图的说法中,正确的有()A)文本图通常适用于需要展示关键词、突出重点的业务场景B)可以通过为文本图中的文本添加颜色、设置大小等方式达到强调的作用C)文本图以其独有的?高级感?,近年来在实务中越来越多地被使用到D)文本图可以代替热力点图使用答案:ABC解析:[多选题]73.Loader可以实现以下哪些转换规则?A)长整型时间转换B)增量转换C)拼接转换D)空值转换答案:ABCD解析:[多选题]74.大数据作为一种数据集合,它的含义包括A)数据很大B)很有价值C)构成复杂D)变化很快答案:ACD解析:[多选题]75.以下属于图像平滑算法的是()。A)中值滤波B)均值滤波C)邻域平均法D)拉普拉斯滤波器答案:ABC解析:[多选题]76.关于Maxcompute中小文件的说法,正确的是:()。A)在reduce计算过程或者实时tunnel数据采集过程,会产生大量小文件B)小文件越多,会造成浪费资源,影响整体的执行性能,并且影响磁盘空间的利用率C)目前提供两种可供选择的小文件合并的方法:ALTER合并模式和SQL合并模式D)大小小于盘古文件系统中的块BLOCK大小的文件,称之为小文件答案:AB解析:[多选题]77.请找出下列对字典操作正确的选项()dict={?name?:?python?,?age?:17,?class?:?first?}A)dict[?age?]=18更新字典age的值B)dict[?scholl?]=?云课堂?添加信息schollC)deldict[?name?]删除?name?一个元素值D)dict[?first?]=?class?取字典的值答案:ABC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.MRS的安全模式一般是用于生产环境。A)正确B)错误答案:对解析:[判断题]79.因不同的数据类型存储的空间大小不一样,所以在选择数据类型时,只需考虑数据类型损耗的存储空间大小。A)正确B)错误答案:错解析:[判断题]80.已知字典x={i:str(i+3)foriinrange(3)},那么表达式''A)正确B)错误答案:对解析:[判断题]81.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。A)正确B)错误答案:对解析:[判断题]82.在tryA)正确B)错误答案:错解析:[判断题]83.已知f=lambdan:len(bin(n)[bin(n)A)正确B)错误答案:错解析:[判断题]84.由于Combiner组件不允许改变业务逻辑,所以无论调用多少次Combiner,Reduce的输出结果都是一样的。A)正确B)错误答案:对解析:由于Combiner组件不允许改变业务逻辑,所以无论调用多少次Combiner,Reduce的输出结果都是一样的。[判断题]85.BINARY关键字修饰的字符串比较时严格区分大小写和空格。--A)正确B)错误答案:对解析:[判断题]86.Flume的perties配置文件中可以配置多个channle来传输数据。[]*A)正确B)错误答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论