大数据开发基础(习题卷13)_第1页
大数据开发基础(习题卷13)_第2页
大数据开发基础(习题卷13)_第3页
大数据开发基础(习题卷13)_第4页
大数据开发基础(习题卷13)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.启动YARN后,默认的web访问端口是多少?A)8000B)9000C)8080D)8088答案:D解析:[单选题]2.词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是()的词汇集合,忽略语法甚至是单词的顺序。A)无序B)有序C)无意义D)规范答案:A解析:[单选题]3.下列对大数据4V特征理解错误的是()。A)数量大,随着信息技术的高速发展,数据开始爆发性增长,存储单位从过去的GB到TB,直至PBB)广泛的数据来源,决定了大数据形式的多样性C)大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷D)现实世界所产生的数据中,有价值的数据所占比例很高,体现了大数据的价值性答案:D解析:[单选题]4.执行下列python语句x=2;y=2.0if(x==y):print(?Equal?)else:print(?NotEqual?)将产生的结果是。()A)EqualB)NotEqualC)编译错误D)运行时错误答案:A解析:[单选题]5.以下哪项是非结构化数据()A)用户投诉语音数据B)用户评论文本C)用户话单数据D)发票扫描件答案:C解析:[单选题]6.在Windows系统中,关闭Python终端会话常用的快捷键是()。A)Ctrl+CB)Ctrl+DC)Ctrl+ED)Ctrl+Z答案:D解析:在Windows系统中,关闭Python终端会话常用快捷键是Ctrl+Z。[单选题]7.主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述不正确的是:A)主成分分析是一种无监督方法B)主成分数量一定小于等于特征的数量C)各个主成分之间相互正交D)原始数据在第一主成分上的投影方差最小答案:D解析:[单选题]8.下列关于抛出异常的说法错误的是()。A)当raise指定异常的类名时,会隐式地创建异常类的实例B)显式地创建异常类实例,可以使用raise直接引发C)不带参数的raise语句,只能引发刚刚发生过的异常D)使用raise抛出异常时,无法指定描述信息答案:D解析:raise语句的第一个参数指定要产生的例外的名字;可选的第二参数指定例外的参数。[单选题]9.核矩阵是()的。A)没有规律B)半正定C)正定D)样本矩阵答案:B解析:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。[单选题]10.Flume支持监控并传输目录下新增的文件,可实现准实时的数据传输,以上描述的是哪一类source?A)spoolingdirectorysoureB)httpsourceC)execsourceD)syslogsource答案:A解析:[单选题]11.商品比价网站体现的大数据思维是()A)全样而非抽样B)效率而非精确C)相关而非因果D)我为人人,人人为我答案:A解析:[单选题]12.为了保证流应用的快照存储的可靠性,快照主要存储在?A)本地文件系统中B)JobManager的内存中C)HDFS中D)可靠性高的单机数据库中答案:C解析:[单选题]13.下列命令中(在zookeeper安装文件夹的bin目录下执行),哪项是停止ZooKeeper的正确命令()A)start-al.shB)start-stop.shC)zkServe.shD)zkServer、shstart答案:C解析:[单选题]14.大数据计算服务(MaxCompute,原ODPS)的MapReduce提供了分布式的编程框架,以下()大数据计算服务可以作为MR的输入和输出。A)表B)视图C)资源D)项目空间答案:A解析:[单选题]15.Pig在本地模式下,运行在单个()中,访问本地文件系统。A)ETLB)JRMC)JVMD)Pig答案:C解析:[单选题]16.关于数据备份的做法不对的是:()A)确认备份操作步骤准确无误后进行备份操作。B)各业务部门应将计算机信息数据备份媒体视同重要空白凭证,指定专人负责备份数据媒体的签收和入库管理。C)备份数据媒体应按要求写明标识,交办公室档案管理员异地存放,要确保存放地的安全,并定期进行检查,确保数据的完整性、可用性。D)涉密信息媒体的备份媒体(磁带、磁盘、光盘、纸媒体等)应有密级及保密期限标志,统一编号,各单位保密机构负责涉密信息媒体的界定和销毁。答案:C解析:[单选题]17.考虑以下场景,当公安人员需要根据某犯罪人员发现其犯罪同伙时,最适合使用下列哪个工具?A)GraphBaseB)HBaseC)HDFSD)ElasticSearch答案:A解析:[单选题]18.下面哪个协议用于SecondaryNamenode和Namenode之间的通信()A)DatanodeProtocolB)NamenodeProcotolC)ClientProtocolD)ClientDatanodeProtocol答案:B解析:A、DatanodeProtocol【DataNode与NameNode通信的信息接口】B、NamenodeProcotol【SecondaryNamenode与NameNode通信】C、ClientProtocol【表示安装在客户端实例上的网络协议】D、ClientDatanodeProtocol【用户进程(包括客户端进程与Datanode进程)与Namenode进程之间进行通信所使用的协议】[单选题]19.以下不属于判别式模型的是:A)决策树B)BP神经网络C)高斯混合模型D)支持向量机答案:C解析:[单选题]20.执行下列语句后的显示结果是什么?>>>s='hi'>>>print('hi',2*s)A)hihihiB)"hi"hihiC)hihihiD)hihihi答案:C解析:[单选题]21.SQL语言集数据查询、数据操纵、数据定义和数据控制功能于一体,其中,CREATE、DROP、ALTER语句是实现哪种功能()A)数据操纵B)数据控制C)数据定义D)数据查询答案:C解析:[单选题]22.(__)实现了采用留一法进行交叉验证。A)kf=KFold(n_splits=2)B)kf=RepeatedKFold(n_splits=2,n_repeats=2,random_state=0)C)lpo=LeavePOut(p=2)D)loo=LeaveOneOut()答案:D解析:[单选题]23.OLAP是什么意思()A)联机分析处理B)单机分析处理C)联网分析处理D)事务分析处理答案:A解析:[单选题]24.以下选项描述错误的是()。--A)等值连接的关系需要具有数目相等且可比的属性组B)自然连接的结果是等值连接去除重复的属性组C)除法可看作是笛卡尔积的逆运算D)以上说法都不正确答案:D解析:[单选题]25.()是cdh专门的一套web管理器。A)OozieB)FlumeC)SqoopD)Hue答案:D解析:[单选题]26.打开一个已有文件,在文件末尾添加信息,正确的打开方式为()。A)rB)wC)aD)w+答案:C解析:[单选题]27.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器答案:D解析:[单选题]28.()使用目录节点树的方式(类似文件系统)存储数据,主要用途是维护和监听所存数据的状态变化,以实现对集群的管理。A)ZookeeperB)HBaseC)HiveD)Sqoop答案:A解析:[单选题]29.()在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A)支持向量机B)Boosting算法C)贝叶斯分类器D)Bagging算法答案:B解析:[单选题]30.以下()不属于线性分类器最佳准则?A)感知准则函数B)贝叶斯分类C)支持向量机D)Fisher准则答案:B解析:[单选题]31.在Bigtable中,()主要用来存储子表数据以及一些日志文件。A)GFSB)MapreduceC)SstableD)Chubby答案:A解析:[单选题]32.下面哪个操作肯定是宽依赖()A)mapB)flatMapC)reduceByKeyD)sample答案:C解析:[单选题]33.当往往一本书中其实通常使用到的词汇表是非常小的,这就会导致一本书的表示向量中存在大量的0.这样的向量称为()。A)零向量B)满秩向量C)稀疏向量D)普通向量答案:C解析:[单选题]34.支持向量机的优化问题是最小化的平方,这实现了(__)。A)几何间隔为1/的最大间隔超平面B)几何间隔为的最大间隔超平面C)几何间隔为1/的最小间隔超平面D)几何间隔为的最小间隔超平面答案:A解析:[单选题]35.大数据计算服务(MaxCompute,原ODPS)提供了客户端odpscmd,支持Windows、Linux或者OSX等操作系统。在执行前需要对odpscmd的配置文件odps_config.ini中的某些参数进行设定,包括用于鉴权的access_id/access_key,指定服务地址的end_point,以及tunnel的服务地址tunnel_endpoint等。其中有一项参数为:project_name,关于这个参数的说法,正确的是:()。A)指定的项目必须存在,否则连接过程中会报错B)如果给该值指定了恰当的project名字,连接成功后,会自动进入该projectC)如果不指定该值,连接成功后会自动进入上次退出时所在的projectD)如果不指定该值,且帐户下就一个project的话,连接成功后会自动进入该project答案:B解析:[单选题]36.下列语句中,可以跳出循环结构的是()。A)continueB)breakC)whileD)if答案:B解析:[单选题]37.离线批处理工具不包含以下哪项?A)SparkB)MapReduceC)StormD)SQL答案:C解析:[单选题]38.执行如下代码importturtleastforiinrange(1,5):t.fd(50)t.left(90)在PythonTurtleGraphics中,绘制的是A)三角形B)正方形C)五边形D)五角星答案:B解析:[单选题]39.下⾯哪个操作肯定是宽依赖()A)mapB)flatMapC)reduceByKeyD)sample答案:C解析:[单选题]40.Flink的数据转换操作在以下哪些环节中完成?A)channelB)TransformationC)sinkD)source答案:B解析:[单选题]41.下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:在一定情况下把一个任务分割成多个子任务的方式是有好处的[单选题]42.下列删除列表中最后一个元素的函数()A)delB)popC)removeD)cut答案:B解析:[单选题]43.(__)用于将非线性引入神经网络。它会将值缩小到较小的范围内。A)损失函数B)优化函数C)激活函数D)目标函数答案:C解析:[单选题]44.哪儿模块负责HDFS数据存储?A)NameNodeB)DataNodeC)ZooKeeperD)JobTracker答案:B解析:[单选题]45.下列选项中,用于创建一个带有条件判断的循环过程的语句是()。--A)LOOP语句B)ITERATE语句C)REPEAT语句D)QUIT语句答案:C解析:[单选题]46.下列关于线性模型的描述错误的是()。A)支持向量机的判别函数一定属于线性函数B)在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C)在一般情况下,线性分类器只能是次优分类器D)线性分类器简单而且在很多期情况下效果接近最优,所以应用比较广泛答案:A解析:支持向量机的判别函数不一定是线性函数。[单选题]47.假如使用一个较复杂的回归模型来拟合样本数据、使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是()。A)若λ较大时,偏差减小,方差减小B)若λ较大时,偏差减小,方差增大C)若λ较大时,偏差增大,方差减小D)若λ较大时,偏差增大,方差增大答案:C解析:λ较小,偏差减小,方差增大,容易发生过拟合;λ较大,偏差增大,方差减小,容易发生欠拟合。[单选题]48.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫(),另一类存储具体数据叫().A)名称节点,主节点B)从节点,主节点C)名称节点,数据节点D)数据节点,名称节点答案:C解析:[单选题]49.在数据生命周期管理实践中,()是执行方法。A)数据存储和备份规范B)数据管理和维护C)数据价值发觉和利用D)数据应用开发和管理答案:B解析:[单选题]50.()不是Spark服务层的功能。A)SQL查询B)实时处理C)机器学习D)内存计算答案:D解析:[单选题]51.使用池化层相比于相同步长的卷积层的优势在于?A)参数更少B)可以获得更大下采样C)速度更快D)有助于提升精度答案:A解析:[单选题]52.在Flink的运行流程中,负责申请资源的角色是?A)ResourceManagerB)JobManagerC)ClientD)TaskManager答案:B解析:[单选题]53.假设一共有10篇文档,其中某个词A在其中10篇文章中都出现过,另一个词B只在其中3篇出现。根据逆文档频率,()比较关键。A)无B)AC)BD)A和B答案:C解析:[单选题]54.关于神经网络结构的权重共享现象,下面正确的是()A)只有全连接神经网络会出现B)只有卷积神经网络(αN)会出现C)只有循环神经网络(RNN)会出现D)卷积神经网络和循环神经网络都会出现答案:D解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列哪项可以作为集群的管理?A)PuppetB)PdshC)ClouderaManagerD)Zookeeper答案:ABD解析:ClouderaManager是全功能企业级集群管理平台(相当于集群的管理工具吧,不能作为集群的管理),提供最佳的系统利用率并满足SLA承诺,覆盖集群所有资源与服务的统一配置、管理、监控、诊断等管理功能。[多选题]56.ADS中不同型号的ECU标识着()不同的配置。A)内存大小B)磁盘空间C)带宽D)Vcpu核数答案:ABD解析:[多选题]57.在Spark中,弹性分布式数据集的特点包括()。A)可分区B)可序列化C)可直接修改D)可持久化答案:ABD解析:RDD不可修改。[多选题]58.下列关于特征的稀疏性说法,正确的是()。A)稀疏性指的是矩阵中有许多列与当前学习任务无关B)稀疏样本可减少学习任务的计算开销C)学习任务难度可能有所降低D)稀疏矩阵没有高效的存储方法答案:ABC解析:在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。[多选题]59.基于机器学习的情感分类方法有(__)。A)贝叶斯分类器B)支持向量机C)条件随机场D)最大熵分类器答案:ABCD解析:[多选题]60.根据泛在电力物联网2019年建设方案,业务中台以业务为导向,优先建设(),后期逐步视情况拓展账务结算等业务共享服务。A)电网资源中台B)电网服务中台C)客户服务中台D)客户资源中台答案:AC解析:[多选题]61.下列有关Flume的描述正确的是()。A)Flume具有一定的容错性B)Flume使用Java编写C)Flume不支持failoverD)Flume是一个分布式的轻量级工具,适应各种方式的数据收集答案:ABD解析:[多选题]62.数据柔术强调的基本问题有(__)。A)设计思维问题B)产品开发要有较高的艺术性C)以目标用户为中心的产品开发D)支持人机交互问题答案:BC解析:[多选题]63.Hive的系统架构主要包括哪几个模块:()A)探查模块B)驱动模块C)元数据存储模块D)用户接口模块答案:BCD解析:[多选题]64.已定义级(DefinedLevel)的主要特点包括()。A)组织机构已明确给出了关键过程的标准定义,并定期对其进行改进B)已提供了关键过程的测量与预测方法C)关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义,而是根据具体业务进行了一定的裁剪工作D)数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一答案:ABCD解析:DMM的已定义级(DefinedLevel):组织机构已经定义了自己的标准关键过程。其主要特点如下:①组织机构已明确给出了关键过程的标准定义,并定期对其进行改进;②已提供了关键过程的测量与预测方法;③关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义,而是根据具体业务进行了一定的裁剪工作;④数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一。[多选题]65.语句?CREATETABLEmydb.temp()?用于从mydb.user表中复制已有的表结构。--A)FROMmydb.userB)(FROMmydb.user)C)LIKEmydb.userD)(LIKEmydb.user)答案:CD解析:[多选题]66.下面关于CNNConvolution操作与FullyConnected的关系描述正确的是?()A)CNNConvolution输入图像和滤波器内积操作得到的矩阵的每一个元素将对应于FullyConnectedNetwork中每个神经元的输B)CNNConvolution操作filter(滤波器)中每一个元素对应FullyConnectedNetwork中要更新的参数w和bC)CNNConvolution操作得到的FeatureMap的所有元素共同sharedweightsD)CNNConvolution神经网络输入为一个3D-张量答案:ABCD解析:[多选题]67.Flume中拦截器包含以下哪些?A)SearchandReplaceInterceptorB)RegexFilteringInterceptorC)TimestampInterceptorD)HostInterceptor答案:ABCD解析:[多选题]68.Flink窗口按分割标准划分为以下几种?A)容量窗口B)滚动窗口C)时间窗口D)事件窗口答案:CD解析:[多选题]69.以下选项在计算机中属于字符的是()。--A)中文B)标点符号C)数字D)图形符号答案:ABCD解析:[多选题]70.关于MaxComputePolicy授权的特点,说法正确的是:()。A)删除一个对象时,与该对象相关的policy授权会被删除B)Policy支持通过xml文件的方式授权C)当Allow和Deny同时存在时,遵循Deny优先原则D)授权对象支持以通配符答案:CD解析:[多选题]71.开发流程中需要经历哪些步骤()A)开发环境B)单元测试C)应用部署D)样例代码学习答案:ABCD解析:[多选题]72.下列关于Pandas层次化索引说法正确的是()A)层次化索引是指Pandas对象在一个轴方向上具有多层索引B)使用from_tuples()方法可以将元组列表转换为MultiIndex对象C)使用from_arrays()方法可以将数组列表转换为MultiIndex对象D)层次化索引不可以排序答案:ABC解析:[多选题]73.相对于其他计算模式,云计算的特征有()A)经济性B)弹性计算C)按需服务D)虚拟化答案:ABCD解析:[多选题]74.根据《泛在电力物联网2019年建设方案》,推动多元化新兴产业发展方面,2019年三大重点工作内容包括()。A)虚拟电厂运营B)线上产业链金融C)数据增值变现D)电工装备智能物联和工业云网答案:ACD解析:[多选题]75.MaxcomputeMR可以通过控制Reducer的个数来进行调优,以下()方法可以帮用户调节Reducer的个数。A)可以通过调整Mapper的个数间接的影响Reducer的个数(Reducer的个数默认为Mapper个数的1/4)B)在编程的时候(以Java为例),初始化Reducer的方法里,可手工指定Reducer个数C)可以通过setNumReducerTasks来设置D)可以通过addReducer随意增加Reducer的个数答案:ABC解析:[多选题]76.DRDS做平滑扩容的时候,现有的数据库中的表需要满足()要求。A)拆分表需要有主键B)拆分表需要删除主键C)单表需要做小表广播D)单表需有主键答案:AC解析:[多选题]77.从行为目的与思维来看,数据统计方法可以分为(__)。A)描述统计B)洞见统计C)推断统计D)归纳统计答案:AC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。()A)正确B)错误答案:对解析:[判断题]79.列表对象的排序方法sort()只能按元素从小到大排列,不支持别的排序方式。A)正确B)错误答案:错解析:[判断题]80.在可视化模块中,我们可以通过在仪表板中创建文本组建的方式为最终可视化结果添加标题;()A)正确B)错误答案:对解析:[判断题]81.Python标准库random的方法randint(m,n)用来生成一个[m,n]区间上的随机整数。A)正确B)错误答案:对解析:[判断题]82.Python字典中的?值?不允许重复。A)正确B)错误答案:错解析:[判断题]83.联合查询的结果会保留所有联合数据表查询的字段。--A)正确B)错误答案:错解析:[判断题]84.()SELECT语句的ORDERBY子句定义的排序表达式所参照的列甚至可以不出现在输出列表中。A)正确B)错误答案:对解析:[判断题]85.BI工具行级数据权限设置可实现让用户只看到数据集中部分行的数据信息()A)正确B)错误答案:对解析:[判断题]86.任何完整的大数据平台,一般包括以下的几个过程,数据采集->数据存储>数据处理->数据展现(可视化,报表和监控)。其中,数据采集是所有数据系统必不可少的个环节,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。A)正确B)错误答案:对解析:[判断题]87.Loader不能提供图形化操作。A)正确B)错误答案:错解析:[判断题]88.高频交易,市场舆情分析,信贷风险分析等这些金融领域的研究内容均可以利用大数据技术进行分析。A)正确B)错误答案:对解析:[判断题]89.在搭建Hadoop集群时,需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论