大数据开发基础(习题卷10)_第1页
大数据开发基础(习题卷10)_第2页
大数据开发基础(习题卷10)_第3页
大数据开发基础(习题卷10)_第4页
大数据开发基础(习题卷10)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.大数据在餐饮行业的应用不包括以下哪项?()A)大数据驱动的团购模式B)利用大数据为用户推荐消费内容C)利用大数据调整线下门店布局D)利用大数据控制消费人群的口味喜好答案:D解析:[单选题]2.数据质量支持从完整性、()、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。自定义质量规则时,请对此规则进行维度匹配。A)交叉性B)共享性C)时效性D)有效性答案:D解析:[单选题]3.()是整个文件系统的管理节点。A)AvroB)HttPFSBC)NameNodeD)Whirr答案:C解析:[单选题]4.以下关于Hive的的描述错误的是()A)Hive是基于Hadoop的一个数据仓库工具B)Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL)C)可以存储、分析存储在Hadoop中的大规模数据,但不能进行查询D)使用HQL作为查询接口答案:C解析:[单选题]5.基本元数据是指()。A)基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于裴载和更新处理、分析处理以及管理方面的信息答案:D解析:[单选题]6.以下()不是由MaxCompute接入层提供的服务。A)HTTP服务B)LoadBalanceC)括用户空间管理操作D)用户认证答案:C解析:[单选题]7.以下哪个不是大数据的数据计算引擎?A)SparkB)MapReduceC)FlumeD)Flink答案:C解析:[单选题]8.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯判定准则答案:D解析:[单选题]9.Flink不包含以下哪些数据处理场景?()A)高可靠性B)图形分析C)毫秒级低时延D)高并发答案:B解析:[单选题]10.以下关于数据仓库的叙述中,不正确的是()A)数据仓库是相对稳定的B)数据仓库是反映历史变化的数据集合C)数据仓库的数据源可能是异构的D)数据仓库是动态的、实时的数据集合答案:D解析:[单选题]11.Spark应用程序在集群上以()进程集合的形式运行。A)独立B)并发C)分布式D)多答案:A解析:[单选题]12.阅读以下代码,回答问题,当n是11的时候,s为多少1deftotal(n):2s=03i=14while(iA)55B)66C)44D)50答案:B解析:[单选题]13.Hive希望employees表中具有相同?FederalTaxes?值的数据在一起处理,可以使用()来保证具有相同?FederalTaxes?值的记录会分发到同一个reducer中进行处理,然后使用sortby来按照期望的方式对数据进行排序A)orderbyB)sortbyC)distributebyD)countby答案:C解析:[单选题]14.HDFS的设计者采用了()的概念,实现了一个高度容错性的系统。A)机器学习B)数据挖掘C)集群计算D)块复制答案:D解析:[单选题]15.执行a=np.array([[1,1,3],[4,3,6]]);print(np.append(a,[[1,1,1]],axis=0))结果为?A)[113436111]B)[[141][251][361]]C)[[113][436][111]]D)[[1,1,3,4,3,6,1,1,1]]答案:C解析:[单选题]16.使用()关键字创建自定义函数。A)functionB)funcC)defD)lambda答案:C解析:[单选题]17.假设拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置,则应采取的方法是()。A)除去神经网络中的最后一层,冻结所有层然后重新训练B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C)使用新的数据集重新训练模型D)所有答案均不对答案:B解析:由于神经网络浅层网络主要提取图像的低维特征,对于相近领域进行迁移学习时,这些低维特征相同,因此只需要对最后几层进行微调,而检测位置相当于回归任务。[单选题]18.在计算拟合曲线时,如果拟合曲线始终没有收敛,应调整哪个参数?A)增加迭代步数B)减少迭代步数C)增大收敛系数D)减小收敛系数答案:D解析:[单选题]19.ApacheHadoop是使用哪个协议发布的()A)ApacheLicense2.0B)SharewareC)MozillaPublicLicenseD)Commercial答案:A解析:[单选题]20.(__)在完成某一类任务的性能能随经验而改进。A)学习系统B)学习任务C)机器学习D)数据科学系统答案:A解析:[单选题]21.在HBase系统架构中,HMaster主要负责()A)Database和Region的管理工作B)Database和Master的管理工作C)Table和Region的管理工作D)Table和Master的管理工作答案:C解析:[单选题]22.HDFS集群中的NameNode职责不包括()。A)维护HDFS集群的目录树结构B)维护HDFS集群的所有数据块的分布、副本数和负载均衡C)负责保存客户端上传的数据D)响应客户端的所有读写数据请求答案:C解析:NameNode是HDFS的管理节点,DataNode是HDFS集群的工作节点。所以用户上传的数据是由DataNode进行保存的;NameNode负责保存用户上传的数据的元数据和维护HDFS的抽象目录树结构,也会响应客户端的所有读写请求。[单选题]23.按照姓名升序序排列()A)ORDERBYNAMEASCB)ORDERBYASCNAMEC)ORDERBYNAMEDESCD)ORDERBYDESCNAME答案:A解析:[单选题]24.以下关于组合数据类型的描述,错误的是:A)集合类型是一种具体的数据类型B)序列类似和映射类型都是一类数据类型的总称C)字典类型的键可以用的数据类型包括字符串,元组,以及列表D)python的集合类型跟数学中的集合概念一致,都是多个数据项的无序组合答案:C解析:[单选题]25.MaxCompute的授权操作一般涉及三个要素,不包括:()。A)主体(subject)B)客体(Object)C)操作(Action)D)限制条件(contidiotn)答案:D解析:[单选题]26.RNN不同于其他神经网络的地方在于()A)实现了记忆功能B)速度快C)精度高D)易于搭建答案:A解析:[单选题]27.决策树是基于(__)结构来进行决策的。A)树B)链C)队列D)栈答案:A解析:[单选题]28.在过去,数据分析的目的之一是对未来进行预测。比如通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量。这个案例体现了过去数据分析的()A)重视因果关系B)抽样的特性C)精确的特性D)全样的特性答案:A解析:[单选题]29.以下关于ZooKeeper关键特性中的原子性说法正确的是?A)客户端发送的更新会按照他们被发送的顺序进行应用B)更新只能全部完成或失败,不会部分完成C)一条消息被一个server接收,将被所有server接收D)集群中无论哪台服务器,对外展示的均是同一视图答案:B解析:[单选题]30.采用主成分分析法映射到低维空间,将最小的d-d′个特征向量舍弃,产生的影响是()。A)使样本采样密度增大B)丢失最优解C)增大噪声D)使样本采样密度减小答案:A解析:低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被舍弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:一方面舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;另一方面,当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关。将它们舍弃能在一定程度上起到去噪的效果。[单选题]31.多分类学习中,最经典的三种拆分策略不包括()。A)一对一B)一对其余C)一对多D)多对多答案:A解析:多分类学习中,最经典的三种拆分策略包括一对多、多对多、一对其余。[单选题]32.()包含Spark的主要基本功能。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib答案:A解析:[单选题]33.在python3中执行以下代码段a=21b=10print(ab)时,输出为()。A)TrueB)FalseC)NoneD)Error答案:D解析:[单选题]34.下列选项中,符合类的命名规范的是()。A)HolidayResortB)HolidayResortC)holidayResortD)holidayresort答案:A解析:[单选题]35.在Hive中查询语句命令使用的关键字为()A)showB)lookC)selectD)looks答案:C解析:[单选题]36.把基于使用DMSquid作为模型的Predict输出进行反向转换得到原始的标签值,会采用哪个数值转换器?A)JobldB)InverseQuantifyC)DMSquidD)InverseNormalizer答案:B解析:[单选题]37.Numpy包中meshgrid()函数实现的功能是()。A)数组拆分B)数组乘法C)数组除法D)数组融合答案:D解析:np.meshgrid()用于数组融合,在画等高线图时常用。[单选题]38.TF-IDF模型中IDF是指(__)。A)词频数B)逆文档频率C)词频率D)逆文档频数答案:B解析:[单选题]39.Flume中一个ChannelSelector的作用是什么?A)设置多个channel发往多个sink的策略B)设置一个source发往多个channel的策略C)设置多个source发往多个channel的策略D)设置一个channel发往多个sink的策略角答案:B解析:[单选题]40.下列关于漏斗图的说法中,错误的是()A)漏斗图往往适用于业务流程上的顺序关系B)漏斗图可以通过漏斗中梯形的大小,清晰地展示出不同数值的大小C)漏斗图与饼图同样适用于表示占比的情况D)漏斗图不适用于表示无逻辑顺序的分类对比情况答案:C解析:漏斗图不适合表示无逻辑顺序的分类对比,如果要表示无逻辑顺序的分类对比情况,请使用柱状图。漏斗图也不适合表示占比情况,如果要表示占比情况,请使用饼图。[单选题]41.在Spark技术中,RDD实现了用户的逻辑,而(__)则管理了用户的数据。A)SchedulerB)ShuffleC)StorageD)RDD答案:C解析:[单选题]42.大数据的基本特征不包括()。A)数据量大B)据类型繁多C)处理速度快D)价值密度高答案:D解析:[单选题]43.关于MapReduce中的键值对,下面陈述正确的是()A)Key类必须实现WritableB)Key类必须实现WritableComparableC)Value类必须实现WritableComparableD)Value类必须继承WritableComparable答案:B解析:[单选题]44.以下运算符的运算顺序为从右到左的是()。--A)=(赋值运算符)B)=(比较运算符C)-(负号)D)-(减法)答案:A解析:[单选题]45.以下关于机器学习,描述错误的是:()A)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、.脑科学等诸多领域的交叉学科B)研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能C)机器学习强调三个关键词:算法、模型、训练D)基于数据的机器学习是现代智能技术中的重要方法之一答案:C解析:[单选题]46.通过HBase提创建表的关键字是()A)insertB)createC)addD)以上都不正确答案:B解析:[单选题]47.以下不属于数据库的是A)MongoDBB)SparkC)MySQLD)HBase答案:B解析:[单选题]48.在有关数据仓库测试,下列说法不正确的是:A)在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试B)当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C)系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D)在测试之前没必要制定详细的测试计划答案:D解析:[单选题]49.python中,while的中止的关键字是()A)continueB)brokenC)breakD)plug答案:C解析:[单选题]50.以下不属于数据仓库的特性是()A)面向主题B)集成的C)跨平台性D)非易失答案:C解析:[单选题]51.下列()值,在MaxCompute中被视为合法的datetime类型。A)2014-02-2923:59:59B)41305.063020833C)25569.000011574D)42019.430908056答案:C解析:[单选题]52.TF-IDF与该词在整个语言中的出现次数成(__)。A)正比B)反比C)无关D)幂次答案:B解析:[单选题]53.哪个不是Hbase的操作语法?A)create'my_tb',infoB)listC)createtabletb1(idint,namestring)D)scanmy答案:C解析:[单选题]54.中心极限定理是噪声抑制的中的统计原理,其内容是:均值分布总会收敛于一个()。A)正态分布B)泊松分布C)多项式分布D)均值分布答案:A解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.大数据的参考架构分为哪三个层次()A)角色B)活动C)逻辑构件D)功能组件答案:ABD解析:[多选题]56.对于安全模式下列说法正确的是()A)SafeMode是NameNode的一种特殊状态,在这种状态下,文件系统只接受读数据请求(ls、cat),而不接受上传、删除、修改等变更请求。B)HDFS处于安全模式下,block不能进行任何的副本复制操作。C)在HDFS集群正常冷启动时,NameNode会在SafeMode状态下维持相当长的一段时间,此时你不需要去理会,等待它自动退出安全模式即可。D)在HDFS集群正常冷启动时,NameNode会进入SafeMode状态,这是因为fsimage镜像文件中缺少文件的路径信息和相关副本数答案:ABC解析:[多选题]57.已定义级(DefinedLevel)的主要特点包括()。A)组织机构已明确给出了关键过程的"标准定义",并定期对其进行改进B)已提供了关键过程的测量与预测方法C)关键过程的执行过程并不是简单或死板地执行组织机构给出的"标准定义",而是根据具体业务进行了一定的"裁剪"工作D)数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一答案:ABCD解析:DMM的已定义级(DefinedLevel):组织机构已经定义了自己的"标准关键过程"。其主要特点如下:①组织机构已明确给出了关键过程的"标准定义",并定期对其进行改进;②已提供了关键过程的测量与预测方法;③关键过程的执行过程并不是简单或死板地执行组织机构给出的"标准定义",而是根据具体业务进行了一定的"裁剪"工作;④数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一。[多选题]58.下列关于自助法描述错误的是(__)。A)自助法在数据集较大、难以有效划分训练集或测试集是很有用B)自助法能从初始数据集中产生多个不同的训练集C)自助法产生的数据集没有改变初始数据集的分布D)在初始数据量足够时,留出法和交叉验证法较自助法更为常用答案:AC解析:[多选题]59.关于空值和缺失值,下列说法中正确的是()。A)NaN和None是完全一样的B)使用isnull()可以检测数据中是否存在空值或缺失值C)notnull()与isnull()方法都可以判断数据中是否存在空值或缺失值D)dropna()方法可以删除空值和缺失值答案:BCD解析:[多选题]60.StructuredStreaming中通过什么机制,解决数据的无序和滞后问题?A)留连接B)持续查询C)Wartermark机制D)事件时间答案:CD解析:[多选题]61.下列有关k-mean算法说法正确的是A)不能自动识别类的个数,随机挑选初始点为中心点计算B)数据数量不多时,输入的数据的顺序不同会导致结果不同C)不能自动识别类的个数,不是随机挑选初始点为中心点计算D)初始聚类中心的选择对聚类结果的影响很大答案:AD解析:[多选题]62.HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?A)数据源太大B)数据节点出错C)数据出错D)名称节点出错答案:BCD解析:[多选题]63.华为大数据产品FusionInsightHD中的Streaming具有哪些关键特性?A)容灾能力B)灵活性C)消息可靠性D)可伸缩性答案:ABC解析:[多选题]64.为落实数据安全全过程管控,在发布环节,严格对外发和传播数据安全审查,落实信息内容合规性审核,发现违法违规信息应()。A)立即停止传输和发布B)采取消除等处置措施,防止信息扩散C)对信息进行保密D)保存有关记录答案:ABD解析:[多选题]65.比特币要解决的两个核心问题是:()A)防篡改B)防丢失C)防贬值D)去中心化记账答案:AD解析:[多选题]66.典型的数据采集方法包括:()A)系统日志采集B)分布式消息订阅分发C)ETLD)网络数据采集答案:ABCD解析:[多选题]67.以下哪几项属于汉语未登录词的类型?()A)存在于词典但出现频率较少的词B)新出现的普通词汇C)专有名词D)专业名词和研究领域名称答案:BCD解析:[多选题]68.x=np.linspace(0.05,10,1000)y=np.sin(x)plt.plot(x,y,ls="-.",l=2,c="c",label="plotfigure"plt.legend()plt.grid(linestyle=":",color="r")plt.show()对这段代码说法正确的是(__)。A)该图表是一个蓝绿色的散点图B)图表中有红色实线的网格线C)图表中有图例D)该图画的是sin曲线答案:CD解析:[多选题]69.分析工具包括(__)和商务智能可视化、垂直分析、统计计算、数据服务、语音与自然语言理解、搜索等。A)数据分析平台B)数据科学平台C)机器学习D)人工智能答案:ABCD解析:[多选题]70.安全模式下安装FusionInsightHD集群时,哪些组件是必须安装的?A)ZookeeperB)LdapServerC)KrbServerD)HDFS答案:BC解析:[多选题]71.关于Python面向对象编程中,下列说法中,错误的是()。A)Python中一切都是对象B)Python支持私有继承C)Python支持接口编程D)Python支持保护类型答案:BCD解析:[多选题]72.根据数据分析深度,可将数据分析分为以下哪几个层次()?A)描述性分析B)预测性分析C)规则性分析D)专业性分析答案:ABC解析:[多选题]73.以下关于Hive的Metastore描述正确的是()【选两项】A)Metastore保存了Hive的元数据信息B)Metastore的安装模式不能用内嵌模式C)Metastore的安装模式有本地模式D)Metastore的安装模式默认是远程模式答案:AC解析:[多选题]74.NumPy提供的两种基本对象是()。A)arrayB)ndarrayC)ufuncD)matrix答案:BC解析:[多选题]75.下列属于位运算符的是()。--A)&&B)&C)>>D)<<答案:BCD解析:[多选题]76.数据冗余可能会引起的问题有()。--A)读取异常B)更新异常C)插入异常D)删除异常答案:BCD解析:[多选题]77.HDFS要实现以下哪几个目标?A)兼容廉价的硬件设备B)流数据读写C)大数据集D)复杂的文件模型答案:ABC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.云计算的基本原理为:利用非本地或远程服务器(集群)的分布式计算机为互联网用户提供服务(计算、存储、软硬件等服务)。A)正确B)错误答案:对解析:[判断题]79.在Python3.5中运算符+不仅可以实现数值的相加、字符串连接,还可以实现列表、元组的合并和集合的并集运算A)正确B)错误答案:错解析:[判断题]80.运营商在智慧交通涉及到的数据源主要有信令数据、基站工参等。A)正确B)错误答案:对解析:[判断题]81.当前,企业提供的大数据解决方案大多基于Hadoop开源项目。A)正确B)错误答案:对解析:[判断题]82.服务可用性以月为服务周期,可用性为月服务可用时间与月服务总时间的比值A)正确B)错误答案:对解析:[判断题]83.使用DELETE删除记录时,自动增长值不会减小或填补空缺。--A)正确B)错误答案:对解析:[判断题]84.在函数内部可以通过关键字global来定义全局变量。A)正确B)错误答案:对解析:[判断题]85.Series与DataFrame还支持eq、ne、lt、gt、le、ge等二进制比较操作的方法,其中大于等于是gt。A)正确B)错误答案:错解析:[判断题]86.成立中央网络安全和信息化领导小组,体现了我们党对网络安全强有力的领导和更加高度的关注。A)正确B)错误答案:对解析:[判断题]87.Flink处理数据是无状态的,处理一个事件与之前的事件无关。A)正确B)错误答案:错解析:[判断题]88.BlockSize是不可以修改的。A)正确B)错误答案:错解析:可以修改修改方法有两种,1.修改hdfs块大小的方法在hdfs-site.xml文件中修改配置块大小的地方,dfs.block.size节点。重启集群后,重新上传文件到hadoop集群上,新增的文件会按照新的块大小存储,旧的不会改变。2.hadoop指定某个文件的blocksize,而不改变整个集群的blocksize文件上传的时候,使用下面的命令即可hadoopfs-Dfs.local.block.size=134217728-putlocal_nameremote_location链接:/questio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论