大数据开发基础(习题卷4)_第1页
大数据开发基础(习题卷4)_第2页
大数据开发基础(习题卷4)_第3页
大数据开发基础(习题卷4)_第4页
大数据开发基础(习题卷4)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关于Maxcomputepolicy授权,说法不正确的是:()。A)支持根据IP授权B)支持授权的时间段C)支持根据数据敏感级授权D)支持表名通配符授权答案:C解析:[单选题]2.下面属于图计算技术的是:()A)PregelB)DremelC)ImpalaD)DStream答案:A解析:[单选题]3.pandas提供了对各种格式数据文件的读取和写入工具,其中不包括哪种?A)CSV文件B)文本文件C)工作簿文件D)EXE文件答案:D解析:[单选题]4.下面不属于商业的有(__)。A)howgoodB)stitchfixC)instacartD)cyence答案:D解析:[单选题]5.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A)sort()B)combiner()C)join()D)gather()答案:B解析:[单选题]6.以下程序输出到文件text.csv里的结果是:fo=open("text.csv",'w')x=[90,87,93]fo.write(",".join(str(x)))fo.close()A)[90,87,93]B)90,87,93C),9,0,,,,8,7,,,,9,3,D)[,9,0,,,,8,7,,,,9,3,]答案:D解析:[单选题]7.()也称为非空约束,是为了给一列数据设置一个区间或者取值集合或设置不能是空值。A)默认值约束B)检查约束C)唯一性约束D)外键约束答案:B解析:[单选题]8.有N个样本,一半用于训练,一半用于测试。若增大N值,则训练误差和测试误差之间的差距会()A)增大B)减小C)不确定D)无变化答案:B解析:[单选题]9.LSTM的全称是()。A)卷积神经网络B)长短时记忆C)区域神经网络D)循环神经网络答案:B解析:[单选题]10.MapReduce中哪一种文件输入格式可以自动切割并合并小文件?()A)NLinelmputFormatB)TextInputFormatC)CombineFileInputFormatD)KeyValueTextInputFormat答案:C解析:[单选题]11.如果问题存在最优解,则下面几种搜索算法中,()必然可以得到该最优解。A)广度优先搜索B)深度优先搜索C)有界深度优先搜索D)启发式搜索答案:A解析:[单选题]12.大数据平台Hadoop的组件中,提供分布式协作服务的组件是()A)HBaseB)ZooKeeperC)SqoopD)Hive答案:B解析:[单选题]13.将属性缩放到一个指定的最大和最小值之间,这种预处理方法的好处是(__)。A)对于方差非常小的属性可以增强其稳定性B)维持稀疏矩阵中为0的条目C)便于理解D)以上都是答案:D解析:[单选题]14.下列哪个用于说明在RDD上执行何种计算()。A)分区B)算子C)日志D)数据块答案:B解析:[单选题]15.哪一项不属于FusionInsightHD中Hive的流控特性的描述?A)支持对已经建立的总连接数做阀值控制B)支持对每个用户已经建立的连接数做阀值控制C)支持对某个特定用户已经建立的连接数做阀值控制D)支持对单位时间所建立的连接数做阀值控制答案:C解析:[单选题]16.RDBMS是建立在()基础上的数据库,用来存储和管理大量数据。A)关系模型B)层次模型C)网状模型D)概念模型答案:A解析:[单选题]17.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。A)硬间隔支持向量机B)软间隔支持向量机C)线性核函数支持向量机D)多项式核函数支持向量机答案:B解析:软间隔允许某些样本不满足约束,可缓解过拟合。[单选题]18.GoogleAPP为人们提供的云计算服务属于下面哪种服务?A)SaaSB)PaaSC)IaaSD)DaaS答案:A解析:[单选题]19.当云主机模板出现通用漏洞,将产生以下哪种风险:()A)主机不稳定B)网络性能下降C)该模板创建的云主机被批量入侵D)没有影响答案:C解析:[单选题]20.首次提出?人工智能?是在()年A)1946B)1960C)1916D)1956答案:D解析:[单选题]21.以下不属于数据治理工作的主要内容的有(__)。A)理解自己的数据B)数据部门的建立C)有效监督与动态优化D)岗位工资的定义答案:D解析:[单选题]22.每一个Reducer类的实例生成了一个Java进程,负责处理某一个()上的数据A)MapB)PartitionC)SortD)Combine答案:B解析:[单选题]23.下列不属于RDBMS常用的数据库软件有()A)OracleB)SQLServerC)MySQLD)redis答案:D解析:[单选题]24.可以实现数组的除法是哪个函数?A)np.subB)np.addC)np.mulD)np.div答案:D解析:[单选题]25.Hadoop的两大核心技术是()。A)MapReduce和HBaseB)HDFS和HBaseC)HDFS和MapReduceD)GFS和MapReduce答案:C解析:[单选题]26.以下关于选用Kafka等消息系统的原因描述错误的是()。A)解耦:消息系统在处理过程中插入一个隐含、基于数据的接口层。B)同步通信:消息队列允许消息加入队列,等需要时再处理。C)扩展性:消息队列解耦处理过程,容易扩展处理过程。D)冗余:消息队列持久化,防止数据丢失答案:D解析:[单选题]27.表达式int('101',2)的值为()。A)5B)6C)"10"D)3答案:A解析:二进制101等于十进制5。[单选题]28.下列业务场景中,不能直接使用Reducer充当Combiner的是()。A)sum求和B)max求最大值C)count求计数D)avg求平均答案:D解析:求平均需要对全部数据进行计算而非部分数据,在不更改业务逻辑的情况,使用Reducer充当Combiner,最终会造成业务结果不正确。[单选题]29.下列语句执行的结果是()>>>a=1>>>b=2*a/4>>>a="one">>>print(a,b)A)one0B)10C)one0.5D)one,0.5答案:C解析:[单选题]30.尿布啤酒是大数据分析的()A)A/B测试B)分类C)关联规则挖掘D)数据聚类|答案:C解析:[单选题]31.HDFS中的block默认保存几份?A)3份B)2份C)1份D)不确定答案:A解析:[单选题]32.如果想在hadoop文件系统中通过键盘输入来创建一个文件,你应该使用下列哪种方法()A)copy()B)copyFromStdin()C)printToStdout()D)copyFromLocal()答案:B解析:A、copy()【复制】B、copyFromStdin()【中文翻译:从stdin(标准输入设备,即键盘等)复制到指定的文件】C、printToStdout()【?输出到标准输出装置】D、copyFromLocal()【只能拷贝本地文件到HDFS中,不过目前也和put命令一样,还可以把HDFS上的文件拷贝到HDFS中,但是有一点小区别,就是copyFromLocal有个-t选项可以开启多线程上传,但是put不能】[单选题]33.阅读下列代码,最后显示的数是:importrandoms=random.randint(1,99)print(s)A)1B)2C)99D)1-99之间的随机数答案:D解析:[单选题]34.在安装配置好Hadoop集群后,查看Namenode节点的端口是以下哪个()A)50030B)50070C)60010D)60030答案:B解析:A、50030【?可能是以前的yarn端口号】B、50070【hadoop2.x的HDFSNameNode对用户的查询端口:50070】C、60010【HBaseMaster端口:60010】D、60030【HBaseRegionServer端口:60010】[单选题]35.Spark的默认存储级别()A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND_DISKD)MEMORY_AND_DISK_SER答案:A解析:[单选题]36.以下语言中,()不是SparkAPI设计语言。A)ScalaB)JavaC)PythonD)C++答案:D解析:[单选题]37.下列赋值语句中,用法不正确的是()A)y=x+2B)y=x-2C)y=2xD)y=x/2答案:C解析:[单选题]38.以下选项中,不属于大数据对人才能力的要求是()A)业务能力B)数学统计能力C)IT技术能力D)逻辑思维能力答案:C解析:[单选题]39.首先根据需要设计一个调色板,进而将灰度值作为调色板的索引值完成从灰度到彩色的映射。这种伪方法称为A)基于灰级窗的伪彩色方法B)基于灰度调色板的伪彩色方法C)基于灰度变换的伪彩色方法D)基于区域分割的伪彩色方法答案:B解析:[单选题]40.深度学习中的卷积神经网络属于机器学习中的那哪种模型A)深度监督学习B)深度无监督学习C)深度半监督学习D)深度强化学习答案:A解析:[单选题]41.以下选项中,不属于MySQL特点的是()。--A)界面良好B)跨平台C)体积小D)速度快答案:A解析:[单选题]42.下列算法中:①K-NN最近邻算法:②线性回归;③逻辑回归,可以用神经网络构建的算法是()A)①②B)②③C)①②③D)以上都不是答案:B解析:[单选题]43.下面组件哪个是负贲日志收集的:()A)AmbariB)ZookeeperC)HDFSD)FIume答案:D解析:[单选题]44.下面代码运行结果()。a=1try:a+=1except:a+=1else:a+=1finally:a+=1print(a)A)2B)3C)4D)5答案:C解析:[单选题]45.条件?BETWEEN20AND30?表示年龄在20到30之间,且()A)包括20岁不包括30岁B)不包括20岁包括30岁C)不包括20岁和30岁D)包括20岁和30岁答案:D解析:[单选题]46.Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。A)内存、MapReduceB)HBase、YarnC)HDFS、TezD)HDFS、Yarn答案:D解析:[单选题]47.HadoopStreaming支持脚本语言编写简单MapReduce程序,以下是一个例子:bin/hadoopjarcontrib/streaming/hadoop-0.20-streaming.jar-inputinput/filename-outputoutput-mapper?dosth.py5?-filedosth.py-Dmapred.reduce.tasks=1以下说法不正确的是:A)HadoopStreaming使用Unix中的流与程序交互B)HadoopStreaming允许我们使用任何可执行脚本语言处理数据流C)采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUTD)Reduce没有设定,上述命令运行会出现问题答案:D解析:没有设定特殊的reducer,默认使用IdentityReducer[单选题]48.以下描述不正确的是(__)。A)干净数据是相对于?脏数据?的一种提法B)整齐数据是相对于?乱数据?的一种提法C)存在缺失值的数据是乱数据D)数据质量有问题是脏数据答案:C解析:[单选题]49.交叉连接后每条记录中含有的字段数等于()。--A)CROSSJOIN左侧表的字段B)参与交叉连接表的字段乘积C)参与交叉连接表的字段和D)以上答案都不正确答案:C解析:[单选题]50.Kafka的核心架构不包含?()A)SplitB)ProducerC)ConsumerD)Broker答案:A解析:[单选题]51.本行数据治理归口管理部门为()A)风险管理部B)内审监督部C)科技部D)数据运管部答案:D解析:[单选题]52.(__)就是把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。A)统计法B)句法识别法C)神经网络法D)模板匹配法答案:D解析:[单选题]53.假定训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取的措施是()。A)增加数据点B)减少数据点C)增加特征D)减少特征答案:C解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。[单选题]54.表A为ADS中的普通表,列a为其中一个普通列,类型为int,以下SQL()是正确的。A)SELECTa+COUNT(*)FROMAB)SELECTUDF_SYS_COUNT_COLUMN(a)FROMAC)SELECTSUM(COUNT(*))FROMAD)以上都正确答案:B解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.Hadoop的特性包括哪些?A)高可扩展性B)支持多种编程语言C)成本低D)运行在Linux平台上答案:ABCD解析:[多选题]56.从复杂度和价值高低两个维度,可以将数据分析分为(__)。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:ABCD解析:[多选题]57.大数据审计的特点主要有()A)所有数据将成为被分析的对象B)充分利用外部数C)据不需要函证D)不受时间地点限制答案:ABCD解析:[多选题]58.下面关于Spark的运行架构的描述,正确的是:()A)Spark运行架构包括ClusterB)Spark集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架C)Spark采用?P2P架构?D)Spark利用多线程来执行具体的任务答案:ABD解析:[多选题]59.大数据技术的?三驾马车?具体指以下哪些?()A)大数据分布式计算框架MapReduceB)分布式文件系统GFSC)数据库系统BigTableD)数据容器Docker答案:ABC解析:[多选题]60.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()。A)1元组(1-gram)B)单元组(unigram)模型C)列表D)字典答案:AB解析:列表和字典一般包含多个单词。[多选题]61.用大数据计算服务构建海量的数据仓库时,分区表是一种很常见的做法,对于分区表的描述正确的有:()。A)支持hash分区、范围分区、列表分区及组合分区B)在通过SQL读取分区表中的数据时,可以通过指定分区的方法只读取一部分分组,减少IO开销C)可以单独处理指定分区中的数据,不会对其他分区数据产生影响D)对于过期的数据可以将对应的分区drop掉,不会影响其他分区中的数据答案:BCD解析:[多选题]62.Spark核心包含?A)任务调度B)内存管理C)故障恢复D)存储系统交互答案:ABCD解析:[多选题]63.聚类性能度量大致有两类,一类是(__),另一类是(__)。A)外部指标B)内部指标C)簇内相似度D)簇间相似度答案:AB解析:[多选题]64.以下关于集成学习说法正确的是()A)随机森林的泛化性能比bagging更好B)随机森林比bagging训练效率高C)AdaBoost是弱分类器的线性组合D)AdaBoost以对数损失函数为损失函数答案:ABC解析:[多选题]65.下列正确的命令是()A)showtables;B)showcolumns;C)showcolumnsfromcustomers;D)showdatabases;答案:ACD解析:[多选题]66.感知机中,(__)接收外界输入信号后传递给(__)。A)输入层B)输出层C)第一层D)第二层答案:AB解析:[多选题]67.Spark采用RDD以后能够实现高效计算的原因主要在于?A)高效的容错性B)中间结果持久化到内存,数据在内存中的多个C)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化D)采用数据复制实现容错答案:ABC解析:[多选题]68.下列转换正确的是()。A)float(?inf?)B)float(?nan?)C)float(?56?+?78?)D)float(?12+34′)答案:ABC解析:[多选题]69.输出值是数值(scalar)类型的机器学习模型有()A)regressioB)简单线性回C)多重线性回归D)对数回归答案:ABC解析:[多选题]70.下面开发环境可以用来编写和调试Python程序的有()。A)IDLEB)JupyterNotebookC)SpyderD)PyCharm答案:ABCD解析:[多选题]71.Hadoop系统中YARN支持哪些资源类型的管理?A)内存B)CPUC)网络D)磁盘空间答案:AB解析:[多选题]72.信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:()A)存储设备容量不断増加B)CPU处理能力大幅提升C)量子计算机全面普及D)网络带寛不断増加答案:ABD解析:[多选题]73.消除数据孤岛对于政府具有哪些重要的意义:()A)有助于提升资源利用率B)有助于推动政府转型C)有助于提高行政效率D)有助于促进跨部门合作答案:ABCD解析:[多选题]74.下列Pandas方法中,用于求最大值和最小值的是()A)sumB)meanC)maxD)min答案:CD解析:[多选题]75.下列关于柱形图优缺点的说法中,正确的有()A)可以通过柱子的长短明显看出各组别之间数据的差异B)若柱形图的横轴为时间,则可以清晰地看出数据结果随时间的变化趋势C)若数据集分类较多,则横轴将出现大量柱形,降低了柱形图的直观度D)可以为柱形图添加标签使其清晰地展示出不同柱子对应的纵轴数据答案:ABCD解析:[多选题]76.P{H|X}是给定观测值X条件下H出现的概率,统称为(__)。A)先验概率B)后验概率C)条件概率D)模型答案:BC解析:[多选题]77.数据加工的主要动机往往来自(__)。A)实时要求B)质量要求C)计算要求D)数量要求答案:BC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Flume的Source可以不用和channel关联,直接连接到sink.A)正确B)错误答案:错解析:[判断题]79.假设re模块已成功导入,并且有pattern=pile('^'+'\.'.join([r'\d{1,3}'foriinrange(4)])+'$'),那么表达式pattern.match('03')的值为NoneA)正确B)错误答案:错解析:[判断题]80.ISA类数据采集的数据源是textfile。A)正确B)错误答案:错解析:[判断题]81.当一个用户被从某个MaxCompute项目空间移除后,Policy授权仍然会被保留,一旦该用户以后被再添加到该项目空间时,该用户的历史的ACL授权访问权限将被重新激活。A)正确B)错误答案:错解析:[判断题]82.沟通是指为了一个设定的目标,把信息、思想和情感,在个人或群体间传递,并且达成共同协议的过程。A)正确B)错误答案:对解析:[判断题]83.Flink适用于高并发处理数据、毫秒级时延应用。A)正确B)错误答案:对解析:[判断题]84.数据处理方式,可分为实时处理和离线处理。A)正确B)错误答案:对解析:[判断题]85.Namenode存储的是元数据信息,元数据信息并不是真正的数据,真正的数据是存储在DataNode中。A)正确B)错误答案:对解析:[判断题]86.运算符/在Python2.x和Python3.x中具有相同的功能A)正确B)错误答案:错解析:[判断题]87.表达式?a?+1的值为?b?。A)正确B)错误答案:错解析:[判断题]88.网球比赛,与其他体育项目一样,涉及大量数据A)正确B)错误答案:对解析:[判断题]89.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分A)正确B)错误答案:错解析:[判断题]90.Hive中groupby指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行分组处理。A)正确B)错误答案:对解析:[判断题]91.如果某些Containers的物理内存利用率超过了配置的内存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论