大数据开发基础(习题卷18)_第1页
大数据开发基础(习题卷18)_第2页
大数据开发基础(习题卷18)_第3页
大数据开发基础(习题卷18)_第4页
大数据开发基础(习题卷18)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷18)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.a=True,b=False,c=True,以下关系表达式值为True的是?A)aandbandcB)aandnotbornotcC)notaandcorbD)bandnot(aandnotc)答案:B解析:[单选题]2.以下关于过拟合与欠拟合说法正确的是(___)A)欠拟合无法彻底避免B)过拟合可采取的方法有:在决策树学习中扩展分支等C)过拟合模型表现为在训练集上具有高方差和低偏差D)泛化误差是模型响应训练数据而变化的程度答案:C解析:[单选题]3.相对于HadoopMapReduce1.0,Spark的特点不包括()。A)速度快B)并发多C)通用性D)易用性答案:B解析:相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。[单选题]4.使用CREATETABLE语句的()子句,在创建基本表时可以启用全文本搜索A)FULLTEXTB)ENGINEC)FROMD)WHRER答案:A解析:[单选题]5.执行以下代码段classA:def__init__(self):self.__i=2self.j=3defdisplay(self):print(self.__i,self.j)classB(A):def__init__(self):super().__init__()self.__i=4self.j=5c=B()c.display()时,输出为()。A)23B)43C)25D)45答案:C解析:[单选题]6.智能健康手环的应用开发,体现了()的数据采集技术的应用。A)统计报表B)网络爬虫C)API接口D)传感器答案:D解析:[单选题]7.在HBase的表的每个区域是由表中的()的子集构成。A)行B)列C)单元D)块答案:A解析:[单选题]8.依据国网公司数据管理办法,坚持(),建立公司数据共享负面清单制度。A)以共享为原则、不共享为例外B)以不共享为原则、共享为例外C)谁主管谁负责D)谁使用谁负责答案:A解析:[单选题]9.用Pyinstall工具把Python源文件打包成一个独立的可执行文件,使用的参数是:A)-DB)-LC)-iD)-F答案:D解析:[单选题]10.出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是A)namespaceIDB)storageIDC)storageTypeD)layoutVersion答案:B解析:其他三项是公有的。layoutVersion是一个负整数,保存了HDFS的持续化在硬盘上的数据结构的格式版本号;namespaceID是文件系统的唯一标识符,是在文件系统初次格式化时生成的;storageType表示此文件夹中保存的是数据节点的类型[单选题]11.以下哪种机制使Flink能够实现窗口中无序数据的有序处理?A)窗口B)有状态处理C)检查点D)事件时间答案:D解析:[单选题]12.Hive中的这条命令?ALTERTABLEemployeelADDcolumns答案:columnlstring.?是什么含义?A)创建表B)删除表C)添加列D)修改文件格式答案:C解析:[单选题]13.当Hive提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数。()作用于单个数据行,产生一个数据行作为输出,例如:数学函数,字符串函数。A)UAFB)UDFC)UDAFD)UDTF答案:B解析:[单选题]14.推进营配贯通优化提升,贯通率提升()A)5%B)7%C)10%D)15%答案:A解析:[单选题]15.在fusionlnsight产品中,关于kafka的topic.以下描述不正确的是?A)topic的partition数量可以创建时配置B)每个topic只能被分成一个partition区C)每条发布到kafka的消息都有一个类别,这个类别被称为topic.也可以理解为一个存储消息的队列D)每个partition在存储层面对应一个log文件,log文件中记录了所有的消息数据答案:B解析:[单选题]16.在电子商务网站进行网购时,用户的点击流数据会被实时发送到后端的大数据分析平台进行处理,平台根据用户的特征,找到与其购买兴趣匹配的其他用户群体,再把其他用户曾经购买过而该用户还没购买过的相关商品推荐给该用户。这个过程需要()A)高效率性。B)高精确性。C)明确的因果关系。D)符合用户需求。答案:A解析:[单选题]17.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布式计算框架及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A)HDFSB)PostgresqlC)HiveD)HBase答案:B解析:Postgresql并非分布式存储。[单选题]18.ApacheHadoop通过在多个主机上复制数据来达到可用性,因此不需要在主机上进行()存储A)标准RAID级别B)RAIDC)ZFSD)操作系统答案:B解析:[单选题]19.核矩阵是(__)的。A)没有规律B)半正定C)正定D)样本矩阵答案:B解析:[单选题]20.在淘宝网购物时,当你购买了?汽车防盗锁?之后,淘宝网会自动提示你与你购买相同物品的其他客户还购买了汽车坐垫。这个案例体现了大数据思维的()A)大数据强调因果性B)大数据强调相关性C)大数据强调精确性D)大数据强调抽样答案:B解析:[单选题]21.下面代码的输出结果是:forsin"HelloWorld":ifs=="W":continueprint(s,end="")A)HelloorldB)HelloC)WorldD)HelloWorld答案:A解析:[单选题]22.数据可视化的方法论基础是()。A)统计图表B)视觉编码C)图论D)图形符号学答案:B解析:数据可视化的方法体系的方法论基础主要是指"视觉编码"。"视觉编码"为其他数据可视化方法提供了方法论基础,奠定了数据可视化方法体系的根基。[单选题]23.舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的三种转变,其中不包括()A)全样而非抽样B)效率而非精确C)相关而非因果D)务实而非务虚答案:D解析:[单选题]24.已知文件abc.txt的内容如下:Hello,AB通过如下代码读取上述文件的内容,读取的结果为()。f=open('abc.txt','r')content=f.read(7)print(content)A)HellB)HelloC)Hello,D)Hello,A答案:D解析:[单选题]25.在Scipy中,想要生成20个服从正态分布的随机数使用函数()。A)stats.uniform.rvs(size=20)B)stats.norm.rvs(size=20)C)stats.beta.rvs(size=20)D)stats.poisson.rvs(size=20)答案:B解析:uniform均匀分布,norm正态分布,beta贝塔分布,poisson泊松分布。[单选题]26.Spark的()组件用于支持实时计算需求。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib答案:B解析:[单选题]27.以下哪个不属于hadoop的核心构成A)HDFSB)MapReduceC)SparkD)YARN答案:C解析:[单选题]28.关于字符串的说法中,下列描述错误的是()。A)字符串创建后可以被修改B)字符串可以使用单引号、双引号和三引号定义C)转义字符\n表示换行D)格式符均由%和说明转换类型的字符组成答案:A解析:[单选题]29.对银行业而言,做好大数据分析应用的前提是()A)增加统计种类B)增加营业网点C)增加数据来源D)开展专项活动答案:C解析:[单选题]30.表达式eval('500/10')的结果是:A)?500/10?B)500/10C)50D)50.0答案:D解析:[单选题]31.下列哪些不是ZooKeeper的特点()A)顺序一致性B)原子性C)多样系统映像D)可靠性答案:C解析:[单选题]32.查看一个分区表都有哪些分区,正确的是:()(不是分区键,是分区内容)。A)SHOW<table_name>B)DESC<table_name>C)SHOWPARTITIONS<table_name>D)DESCPARTITIONS<table_name>答案:C解析:[单选题]33.可视化中的组件样式不包括()A)标题B)自适应显示C)标签D)轴线答案:C解析:可视化的组件样式:标题、图例、轴线、横向网格线、纵向网格线、背景、自适应提示、交互属性[单选题]34.决策树中的叶结点对应于()A)属性B)样本C)决策结果D)标签值答案:C解析:[单选题]35.Flume将数据从产生、传输、处理并最终写入目标的路径的过程抽象为()。A)文件系统B)数据流C)数据单元D)列表答案:B解析:[单选题]36.下列关于关键词提取的说法错误的是?A)关键词提取是指借用自然语言处理方法提取文章关键词B)TF-IDF模型是关键词提取的经典方法C)文本中出现次数最多的词最能代表文本的主题D)这个问题设计数据挖掘,文本处理,信息检索等领域答案:C解析:[单选题]37.运行下面代码,输出结果是()。D={-2,-1,0,1,2,3}n=d.pop()Print(n)A)-2B)2C)不确定D)3答案:C解析:集合中元素是无序的。[单选题]38.进入要操作的数据库TEST用以下哪一项()A)INTESTB)SHOWTESTC)USERTESTD)USETEST答案:D解析:[单选题]39.()是指几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种趋势将消失或反转。A)辛普森悖论B)大数据悖论C)大数据偏见D)幸存者偏差答案:A解析:辛普森悖论是概率和统计学中的一种现象,即几组不同的数据中均存在一种趋势,41但当这些数据组组合在一起后,这种趋势将消失或反转。例如,在肾结石治疗数据分析中,比较两种肾结石治疗的成功率。[单选题]40.以下()组件负责控制系统资源的分配,防止过量业务负载对系统的冲击而导致业务拥塞。A)GTMB)WLMC)CND)DN答案:B解析:[单选题]41.下面不属于NoSQL的有(__)。A)ORACLEB)RedislabsC)couchbaseD)paradigm4答案:D解析:[单选题]42.Sigmoid函数作为神经元激活函数的特点是()。A)连续但不光滑B)不连续但光滑C)连续且光滑D)不连续且不光滑答案:C解析:[单选题]43.运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分类模型学习训练数据中的规律,然后用训练好的模型对测试数据进行预测。以上描述属于哪种类型的词语级情感分析A)基于词典的分析方法B)基于网络的分析方法C)基于语料库的分析方法D)其他答案:C解析:[单选题]44.创建Loader作业时,可以在以下()步骤中设置Map数。A)输出B)输入设置C)转换D)基本信息答案:A解析:[单选题]45.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageR.ank越高,那么它就()。A)相关性越高B)越不重要C)相关性越低D)越重要答案:D解析:[单选题]46.什么是大数据使用的最可靠方法?A)大数据源B)样本数据源C)规模大D)大数据与样本数据结合答案:D解析:[单选题]47.耦合性和内聚性是对模块独立性度量的两个标准。下面叙述中正确的是A)降低耦合性提高内聚性有利于提高模块的独立性B)耦合性是指一个模块内部个元素间彼此结合的紧密程度C)提高耦合性降低内聚性有利于提高模块的独立性D)内聚性是模块间相互连接的紧密程度答案:A解析:[单选题]48.FusionlnsightManager对服务的管理操作,下面说法错误酌是?A)可对服务进行启停重启操作B)可以添加和卸载服务C)可设置不常用的服务隐藏或显示D)可查看服务的当前状态答案:C解析:[单选题]49.Hadoop框架中最核心的设计是什么?A)为海量数据提供存储的HDFS和对数据进行计算的MapReduceB)提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务C)Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中D)Hadoop被视为事实上的大数据处理标准答案:A解析:[单选题]50.数据科学处于哪三大领域的重叠之处()。A)数学与统计知识、黑客精神与技能、领域实务知识B)数据挖掘、黑客精神与技能、领域实务知识C)数学与统计知识、数据挖掘、领域实务知识D)数学与统计知识、黑客精神与技能、数据挖掘答案:A解析:[单选题]51.泊松分布是离散型随机变量分布中相对较难的一种,泊松频率函数定义为(___)。A)P(X=k)=(λ^k*e^λ)/k!B)P(X=k)=e^k/k!C)p^x(1-p)^(1-x)D)(n!p^k*(1-p)^(n-k))/k!(n-k)!答案:A解析:[单选题]52.如果查询表A(有3行数据)和表B(有4行数据),使用select*froma,b,返回的查询结果有多少行A)7B)1C)0D)12答案:D解析:[单选题]53.以下四种描述中,正确的是()A)、大数据和海量数据是同一个事物的不同描述B)、数据和数值是同一个事物的不同描述C)、数据和数字是同一个事物的不同描述D)、以上说法均不正确答案:D解析:[单选题]54.数据湖探索(DataLakeInsight,简称DLI)是支持以下()形式的大数据计算分析服务。A)流式处理B)批处理C)流批一体D)都不支持答案:C解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.根据《承德银行大数据贷后风险预警信号管理办法(试行)》,在贷后风险预警信号管理阶段,客户经理岗的主要工作包括()等。A)负责对?大数据智能风控平台?推送的贷后预警信号进行风险排查;B)可采取多种方式联系客户完成贷后预警信号核实工作;C)对真实存在的预警信号制定并填写贷后预警处置措施,同时上报支行预警审批岗审查审批;D)负责执行总、分、支各级审批岗要求落实的贷后预警处置措施,并对相关情况进行持续跟踪监控及报告;答案:ABCD解析:[多选题]56.数据可视化的特征有()。A)易懂性B)必然性C)片面性D)专业性答案:ABCD解析:[多选题]57.下面说法选项错误的是()()A)在一个Agent中,同一个source可以有多个channelB)在一个Agent中,同一个sink可以有多个channelC)在一个Agent中,同一个source只能多1个channelD)在一个Agent中,同一个sink只能有1个channel答案:AD解析:[多选题]58.(__)是基于字符串匹配的分词方法。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)隐马尔科夫模型答案:ABC解析:[多选题]59.下面关于GoogleSpanner的描述正确的是:()A)Spanner是一个可扩展的、全布式的数据库B)在最高抽象层面,Spanner就是一个数据库,把数片存储在许多Paxos状态机上这些机器位于遍布全球的数据中心内C)随着数据的变化和服务器的变化,Spanner会fl动把数据进行重片,从而有效应对负载变化和处理失败D)Spanner被设计成可以扩展到几百万个机器节点,跨越成百上千个数据中心,具备儿万亿数据库行的规模答案:ABCD解析:[多选题]60.下列属于关键词提取算法的有()。A)TF-IDF算法B)TextRank算法C)LSA(潜在语义分析)D)LDA答案:ABCD解析:关键词提取算法包括TF-IDF算法、TextRank算法、LSA(潜在语义分析)/LSI(潜在语义索引)、LDA等。[多选题]61.Hadoop由哪几部分组成()A)CommonB)hdfsC)YarnD)MapReduce答案:ABCD解析:[多选题]62.下面关于中心极限定理的说法,正确的是()。A)中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B)中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C)中心极限定理为Z检验提供了理论支持D)中心极限定理是数理统计学和误差分析的基础答案:ACD解析:中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限。[多选题]63.下列关于python中变量的使用,正确的是()。A)变量不必事先声明B)变量无须先创建和赋值而直接使用C)变量无须指定类型D)可以使用del释放资源答案:ACD解析:[多选题]64.以下关于FusionInsight中CarbonData说法正确的有?A)使用Carbon的目的是对大数据即席查询提供超快速响应。B)Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%-80%数据存储空间,大大节省硬件存储成本。C)Carbon是一种新型的ApacheHadoop本地文件格式,使用先进的列式存储.索引.压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更换的交互查询。D)Carbon也是一种将数据源与Spark集成的高性能分析引擎。答案:ABCD解析:[多选题]65.下面哪些是Spark的组件()。A)SparkStreamingB)MLibC)GraphXD)SparkR答案:ABC解析:Spark的组件包括SparkSQL、SparkStreaming、MLid、GraphX。[多选题]66.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输人进行处理后给出一个输出下列关于神经元的描述中,正确的是()A)每个神经元有一个输入和一个输出B)每个神经元有多个输入和一个输出C)每个神经元,有一个输入和多个输出D)每个神经元有多个输入和多输出答案:ABCD解析:[多选题]67.关于数据仓库Impala的描述正确的是:()A)Impala是由Oracle公司开发的查询系统B)与Hive类似,Impala也可以直接与HDFS和HBase进行交互C)Impala采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从HDFS或者HBase中用SQL语句查询数据,而不需要把SQL语句转化成MapReduce任务来执行D)Impala和Hive采用了不同的SQL语法、ODBC驱动程序和用户接口答案:BC解析:[多选题]68.下列说法中,关于MapReduce性能调优说法正确的是()。A)在数据输入阶段,采用CombineTextInputFormat来作为输入,可以解决输入端大量的小文件场景B)在Map阶段,减少溢写次数,可以减少磁盘IOC)在Map阶段,减少合并次数,可以缩短MapReduce处理的时间D)在Shuffle阶段,尽量给Shuffle提供更多的内存空间,以防止出现内存溢出现象答案:ABCD解析:[多选题]69.下列关于脏数据的说法中,正确的是()A)格式不规范B)编码不统一C)意义不明确D)与实际业务关系不大答案:ABCD解析:[多选题]70.在使用Spark时,通常只有()情况下考虑对RDD进行序列化处理。A)在完成成本较高的操作之后B)在执行容易失败的操作之前C)当RDD被重复使用D)当RDD间依赖关系复杂答案:ABC解析:[多选题]71.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面()。A)能够直观反映成对数据之间的空间关系B)能够直观反映多维数据之间的空间关系C)能够静态演化事物的变化及变化的规律D)能够动态演化事物的变化及变化的规律E.提供高性能并行计算技术的强力支撑答案:BD解析:可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够直观反映多维数据之间的空间关系,以及能够动态演化事物的变化及变化的规律。[多选题]72.云数据中心的特征A)高设备利用率B)高可用性C)绿色节能D)人工化管理答案:ABC解析:[多选题]73.创建视图时可用以下()选项完成视图的安全控制。--A)DEFINERB)UNDEFINEDC)WITHCHECKOPTIOND)SQLSECURITY答案:AD解析:[多选题]74.以下关于HDFS的描述正确的是A)HDFS是一种分布式文件系统B)HDFS是一个高度容错性的系统,适合部署在廉价的机器上C)HDFS难以支持高吞吐量的数据访问D)HDFS可以提供一套完整的企业级数据仓库解决方案答案:AB解析:[多选题]75.以下哪些算子是窄依赖?A)unionB)mapC)filterD)groupBy答案:ABCD解析:[多选题]76.大数据计算服务(MaxCompute,原ODPS)中关于tunnel命令行工具的说法,正确的是:()。A)tunnel上传到分区表时,会把数据直接上传到指定的分区中去,不保证业务逻辑B)tunnel命令上传文件时,不能进行压缩(注:通过-cp参数进行压缩)C)tunnel上传的数据是先写到临时目录,最后确定成功后才写到结果目录D)tunnel上传过程中不加密,数据以明文方式在网络中传输(注:通过https连接就是加密方式)答案:AC解析:[多选题]77.下面有关HBase的描述正确的是()。A)Hbase中每个区域由它所属于的表中它所包含的第一行及其最后一行来表示B)在初始阶段,一个表只有一个区域C)在初始阶段,一个表会随机划分为多个区域D)Hbase中的每个区域由表中行的子集构成答案:ABD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.无论是使用单引号或双引号定义的字符串,使用print()输出的结果一致。()A)正确B)错误答案:对解析:[判断题]79.在任何时刻相同的值在内存中都只保留一份A)正确B)错误答案:错解析:[判断题]80.Flink仅支持基于时间窗口操作。A)正确B)错误答案:错解析:[判断题]81.docker已成为业界容器化的主流技术,大数据组件容器化尚不成熟,目前主流的容器化技术主要用于计算资源管理。A)正确B)错误答案:对解析:[判断题]82.一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。A)正确B)错误答案:对解析:[判断题]83.两个变量的Pearson相关性系数为零,但这两个变量的值同样可以相关A)正确B)错误答案:对解析:[判断题]84.物联网是收集大数据的重要途径A)正确B)错误答案:对解析:[判断题]85.移动互联网实现了人人相连、人物相联、物物相连。A)正确B)错误答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论