大数据开发基础(习题卷2)_第1页
大数据开发基础(习题卷2)_第2页
大数据开发基础(习题卷2)_第3页
大数据开发基础(习题卷2)_第4页
大数据开发基础(习题卷2)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.与科学可视化相比,(__)更关注抽象且应用层次的可视化问题。A)信息可视化B)可视化理论C)可视分析学D)数据可视化答案:A解析:[单选题]2.下面哪个进程负责MapReduce任务调度。()A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode答案:B解析:[单选题]3.决策树中,同一路径上的所有属性之间是()关系。A)因果B)相关C)逻辑或D)逻辑与答案:D解析:[单选题]4.在数据库发展史上,先后出现过多种数据库类型,但是不包括()。A)网状数据库B)球形数据库C)层次数据库D)关系数据库答案:B解析:[单选题]5.Hadoop集群启动成功后,用于监控HDFS集群的端口是()A)50010B)50075C)8485D)50070答案:D解析:Hadoop集群正常启动后,它默认开放了端口50070,用于监控HDFS集群[单选题]6.关于循环神经网络设计的叙述中,错误的是()A)能处理可变长皮的序列B)基于围展开思想C)基于参数共享思想D)循环神经网络不可应用于图像数据答案:D解析:[单选题]7.循环神经网络适合处理的数据是()A)节点数据B)序列数据C)结构化数据D)围像数据答案:B解析:[单选题]8.Spark是用以下哪种编程语言实现的?A)CB)C++C)JAVAD)Scala答案:D解析:[单选题]9.执行以下赋值语句后,各个变量的值正确的是()a=2a=a+1b=a+1c=a+bA)a=1,b=1,c=2B)a=1,b=2,c=3C)a=2,b=3,c=5D)a=3,b=4,c=7答案:D解析:[单选题]10.社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的(),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。A)地址B)行为C)情绪D)来源答案:B解析:[单选题]11.企业数据分析平台在根据不同的业务场景需求,搭建不同的大数据分析平台,如适应离线批处理的Hadoop平台;适应实时处理的流计算平台等,这种架构属于哪种类型的架构?A)分离架构B)单一架构C)融合架构D)多维架构答案:A解析:[单选题]12.执行以下程序,输入la,输出结果是:la='python'try:s=eval(input('请输入整数:'))ls=s*2print(ls)except:print('请输入整数')A)pythonpythonB)laC)请输入整数D)python答案:A解析:[单选题]13.下列关于eval()函数的描述错误的是()。A)eval()函数的作用是将输入的字符串转为Python语句,并执行该语句B)如果用户希望输入一个数字,并用程序对这个数字进行计算,可以采用eval(input(<输入提示字符串>))组合C)执行eval("Hello")和执行eval("'Hello'")得到相同的结果D)eval()函数的定义为:eval(source,globals=None,locals=None,/)249答案:C解析:eval()函数将去掉字符串的两个引号,将其解释为一个变量,因此C应该分别报错和输出'Hello'。[单选题]14.下列关于Python2.x和Python3.x的说法,正确的是()A)Python3.x和Python2.x的print使用方法完全一致B)Python3.x默认使用的编码是UTF-8C)Python2.x和Python3.x使用//进行除法运算的结果不一致D)Python3.x版本的异常可以直接被抛出答案:B解析:[单选题]15.下列代码执行结果是()。[i*iforiinrange(3)]A)[1,1,4]B)[0,1,4]C)[1,2,3]D)(1,1,4)答案:B解析:[单选题]16.以下哪个不是离线批处理的核心诉求?A)处理数据格式多样B)处理教据量巨大C)支持SQL美作业和自走义作业D)处理时间要求高答案:D解析:[单选题]17.MaxCompute表中的列,不支持:()数据类型。A)booleanB)varcharC)bigintD)double答案:B解析:[单选题]18.下面哪一项不是云数据库的特性?()A)动态可扩展B)高成本C)易用性D)大规模并行处理答案:B解析:[单选题]19.互联网信息化的发展的动力是()A)技术创新B)原创性创新C)机制创制D)模式创新答案:C解析:[单选题]20.YARN分层结构的本质是(),负责整个系统的资源管理和分配。A)ResourceMangerB)NodeMangerC)ApplicationMasterD)Container答案:A解析:[单选题]21.Flink的窗口,按窗口行为划分不包含以下哪种?A)容量窗口B)滑动窗C)滚动窗口D)会话窗口答案:A解析:[单选题]22.以下哪些方法不可以直接来对文本分类()A)KmeansB)决策树C)支持向量机D)KNN答案:A解析:[单选题]23.以下()不是由Maxcompute接入层提供的服务。A)用户空间管理操作B)HTTP服务C)LoadBalanceD)用户认证答案:A解析:[单选题]24.层次型、网状型、关系型数据库划分原则是()A)记录长度B)文件的大小C)联系的复杂程度D)数据之间的联系答案:D解析:[单选题]25.DESC查看添加了主键约束的表结构,则Key字段的值为()。--A)PRIB)UNIC)NOTNULLD)NULL答案:A解析:[单选题]26.一般地,?人?与?马?分别与?人马?相似,但?人?与?马?很不相似;要达到这个目的,可以令?人??马?与?人马?之间的距离都比较小,但?人?与?马?之间的距离很大,此时该距离不满足(__)。A)非负性B)同一性C)对称性D)直递性答案:D解析:[单选题]27.下列哪个程序通常与NameNode在一个节点启动?A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker答案:D解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。JobTracker对应于NameNode;TaskTracker对应于DataNode。[单选题]28.下列语句在Python3中合法的是()。A)printHello,World!B)print'Hello,World!'C)print('Hello,World!')D)print"Hello,World!"答案:C解析:A选项存在语法错误,B、D选项为Python2打印语句。[单选题]29.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点。模型构建步骤如下:①将历史数据进行随机自助法重抽样,生成N个训练样本集;②将N个训练样本集分别做决策树,生成N棵决策树;③将N棵决策树随机构成随机森林;④未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。模型算法构建步骤合理的顺序是()。A)①②③④B)①③②④C)④①②③D)④②①③答案:A解析:[单选题]30.关于Logistic回归和SVM的描述,不正确的是()。A)Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B)Logistic回归的输出就是样本属于正类别的概率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D)SVM可以通过正则化系数控制模型的复杂度,避免过拟合答案:A解析:Logistic回归目标函数是最小化后验概率,Logistic回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。[单选题]31.以下关于新旧MapReduceAPI的描述错误的是()。A)新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中B)新API倾向于使用接口方式,而旧API倾向于使用抽象类C)新API使用Configuration,而旧API使用JobConf来传递配置信息D)新API可以使用Job对象来提交作业答案:B解析:[单选题]32.Scipy中模块integrate的作用是()。A)程序输入输出B)差值计算C)积分计算D)向量计算答案:C解析:Scipy中,integrate是用来进行积分计算的模块。[单选题]33.采用模板[-11]主要检测()方向的边缘。A)水平B)45°C)垂直D)135°答案:C解析:[-11]是用右边的像素减去左边的像素,当左右像素差别大也就是存在垂直方向边缘时,模板作用在图像上的值会较大。[单选题]34.二维图像可用二维函数表示,下列说法正确地是()。A)表示点的灰度值B)对于模拟图像来讲,是离散函数C)x,y不是平面的二维坐标D)以上说法都不正确答案:A解析:[单选题]35.关于OTS中数据查询的说法正确的是:()。A)查询时仅需要提供分片键即可B)可以创建索引,然后基于索引列进行查询C)查询时可以仅提供主键的一部分,但是和组成主键的列的顺序有关D)单行查询必须提供主键答案:D解析:[单选题]36.Spark的特点不包括()。A)速度快B)通用性C)易用性D)单一操作性答案:D解析:[单选题]37.()可以减少相同数据重复存储的现象A)记录B)字段C)文件D)数据库答案:D解析:[单选题]38.下面()负责HDFS数据存储.A)NameNodeB)JobtrackerC)DatanodeD)SecondaryNameNode答案:C解析:[单选题]39.Shufile阶段中哪一步是可选的?()A)排序B)分区C)分组D)规约答案:D解析:[单选题]40.以下不属于Hive交互式Shell模式下的常用命令的是()A)resetB)exitC)deleteD)java答案:D解析:[单选题]41.以下属于分类分析的是()A)、线性回归B)、平稳序列预测C)、决策树分析D)、单因素方差分析答案:C解析:[单选题]42.下列哪个神经网络结构会发生权重共享?A)卷积神经网络B)循环神经网络C)全连接神经网络D)选项A和B答案:D解析:[单选题]43.在关系数据库中,用来表示实体之间联系的是___________。A)网结构B)二维表C)线性表D)树结构答案:B解析:[单选题]44.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A)暂时隔离B)暂时删除C)永久删除D)不做处理答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。[单选题]45.在Hive的查询语句中,表示A和B按位取与的是()A)A|BB)A&BC)A-BD)A~B答案:B解析:[单选题]46.考虑以下场景,HBase有列簇CF1.列C1.C2.当读取HBase表时。只要求近回C1的列值,使用下列哪个选项可以实现该功能?A)ColumFilterB)ValueFilteC)QualifierFilteD)RowFilter答案:C解析:[单选题]47.Python中的所有关键字都是()。A)小写B)大写C)首字母大写D)以上都不对答案:D解析:[单选题]48.Maxcompute表T中某列C的数据类型为bigint,需要修改为double,以下()方式可以实现。A)将表T删掉重建B)ALTERTABLETCOLUMNCRENAMETOCDOUBLE;C)ALTERTABLETDROPCOLUMNC;ALTERTABLETADDCDOUBLE;D)ALTERTABLETCHANGECOLUMNSCBIGINT答案:A解析:[单选题]49.在Matplotlib中,调用直方图的函数是()。A)plot()B)scatter()C)bar()D)hist()答案:D解析:hist()函数用于绘制直方图。[单选题]50.下列方法中不属于情感分析评测的是()。A)COAE评测B)Cifar10数据集评测C)CCFTCCI评测D)TAC评测答案:B解析:Cifar10数据集Cifar-10由60000张32×32的RGB彩色图片构成,这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类,不属于情感分析评测。[单选题]51.假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是0或1,初始时设阈值为0.5,超过0.5概率估计,就判别为1,否则就判别为0;如果我们现在用另一个大于0.5的阈值,那么现在关于模型说法,正确的是:A)模型分类的召回率会降低或不变B)模型分类的召回率会升高C)模型分类准确率会升高或不变D)模型分类准确率会降低答案:A解析:[单选题]52.chdir()的作用是()。A)删除指定路径的目录B)改变当前工作目录到指定的路径C)以数字权限模式创建目录D)返回当前工作目录答案:B解析:[单选题]53.在Hive的连接查询中,左外连接通过关键字()进行标识A)innerjoinB)leftouterjoinC)rightouterjoinD)fullouterjoin答案:B解析:[单选题]54.FusioninsightHD部署过程中,以下关于安装集群说法正确的是?A)支持模板安装和手动安装B)首次登录不用修改admin账户密码C)对于组网隔离场景,在发现节点步骤的IP输入框中,应该输入各个节点的业务IPD)选择服务时,系统会自动为其选择依赖的底层服务答案:A解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.preprocessing.normalize()函数主要应用在(__)中。A)文本分类B)聚类C)图像分类D)图像分割答案:AB解析:[多选题]56.ElasticSearch支持的gateway类型有?A)AmazonS3B)本地文件系统C)HDFSD)AmazonS5答案:ABCD解析:[多选题]57.加强数据安全技术保护过程中,各单位落实数据安全技术保护与信息系统的三同步原则指()A)同步规划B)同步建设C)同步使用D)同步反馈答案:ABC解析:[多选题]58.根据《国网数据管理办法》(2019征求意见稿),总部各业务部门是本专业数据的产生者、维护者和使用者,对本专业数据负责,以下()对其主要职责的描述是错误的:A)负责本公司整体及本专业数据库表目录管理B)负责本专业数据标准建设和执行C)不负责本专业数据质量核查治理D)负责本专业大数据应用和数据安全管理答案:AC解析:[多选题]59.我们希望减少数据集中的特征数量。你可以采取以下哪一个步骤来减少特征()?A)使用正向选择法(ForwardSelection)B)使用反向消除法(BackwardElimination)C)逐步选择消除法(Stepwise)D)计算不同特征之间的相关系数,删去相关系数高的特征之一答案:ABCD解析:[多选题]60.在Spark技术中,关于Shuffle表述正确的是(__)。A)在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。B)在DAG调度的过程中,Stage阶段的划分是根据是否有shuffle过程C)在HashShuffle没有优化之前,每一个ShufflleMapTask会为每一个ReduceTask创建一个bucket缓存,并且会为每一个bucket创建一个文件。D)HashShuffle写数据的时候,内存没有缓冲区答案:ABC解析:[多选题]61.不会对基本K-均值算法产生影响的因素是A)样本输入顺序B)模式相似性测度C)聚类准则D)初始类中心的选取答案:AC解析:[多选题]62.HDFS不适用于以下哪些场景?A)流式数据访问B)大量小文件存储C)大文件存储与访问D)随机写入答案:BD解析:[多选题]63.以下关于模块的描述正确的是()。A)模块是文件B)模块可以定义函数,类和变量C)模块可以包含可运行的代码D)模块使得代码更复杂,可读性变差答案:ABC解析:[多选题]64.线性判别分析是一种(___)算法。A)有监督B)无监督C)分类D)降维答案:AD解析:[多选题]65.ElasticSearch在部署时,对Linux的设置有哪些优化方法?A)关闭缓存swapB)堆内存设置为:MinC)线程池+队列大小根据业务需要做调整D)设置最大文件句柄数答案:ACD解析:[多选题]66.实时检索解决方案的项目流程包括以下哪些选项?A)应用部署B)代码工程C)应用开发D)项目环境准备答案:ABCD解析:[多选题]67.对从公司获取的各类数据资产,各单位、部门和人员只享有有限的、不排它的使用权,对外开放的数据资产在使用协议中对数据再行转让应进行()。A)禁止B)允许C)限制D)审核答案:AC解析:[多选题]68.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及哪些操作()。A)合并B)排序C)分区D)抽样答案:ABC解析:[多选题]69.ETL技术主要涉及()操作。A)抽取B)转换C)加载D)分析答案:ABC解析:ETL技术主要涉及抽取(extract)、转换(transform)、加载(load)。[多选题]70.以下关于分词说法正确的是(__)。A)中文分词的方法其实只能用于中文应用B)现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。C)在中文里,?词?和?词组?边界清晰D)按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。答案:BD解析:[多选题]71.下面哪些是循环神经网络的输出模式A)多输出B)单输出C)同步多输出D)异步多输出答案:ABD解析:[多选题]72.下面关于数据分析与数据处理的描述,正确的是:()A)数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计算)B)数据分析和数据处理不存在紧密的关联关系C)二者是融合在一起的,很难割裂开来D)当用户在进行数据分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程序进行大量的数据处理答案:ACD解析:[多选题]73.坚持(___)的原则,以企业级共享服务为核心,逐步沉淀共性业务和数据服务能力,打造企业中台,包括业务中台和数据中台。A)问题导向B)业务驱动C)闭环管理D)急用先行答案:ABD解析:[多选题]74.下列哪些是RDBMS中事务遵循的原则()。A)原子性(Atomicity)B)一致性(Connsistency)C)隔离性(Isolation)D)持久性(Durability)答案:ABCD解析:关系数据库中的事务需要具备一定的规则--ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写;原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。[多选题]75.大数据场景化解决方案包含以下哪些选项?A)离线检索B)实时检索C)离线批处理D)实时流处理答案:BCD解析:[多选题]76.关于数据产品研发,下列说法错误的是()。A)从加工程度看,可以将数据分为一次数据、二次数据和三次数据B)一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C)二次数据是对一次数据进行深度处理或分析后得到的"增值数据"D)三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的"洞见数据"答案:ABD解析:二次数据是一种按照信息的生产过程和加工深度进行对信息进行分类的,是指根据特定的需求,对一次信息进行加工、分析、改编、重组、综合概括生成的信息。[多选题]77.Numpy数组中将一个数组分割成多个小数组的分割函数包括()。A)hsplitB)vsplitC)splitD)dsplit答案:ABCD解析:以上都是分割函数,分别为水平分割、数值分割、通用分割、深度分割。第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.使用正则表达式对字符串进行分割时,可以指定多个分隔符,而字符串对象的split()方法无法做到这一点。A)正确B)错误答案:对解析:[判断题]79.表达式[]==None的值为True。A)正确B)错误答案:错解析:[判断题]80.MySQL中在复制已有的表结构的同时不能复制对应的数据。--A)正确B)错误答案:对解析:[判断题]81.外键约束在删除的同时会删除自动创建的外键索引。--A)正确B)错误答案:错解析:[判断题]82.使用mapjoin的性能比普通的join要快很多,与表的大小无关。A)正确B)错误答案:错解析:[判断题]83.Kafka中每个Topic都由一个或者多个Partitions构成,Partition数量决定了每个Consumergroup中实际工作的并发消费者的最大数量。A)正确B)错误答案:对解析:[判断题]84.大数据技术已经在网络空间安全保障中发挥着越来越重要的作用。A)正确B)错误答案:对解析:[判断题]85.已知table=''A)正确B)错误答案:对解析:[判断题]86.修改视图时可以修改视图的表空间。A)正确B)错误答案:错解析:[判断题]87.集合可以作为元组的元素。A)正确B)错误答案:对解析:[判断题]88.Python类的构造函数是__init__()。A)正确B)错误答案:对解析:[判断题]89.StructuredStreaming的行列数据表格是一直无限增长的。A)正确B)错误答案:错解析:[判断题]90.表达式'helloworld,helloweveryone'A)正确B)错误答案:对解析:[判断题]91.数据可视化可以达到高效、简洁、有力地展示结果的目的;()A)正确B)错误答案:对解析:[判断题]92.如果YARN集群中只有Default、QueueA和QueueD子队列,那么允许将他们的容里分别设置为60%25%和22%A)正确B)错误答案:错解析:[判断题]93.在Hadoop集群中,NameNode负责管理所有DataNod

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论