大数据开发基础(习题卷42)_第1页
大数据开发基础(习题卷42)_第2页
大数据开发基础(习题卷42)_第3页
大数据开发基础(习题卷42)_第4页
大数据开发基础(习题卷42)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷42)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.LSTM调整参数时信息的传播方向是()。A)后向传播B)前向传播C)双向传播D)跳跃传播答案:A解析:[单选题]2.目前大数据交易市场上存在很多种定价机制,但是不包括以下哪项:()A)平台预定价B)自动计价C)拍卖式定价D)随机性定价答案:D解析:[单选题]3.以下能够删除一列的是()A)altertableempremoveaddcolumnB)altertableempdropcolumnaddcolumnC)altertableempdeletecolumnaddcolumnD)altertableempdeleteaddcolumn答案:B解析:[单选题]4.以下哪项不是?大数据?和传统的?小数据?的区别?A)数据规模的采样聚合与全量B)数据结构的结构化与非结构化C)数据来源的集中于分散D)数据质量的高低参差不齐答案:C解析:[单选题]5.有关Hive支持的基本数据类型,以下那个是1byte有符合整数()A)TinyintB)SmalintC)IntD)Bigint答案:A解析:[单选题]6.运行下列代码时如果你输入的数字依次是4、5、6,那么程序运行结果是()a=int(input("请你输入一个数字:"))b=int(input("请你输入一个数字:"))c=int(input("请你输入一个数字:"))ifaA)4B)5C)6D)以上都有可能答案:C解析:[单选题]7.OLTP是什么意思()A)面向过程的实时处理系统B)面向对象的实时处理系统C)面向事务的实时处理系统D)面向系统的实时处理系统答案:C解析:[单选题]8.for循环中,foriin,中不可以填写以下哪个?()A)列表B)一个整型变量C)range生成的数字序列D)字符串答案:B解析:[单选题]9.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A)open()B)segment()C)AddUserWord()D)generate()答案:B解析:[单选题]10.第三次信息化浪潮标志不包含以下哪项?A)互联网B)云计算C)物联网D)大数据答案:A解析:[单选题]11.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务、配置维护和命名服务等的工具是()。A)FlumeB)ZookeeperC)StormD)SparkStreaming答案:B解析:Zookeeper和Chubby均是分布式协调服务。[单选题]12.以下哪项不提供交互式查询服务?A)EchartB)ImpaleC)EylinD)Presto答案:A解析:[单选题]13.以下关于分布式文件系统,描述错误的是:()A)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统B)所有的分布式文件系统的设计都是采用?客户机/服务器?(Client/Server)模式C)谷歌开发了分布式文件系统GFSHadoopD)分布式文件系统(HadoopDistributedFileSystem,HDFS)是针对GFS的开源实现答案:B解析:[单选题]14.下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。A)多项式的阶数B)是否通过矩阵求逆或梯度下降学习权重C)使用常数项D)使用正则化答案:A解析:选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。[单选题]15.哪个选项不是实时检索解决方案的典型业务特点?()A)查询条件简单B)查询速度快C)统计美查询D)高并发答案:C解析:[单选题]16.下列方法不能成功创建一个Numpy数组的是()。A)a=np.array([1,2,3,4])B)b=np.zeros(3,4)C)c=np.ones(1,2,3,4)D)d=np.arange(10,30,5)答案:C解析:ones()函数必须传入一个数组类型的维度参数所表示的序列,如列表或元组,所以C选项无法成功创建数组,改为np.ones(1,2,3,4)就可以。281[单选题]17.以下不属于数据科学的研究目的的是()。A)大数据及其运动规律的揭示B)从数据到智慧的转化C)数据解释D)数据驱动型决策支持答案:C解析:[单选题]18.根据《大数据风控平台项目操作手册》,日常工作提示(预警)中,外部风险信息提示近()天的外部风险信息。A)15B)30C)60D)90答案:B解析:[单选题]19.关于数据创新,下列说法正确的是()。A)个数据集的总和价值等于单个数据集价值相加B)于数据的再利用,数据应该永久保存下去C)同数据多次用于相同或类似用途,其有效性会降低D)数据开放价值可以得到真正释放答案:D解析:[单选题]20.物联网的核心和基础是()A)RFIDB)计算机技术C)人工智能D)互联网答案:D解析:[单选题]21.spark的核心模块是?A)sparkstreamingB)sparkcoreC)mapreduceD)sparksql答案:B解析:[单选题]22.()聚类方法采用概率模型来表达聚类。A)K-meansB)LVQC)DBSCAND)高斯混合聚类答案:D解析:高斯混合聚类(MixtureofGaussian)采用概率模型来表达聚类。[单选题]23.以下关于MaxcomputeMR中的归并操作(Combiner)的说中,正确的是:()。A)通常下combiner的处理逻辑和map一致B)Combiner函数将shutffle阶段所有key值相等的记录进行归并C)当map输出数据后,框架会在map端对相同key值的数据进行本地的归并操作D)Combiner是必须的,可以减少传输带宽答案:C解析:[单选题]24.关于进行图像分割时使用的最大类间、类内方差比法,下列说法正确的是A)选择的阈值使得两类数据间的方差越小越好B)选择的阈值使得同一类的数据之间的方差越大越好C)使用类间、类内方差比作为选择阈值的评价参数D)使用类内、类间方差比作为选择阈值的评价参数答案:C解析:[单选题]25.机器学习中做特征选择时,可能用到的方法有?A)卡方B)信息增益C)期望交叉熵D)以上都有答案:D解析:[单选题]26.(__)也称为?基于密度的聚类?A)原型聚类B)密度聚类C)层次聚类D)AGNES答案:B解析:[单选题]27.以下python代码运行结果为()。$;$defSum(a,b=3,c=5):$;$returnsum([a,b,c])$;$print(Sum(a=8,c=2))$;$print(Sum(8))$;$print(Sum(8,2))A)13,16,15B)10,8,10C)13,8,10D)10,16,10答案:A解析:[单选题]28.在方差分析中,()反映的是样本数据与其组平均值的差异A)总离差B)纽间误差C)抽样误差D)组内误差答案:D解析:[单选题]29.在新建采集元数据任务中,配置数据源信息参数?选择集群?仅数据源类型为:()时呈现此参数。A)DWSB)CSSC)MRSHBaseD)DIS答案:B解析:[单选题]30.在HDFS中客户端(client)和元数据节点(NameNode)可以向()请求写入或读出数据块。A)NameNodeB)DataNodeC)SecondaryNameNodeD)Master答案:B解析:[单选题]31.()认为,大数据时代的数据管理目标不一定理想和完美,一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)。A)CAP理论B)BASE原则C)数据一致性理论D)大数据法则答案:A解析:[单选题]32.time库的time.time()函数的作用是()。A)返回系统当前时间戳对应的易读字符串表示B)返回系统当前时间戳对应的struct_time对象C)返回系统当前时间戳对应的本地时间的struct_time对象,本地之间经过时区转换D)返回系统当前的时间戳答案:D解析:[单选题]33.不属于神经网络常用学习算法的是:A)有监督学习B)增强学习C)观察与发现学习D)无监督学习答案:C解析:[单选题]34.下⾯哪个操作是窄依赖()A)joinB)filterC)groupD)sort答案:B解析:[单选题]35.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引人()。A)线性回归B)线性判别分析C)正则化项D)偏置项答案:C解析:[单选题]36.关于大数据在社会综合治理中的作用,以下理解不正确的是()。A)大数据的应用能够杜绝抗生素的滥用B)大数据的应用能够维护社会治安C)大数据的应用有利于走群众路线D)大数据的应用能够加强交通管理答案:A解析:[单选题]37.以下for语句结构中,()不能完成1~10的累加功能。()A)Foriinrange(10,0):total+=iB)Foriinrange(1,11):total+=iC)ForIinrange(10,0,-1):total+=iD)ForIinrange(10,9,8,7,6,5,4,3,2,1):total+=i答案:A解析:[单选题]38.Keras主要用于哪一方面A)神经网络B)非结构化数据存储C)数据可视化D)数据管理答案:A解析:[单选题]39.创建分支语句如下,CREATEORREPLACEPROCEDUREproccase.branch(pi_resultininteger,pi_returnoutinteger)ASBEGINCASEpi_resultWHEN1THENpi_return;=1:WHEN2THENpi_return:=3:WHEN3THENpireturn:5:WHEN6THENPi_return:-7:WHEN7THENpi_return:P9:ELSEPi_return:=O:ENDCASE:Raiseinfopireturn:%,pireturn;END:执行如下语句CALLproc_case_branch(3,2)的返回结果是()。A)4B)3C)5D)2答案:C解析:[单选题]40.智慧城市的构建,不包括()。A)数字城市B)物联网C)联网监控D)云计算答案:C解析:[单选题]41.评估完模型之后,发现模型存在高偏差(highbi踊),应采取的解决方法是()A)减少模型的特征数量B)增加模型的特征数量C)增加样本数量D)以上答案都正确答案:B解析:[单选题]42.在Hadoop中负责运算的组件是()A)HDFSB)YARNC)MapReduceD)Zookeeper答案:C解析:[单选题]43.以下查看数据表的语句错误的是()。--A)SHOWTABLESTATUSB)SHOWTABLESTATUSFROMmydbC)SHOWTABLESTATUSLIKE'%t%'D)以上答案都不正确答案:D解析:[单选题]44.下面哪一个不属于大数据伦理问题:()A)隐私泄露问題B)数据安全问題C)数字鸿沟问題D)数据冗余问题答案:D解析:[单选题]45.从节点程序()。A)NameNodeB)DataNodeC)SecondaryNameNodeD)Jobtracker答案:B解析:[单选题]46.HDFS采用了什么模型?A)分层模型B)主从结构模型C)管道-过滤器模型D)点对点模型答案:B解析:[单选题]47.random库中用于生成随机小数的函数是()。A)random()B)randint()C)getrandbits()D)randrange()答案:A解析:random()函数用来生成0~1之间的小数;randint()函数用来生成随机整数;getrandbits()函数用来生成特定比特长的随机整数;randrange()用来生成特定步长的随机整数序列。[单选题]48.下列图像边缘检测算子中抗噪性能最好的是()。A)梯度算子B)Prewitt算子C)Roberts算子D)Laplacian算子答案:B解析:[单选题]49.下列哪个不属于Hadoop的特性?A)成本高B)高可靠性C)高容错性D)运行在Linux平台上答案:A解析:[单选题]50.图像与灰度直方图的对应关系为A)一一对应B)一对多C)多对一D)以上情况都存在答案:C解析:[单选题]51.词袋模型、TF-IDF、Word2vec等模型都有的作用是()。A)文本情感分析B)文本特征向量化C)文本特征离散化D)文本特征分布式答案:B解析:词袋模型是把每篇文章表示成一个向量。向量中每一维代表一个单词,其值代表重要程度,重要程度就是用TF-IDF计算的。Word2vec就是词嵌入模型之一,词嵌入时将词向量化的模型的通称,其核心思想是将每个词映射成低维--K维空间(通常K为50~300)的一个稠密向量。所以,三者都将文本特征向量化。[单选题]52.以下属于Python脚本程序转变为可执行程序的第三方库的是:A)requestsB)pyinstallerC)numpyD)scrapy答案:B解析:[单选题]53.根据《承德银行大数据贷后风险预警信号管理办法(试行)》,域外分行的提示级信号,辖内支行管户客户经理应在接收到系统所推送信号5个工作日内联系客户完成贷后预警信号核实工作,限期()个工作日内制定出针对性的处置措施。A)1B)3C)5D)10答案:D解析:[单选题]54.在HBase中,Scan类的()方法限定返回数据的列A)family()B)addFamily()C)Column()D)addColumn()答案:D解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.标准差与方差的关系是()A)标准差是方差的算术平方根B)标准差可以反映离散程度,也可以反映出样本的量纲C)方差只能反映离散程度D)标准差的平方是方差答案:ABC解析:[多选题]56.转换工作流节点能完成哪些转换()A)能把一个字符串转换成小写串B)能定义不同数据类型的常量C)能根据各个输入对象的逻辑条件取值,输出一个逻辑条件取值为True的输入对象D)能进行数据组装答案:ABCD解析:[多选题]57.流数据模型的共性有哪些?A)数据实时到达B)数据到达次序独立,不受应用系统所控制C)数据规模宏大且不能预知其最大值D)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵答案:ABCD解析:[多选题]58.HBase访问接口类型包括哪些?A)NativeJavaAPIB)HBaseShellC)ThriftGatewayD)RESTGateway答案:ABCD解析:[多选题]59.Hive没有定义专门的数据存储格式,数据格式可由用户指定,只需要在创建表的时候指定三个属性,分别是()。A)列分隔符B)行分隔符C)读取文件数据的路径D)读取文件数据的方法答案:ABD解析:[多选题]60.DataWorks中工作流任务如果配置为周期性调度,所支持的周期包括:()。A)月调度B)周调度C)天调度D)小时调度答案:ABCD解析:[多选题]61.下列说法中正确的有()。A)云计算的主要特点是非常昂贵B)大数据是多源、异构、动态的复杂数据,即具有4V特征的数据42C)大数据是数据科学的研究对象之一D)MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)答案:BCD解析:云计算的一个重要优势在于其经济性。与其他计算模式不同的是,云计算的出发点是如何使用成本低的商用机(而不是成本很高的高性能服务器)实现强大的计算能力。[多选题]62.下列语句错误的是()A)select*fromorderswhereordernameisnotnull;B)select*fromorderswhereordername<>null;C)select*fromorderswhereordernameisnull;D)select*fromorderswhereordernamenotisnull;答案:BD解析:[多选题]63.一幅6×6维黑白图像输入CNN网络,经过一个3×3维filter,则filter输出描述正确的是()A)一个4×4维特征矩阵B)一个6×6维特征矩阵C)zeropadstheinputintoa8×8维图像,得到一个6×6维特征矩阵D)zeropadstheinputintoa8×8维图像,得到一个8×8维特征矩阵答案:AC解析:[多选题]64.下列哪些选项属于国网公司企业中台的建设原则?A)坚持企业级建设B)坚持以用户为中心C)坚持以应用为导向D)坚持统一创新结合答案:ABCD解析:[多选题]65.L-BFGS的描述中,正确的是()A)适合大规模的数值计算B)具备牛顿法收敛速度快的特点C)不需要存储Hesse矩阵D)空间消耗相对于BFGS小答案:ABCD解析:[多选题]66.阿里云MaxCompute中,下列对分区描述正确的是:()。A)需要在创建表时指定分区空间B)以将分区类比为文件系统下的目录C)MaxCompute将分区列的每个直作为一个分区D)目前仅支持2级分区答案:ABC解析:[多选题]67.下列集合操作结果正确的有()。A)name={'d','s'}nameadd('sd'),name值为{'sd','d','s'}B)name={'sd',d','s'}nameremove('s'),name值为{'sd','d'}C)name={'sd',d','s'}nameclear),name值为{}D)name={'sd',d','s'}nameupdate('df'),name值为{'sd','d',?f','s','j'}答案:ABC解析:D结果应为{'d','f's,'s','sd'}。[多选题]68.Hadoop启动方法有(ABC)A)Start-all.shB)start-dfs.shC)start-yarn.shD)start-hadoop.sh答案:ABC解析:[多选题]69.下面关于数据粒度的描述正确的是:()A)粒度是指数据仓库小数据单元的详细程度和级别B)数据越详细,粒度就越小,级别也就越高C)数据综合度越高,粒度也就越大,级别也就越高D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量答案:ABD解析:[多选题]70.常用来缓解BP网络的过拟合的两种策略是()。A)晚停B)早停C)正则化D)加入损失函数答案:BC解析:通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping),即将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。[多选题]71.以下()场景可以使用大数据计算服务(MaxCompute,原ODPS)的TunnelSDK方式实现。A)定时批量上传数据B)下载某个分区表的一个分区的数据C)一次性上传本地格式化文本文件D)随时变化的数据,通过事件(消息)驱动触发答案:ABC解析:[多选题]72.Grealin包括哪三个基本的对数据流的操作?A)sideBffect-stepB)filter-stepC)get-stepD)map-step答案:ABD解析:[多选题]73.图像噪声一般可分为()。A)加性噪声B)乘性噪声C)量化噪声D)非量化噪声答案:ABC解析:噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。根据噪声和信号的关系[f(x,y)表示给定原始图像,g(x,y)表示图像信号,n(x,y)表示噪声]可将其分为三种形式:①加性噪声,此类噪声与输入图像信号无关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y),信道噪声及光导摄像管的摄像机扫描图像时产生的噪声就属这类噪声。②乘性噪声,此类噪声与图像信号有关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y)g(x,y),飞点扫描器扫描图像时的噪声、电视图像中的相干噪声、胶片中的颗粒噪声就属于此类噪声。③量化噪声,此类噪声与输入图像信号无关,是量化过程存在量化误差,再反映到接收端而产生的。[多选题]74.关于GaussDB200.下列说法正确的是(?A)支持并行架构,行列混存。B)部署的服务器都必须是华为定制的。C)支持多节点,但扩展性差。D)支持master/slave架构,可靠性强。答案:AD解析:[多选题]75.以下属于关联分析目标的是A)发现频繁项集B)发现关联规则C)得到训练模型D)分析数据结构答案:AB解析:[多选题]76.关于政府数据开放的意义,下面描述正确的是:()A)政府开放数据有利于促进开放透明政府的形成B)政府开放数据有利于创新创业和经济增长C)政府开放数据有利于社会治理创新D)政府开放数据将会对政府正常运作产生威胁答案:ABC解析:[多选题]77.HBase读写用户表数据时需要下列哪些角色参与?A)RegionServerB)HMasterC)ZooKeeperD)Region答案:ABD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.中国电信大数据平台数据沙箱为一站式大数据和数据科学实训竞赛平台。A)正确B)错误答案:对解析:[判断题]79.时间序列分析是基于时间序列的分析方法,是一种定性的预测方法,它通过时间序列分析预测未来某个时间段或时间节点上某些指标的数量大小。()A)正确B)错误答案:对解析:[判断题]80.VARCHAR和VARBINARY类型的数据都不区分大小写。--A)正确B)错误答案:错解析:[判断题]81.在UTF-8编码中一个汉字需要占用3个字节。A)正确B)错误答案:对解析:[判断题]82.对于字符串型数据,空字符串??就是null,对于数值型的数据0就是null。()A)正确B)错误答案:对解析:[判断题]83.通过对象不能调用类方法和静态方法。A)正确B)错误答案:错解析:[判断题]84.0-1标准化的优点是转换为标准正态分布,无需最大值和最小值。A)正确B)错误答案:错解析:[判断题]85.()用union上下连接的各个select都可以带有自己的orderby子句。A)正确B)错误答案:错解析:[判断题]86.Python标准库threading中的Lock、R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论