




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷40)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在DIKW金字塔中属于未来的是()。A)信息B)数据C)知识D)智慧答案:D解析:[单选题]2.因业务需要,确需向境外提供数据的,应当按照国家有关部门制定的办法进行(),并经公司保密办与业务主管部门审批,视情况向国家有关部门报备。A)安全评估B)规模评估C)质量鉴定D)分类处理答案:A解析:[单选题]3.以下对网络空间的看法,对的是:()A)网络空间是虚拟空间,不需要法律B)网络空间虽然与现实空间不同,但同样需要法律C)网络空间是一个无国界的空间,不受一国法律约束D)网络空间与现实空间分离,现实中的法律不适用于网络空间答案:B解析:[单选题]4.执行一个job,如果这个job的输出路径已经存在,那么程序会()。A)覆盖这个输出路径B)抛出警告,但是能够继续执行C)抛出一个异常,然后退出D)创建一个新的输出路径答案:C解析:[单选题]5.从数据到智慧的转换依次递进过程是()。A)数据、知识、信息、理解、智慧B)数据、信息、理解、知识、智慧C)数据、信息、知识、理解、智慧D)数据、理解、信息、知识、智慧答案:C解析:[单选题]6.Python中用()快捷键表示运行当前程序。A)Ctrl+F10B)Ctrl+Alt+F10C)Shift+F10D)Ctrl+Shift+F10答案:D解析:Python中表示运行当前程序的快捷键是Ctrl+Shift+F10。241[单选题]7.p尾法确定图像分割的阈值,适用于(__)的情况。A)已知阈值范围B)已知图像灰度范围C)已知目标所占全图象百分比D)图像类间方差最大化答案:C解析:[单选题]8.有如下存储过程,CREATEORREPLACEPROCEDUREprc_1(paranllNINTEGERDEFAULT3,param2INOUTINTEGER)ASBEGINParam2:=paraml+param2;RETURN;END:调用如上存储过程callprc_1(2,1).结果是(?A)1B)2C)4D)3答案:D解析:[单选题]9.执行以下代码段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7self.b**=2classLastGraph(MyGraph):passg1=MyGraph()g2=LastGraph()g1.action()g2.action()print(g1.a)print(g2.b)时,输出为()。A)158B)1516C)1716D)916答案:B解析:[单选题]10.在模型评估与度量的方法中,(__)直接将数据集划分为两个互斥的集合,一个作为训练集,另一个作为测试集。A)自助法B)留出法C)交叉验证法D)错误率分析答案:B解析:[单选题]11.下列OLAP中,无需预先建模的是:()。A)HOLAPB)MOLAPC)ADSD)ROLAP答案:C解析:[单选题]12.人与人之间沟通信息.传递信息的技术,这指的是()。A)感测技术B)微电子技术C)计算机技术D)通信技术答案:D解析:[单选题]13.()常用于词云图的绘制,词云是一种直观展示数据频率的图表类型,可以对出现频率较高的?关键词?予以视觉上的突出,形成?关键词云层?,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略重点。A)文本图B)热力点图C)面积图D)雷达图答案:A解析:[单选题]14.要从文件对象infile中读取文件的余下行,我们使用()。A)infile.read(2)B)infile.read()C)infile.readline()D)infile.readlines()答案:D解析:[单选题]15.如果要回滚一个事务,则要使用()语句。A)committransactionB)begintransactionC)revokeD)rollbacktransaction答案:D解析:[单选题]16.下列关于决策树的说法错误的是()。A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题答案:C解析:决策树算法对于噪声的干扰具有相当好的鲁棒性。[单选题]17.Hadoop的HBase不适合哪些数据类型的应用场景A)大文件应用场景B)海量数据应用场景C)高吞吐率应用场景D)半结构化数据应用场景答案:A解析:[单选题]18.F1参数的大小反映了模型的(__)。A)准确度B)误差C)稳定性D)偏差答案:C解析:[单选题]19.平均滤波对(__)的表现比较好。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]20.下列哪个不是Python的应用领域()。A)Web开发B)科学计算C)游戏开发D)操作系统管理答案:D解析:[单选题]21.以下关于不带参数的函数的格式书写正确的是()A)defcheckB)def1check()C)defcheck():D)defcheck()答案:C解析:[单选题]22.下列关于Logistic回归和SVM的描述不正确的是()。A)Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B)Logistic回归的输出就是样本属于正类别的概率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D)SVM可以通过正则化系数控制模型的复杂度,避免过拟合答案:A解析:Logistic回归目标函数是最小化后验概率,Logistic回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。[单选题]23.数据仓库的最终目的是()。A)收集业务需求B)建立数据仓库逻辑模型C)为用户和业务部门提供决策支持D)开发数据仓库的应用分析答案:C解析:[单选题]24.下列有关KNN算法的流程顺序,描述正确的是()①确定K的大小,和距离的计算方法②根据K个样本的所属类别,投票决定测试样本的类别归属③计算训练集样本与测试样本的距离,选出K个与测试样本最相似的样本A)、①②③B)、③②①C)、①③②D)、②①③答案:C解析:[单选题]25.Redis中String数据类型不含以下哪种操作?A)MgetB)sizeC)strlenD)append答案:B解析:[单选题]26.大数据整合要保证各个数据源之间的()。A)一致性、协调性B)差异性、协调性C)一致性、差异性D)一致性、相容性答案:D解析:[单选题]27.在HDFS中()是文件系统的工作节点。A)DataNodeB)ClientC)NameNodeD)Flume答案:A解析:[单选题]28.有关系S(S#,SNAME,SAGE),C(C#,CNAME),SC(S#,C#,GRADE)。其中S#是学生号,SNAME是学生姓名,SAGE是学生年龄,C#是课程号,CNAME是课程名称。要查询选修?ACCESS?课的年龄不小于20的全体学生姓名的SQL语句是SELECTSNAMEFROMS,C,SCWHERE子句。这里的WHERE子句的内容是()。A)SAGE>=20andCNAME=?ACCESS?B)S.S#=SC.S#andC.C#=SC.C#andSAGEin>=20andCNAMEin?ACCESS?C)SAGEin>=20andCNAMEin?ACCESS?D)S.S#=SC.S#andC.C#=SC.C#andSAGE>=20andCNAME=?ACCESS?答案:D解析:[单选题]29.LSTM与RNN相比可以解决()。A)梯度消失B)训练结果发散C)需要激活函数D)无法处理长距离的依赖的问题答案:D解析:[单选题]30.下列哪项关于模型能力(modelcapacity)的描述是正确的?(指模型能近似复杂函数的能力)A)隐层层数增加,模型能力增加B)Dropout的比例增加,模型能力增加C)学习率增加,模型能力增加D)都不正确答案:A解析:[单选题]31.DRDS默认每个实例创建()数据库。A)16个B)64个C)1个D)8个答案:D解析:[单选题]32.部署Hive时元数据信息通常存在哪个数据库中A)SqlServerB)HBaseC)MySqlD)OracleRAC答案:C解析:[单选题]33.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个又饿一般不会共享许多近邻,所以应该选择()的相似度计算方法A)平方欧几里德距离B)余弦距离C)直接相似皮D)共享最近邻答案:D解析:[单选题]34.智能数据湖运营平台指的是以下哪个选项?A)VAS(videoAnalysisService)B)ModelArtsC)cSSD)DAYU答案:D解析:[单选题]35.以下关于同步赋值语句描述错误的选项是:A)同步赋值能够使得赋值过程变得更简洁B)判断多个单一赋值语句是否相关的方法是看其功能上是否相关或相同C)设x,y表示一个点的坐标,则x=a;y=b两条语句可以用x,y=a,b一条语句来赋值D)多个无关的单一赋值语句组合成同步赋值语句,会提高程序可读性答案:D解析:[单选题]36.L表示模糊分类器的特征关键词,由T推导出模糊集F,以下哪个算法可以计算不同F之间的关联度?()A)、SVMB)、EWC、C)、SRD)、EM答案:C解析:[单选题]37.在HBase中,查看表属性的命令是()A)select'my_ns:my_table'B)show'my_ns:my_table'C)describe'my_ns:my_table'D)look'my_ns:my_table'答案:C解析:[单选题]38.下面除了哪一项外均能准确描述Hadoop()A)开源B)实时C)基于JavaD)分布式计算答案:B解析:[单选题]39.以下哪一项不是Spark框架可用的数据源?A)IndexFSB)HDFSC)S3D)Cassandra答案:A解析:[单选题]40.定义类如下:classA():defa():print(?a?)classB():defb():print(?b?)classC():defc():print(c)classD(A,C):defd():print(?d?)d=D()d.a()d.b()d.d()以下程序能执行的结果是A)a,b,dB)a,dC)d,aD)执行会报错答案:D解析:[单选题]41.下面哪一项不属于计算机集群中的节点?A)主节点(MasterNode)B)源节点(SourceNode)C)名称结点(NameNode)D)从节点(SlaveNode)答案:B解析:[单选题]42.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。A)自上而下B)在划分前C)禁止分支展开D)自底向上答案:D解析:[单选题]43.下列声明游标的语法格式中,正确的是()。--A)DECLAREcursor_nameCURSORFORselect_statementB)CURSORcursor_nameFORselect_statementC)DECLAREcursor_nameCURSOROFselect_statementD)CURSORcursor_nameOFselect_statement答案:A解析:[单选题]44.一件商品仅有一个分类,而一个分类可有多件商品,则商品与分类的关系是()。--A)1:1B)1:nC)n:1D)n:m答案:C解析:[单选题]45.(__)是将?现实生活中的问题?转换为?数据世界中的问题?,然后采用数据科学的理念、原则、方法、技术、工具,通过将数据、尤其的大数据,转换为知识和智慧。A)数据工程师B)数据码农C)数据科学家D)科学家答案:C解析:[单选题]46.Spark的()组件用于支持实时计算需求。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib答案:B解析:SparkStreaming用于实时处理。[单选题]47.Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有()个Region。A)6B)5C)4D)3答案:B解析:[单选题]48.数据安全管理是通过制定和实施相关安全策略和措施,确保数据在收集、传输、存储、处理、使用和()各环节的安全。A)归档B)发布C)推广D)销毁答案:D解析:[单选题]49.s=0n=int(input())foriinrange(1,n+1):a1=0forjinrange(1,i+1):a1+=ja=1.0/a1s+=aprint("s=%.1f"%s)当输入的n为4时,输出S=()。A)1.5B)1.4C)1.6D)1.7答案:C解析:[单选题]50.下列企业中,最有可能成为典型的数据资产运营商的是()A)物联网企业B)互联网企业C)云计算企业D)电信运营商答案:D解析:[单选题]51.selectget_json_object('{"name":"jack","score":"100"}','$.name')的结果是A)nameB)jackC)scoreD)100答案:B解析:[单选题]52.图像中虚假轮廓的出现就其本质而言是()。A)图像的灰度级数不够多而造成的B)图像的空间分辨率不够高而造成的C)图像的灰度级数过多而造成的D)图像的空间分辨率过高而造成的答案:B解析:[单选题]53.推动多元化新兴产业发展,重点发挥公司()企业优势,聚集产业各方,构建多方参与、共商共建共赢的多元产业生态,A)聚集型B)共享型C)枢纽型D)计划型答案:C解析:[单选题]54.执行以下代码段t=(1,2)print(2*t)时,输出为()。A)(1,2,1,2)B)[1,2,1,2]C)(1,1,2,2)D)[1,1,2,2]答案:A解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列有关MapReduce计算框架的描述正确的是()。A)MapReduce可以计算任务的划分和调度B)MapReduce可完成数据的分布存储和划分C)MapReduce可以实现处理系统节点出错检测和失效恢复D)MapReduce可实现处理数据与计算任务的同步答案:ABCD解析:[多选题]56.Hadoop的HBase主要特点有哪些?A)高可靠性B)高性能C)面向列D)可伸缩答案:ABCD解析:[多选题]57.(__)主要关注的是过去。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:AB解析:[多选题]58.属于集合函数的的函数为()A)ArrayGetB)ArrayputC)ArrayRemoveD)MapRemove答案:ABCD解析:[多选题]59.正则表达式可以用非常灵活的方式来处理字符串,在大数据计算服务SQL中的正则函数支持POSIX格式,以下对正则表达式描述正确的有:()。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[:alnum:]]匹配字母字符和数字字符D)[[:digint:]]匹配数字字符答案:ABCD解析:[多选题]60.相对于HadoopMapReduce,Spark的特点有()。A)通用性B)易用性C)速度快D)容错性答案:ABC解析:[多选题]61.数据源来自于()A)课程文件B)文件夹C)关系数据库D)FTP答案:ABCD解析:[多选题]62.WHERE可在以下()语句中实现条件判断。--A)CREATEB)SHOWC)UPDATED)DELETE答案:CD解析:[多选题]63.华为FusionlnsightHD集群中,Spark服务可以从以下哪些服务读取数据?A)YARNB)hdfsC)HiveD)HBase答案:BCD解析:[多选题]64.下列关于Worker答案:工作进程、Executor答案:线程、Task答案:任务说法正确的是?A)每个Executor答案:线程可以运行多个Task(任务)B)每个Worker可以运行多个Executor(线程)C)每个Worker只能为一个拓扑运行Executor(线程)D)每个Executor答案:线程可以运行不同组件答案:Spout或Bolt的Task(任务)答案:ABD解析:[多选题]65.云计算使得使用信息的存储是一个()的方式,它会大大地节约网络的成本,使得网络将来越来越泛在、越来越普及,成本越来越低。A)分布式B)密集式C)共享式D)密闭式答案:AC解析:[多选题]66.全面消除配网设备同期负损,使()再上新台阶A)设备同期负损B)客户服务质量C)企业经营绩效D)清洁能源消纳能力答案:ABCD解析:[多选题]67.在Hive中关于like和rlike谓词操作符的描述正确的是()【选三项】A)like是正则,也是通配符,满足标准SQL的标准B)rlike是正则,正则的写法与java一样C)RLIKE子句是Hive中查询功能的一个扩展,其可以通过Java的正则表达式来指定匹配条件D)RLIKE的正则'\'需要写成'\\'答案:BCD解析:[多选题]68.以下哪些学科和数据挖掘有密切联系?A)统计B)计算机组成原理C)人工智能D)矿产挖掘答案:AC解析:[多选题]69.数据可视化狭义上与(__)概念平行,广义上包含这些概念。A)信息可视化B)科学可视化C)可视分析学D)可视化理论答案:ABC解析:[多选题]70.主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述正确的是(___)。A)主成分分析是一种无监督方法B)主成分数量一定小于等于特征的数量C)各个主成分之间相互正交D)PCA拥有最近可分性和最大重构性等性质答案:ABC解析:[多选题]71.正则表达式中,重复元字符?*?表示()A)无匹配B)只匹配1个C)0个匹配D)多个匹配答案:CD解析:[多选题]72.集群机器无密钥访问设置,运行了ssh-keygen-trsa命令后,会生成(__)和(__)两个文件。A)id_rsaB)secret_rsaC)secret_rsa.pubD)id_rsa.pub答案:AD解析:[多选题]73.下列Python文件模式中,文件会被覆盖的是(___)。A)?r?B)?W?C)?a?D)?W+?答案:BD解析:[多选题]74.FusoninsightHD系统中使用Streaming客户端Shell命令查看拓扑或者提交拓扑失败,以下哪些定位手段是正确的?A)查看客户端异常堆栈,判断是否客户端使用问题B)查看主Nimbus的运行日志,判断是否Nimbus服务端异常C)查看Supervisor运行日志,判断是否Supervisor异常D)查看Worker运行日志答案:AB解析:[多选题]75.HDFS特殊的设计,在实现优良特性的同时,也使得自身具有一些应用局限性,主要包括以下哪几个方面?A)较差的跨平台兼容性B)无法高效存储大量小文件C)不支持多用户写入及任意修改文件D)不适合低延迟数据访问答案:BCD解析:[多选题]76.下列哪些是传统RDBMS的缺点()。A)表结构schema扩展不方便B)全文搜索功能较弱C)大数据场景下I/O较高D)存储和处理复杂关系型数据功能较弱答案:ABCD解析:传统RDBMS的缺点包括表结构schema扩展不方便、全文搜索功能较弱、大数据场景下I/O较高、存储和处理复杂关系型数据功能较弱。[多选题]77.Spark的关键技术包括()。A)RDDB)SchedulerC)StorageD)Shuffie答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.在DataFrame中每列的数据都可以看做是一个Series对象。()A)正确B)错误答案:对解析:[判断题]79.empty、any()、all()、bool()可以把数据汇总简化至单个布尔值。A)正确B)错误答案:对解析:[判断题]80.语句sorted([1,2,3],reverse=True)==reversed([1,2,3])执行结果为True。A)正确B)错误答案:错解析:[判断题]81.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。A)正确B)错误答案:错解析:hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。[判断题]82.用户可以跨项目空间读未保护的项目空间数据。A)正确B)错误答案:对解析:[判断题]83.大数据既能告诉我们?是什么?,也能告诉我们?为什么?A)正确B)错误答案:错解析:[判断题]84.MRS的SFlink不支持Kerberos等进行认证,但支持SSL加密传输。A)正确B)错误答案:错解析:[判断题]85.使用内置函数open()打开文件时,只要文件路径正确就总是可以正确打开的A)正确B)错误答案:错解析:[判断题]86.表达式int('1'*64,2)与sum(2**iforiinrange(64))的计算结果是一样的,但是前者更快一些。A)正确B)错误答案:对解析:[判断题]87.虚拟化的主要目的是运行多个操作系统,提升技术能力。A)正确B)错误答案:错解析:[判断题]88.云计算就是软件在云端无所不在、无限强大的计算。也叫网络化计算或网格计算A)正确B)错误答案:对解析:[判断题]89.仅仅知道
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店餐饮理论知识培训
- 新人教版高中语文必修2召公谏厉王弭谤 同步练习 基础知识
- 高中语文必修3项链 同步练习 语言基础
- 《滕王阁序》测试3(新人教必修5)课内巩固
- 人教版小学四年级英语上册unit5Dinner'sready单元测试卷1带答案材料
- 人才引进招聘合同范例
- 劳务承包付款合同范例
- 云南省旅游合同范例电子版
- 人参类订购合同范例
- 健身房合同协议合同范例
- 2024年高三新高考英语模拟试卷试题及答案详解 (二)
- 职业健康检查质量管理工作手册
- 2024年国家教育部学位与研究生教育发展中心招聘6人(非事业编制)历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 一年级下册语文课件《2-我多想去看看》人教部编版-20
- 叉车高级工培训课件
- TIAC 27-2019《机动车保险车联网数据采集规范》
- 歌唱二小放牛郎 金巍 女声合唱谱
- 平面构成全套教学课件
- 创新素养的培养
- 南航礼仪培训课件
- 江苏省徐州市2023-2024学年七年级上学期期末语文试题
评论
0/150
提交评论