大数据开发基础(习题卷75)_第1页
大数据开发基础(习题卷75)_第2页
大数据开发基础(习题卷75)_第3页
大数据开发基础(习题卷75)_第4页
大数据开发基础(习题卷75)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷75)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择()为树模型的分界点。A)天气B)气温C)人体感受D)风力答案:A解析:信息熵(informationentropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不确定性越大,反之越小。树模型的分界点应选择信息熵最小的元素,本体选天气。[单选题]2.()会周期性地通过Heartbet将本节点上资源的使用情况和任务的运行进度汇报给JobTracker。A)TaskTrackB)TaskC)ClientD)JobTracker答案:A解析:[单选题]3.在比较模型的拟合效果时,甲、乙、丙三个模型的相关指数R²的值分别约为0.71、0.85、0.90,则拟合效果较好的模型是()。A)甲B)乙C)丙D)效果一样答案:C解析:R2的取值为0~1,越靠近1,拟合效果越好。[单选题]4.Hbase中的Region是由:()服务进程来管理的。A)HRegionServerB)ZookeeperC)HmasterD)DataNode答案:A解析:[单选题]5.在Hive的连接查询中,内连接通过关键字()进行标识A)innerjoinB)leftouterjoinC)rightouterjoinD)fullouterjoin答案:A解析:[单选题]6.Flume数据采集的过程中,下列选项中能对数据进行过滤和修饰的是?A)SinkB)ChannelC)ChannelselectorD)Interceptor答案:D解析:[单选题]7.()一般采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。A)推断统计B)预测分析C)描述统计D)诊断分析答案:C解析:[单选题]8.()的本质是将低层次数据转换为高层次数据的过程。A)数据处理B)数据计算C)数据加工D)整齐数据答案:C解析:数据加工(DataWrangling或DataMunging)的本质是将低层次数据转换为高层次数据的过程。从加工程度看,数据可以分为零次、一次、二次、三次数据。[单选题]9.下面哪个不属于卷积神经网络的一部分()。A)输入层B)过滤层C)池化层D)全连接层答案:B解析:[单选题]10.Hive在处理数据时,默认的分隔map元素的key和value的分隔符是()A)^AB)^BC)^CD)\n答案:C解析:[单选题]11.()是二维随机变量的分布。A)正态分布B)二项分布C)边缘分布D)指数分布答案:C解析:二维随机变量的分布有边缘分布和条件分布。[单选题]12.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过()可以缓解这个问题。A)K均值算法B)支持向量机C)降维D)以上答案都不正确答案:C解析:[单选题]13.假设有个keyvalue为ID:name,按先后顺序写入四个keyvalue:001:li,001:mary,001:delete,001:lily,请问scan?ttt?{versions>=2}会返回哪几条数据?A)A001:LilyB)B001:delete,001:LilyC)C001:mary,001:delete,001:lilyD)D001:mary,001:lily答案:D解析:[单选题]14.()肯定是宽依赖操作。A)mapB)flatMapC)reduceByKeyD)sample答案:C解析:Spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖操作包括ReduceByKey、groupByKey、join等。[单选题]15.下列哪个选项可以来判断Hbase表是否存在?A)table.containskey(tableName)B)admin.getTable(TableName)C)adminTableExists(TableNamevalueOf(tableName))D)adminTableExists(tableName)答案:D解析:[单选题]16.关于ADS的数据类型,说法不正确的是:()。A)布尔类型boolean取值只能为0或1B)ADS所有的数据类型都不支持unsignedC)数值类型float可以指定精度,例如:float(5,3),但是double类型不支持指定精度D)双精度浮点数double类型的存储字节数为4,大整数类型bigint存储字节数为8答案:C解析:[单选题]17.下列关于TF-IDF的说法正确的是()。A)该值与特征项在文档中出现的频率成反比B)该值与特征项在文档中出现的频率成正比C)该值与在整个语料库中出现该特征项的文档库成正比D)该值与特征项在文档中出现的频率无关答案:B解析:TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF是词频(TermFrequency),IDF是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。A中应是成正比,C中应是成反比,B正确。[单选题]18.下列关于数据转换的说法正确的是()。A)Json内的取值只能有统一格式B)PDF文件在不同平台上打开显示不同C)可以通过Python将CSV文件转换成Excel格式D)Excel存储数据的量无限制答案:C解析:Json内的取值可以有多种格式,PDF文件在不同平台上打开显示相同,Excel存储数据的量在Excel2007及以后版本,一个工作表最多可有1048576行、16384列。[单选题]19.著名的C4.5决策树算法使用()来选择最优划分属性。A)信息增益B)增益率C)基尼指数D)均值答案:B解析:[单选题]20.在分析型数据库AnalyticDB中可以通过DML命令导入导出数据到MaxCompute中,以下导入、导出命令中正确的有:()。A)loaddatafrom'odps://odps_project/odps_table'intotablemy_ads.my_table;B)uploaddatafrom'MaxCompute://odps_project/odps_table'intotablemy_ads.my_table;C)dumpdatainto'odps://odps_project/odps_table'selectid,namefrommy_ads.my_tableD)downloaddatainto'odps://odps_project_odps_table'selectid,namefrommyads.my_table答案:C解析:[单选题]21.感知层是物联网体系架构的()层。A)第一层B)第二层C)第三层D)第四层答案:A解析:[单选题]22.下面不属于跨平台性基础设施和跨平台分析工具的有(__)。A)IBMB)MicrosoftC)AmazonD)redeo答案:D解析:[单选题]23.在回归模型中,()在权衡欠拟合和过拟合中影响最大。A)更新权重w时,使用的是矩阵求逆还是梯度下降B)使用常数项C)训练样本数量D)多项式阶数答案:D解析:[单选题]24.执行以下代码段x=5x*=2x/=4/2+3print(x)时,输出为()。A)2.0B)1.0C)2.5D)4.0答案:A解析:[单选题]25.使用Pig语句查询一张名为tmp_table的表的前50行,下列语句正确的是()。A)SELECT*FROMtmp_tableLIMIT50;B)tmp_table_limit=LIMITtmp_table50;DUMPtmp_table_limit;C)DUMPtmp_tableLIMIT50D)DUMPtmp_tableLIMIT=50;答案:B解析:[单选题]26.格式化日期的函数是()A)DATEDIFF()B)DATE_FORMAT()C)DAY()D)CURDATE()答案:B解析:[单选题]27.Hive在处理数据时,默认的分隔字段(列)分隔符是()A)^AB)\rC)\nD)\t答案:A解析:[单选题]28.不予共享:是指()使用的数据,原则上不对其他人员提供。A)仅限本部门特定人员B)仅限公司特定人员C)所有人均不能D)公司内部人员答案:A解析:[单选题]29.第一个提出大数据概念的公司是()。A)微软公司B)谷歌公司C)脸谱公司D)麦肯锡公司答案:D解析:[单选题]30.根据《承德银行大数据贷后风险预警信号管理办法(试行)》,域外分行的红色级信号,辖内支行管户客户经理应在接收到系统所推送信号当日立即联系客户开展预警信号风险核实工作,限期()个工作日内制定出针对性的处置措施。A)1B)3C)5D)10答案:B解析:[单选题]31.下列方法中,能够返回某个子串在字符串中出现次数的是()。A)lengthB)indexC)countD)find答案:C解析:[单选题]32.关于Spark的说法中,()是错误的。A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map()操作答案:C解析:[单选题]33.假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入,你会得到输出「-0.0001」。X可能是以下哪一个激活函数?A)ReLUB)tanhC)SIGMOIDD)以上都可以答案:B解析:[单选题]34.以下关于字典类型的描述,正确的是:A)字典类型可迭代,即字典的值还可以是字典类型的对象B)表达式forxind:中,假设d是字典,则x是字典中的键值对C)字典类型的值可以是任意数据类型的对象D)字典类型的键可以是列表和其他数据类型答案:C解析:[单选题]35.调用以下函数返回的值()defmyfun():passA)0B)出错不能运行C)空字符串D)None答案:D解析:[单选题]36.Kafka集群在运行期间,直接依赖于下面那些组件?A)SparkB)ZookeeperC)HBaseD)HDFS答案:B解析:[单选题]37.下列不是知识表示法的是()。A)计算机表示法B)?与/或?图表示法C)状态空间表示法D)产生式规则表示法答案:A解析:[单选题]38.YARN调度器分配资源的顺序是:()。A)任意机器--本地资源--同机架B)任意机器--同机架--本地资源C)本地资源--同机架--任意机器D)同机架--任意机器--本地资源答案:C解析:[单选题]39.下列关于传递参数的说法中,不正确的是()A)python的函数允许传递不定长个参数B)将不定长参数传入函数时,必须放在末尾C)args将参数打包成?列表?的形式D)kwargs可以使用关键词法传递参数答案:C解析:[单选题]40.阅读下面Python代码,选择正确输出结果:()deffun(x,y,z=10):print("{}:{}:{}".format(x,y,z))fun(y=20,x=30)A)20:30:10B)0.43090277777778C)30:20:10D)报错,缺少参数答案:C解析:[单选题]41.与以下代码段var=100ifvar==200:print("1-Gotatrueexpressionvalue")print(var)elifvar==150:print("2-Gotatrueexpressionvalue")print(var)elifvar==100:print("3-Gotatrueexpressionvalue")print(var)else:print("4-Gotafalseexpressionvalue")print(var)等效的列表描述()。A)1-Gotatrueexpressionvalue100B)2-Gotatrueexpressionvalue100C)3-Gotatrueexpressionvalue100D)4-Gotatrueexpressionvalue100答案:C解析:[单选题]42.使用Pig语句查询表中的某一列数据,下列语句正确的是()。A)SELECTuserFROMtmp_table;B)DUMPtmp_table.user;C)FOREACHtmp_tableGENERATEuser;D)tmp_table_user=FOREACHtmp_tableGENERATEuser;DUMPtmp_table_user;答案:D解析:[单选题]43.Oracle返回字符串长度的函数是()A)len()B)length()C)left()D)long()答案:B解析:[单选题]44.处理文本数据,循环神经网络与前馈神经网络相比有()的优点。A)不会梯度消失B)训练结果不会发散C)不需要激活函数D)可以接受有序的输入序列答案:D解析:[单选题]45.以下关于公共安全行业专题分析与查询业务场景描述错误的选项是()。A)适用标准SQL语句进行查询,根据查询结果筛选目标人群,侦办案件。B)原始数据经过批处理后结果写入到指定的文件目录,供交互时查询。C)临时交互式查询任务对数据进行精确或者模糊查询。D)数据湖内多个数据源只能单独访问再呈现结果。答案:D解析:[单选题]46.在LogisticRegression中,如果同时加入L1和L2范数,不会产生什么效果A)以做特征选择,并在一定程度上防止过拟合B)能解决维度灾难问题C)能加快计算速度D)可以获得更准确的结果答案:D解析:[单选题]47.以下哪种文件以二进制格式写入和读取的模式()。A)wb+B)wC)wbD)w+答案:A解析:[单选题]48.关于ADS中的ECU,()说法是正确的。A)接入节点和计算节点可以指定不同类型的ECU,并且需要在创建DB时就确定,DB一旦创建,ECU类型不能修改B)ECU的数量,在DB创建后可以修改。即使在DB的使用过程中,也可以随时调整(扩容或者缩容)C)接入节点和计算节点必须指定相同类型的ECU,并且需要在创建DB时就确定,DB一旦创建,ECU类型不能修改D)创建DB时可以指定ECU的数量,必须为偶数,最小为4答案:B解析:[单选题]49.在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)A)Accuracy:(TP+TN)/allB)F-value:2*recall*precision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:ROC曲线下面积答案:A解析:[单选题]50.(__)度量了同样大小的训练集的变动所导致的学习性能的变化。A)偏差B)方差C)均方差D)泛化误差答案:B解析:[单选题]51.以下描述错误的是:()A)传统的关系数据库可以较好地支持结构化数据存储和管理B)Web0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心C)传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大规模存储需求D)传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂査询,在Web0时代成为不可或缺的核心特性答案:D解析:[单选题]52.命题是可以判断真假的()A)祈使句B)疑问句C)感叹句D)陈述句答案:D解析:[单选题]53.下列关于图像中的噪声特性的说法错误的是()。A)具有随机性B)具有规律性C)具有叠加性D)具有不可预测性答案:B解析:噪声是干扰和妨碍人类认知和理解信息的重要因素,而图像噪声则是图像中干扰和妨碍人类认识和理解图像信息的重要因素。由于噪声本身具有不可预测性,可以将它当作一种随机误差(这种误差只有通过概率统计的方法来识别)。因此,图像噪声可以视为一种多维随机过程,可以选择随机过程的概率分布函数和概率密度函数来作为对图像噪声进行描述的方法。[单选题]54.在数据管理技术发展过程中,文件系统与数据库系统的主要区别是数据库系统具有A)特定的数据模型B)数据无冗余C)专门的数据管理软件D)数据可共享答案:A解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.数据故事化描述应遵循的基本原则是()。A)忠于原始数据原则B)设定共同场景原则C)有效性利用原则D)3C精神原则答案:ABCD解析:数据的故事化描述应遵循的基本原则包括忠于原始数据原则、设定共同情景原则、体验式讲述原则、个性化定制原则、有效性利用原则、3C精神原则。[多选题]56.某大数据业务人员因误操作,导致删除了部分HDFS的业务数据。为了避免再次出现,如何从技术角度出发去规避这个问题?A)禁止HDFS的删除操作。B)开启HDFS的回收站机制,及时恢复数据。C)平时注重安全信息的普及,多加宣传。D)对业务人员进行权限划分,避免非法或敏感操作,如删除等。答案:BCD解析:[多选题]57.()可以帮助解决训练集在特征空间中线性不可分的问题。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法答案:BC解析:核函数解决线性不可分的本质思想就是把原始的样本通过核函数映射到高维空间中,让样本在高维特征空间中是线性可分的。软间隔允许某些样本不满足约束,使得样本在特征空间中不是线性可分。[多选题]58.Kafka的架构包括哪些组件()?A)服务代理(Broker)B)消费者(Consumer)C)话题(Topic)D)生产者(Producer)答案:ACD解析:[多选题]59.数据科学的基本流程包含(__)。A)数据化B)探索性分析C)数据分析D)数据存储答案:ABC解析:[多选题]60.决策树在()情况下会导致递归返回A)当前节点包含的样本全属于同一类B)当前属性集为空C)当前节点包含的样本集合为空D)所有样本在所有属性上取值相同答案:ABCD解析:[多选题]61.数据挖掘主要侧重解决哪几类问题:()A)分类B)聚类C)关联D)预测答案:ABCD解析:[多选题]62.SparkRDD的依赖机制包括()。A)宽依赖B)深度依赖C)广度依赖D)窄依赖答案:AD解析:RDD之间的依赖关系可以分为窄依赖和宽依赖两种。[多选题]63.MaxComputeSQL采用的是类似于SQL的语法,适用于海量数据,实时性要求不高的场合。关于MaxComputeSQL,以下说法正确的包括:()。A)MaxCompute可以等价成一个数据库,可以完成事务及回滚的功能B)MaxCompute的每个作业准备以及提交都需要花费较长时间,因此不适用对于要求响应时间较短的准实时查询C)MaxComputeSQL支持多种操作,如含join,where,orderby,groupby等D)MaxComputeSQL包括的数据类型有Bigint,Float,Double,String,DateTime,Boolean答案:BCD解析:[多选题]64.有序全面启动年度建设任务,完成所有专项方案设计和试点验证,在()等方面探索形成典型成果和可推广模式A)技术方案B)实施策略C)新兴业务D)商业模式答案:ABCD解析:[多选题]65.与开源sqoop相比,loader具有哪些增强特性?A)高可靠性B)高性能C)安全性D)图形化答案:ABCD解析:[多选题]66.不同的计算框架统一运行在YARN中,可以带来哪些好处:()A)减少了所使用的编程语言的种类B)计算资源按需伸缩C)不用负载应用混搭,集群利用率高D)共享底层存储,避免数据跨集群迁移答案:BCD解析:[多选题]67.下列属于Apriori算法特定的是(__)。A)使用先验性质,大大提高了频繁项集逐层产生的效率B)简单易理解C)数据集要求高D)扩展性较好,可以并行计算答案:ABD解析:[多选题]68.下列模型属于机器学习生成式模型的是()A)朴素贝叶斯B)隐马尔科夫模型C)线性回归模型D)深度信念网络答案:ABD解析:[多选题]69.下面关于python的说法正确的是()。A)python是编译型语言B)python支持面向过程也支持面向对象C)python中单独的下划线是一个特殊变量,用于表示上一次运算的结果D)python的标识符大小写敏感,Sum和SUM代表不同的标识符答案:BCD解析:[多选题]70.坚持()的原则,以企业级共享服务为核心,逐步沉淀共性业务和数据服务能力,打造企业中台。A)业务驱动B)迭代完善C)问题导向D)急用先行答案:ABCD解析:[多选题]71.下列属于机器学习生成式模型的有()。A)朴素贝叶斯B)隐马尔科夫模型C)线性回归模型D)深度信念网络答案:ABD解析:机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。[多选题]72.国网外联部负责()。A)管理公司网站新闻宣传B)审核重要信息C)负责公司官方微博、微信、新闻客户端等新媒体的管理工作D)负责省公司、公司直属单位官方新媒体开设(关停)的审批答案:ABCD解析:[多选题]73.(__)是preprocessing模块中的函数。A)Nomalization()B)MinMaxScaler()C)Scaler()D)StandardScaler()答案:BCD解析:[多选题]74.FusionInsightHD系统中Hive支持的存储格式包括?A)TextFileB)SequenceFileC)RCFileD)HFile答案:ABC解析:[多选题]75.信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确?()A)谷歌公司的制图服务接口GoogleB)D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库C)ECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上D)大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据答案:ABCD解析:[多选题]76.有两种策略常用来缓解BP网络的过拟合,分别是(__)和(__)。A)晚停B)早停C)正则化D)加入损失函数答案:BC解析:[多选题]77.Spark支持的计算模型有()。A)批处理B)实时计算C)机器学习模型D)交互式查询答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.带有else子句的异常处理结构,如果不发生异常则执行else子句中的代码。A)正确B)错误答案:对解析:[判断题]79.已知字符串编码格式utf8使用3个字节表示一个汉字、1个字节表示英语字母,那么表达式len('abc你好')的值为5A)正确B)错误答案:对解析:[判断题]80.增加模型的复杂度,总能减小训练样本误差A)正确B)错误答案:对解析:[判断题]81.数据表一旦删除,表中的所有数据都将被清除。--A)正确B)错误答案:对解析:[判断题]82.DataNode是HDFS集群的主节点,NameNode是HDFS集群的从节点。A)正确B)错误答案:错解析:NameNode是HDFS刷集群的主节点,DataNode是HDFS集群的从节点。[判断题]83.在字符串的操作函数中,isupper()函数负责把小写字母转为大写字母。A)正确B)错误答案:错解析:[判断题]84.互联网时代最为典型的特征是扁平化、单一向度A)正确B)错误答案:错解析:[判断题]85.可以使用del删除集合中的部分元素。A)正确B)错误答案:错解析:[判断题]86.网络空间是人类利用信息设施构造、实现信息交互、进而影响人类思想和行为的虚实结合的空间。A)正确B)错误答案:对解析:[判断题]87.Logistic回归目标函数是最小化后验概率。()A)正确B)错误答案:错解析:[判断题]88.在DWS服务中,通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论