大数据开发基础(习题卷9)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：67 大小：150.85KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.SVM在()情况下表现糟糕。A)线性可分数据B)清洗过的数据C)含噪声数据与重叠数据点[单选题]2.关于MaxcomputeSQL，说法不正确的是：（）。A)在很多方面并不具备数据库的特征B)适用于海量数据，实时性要求不高的场合C)每个作业的准备，提交等阶段要花费较长时间D)大部分标准SQL的功能都支持，但是不支持窗口函数、rownum等[单选题]3.下面代码的输出结果是:x=12.34print(type(x))A)<class'int'>B)<class'float'>C)<class'bool'>D)<class'complex'>[单选题]4.下列演示方式中，不属于传统统计图方式的是（）。A)柱形图B)饼状图C)曲线图D)网络图[单选题]5.以下关于贝叶斯描述正确的是：（）A)基于先验概率输出最大的后验概率B)已发生的条件下，?原因?属于事件Ai的条件概率C)贝叶斯公式是严紧的数学推理D)朴素贝叶斯是因为一次方算法所以叫做朴素；[单选题]6.关于刚N最近邻分类算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离值进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票，得到最后的分类类别正确的排序为()A)①③②④B)②④①③C)①②③④D)①②④③[单选题]7.Spark应用在运行时，Stage划分的依据是哪个？A)taskB)taskSetC)actionD)shuffle[单选题]8.有反馈连接的架构是()A)循环神经网络B)卷积神经网络C)受限攻尔兹曼机D)都不是[单选题]9.以下可以在字符串中表示单引号的是()。--A)\"B)\\'C)\'D)'[单选题]10.()算法要求基学习器能对特定的数据分布进行学习，在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重A)BoostingB)支持向量机C)贝叶斯分类器D)神经网络[单选题]11.若用如下的SQL语句创建一个student表：CREATETABLEstudent(NOC(4)NOTNULL，NAMEC(8)NOTNULL，SEXC(2)，AGEN(2))可以插入到student表中的是A)('1031','曾华',男,23)B)('1031','曾华',NULL,NULL)C)(NULL,'曾华','男','23')D)('1031',NULL,'男',23)[单选题]12.IDC的定义除了揭示大数据传统3V基本特征，即Volume、Variety和Velocity，还增添了一个新特征是A)量大B)速度快C)应用广D)价值[单选题]13.下面关于Timetoast的描述，哪个是错误的？()A)Timetoast是在线创作基于时间轴事件记载服务的网站B)提供个性化的时间线服务C)Timetoast基于flash平台，并基于flash时间轴上任意加入事件D)Timetoast是一个提供复杂统计图表的工具[单选题]14.评估完模型之后，发现模型存在高偏差(highbi踊)，应采取的解决方法是()A)减少模型的特征数量B)增加模型的特征数量C)增加样本数量D)以上答案都正确[单选题]15.以下删除数据库emp正确的()A)Delete*fromempB)DropdatabaseempC)Drop*fromempD)deletedatabaseemp[单选题]16.在Hive中使用那个子句可以将数据划分到不同的组中，实现对记录的分组查询（）A)groupbyB)orderbyC)sortbyD)whereby[单选题]17.关于?回归（Regression）?和?相关（Correlation）?，下列说法正确的是（）。A)回归和相关在自变量x和因变量y之间都是互为对称的B)回归和相关在自变量x和因变量y之间都是非对称的C)回归在自变量x和因变量y之间是非对称的，相关在自变量x和因变量y之间是互为对称的D)回归在自变量x和因变量y之间是对称的，相关在自变量x和因变量y之间是非对称的[单选题]18.阅读下列程序defe_check(n):t=0if(n>500):t=n0.9elif(n>200):t=n0.7else:t=n0.6returntprint("电费：",e_check(100))运行结果是A)电费：90B)电费：80C)电费：60D)以上都不对[单选题]19.下列关于数据转换的说法正确的是（）。A)Json内的取值只能有统一格式B)PDF文件在不同平台上打开显示不同C)可以通过Python将CSV文件转换成Excel格式D)Excel存储数据的量无限制[单选题]20.ResultScanner无参的next()方法返回下一个可用的行组成的Result实例，含参的next(rows)方法返回（）A)一个Result实例B)一个Result实例数组C)一个整型D)以上都不正确[单选题]21.下列选项中用于查询数据的是()。--A)INSERTB)SELECTC)UPDATED)DELETE[单选题]22.有如下程序：fun=lambdaarg1,arg2:arg1+arg2print(fun(10,15))程序的输出结果是()。A)10B)15C)20D)25[单选题]23.个栈的初始状态为空。现将元素1、2、3、4、5、A、B、C、D、E依次入栈，然后再依次出栈，则元素出栈的顺序是A)12345ABCDEB)EDCBA54321C)54321EDCBAD)ABCDE12345[单选题]24.(__)是指捕获人们的生活、业务或社会活动，并将其转换为数据的过程。A)数据化B)数据可视化C)数据存储D)数据加工[单选题]25.在回归分析中，说法正确的是()。A)解释变量和被解释变量都是随机变量B)解释变量为非随机变量，被解释变量为随机变量C)解释变量和被解释变量都为非随机变量D)解释变量为随机变量，被解释变量为非随机变量[单选题]26.下列关于数据处理流程，说法有误的是？()A)在传统的数据处理流程中，存储的数据是旧的B)在传统的数据处理流程中，需要用户主动发出查询来获取结果C)传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中D)流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务[单选题]27.下面哪个是一种编程模型，它将大规模的数据处理工作拆分成互相独立的任务然后并行处理（）A)MapReduceB)HDFSC)PigD)Hive[单选题]28.Hive中distributeby和sortby的功能结合的是（）A)orderbyB)sortbyC)distributebyD)clusterby[单选题]29.下列哪一个分类其skicit-learn没有提供（）A)DecisionTreeClassifierB)AdaBoostClassifierC)SVCD)以上分类器均有提供[单选题]30.代码片段：x=10if(xA)28B)12C)16D)14[单选题]31.Dave于2012年发布(__)首次全面地刻画了当时快速发展的大数据技术体系。A)大数据产业网络B)大数据产业全景图C)大数据产业D)大数据网络[单选题]32.常用的图像分割方法是把图像(__)分成不同等级。A)颜色B)灰度C)大小D)亮度信息[单选题]33.以下哪个不是离线批处理的核心诉求?A)处理数据格式多样B)处理教据量巨大C)支持SQL美作业和自走义作业D)处理时间要求高[单选题]34.Redis中List列表是什么数据结构实现的?A)双向链表B)平衡二叉树C)红黑树D)循环链表[单选题]35.HDFS分布式文件系统的特点为（）。A)半透明性B)低可用性C)可扩展性D)支持一个应用程序并发访问[单选题]36.以下哪个操作不会导致SparkShuffle的发生？A)reduceByKey()B)filter()C)distinct()D)intersection()[单选题]37.下列选项中，不属于Python数据类型的是（）A)boolB)dictC)stringD)set[单选题]38.出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是A)namespaceIDB)storageIDC)storageTypeD)layoutVersion[单选题]39.HDFS中当前block大小为64M，如果当前要上传到HDFS中的文件大小为150M，那么在存储时会分配（）个block进行存储。A)1B)2C)3D)4[单选题]40.(__)是norm.rvs(5)的结果。A)7.1316243700758B)array([-0.35687759,1.34347647,-0.11710531,-1.00725181,-0.51275702])C)array([1,2,3,4,5])D)array([5,4,3,2,1])[单选题]41.在msyql.user表中权限字段的数据类型是()。--A)INTB)VARCHARC)ENUMD)FLOAT[单选题]42.假设你有5个大小为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1此时如果你向这一层传人一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是（）A)218x218x5B)217x217x8C)217x217x3D)220x220x5[单选题]43.在matplotlib子图绘制中,若执行plt.subplot(3,2,4),则当前的绘图子区域索引号是()A)2B)3C)4D)6[单选题]44.Spark自带的资源管理框架是?A)StandaloneB)MesosC)YARND)Docker[单选题]45.Numpy数组分割使用的函数是（）。A)vstack（）B)hstack（）C)split（）D)view（）288[单选题]46.一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义。A)概率B)邻近度C)密度D)聚类[单选题]47.下列关于舍恩伯格对大数据特点的说法中，错误的是（）。A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高[单选题]48.要在HDFS的根目录中建立一个叫hadoo的目录，下面哪一条命令是正确的（）A)mkdirhadooB)mkdir/hadooC)hadoopmkdirhadooD)hadoopfs-mkdir/hadoo[单选题]49.数据库服务器、数据库和表的关系，正确的说法是（）A)一个数据库服务器只能管理一个数据库，一个数据库只能包含一个表B)一个数据库服务器可以管理多个数据库，一个数据库可以包含多个表C)一个数据库服务器只能管理一个数据库，一个数据库可以包含多个表D)一个数据库服务器可以管理多个数据库，一个数据库只能包含一个表[单选题]50.以下关于降维的表述,错误的是()。A)降维过程中可以保留原始数据的所有信息B)多维缩放的目标是要保证降维后样本之间的距离不变C)线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失[单选题]51.在分类问题中，经常会遇到正负样本数据量不等的情况，比如正样本为100万条数据，负样本只有1万条数据，以下最合适的处理方法是()。A)从100万正样本中随机抽取1万参与分类B)将负样本每个权重设置为100，正样本权重为1，参与训练过程C)直接进行分类，可以最大限度利用数据D)将负样本重复100次，生成100万样本量，打乱顺序参与分类[单选题]52.HDFS的副本放置策略中，同一机架不同的服务器之间的距离是A)3B)2C)1D)4[单选题]53.机器学习中做特征选择时，可能用到的方法有？A)卡方B)信息增益C)期望交叉熵D)以上都有[单选题]54.交叉验证的目的是（__）。A)提高分类准确率B)得到更稳定的模型C)验证结果的准确性D)增大分类的误差[单选题]55.下列哪个不属于可视化工具？()A)GoogleB)D3C)Visual.lyD)Spark[单选题]56.Spark自带的资源管理框架是？A)StandaloneB)MesosC)YARND)Docker[单选题]57.preprocessing.normalize()函数中的norm参数代表(__)。A)需要正则化的对象B)正则化的方式C)对象的大小D)返回值的维度[单选题]58.为了降低MapReduce两个阶段之间的数据传递量，一般采用()函数对map阶段的输出进行处理。A)sort（）B)combiner（）C)join（）D)gather（）[单选题]59.下列关于仪表盘图的说法中,错误的是()A)仪表盘图可以直观地表现出某个指标的进度或实际情况B)一个可视化组建中只能创建一个仪表盘,无法同时展示多个仪表盘C)仪表盘中的仪表板最大值为目标值D)仪表盘中指针指向的位置为指针值,即当前值[单选题]60.以下表示可变长度字符串的数据类型是()A)TEXTB)CHARC)VARCHARD)EMUM[单选题]61.（）算法是一种最有影响的挖掘关联规则频繁项目集的算法。A)FP-growthB)EClatC)聚类D)Apdori[单选题]62.下列关于?数据可视化?的说法中,正确的是()A)数据可视化没有标准答案,不同的商业案例、原始数据均可能影响可视化图表的选择,最为重要的影响因素是:你想以怎样的形式向汇报对象展示结果B)数据可视化有标准答案,不同的商业案例、原始数据只能选择对应的一种可视化图表C)数据可视化是使数据以图表等方式展示的一种方法,EXCEL无法完成数据可视化操作D)数据可视化结果应当包含所有原始数据信息,需要向汇报对象展示出全部的数据结果[单选题]63.在FusionInsight产品中,关于创建Kafka的Topic,以下哪些描述是正确的?A)在创建Kafka的Topic时,必须设置Partition个数B)在创建Kafka的Topic时,必须设置Partition副本个数C)设置多副本可以增强Kafka服务的容灾能力D)以上全都正确[单选题]64.以下关于知识图谱，描述错误的是：（）A)又称为科学知识图谱B)在图书情报界称为知识域可视化或知识领域映射地图C)知识图谱属于密码学研究范畴D)知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域[单选题]65.关于数据整合和分组的说法,不正确的是()。A)数据连接可以用concat或merge函数B)axis=1表示轴向连接C)数据分组可以使用mean函数D)使用agg可以自定义多个聚合函数[单选题]66.可以在创建表时用()来创建唯一索引，也可以用()来创建唯一索引A)Createtable，CreateindexB)设置主键约束，设置唯一约束C)设置主键约束，CreateindexD)以上都可以[单选题]67.输入图像为32×32，经过步长为1、不进行padding、卷积核为5×5的卷积层后，得到的特征图尺寸是（）。A)28×28B)27×27C)29×29D)32×32[单选题]68.输出门的作用是（）。A)保留重要信息B)去除不重要信息C)信息增加D)决定要输出的部分[单选题]69.LSTM与RNN相比可以解决（）。A)梯度消失B)训练结果发散C)需要激活函数D)无法处理长距离的依赖的问题[单选题]70.Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校[单选题]71.在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（）A)分片操作B)合并操作C)格式化操作D)溢写操作[单选题]72.Hadoop的作者是下面哪一位______。A)MartinFowlerB)DougcuttingC)KentBeckD)GraceHopper[单选题]73.二项分布的数学期望为()。A)n(1-n)pB)np(1-p)C)npD)n(1-p)[单选题]74.下列对于精度的描述，解释正确的是（__）。A)统计分类器预测出来的结果与真实结果不相同的个数，然后除以总的样例集D的个数。B)先统计分类正确的样本数，然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确[单选题]75.运行下列代码，输出结果是（）。L=[iifi%2==0elsei*10foriinrange（5）]print（l）A)[0，10，2，30，4]B)[10，2，30，4]C)[0，10，2，30，4，50]D)[0，1，20，3，40][单选题]76.下列对于Sigmoid函数的说法，错误的是()A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问题[单选题]77.SELECTINSERT('welcome',-4,3,'HA')的执行结果为()。--A)HAcomeB)welHAeC)welHAcomeD)welcome[单选题]78.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是()。A)模型预测准确率已经很高了,我们不需要做什么了B)模型预测准确率不高,我们需要做点什么改进模型C)无法下结论D)以上答案都不正确[单选题]79.Mapper排序后的输出将作为下面哪个的输入（）A)ReducerB)MapperC)ShuffleD)Sort[单选题]80.mkdir()的作用是()。A)删除指定路径的目录B)改变当前工作目录到指定的路径C)以数字权限模式创建目录D)返回当前工作目录[单选题]81.()是存储在计算机内的有结构的数据集合A)网络系统B)数据库系统C)操作系统D)数据库[单选题]82.为了调查与软件相关的影响响应时间的原因，审计师应该（）A)进行跟踪并以图形描述B)开发一个集成测试环境C)使用嵌入的审计数据D)进行平行模拟[单选题]83.数据库管理系统是（）A)操作系统的一部分B)在操作系统支持下的系统软件C)一种编译程序D)一种操作系统[单选题]84.（__)是一种著名的过滤式特征选择方法。A)k-meansB)k近邻C)支持向量机D)Relief[单选题]85.使用Pig语句查询表中的某一列数据，下列语句正确的是()。A)SELECTuserFROMtmp_table;B)DUMPtmp_table.user;C)FOREACHtmp_tableGENERATEuser;D)tmp_table_user=FOREACHtmp_tableGENERATEuser;DUMPtmp_table_user;[单选题]86.下列关于数据转换器说法正确的是()A)ArraySplit是文本型转换器B)Left是集合型转换器C)Datelnc是集合型转换器D)Formatdate转换器使用时可以不区分日期形式[单选题]87.Hive适合()环境A)Hive适合用于联机(online)事务处理B)提供实时查询功能C)适合应用在大量不可变数据的批处理作业D)Hive适合关系型数据环境[单选题]88.()不是HDFS的设计目标。A)流式数据访问B)大规模数据集C)移动计算D)"多次写入，多次读取"的文件访问模型[单选题]89.对于GaussDB200的数据并行导入策略Normal，下列说法错误的是（）?A)通过GDS服务的方式实现数据并行导入。B)导入的效率和GDS服务器有关，GDS服务器越多，导入效率越快。C)数据导入时，支持单行数据大小小于1GB.D)能够将数据库的数据.表结构都导入。[单选题]90.ADS创建表组时，可以指定表组的副本数，关于副本数的说法，以下（）是正确的。A)表组的副本数越多，可以一定程度的增加ADS的最大承受的QPSB)表组的副本数为1时，写入数据会最快，相比副本较多的情况，在数据导入时不可用时间会更短C)表组的副本数最小值为2D)表组的副本数越少，表组的可用性会越高[单选题]91.HBase架构的四大组件中，（）包含访问HBase的接口。A)ZookeeperB)MasterC)RegionServerD)Client[单选题]92.Hive包括（）中连接模式。A)二B)四C)三D)五[单选题]93.行业应用解决的是行业（）问题，并为企业应用提供基础平台。A)单一B)共性C)基础D)根本[单选题]94.大数据应用需要依托的新技术有（）A)大规模存储与计算B)数据分析处理C)智能化D)以上都是[单选题]95.RNN不同于其它神经网络的地方在于（）。A)实现了记忆功能B)速度快C)精度高D)易于搭建[单选题]96.下列选项中，关于Zookeeper可靠性含义说法正确的是:（）。A)可靠性通过主备部署模式实现B)可靠性是指更新只能成功或者失败，没有中间状态C)可靠性是指无论哪一个server，对外展示的均是同一个视图D)可靠性是指一个消息被一个server接受，它将被所有的server接受[单选题]97.关于Python语言的特点，以下选项中描述错误的是()。A)Python语言是非开源语言B)Python语言是跨平台语言C)$;$Python语言是多模型语言D)Python语言是脚本语言[单选题]98.以下不属于马尔可夫随机场模型与条件随机场模型的差别的是()。A)马尔可夫随机场与条件随机场都是无向图模型B)马尔可夫随机场是生成式模型，条件随机场是判别式模型C)马尔可夫随机场处理条件概率，条件随机场处理联合概率D)马尔可夫随机场处理联合概率，条件随机场处理条件概率[单选题]99.HDFS的设计是以()为主要应用场景。A)一次写入、一次读取B)多次写入、多次读取C)一次写入、多次读取D)多次写入、一次读取[单选题]100.在空间维度上刻画数据连续性是数据的()特点。A)可关联性B)可溯源性C)可理解性D)可复制性[单选题]101.K-Means算法无法聚()样本。A)圆形分布B)螺旋分布C)带状分布D)凸多边形分布[单选题]102.能将文本文件?data_txt.txt?读取到数组data1中的语句是:A)np.save('data_txt.txt',data1,fmt='%d')B)data1=np.load('data_txt.txt')C)np.savetxt('data_txt.txt',data1,fmt='%d')D)data1=np.loadtxt('data_txt.txt')[单选题]103.以下关于方差、偏差、泛化误差说法正确的是（__）A)偏差表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。B)方差度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。C)噪声度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。D)当方差过高，会出现过拟合现象。[单选题]104.python中，（）是字符串格式化的方法A)countB)formatC)inD)replace[单选题]105.执行下列语句后的显示结果是什么?>>>world=?world?>>>print?hello?+worldA)helloworldB)?hello?worldC)helloworldD)语法错误[单选题]106.MaxCompute提供了多种针对日期的计算函数，以下函數中，能实现计算两个时间的差的是：（）。A)datediffB)timestampdiffC)intervalD)直接相减[单选题]107.下面（）负责HDFS数据存储.A)NameNodeB)JobtrackerC)DatanodeD)SecondaryNameNode[单选题]108.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖26掘的哪一类任务?A)、根据内容检索B)、建模描述C)、预测建模D)、寻找模式和规则[单选题]109.以下不是测试方法的是（）A)留出法B)交叉验证法C)自助法D)全量法[单选题]110.不属于Mayer-SchönbergerV和CukierK.在其著名论著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大数据时代统计的思维变革的是()。A)不是随机样本,而是全体数据B)不是精确性,而是混杂性C)不是描述性分析,而是预测性分析D)不是因果关系,而是相关关系[单选题]111.以下会出现错误的是A)?北京?.encode()B)?北京?.decode()C)?北京?.enode().deode()D)以上都不会错误[单选题]112.下列哪个不属于常用的文本分类的特征选择算法？A)卡方检验值B)互信息C)信息增益D)主成分分析[单选题]113.不属于神经网络常用学习算法的是：A)有监督学习B)增强学习C)观察与发现学习D)无监督学习[单选题]114.np.hsplit函数是按照什么轴进行分割数组？A)水平轴B)竖直轴C)深度分割D)45度轴[单选题]115.np.multiply([[1,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1]])的结果是多少?A)[[1266][1266][1266]]B)[[211][211][211]]C)[[223][223][223]]D)[[123][123][123]][单选题]116.某企业使用ADS做数据分析，其中部分数据来源于Maxcompute。技术人员在使用LOADDATA命令从Maxcompute加载数据到ADS的过程中，碰到如下错误信息：ERROR1105(HY000):Youarenottheownerofthesourcetable,最有可能出错的原因是:（）。A)源表不存在B)ADS的用户garuda_build@没有对源表的操作权限C)Maxcompute的用户garuda_build@没有对源表的操作权限D)源表中没有数据，为空表[单选题]117.Hadoop环境下HDFS系统中的NameNode实现的功能是()。A)管理文件系统的命名空间B)管理存储空间C)分配算力D)调控算法[单选题]118.下列不属于scikit-learn中用于标准化的函数是（）。A)StandardScalerB)MinMaxScalerC)MeanScalerD)以上都对[单选题]119.考虑这么一种情况:一个对象碰巧与另一个对象相对接近，但属于不同的类，因为这两个又饿一般不会共享许多近邻，所以应该选择()的相似度计算方法A)平方欧几里德距离B)余弦距离C)直接相似皮D)共享最近邻[单选题]120.下面的循环会打印多少次?ILovePython??foriinrange(0,10,2):print('ILovePython')A)2B)5C)6D)10[单选题]121.常用的数据收集工具不包括以下哪个选项?A)LoaderB)SqoopC)KettleD)Spark[单选题]122.hadoop（）中第一阶段的输出可以作为下一阶段的输入。A)应用场景B)分布式计算C)分阶段计算D)高效处理[单选题]123.拼接字段的函数是()A)SUBSTRING()B)TRIM()C)SUM（）D)CONCAT()[单选题]124.多分类图像识别任务常采用（）作为输出的编码方式。A)二进制编码B)one-hot编码C)霍夫曼编码D)曼切斯特编码[单选题]125.关于下列for循环，sum=0foriinrange(1,10,2):sum+=i最后输出的sum=()。A)23B)24C)25D)26[单选题]126.下列算法中：①KNN算法；②线性回归；③逻辑回归。可以用神经网络构建的算法是（）。A)①②B)②③C)①②③D)以上都不是[单选题]127.下列方法中，可以对列表元素排序的是（）。A)sort()B)reverse()C)max()D)list()[单选题]128.在MaxComputeSQL中，对两个double类型的时间进行比较，正确的做法是:（）。A)使用关系运算符B)使用关系运算符"！=?C)使用关系运算符?<>?D)使用两个double类型相减，然后取绝对值的方式进行[单选题]129.通过DMS管理后台或者数据库客户端，连接RDS数据库时，提示错误信息?max_user_connections?，代表（）含义。A)IOPS超出极限B)RDS空间满了C)网络中断D)RDS数据库的连接数满了[单选题]130.下列选项中,用于创建一个带有条件判断的循环过程的语句是()。--A)LOOP语句B)ITERATE语句C)REPEAT语句D)QUIT语句[单选题]131.KafkaClusterMirroring工具可以实现以下哪项功能?A)Kafka跨集群数据同步方式B)Kafka单集群内数据备份C)Kafka单集群内数据恢复D)以上全不正确[单选题]132.部署HBase时需要依赖于哪个资源协调组件A)YarnB)ZooKeeperC)SqoopD)HDFS[单选题]133.python3中round(15.5)与round(16.5)的结果分别为()。A)16，16B)16，17C)17，16D)17，17[单选题]134.forIinrange(2):print('hi')的结果（）A)打印两次hiB)打印两次2C)打印一次2D)打印一次hi[单选题]135.根据《泛在电力物联网2019年建设方案》，多维精益管理体系变革工作不包含以下哪一项（）A)重点推进业务流程在线贯通、企业级数据标准建设和信息频道化输出，实现电网运营数据全面连接、经营状态多维展示B)按人资、设备、营销、物资等业务条线细化管理颗粒度，实现投入产出精准分析评价C)搭建市场化业务精益管理体系，支撑新兴业务开拓D)提高业务数字化和线上化水平，增强精益化管理能力，支撑市场开拓和价值创造，提升企业经营绩效[单选题]136.下列关于线形图的说法中,错误的是()A)线形图是一种以直线的方式展示可视化结果的图表B)线形图中连线的线形包括折线、曲线以及垂直线C)我们可以为线形图中每一个连接的点打上标签,使其可以清晰地展示出对应的数值D)线形图可以清晰地反应事物随类别而变化的趋势,如增减趋势、增减速度等[单选题]137.下列关于网络用户行为的说法中，错的是（）。A)网络公司能够捕捉到用户在其网站上的所有行为B)用户离散的交互痕迹能够为企业提升服务质量提供参考C)数字轨迹用完即自动删除D)用户的隐私安全很难得以规范保护[单选题]138.()是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际观察取得样本数据，计算样本统计量的取值作为被估计参数的估计值A)参数估计B)逻辑分析C)方差分析D)回归分析[单选题]139.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？A)探索性数据分析B)建模描述C)预测建模D)寻找模式和规则[单选题]140.以下关于大数据的叙述中，（）是不恰当的。A)大数据是仅靠现有数据库管理工具或传统数据处理系统很难处理的大型而复杂的数据集B)大数据具有数据体量巨大、数据类型繁多、处理速度快等特性C)大数据的战略意义是实现数据的增值D)大数据研究中，数据之间的因果关系比关联关系更重要[单选题]141.下列选项中，哪个配置文件可以配置HDFS地址、端口号以及临时文件目录（）A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)yarn-site.xml[单选题]142.下列基本活动中不属于数据产品开发工作之中需要特别注意的是（）。A)创造性设计B)数据洞见C)虚拟化D)个性化描述[单选题]143.下列关于数据产品的说法错误的是（）。A)数据产品的存在形式是数据集B)与传统物质产品不同的是，数据产品的消费者不仅限于人类用户，还可以是计算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品，也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动[单选题]144.信息安全事件的处理不遵循的原则是（）A)统一领导B)综合协调C)快速处理D)集体责任第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.以下提法中正确的是（）。A)数据学科中的?数据?并不仅仅是?数值?,也不等同于?数值?;B)数据科学中的?计算?并不仅仅是加、减、乘、除等?数学计算?,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型;C)数据科学关注的是?单一学科?的问题；D)数据科学强调的是?理论研究?,一般不涉及?领域实务知识?；[多选题]146.下列哪种算法属于机器学习算法？A)BP神经网络B)图论推理算法C)PID控制调节D)k-means算法[多选题]147.下列哪些是专门用于可视化时间空间数据的技术：()A)等高线图B)饼图C)曲面图D)矢量场图[多选题]148.大数据对社会发展的影响有哪些？（）A)大数据成为一种新的决策方式B)大数据应用促进信息技术与各行业的深度融合C)大数据开发推动新技术和新应用的不断涌现D)大数据使得数据科学家成为热门职业[多选题]149.下列关于超链接的说法正确的有（）。A)语句<ahref="formhtml">FillOurForm</a>指向的是同一服务器同一目录下的FormhtmlB)语句<ahref="stuff/cathtml">Catalog</a>指向的是同一服务器子目录stuff下的CathtmlC)语句<ahref="/parenthtml">Parent</a>指向的是同一服务器父目录下的parenthtmlD)语句<ahref="wwwdevbgorg"target="_blank">BASD</a>指向的是内部的网站[多选题]150.根据泛在电力物联网2019年建设方案，大力发展新兴业务，坚持（）和（）相结合A)理论指导B)顶层设计C)基层首创D)实际应用[多选题]151.在正则化公式中,λ为正则化参数,关于λ的描述正确的是()。A)若正则化参数λ过大,可能会导致出现欠拟合现象B)若λ的值太大,则梯度下降可能不收敛C)取一个合理的λ值,可以更好地应用正则化D)如果令λ的值很大的话,为了使CostFunction尽可能的小,所有θ的值(不包括θ0)都会在一定程度上减小[多选题]152.下面检索结果一定不是一行的命令是()A)selectdistinct*fromorders;B)select*fromorderslimit1,2;C)selecttop1*fromorders;D)select*fromorderslimit1;[多选题]153.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()。A)分支界限法B)浮动搜索法C)信息熵D)AIC[多选题]154.以下不属于浮点型的是（）A)smallintB)mediumintC)floatD)int[多选题]155.数据冗余可能会引起的问题有()。--A)读取异常B)更新异常C)插入异常D)删除异常[多选题]156.大数据计算服务（MaxCompute，原ODPS）中关于tunnel命令行工具的说法，正确的是:（）。A)tunnel上传到分区表时，会把数据直接上传到指定的分区中去，不保证业务逻辑B)tunnel命令上传文件时，不能进行压缩(注：通过-cp参数进行压缩)C)tunnel上传的数据是先写到临时目录，最后确定成功后才写到结果目录D)tunnel上传过程中不加密，数据以明文方式在网络中传输（注：通过https连接就是加密方式）[多选题]157.寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下哪些步骤？()A)选择一个算法过程使评分函数最优B)决定如何量化和比较不同表示拟合数据的好坏C)决定要使用的表示的特征和结构D)决定用什么样的数据管理原则以高效地实现算法[多选题]158.HIS表色系的三属性包含：（）。A)色调B)色饱和度C)亮度D)色度[多选题]159.Hadoop组件的核心功能包括（）A)分布式数据存储B)分析C)挖掘D)分布式计算[多选题]160.()可以帮助解决训练集在特征空间中线性不可分的问题A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法[多选题]161.小王开发了一个MaxcomputeUDF，打成jar包之后，作为资源上传到项目空间里，创建了对应的函数，但是在执行的时候发现该jar包依赖的另一个jar包不存在，他应该（）才能正常使用。A)在使用jar命令调用的时候，在classpath参数中增加依赖jar包的路径即可B)将依赖的jar包作为资源上传到项目空间，在UDF的初始化函数setup中，使用readJarResource读取jar包资源C)将依赖的jar包作为资源上传到项目空间，同时在创建函数的时候（CREATEFUNCTION），using子句中增加依赖的包，如果多个包的话，用逗号分隔D)在对UDF打jar包的时候，把依赖的jar包包含进去，统一打成一个包即可[多选题]162.根据《大数据风控平台项目操作手册》，企业信用智能分析报告页面分【企业信用智能分析报告（含征信）】、【企业信用智能分析报告】2个标签页，分别对应查询的报告种类。每个标签页的左上角都有（）2个按钮，分别支持查看实时报告和历史报告。A)查询实时报告B)查看尽调报告C)查看历史报告D)尽职调查报告数据[多选题]163.重点开展?物理分布，逻辑统一?的新一代调度自动化系统试点建设，完成（）等软件开发、功能测试A)支撑平台B)人机云终端C)核心应用功能D)核心场景[多选题]164.Hadoop通过ResourceManager对集群资源进行管理，它的主要功能有？A)集群资源调度B)应用程序管理C)集群资源管理D)日志管理[多选题]165.(__)不属于集中趋势分析。A)数值平均数B)位置平均数C)离散系数D)正相关[多选题]166.以下()属于线性分类器最佳准则?A)感知准则函数B)贝叶斯分类C)支持向量机D)Fisher准则[多选题]167.下面关于k近邻的表述中，正确的是（__)。A)当k取不同值时，分类结果会有显著不同B)若采用不同的距离计算方式，则找出的?近邻?可能有显著差别C)k近邻可用来对数据进行分类D)k近邻可用来对数据进行回归[多选题]168.泛在电力物联网，就是运用新一代信息技术，将（）连接起来，通过信息广泛交互和充分共享，以数字化管理大幅提高能源生产、能源消费和相关装备制造的安全水平、质量水平、先进水平、效益效率水平A)电力用户及其设备B)电网企业及其设备C)发电企业及其设备D)电工装备企业及其设备[多选题]169.Spark组件包含哪两个算子()。A)MapB)ActionC)TransformationD)Reduce[多选题]170.YARN容量调度器的主要特点有哪些?A)容量保证B)动态更新配置文件C)灵活性D)多重租赁[多选题]171.区块链的三要素是：（）A)交易B)区块C)链D)比特币[多选题]172.GraphBase能够处理海量数据的原因是什么?A)图机制特性B)基于HBase的分布式存储机制C)基于Elasticsearch的索引机制D)基于Spark的分布式内存计算技术[多选题]173.关于大数据的内涵,以下理解正确的是()A)大数据还是一种思维方式和新的管理、治理路径B)大数据里面蕴藏着大知识、大智慧、大价值和大发展C)大数据在不同领域,又有不同的状况D)大数据就是很大的数据[多选题]174.大数据处理分析技术主要包括哪几种类型：()A)批处理计算B)流计算C)图计算D)查询分析计算[多选题]175.下列名称中，哪些属于同一种方法（__）。A)可重复采样B)自助采样C)有放回采样D)顺序采样[多选题]176.OTSAPI中提供了（）Action可以进行多行数据操作。A)BachtGetRowB)GetRangeC)GetMultiRowD)BatchWriteRow[多选题]177.以下关于数据科学描述错误的包括()。A)数据科学研究数据的差异性B)降低计算量是数据科学关心的问题C)数据科学不可以研究非结构化数据D)数据科学不需要与其他学科结合在一起[多选题]178.下列关于降维方法的叙述正确的有（）。A)主成分分析是一种常用的非线性降维方法B)核化线性降维是一种常用的线性降维方法C)流形学习是一种借鉴拓扑流形概念的降维方法D)度量学习绕过降维的过程，将学习目标转化为对距离度量计算的权重矩阵的学习[多选题]179.在ADS中，两个事实表进行join的充要条件包括：（）。A)张表的hash分区数必须一致B)两个表在一个表组C)张表的joinkey至少有一列建立了hashmap索引D)两个表的joinkey是hash分区列[多选题]180.下列场景适合使用Python的有（）。A)可作为脚本语言，快速编写小型程序、脚本等B)可应用在数据科学、交互式计算及可视化领域C)可作为胶水语言，整合如C++等语言代码D)Python适用于低延时、高利用率的应用场景[多选题]181.以下关于机器学习发展历程说法正确的是（）A)二十世纪五十年代到七十年代初，人工智能研究处于?推理期?B)二十世纪八十年代开始，人工智能研究进入了?知识期?C)在六七十年代，基于逻辑表示的?符号主义?学习技术蓬勃发展D)1986年，第一本机器学习专业期刊创刊[多选题]182.下列选项中可以设置数据精度的是()。--A)INTB)FLOATC)DOUBLED)DECIMAL[多选题]183.大数据人才整体上需要具备()等核心知识。A)数学与统计知识B)计算机相关知识C)马克思主义哲学知识D)市场运营管理知识[多选题]184.按照应用类型，Flink窗口可以划分为以下哪几种?A)事件窗口B)容量窗口C)滚动窗口D)时间窗口[多选题]185.以下关于Kafkalogs中segmentfile的说法正确的是?A)通过索引信息可以快速定位messageB)稀疏存储,即将原来的完整数据,只间隔的选择多条进行存储C)是index元数据全部映射到memory,可以避免segmentfile的index数据IO磁盘操作D)索引文件稀疏存储,可以大幅度降低index文件元数据占用空间大小[多选题]186.下列属于CNN关键层的是()A)输入层B)卷积层C)激活层D)池化层[多选题]187.下列关于支持向量机的说法正确的是（__)。A)支持向量机的学习策略是间隔最大化B)支持向量机的基本模型是特征空间上间隔最大的线性分类器C)支持向量机只能对线性可分的样本进行分类D)传统支持向量机只能求解二分类问题[多选题]188.以下（）属于数据模型。--A)层次模型B)网状模型C)关系模型D)以上答案都不正确[多选题]189.从Hadoop实现角度看，HadoopMapReduce1.0主要由()组成。A)编程模型B)数据处理引擎C)运行时环境D)算法库[多选题]190.JupyterNotebook支持以下哪些语言A)CB)RC)PythonD)Java[多选题]191.下列关于脏数据的说法中,正确的是()A)格式不规范B)编码不统一C)意义不明确D)与实际业务关系不大[多选题]192.华为FusionInsightHD行业成功案例都有哪些?A)数字政府B)智慧园区C)智慧交通D)金融[多选题]193.HBase读写用户表数据时需要下列哪些角色参与?A)RegionServerB)HMasterC)ZooKeeperD)Region[多选题]194.下列关于嵌入式选择描述错误的是（__)。A)嵌入式选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成B)从最终学习器性能来看，嵌入式特征选择比过滤式特征选择更好C)嵌入式特征选择的计算开销通常比过滤式特征选择大得多D)嵌入式特征选择方法直接针对给定学习器进行优化[多选题]195.（）都属于分裂的层次聚类算法A)二分K均值B)MSTC)ChameleonD)组平均[多选题]196.Hive执行查询的时候会调用哪些模块?A)executorB)complierC)optimizerD)MetaStore[多选题]197.HBase的数据文件HFile中一个KeyValue格式包括哪些信息A)KeyB)ValueC)TimeStampD)KeyType[多选题]198.主要面向或关注"过去"的数据分析过程为()。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析[多选题]199.数据故事化应遵循的基本原则有（）A)体验式讲述原则B)个性化定制原则C)3C精神原则D)有效性利用原则[多选题]200.HBase的可视化Web界面可以查询到（）。A)表的信息B)Region信息C)Region起始RowKeyD)以上全不正确[多选题]201.下面属于探索性分析主要关注的四大主题的有(__)。A)耐抗性B)方差C)重新表达D)启示[多选题]202.下列关于现阶段大数据技术体系的说法正确的有（）。A)基础设施提供数据计算、数据存储、数据加工（DataWrangling或DataMunging）等服务B)数据流处理、统计工具、日志分析都属于常用的开源工具C)数据资源代表的是生成数据的机构D)数据源与App为数据科学和大数据产业生态系统提供数据内容[多选题]203.关于OLAP和OLTP的区别描述,正确的是:()A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的[多选题]204.可视分析学是一门以可视交互为基础，综合运用()等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的的分析推理学科。A)物理学B)图形学C)数据挖掘D)人机交互[多选题]205.下面哪些是Spark的组件()。A)SparkStreamingB)MLibC)GraphXD)SparkR[多选题]206.联机分析处理包括以下哪些基本分析功能？()A)聚类B)切片C)转轴D)切块E)分类第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.已知x为非空字符串，那么表达式','A)正确B)错误[判断题]208.语句x=(3,)执行后x的值为3。A)正确B)错误[判断题]209.以读写方式打开一个文件，若文件已存在，文件内容会被清空。（）A)正确B)错误[判断题]210.Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。()A)正确B)错误[判断题]211.词云图无法区分数值高低()A)正确B)错误[判断题]212.使用random模块的函数randint(1,100)获取随机数时，有可能会得到100。A)正确B)错误[判断题]213.删除当前正在打开的用户时,该用户的会话会自动关闭。--A)正确B)错误[判断题]214.两个变量相关，它们的相关系数r可能为0A)正确B)错误[判断题]215.NameNode本地磁盘保存了Block的位置信息。（）A)正确B)错误[判断题]216.分类是有监督的学习问题。A)正确B)错误[判断题]217.离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处速对处理时间要求不高。A)正确B)错误[判断题]218.主机报表系统是为了减轻综合业务系统压力，提升核心系统运行效率，主要报表系统从核心系统剥离80多张统计报表，通过主机报表系统进行展现，系统分固定报表和实时查询报表，支持灵活多样的实时打印和导出EXCEL功能A)正确B)错误[判断题]219.?云文件落地?工作流节点在落地文件时允许用户设置落地文件的文件格式、压缩类型、保存模式等参数。()A)正确B)错误[判断题]220.幵放数据处理服务（MaxCompute),适用于离线数据的处理、分析或挖堀，它同时提供存储和计算两种能力，支持SQL和编程（MapReduce框架）等多种使用方式。A)正确B)错误[判断题]221.元组可以作为字典的?键?。A)正确B)错误[判断题]222.在Spark中，累加器可以实现高速并行的计数器和变量求和；在Spark的应用程序开发过程中，只有在Driver上获取此计数器的值。A)正确B)错误[判断题]223.变量在程序的任意位置都可以被访问。（）A)正确B)错误[判断题]224.s=pdA)正确B)错误[判断题]225.正则表达式'^\d{18}|\d{15}$'只能检查给定字符串是否为18位或15位数字字符，并不能保证一定是合法的身份证号。A)正确B)错误[判断题]226.数据中台汇聚数据类型包括结构化、非结构化、采集量测。A)正确B)错误[判断题]227.在异常处理结构中，不论是否发生异常，finally子句中的代码总是会执行的。A)正确B)错误[判断题]228.假如现在有个神经网络，激活函数是ReLU，若使用线性激活函数代替ReLU，该神经网络能表征XNOR函数A)正确B)错误[判断题]229.Kafka中的Broker在收到新消息后会立即存入磁盘。A)正确B)错误[判断题]230.物联网的处理技术应用于农业上，可以对动物疾病、植物病虫害，通过传感器进行远程诊断。A)正确B)错误[判断题]231.城市的智能交通管理可以结合交通实时数据，预测未来一段时间内道路可能出现的交通状况，这体现了效率而非精准的大数据思维A)正确B)错误[判断题]232.在IDLE交互模式下，一个下划线?_?表示解释器中最后一次显示的内容或最后一次语句正确执行的输出结果A)正确B)错误[判断题]233.互联网金融是传统行业与互联网相结合的新兴领域,其区别仅在于金融业务所采用的媒介不同。A)正确B)错误[判断题]234.与传统产业相比，互联网产业创业成本较低A)正确B)错误[判断题]235.HBase中如果只需要保存最新版本的数据，可以设置最大版本数为1。A)正确B)错误[判断题]236.本福特定律放在所有数据集上都有效A)正确B)错误[判断题]237.Python列表、元组、字符串都属于有序序列。A)正确B)错误[判断题]238.数据产品不仅包括数据科学项目的最终产品，而且也包括其中间产品以及副产品。()A)正确B)错误[判断题]239.为解决通过DB数据记录采集适配器采集元数据，通过DB数据采集配置将DB记录中记录与元模型进行映射。A)正确B)错误[判断题]240.代码print(reA)正确B)错误[判断题]241.Python集合可以包含相同的元素。A)正确B)错误[判断题]242.表达式3or5的值为3。A)正确B)错误[判断题]243.Oracle是非关系型数据库的一种。()A)正确B)错误[判断题]244.已知A和B是两个集合，并且表达式A<B的值为False，那么表达式A>B的值一定为True。A)正确B)错误[判断题]245.数据分析针对海量数据可以采取随机算法、分布式计算来解决。A)正确B)错误[判断题]246.运营商在智慧交通涉及到的数据源主要有信令数据、基站工参等。A)正确B)错误[判断题]247.使用print()函数无法将信息写入文件。A)正确B)错误[判断题]248.在循环语句中，continue语句的作用是提前进入下一次循环。A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.利用python语言编写程序，实现整数求和。输入整数n，计算1~n之和[问答题]250.HBase中Scan查询结果的多行数据保存在（）对象中，每行数据以Result对象形式存储。[问答题]251.文件系统对象FileSystem提供的方法()用于从HDFS复制文件到本地磁盘。[问答题]252.HBase建表时预先设置多个Region，数据会按照（）对应Region分区情况，在集群内做数据的负载均衡。[问答题]253.表达式{40,50,60}|{40,60,70}的值为____。[问答题]254.?jps?命令的用处？[问答题]255.Kafka所有消息都会被持久化到硬盘中,同时Kafka通过对TopicPartition设置Replication来保障数据可靠A)TRUEB)FALSE[问答题]256.下图展示了文件A,B,C的存放位置。其中文件A和D具有关联性,它们的存储位置符合Colocation同分布策略A)TRUEB)FALSE[问答题]257.Pandas常用的数据结构有【】和【】。[问答题]258.已知列表data=[1,2,3,4]，那么data[2:100]的值为____。[问答题]259.Topology的处理逻辑都在Bolt中A)TRUEB)FALSE[单选题]260.线性判别分析在二分类问题上也称为()。A)线性回归B)对数几率回归C)Fisher判别分析D)主成分分析1.答案:C解析:2.答案:D解析:3.答案:B解析:4.答案:D解析:5.答案:A解析:6.答案:C解析:7.答案:D解析:8.答案:A解析:9.答案:C解析:10.答案:A解析:11.答案:B解析:12.答案:D解析:13.答案:D解析:14.答案:B解析:15.答案:B解析:16.答案:A解析:17.答案:C解析:18.答案:C解析:19.答案:C解析:Json内的取值可以有多种格式，PDF文件在不同平台上打开显示相同，Excel存储数据的量在Excel2007及以后版本，一个工作表最多可有1048576行、16384列。20.答案:B解析:21.答案:B解析:22.答案:D解析:23.答案:B解析:24.答案:A解析:25.答案:B解析:26.答案:D解析:27.答案:A解析:28.答案:D解析:29.答案:D解析:30.答案:B解析:31.答案:B解析:32.答案:B解析:33.答案:D解析:34.答案:A解析:35.答案:C解析:36.答案:B解析:37.答案:C解析:38.答案:B解析:其他三项是公有的。layoutVersion是一个负整数，保存了HDFS的持续化在硬盘上的数据结构的格式版本号；namespaceID是文件系统的唯一标识符，是在文件系统初次格式化时生成的；storageType表示此文件夹中保存的是数据节点的类型39.答案:D解析:40.答案:A解析:41.答案:C解析:42.答案:A解析:43.答案:C解析:44.答案:A解析:45.答案:C解析:np.split（）的作用是把一个数组从左到右按顺序切分。46.答案:C解析:47.答案:D解析:48.答案:D解析:记住即可49.答案:B解析:50.答案:A解析:降维过程中尽量保留原始数据的信息,但不能保留原始数据的全部信息。51.答案:B解析:52.答案:B解析:53.答案:D解析:54.答案:B解析:55.答案:D解析:56.答案:A解析:57.答案:B解析:58.答案:B解析:59.答案:B解析:60.答案:C解析:61.答案:D解析:Apdori算法是一种最有影响的挖掘关联规则频繁项目集的算法。62.答案:A解析:63.答案:C解析:64.答案:C解析:65.答案:C解析:数据分组不可以使用mean函数,mean函数为求平均数函数。66.答案:C解析:67.答案:A解析:（32+0-5）/1+1=28。68.答案:D解析:69.答案:D解析:70.答案:C解析:71.答案:B解析:在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次合并操作，以确保最终只会生成一个数据文件72.答案:B解析:A.MartinFowler【敏捷开发方法论-软件开发教父】B.Dougcutting【Hadoop作者，道格·卡廷】C.KentBeck【极限编程，测试驱动开发，实现模式】D.GraceHopper【Cobol语言之母，发明世界上第一个编译器】73.答案:C解析:二项分布即重复n次的伯努利试验。如果事件发生的概率是p,则不发生的概率q=1-p.则期望为np,方差为npq。74.答案:B解析:75.答案:A解析:该列表推导式意为在0～4中偶数不变，奇数乘10，因此A正确。76.答案:A解析:77.答案:D解析:78.答案:C解析:类别不均衡的情况下,不能用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,此时分类器一点用都没有。79.答案:A解析:80.答案:C解析:81.答案:D解析:82.答案:A解析:83.答案:B解析:84.答案:D解析:85.答案:D解析:86.答案:A解析:left是文本转换器，从字符串的左边截取特定长度的字串；datelnc是时期型转换器，对系统时间增加/减少特定单位。87.答案:C解析:88.答案:D解析:89.答案:C解析:90.答案:A解析:91.答案:D解析:92.答案:C解析:93.答案:B解析:94.答案:D解析:95.答案:A解析:96.答案:D解析:97.答案:A解析:98.答案:C解析:99.答案:C解析:100.答案:A解析:数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施,其目的是保障数据的可用性、可信性和可控性,降低数据的失用、失信和失控的风险。刻画数据连续性的特点描述如下:①可关联性是在空间维度上刻画数据连续性,代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提,代表了数据是否具备支持开放关联和跨域存取的能力,进而避免数据资源的碎片化。因此,研究数据可关联性的意义在于降低数据的"失用"风险。②可溯源性是在时间维度上刻画数据连续性,代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重要前提,代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此,研究数据可溯源性的意义在于降低数据的"失信"风险。③可理解性是在内容维度上刻画数据连续性,代表的是数据与其产生、管理和维护的主体(包括人与计算机)之间的连续性。它是降低数据的可控性的重要前提,代表了数据是否具备自描述和自包含信息。因此,研究数据可理解性的意义在于降低数据的"失控"风险。101.答案:B解析:K-Means算法是基于距离测量的,无法聚非凸形状的样本。102.答案:D解析:103.答案:D解析:104.答案:B解析:105.答案:A解析:106.答案:A解析:107.答案:C解析:108.答案:C解析:109.答案:D解析:110.答案:C解析:Mayer-SchönbergerV和CukierK.在其著名论著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大数据时代统计的思维变革:①不是随机样本,而是全体数据;大数据时代应遵循"样本=总体"的理念,需要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。②不是精确性,而是混杂性;大数据时代应承认数据的复杂性,数据分析目的不应追求精确性,数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。③不是因果关系,而是相关关系:大数据时代的思想方式应转变--不再探求难以捉摸的因果关系,转而关注事物的相关关系。111.答案:B解析:112.答案:D解析:113.答案:C解析:114.答案:A解析:115.答案:C解析:116.答案:C解析:117.答案:A解析:118

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷9)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷9)

文档简介

温馨提示

最新文档

评论

相关文档