大数据开发基础(习题卷17)_第1页
大数据开发基础(习题卷17)_第2页
大数据开发基础(习题卷17)_第3页
大数据开发基础(习题卷17)_第4页
大数据开发基础(习题卷17)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷17)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列不属于大数据4V特性的是().A)大量B)多样C)高速D)快捷答案:D解析:[单选题]2.一个HDFS集群是由一个名字节点和多个()组成。A)索引节点B)根节点C)名字节点D)数据节点答案:D解析:[单选题]3.在高阶数据处理中,往往无法把整个流程写在单个MapReduce作业中,下列关于链接MapReduce作业的说法,不正确的是A)Job和JobControl类可以管理非线性作业之间的依赖B)ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C)使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象D)ChainReducer.addMapper()方法中,一般对键/值对发送设置成值传递,性能好且安全性高答案:D解析:ChainReducer.addMapper()方法中,值传递安全性高,引用传递性能高[单选题]4.下列算法中,不属于外推法的是()。A)移动平均法B)回归分析法C)指数平滑法D)季节指数法答案:B解析:外推法(Extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称,回归分析法不属于外推法。[单选题]5.存储过程的调用有几种方式(A)3B)1C)4D)2答案:B解析:[单选题]6.Relief是为()问题设计的。A)二分类B)多分类C)回归D)降维答案:A解析:[单选题]7.下列不属于Action操作的是()。A)collectB)filterC)reduceD)count答案:B解析:Action常用的函数为reduce、collect、count、take、first、foreach等。[单选题]8.计算机初始状态能识别(__)上的基本信息。A)像素点B)每个物体C)背景D)前景答案:A解析:[单选题]9.王先生近期收到了一封电子邮件,发件人显示是某同事,但该邮件十分可疑,没有任何与工作相关内容,邮件中带有一个陌生的网站链接,要求他访问并使用真实姓名注册,这可能属于哪种攻击手段?()A)DDOS攻击B)钓鱼攻击C)水坑攻击D)缓冲区溢出攻击答案:B解析:[单选题]10.HDFS默认备份数量?()A)0B)1C)2D)3答案:D解析:[单选题]11.启动HDFS上的垃圾回收机制只需要配置两个参数:一个是erval,另外一个是erval,若是erval的值设置为0,则表示()A)表示垃圾检查点之间的分钟数为0分钟B)表示和erval的值相等C)表示自动开启垃圾回收功能D)表示禁用垃圾回收功能答案:D解析:[单选题]12.Sqoop是一种用于在Hadoop和()之间传输数据的工具。A)HiveB)OracleC)关系型数据库D)MySQL答案:C解析:[单选题]13.下列关于热力点图的说法中,错误的是()A)热力点图是指根据数据的结果、以不同热力色展示出数据大小的图表B)在热力点图中,颜色越热烈往往意味着数值越大C)我们可以设置热力点图中的点的大小,使其反应出原始数据中其他指标的状况D)热力点图中无法设置标签属性答案:D解析:[单选题]14.下面关于参数估计相关描述不正确的有(__)。A)参数估计是根据样本的统计量来估计总体的参数B)相关分析是参数估计C)点估计是参数估计D)利用样本均值估计总体均值是参数估计答案:B解析:[单选题]15.以下()不是NoSQL数据库。A)MongoDBB)BigTableC)HBaseD)Access答案:D解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的NoSOL产品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。[单选题]16.Metastore是Hive的()的集中存放地,它保存了Hive的元数据信息A)元数据B)配置信息C)登录信息D)权限设置答案:A解析:[单选题]17.()不是HDFS的设计目标。A)流式数据访问B)大规模数据集C)移动计算D)"多次写入,多次读取"的文件访问模型答案:D解析:HDFS的设计以"一次写入,多次读取"为主要应用场景,因此D错。[单选题]18.下列选项中,哪个方法可以一次性输出多个统计指标()。A)describe()B)mean()C)median()D)sum()答案:A解析:[单选题]19.以下说法正确的是:A)一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的B)如果增加模型复杂度,那么模型的测试错误率总是会降低C)不可以使用聚类?类别id?作为一个新的特征项,用监督学习进行学习D)ABC全错答案:D解析:[单选题]20.聚类算法属于(__)。A)半监督学习B)有监督学习C)无监督学习D)一种分类方法答案:C解析:[单选题]21.下列关于函数的参数的描述错误的是()。A)可选参数可以定义在非可选参数的前面B)一个元组可以传递给带有星号的可变参数C)在定义函数时,可以设计可变数量参数,通过在参数前增加星号(*)实现D)在定义函数时,如果有些参数存在默认值,可以在定义函数时直接为这些参数指定默认值答案:A解析:可选参数需放在最后。[单选题]22.HDFS每个文件被划分成()大小的多个block,属于同一个文件的blocks分散存储在不同DataNode上。A)32MBB)64MBC)128MBD)无法确定答案:B解析:[单选题]23.在HDFS根目录下创建一个文件夹/example,且/example文件夹内还包含一个文件夹dir,正确的shell命令是()。A)hadoopfs-mkdir-p/example/dirB)hdfsfs-mkdir-p/example/dirC)hadoopdfs-mkdir/example/dirD)hdfsdfs*mkdir-p/example/dir答案:A解析:[单选题]24.若b=np.array([1,2,3,4]),则b.shape的输出结果为(__)。A)4B)[4,]C)(4,1)D)(4,)答案:D解析:[单选题]25.假设有命令importnumpyasnpArray1=np.linspace(1,5,3,dtype=int)print(Array1)则,执行结果是A)[135]B)[125]C)[1.3.5.]D)[1.2.5.]答案:A解析:[单选题]26.HBase依赖()提供强大的计算能力。A)ZookeeperB)ChubbyC)RPCD)MapReduce答案:D解析:[单选题]27.按照KB、MB、GB、TB、PB的有小到大顺序,下列换算错误的是A)1KB=1024ByteB)1MB=1024KBC)1TB=1024MBD)1PB=1024TB答案:C解析:[单选题]28.关于数据清洗,不正确的说法是()A)单数据源,主键取值不能重复B)多数据源会存在数据重复,单位不一致的问题C)连续型数据不存在冗余问题D)缺失值可以采用删除和填补等方法处理答案:C解析:[单选题]29.在MapReduce程序中,map()函数接收的数据格式是()A)字符串B)整型C)LongD)键值对答案:D解析:[单选题]30.在Kafka集群中,Kafka服务端的角色是下列哪-项?A)ProducerB)ZooKeeperC)ConsumerD)Broker答案:D解析:[单选题]31.Sigmoid函数作为神经元激活函数的特点是()A)连续但不光滑B)不连续但尤滑C)连续且光滑D)不连续且不光滑答案:C解析:[单选题]32.假设有n组数据集,每组数据集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。A)一样B)不一样C)无法确定是否一样D)以上都不对答案:C解析:只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombe'squartet。[单选题]33.UNIQUE惟一索引的作用是()A)保证各行在该索引上的值都不得重复B)保证各行在该索引上的值不得为NULLC)保证参加惟一索引的各列,不得再参加其他的索引D)保证惟一索引不能被删除答案:A解析:[单选题]34.大数据产业指什么?A)一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合B)提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业C)提供数据分享平台、数据分析平台、数据租售平台等服务的企业D)提供分布式计算、数据挖掘、统计分析等服务的各类企业答案:A解析:[单选题]35.以下哪些选项不属于大数据时代到来的必要条件?A)存储设备容量提升B)CPU计算性能提升C)超级计算机的出现D)网络带宽提升答案:C解析:[单选题]36.python中while的中止的关键字是()。A)continueB)brokenC)breakD)plug答案:C解析:break是while的中止的关键字。[单选题]37.np.vsplit()函数的作用是(__)。A)沿着它的水平轴分割B)沿着纵向的轴分割C)允许指定沿哪个轴分割D)按深度方向分割答案:B解析:[单选题]38.字符串?Hi,Andy?中(该字符串中没有空格),字符?A?对应的索引为()。A)1B)2C)3D)4答案:C解析:[单选题]39.()是HBase提供的工具类,通过简单的设置帮我们将mapreduce程序提交到HBase任务中。工具类中封装了许多mapreduce写入到HBase的操作,无需我们再去设置。我们可以通过initTableMapperJob()和initTableReducerJob()来方法来执行Mapper类和Reducer类。A)AdminMapReduceUtilB)MapReduceUtilC)HBaseMapReduceUtilD)TableMapReduceUtil答案:D解析:[单选题]40.DRDS实例名称不能以()开头。A)小写字母B)中文C)大写字母D)下划线答案:B解析:[单选题]41.下面不属于脏数据的是(__)。A)有缺失值B)冗余数据C)噪声数据D)无序数据答案:D解析:[单选题]42.定义域为{飞机,火车,轮船}的离散属性也可称为称为(__)。A)无序属性B)有序属性C)连续属性D)离散属性答案:A解析:[单选题]43.下列关于深度神经网络的说法正确的是()。A)增加神经网络层数,可能会增加测试数据集的分类错误率B)减少神经网络层数,总是能减小测试数据集的分类错误率C)增加神经网络层数,总是能减小训练数据集的分类错误率D)A、B都对答案:A解析:深度神经网络的成功已经证明,增加神经网络层数,可以增加模型范化能力,即训练数据集和测试数据集都表现得更好,但更多的层数也不一定能保证有更好的表现。[单选题]44.在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作?A)执行HiveDDL操作。B)运行MapReduce任务C)运行HiveHQL任务D)以上全都正确答案:D解析:[单选题]45.如果我们现有一个安装2.6.5版本的Hadoop集群,在不修改默认配置的情况下存储200个200M的文本文件,请问最终会在集群中产生()个数据块(包括副本)。A)200B)40000C)400D)1200答案:D解析:在默认情况下,HDFS集群默认存储文件3份,并且大文件会按照128M的数据块大小(Hadoop2.×版本以前的默认数据块的大小是64M,到了Hadoop2.×版本以后,默认的数据块大小就变成了128M)进行切割分散存储。所以题目中的总数据块有200×2=400个,再加上会存储三份,共有400×3=1200个。[单选题]46.NumericToString是文本函数的一种,它的功能是()。A)把一个字符串转换为数值B)把二进制转换为字符串C)把一个CSN序列转换成字符串D)把一个数值数据转换为字符串答案:D解析:[单选题]47.统计每个部门中人数可以使用的SQL语句是()A)SELECTSUM(ID)FROMEMPGROUPBYDEPTNO;B)SELECTSUM(ID)FROMEMPORDERBYDEPTNO;C)SELECTCOUNT(ID)FROMEMPORDERBYDEPTNO;D)SELECTCOUNT(ID)FROMEMPGROUPBYDEPTNO;答案:D解析:[单选题]48.核主成分分析是一种(__)方法。A)非线性降维B)线性降维C)分类D)回归答案:A解析:[单选题]49.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务()。A)频繁模式挖掘B)分类和预测C)数据预处理D)数据流挖掘答案:C解析:数据预处理是对原始数据进行集成、变换、维度规约、数值规约的过程。频繁模式挖掘、分类和预测和数据流挖掘均属于数据挖掘范畴。[单选题]50.下面哪个色彩空间最接近人的视觉系统的特点()。A)RGB空间B)CMY空间C)CMYK空间D)HSI空间答案:D解析:[单选题]51.数据被称为信息时代的?石油?,正在成为企业的核心资产。下列说法不正确的是()。A)企业应更加重视大数据技术应用推广B)企业需要培养和引进数据应用人才C)可以未经许可任意使用其它企业的数据D)核心数据必须通过加密备份等严密保护答案:C解析:[单选题]52.下列可分解为偏差、方差与噪声之和的是()。A)训练误差(trainingerror)B)经验误差(empiricalerror)C)均方误差(meansquarederror)D)泛化误差(generalizationerror)答案:D解析:泛化误差可分解为偏差、方差与噪声之和。[单选题]53.下面程序中最后X_train_minmax值为多少()>>>X_train=np.array([[1.,-1.,2.],...[2.,0.,0.],...[0.,1.,-1.]])...>>>min_max_scaler=preprocessing.MinMaxScaler()>>>X_train_minmax=min_max_scaler.fit_transform(X_train)A)array([[0.,0.,1.],[1.,0.5,0.33333333],[0.5,1.,0.]])B)array([[0.5,0.,0.],[1.,0.5,0.33333333],[0.,1.,1.]])C)array([[0.5,0.,1.],[1.,0.5,0.33333333],[0.,1.,0.]])D)array([[0.5,0.,1.],[1.,0.5,0.],[0.,1.,0.]])答案:C解析:[单选题]54.神经网络感知机只有()神经元进行激活函数处理,即只拥有一层功能神经元A)输出层B)输入层C)感知层D)网络层答案:A解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.StructuredStreaming包括哪两种处理模型:()A)微批处理B)高阶处理C)分层处理D)持续处理答案:AD解析:[多选题]56.下列对Shuffle过程的期望描述正确的是()。A)尽可能的将所有数据打乱B)将Map的输出数据完整地传输到Reduce端C)在传输数据时,尽可能得减少不必要的带宽消耗D)降低磁盘I/O的影响答案:BCD解析:[多选题]57.执行HBase读数据业务,需要读取那几部分数据?A)HFileB)HLogC)MemStoreD)HDFS答案:AC解析:[多选题]58.针对学习器的泛化误差问题,主要的评估方法有()。A)留出法B)交叉验证法C)自助法D)测试误差法答案:ABC解析:[多选题]59.华为FusionInsightHD行业成功案例都有哪些?A)数字政府B)智慧园区C)智慧交通D)金融答案:ABCD解析:[多选题]60.以下哪些数据可以转化为Dataset或DataFrame?A)JAVAStringB)JPGC)JSOND)MySqlTable答案:CD解析:[多选题]61.以下提法中正确的是()。A)数据学科中的?数据?并不仅仅是?数值?,也不等同于?数值?;B)数据科学中的?计算?并不仅仅是加、减、乘、除等?数学计算?,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型;C)数据科学关注的是?单一学科?的问题;D)数据科学强调的是?理论研究?,一般不涉及?领域实务知识?;答案:AB解析:[多选题]62.根据泛在电力物联网2019年建设方案,数据中台分为()A)控制层B)分析层C)共享层D)贴源层答案:BCD解析:[多选题]63.下列关于Python语言的特点的描述不正确的有()。A)Python语言不支持面向对象B)Python语言是解释型语言C)Python语言是编译型语言D)Python语言是非跨平台语言答案:ACD解析:Python语言是面向对象的解释型语言,可跨平台使用。[多选题]64.大数据计算服务图计算框架在计算过程中通过对图进行编辑、演化最终求解出结果,在计算过程中用户可以对图进行()编辑操作。A)增加点B)修改边的权值C)增加边D)删除点答案:ABCD解析:[多选题]65.下列对RDBMS描述正确是()。A)RDBMS可以保持数据的一致性B)RDBMS可以实现高并发的读写需求C)对于数据量巨大的网站,RDBMS可以实现高效的查询需求D)RDBMS以标准化为前提,数据更新的开销很小答案:AD解析:[多选题]66.开发Hive应用时,不可避免地需要设定Hive的参数。对于一般参数,我们可以使用以下哪几种方式来进行设定?()A)配置文件hive-site.xml(全局有效)B)命令行参数:使用hive命令启动Hive时,可以在命令行添加-hiveconfA.property=value来设定参数,这一设定仅对本次启动的session有效。C)参数声明:使用hiveServer2/beeline启动Hive时,可以在命令行添加--hiveconfproperty=value来设定参数。D)参数声明:可以在Hive的客户端中使用--hiveconf关键字设定参数。答案:AB解析:[多选题]67.下列选项中可以设置数据精度的是()。--A)INTB)FLOATC)DOUBLED)DECIMAL答案:BCD解析:[多选题]68.HBase的可视化Web界面可以查询到()。A)表的信息B)Region信息C)Region起始RowKeyD)以上全不正确答案:ABC解析:[多选题]69.数据源和APPs提供的数据内容包括(__)和物联网,金融,人/实体,位置智能等数据。A)健康B)经济C)空气D)海洋答案:ABCD解析:[多选题]70.下面关于Flink的描述正确的是:()A)Flink和Spark一样,都是基于磁盘的计算框架B)当全部运行在HadoopC)Flink的流计算性能和Storm差不多,可以支持毫秒级的响应D)Spark的市场影响力和社区活跃度明显超过Flink答案:BCD解析:[多选题]71.下面属于数据分析基本类型的是(__)。A)描述性分析B)预测性分析C)总结性分析D)规范性分析答案:ABD解析:[多选题]72.关系型数据库计费项包括哪些()A)实例规格B)数据备份空间C)存储空间D)公网带宽答案:ABCD解析:[多选题]73.Maxcompute中,当一个大表和多个小表做连接时,可以考虑使用mapjoin,以下关于mapjoin的限制,说法正确的是:()。A)leftouterjoin的左表必须是大表,innerjoin左表或者右表都可以为大表B)fullouterjoin不能使用mapjoinC)最多支持8张小表D)所有小表占用内存综合不能超过256M答案:AB解析:[多选题]74.以下关于MaxComputeMR的输入和输出,描述正确的是:()。A)MR的输入输出支持MaxCompute内置类型以及用户自定义类型B)可以支持多表输入。且输入表的Schema可以不同C)可以支持视图(View)作为输入D)Reduce支持多路输出,可以输出到不同的表或同一张表的不同分区答案:BD解析:[多选题]75.Spark支持的分布式部署方式中哪个是正确的()A)standaloneB)sparkonmesosC)sparkonYARND)sparkonlocal答案:ABC解析:[多选题]76.计算机系统中的数据组织形式主要有两种别是:()A)文件B)视频C)音频D)数据库答案:AD解析:[多选题]77.以下描述中正确的是()。A)统计学是数据科学的理论基础之一B)Python语言是统计学家发明的语言C)机器学习是数据科学的理论基础之一D)数据科学是统计学的一个分支领域(子学科)答案:AC解析:Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.数据已成为公司的战略核心资产,各类数据在公司生产运行、经营管理、客户服务等领域发挥重要作用,同时,网站门户、在线业务应用和通信群组的内容安全已成为国家网络意识J彭态安全的重要组成部分。()A)正确B)错误答案:对解析:[判断题]79.当通过布尔数组索引操作数组时,返回的数据是布尔数组中False对应位置的值。()A)正确B)错误答案:错解析:[判断题]80.在MySQL5.7中分组后只有使用聚合函数才能获取非分组字段信息。--A)正确B)错误答案:对解析:[判断题]81.编写函数时,一般建议先对参数进行合法性检查,然后再编写正常的功能代码。A)正确B)错误答案:对解析:[判断题]82.训练CNN时,可以对输入进行旋转、平移、缩放(增强数据)等预处理提高模型泛化能力。这么说是对,还是不对?A)正确B)错误答案:对解析:[判断题]83.云计算这个概念继承自大数据的概念。A)正确B)错误答案:错解析:[判断题]84.栈和队列的都具有先入后出的特点。A)正确B)错误答案:错解析:[判断题]85.可以给项目空间外的主体授权。A)正确B)错误答案:错解析:[判断题]86.数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。()A)正确B)错误答案:对解析:[判断题]87.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。()A)正确B)错误答案:错解析:[判断题]88.Map阶段处理数据时,是按照Key的哈希值与ReduceTask数量取模进行分区的规则。()A)正确B)错误答案:对解析:[判断题]89.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论