大数据开发基础(习题卷8)

上传人：1*** IP属地：重庆上传时间：2024-02-25 格式：DOCX 页数：60 大小：153.78KB 积分：3.6 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.大数据环境下，为了从大量电子数据中挖掘有用的信息，一些数据分析工具被开发出来，主要有三类工具：批处理工具、流处理工具、交互式分析工具A)交互式分析工具B)嵌入式分析工具C)模拟仿真工具答案:A解析:[单选题]2.以下选项中,运算优先级别最低的是()。--A)算术运算符B)逻辑运算符C)赋值运算符D)位运算符答案:C解析:[单选题]3.np.swapaxes()函数返回的是数组的（__)。A)副本B)视图C)子集D)切片答案:B解析:[单选题]4.ADS的表进行实时插入、更新时，遵循（）设计。A)强一致性B)最终一致性C)会话一致性D)因果一致性答案:B解析:[单选题]5.下列哪个不属于k-means算法的终止条件（）A)没有（或最小数目）对象被重新分配给不同的聚类B)没有聚类中心再发生变化C)误差平方和局部最小D)聚类中心聚集在一点答案:D解析:[单选题]6.Hadoop框架中最核心的设计是什么？A)为海量数据提供存储的HDFS和对数据进行计算的MapReduceB)提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务C)Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中D)Hadoop被视为事实上的大数据处理标准答案:A解析:[单选题]7.使用类间最大距离法进行图像分割时，下列步骤正确的是①计算相对距离度量值。②给定一个初始阈值，将图像分成目标和背景两类。③分别计算出两类的灰度均值。④选择最佳的阈值，使得图像按照该阈值分成两类后，相对距离度量值达到最大。A)①②③④B)②①③④C)②③①④D)①③②④答案:C解析:[单选题]8.（）是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分析答案:B解析:[单选题]9.HBase在新建表的时候必须指定表名和()，不需要指定列，所有的列在后续添加数据的时候动态添加。A)行B)单元格C)时间戳D)列族答案:D解析:[单选题]10.如果使用数据集的全部特征并且准确率能够达到100%，但在测试集上准确率仅能达到70%左右，这说明（）。A)欠拟合B)模型很棒C)过拟合D)以上答案都不正确答案:C解析:当学习器把训练样本学得太好了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为过拟合。[单选题]11.在制作图表时，为了实现在单个图表中的穿透，可以通过增加（）实现A)图层B)筛选器C)维度D)度量答案:A解析:[单选题]12.载入和保存matlab文件的方法在scipy的（__)模块中。A)scipy.clusterB)scipy.ioC)scipy.constantsD)scipy.linalg答案:B解析:[单选题]13.下面哪个不是Python合法的变量名A)int_1B)40XLC)self123D)Name答案:B解析:[单选题]14.大数据平台Hadoop的组件中，提供分布式协作服务的组件是()A)HBaseB)ZooKeeperC)SqoopD)Hive答案:B解析:[单选题]15.在hadoop配置中yarn-site.xml作用是()A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置JobHistoryServer和应用程序参数D)配置ResourceManager，NodeManager的通信端口答案:D解析:[单选题]16.运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分类模型学习训练数据中的规律，然后用训练好的模型对测试数据进行预测。以上描述属于哪种类型的词语级情感分析A)基于词典的分析方法B)基于网络的分析方法C)基于语料库的分析方法D)其他答案:C解析:[单选题]17.下列关于Numpy的简单介绍不正确的是（）。A)Numpy（NumericalPython）是Python语言的一个扩展程序库B)支持大量的维度数组与矩阵运算C)针对数组运算提供大量的数学函数库D)Numpy不开放源代码答案:D解析:Numpy是开源代码库。278[单选题]18.在Pandas中，使用其本身可以达成数据透视功能的函数是（）。A)groupby（）B)transform（）C)crosstab（）D)pivot_table（）答案:D解析:pivot_table（）用于创建数据透视表。[单选题]19.云计算包括3种类型。只为特定用户提供服务，比如大型企业出于安全考虑自建的云环境，只为企业内部提供服务，这种云计算属于：（）A)有云B)私有云C)混合云D)独立云答案:B解析:[单选题]20.NaveBayes(朴素贝叶斯)是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是（）A)各类别的先验概率P(C)是相等的B)以0为均值，sqr(2)/2为标准差的正态分布C)特征变量X的各个维度是类别条件独立随机变量D)P(X|C)是高斯分布答案:C解析:[单选题]21.下面不属于数据科学主要研究内容的有(__)。A)基础理论B)数据管理C)数据分析D)数据商务答案:D解析:[单选题]22.最小最大正规化也称为()A)非标准化B)标准化C)离差标准化D)以上说法都不对答案:C解析:[单选题]23.如果使用的学习率太大，会导致()A)网络无法收敛B)不确定C)网络收敛的快D)网络收敛的慢答案:A解析:[单选题]24.HDFS集群中的NameNode职责不包括()。A)维护HDFS集群的目录树结构B)维护HDFS集群的所有数据块的分布、副本数和负载均衡C)负责保存客户端上传的数据D)响应客户端的所有读写数据请求答案:C解析:NameNode是HDFS的管理节点,DataNode是HDFS集群的工作节点。所以用户上传的数据是由DataNode进行保存的;NameNode负责保存用户上传的数据的元数据和维护HDFS的抽象目录树结构,也会响应客户端的所有读写请求。[单选题]25.下列不属于数据转换器的一项是()A)文本B)算法C)条件判断D)数据转换答案:D解析:[单选题]26.下列哪─个选项不是StructuredStreaming支持的source数据源?A)SocketB)KafkaC)HDFSD)Hive答案:D解析:[单选题]27.线性判别分析(LDA)从贝叶斯决策理论阐释,当两类数据同先验且满足()时,LDA达到最优分类。A)高斯分布B)协方差相等C)高斯分布且协方差相等D)协方差不等答案:C解析:[单选题]28.为了解决如何模拟人类的感性思维，例如视觉理解、直觉思维、悟性等，研究者找到一个重要的信息处理的机制是（）。A)A专家系统B)人工神经网络C)模式识别D)智能代理答案:B解析:[单选题]29.下列关于sklearn说法错误的是（）。A)sklearn全称为scikit-learnB)sklearn在官网被分为7个大块C)sklearn的聚类算法几乎都已经放在cluster模块中了D)sklearn需要NumPy和SciPy库的支持答案:B解析:[单选题]30.请阅读下面一段程序：importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()执行上述程序后，最终输出的结果为（）。A)5132034425B)0325324451C)5144322503D)2544033251答案:B解析:[单选题]31.关于Hive建表基本操作，描述正确的是:（）。A)一旦表建好，不可再修改表名B)一旦表建好，不可再增加新列C)创建外表时需要指定external关键字D)一旦表建好，不可再修改列名答案:C解析:[单选题]32.按照国家法律法规和公司保密管理规定，制定数据资产脱敏策略，对涉及个人隐私及单位商密的数据进行（）后方可共享和开放。A)分类处理B)清洗处理C)脱敏处理D)切片处理答案:C解析:[单选题]33.修改数据库表结构用以下哪一项()A)UPDATEB)CREATEC)UPDATEDD)ALTER答案:D解析:[单选题]34.下列（）程序通常与NameNode在一个节点启动.A)SecondNameNodeB)DataNodeC)TaskTrackerD)JobTracker答案:D解析:[单选题]35.下列关于模块的说法不正确的是（）。A)Python模块（Module）是一个Python文件，以.py结尾，包含了Python对象定义和Python语句B)使用模块能够有逻辑地组织Python代码段C)把相关的代码分配到一个模块里能让代码更好用、更易懂D)模块不能定义类答案:D解析:模块中可以定义类。[单选题]36.BP神经网络经常遭遇()，其训练误差持续降低，但测试误差却可能上升A)欠拟合B)误差过大C)误差过小D)过拟合答案:D解析:[单选题]37.卷积神经网络（CNN）中Dropout层的作用是A)加快收敛速度B)防止过拟合C)丰富训练样本D)增强正样本答案:B解析:[单选题]38.给定词汇表如下：{"Bob","ok","like","football","car"}。则下面句子?Botlikesfootball"的词袋模型表示为:A)[11100]B)[10110]C)[10010]D)[01101]答案:B解析:[单选题]39.下列关于RBM的说法，错误的是()A)学习过程很快B)RBM训练可以看作对一个深层BP网络的网络权佳参数的初始化C)RBM不用人工选择特征D)RBM有标签样本集答案:A解析:[单选题]40.@app.route的作用是（）。A)程序代码的规范，没什么作用B)ﬂask装饰器，返回本地网络测试地址C)返回127005000D)以上答案都不正确答案:B解析:@app.route是ﬂask装饰器，调用后返回本地网络测试地址。[单选题]41.构建一个最简单的线性回归模型需要()系数(只有一个特征)。A)1个B)2个C)3个D)4个答案:B解析:[单选题]42.Flume中的JDBCChannel内置数据库是哪个?A)OracleB)MySqlC)DerbyD)SqlServer答案:C解析:[单选题]43.通过数据、（）和对数据的约束三者组成的数据模型来存放和管理数据A)关系B)数据行C)数据列D)数据表答案:A解析:[单选题]44.请选出程序的正确结果（）print("我叫%s今年%d岁!"%('小明',10))A)我叫%s小明今年%d10岁！B)我叫小明今年10岁！C)我叫10今年小明岁D)小明我叫10岁今年答案:B解析:[单选题]45.Hive将表中的数据保存到文本，并使用命令插入到employee表中的命令正确是（）A)loadlocalinpath'/opt/data/test.txt'overwriteintotableemployee;B)loaddatainpath'/opt/data/test.txt'overwriteintotableemployee;C)loaddatalocalinpath'/opt/data/test.txt'intotableemployee;D)loaddatalocalinpath'/opt/data/test.txt'overwriteintotableemployee;答案:D解析:[单选题]46.在回归分析中,说法正确的是()。A)解释变量和被解释变量都是随机变量B)解释变量为非随机变量,被解释变量为随机变量C)解释变量和被解释变量都为非随机变量D)解释变量为随机变量,被解释变量为非随机变量答案:B解析:在回归分析中,解释变量可以理解为自变量,具有确定性,因此为非随机变量;被解释变量可以理解为因变量,具有随机性,因此为随机变量。[单选题]47.ndarry对象的dtype属性表示（__)。A)数组中包含数据的类型B)该数组的类型C)数组的大小D)数组的元素个数答案:A解析:[单选题]48.下面关于数据科学中机器学习思路相关描述不正确的有(__)。A)测试集为输入B)机器学习算法来学习C)用函数比较算法估计目标函数D)现有或部分数据为训练集答案:A解析:[单选题]49.下列语句中不能创建一个字典的是（）。A)dict1={}B)dict2={3∶5}C)dict3={[1，2，3]∶"uestc"}D)dict4={（1，2，3）∶"uestc"}答案:C解析:字典key不可以是可变类型，C选项中列表为可变类型。246[单选题]50.下面不属于数据科学家的主要职责有(__)。A)制定?数据战略?B)研发?数据产品?C)模拟?数据学习?D)构建?数据生态系统?答案:C解析:[单选题]51.以下表示返回字符串长度的函数是()A)LongB)LeftC)LenD)Length答案:D解析:[单选题]52.np.swapaxes()函数的作用是（__)。A)数组转置B)删除数组C)修改数组存储位置D)对轴进行调整答案:D解析:[单选题]53.数据治理任务通常有三个部分不包含(__)。A)主动定义或序化规则B)接触数据的业务流程C)为数据利益相关者提供持续D)跨界的保护、服务和应对并解决因不遵守规则而产生的问题答案:B解析:[单选题]54.在Graphbash上，创建一个新的图，必须使用的参数是？A)graphNameB)lableC)edgeD)vertex答案:A解析:[单选题]55.（）是Spark的核心数据结构。A)弹性分布式数据集B)列表C)元组D)字典答案:A解析:弹性分布式数据集（RDD）是Spark的核心数据结构。[单选题]56.一个正常的spark任务会产生哪些调度任务?A)DAGB)RDDC)TaskD)Job答案:C解析:[单选题]57.HBase内部的.META.表包含所有用户()的列表。A)地址B)时间C)类别D)空间区域答案:D解析:[单选题]58.关于GaussDB200的发展史，下列说法错误的是（?A)GaussDB200已经在华为云发布了云化产品。B)GaussDB200专注国内业务，不涉及海外。C)GaussDB200从一开始就支持ARM架构的部署。D)GaussDB200前身叫GaussDB，是GaussDB的子项目。答案:B解析:[单选题]59.python中，（）可以求出字符串的长度A)maxB)minC)lenD)in答案:C解析:[单选题]60.C4.5决策树算法中采用()对连续属性进行离散化处理。A)二分法B)最小二乘法C)均值法D)投票法答案:A解析:[单选题]61.（）是实现数据战略的重要保障。A)数据管理B)数据分析C)数据治理D)数据规划答案:C解析:从DMM模型可以看出，数据治理是实现数据战略的重要保障。数据管理指通过管理数据实现组织机构的某种业务目的。然而，数据治理则指如何确保数据管理顺利、有效、科学地完成。[单选题]62.()算法可以用于特征选择A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:[单选题]63.下列关于Numpy叙述错误的是？A)是一个开源的Python科学计算库B)底层基于C++封装，运行速度快C)常用来处理数组D)支持矩阵，处理数学问题更加形象答案:B解析:[单选题]64.下列选项中，描述不正确的是（）。A)Pandas中只有Series和DataFrame这两种数据结构B)Series是一维的数据结构C)DataFrame是二维的数据结构D)Series和DataFrame都可以重置索引答案:A解析:[单选题]65.在回归模型中，()在权衡欠拟合(und町-直伽g)和过拟合(over-fi.tting)中影响最大A)多项式阶数B)咱更新权重w时，使用的是矩阵求逆C)使用常数项D)使用梯度下降法答案:A解析:[单选题]66.用Pyinstall工具把Python源文件打包成一个独立的可执行文件，使用的参数是：A)-DB)-LC)-iD)-F答案:D解析:[单选题]67.对分类任务来说，学习器从类别标记集合中预测出一个标记，最常见的结合策略是()A)投票法B)乎均法C)学习法D)排序法答案:A解析:[单选题]68.下列关于支持向量机优化性问题的形式,说法正确的是()。A)它是一个凸二次规划问题B)它是一个凸一次规划问题C)它是一个凹二次规划问题D)它是一个凹一次规划问题答案:A解析:支持向量机优化性问题的一个凸二次规划问题。[单选题]69.在MapReduce计算架构中，()组件运行在DataNode上，具体管理本节点计算任务的执行。A)ClientB)IobTrackerC)TaskTrackerD)Task答案:C解析:[单选题]70.关于Pandas中数据排序，下列说法正确的是（）A)即可以按照行索引排序，也可以按照列索引排序B)sort_index()方法表示按照值进行排序C)sort_values()方法表示按照索引进行排序D)默认情况下，sort_index()方法按照降序排列答案:A解析:[单选题]71.在文本分析中，我们使用哪一种技术手段挖掘文本中隐含的语义信息（）A)TF-IDFB)主题分析C)情感分析D)以上都不对答案:B解析:[单选题]72.print方法默认以（）结束A)\dB)\sC)\tD)\n答案:D解析:[单选题]73.由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用（）处理A)串行B)并行C)逻辑D)科学答案:B解析:[单选题]74.以下哪一种方法最适合在n（n>1）维空间中做异常点检测。A)正态分布图B)盒图C)马氏距离D)散点图答案:C解析:[单选题]75.概率模型的训练过程就是()过程。A)分类B)聚类C)参数估计D)参数选择答案:C解析:[单选题]76.数据应用按照?谁经手，谁使用，谁负责?的原则，规范使用过程，切实防范()风险。A)数据录入不及时B)业务数据失泄C)数据变更记录缺失D)业务数据不一致答案:B解析:[单选题]77.type(1e6)的结果为()。A)class'int'B)class'float'C)class'complex'D)class'bool'答案:B解析:[单选题]78.()函数的功能是使用训练完成的模型给出输入数据的预测值。A)CsvAssembleB)TokenizationC)NumAssembleD)Predict答案:D解析:[单选题]79.在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。FusionInsight中,针对小文件的场景通常采用答案:算子,来对Table中的小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提升性能?A)groupbyB)coalosceC)connectD)join答案:D解析:[单选题]80.在设计词频统计的MapReduce程序时，对于文本行?hellobigdatahellohadoop?，经过map函数处理后直接输出的结果应该是（没有发生combine和merge操作）：（）。A)<"hello",1,1>、<"bigdata",1>和<"hadoop",1>B)<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>C)<"hello",2>、<"bigdata",1>和<"hadoop",1>D)<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>答案:D解析:[单选题]81.fusioninsightmanager对于管理操作,下列错误的是?A)可对服务进行启停重启B)可以添加和卸载服务C)可设置不常用服务隐藏或显示D)可查看服务的当前状态答案:C解析:[单选题]82.()用于将关系型数据库或者其他结构化的数据导入到Hadoop的生态系统中。A)OozieB)FlumeC)SqoopD)Hue答案:C解析:[单选题]83.以下情况除哪项发生时balancer便会自动退出（）A)集群平衡或者没有数据块可以移动B)在连续三次迭代中没有块移动C)与namenode传输时发生异常D)另一个balancer在运行答案:A解析:应该是HDFS集群达到了平衡或者没有数据可以移动[单选题]84.数据仓库是随着时间变化的,下面的描述不正确的是()。A)数据仓库随时间的变化不断增加新的数据内容B)捕捉到的新数据会覆盖原来的快照C)数据仓库随事件变化不断删去旧的数据内容D)数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合答案:C解析:一旦某个数据进入数据合库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。[单选题]85.Relief是为()问题设计的。A)二分类B)多分类C)回归D)降维答案:A解析:[单选题]86.以数据为中心的思考解决问题的方式优势逐渐得到体现的原因不包括（）A)各个领域的数据不断扩展B)各个领域的数据交叉编制成网C)数据之间的关联性大大增强D)人是数据的中心答案:D解析:[单选题]87.下列关于数据存储系统叙述不正确的一项为（）。A)数据采集层B)数据清洗、抽取与建模C)数据仓库与数据服务D)无统一数据接口答案:D解析:[单选题]88.关于训练样本的描述中，正确的说法是哪些？（）A)样本越多，模型训练越快，性能越好B)增加数据可以减少模型过拟合C)样本越少，模型的方差越大D)如果模型性能不佳，可增加样本多样性进行优化答案:B解析:[单选题]89.SQL语句中聚合函数求数据总和的是A)MAXB)SUMC)COUNTD)AVG答案:B解析:[单选题]90.HBase虚拟分布式模式需要（）个节点？A)1B)2C)3D)最少3个答案:A解析:伪分布模式：只需要一个节点（HMaster和HRegionServer在同一个节点上），需要集成ZooKeeper，数据存储在HDFS上[单选题]91.关于EDA与统计学中验证性分析的相关描述不正确的有(__)。A)EDA无需事先假设，验证性分析需要事先假设B)探索分析在后，验证性分析在前C)EDA中采取的方法往往比验证分析简单D)基于EDA是数据计算工作可以分为2个部分：探索性分析和验证性分析答案:B解析:[单选题]92.以下不属于数据科学的研究目的的是()。A)大数据及其运动规律的揭示B)从数据到智慧的转化C)数据解释D)数据驱动型决策支持答案:C解析:[单选题]93.Python如何定义一个函数:（）A)classB)functionC)defD)template答案:C解析:[单选题]94.HBase内部保留名为-ROOT-和.META.的特殊目录表，它们维护着当前集群上所有区域的列表、状态和()。A)大小B)类型C)位置D)时间答案:C解析:[单选题]95.下列关于数据的说法，正确的是（）A)数据科学中样本和特征是同一个概念B)布尔型特征有两个取值C)名义型特征可以比大小D)离散型特征可以在空间中任意取值答案:B解析:[单选题]96.使用梯度下降算法的步骤是什么？()_x000b_1.计算实际值与预测值之间的误差_x000b_2.重申，直到你找到最好的网络权重_x000b_3.通过网络传递输入并从输出层获取值_x000b_4.初始化随机权重和偏差_x000b_5.通过梯度下降loss函数计算方法更新权重和偏差A)4，2，3，1，5B)4，5，3，2，1C)4，2，1，5，3D)4，3，1，5，2答案:D解析:[单选题]97.下列不是NoSQL数据库的是（）。A)MongoDBB)BigTableC)HBaseD)Access答案:D解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的NoSQL产品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。[单选题]98.S市A，B共有两个区，人口比例为3:5，据历史统计A的犯罪率为0.01%，B区为0.015%，现有一起新案件发生在S市，那么案件发生在A区的可能性有多大?（___）A)0.375B)0.268C)0.286D)0.261答案:C解析:[单选题]99.Hive的基本数据类型是可以进行隐式转换，类似于Java的类型转换。例如：某表达式使用INT类型，TINYINT会自动转换为INT类型，若是某表达式使用TINYINT类型，INT不会自动转换为TINYINT类型，它会返回错误，除非使用（）操作进行显示类型的转换。A)CASTB)CTASC)CATSD)CSAT答案:A解析:[单选题]100.HBase交互模式中,查看当前版本的命令是（）A)versionB)versionsC)showsD)show答案:A解析:[单选题]101.在有N个节点FusionInsightHD集群中部署HBase时,推荐部署答案:个HMaster进程,()个RegionServer进程?A)3,NB)N,NC)2,ND)2,2答案:C解析:[单选题]102.（）是指几组不同的数据中均存在一种趋势，但当这些数据组组合在一起后，这种趋势将消失或反转。A)辛普森悖论B)大数据悖论C)大数据偏见D)幸存者偏差答案:A解析:辛普森悖论是概率和统计学中的一种现象，即几组不同的数据中均存在一种趋势，41但当这些数据组组合在一起后，这种趋势将消失或反转。例如，在肾结石治疗数据分析中，比较两种肾结石治疗的成功率。[单选题]103.下列关于多层前馈神经网络的描述错误的是（）。A)输出层与输入层之间包含隐含层，且隐含层和输出层都拥有激活函数的神经元B)神经元之间存在同层连接以及跨层连接C)输入层仅仅是接收输入，不进行函数处理D)每层神经元上一层与下一层全互连答案:B解析:多层前馈神经网络的特点：①每层神经元与下一层神经元之间完全互连；②神经元之间不存在同层连接；③神经元之间不存在跨层连接。[单选题]104.下列关于点图的说法中,正确的是()A)点图的图形属性中包含颜色属性B)点图的图形属性中包含半径属性C)点图的图形属性中不包含大小属性D)点图的图形属性中不包含形状属性答案:A解析:class="fr-ficfr-dib"[单选题]105.当训练数据很多时，一种更为强大的结合策略是使用（__），通过另一个学习器来进行结合。A)投票法B)平均法C)学习法D)排序法答案:C解析:[单选题]106.我们在使用只能手机进行导航来避开城市拥堵路段时，体现了哪种大数据思维方式（）A)我为人人，人人为我B)全样而非抽样C)效率而非精确D)相关而非因果答案:A解析:[单选题]107.使用大数据计算服务tunnel命令上传数据文件data.csv到表t_data成功后，不小心又之行了一次该上传命令，以下说法中正确的是：（）。A)最后一次上传的数据会追加插入到表t_data中去B)最后一次上传的数据会覆盖插入到表t_data中去C)记录重复会报错退出D)最后一次上传的数据会把t_data中已存在的相关记录更新答案:A解析:[单选题]108.(__)不属于基于实例学习方法。A)KNNB)局部加权回归算法C)基于案例的推理D)决策树算法答案:D解析:[单选题]109.客户IT系统中FusionlnsightHD集群有150个节点，每个节点12块磁盘（不做Raid,不包括OS盘)每个磁盘大小1T只安装HDF，按照默认配置最大可存储多少数据A)1764TBB)1800TBC)600TBD)588TB答案:D解析:[单选题]110.例如数据库中有A表，包括学生，学科，成绩，序号四个字段,数据库结构为学生学科成绩序号张三语文601张三数学1002李四语文703李四数学804李四英语805上述哪一列可作为主键列()A)序号B)成绩C)学科D)学生答案:A解析:[单选题]111.执行以下代码段a=set('apple')b=set('orange')print(a^b)时，输出为()。A){'l','e','a','p'}B){'r','a','g','e','n','o'}C){'l','p','g','o','e','n','a','r'}D){'r','g','n','o','l','p'}答案:D解析:[单选题]112.下列关于大数据特点的说法中，错误的是（）A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高答案:D解析:[单选题]113.()在划分属性时是在当前结点的属性集合中选择一个最优属性A)AdaBoostB)RFC)BaggingD)传统决策树答案:D解析:[单选题]114.下列关于HDFS的描述正确的是()。A)如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作B)HDFS集群支持数据的随机读写C)NameNode磁盘元数据不保存Block的位置信息D)DataNode通过长连接与NameNode保持通信答案:C解析:[单选题]115.大数据要求企业设置的岗位是（）。A)首席信息官和首席数据官B)首席信息官和首席工程师C)首席分析师和首席工程师D)首席分析师和首席数据官答案:A解析:[单选题]116.批处理常用的组件不包括哪个？A)StormB)HiveC)FlumeD)Spark答案:A解析:[单选题]117.在一个基本的Hadoop集群中，DataNode主要负责什么？A)负责执行由JobTracker指派的任务B)协调数据计算任务C)负责协调集群中的数据存储D)存储被拆分的数据块答案:D解析:[单选题]118.依托(),结合应用推进数据归集,形成统一的数据资源中心。A)全业务数据中心和数据平台B)营销基础数据平台和大数据平台C)全业务中心和营销基础数据平台D)全业务数据中心和大数据平台答案:A解析:详见互联数据[2019]14号《国网互联网部关于加强数据管理的通知》。[单选题]119.假设有n组数据集，每组数据集中x的平均值都是9，x的方差都是11，y的平均值都是7.50，x与y的相关系数都是0.816，拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集（）。A)一样B)不一样C)无法确定是否一样D)以上都不对答案:C解析:只比较平均值、方差、相关系数和回归方程，无法确定数据集是否相同，还需比较Anscombe'squartet。[单选题]120.对于HBaseKeyValue存储模型描述不正确的是?A)同一个Key值只能关联个valueB)拥有时间戳类型等关键信息C)Keyvalue具有特定的格式D)时间戳来区分多个记录版本答案:A解析:[单选题]121.HBase依靠()存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持。[单选题]122.数据科学是一门以实现?从数据到信息??从数据到知识??从数据到智慧?的转化为主要研究目的，以?数据驱动??数据业务化??数据洞见??数据产品研发?为主要研究任务的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:C解析:[单选题]123.业务中台方面,以业务为导向,优先建设()和客户服务业务中台,后期逐步视情况拓展账务结算等业务共享服务A)电网服务业务中台B)电网资源业务中台C)电网优化业务中台D)电网环境业务中台答案:B解析:[单选题]124.下面关于MySQL安装目录描述错误的是（）。--A)lib目录用于存储一系列的库文件B)include目录用于存放一些头文件C)bin目录用于存放一些课执行文件D)以上答案都不正确答案:D解析:[单选题]125.数据资产质量管理遵循?谁产生、谁负责?的原则，明确数据资产质量的责任归属，同一责任人产生的同一数据项一年内出现（）以上质量问题对责任单位予以通报批评A)四次B)三次C)两次D)一次答案:C解析:[单选题]126.在线性回归问题中，我们用R方来衡量拟合的好坏在线性回归模型中增加特征值并再训练同一模型下列说法正确的是()A)如果R方上升，则该变量是显著的B)如果R方下降，则该变量不显著C)羊羊R方不能反映变量重要性，不能就此得出正确结论D)以上答案都不正确答案:C解析:[单选题]127.Reduce阶段是对中间结果中相同?键?的所有?值?进行()，已得到最终结果。A)排序B)筛选C)规约D)检查答案:C解析:[单选题]128.请阅读下面一段程序：arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])执行上述程序后，最终输出的结果为（）A)[14]B)[25]C)[14,25]D)[20,25]答案:A解析:[单选题]129.实现One-Hot编码可以用Pandas中（）函数。A)groupby（）B)merge（）C)get_dummies（）D)ﬁllna（）答案:C解析:get_dummies（）生成哑变量，与One-Hot编码一致。[单选题]130.关于循环神经网络设计的叙述中，错误的是()A)能处理可变长皮的序列B)基于围展开思想C)基于参数共享思想D)循环神经网络不可应用于图像数据答案:D解析:[单选题]131.大数据可能带来（），但未必能够带来（）A)精确度；准确度B)准确度；精确度C)精确度；多样性D)多样性；准确度答案:A解析:[单选题]132.SparkSQL目前暂时不支持（）语言.A)PythonB)JavaC)ScalaD)Lisp答案:D解析:[单选题]133.下面关于手机软件采集个人信息的描述错误的是：（）A)在我们的日常生活中，手机APP往往会?私自窃密?B)有的APP在提供服务时，釆取特殊方式来获用户授权，这本质上仍属?未经同意?C)在微信朋友圏广泛传播的各种测试小程序是安全的.不会窃取用户个人信息D)手机APP过度采集个人信息呈现普遍趋势，最突岀的是在非必要的情况下获取位置信息和访问联系人权限答案:C解析:[单选题]134.安装FusionInsightHD的Streaming组件是,Nimbus角色要求安装几个节点?A)4B)3C)2D)1答案:C解析:[单选题]135.一般地，?人?与?马?分别与?人马?相似，但?人?与?马?很不相似；要达到这个目的，可以令?人??马?与?人马?之间的距离都比较小，但?人?与?马?之间的距离很大，此时该距离不满足（__）。A)非负性B)同一性C)对称性D)直递性答案:D解析:[单选题]136.使用MaxcomputeSQL：createtablet1liket2；建表时，表t1不会具有表t2的（）属性。A)分区B)生命周期C)二级分区D)字段的注释答案:B解析:[单选题]137.执行以下代码段total={}definsert(items):ifitemsintotal:total[items]+=1else:total[items]=1insert('Apple')insert('Ball')insert('Apple')print(len(total))时，输出为()。A)1B)2C)3D)4答案:B解析:[单选题]138.线性回归的基本假设不包括()。A)随机误差项是一个期望值为0的随机变量B)对于解释变量的所有观测值,随机误差项有相同的方差C)随机误差项彼此相关D)解释变量是确定性变量不是随机变量,与随机误差项之间相互独立答案:C解析:线性回归的基本假设:(1)线性关系假设。(2)正态性假设,指回归分析中的Y服从正态分布。(3)独立性假设,包含两个意思:①与某一个X对应的一组Y和与另一个X对应的一组Y之间没有关系,彼此独立;②误差项独立,不同的X所产生的误差之间应相互独立,无自相关。(4)误差等分散性假设:特定X水平的误差,除了应呈随机化的常态分配,其变异量也应相等,称为误差等分散性。[单选题]139.属于有监督学习的是()A)、k-meA、nB)、主成分分析C)、关联规则分析D)、线性回归答案:D解析:[单选题]140.下列不属于工作流节点的有()A)线性回归B)抽样C)标准化D)参数答案:D解析:[单选题]141.下列不属于数据预处理的操作是（__)。A)抽样B)特征子集选择C)特征变换D)训练答案:D解析:[单选题]142.()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断。A)参数估计B)逻辑分析C)方差分析D)回归分析答案:A解析:推断统计包括参数估计和假设检验两方面的内容。[单选题]143.关于MaxCompute分区的说法，正确的是：（）。A)Maxcompute将分区列的每个值作为一个分区B)用户最多能指定2级分区C)分区列只支持string和bigint两种，且统一表的分区列要么全部是string,要么全部是bigint,不能混用D)在使用数据时必须指定分区列，否则会出错答案:A解析:[单选题]144.在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常,（）方法处理这种过分拟合数据问题。A)小波B)调和C)剪枝D)回归答案:C解析:第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.下列属于统计分析的算法是()A)标准差B)百分位C)相关系数D)聚类答案:ABC解析:[多选题]146.根据泛在电力物联网2019年建设方案，企业中台包括（）A)业务中台B)能源中台C)技术中台D)数据中台答案:AD解析:[多选题]147.查询分析系统Dremel的特点主要包括：()第8章数据可视化A)Dremel是一个面向小规模数据的、稳定的系统B)Dremel的数据模型是嵌套的C)Dremel中的数据是用行式存储的D)Dremel结合了Web搜索和并行DBMS的技术答案:BD解析:一、[多选题]148.np数组算术运算包含（__)。A)+B)-C)*D)/答案:ABCD解析:[多选题]149.以下那些方法不常用于灰度内插值。（）A)最近邻内插法B)三次内插法C)双线性内插值法D)三次样条插值法答案:ABD解析:[多选题]150.下面关于隐私泄露问題的描述，正确的是：（）A)大数据时代下的隐私与传统隐私的最大区别在于隐私的数据化，即隐私主要以?个人数据?的形式出现B)用户在使用搜索引擎时，搜索引擎可以精确地刻画出该用户的?数字肖像"C)通过数据预测，可以预测个体?未来的隐私?D)?数据痕迹?往往永远无法彻底消除，会被永久保留记录答案:ABCD解析:[多选题]151.某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，下列指标正确的是（___）。A)F值40%B)查全率50%C)查准率70%D)F值65%答案:BC解析:[多选题]152.下列哪些是RDBMS中事务遵循的原则()。A)原子性(Atomicity)B)一致性(Connsistency)C)隔离性(Isolation)D)持久性(Durability)答案:ABCD解析:关系数据库中的事务需要具备一定的规则--ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写;原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。[多选题]153.某集团公司营销总监在公司年度汇报时,需向总经理汇报不同省份本年销售额贡献值(需体现地理标识)、本年度营销部重点工作事项、本年度营销部管培生学历、年龄、毕业院校、性别等详细信息,他可以选择的图表类型是()A)地图B)词云图C)交叉表D)明细表答案:ABD解析:[多选题]154.下列选项中，关于数据块说法正确的是（）。A)磁盘进行数据读/写的最大单位B)磁盘进行数据读/写的最小单位C)数据块是抽象的块D)DataNode是按block对数据进行存储。答案:BCD解析:[多选题]155.图像分割中常用的邻域有（）。A)0邻域B)4邻域C)8邻域D)24邻域答案:BC解析:[多选题]156.Spark支持的计算模型有()。A)批处理B)实时计算C)机器学习模型D)交互式查询答案:ABCD解析:[多选题]157.大数据交易平台的运营模式主要包括哪两种：（）A)具有交易实时显示功能的交易平台B)兼具中介和数据处理加工功能的交易平台C)只具备中介功能的交易平台D)只具备数据处理加工功能的交易平台答案:BC解析:[多选题]158.关于?三型两网?，除了泛在电力物联网，还包括（）：A)建设枢纽型企业B)建设平台型企业C)建设共享型企业D)坚强智能电网答案:ABCD解析:[多选题]159.一个监督观测值集合会被划分为()。A)训练集B)验证集C)测试集D)预处理集答案:ABC解析:一个监督观测值集合会被划分为训练集、测试集、预测集。其中测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testingerror)作为泛化误差的近似。[多选题]160.风险分值评估产品包含以下哪几类子模型;（）A)身份特征B)行为偏好C)消费能力D)人脉关系、高危行为答案:ABCD解析:[多选题]161.大数据计算服务（MaxCompute，原ODPS）提供的是海量数据的存储和计算能力，和我们熟悉的关系型数据库存在较大的差别。以下说法中正确的是:（）。A)不支持事务B)不支持deleteC)不支持索引D)不支持压缩答案:ABC解析:[多选题]162.RNN的主要应用领域有（）。A)自然语言处理B)机器翻译C)音乐推荐D)洗衣服答案:ABC解析:[多选题]163.对从公司获取的各类数据资产，各单位、部门和人员只享有有限的、不排它的使用权，对外开放的数据资产在使用协议中对数据再行转让应进行（）。A)禁止B)允许C)限制D)审核答案:AC解析:[多选题]164.在Spark技术中，关于Shuffle表述正确的是（__）。A)在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。B)在DAG调度的过程中，Stage阶段的划分是根据是否有shuffle过程C)在HashShuffle没有优化之前，每一个ShufflleMapTask会为每一个ReduceTask创建一个bucket缓存，并且会为每一个bucket创建一个文件。D)HashShuffle写数据的时候，内存没有缓冲区答案:ABC解析:[多选题]165.调用函数时可使用的正式参数类型()。A)必备参数B)关键字参数C)默认参数D)不定长参数答案:ABCD解析:[多选题]166.基于信息数据的管理和服务创新主要表现在（）A)认知方式的变化B)高强度的计算C)个性化的管理服务D):数据驱动的创新答案:ABCD解析:[多选题]167.F1ume中拦截器包含以下哪些?A)HostInterceptorB)TimestampInterceptorC)SearchandReplaceInterceptorD)RegexFilteringInterceptor答案:ABCD解析:[多选题]168.数据安全管理是通过制定和实施相关安全策略和措施，按照?（___）?的总体原则，明确职责分工，落实数据安全责任。A)谁使用谁负责B)谁运维谁负责C)谁主管谁负责D)谁保障谁负责答案:AC解析:[多选题]169.大数据计算框架Spark中除了RDD,还有哪些数据类型?A)DataTypeB)DataSchemaC)DataSetD)DataFrame答案:CD解析:[多选题]170.区块链是()等计算机技术的新型应用模式。A)分布式数据存储B)点对点传输C)共识机制D)加密算法答案:ABCD解析:[多选题]171.RDD具有()和()特征。A)可容错性B)简洁性C)并行数据结构D)结构化答案:AC解析:[多选题]172.在ApacheHadoop中,关于HDFS的回收站机制,描述正确的是?A)回收站里的文件可以快速恢复。B)删除文件时,不会真正的删除,其实是放入回收站。C)可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。D)回收站默认是关闭的。答案:ABCD解析:[多选题]173.下列关于BP网络说法正确的是（__）。A)标准BP算法每次仅针对一个训练样例更新连接权和阈值B)BP神经网络经常遭遇过拟合C)早停策略可用来缓解BP网络的过拟合问题D)晚停策略可用来缓解BP网络的欠拟合问题答案:ABC解析:[多选题]174.直方图修正法包括（）。A)直方图统计B)直方图均衡C)直方图过滤D)直方图规定化答案:BD解析:[多选题]175.我们想要减少数据集中的特征数即降维,以下方案合适的是()。A)使用前向特征选择方法B)使用后向特征排除方法C)我们先,把所有特征都使用,去训练一个模型,得到测试集上的表现。然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现。如果表现比原来还要好,我们可以去除这个特征D)查看相关性表,去除相关性最高的一些特征答案:ABCD解析:前向特征选择方法和后向特征排除方法是特征选择的常用方法。如果前向特征选择方法和后向特征排除方法在大数据上不活用,可以用这里C中方法。用相关性的度量去删除多余特征也是一个可行的方法。[多选题]176.Spark的技术架构可以分为哪几层()。A)资源管理层B)Spark核心层C)应用层D)服务层答案:ABD解析:Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。[多选题]177.缺失数据的处理主要涉及的关键活动包括（）.A)缺失数据的识别B)缺失数据的分析C)删除或插补缺失数据D)缺失数据的溯源答案:ABC解析:[多选题]178.下列关于reduce函数功能的描述正确的有（）。A)合并value值，形成较小集合B)采用迭代器将中间值提供给reduce（）函数C)map（）函数处理后结果才会传输给reduce（）函数D)内存中不会存储大量的value值答案:ABCD解析:略。[多选题]179.变量名可以包含()。A)字母B)数字C)下划线D)空格答案:ABC解析:[多选题]180.在数据库系统中，有哪几种数据模型？()A)实体联系模型B)关系模型C)网状模型D)层次模型答案:BCD解析:[多选题]181.Client端上传文件的时候下列哪项正确（）A)数据经过NameNode传递给DataNodeB)Client端将文件切分为Block，依次上传C)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作D)Client首先与NameNode通信选取待写数据的DataNode答案:BD解析:[多选题]182.以下关于模块的描述正确的是()。A)模块是文件B)模块可以定义函数，类和变量C)模块可以包含可运行的代码D)模块使得代码更复杂，可读性变差答案:ABC解析:[多选题]183.?showdatabaseslike?student%??命令可以显示出以下数据库()A)student_myB)studentyC)mystudentD)student答案:ABD解析:[多选题]184.对某个数据库使用记录单,可以进行的记录操作有()A)删除B)新建C)还原D)插入答案:ABC解析:[多选题]185.Flume进程级联时,以下哪些Sink类型用于接收上一跳Flume发送过来的数据?A)NullSinkB)thriftsinkC)HivesinkD)avrosink答案:BD解析:[多选题]186.线性判别分析是一种(___)算法。A)有监督B)无监督C)分类D)降维答案:AD解析:[多选题]187.云计算的服务方式有（）A)IaaSB)RaaSC)PaaSD)SaaS答案:ACD解析:[多选题]188.下列关于自助法描述错误的是（__）。A)自助法在数据集较大、难以有效划分训练集或测试集是很有用B)自助法能从初始数据集中产生多个不同的训练集C)自助法产生的数据集没有改变初始数据集的分布D)在初始数据量足够时，留出法和交叉验证法较自助法更为常用答案:AC解析:[多选题]189.在正则化公式中，λ为正则化参数，关于λ的描述正确的是()A)若正则化参数A过大，可能会导致出现欠拟合现象B)若λ的值太大，则梯度下降可能不收敛C)取一个合理的λ值，可以更好地应用正则化D)如果令λ的值很大的话，为了使CostFunction尽可能的小，所有0的值(不包括()o)都会在一定程度上减小答案:ABCD解析:[多选题]190.SparkMLlib主要提供了哪几个方面的工具：()A)算法工具B)特征化工具C)流水线D)实用工具答案:ABCD解析:[多选题]191.关于卷积神经网络的叙述中，正确的是()A)可用于处理时间序列数据B)可用于处理图像数据C)卷积网络中使用的卷积运算就是数学中的卷积计算D)至少在网络的一层中使用卷积答案:ABD解析:[多选题]192.在云生态环境中，用户需求相当于（），云数据中心相当于（），云服务相当于（）。A)降水B)水滴C)水库D)阳光答案:BCD解析:[多选题]193.信息图表是信息、数据、知识等的视觉化表达，下列哪个说法正确？()A)谷歌公司的制图服务接口GoogleB)D3是最流行的可视化库之一，是一个用于网页作图、生成互动图形的JavaScript函数库C)ECharts是由百度公司前端数据可视化团队研发的图表库，可以流畅地运行在PC和移动设备上D)大数据魔镜是一款优秀的国产数据分析软件，它丰富的数据公式和算法可以让用户真正理解探索分析数据答案:ABCD解析:[多选题]194.Python的字符串内建函数有哪些？A)capitalize()B)isnumeric()C)isalnum()D)isalpha()答案:ABCD解析:[多选题]195.数据加工是一种数据转换的过程，可分为(__)。A)单维度转换B)高维度转换C)低维度转换D)多维度转换答案:AD解析:[多选题]196.ElasticSearch支持的gateway类型有?A)HDFSB)本地文件系统C)Amazon83D)Amazon85答案:ABC解析:[多选题]197.关于主键下列说法正确的是（）A)可以是表中的一个字段，B)是确定数据库中的表的记录的唯一标识字段，C)该字段不可为空也不可以重复D)可以是表中的多个字段组成的。答案:ABCD解析:[多选题]198.Goolge于2003-2008年发表的3篇论文在云计算和大数据技术领域产生了深远影响，通常被称为Google三大技术包括（）A)SparkB)BigTableC)GFSD)MapReduce答案:BCD解析:[多选题]199.数据脱敏的主要原则包括：()A)保持原有数据特征B)保持数据之间的一致性C)保持业务规则的关联性D)多次脱敏之间的数据一致性答案:ABCD解析:[多选题]200.缺失值从缺失的分布来讲可以分为()A)完全随机缺失B)完全非随机缺失C)任意缺失D)随机缺失答案:ABD解析:[多选题]201.出于效率和成本的考虑，在使用MaxcomputeMR的时候，输入表最好应该只包含需要处理的字段，其余多余字段应该忽略。输入表wc_in包含10个字段，MR只对其中三个字段（c1,c2,c3）进行了处理，以下说法正确的是：（）。A)使用包com.aliyun.odps.data中的TableInfo类中的setCols()方法指定处理的列c1，c2，c3fromwc_in；同时调用MR的时候输入新表wc_in_newB)MR的输入为一个SQL查询：selectc1,c2,c3fromwc_in;C)重建一张表wc_in_new，只包含三个字段（c1,c2,c3），加载数据：insertintotablewc_in_newselectc1,c2,c3fromwc_in;同时调用MR的时候D)建一个视图v_wc_in，视图仅包括相应的三个字段：createviewv_wc_inselectc1,c2,c3fromwc_in;然后把视图v_wc_in作为MR的输入答案:CD解析:[多选题]202.零售数据的线上来源包括（）。A)产品条目B)合作电商的数据C)利用大数据对非合作电商的推算D)全渠道覆盖答案:BC解析:[多选题]203.《促进大数据发展行动纲要》在制订时面临的问题包括（）。A)政府数据开放共享不足B)产业基础扎实C)缺乏顶层设计和统筹规划D)创新应用领域广阔答案:AC解析:[多选题]204.Hive数据存储模型包括哪些成分？A)数据库B)表C)桶D)分区答案:BCD解析:[多选题]205.以下关于L1和L2范数的描述,正确的是()。A)L1范数为x向量各个元素绝对值之和。B)L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C)L1范数可以使权值稀疏,方便特征提取D)L2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。[多选题]206.研发大数据分析软件，主要具备的功能有A)用户登录及权限划分B)数据检索及挖掘C)数据分析D)持续监控E)实时共享答案:ABCDE解析:第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.Hadoop默认调度器策略为FIFO，并支持多个Pool提交Job。（）A)正确B)错误答案:错解析:hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。[判断题]208.Flume的一个Source可以和多个Channe1关联。A)正确B)错误答案:对解析:[判断题]209.越复杂的模型,在trainingdataset表现出越好的误差性能,但在testingdataset中并不总是表现出好的误差性能,这种现象叫欠拟合A)正确B)错误答案:错解析:[判断题]210.?不要把所有的鸡蛋放在一个篮子里?，这句话的依据是大数据背景下，多元化对于组合风险的作用的原理。A)正确B)错误答案:对解析:[判断题]211.Hadoop提供的Mapper类是实现Map任务的一个抽象基类。A)正确B)错误答案:对解析:Hadoop提供的Mapper类是实现Map任务的一个抽象基类，该基类提供了一个map()方法，默认情况下，Mapper类中的map()方法是没有做任何处理的。[判断题]212.TheInternetofThings是在目前互联网的基础上，将客观物体也接入进来而形成的网络。A)正确B)错误答案:对解析:[判断题]213.运算符/在Python2.x和Python3.x中具有相同的功能A)正确B)错误答案:错解析:[判断题]214.建立数据质量现场检查制度，定期组织实施，每年不低于一次，对重大问题及时上报董事长，并按流程实施整改。A)正确B)错误答案:错解析:[判断题]215.Spark任务的每个stage可划分为job,划分的标记是shuffleA)正确B)错误答案:错解析:[判断题]216.Hive是一种数据仓库处理工具，使用类似SQL的HiveSQL语言实现数据查询功能，所有Hice的数据存储都存储在HDFS中。A)正确B)错误答案:对解析:[判断题]217.中国电信大数据平台数据沙箱为一站式大数据和数据科学实训竞赛平台。A)正确B)错误答案:对解析:[判断题]218.Hadoop的NameNode用于存储文件系统的元数据A)正确B)错误答案:对解析:[判断题]219.()一句delete语句能删除多行。A)正确B)错误答案:对解析:[判断题]220.如果FusionlnsightHD集群节点数不足以使数据节点单独部署的情况下，可以采用管理节点&控制节点&数据节点合一部署方案，但新能会受限制A)正确B)错误答案:对解析:[判断题]221.通过执行指

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷8)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷8)

文档简介

温馨提示

最新文档

评论

相关文档