大数据开发基础(习题卷3)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：67 大小：170.54KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.SVM在()情况下表现糟糕A)线性可分数据B)清洗过的数据C)含噪声数据与重叠数据点$;[单选题]2.执行数据块复制的任务时，是什么和什么在进行通信（）A)clientandnamenodeB)clientanddatanodeC)namenodeanddatanodeD)datanodeanddatanode[单选题]3.下列有关Hive中分桶表理解不正确的是（）A)Hive不能针对分区进行桶的组织B)Hive可以针对某一列进行桶的组织C)把表组织成桶可以获得更高的查询处理效率D)把表组织成桶可以使取样更高效[单选题]4.创建Loader作业中,可以在以下哪个步骤中设置过滤器类型?A)输入设置B)转换C)基本信息D)输出[单选题]5.下列方法中，不可以用于特征降维的方法包括A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD[单选题]6.在Hive中查询语句命令使用的关键字为（）A)showB)lookC)selectD)looks[单选题]7.ResultScanner把扫描操作转换为类似get的操作，它将每一行数据封装成一个（）实例，并将所有实例放入一个迭代器中A)ColumnB)RowC)ResultD)Table[单选题]8.若arr=np.array（[[1，2，3]，[4，5，6]，[7，8，9]]），则arr[∶2，1∶]的输出为（）。A)（[[2，3]，[5，6]]）B)（[[1][6]]）C)（[[5，6]，[8，9]]）D)（[[1，2]，[4，5]]）[单选题]9.下列图像边缘检测算子中抗噪性能最好的是（）。A)梯度算子B)Prewitt算子C)Roberts算子D)Laplacian算子[单选题]10.国网数据中台，是在下面（）数据中心阶段的基础上发展过来的。A)营销服务中心B)全业务统一数据中心C)海量历史/实时数据中心D)电网GIS数据中心[单选题]11.在Hive中，以下那一个查询语句可以将2个或多个表集合进行合并（）A)unionfullB)unionallC)unionforD)unionon[单选题]12.几何分布是（__）概率分布，高斯分布属于（___）概率分布。A)连续型、离散型B)离散型、离散型C)离散型、连续型D)连续型、连续型[单选题]13.下列关于支持向量的说法,正确的是()。A)到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B)训练集中的所有样本点都是支持向量C)每一类样本集中都分别只有一个支持向量D)支持向量的个数越多越好[单选题]14.Python源程序文件的扩展名为（）A)pdbB)dbC)pyD)exe[单选题]15.（）是指个体对视觉感知信息的进一步加工处理过程，包括视觉信息的抽取、转换、存储、简化、合并、理解和决策加工活动。A)视觉感知B)视觉认知C)视觉编码D)视觉转换[单选题]16.在Hive的条件语句中，如果A等于B则返回true，反之返回false的表达式为（）A)A=BB)A==BC)A!=BD)A!==B[单选题]17.下列哪个程序是带参数的函数程序一defcard():name="张三"address="环市路1号"print("姓名：",name)print("地址：",address)card()程序二defcard(name,address):print("姓名：",name)print("地址：",address)card("张三","环市路1号")程序三defcard():print("张三")print("环市路1号")card()A)程序一B)程序二C)程序三D)以上都不对[单选题]18.使用大数据计算服务（MaxCompute，原ODPS）的odpscmd客户端中的jar命令调用MapReduce时，需要指定两个参数：classpath和resources。比如以下命令执行了一个MapReduce程序，输入为表t_in，输出为表t_out：jar-resourcestest.jar-classpathtest.jartestt_int_out；其中，test.jar出现了两次，请判断以下说法正确的是：（）。A)两次出现的意义相同B)两个引用的test.jar都是保存在大数据计算服务上的资源C)两个引用的test.jar都是保存在本地D)classpath引用的是main函数，运行于本地，指定的jar包路径，即本地文件路径[单选题]19.相对于HadoopMapReducel.0，Spark的特点不包括()。A)速度快B)并发多C)通用性D)易用性[单选题]20.执行以下代码段list1=[0.5*xforxinrange(0,4)]print(sum(list1))时，输出为()。A)0B)1.5C)2D)3[单选题]21.以下哪个不是聚类方法：()A)GMMB)LDAC)DBSCAND)TPLINK[单选题]22.关于图像放大处理，下列说法正确的是A)从物理意义上讲，图像的放大是图像缩小的逆操作B)图像的放大处理不需要对未知数据进行估计C)图像的放大只能按比例进行D)图像的放大不会引起图像的畸变[单选题]23.HFile数据格式中的Data字段用于（）。A)存储实际的KeyValue数据B)存储数据的起点C)指定字段的长度D)存储数据块的起点[单选题]24.用来清理残留事务的工具是：（）。A)gs_cleanB)gs_gucC)gs_dumpD)gs_ctrl[单选题]25.K-means++算法选择初始seeds的基本思想就是初始的聚类中心之间的相互距离要尽可能的远。那么算法流程为()①从输入的数据点集合中随机选择一个点作为第一个聚类中心;②对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);③选择一个新的数据点作为新的聚类中心,选择的原则是D(x)较大的点,被选取作为聚类中心的概率较大;④重复②和③直到k个聚类中心被选出来;⑤利用这k个初始的聚类中心来运行标准的K-means算法。A)②⑤④③①B)①⑤④②③C)①②③④⑤D)④③②①⑤[单选题]26.以下变量名中正确的是()。A)globalB)passC)exceptD)letter[单选题]27.以下对于离线批处理的概念理解错误的是哪-项?A)离线批处理对数据处理的时延要求不高。B)离线批处理占用的内存资源较多。C)离线批处理通常通过眠作业、Spark作业或者HQL作业实现。D)离线批处理针对的数据量较大。[单选题]28.语句x=input()执行时，如果从键盘输入12并按回车键，则x的值是()。A)12B)12.00C)1e2D)'12'[单选题]29.以下关于文件的描述错误的选项是：A)readlines()函数读入文件内容后返回一个列表，元素划分依据是文本文件中的换行符B)read()一次性读入文本文件的全部内容后，返回一个字符串C)readline()函数读入文本文件的一行，返回一个字符串D)二进制文件和文本文件都是可以用文本编辑器编辑的文件[单选题]30.在淘宝京东拼多多进行网购时，用户的点击流数据会被实时发送到后端的大数据分析平台进行处理，平台根据用户的特征，找到与其购买兴趣匹配的其他用户群体，再把其他用户曾经购买过而该用户还没购买过的相关商品推荐给该用户。这个过程体现（）A)大数据追求的是相关关系B)大数据追求的是因果关系C)大数据追求的精确性D)大数据追求的是样本[单选题]31.词袋模型主要应用于？A)文档分类B)提取文章主题C)提取文章关键词D)统计词频[单选题]32.RDD的特点不包括()。A)RDD之间有依赖关系,可溯源B)RDD由很多partition构成C)对RDD的每个split或partition做计算D)RDD可以增量更新[单选题]33.在分布式文件系统HDFS中，（）负责数据的存储和读取。A)数据节点B)第二名称节点C)名称节点D)主节点[单选题]34.启用日志聚集功能，需要配置哪个参数？A)Ayarn.nodemanager.local-dirsB)Byarn.nodemanager.log-dirsC)Cyarn.acl.enableD)Dyarn.log-aggregation-enable[单选题]35.一个关系数据库文件中的各条记录（）A)前后顺序不能任意颠倒，一定要按照输入的顺序排列B)前后顺序可以任意颠倒，不影响库中的数据关系C)前后顺序可以任意颠倒，但排列顺序不同，统计处理的结果就可能不同D)前后顺序不能任意颠倒，一定要按照关键字段值的顺序排列[单选题]36.现在有一亿条数据要插入Hbase，使用下列哪种方式最好？A)shell端put命令B)put方法C)bulkload方法D)insert方法[单选题]37.scipy.cluster模块的作用是（__)。A)傅里叶变换B)积分程序C)向量计算D)优化[单选题]38.关于HDase的Region分裂流程Split的描述不正确的是A)Split过程中并没有真正的将文件分开，仅仅是创建了引用文件B)Split为了咸少Region中数据大小，从而将-个Region分裂成两个RegionC)split过程中该表会暂停服务D)split过程中被分裂的Region会暂停服务[单选题]39.HDFS默认的副本是几份?A)5B)3C)6D)4[单选题]40.运行下面代码的输出结果为（）。a=np.array（[[1，2]，[3，4]，[5，6]]）print（np.insert（a，3，[11，12]））A)[[12][34][56]]B)[1231112456]C)[[12][1111][34][56]]D)[[1112][3114][5116]][单选题]41.数据质量支持从完整性、（）、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。自定义质量规则时，请对此规则进行维度匹配。A)交叉性B)共享性C)时效性D)有效性[单选题]42.下列关于泛化误差与偏差、方差和噪音之间的关系，表述正确的是（__）。A)泛化误差=偏差+方差-噪音B)泛化误差=偏差-方差+噪音C)泛化误差=偏差-方差-噪音D)泛化误差=偏差+方差+噪音[单选题]43.scipy.stats（）函数不能求（）。A)均值B)方差C)峰度D)众数[单选题]44.下列关于传递参数的说法中，不正确的是（）A)python的函数允许传递不定长个参数B)将不定长参数传入函数时，必须放在末尾C)args将参数打包成?列表?的形式D)kwargs可以使用关键词法传递参数[单选题]45.阿里云MaxCompute中，Table的名字描述中错误的是:（）。A)使用Createtable建表时，可以使用中文作为表的名字B)表中不能有特殊字符C)表名只能用英文的a-z,A-Z及数字和下划线」，且以字母开头D)名称的长度不超过128[单选题]46.关于SecondaryNameNode哪项是正确？()A)它是NameNode的热B)它对内存没有要求C)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间D)SecondaryNameNode应与NameNode部署到一个节点[单选题]47.有N个样本,一般用于训练,一般用于测试。若N增大,则训练误差和测试误差之间的差距会()。A)增大B)减小C)无法确定D)无明显变化[单选题]48.相比依赖于小数据和精确性的时代，大数据更强调数据的A)安全性B)完整性C)混杂性D)完整性和混杂性[单选题]49.假设属性income的最大最小值分别是98000元和12000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为()。A)0.821B)1.224C)1.45D)0.716[单选题]50.下列选项中，不属于个人隐私的是（）。A)个人工作职责B)个人健康状况C)个人位置信息D)个人家庭信息[单选题]51.云计算是对（）技术的应用和发展？A)并行计算B)网格计算C)分布式计算D)以上三项都是[单选题]52.从网络的原理上来看，结构最复杂的神经网络是()A)卷积神经网络B)长短时记忆神经网络C)GRUD)BP神经网络[单选题]53.YARN中默认的资源调度器是:（）。A)FIFO调度器B)容量调度器C)Fair调度器D)以上全部是[单选题]54.下列选项中，用于向文件中写入数据的是（）A)open()B)write()C)close()D)read()[单选题]55.（）说明如果联网越多，从介入方式、技术上越来越突破，则网络规模越大、成本越低，网络的成本可能会趋向于零。A)梅特卡尔夫定律B)摩尔定律C)吉尔德定律D)新摩尔定律[单选题]56.机器学习中发生过拟合的主要原因不包括()。A)使用过于复杂的模型B)数据噪声较大C)训练数据少D)训练数据充足[单选题]57.相关关系是一种与函数关系区别的非确定性关系,而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法,以下不属于相关性分析方法的是()。A)Pearson相关系数B)Spearman秩相关系数C)Kendall相关系数D)傅里叶系数[单选题]58.哪种不是Flink提供的部署方式?A)ClusterB)CloudC)VMD)Local[单选题]59.对数值型输出，最常见的结合策略是()A)投票法B)平均法C)学习法D)排序法[单选题]60.图像挖掘中常用卷积神经网络（DNN）作为基础结构，以下关于卷积操作（conv）和池化（pooling）的说法正确的是？A)conv基于平移不变性，pooling基于局部相关性B)conv和pooling都基于平移不变性C)conv基于局部相关性，pooling基于平移不变性D)conv和pooling都基于局部相关性[单选题]61.Jieba的（）会把文本精确切分，不存在冗余单词。A)匹配模式B)全模式C)精准模式D)搜索引擎模式[单选题]62.假设我们有由三次多项式回归产生的数据（三次多项式完美契合数据），下列说法哪些是对的？1.简单线性回归有高偏差和低方差2.简单线性回归有低偏差和高方差3.三次多项式有低偏差和高方差4.三次多项式有低偏差和低方差A)1和4B)1和3C)2和3D)2和4[单选题]63.目前大数据交易市场上存在很多种定价机制，但是不包括以下哪项：（）A)平台预定价B)自动计价C)拍卖式定价D)随机性定价[单选题]64.scipy.stats模块中对随机变量进行随机取值的函数是（）。A)rvsB)pdfC)cdfD)sf[单选题]65.下列代码中最适合接受系统输入是一个整数的是（）。A)num=input（）B)num=input（"6"）C)num=int（input）D)num=ﬂoat（input）[单选题]66.有人发现统计数字会撒谎，产生这种现象的原因不包括（）。A)采集的数据不完整B)存储的数据被篡改C)数据内容更新慢D)可视化技术效果单一[单选题]67.以下描述中不属于"规整数据(TidyData)"三个基本原则的是()。A)每一类观察单元构成一个关系(表)B)每个观察占且仅占一行C)每个变量占且仅占一列D)每个观察占且仅占一个关系(表)[单选题]68.常用的灰度内插值法有（）。A)最近邻内插法B)三次内插法C)双线性内插值法D)三次样条插值法[单选题]69.一个输入为（32，32，3）的数据集，通过一个卷积核个数为8，大小为5*5，步长为1的卷积层，输出（）。A)（28，28，8）B)（27，27，8）C)（28，28，3）D)（27，27，3）[单选题]70.下列算法中不属于基于深度学习的图像分割算法的是（）。A)FCNB)DeeplabC)Mask-RCNND)KNN[单选题]71.下面这段代码的作用是什么?（VX：HWRZKSTK）A)判断索引分片是否存在B)判断索引是否可用C)判断索引是否存在D)判断索引类型[单选题]72.运行下面代码，输出结果是（）。ImportnumpyasnpN=np.array（[[1，2，3]，[4，5，6]]）print（n.size）A)2B)6C)（2，3）D)（3，2）[单选题]73.请问在Hadoop体系结构中，按照由下到上顺序，排列正确的是（）A)CommonHiveHDFSB)CommonMapReducePigC)HDFSMapReduceHBaseD)HDFSAvroHBase[单选题]74.在Hadoop的组件中可用于实现各种经典的机器学习算法的组件是()。A)HDFSB)HiveC)PigD)Mahout[单选题]75.numpy中向量转成矩阵使用什么函数？A)np.reshape()B)np.reval()C)np.arange()D)np.random()[单选题]76.相互关联的数据资产标准，应确保衔接和匹配。数据资产标准存在冲突或衔接中断时，（），变更相应数据资产标准。A)前序环节应遵循和适应后序环节的要求B)后序环节应遵循和适应前序环节的要求C)前、后序环节应遵循和适应新的、统一的要求D)前、后序环节应根据情况遵循和适应合适的要求[单选题]77.大数据的起源是（）.A)金融B)电信C)互联网D)公共管理[单选题]78.关于?三型两网?建设，以下（）说法不正确：A)以建设泛在电力物联网为主攻方向B)进一步改造提升传统业务C)发挥电网企业的平台和资源优势，着力拓展新市场、开辟新领域、打造新业务D)大力开拓互联网经济这一巨大蓝海市场[单选题]79.下列哪项不属于大数据的发展历程？A)成熟期B)萌芽期C)大规模应用期D)迷茫期[单选题]80.以下关于异常处理的描述，正确的是：A)Python中允许利用raise语句由程序主动引发异常B)try语句中有except子句就不能有finally子句C)Python中，可以用异常处理捕获程序中的所有错误D)引发一个不存在索引的列表元素会引发NameError错误[单选题]81.（___）是对象的性质或特性。A)变量B)维度C)样本D)属性[单选题]82.以下关于组合数据类型的描述，错误的是：A)集合类型是一种具体的数据类型B)序列类似和映射类型都是一类数据类型的总称C)字典类型的键可以用的数据类型包括字符串，元组，以及列表D)python的集合类型跟数学中的集合概念一致，都是多个数据项的无序组合[单选题]83.HDFS的错误检测不包括（）。A)NameNode检测B)DataNode检测C)数据错误检测D)冗余检测[单选题]84.有如下类定义，下列描述正确的是（）。classA(object):passclassB（）:passb=B()A)isinstance(b,A)==FalseB)isinstance(b,object)==TrueC)issubclass(B,A)==FalseD)issubclass(b,B)==True[单选题]85.以下信息可视化方法中，目前规范化和标准化程度最高，最为成熟的领域是()。A)科学可视化B)信息可视化C)数据可视化D)可视分析学[单选题]86.为了保证流应用的快照存储的可靠性,快照主要存储在?A)本地文件系统中B)JobManager的内存中C)HDFS中D)可靠性高的单机数据库中[单选题]87.真正率是指（__）。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数[单选题]88.HDFS架构中有两个（）。A)DataNodesB)JobTrackeC)NameNodeD)SecondayNameNode[单选题]89.以下是字符转换成字节的方法是A)decode()B)encode()C)upper()D)rstrip()[单选题]90.谷歌采用搜索引擎大数据进行流感趋势预测，体现了哪种大数据思维方式（）A)我为人人，人人为我B)全样而非抽样C)效率而非精确D)相关而非因果[单选题]91.Kafka集群中。Kafka服务端部署的角色时？A)ProducerB)ConsumerC)ZooKeeperD)Broker[单选题]92.下面（）属于风险管理中的强数据。A)征信数据B)社保公积金数据C)税务工商数据D)以上都是[单选题]93.TOPN操作最适合采用哪种Redis数据结构?（A)SetB)HashC)ListD)Sortedset[单选题]94.()可用来展示持续性数据,可很好地表示趋势、累积、减少以及变化。A)柱形图B)地图C)面积图D)雷达图[单选题]95.数据质量以（）为监控对象，目前支持对离线数据的监控。A)数据群B)数据集C)数据列D)数据模块[单选题]96.使用Maxcompute动态分区时，SELECT的分区列放在列表的（）位置。A)中间B)开始C)任意位置D)结尾[单选题]97.关于过拟合下面说法错误的是（）A)过拟合是可以避免的B)过拟合是训练过度使泛化能力下降C)相比过拟合，欠拟合比较容易解决D)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响[单选题]98.当客户端需要读取HDFS中存储的文件时，首先向()发起读请求。A)DataNodeB)NameNodeC)YarnD)Zookeeper[单选题]99.在机器学习算法中,选择具有最大间隔的分割线进行预测的算法是哪一个()A)、线性回归B)、支持向量机C)、决策树D)、K-MeA、ns[单选题]100.()又称范围误差或全距,表示最大值与最小值之间的差距,即最大值减最小值。A)标准差B)极差C)方差D)均方差[单选题]101.hadoop能可靠地存储和处理（）字节数据。A)TBB)PBC)YBD)ZB[单选题]102.关系数据库中的关键字是指（）A)能惟一决定关系的字段B)不可改动的专用保留字C)关键的很重要的字段D)能惟一标识元组的属性或属性集合[单选题]103.以下不属于大数据在社会活动中的典型应用的是()。A)美团实现了快速精准的送餐服务B)共享单车、滴滴打车方便了人们的日常出行C)快递实现了订单的实时跟踪D)供电公司提供电费账单查询[单选题]104.第3次信息化浪潮的标志是：（）A)个人计算机的普及B)互联网的普及C)云计算、大数据和物联网技术的普及D)人工智能化[单选题]105.下面不属于软件需求分析阶段主要工作的是A)需求评审B)需求获取C)需求变更申请D)需求分析[单选题]106.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A)PigB)HBaseC)HiveD)MapReduce[单选题]107.如果python程序中包括零运算，解释器将在运行时抛出()错误信息。（）A)NameErrorB)FileNotFoundErrorC)SyntaxErrorD)ZeroDivisionError[单选题]108.下面关于类和对象的说法中，错误的是()。A)调用函数会执行函数体代码，返回的是函数体执行的结果B)类有两大用途：对属性的操作、实例化对象C)类有三种属性：数据属性、函数属性、方法属性D)调用类会产生对象，返回的是对象[单选题]109.循环神经网络适合处理的数据是()A)节点数据B)序列数据C)结构化数据D)围像数据[单选题]110.下列关于Hive基本操作命令的解释错误的是()A)createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在，创建表usr，含三个属性id,name,ageB)loaddatalocalinpath?/usr/local/data?overwriteintotableusr;//把目录?/usr/local/data?下的数据文件中的数据以追加的方式装载进usr表C)createdatabaseuserdb;//创建数据库userdbD)insertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据[单选题]111.Scipy中模块integrate的作用是（）。A)程序输入输出B)差值计算C)积分计算D)向量计算[单选题]112.以下关于大数据描述不正确的是()。A)大数据成为推动经济转型发展的新动力B)大数据成为重塑国家竞争优势的新机遇C)大数据是小数据的集合D)大数据成为提升政府治理能力的新途径[单选题]113.想要获取HBase表student的所有行的数据，使用表访问类Table对象的（）A)table.get(xxx);B)table.getScan(xxx);C)table.getScanner(xxx);D)table.scan(xxx);[单选题]114.下列模型中与文本分类相关的是（）。A)决策树B)神经网络C)KNN算法D)以上都对[单选题]115.Python语言属于。（）A)机器语言B)汇编语言C)高级语言D)以上都不是[单选题]116.大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的（）A)新一代技术平台B)新一代信息技术和服务业态C)新一代服务业态D)新一代信息技术[单选题]117.使用下面哪个命令可以查看Zookeeper服务器的环境信息的是()。A)confB)enviC)srvrD)srst[单选题]118.下列关于k-means的优点不正确的是（）A)原理简单B)k值容易选取C)聚类效果较好D)可解释性强[单选题]119.pipshowSomePackage指令的意义是()。A)卸载指定包B)安装指定包C)搜索指定包D)查看指定包的详细信息[单选题]120.以下哪项用于左连接()A)JOINB)RIGHTJOINC)LEFTJOIND)INNERJOIN[单选题]121.下列说法错误的是？()A)大数据魔镜是一款优秀的国产数据分析软件，可以让用户真正理解探索分析数据B)Tableau是桌面系统中最简单的商业智能工具软件，是一个用于网页作图、生成互动图形的JavaScript函数库C)GoogleFusionTables让一般使用者也可以轻松制作出专业的统计地图D)ModestMaps是一个小型、可扩展、交互式的免费库，提供了一套查看卫星地图的API[单选题]122.在方差分析中，（）反映的是样本数据与其组平均值的差异。A)总离差B)组间误差C)抽样误差D)组内误差[单选题]123.（__）表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差[单选题]124.对参数进行L2正则,是机器学习常用的防止过拟合的方法。对参数做L2正则时,()是对参数本身做先验分布假设。A)高斯分布B)拉普拉斯分布C)泊松分布D)均匀分布[单选题]125.以下说法正确的是()A)在使用KNN算法时,k通常取奇数B)KNN是有监督学习算法C)在使用KNN算法时,k取值越大,模型越容易过拟合D)KNN和K-means都是无监督学习算法[单选题]126.下列方法中，用于向文件中写内容的是（）A)openB)writeC)closeD)read[单选题]127.在SELECT字段列表中为会话变量赋值用()符号。--A)+=B)==C):=D)@=[单选题]128.执行以下代码段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4self.b**=2%3classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7*2self.b**=2+1classLastGraph(MyGraph):passg2=LastGraph()g2.action()print(g2.b)时，输出为()。A)17B)1C)16D)64[单选题]129.Hive中的外部表数据只是表对（）上的某一个目录的引用A)HDFS文件系统B)服务器系统C)数据库系统D)以上都不正确[单选题]130.有关Hive支持的基本数据类型，以下那个是1byte有符合整数（）A)TinyintB)SmalintC)IntD)Bigint[单选题]131.下列哪些不是目前机器学习所面临的问题是()。A)测试集的规模B)维度灾难C)特征工程D)过拟合[单选题]132.信息技术是指有关信息的收集、识别、提取、变换、存贮、传递、处理、检索、检测、分析和利用等的技术。凡涉及到这些过程和技术的工作部门，都可称作（）部门A)技术B)研究C)信息D)管理[单选题]133.数据预处理方法不包括()。A)数据清洗;去噪声和无关数据B)数据集成;将多个数据源中的数据结合起来存在一个一致的数据存储中C)数据变换:把原始数据转换成为适合数据挖掘的形式D)数据转化;把连续数据转换为离散数据[单选题]134.以下关于数据分析语言说法错误的是（）A)Java、C等语言是为软件开发设计的，不适合做数据科学任务B)在Python中调用R语言C)在R中不可以调用Python语言D)在数据科学分析任务中使用R语言的根本原因在于：主流R包的开发者都是统计学、机器学习领域的大牛[单选题]135.物联网的发展最终导致了人类社会数据量的第三次跃升，使数据产生方式进入了：（）A)手工创建阶段B)运营式系统阶段C)用户原创内容阶段D)感知式系统阶段[单选题]136.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A)需要将这些样本全部强制转换为支持向量B)需要将这些样本中可以转化的样本转换为支持向量.不能转换的直接删除C)移去或者减少这些样本对分类结果没有影响D)以上都不对[单选题]137.关于MapReduce中的键值对，下面陈述正确的是（）A)Key类必须实现WritableB)Key类必须实现WritableComparableC)Value类必须实现WritableComparableD)Value类必须继承WritableComparable[单选题]138.SQL语句中的条件用以下哪一项来表达()A)THENB)WHILEC)WHERED)IF[单选题]139.关于长短时记忆网络LSTM说法错误的是(__)A)长短时记忆网络在语音识别、图片描述、自然语言处理等许多领域中成功应用。B)LSTM的训练算法仍然是反向传播算法C)GRU是LSTM的变种，它的结构比LSTM简单D)LSTM包含遗忘门、输入门、输出门、传递门等[单选题]140.HDFS默认备份数量？()A)0B)1C)2D)3[单选题]141.下列哪个用于说明在RDD上执行何种计算()。A)分区B)算子C)日志D)数据块[单选题]142.修改资源的化导入excel的操作列应该填写（）。A)插入B)更新C)删除D)追加[单选题]143.Hive创建内部表之后，表的?Table_type?属性的值为（）A)Managed_tableB)Manag_tableC)Managed_dataD)以上都不对[单选题]144.根据《促进大数据发展行动纲要》（国发〔2015〕50号），大数据发展和应用在未来5-10年确定要逐步实现的目标不包括（）。A)培育高端智能、新兴繁荣的产业发展新生态B)构建以人为本、惠及全民的民生服务新体系C)建立运行平稳、安全高效的经济运行新机制D)开启军民协同、军地两用的创新驱动新格局第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.ZooKeeper在HBase中主要起什么作用?A)管理元数据B)存储表结构数据C)存储用户表数据D)主备切换[多选题]146.在开发大数据计算服务的MapReduce时，可以使用JobClient类中的接口提交MapReduce作业。目前提交方式支持（）。A)远程提交B)本地提交C)阻塞方式D)非阻塞方式[多选题]147.依据国网公司数据管理办法，公司数据质量管理主要工作包括（）。A)数据质量规则管理B)数据质量核查C)数据问题整改D)数据质量评估[多选题]148.图像识别技术的过程分以下几步：信息的获取、(__)、(__)、分类器设计和分类决策。A)辨认B)预处理C)统计D)特征抽取和选择[多选题]149.集成学习中增强多样性的常见做法有()A)数据样本扰动B)输入属性扰动C)输出表示扰动D)算法参数扰动[多选题]150.以下哪些选项属于FlinkLibraries层的应用?A)图像处理的GellyB)处理逻辑表查询的TableC)复杂事件处理的CEPD)机器学习的FlinkML[多选题]151.下列关于支持向量的说法错误的是（__)。A)支持向量回归机的支持向量落在它规定的间隔带之内B)支持向量回归机的支持向量落在它规定的间隔带之外C)支持向量回归机的支持向量只占训练集的一部分D)训练集中的全部样本都是支持向量[多选题]152.以下关于Transformation的说法正确的是?A)它的返回值还是一个RDDB)是RDD的算子类型C)属于懒操作D)mapfunc）属于Transformation[多选题]153.下列关于柱形图优缺点的说法中,正确的有()A)可以通过柱子的长短明显看出各组别之间数据的差异B)若柱形图的横轴为时间,则可以清晰地看出数据结果随时间的变化趋势C)若数据集分类较多,则横轴将出现大量柱形,降低了柱形图的直观度D)可以为柱形图添加标签使其清晰地展示出不同柱子对应的纵轴数据[多选题]154.数据预处理方法主要有（）A)数据清洗B)数据集成C)数据变换D)数据归约[多选题]155.计算机系统中的数据组织形式主要有两种别是：（）A)文件B)视频C)音频D)数据库[多选题]156.下列关于密度聚类说法,错误的是()。A)DBSCAN是一种著名的密度聚类算法B)密度聚类从样本数量的角度来考察样本之间的可连接性C)密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D)密度直达关系通常满足对称性[多选题]157.使用大数据计算服务中的MR时，MR中的（）操作会引发Java安全沙箱的限制而报错。A)起子进程执行Linux命令B)获取本地IPC)本地文件以资源方式上传至大数据计算服务，在MR中以资源方式访问该文件D)Java反射限制[多选题]158.file对象使用open函数来创建，file对象常用的函数有()。A)file.close()B)file.nextline()C)file.tell()D)file.read()[多选题]159.以下选项在计算机中属于字符的是()。--A)中文B)标点符号C)数字D)图形符号[多选题]160.机器学习的三个关键组成耍素是()A)任务TB)性能指标PC)目标函数VD)经验来源E[多选题]161.Spark支持哪三种不同类型的部署方式？A)Standalone（类似于MapReduce1.0，slot为资源分配单位）B)SparkonMesos（和Spark有血缘关系，更好支持Mesos）C)SparkonYARND)SparkonHDFS[多选题]162.在Map阶段读取输入的文件内容时，将内容解析成()。A)键B)值C)二进制文件D)加密文件[多选题]163.常用的代价函数有（）。A)均方误差B)均方根误差C)平均绝对误差D)交叉熵[多选题]164.数据挖掘的预测建模任务主要包括哪几大类问题？:（）A)分类B)回归C)模式发现D)模式匹配[多选题]165.关于自顶向下的设计过程，以下选项错误的是()。A)在总体设计之前就已经解决了程序设计的细节B)仅解决程序的细节C)计划的总体设计在细节之前就已解决D)仅解决程序设计问题[多选题]166.长短时记忆神经网络兰个门是()A)进化门B)输出门C)输入门D)遗忘门[多选题]167.国网外联部负责（）。A)管理公司网站新闻宣传B)审核重要信息C)负责公司官方微博、微信、新闻客户端等新媒体的管理工作D)负责省公司、公司直属单位官方新媒体开设（关停）的审批[多选题]168.下面哪几项属于ElasticSearch的RESTful请求方式?A)DeleteB)UpdateC)PostD)Get[多选题]169.在ROC空间中，以（__）为横轴，以（__）为纵轴。A)TPrateB)FNrateC)FPrateD)TNrate[多选题]170.Flume事件由0个或多个()和()组成。A)头B)源C)体D)接收器[多选题]171.业务中台方面，开展客户服务业务中台和电网资源业务中台试点建设，实现对公司（）的建设A)各业务条线客户B)电网资源整合C)共享业务服务D)资源整合服务[多选题]172.关于读取网页表格数据的说法中，下列描述正确的是（）A)使用read_html()函数可以读取网页表格数据B)使用read_html()函数可以读取网页表格数据C)read_html()函数返回一个DataFrame列表对象D)read_html()函数只能对网页中的table标签进行读取[多选题]173.下列关于聚类法方法描述正确的是（__）。A)k均值算法属于原型聚类B)学习向量化算法试图找到一组原型向量来刻画聚类结构C)高斯混合聚类采用概念模型来表达聚类原型D)学习向量化算法属于层次聚类[多选题]174.数据仓库的特性包括：（）A)面向主題的B)集成的C)相对稳定的D)反映历史变化的[多选题]175.ApacheFlume主要解决的是日志数据的收集和处理问题,Flume的主要设计目的和特征是()。A)高可靠性B)可扩展性C)管理复杂D)不支持用户自定义[多选题]176.以下哪些属于风险管理的大数据应用？A)风险模型监测B)现场检查C)客户画像D)流程审批[多选题]177.支持向量机中定义的间隔值为w的二范式的-2次方，这样看间隔貌似仅与权重w有关，这意味着偏置项b（__）。A)没有任何意义B)对间隔不会产生影响C)通过约束隐式地影响着w的取值D)对间隔会产生影响[多选题]178.对OTS的单行操作，描述正确的有：（）。A)getrow：读取单行数据B)deleterow：删除一行C)updaterow：更新一行，如果该行不存在，则新增一行D)putrow：新插入一行数据，如果数据存在，则删除旧行，在写入新行[多选题]179.2019年围绕（）领域共展了共计57项建设任务A)数据共享B)技术攻关C)对外业务D)安全防护[多选题]180.消除数据孤岛对于企业具有哪些重要的意义：（）A)有助于企业做出有利于生产要素组合优化的决策，使企业能够合理配置资源，实现企业利益最大化B)有利于企业获更好的经营发展能力C)企业信息的増多可以増加做出正确选择的能力，从而提高经济效率D)不利于企业长远的发展[多选题]181.下列哪些情况下SOL自诊断可以识别，并上报告警信息?A)数据值斜。B)SQL语句不下推。C)大表Broadcast.D)HashJoin中大表做内表。[多选题]182.大数据在今天这个时间点上爆发的原因有哪些A)互联网的收集和积累B)各种传感器无时无刻不在为我们提供大量的数据C)各种智能设备无时无刻不在为我们提供大量的数据D)各种监控设备无时无刻不在为我们提供大量的数据[多选题]183.创建GaussDB200的索引时，应注意以下哪些事项（）A)素引的设计与业务强相关，与数据无关。B)一般在经常排序的字段上添加素引。C)素引的设计与数据强相关，与业务无关。D)一般在热点数据上添加索引。[多选题]184.大数据作为一种数据集合，它的含义包括A)数据很大B)很有价值C)构成复杂D)变化很快[多选题]185.在公安领域的大数据批量离线处理平台中，以下描述准确的是（）A)不同的数据来源可以整理后划分实时数据、增量文件、全量文件和数据库等。B)数据来源可以按照结构或类型分为视频/图像数据、文本数据、数据库中数据等。C)数据来源包括公安系统、社会系统、互联网系统其他如运营商系统等。D)经过整理后的原始数据可以根据业务主题,分为基本信息、交往圈信息、轨迹信息、行为信息等存储。[多选题]186.下列可以用来评估线性回归模型的指标有()。A)R-SquaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE[多选题]187.加强全产业链互联互通标准体系建设，实现公司内外（）互联互通，既掌控发展制高点，也带动合作伙伴共同成长A)设备B)客户C)数据D)服务[多选题]188.下列哪些选项不是HBase为null的列不占用存储空间的原因?A)列存储B)Key-Value结构C)Region分裂D)行存储[多选题]189.以下属于日期函数的是()A)DateDiffB)DatetimeToStringC)NumericCastD)Constant[多选题]190.HBase官方版本可以安装在什么操作系统上？A)CentOSB)UbuntuC)RedHatD)Windows[多选题]191.下列哪些假设是我们推导线性回归参数时遵循的（）？A)X与Y有线性关系（多项式关系）B)模型误差在统计学上是独立的C)误差一般服从0均值和固定标准差的正态分布D)X是非随机且测量没有误差的[多选题]192.数据脱敏操作必须满足（）.A)单向性B)无残留C)易于实现D)不对称加密[多选题]193.以下能创建一个字典的语句是()。A)dict1={}B)dict2={3:5}C)dict3=dict([2,5],[3,4])D)dict4=dict(([1,2],[3,4]))[多选题]194.以下选项对GraphBase概念描述正确的是?A)VertexLabe1:节点的标签，用于表示现实世界中的实体类型B)Edge:边，用于表示关系度C)Vertex:节点/顶点，用于表示现实世界中的实体对象D)EdgeLabel.边的标签，用于表示现实世界中的关系类型[多选题]195.WHERE可在以下()语句中实现条件判断。--A)CREATEB)SHOWC)UPDATED)DELETE[多选题]196.在建立模型时,需要用到()。A)训练数据B)测试数据C)原始数据D)验证数据[多选题]197.以下哪些方法是tf-idf的变种？（）A)TFCB)EWCC)ITCD)IG[多选题]198.数据科学项目中数据预处理的方法包括（）A)数据审计B)数据清洗C)数据变换D)数据规约[多选题]199.下列说法正确的是（）A)altertableuserdropcolumnsex;B)altertableuseraddsexvarchar(20);C)altertableuserdropsex;D)altertableusermodifyidintprimarykey;[多选题]200.大数据计算服务（MaxCompute，原ODPS）中，在做web日志分析时如果发现日志内容（对应字段log_content）中有?select?字符串，则有可能是恶意的sql注入攻击，可以使用（）从日志表log中找出所有符合这种特征的访问。A)select*fromlogwheretolower(log_content)like?%select%?;B)select*fromlogwhereinstr(tolower(log_content),?select?)>0;C)select*fromlogwhere?select?intolower(log_content);D)select*fromlogwhereregexp_instr(tolower(log_content),?select?,1)>0;[多选题]201.（）能知道一个MaxcomputeSQL在运行时占用了多少instance。A)根据表的大小，自己计算B)使用ps-ef查看相关进程数C)用odpscmd提交时，从返回的状态中查看D)打开logview查看[多选题]202.Python类的特点有（___）。A)根据职责将属性和方法封装到一个抽象的类中B)实现代码的重用，不需要重复编写代码C)子类拥有父类所有的属性和方法。也可以重新父类方法D)不同的对象调用相同的代码，产生不同的效果，提高代码的灵活性[多选题]203.下列方法中,可以用于特征降维的方法包括()。A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD[多选题]204.在Spark的基本流程中,主要涉及()。A)DriverProgramB)ClusterManagerC)WorkerNodeD)Executor[多选题]205.MaxCompute中实例运行可能出现下述（）状态。A)RunningB)SuccessC)FailedD)Terminated[多选题]206.大数据人才整体上需要具备（）等核心知识A)数学与统计知识B)计算机相关知识C)马克思主义哲学知识D)市场运营管理知识E)在特定业务领域的知识第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.BIRCH是一种关联分析算法A)正确B)错误[判断题]208.Namenode存储的是元数据信息，元数据信息并不是真正的数据，真正的数据是存储在DataNode中。A)正确B)错误[判断题]209.云计算平台具有创建、运行、迁移和删除运行在云平台上的虚拟机的超级权限，所以平台及管理员的权限控制是安全运行保障的重要内容。A)正确B)错误[判断题]210.使用mapjoin的性能比普通的join要快很多，与表的大小无关。A)正确B)错误[判断题]211.在Windows平台开发HDFS项目时，若不设置Hadoop开发环境，也是没问题的。A)正确B)错误[判断题]212.在机器学习中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。()A)正确B)错误[判断题]213.假设re模块已导入，那么表达式reA)正确B)错误[判断题]214.Hadoop默认调度器策略为FIFOA)正确B)错误[判断题]215.大数据思维的方式遵循因果逻辑A)正确B)错误[判断题]216.一个数字5也是合法的Python表达式。A)正确B)错误[判断题]217.NumPy的mean、std、sum等方法默认会统计Series里的空值。A)正确B)错误[判断题]218.importpandasaspd,s2=pdA)正确B)错误[判断题]219.正则表达式元字符?^?一般用来表示从字符串开始处进行匹配，用在一对方括号中的时候则表示反向匹配，不匹配方括号中的字符A)正确B)错误[判断题]220.文件打开的默认方式是只读。（）A)正确B)错误[判断题]221.假如你在训练一个线性回归模型，如果数据量较少，容易发生过拟合A)正确B)错误[判断题]222.通过empty()函数创建的数组，该数组中没有任何的元素。（）A)正确B)错误[判断题]223.SparkStreaming容错机制实质RDD中的任意Partition出错，都可以根据其父RDD重新计算生成，如果父RDD丢失，则需要去硬盘中查找原始数据。A)正确B)错误[判断题]224.数据思维相比经验思维的优势在于稳定性A)正确B)错误[判断题]225.HDFS目前不支持并发多用户的写操作，写操作只能在文件末尾追加数据。A)正确B)错误[判断题]226.列表的索引从1开始。（）A)正确B)错误[判断题]227.假设x是含有5个元素的列表，那么切片操作x[10:]是无法执行的，会抛出异常。A)正确B)错误[判断题]228.Kafka中每个Topic都由一个或者多个Partitions构成，Partition数量决定了每个Consumergroup中实际工作的并发消费者的最大数量。A)正确B)错误[判断题]229.习总书记在《在网络安全和信息化工作座谈会上的讲话》所述的第一次技术大革命是农业革命。A)正确B)错误[判断题]230.()所有TIMESTAMP列在插入NULL值时，自动填充为当前日期和时间。A)正确B)错误[判断题]231.加法运算符可以用来连接字符串并生成新字符串。A)正确B)错误[判断题]232.元组可以作为集合的元素。A)正确B)错误[判断题]233.调用函数时，在实参前面加一个型号*表示序列解包。A)正确B)错误[判断题]234.Flink仅支持基于时间窗口操作。A)正确B)错误[判断题]235.任何包含__call__()方法的类的对象都是可调用的。A)正确B)错误[判断题]236.重建索引（reindex）可以更改、添加、删除指定轴的索引，并返回数据副本，即不更改原数据。A)正确B)错误[判断题]237.?表/文件/整库迁移?支持批量迁移表或者文件，还支持同构/异构数据库之间整库迁移，一个作业即可迁移几百张表。A)正确B)错误[判断题]238.MySQL中在复制已有的表结构的同时不能复制对应的数据。--A)正确B)错误[判断题]239.插入数据时VALUES后的数据只需与?INSERTINTO表?后设置的字段相对应即可。--A)正确B)错误[判断题]240.GES既支持分布式部署也支持单机部署。A)正确B)错误[判断题]241.在MaxCompute中，所有的请求都会被转化为任务(Task)。A)正确B)错误[判断题]242.MySQL的默认字符集latin1是单字节编码的字符集。--A)正确B)错误[判断题]243.已知x='a234b123c'，并且re模块已导入，则表达式reA)正确B)错误[判断题]244.LogisticRegression和Support驰句，rMachine都可以处理分类问题，且一般都用于处理线性二分类问题。()A)正确B)错误[判断题]245.HDFS采用的是?一次写入、多次读取''的文件访问模型。所以推荐一个文件经过创建、写入和关闭之后，就不要再去修改。A)正确B)错误[判断题]246.误差逆传播算法(BP)仅可用于多层前馈神经网络的学习算法。A)正确B)错误[判断题]247.使用del命令或者列表对象的remove()方法删除列表中元素时会影响列表中部分元素的索引A)正确B)错误[判断题]248.风险管理系列系统主要通过相关资质公司、行内风险管理人员来完成建设及运用A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.大数据是以容量大、类型多、存取速度快、()为主要特征的数据集合。[问答题]250.HDFS存储数据时，关键数据根据实际业务需要保存在具有高度可靠性的节点中，通过修改DataNode的存储策略，系统可以将数据强制保存在指定的节点组中。A)TRUEB)FALSE[问答题]251.格式化HDFS集群命令是（hadoopnamenode-format）。[问答题]252.在Hadoop_PID_DIR中，PID代表了什么？[问答题]253.我们可以执行()指令查看SSH服务是否启动。[问答题]254.Hadoop集群可以运行的3个模式？[问答题]255.Hive中~UNIONALL~操作符用于合并两个或多个select语句的结果集,结果集中,不允许有重复的值。A)TrueB)False[问答题]256.mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTracker与TaskTracker。[问答题]257.Hbase的BloomFiliter是用来顾虑数据的?A)TRUEB)FALSE[问答题]258.请简述什么是Series。[问答题]259.Yarn-client和Yarn-Cluster主要区别时ApplicationMaster进程的区别。A)TRUEB)FALSE[单选题]260.关于Sqoop的说法,不正确的是()。A)主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作B)数据导入导出通过MapReduce完成C)Sqoop具备MapReduce的并行化和容错性D)Sqoop的Reduce操作速度更快1.答案:C解析:2.答案:D解析:数据块复制：数据和数据之间的复制（我瞎说的）3.答案:A解析:4.答案:A解析:5.答案:C解析:6.答案:C解析:7.答案:C解析:8.答案:A解析:索引时如果不指定冒号旁边的数值，则默认从开头开始或至结尾结束，此处为前两行后两列。9.答案:B解析:10.答案:B解析:11.答案:B解析:12.答案:C解析:13.答案:A解析:在支持向量机中,距离超平面最近的且满足一定条件的几,个训练样本点被称为支持向量。一般情况下,支持向量的个数等于训练样本数目,并不是越多越好。14.答案:C解析:15.答案:B解析:视觉感知（VisualPerception）是指客观事物通过视觉感觉器官（眼睛等）在人脑中产生直接反应的过程。视觉感知是产生视觉认知的前提条件。视觉认知（VisualCognition）是指个体对视觉感知信息的进一步加工处理过程，包括视觉信息的抽取、转换、存储、简化、合并、理解和决策等加工活动。16.答案:A解析:17.答案:B解析:18.答案:D解析:19.答案:B解析:20.答案:D解析:21.答案:D解析:22.答案:A解析:23.答案:A解析:记住即可。毕竟Data字段用来存储数据？24.答案:A解析:25.答案:C解析:K-means++算法基本流程为:①从输入的数据点集合中随机选择一个点作为第一个聚类中心;②对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);③选择一个新的数据点作为新的聚类中心,选择的原则是D(x)较大的点,被选取作为聚类中心的概率较大;④重复②和③直到k个聚类中心被选出来;⑤利用这k个初始的聚类中心来运行标准的K-means算法。26.答案:D解析:27.答案:B解析:28.答案:D解析:29.答案:D解析:30.答案:A解析:31.答案:A解析:32.答案:D解析:RDD具有以下5大特点:①RDD由很多partition构成;②对RDD做计算,相当于对RDD的每个split或partition做计算;③RDD之间有依赖关系,可溯源;④如果RDD里面存的数据是key-value形式,则可以传递一个自定义的partitioner进行重新分区,比如可以按key的hash值分区;⑤最优的位置去计算,即数据的本地性。33.答案:A解析:34.答案:D解析:35.答案:B解析:36.答案:C解析:37.答案:C解析:38.答案:C解析:39.答案:B解析:40.答案:B解析:与append（）相同，insert（）在没有指定axis时默认展平数组。41.答案:D解析:42.答案:D解析:43.答案:D解析:stats作为一个函数可以返回均值、方差、（费舍尔）偏态、（费舍尔）峰度等值，不包括众数等值。44.答案:C解析:45.答案:A解析:46.答案:C解析:47.答案:B解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。48.答案:D解析:49.答案:D解析:50.答案:A解析:51.答案:D解析:52.答案:C解析:53.答案:B解析:54.答案:B解析:55.答案:C解析:56.答案:D解析:训练数据充足可以降低过拟合。57.答案:D解析:傅里叶系数由Fouriercoefficient翻译而来,有多个中文译名。它是数学分析中的一个概念,常常被应用在信号处理领域中。对于任意的周期信号,如果满足一定条件,都可以展开三角函数的线性组合,每个展开项的系数称为傅里叶系数,不能用于解释相关性。58.答案:C解析:59.答案:B解析:60.答案:A解析:61.答案:C解析:精准模式不存在冗余，而全模式存在。62.答案:A解析:63.答案:D解析:64.答案:A解析:stats模块中的rvs函数对随机变量进行取值。65.答案:C解析:AB输入后是字符串；C输入后是整数；D输入后是浮点数。66.答案:D解析:67.答案:D解析:tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。68.答案:C解析:69.答案:A解析:70.答案:D解析:KNN为传统机器学习方法并非深度学习方法。71.答案:C解析:72.答案:B解析:size是数组元素的个数。73.答案:B解析:PigHiveCrunch都是运行在MapReduce,Spark,或者Tez之上的处理框架Avro是一个克服了Writable部分不足的序列化系统74.答案:D解析:75.答案:A解析:76.答案:B解析:77.答案:D解析:78.答案:D解析:79.答案:D解析:80.答案:A解析:81.答案:D解析:82.答案:C解析:83.答案:D解析:84.答案:B解析:85.答案:A解析:86.答案:C解析:87.答案:A解析:88.答案:C解析:89.答案:B解析:90.答案:B解析:91.答案:D解析:92.答案:D解析:93.答案:D解析:94.答案:C解析:class="fr-ficfr-dib"95.答案:B解析:96.答案:D解析:97.答案:A解析:98.答案:B解析:99.答案:B解析:100.答案:B解析:101.答案:B解析:102.答案:D解析:103.答案:D解析:电费账单查询属于简单报表查询,用电情况分析、窃电行为分析、基于交易大数据分析用户的购买习惯、基于传感器感知的海量数据分析自然灾害的危害程度、基于搜索引擎的搜索关键词分析社会热点等属于大数据应用。104.答案:C解析:105.答案:C解析:106.答案:C解析:在Hadoop生态系统中,Hive可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言107.答案:D解析:108.答案:C解析:109.答案:B解析:110.答案:B解析:111.答案:C解析:Scipy中，integrate是用来进行积分计算的模块。112.答案:C解析:113.答案:C解析:114.答案:D解析:决策树、神经网络、KNN算法都属于统计学习方法，是文本分类领域的主流。115.答案:C解析:116.答案:B解析:117.答案:B解析:118.答案:B解析:119.答案:D解析:120.答案:C解析:121.答案:B解析:122.答案:D解析:组内误差是来自样本内部数据之间的随机误差，它反映了样本数据自身的差异程度；组间误差由因子的不同处理造成的处理误差和抽样的随机误差组成，反映了不同样本之间数据的差异程度。123.答案:C解析:124.答案:A解析:L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。125.答案:B解析:在使用KNN算法时,k取值越大,模型越容易欠拟合,KNIN是有监督的机器学习算法。126.答案:B解析:127.答案:C解析:128.答案:D解析:129.答案:A解析:130.答案:A解析:131.答案:A解析:目前,机器学习领域所面临的主要挑战包括过拟合(Overfiting)、维度灾难(CurseofDimensionality)、特征工程(FeatureEngineering)、算法的可扩展性(Scalab

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷3)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷3)

文档简介

温馨提示

最新文档

评论

相关文档