大数据开发基础(习题卷52)_第1页
大数据开发基础(习题卷52)_第2页
大数据开发基础(习题卷52)_第3页
大数据开发基础(习题卷52)_第4页
大数据开发基础(习题卷52)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷52)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.如果A不等于null,则返回true,反之返回false的条件是()A)AISNULLB)ANOTNULLC)AISNOTNULLD)AORNOTNULL答案:C解析:[单选题]2.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?A)1B)2C)3D)4答案:B解析:常识题?[单选题]3.(__)不是常用的噪声处理方法。A)聚类B)回归C)分类D)分箱答案:C解析:[单选题]4.连接?Datediff?的类型应当是()A)INTB)DATEDC)NVARCHARD)DATETIME答案:D解析:[单选题]5.国家电网有限公司数据管理办法规定,在集中共享、服务应用方面,依托全业务统一数据中心和()进行数据归集、共享应用,推动跨专业数据贯通融合。A)企业中台B)业务中台C)数据中台D)国网云答案:C解析:[单选题]6.以下关于贝叶斯描述正确的是:()A)基于先验概率输出最大的后验概率B)已发生的条件下,?原因?属于事件Ai的条件概率C)贝叶斯公式是严紧的数学推理D)朴素贝叶斯是因为一次方算法所以叫做朴素;答案:A解析:[单选题]7.在大数据时代,尤其在数据科学中,人们对数据的认识与研究视角是()。A)、我能为数据做什么B)、如何设计算法和模型C)、数据能为我做什么D)、如何降低计算复杂度答案:C解析:[单选题]8.HDFS是Hadoop平台上的分布式文件系统,那么它是由()构成的。A)由一个NameNode和多个DataNode组成B)由一个DataNode和多个NameNode组成C)由多个NameNode和多个DataNode组成D)由一个NameNode和一个DataNode组成答案:A解析:[单选题]9.以下不属于凸函数一项的是()A)y=-logxB)y=xlogxC)y=||x||pD)y=e^(ax)答案:D解析:[单选题]10.下列说法错误的是()。A)HDFSFederation使得HDFS的命名服务能够水平扩展B)第二名称节点是热备份,而HDFSHA不是热备份C)HDFSHA可以解决单点故障问题D)第二名称节点无法解决单点故障问题答案:B解析:[单选题]11.下列哪项具体任务不属于情感分析?()A)情感分类B)观点抽取C)观点问答D)段落匹配答案:D解析:[单选题]12.数据预处理方法不包括()。A)数据清洗;去噪声和无关数据B)数据集成;将多个数据源中的数据结合起来存在一个一致的数据存储中C)数据变换:把原始数据转换成为适合数据挖掘的形式D)数据转化;把连续数据转换为离散数据答案:D解析:数据转化多为将字符型数据转换为数值型数据。例如将性别[男,女]分别转换为[0,1]。[单选题]13.HBase内部保留名为-ROOT-和.META.的特殊目录表,它们维护着当前集群上所有区域的列表、状态和()。A)大小B)类型C)位置D)时间答案:C解析:[单选题]14.当图像通过信道传输时,噪声一般与()无关。A)信道传输的质量B)出现的图像信号C)是否有中转信道的过程D)图像在信道前后的处理答案:B解析:[单选题]15.HBase依靠()存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持。[单选题]16.以下哪一项不属于创建Loader作业时必选项?A)优先级B)名称C)连接D)类型答案:A解析:[单选题]17.将内存引用赋值给另一个变量的操作叫(__)。A)深拷贝B)指针C)参数实例化D)浅拷贝答案:D解析:[单选题]18.关于数据组织的维度描述正确的是A)二维数据由对等关系的有序或无序数据构成B)高维数据由关联关系数据构成C)CSV是一维数据D)一维数据采用线性方式存储答案:D解析:[单选题]19.假设file是文本文件对象,下列哪个选项可读取file的一行内容?()A)file.read()B)file.read(200)C)file.readline()D)file.readlines()答案:C解析:[单选题]20.下面关于推荐系统的描述错误的是:()A)推荐系统是自动联系用户和物品的一种工具B)和搜索引擎相比.推荐系统通过研究用户的兴趣偏好,进行个性化计算C)推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求D)推荐系统是一种只能通过专家进行人工推荐的系统答案:D解析:[单选题]21.执行下面操作后,list2的值是[()]。$;$list1=[4,5,6]$;$list2=list1$;$list1[2]=3A)4,5,6B)4,3,6C)4,5,3D)其他答案都不正确答案:C解析:[单选题]22.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统识别狱警、小偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是()。A)二分类问题B)层次聚类问题C)多分类问题D)回归问题答案:C解析:涉及4种人员类别属于多分类问题。[单选题]23.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测A)ARMA模型B)AR模型C)MA模型D)GARCH模型答案:D解析:[单选题]24.大数据计算服务中,临时数据表tmp_item是一张非分区表,开发人员在建表时指定了lifecycle属性为30,且使用一次后未再进行任何操作和访问。30天后这张表会()。A)tmp_item会被自动重命名为tmp_item.deletedB)tmp_item表会被自动删除掉C)不会任何变更D)tmp_item中的数据会被清空,表结构仍存在答案:B解析:[单选题]25.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分()。A)设C=1B)设C=0C)设C为无穷大D)以上答案都不正确答案:C解析:C无穷大保证了所有的线性不可分都是可以忍受的。[单选题]26.a与b定义如下,下列哪个是正确的()。a='123'b='123'A)a!=bB)aisbC)a==123D)a+b=246答案:B解析:[单选题]27.以下关于数据分析语言说法错误的是()A)Java、C等语言是为软件开发设计的,不适合做数据科学任务B)在Python中调用R语言C)在R中不可以调用Python语言D)在数据科学分析任务中使用R语言的根本原因在于:主流R包的开发者都是统计学、机器学习领域的大牛答案:C解析:[单选题]28.HDFS架构中有两个()。A)DataNodesB)JobTrackeC)NameNodeD)SecondayNameNode答案:C解析:[单选题]29.Hive是用Java开发的,Hive里的基本数据类型和Java的基本数据类型也是一一对应的,虽然受到一些MySQL命名的影响。默认情况下,整数常量被当做()处理,浮点数常量默认被当做()类型。A)int,floatB)int,doubleC)bigint,floatD)bigint,double答案:B解析:[单选题]30.哪个不是StructuredStreaming中OutPut可以定义的存储方式?A)UpdateModeB)JDBCModeC)CompleteModeD)AppendMode答案:B解析:[单选题]31.关于特征工程,以下说法错误的是:A)本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用;B)数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已C)特征抽取是尽可能多的发掘特征,但过多的特征会造成冗余、噪声、过拟合等问题;D)特征工程是数据分析的第一步答案:D解析:[单选题]32.HBase依靠()存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持。[单选题]33.IB、M认为,大数据是拥有以下4个共同特点(又称?4V?)中任意一个的数据源:极大的数据量级、以极快的速度移动、极广泛的数据源类型,以及()。A)、极高的准确性B)、极高的多样性C)、极高的长久性D)、极高的真实性答案:D解析:[单选题]34.在下列算法中,对于缺失值敏感的模型为(___)。A)随机森林B)逻辑回归C)C5.0D)朴素贝叶斯答案:B解析:[单选题]35.下面哪个不是Hadoop生态系统的组件:()A)HDFSB)SQLServerC)MapReduceD)HBase答案:B解析:[单选题]36.HDFS中Namenode的主备仲裁,是由哪个组件控制的A)HDFSClientB)NodeManagerC)ResourceManagerD)ZooKeeperFailoverController答案:D解析:[单选题]37.hadoop中,下面关于向文件系统中添加一个文件的过程,错误的是()A)需要创建路径的父目录B)需要创建一个新的INode文件C)将新的INode文件加入到namespace中去D)将所有操作记录到EditLog中去答案:D解析:不是所有操作,是只有写操作[单选题]38.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。A)AprioriB)EMC)PCAD)PAC答案:A解析:Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。PCA是无监督的降维算法。概率近似正确(PAC)学习理论是计算学习理论中最基本的理论。最大期望算法(expectationmaximumEM),是一类通过迭代进行极大似然估计的优化算法。[单选题]39.图像降噪的作用(__)。A)改变图像大小B)将图像分成多个小单位C)去除干扰信号D)使图像变得更加丰富答案:C解析:[单选题]40.()肯定是宽依赖操作。A)mapB)fiatMapC)reduceByKeyD)sample答案:C解析:[单选题]41.若采用留出法将数据集D划分为训练集S和测试集T,其中D包含1300个样本,S包含700个样本,模型在T上有60个样本分类错误,那么该模型的精度为()。A)0.954B)0.9C)0.1D)0.049答案:B解析:[单选题]42.关于Spark的说法中,()是错误的。A)采用内存计算模式B)可利用多种语言编程C)主要用于批处理D)可进行map()操作答案:C解析:HadoopMapReduce主要用于批处理,与Hadoop不同的是,Spark更为通用一些,可以很好地支持流计算、交互式处理、图计算等多种计算模式。[单选题]43.下列关于GaussDB200的数据类型转换说法正确的是()A)如果需要保留空字符串时,需要新建兼容性为Postgres的数据库。B)在查询中,对常量不需要显式指定数据类型。C)在ORACLE兼容模式下,在导入数据时,空字符串会自动过滤。D)不同数据类型比较或转换时,使用强制类型转换,以防隐式类型转换结果与预期不符。答案:D解析:[单选题]44.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A)计划B)执行C)检查D)改进答案:B解析:[单选题]45.关于层次聚类算法:①不断重复直到达到预设的聚类簇数;②不断合并距离最近的聚类簇;③对初始聚类簇和相应的距离矩阵初始化;④对合并得到的聚类簇进行更新正确的执行顺序为()A)①②③④B)①③②④C)③②④①D)③④①②答案:C解析:[单选题]46.在HBase数据模型中,不可以作为行键的是()。A)字符串B)整数C)二进制串D)并行化的结构答案:D解析:[单选题]47.()是一个类似Facebook的scribe的分布式,高可靠,高可用,高校的数据收集器。A)OozieB)FlumeC)SqoopD)Hue答案:B解析:[单选题]48.np.sort()函数返回的是()。A)已排序的原数组B)排好序的数组拷贝C)原数组D)原数组的拷贝答案:B解析:np.sort()返回拷贝,Ndarray的sort()在原地操作,类似于Python的sorted()与sort()。[单选题]49.以下不是python中的关键字A)raiseB)withC)importD)final答案:D解析:[单选题]50.下列选项中,哪一项是研究大数据最重要的意义()A)分析B)统计C)测试D)预测答案:D解析:研究大数据,最重要的意义是预测[单选题]51.在GaussDB200的存储过程中,语句number=0的意思是(?A)判断number的值是否为0B)声明一个变量number.并初始化值为0。C)修改变量number的值为0D)比较number和的大小。答案:B解析:[单选题]52.()对监管数据质量承担最终责任A)董事长B)风险管理部C)行长D)数据运管部答案:A解析:[单选题]53.Kafka集群必须依赖于下列哪一个组件?A),HDFSB)YarnC)FlumeD)Zookeeper答案:D解析:[单选题]54.()是MapReduce的?心脏?,是?奇迹?发生的地方A)CombineB)ShuffleC)PartitionD)Sort答案:B解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.泛在电力物联网总体架构中的外部客户分为()等A)能源供应商B)设备制造商C)生态客户D)政府部门答案:ABCD解析:[多选题]56.以下关于数据中心、业务系统访问权限的说法不正确的有()。A)数据中心、业务系统访问权限实行匿名制管理B)对数据中心、业务系统权限账号的登录时间、时长等实行痕迹管理C)数据中心、业务系统权限账号供责任人登录使用,也可借与他人D)数据中心、业务系统权限账号密码不超过3天要更换一次答案:ACD解析:[多选题]57.YARN中,?从?节点负责以下哪些工作?A)集群中所有资源的统一管理和分配B)监督container的生命周期管理C)监控每个Container的资源使用答案:内存、CPU等情况D)管理日志和不同应用程序用到的附属服务答案:BC解析:[多选题]58.关于SparkSQL&Hive区别与联系,下列说法正确的是?A)SparkSQL依赖Hive的元数据B)SparkSQL的执行引擎为Sparkcore,Hive默认执行引擎为MapReduceC)SparkSQL不可以使用Hive的自定义函数D)SparkSQL兼容绝大部分Hive的语法和函数答案:ABD解析:[多选题]59.使用支持向量机算法时,要求先对数据进行标准化处理。标准化是一种把数据缩放到一定范围的算法。下面哪些方法是标准化方法?()A)StandardB)NumAssemableC)MinMaxScalerD)MaxAbsScaler答案:ACD解析:[多选题]60.kafka中删除消息的阈值有几种?A)硬盘总空间大小B)分区总日志大小C)数据使用的频军D)数据产生的时间答案:BD解析:[多选题]61.下面哪些关键词是Kafka的特点?A)高吞吐B)分布式C)消息持久化D)支持消息随机读取答案:ABC解析:[多选题]62.矩形块图可以用()来展示对应指标值的大小。A)矩形面积B)颜色C)矩形大小D)形状答案:ABC解析:[多选题]63.请分析,以下哪些是高级持续性威胁(APT)的特点?A)有目的、有针对性全程人为参与的攻击B)不易被发现C)此类威胁,攻击者通常长期潜伏D)一般都有特殊目的(盗号、骗钱财、窃取保密文档等)答案:ABCD解析:[多选题]64.区块链的三要素是:()A)交易B)区块C)链D)比特币答案:ABC解析:[多选题]65.完成智慧物联体系试点建设,试点建成企业级物联管理中心,实现()100%标准化接入和统一物联管理,初步具备能力开放功能A)输变电B)配用电C)客户增量设备D)基础增量设备答案:ABC解析:[多选题]66.HBase读数据时需要读取哪几部分数据?A)HlocB)MemStoreC)HfileD)HDFS答案:BC解析:[多选题]67.以下()属于线性分类器最佳准则?A)感知准则函数B)贝叶斯分类C)支持向量机D)Fisher准则答案:ACD解析:[多选题]68.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包括()等元素。A)关键字B)时间戳C)列簇D)数据类型答案:ABC解析:[多选题]69.关于Scan命令,下列说法正确的有哪些?A)scan可以通过setCaching与setBatch方法提高速度B)scan可以通过setFilter方法添加过滤器C)scan可以通过setStartRow与setEndRow来限定范围D)scan读取数据是一次性全部把数据从服务端读取到答案:ABCD解析:[多选题]70.创建GaussDB200的索引时,应注意以下哪些事项()A)素引的设计与业务强相关,与数据无关。B)一般在经常排序的字段上添加素引。C)素引的设计与数据强相关,与业务无关。D)一般在热点数据上添加索引。答案:ABD解析:[多选题]71.噪声数据的产生原因主要有()。A)数据采集设备有问题B)在数据录入过程中发生了人为或计算机错误C)数据传输过程中发生错误D)由于命名规则或数据代码不同而引起的不一致答案:ABCD解析:噪声数据的产生原因主要有数据采集设备有问题、在数据录入过程中发生了人为或计算机错误、数据传输过程中发生错误、由于命名规则或数据代码不同而引起的不一致。[多选题]72.用于比较的运算符是()A)>=B)C)!=D)==答案:ABCD解析:[多选题]73.根据泛在电力物联网2019年建设方案,大力发展新兴业务,坚持()和()相结合A)理论指导B)顶层设计C)基层首创D)实际应用答案:BC解析:[多选题]74.ss=ShuffleSplit(n_splits=4,random_state=0,test_size=0.25)对这句代码说法正确的是(__)。A)采用了k折交叉验证法B)划分训练集和测试集的次数是4次C)测试集和训练集的比例一定是1:4D)测试集的个数是:n×0.25向上取整答案:BD解析:[多选题]75.GraphBase数据底层可以存储在哪里?A)HBaseB)MySQLC)HDFSD)ElasticSearch答案:AD解析:[多选题]76.使用下面哪种图表类型能更好地表示随时间(年、月和日)或类别变化的趋势?()A)饼图B)折线图C)面积图D)柱形图答案:BD解析:[多选题]77.自助审贷中下列哪些客户会被严禁准入()A)九种人范畴B)我行黑名单C)我行存款大户D)年龄16岁答案:ABD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Series与Index的类型是ExtensionArray时,to_numpy()会复制数据,并强制转换值。A)正确B)错误答案:对解析:[判断题]79.一条SPU可以包含多个SKU的信息。--A)正确B)错误答案:对解析:[判断题]80.GatedRecurrentunits的出现可以帮助防止RNN中的梯度消失问题。A)正确B)错误答案:对解析:[判断题]81.BloomFilter可以被用来快速的判断-条数据在一个大的数据集合中是否存在。A)正确B)错误答案:对解析:[判断题]82.信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。A)正确B)错误答案:错解析:[判断题]83.只能通过切片访问元组中的元素,不能使用切片修改元组中的元素。A)正确B)错误答案:对解析:[判断题]84.Hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。()A)正确B)错误答案:错解析:[判断题]85.列存表的辅助表CUDesc也是列存表。A)正确B)错误答案:错解析:[判断题]86.Gremlin支持同步提交和异步提交。A)正确B)错误答案:对解析:[判断题]87.插入数据时指定的字段列表必须与表结构相同。--A)正确B)错误答案:错解析:[判断题]88.大数据发展必须是数据、技术、思维三大要素的联动,缺一不可A)正确B)错误答案:对解析:[判断题]89.表级约束仅建立在一个字段上时,其作用效果与列级约束相同。--A)正确B)错误答案:对解析:[判断题]90.GaussDB200在内部使用行标识符(CTID)记录数据在表中的逻辑位置。A)正确B)错误答案:错解析:[判断题]9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论