大数据开发基础(习题卷4)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：66 大小：78.49KB 积分：3.6 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.Hadoop作者A)MartinFowlerB)KentBeckC)Dougcutting[单选题]2.Hadoop平台中HBase的Region是由哪个服务进程来管理？A)HMasterB)DataNodeC)RegionSever.D)Zookeeper[单选题]3.我国首家大数据交易所是：（）A)貴阳大数据交易所B)上海数据交易中心C)华东江苏大数据交易中心D)浙江大数据交易中心[单选题]4.（__)也称为?基于密度的聚类?A)原型聚类B)密度聚类C)层次聚类D)AGNES[单选题]5.()可以减少相同数据重复存储的现象A)记录B)字段C)文件D)数据库[单选题]6.将数据块存储大小设置为128M,HDFS客户端在写文件时，当写入一个100M大小的文件，实际占用储存空间为:（）。A)128MB)100MC)64MD)50M[单选题]7.在数据库设计中用关系模型来表示实体和实体间的联系。关系模型的结构是()A)二维表结构B)层次结构C)网状结构D)封装结构[单选题]8.下列关于Python语言特点的描述错误的是（）。A)Python语言是非开源语言B)Python语言是跨平台语言C)Python语言是多模型语言D)Python语言是脚本语言[单选题]9.以下能够删除一列的是()A)altertableempremoveaddcolumnB)altertableempdropcolumnaddcolumnC)altertableempdeletecolumnaddcolumnD)altertableempdeleteaddcolumn[单选题]10.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A)暂时隔离B)暂时删除C)永久删除D)不做处理[单选题]11.()是压缩跟解压缩工具，它的应用包括将mr的最终输出结果压缩起来。A)AvroB)HttPFSBC)MahoutD)Snappy[单选题]12.下列说法错误的是？A)HadoopMapReduce是MapReduce的开源实现，后者比前者使用门槛低很多B)MapReduce采用非共享式架构，容错性好C)MapReduce主要用于批处理、实时、计算密集型应用D)MapReduce采用?分而治之?策略[单选题]13.ADS存储数据的时候采用的模型是（）？A)雪花型模型B)关系型模型C)星型模型D)多维模型[单选题]14.交叉连接后每条记录中含有的字段数等于()。--A)CROSSJOIN左侧表的字段B)参与交叉连接表的字段乘积C)参与交叉连接表的字段和D)以上答案都不正确[单选题]15.个人贷款风险评价应以分析借款人()为基础，采取定量和定性分析方法，利用大数据技术，全面、动态地进行贷款审查和风险评估。A)学历B)现金收入C)固定资产D)抵(质)押物[单选题]16.机器学习中,基于样本分布的距离是()。A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离[单选题]17.YARN中资源抽象用什么表示？A)内存B)CPUC)ContainerD)磁盘空间[单选题]18.Pig在本地模式下，运行在单个()中，访问本地文件系统。A)ETLB)JRMC)JVMD)Pig[单选题]19.下列关于Hive支持的文件存储格式TEXTFILE描述错误的是（）A)TEXTFILE为默认格式B)TEXTFILE文件格式数据会压缩C)TEXTFILE文件格式磁盘开销大D)TEXTFILE文件格式数据解析开销大[单选题]20.不属于循环神经网络的输出模式是()A)单输出B)多输出C)同步多输出D)异步多输出[单选题]21.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A)活性B)惰性C)实时D)非实时[单选题]22.下列哪种去噪方法能较好的保持图像边缘。（）A)中值滤波B)双边滤波C)均值滤波D)高斯滤波[单选题]23.HBase中的所有数据文件都存储在HadoopHDFS上，主要有HFile格式与()格式A)HTXTB)HLogC)HLogFileD)HFileLog[单选题]24.DRDS和普通的关系型数据库（如MySQL）相比，SQL优化要特别考虑的是:（）。A)磁盘IO开销B)内存开销C)并发度D)网络IO开销[单选题]25.在HDFS中，用于保存数据的节点是（）A)namenodeB)datanodeC)secondaryNodeD)yarn[单选题]26.关于高偏差说法错误的是()A)、随着训练样本数增多,训练准确率和交叉验证准确率趋于收敛,但与理想取值的偏差很大B)、高偏差意味着模型在训练集和交叉验证集上的准确率都很低,很可能存在?欠拟合?现象。C)、造成欠拟合的主要原因有两个:一是所训练出的模型过于简单;二是所选择的特征32属性并不提供充分信息,与本模型的功能并不相关。D)、高偏差表示对应模型很可能存在?过拟合?现象。[单选题]27.如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为（）。A)无序规则B)穷举规则C)互斥规则D)有序规则[单选题]28.通常,()主要指的是关系数据库中存储、计算和管理的数据。A)结构化数据B)海量数据C)半结构化数据D)非结构化数据[单选题]29.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A)计划B)执行C)检查D)改进[单选题]30.下面关于对Zookeeper的stat命令描述正确的是()。A)输出服务器的统计信息B)重置服务器的统计信息C)输出服务器的配置信息D)输出服务器的统计信息和已连接的客户端[单选题]31.（）负责HDFS数据存储。A)NameNodeB)JobTrackerC)DataNodeD)SecondaryNameNode[单选题]32.在回归模型中,()在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大。A)多项式阶数B)更新权重w时,使用的是矩阵求逆C)使用常数项D)使用梯度下降法[单选题]33.Flink的数据转换操作在：（）环节中完成。A)channelB)TransformationC)sinkD)source[单选题]34.下列关于LSTM的说法错误的是（）。A)LSTM中存在sigmoid函数B)LSTM中存在tanh函数C)LSTM又称长短时记忆网络D)RNN是LSTM的变种[单选题]35.数据产品开发的关键技术是(__)。A)数据加工B)数据柔术C)数据艺术D)设计思维[单选题]36.下面不属于对学习器的泛化误差进行评估的方法是（__)A)留出法B)交叉验证法C)自助法D)网格搜索法[单选题]37.()也称为非空约束,是为了给一列数据设置一个区间或者取值集合或设置不能是空值。A)默认值约束B)检查约束C)唯一性约束D)外键约束[单选题]38.（）在划分属性时是在当前结点的属性集合中选择一个最优属性。A)AdaBoostB)RFC)BaggingD)传统决策树[单选题]39.卷积神经网络中说的梯度下降，是指（）的梯度。A)参数本身B)激活函数C)损失函数D)图像大小[单选题]40.以下关于HDFS的特点描述不正确的是（）。A)大数据量吞吐B)低延迟读取C)流式数据读取D)大文件存储与访问[单选题]41.下列选项中，不会加剧数据信息泄露风险的是（）。A)不限制大数据搜集内容B)数据中心内的大数据清洗C)互联网平台进行大数据处理D)个人移动设备参与大数据存储[单选题]42.下列选项中，不能创建一个Series对象的是（）A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)[单选题]43.下列国家的大数据发展行动中，集中体现?重视基础、首都先行?的国家是（）。A)美国B)日本C)中国D)韩国[单选题]44.在HDFS中依赖于哪个组件来完成两个NameNode之间的主备选举？A)JournalNodeB)SecondNameNodeC)ZooKeeperD)DataNode[单选题]45.当前大数据技术的基础是由（）首先提出的。A)微软B)百度C)谷歌D)阿里巴巴[单选题]46.下列关于大数据的分析理念的说法中,错误的是()。A)在数据基础上倾向于全体数据而不是抽样数据B)在分析方法上更注重相关分析而不是因果分析C)在分析效果上更追求效率而不是绝对精确D)在数据规模上强调相对数据而不是绝对数据[单选题]47.在SparkSQL中，（）使用了新的编码器，其编码器的作用是将VM的对象与表结构进行转换，允许操作序列化数据，可以提高内存利用率。A)DataFrameB)TableC)DataSetD)RDD[单选题]48.Hadoop的特性不包括（）。A)高可靠性B)高效性C)高可扩展性D)低容错性[单选题]49.如果想获取一个序列内最大数字会使用内置函数A)minB)maxC)lenD)for[单选题]50.（）负责组织制定电力监控系统数据安全保护方案，并对安全保护措施技术落实情况进行检查。A)国调中心B)国网安质部C)国网信通部D)网络安全和信息化领导小组[单选题]51.下列关于Hive的说法正确的是（）。A)Hive支持频繁数据更新B)Hive不支持索引C)Hive支持批量导入D)Hive的可扩展性差[单选题]52.大数据计算服务中，临时数据表tmp_item是一张非分区表，开发人员在建表时指定了lifecycle属性为30，且使用一次后未再进行任何操作和访问。30天后这张表会（）。A)tmp_item会被自动重命名为tmp_item.deletedB)tmp_item表会被自动删除掉C)不会任何变更D)tmp_item中的数据会被清空，表结构仍存在[单选题]53.以下哪项不属于数据挖掘的内容?()A)补充与完善路网属性B)多维分析统计用户出行规律C)高德地图导航有躲避拥堵功能D)建立道路拥堵概率与拥堵趋势变化模型[单选题]54.如果想在hadoop文件系统中通过键盘输入来创建一个文件，你应该使用下列哪种方法（）A)copy()B)copyFromStdin()C)printToStdout()D)copyFromLocal()[单选题]55.Python中使用（）符号表示单行注释。A)#B)/C)//D)[单选题]56.下列Python赋值语句中，不合法的是（）。A)x,y=y,xB)x=y=1C)x=(y=1)D)x=1;y=1[单选题]57.random库中用于生成随机小数的函数是（）。A)random（）B)randint（）C)getrandbits（）D)randrange（）[单选题]58.GES能够处理海量数据的原因是（）。A)基于HBase的分布式存储机制B)图机制特性C)基于Elasticsearch的素引机制D)基于Spark的分布式内存计算技术[单选题]59.大数据开发套件Dataworks支持数据分析项目的全流程开发，以下的说法中不正确的是：（）。A)开发人员在数据开发和数据理模块中完成数据输入，数据加工，数据输出等工作B)部署或是运维人员可以根据最新的开发结果生成发布包C)部署人员或是运维人员可以通过发布管理模块完成发布包发布D)运维人员可以在运维中心模块中，监控生产环境下的数据运行情况[单选题]60.数据资产应用（）以为前提，按照?谁经手，谁使用，谁负责?的原则，落实安全与保密责任。A)来源明确B)冗余率低C)分类清晰D)安全可控[单选题]61.执行以下代码段t=(1,2)print(2*t)时，输出为()。A)(1,2,1,2)B)[1,2,1,2]C)(1,1,2,2)D)[1,1,2,2][单选题]62.如想定义字符串，应使用（）A)listB)setC)strD)dict[单选题]63.我们想要减少数据集中的特征数,即降维.选择以下适合的方案:1.使用前向特征选择方法2.使用后向特征排除方法3.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征.4.查看相关性表,去除相关性最高的一些特征A)1和2B)2,3和4C)1,2和4D)1,2,3和4[单选题]64.按照KB、MB、GB、TB、PB的有小到大顺序，下列换算错误的是A)1KB=1024ByteB)1MB=1024KBC)1TB=1024MBD)1PB=1024TB[单选题]65.下列关于饼图缺点的说法中,错误的是()A)当饼图中组成部分比例接近时,人眼很难准确判别B)数据项中不能有负值C)饼图不太适用于分类特别多的数据集,因为会使每个组成部分占比极小,不具有直观效果D)饼图展示的效果虽然直观,但不够简单[单选题]66.关于Hive与Hadoop其他组件的关系。以下描述错误的是?A)Hive最终将数据存储在HDFS中B)Hive是Hadoop平台的数据仓库工具C)HQL可以通过MapReduce执行任务D)Hive对HBase有强依赖[单选题]67.下面关于协同过滤算法的描述错误的是：()A)基于用户的协同过滤算法（简称UserCF算法）是推荐系统中最古老的算法，可以说，UserCF的诞生标志着推荐系统的诞生B)基于物品的协同过滤算法（简称ItemCF算法）是目前业界应用最多的算法C)基于模型的协同过滤算法（ModelC是通过已经观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品D)UserCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。[单选题]68.执行以下代码段importmathprint(math.factorial(5))时，输出为()。A)120B)15C)[1,2,3,4,5]D)3125[单选题]69.使用似然函数的目的是()。A)求解目标函数B)得到最优数据样本C)找到最适合数据的参数D)改变目标函数分布[单选题]70.从加工程度看，数据产品可以包含的选项有(__)；1.内容，2.情感，3.服务，4.应用，5.决策，6.智慧。A)1234B)1356C)1345D)3456[单选题]71.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的()。A)定量思维B)相关思维C)因果思维D)检验思维[单选题]72.以下（）不是由MaxCompute接入层提供的服务。A)HTTP服务B)LoadBalanceC)括用户空间管理操作D)用户认证[单选题]73.关于数据服务中，app说法正确的是:（）。A)一个用户只能创建一个APPB)一个APP只能申请一个API的权限C)一个用户可以创建多个APP，一个APP可以申请多个API的权限D)一个API只能被一个APP使用[单选题]74.假负率是指()A)正样本预剧结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数[单选题]75.以下选项中，不是建立字典的方式是A)d={[1,2]:1,[3,4]:3}B)d={(1,2):1,(3,4):3}C)d={'张三':1,'李四':2}D)d={1:[1,2],3:[3,4]}[单选题]76.部署FusionInsightHD时,同一集群内的FlumeServer节点建议至少部署几个?A)1B)3C)4D)2[单选题]77.假设文件不存在，如果使用open（）打开文件会报错，那么该文件的打开方式是（）。A)'r'B)'w'C)'a'D)'w'[单选题]78.在使用pyplot画图时，线条相关属性标记不能设置（）。A)'*'B)'T'C)'D'D)'8'[单选题]79.GaussDB200支持什么格式的数据存储?A)行存储B)列存储C)行列混存D)以上都对[单选题]80.下列关于在回归分析中解释变量与非解释变量的说法正确的是（）。A)解释变量和被解释变量都是随机变量B)解释变量为非随机变量，被解释变量为随机变量C)解释变量和被解释变量都为非随机变量D)解释变量为随机变量，被解释变量为非随机变量[单选题]81.（）是指制定数据资产发展战略、规划和年度计划并组织实施。A)数据资产规划与计划管理B)发展战略管理C)数据质量管理D)年度使用计划管理[单选题]82.下列关于Spark的描述，错误的是哪一项？A)使用DAG执行引擎以支持循环数据流与内存计算析B)可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中C)支持使用Scala、Java、Python和R语言进行编程，但是不可以通过SparkShell进行交互式编程D)可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中[单选题]83.某项目小组接到一个大数据实时分析项目，且对实时性要求很高，以下哪种大数据计算框架最合适？A)SparkB)FlinkC)HBaseD)MapReduce[单选题]84.若a=range(100)，以下哪个操作是非法的（）。A)a[-0.3]B)a[2:13]C)a[::3]D)a[2-3][单选题]85.互联网信息化的发展的动力是()A)技术创新B)原创性创新C)机制创制D)模式创新[单选题]86.下列关于RDD说法，描述有误的是？A)一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合B)每个RDD可分成多个分区，每个分区就是一个数据集片段C)RDD是可以直接修改的D)RDD提供了一种高度受限的共享内存模型[单选题]87.以下描述错误的是:A)在终极的分析中,一切知识都是历史B)在抽象的意义下,一切科学都是数学C)在理性的基础上,所有的判断都是统计学D)在数据角度上,一切决策都是随机的[单选题]88.大数据的4V特点：Volume、Velocity、Variety、Veracity，其中Volume的含义是（）A)价值密度低B)处理速度快C)数据类型繁多D)数据体量巨大[单选题]89.关于支持向量机SVM，下列说法错误的是（）A)L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力B)Hinge损失函数，作用是最小化经验分类错误C)分类间隔为1/||w||，||w||代表向量的模D)当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习[单选题]90.以下有关计算机编程语言说法错误的是?A)编程语言是用于书写计算机程序的语言B)计算机语言可分为机器语言、汇编语言、高级语言C)计算机能识别和执行所有编程语言写的程序D)C/C++、pascal、javpython都属于高级编程语言[单选题]91.执行以下代码段my_tuple=(1,2,3,4)my_tuple.append((5,6,7))print(len(my_tuple))时，输出为()。A)4B)5C)7D)Error[单选题]92.下列关于数据分析的说法正确的是（）。A)描述性分析和预测性分析是诊断性分析的基础B)诊断性分析是对规范性分析的进一步理解C)预测性分析是规范性分析的基础D)规范性分析是数据分析的最高阶段，可以直接产生产业价值[单选题]93.关于Hive自定义UDF描述错误的是（）。A)普通的UDF，用于操作单个数据行，且产生一个数据行作为输出。B)永久函数，可以在多个会话中使用，不需要每次创建。C)用户定义表生成函数UDTF，用于接受多个输入数据行，并产生一个输出数据行。D)临时函数，只能在当前会话使用，重启会话后需要重新创建[单选题]94.数据、信息、知识三者之间的变化趋势是？A)价值先增后减B)价值递减C)价值递增D)价值不变[单选题]95.plt.plot()函数的功能是(__)。A)展现变量的趋势变化B)寻找变量之间的关系C)设置x轴的数值显示范围D)设置x轴的标签文本[单选题]96.关于FusionInsightManager，说法错误的是？A)NTPsever/client负责集群内各节点的时钟同步B)通过FusionInsightManager，可以对HDFS进行启停控制、配置参数C)FusionInsightManager所有维护操作只能够通过WebUI来完成，没有提供Shell维护命令D)通过FusionInsightManager，可以向导式安装集群，缩短集群部署时间[单选题]97.np.sort()函数返回的是（__)。A)已排序的原数组B)排好序的数组拷贝C)原数组D)原数组的拷贝[单选题]98.下列哪些不是HBase的特点()A)高可靠性B)高性能C)面向列D)紧密性[单选题]99.关于数据产品，以下说法错误的是()。A)数据产品的存在形式是数据集B)与传统物质产品不同的是，数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品，也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动[单选题]100.下⾯哪个操作是窄依赖（）A)joinB)filterC)groupD)sort[单选题]101.关于boosting下列说法错误的是()A)Boosting方法的主要思想是迭代式学习B)训练基分类器时采用并行的方式C)测试时，根据各层分类器的结果的加权得到最终结果D)基分类器层层叠加，每一层在训练时，对前一层基分类器分错的样本给予更高的权值[单选题]102.对连续图像的离散化采样决定了图像的()。A)空间分辨率B)时间分辨率C)地面分辨率D)灰度值[单选题]103.某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下哪个命令能帮助他完成这个操作？A)-catB)-uploadC)-putD)-get[单选题]104.下列语句描述错误的是()A)可以通过CLI方式、JavaAPI方式调用SqoopB)Sqoop底层会将Sqoop命令转换为MapReduce任务，并通过Sqoop连接器进行数据的导入导出操作。C)Sqoop是独立的数据迁移工具，可以在任何系统上执行。D)如果在Hadoop分布式集群环境下，连接MySQL服务器参数不能是localhost或。[单选题]105.如果对相同的数据进行逻辑回归，将花费更少的时间，并给出比较相似的精度（也可能不一样），怎么办？A)降低学习率，减少迭代次数B)降低学习率，增加迭代次数C)提高学习率，增加迭代次数D)增加学习率，减少迭代次数[单选题]106.对于Boosting算法描述错误的是()A)可将强学习器降为弱学习器B)从初始训练集训练基学习器C)对训练样本分布进行调整D)做错的训练样本多次训练[单选题]107.下面说法错误的是()。A)可以利用统计量对缺失值进行填补B)可以利用K近邻值对缺失值进行填补C)只要有缺失值就必须把对应记录删除D)对于缺失值较多的属性可以考虑删除[单选题]108.在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是A)Job和JobControl类可以管理非线性作业之间的依赖B)ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C)使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象D)ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高[单选题]109.专家系统的正向推理是以（）作为出发点，按照一定的策略，应用知识库中的知识，推断出结论的过程。A)需要解决的问题B)已知事实C)证明结论D)表示目标的谓词或命题[单选题]110.使用numpy.arange(0,11,2)表示的结果为？A)[0,2,4,6,8]B)[2,4,6,8,10]C)[0,2,4,6,8,10]D)[0,2,4,6,8,10,12][单选题]111.在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A)keysofmapper'soutputB)valuesofmapper'soutputC)keysofreducer'soutputD)valuesofreducer'soutput[单选题]112.np.dsplit()函数的作用是（__)。A)沿着它的水平轴分割B)沿着纵向的轴分割C)允许指定沿哪个轴分割D)按深度方向分割[单选题]113.下面说法错误的是（）A)可以利用统计量对缺失值进行填补B)可以利用K近邻值对缺失值进行填补C)只要有缺失值就必须把对应记录删除D)对于缺失值较多的属性可以考虑删除[单选题]114.信息增益、增益率分别对可取值数目（）的属性有所偏好。A)较高，较高B)较高，较低C)较低，较高D)较低，较低[单选题]115.Hive是基于Hadoop的数据仓库软件，最大可以查询和管理（）级别的分布式数据。A)TBB)GBC)PBD)MB[单选题]116.BP算法基于（__）策略，以目标的（__）梯度方向为参数进行调整。A)前向传播，正B)梯度下降，负C)前向传播，负D)梯度下降，正[单选题]117.下面有关NameNode安全模式(safemode)说法错误的是（）A)namespace处于安全模式时只能被读取B)NameNode启动时自动进入安全模式C)调用setSafeMode()函数能够打开或关闭安全模式D)安全模式下不能够复制或删除文件中的数据块[单选题]118.公司（）负责研究审议网络与数据安全总体方针、重大政策和重大事项。A)国网安质部B)国网信通部C)网络安全和信息化领导小组D)国网办公厅[单选题]119.在IBM提出的企业管理范畴中，企业数据不包含(__)。A)元数据B)主数据C)关系数据D)业务数据[单选题]120.将转换后的数据装载到目的数据源，该过程称为()。A)数据抽取B)数据转换C)数据加载D)数据存储[单选题]121.关于TF-IDF模型，以下描述错误的是()。A)TF意思是词频B)IDF是逆文本频率C)该模型是一种统计方法D)该模型基于聚类方法[单选题]122.数据科学处于哪三大领域的重叠之处()。A)数学与统计知识、黑客精神与技能、领域实务知识B)数据挖掘、黑客精神与技能、领域实务知识C)数学与统计知识、数据挖掘、领域实务知识D)数学与统计知识、黑客精神与技能、数据挖掘[单选题]123.对HDFS通信协议的理解错误的是（）.A)客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的B)客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互C)名称节点和数据节点之间则使用数据节点协议进行交互D)HDFS通信协议都是构建在IoT协议基础之上的[单选题]124.业务部门根据需要制定（）需求，提交新增数据申请，数据资产管理归口部门依据当前外部数据资源状况统筹组织获取，在公司内部共享使用。A)外部数据B)内部数据C)公共数据D)结构数据[单选题]125.关于bagging下列说法错误的是()A)各基分类器之间有较强依赖，不可以进行并行训练B)嘈最著名的算法之一是基于决策树基分类器的随机森林C)当训练样本数量较少时，子集之间可能有重叠D)为了让基分类器之间互相独立，需要将训练集分为若干子集[单选题]126.下列关于Sigmoid函数的说法错误的是（）。A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问题[单选题]127.数组的切片是原数组的（__)。A)副本B)视图C)无关变量D)子类[单选题]128.关于HDFS的特征,下列说法错误的是()。A)支持超大文件B)基于商用硬件C)流式数据访问D)低吞吐量[单选题]129.（）是用来解决海量大数据文件存储问题的，是目前应用最广泛的分布式文件系统。A)HDFSB)HBaseC)HIveD)Kafka[单选题]130.df.min()这个函数是用来（）A)找寻元素最小值B)找寻每行最小值C)找寻每列最小值D)以上都不对[单选题]131.下面关于主服务器Master主要负责表和Region的管理工作的描述，哪个是错误的？A)在Region分裂或合并后，负责重新调整Region的分布B)对发生故障失效的Region服务器上的Region进行迁移C)管理用户对表的增加、删除、修改、查询等操作D)不支持不同Region服务器之间的负载均衡[单选题]132.在采购网络产品和服务时，要与提供者签订保密协议，并审批重要数据的（）。A)数据量B)数据结构C)采集过程D)使用方法[单选题]133.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。A)数据仓库B)关系云C)数据库系统D)文件系统[单选题]134.DRDS默认每个实例创建（）数据库。A)16个B)64个C)1个D)8个[单选题]135.尿布啤酒是大数据分析的（）A)A/B测试B)分类C)关联规则挖掘D)数据聚类|[单选题]136.在一个3×3的图像区域内，如果中心像素值为5，它相邻的8个像素值的和为67，那么采用均值滤波后，中心像素的像素值为()。A)8B)9C)5D)72[单选题]137.下列关于Hive中连接查询描述正确的是（）A)Hive中连接查询只支持相等连接而不支持不等连接B)Hive中连接查询支持相等连接和不等连接C)Hive中连接查询只支持不等连接而不支持相等连接D)以上都不对[单选题]138.资源注册页面，点击solr增量索引的作用是：（）。A)创建索引B)增加索引C)更新索引D)删除索引[单选题]139.下列关于欠拟合（under-fitting）的说法正确的是（）。A)训练误差较大，测试误差较小B)训练误差较小，测试误差较大C)训练误差较大，测试误差较大D)训练误差较小，测试误差较小[单选题]140.开发Maxcompute的用户自定义标量函数，主要是实现其中的（）方法。A)evaluateB)mainC)iterateD)process[单选题]141.()是实现数据战略的重要保障。A)数据管理B)数据分析C)数据治理D)数据规划[单选题]142.推动优势资源商业化运营，重点是发挥公司（）企业优势，挖掘公司资产商业化潜力A)共享型B)经济型C)计划性D)多用型[单选题]143.关于GES技术原理，下列错误的是哪-项?A)基于HBase的分布式存储机制，能够处理海量数据B)基于ElasticSearch的素引机制，能够根据索引快速查询数据C)基于Varn的资源调度，可以并行执行多任务D)基于Spark的分布式内存计算技术，支持数据快速导入[单选题]144.池化层的作用是（）。A)标准化处理输入特征B)对特征图进行特征选择和信息过滤C)对提取的特征进行非线性组合以得到输出D)直接输出每个像素的分类结果第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.下列有关索引的描述正确的是()。A)索引的目的是为了增加数据操作的速度B)索引是数据库内部使用的对象C)索引建立的过多会降低数据更新的速度D)只能为一个字段建立索引[多选题]146.下列描述中正确的有（）。A)统计学是数据科学的理论基础之一B)Python语言是统计学家发明的语言C)机器学习是数据科学的理论基础之一D)数据科学是统计学的一个分支领域（子学科）[多选题]147.以下哪些选项是ElasticSearch主节点EsMaster功能?A)参与新建索引B)参与删除索引C)参与文档数据搜索D)参与文档数据变更[多选题]148.以下属于关联分析目标的是A)发现频繁项集B)发现关联规则C)得到训练模型D)分析数据结构[多选题]149.传统大数据质量清洗的特点有：A)确定性B)强类型性C)协调式的D)非确定性[多选题]150.随着社会数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来，数据规模已经增长到了传统软件行业无法承载的海量数据级别。大数据计算服务可以很多的利用存储和计算能力去处理、分析这些海量数据，发现价值。以下说法中正确的有:（）。A)大数据计算服务提供了高并发低延迟（毫秒级）的处理能力，对海量数据进行灵活分析B)大数据计算服务提供了高并发吞吐量上传下载工具，可以将外部数据源中的数据高效的同步到大数据计算服务中去C)大数据计算服务支持使用SQL或者MapReduce编程对海量数据进行处理D)大数据计算服务可以对海量数据进行基于复杂算法的分析，如聚类、分类、回归、主成分分析等。[多选题]151.FusionInsightManager可以对哪些项目进行健康检查A)主机B)服务C)角色D)实例[多选题]152.对于通过纸质、磁介质、光介质及半导体介质等各类物品形式提供给社会第三方的重要数据，说法正确的是（）A)须经省级单位业务主管部门以及分管领导审核，并通过总部业务主管部门审批，B)严格限制数据知悉范围C)与社会第三方签署数据安全保密协议D)不得私自复制、保存、打印相关数据[多选题]153.数据资产生成管理过程中，业务部门梳理本专业数据资产生成方式，结合业务需要和技术条件，按照（），制定本专业数据自动采集需求，提交数据资产管理归口部门审核。A)数据自动采集范围B)数据采集频度C)数据精度要求D)采集时间[多选题]154.关于K均值和DBSCAN的比较,以下说法正确的是（）A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇[多选题]155.基于统计的分词方法的优点有(__)。A)分速度快B)效率高C)结合上下文识别生词D)消除歧义[多选题]156.下面对字符串中的count（），index(),find()方法描述错误的是A)count()方法用于统计字符串里某个字符出现的次数B)find()方法检测字符串中是否包含子字符串str如果包含子字符串返回开始的索引值，否则会报一个异常C)index()方法检测字符串中是否包含子字符串str，如果str不在返回-1D)find()方法检测字符串中是否包含子字符串str，如果str不在返回-1[多选题]157.贝叶斯信念网络(BBN)有如下哪些特点（）A)构造网络费时费力B)对模型的过分问题非常鲁棒C)贝叶斯网络不适合处理不完整的数据D)网络结构确定后,添加变量相当麻烦[多选题]158.以下哪些方法可以直接来对文本分类？()A)KmeansB)决策树C)支持向量机D)KNN[多选题]159.数据加工是对原始数据按照需求进行各种各样的变换处理,最终形成简洁、规范、清晰、易于分析的数据。在实际业务处理中,数据通常是脏数据。以下情况中属于脏数据的有()A)数据缺失B)数据冗余C)数据噪声D)数据冗杂[多选题]160.Kafka的架构包括哪些组件：()A)话题（Topic）B)生产者（Producer）C)服务代理（Broker）D)消费者（Consumer）[多选题]161.Hive执行查询的时候会调用哪些模块？A)executorB)metaStoreC)complierD)optimizer[多选题]162.关于脏数据说法正确的是（）？A)格式不规范B)数据不完整C)编码不统D)意义不明确[多选题]163.对所收集的用户信息应严格保密，采取技术措施防止（）。A)信息泄露B)信息错误C)信息损毁D)信息丢失[多选题]164.下列选项中，属于Hadoop优势的有（）。A)扩容能力强B)可靠性C)低效率D)高容错性[多选题]165.图像数字化应该包括哪些过程A)采样B)模糊C)量化D)统计[多选题]166.Maxcompute通过eclipseplugin提供了MR的编程框架，开发时通常需要添加以下（）类。A)reducerB)mapreducedriverC)combinerD)mapper[多选题]167.阿里云MaxCompute中，下列对分区描述正确的是:（）。A)需要在创建表时指定分区空间B)以将分区类比为文件系统下的目录C)MaxCompute将分区列的每个直作为一个分区D)目前仅支持2级分区[多选题]168.大数据成为提升政府治理能力的新途径的管理机制包括（）等内容。A)用数据说话B)用数据决策C)用数据管理D)用数据创新[多选题]169.以下属于数据科学的研究目的的是()。A)数据洞见B)数据生态系统建设C)数据业务化D)数据产品的研发[多选题]170.以下关于归纳偏好说法正确的是（）A)机器学习算法中在学习过程对某种类型假设的偏好，称为归纳偏好B)奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则C)?没有免费的午餐?定理简称NFL定理。D)NFL定理前提：所有?问题?出现的机会相同、或所有问题同等重要[多选题]171.层次聚类的优点()A)距离和规则的相似度容易定义,限制少B)不需要预先制定聚类数C)可以发现类的层次关系D)可以聚类成其它形状[多选题]172.对于Maxcompute的多路输出（multiinsert），（）描述是不正确的。A)对于源表为分区表的，相同的一个分区不能出现多次B)目标表为分区表的，对于不同的分区，可以混合使用insertinto和insertoverwrite，对于相同的分区则不可混用C)一般情况下，单个sql中最多可以写128路输出D)对于源表为未分区表的，该表可以出现多次[多选题]173.常见的图像分割算法有()。A)基于区域的分割方法B)基于人工勾画的分割方法C)基于边缘的分割方法D)基于阈值的分割方法[多选题]174.OTS以（）的形式组织数据。A)schemaB)表组C)表D)实例[多选题]175.云计算的服务模式和类型主要包括哪三类？A)软件即服务（SaaS）B)平台即服务（PaaS）C)基础设施即服务（IaaS）D)数据采集即服务（DaaS）[多选题]176.数据质量的问题体现在（）A)完整性B)一致性C)合法性D)精确性[多选题]177.企业中台是一种实现公司核心资源（___）的理念和模式。A)共享化B)集约化C)集成化D)服务化[多选题]178.下列关于聚类，说法正确的是（__）。A)标记信息对于聚类算法而言是未知的B)聚类试图将数据集中的样本划分为若干个通常是不相交的子集C)聚类可作为一个单独的过程，用于寻找数据内在的分布结构D)聚类不可作为分类等其他学习任务的前驱过程[多选题]179.下列现象属于乘性噪声有（）。A)电视光栅的退化B)二值图像上的椒盐噪声C)信道传输受扰D)胶片材料的退化[多选题]180.在GaussDB200中，关于Schema和Database,下面说法正确的是（）A)二者都能实现资源隔离。B)Database之间无法直接访问，但通过权限授子可以访问数据。C)相比于Database,Schema的隔离更加的彻底。D)Schema和用户强相关的，通过权限控制语法可以实现不同用户对各Schema的权限。[多选题]181.Redis的持久化策略有哪些?A)RDBB)AOFC)JEDISD)SET[多选题]182.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时inputsplit大小为(),占用()个BlockA)1B)75MBC)一个map读取64MB，另外一个map读取11MBD)2[多选题]183.下列转换正确的是()。A)float(?inf?)B)float(?nan?)C)float(?56?+?78?)D)float(?12+34′)[多选题]184.常用的数据审计方法可以分为()。A)预定义审计B)自定义审计C)可视化审计D)结构化审计[多选题]185.下列关于探索型数据分析常用图表的说法,正确的有()。A)绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B)探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C)在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D)直方图和箱型图都可以用来展示数据的分布情况[多选题]186.以下对数据描述正确的是()。A)数据只包含显性数据和隐性数据B)数值是数据的一种形式C)数据到智慧是人们认知提升的过程D)数据是现实世界的记录[多选题]187.下列语句中错误的的是()。A)x=1x/=2B)x=1x**=2C)x=1x&=1D)x=1x++=1[多选题]188.基于核的机器学习算法有（）。A)最大期望算法B)径向基核函数C)线性判别分析法D)支持向量机[多选题]189.不可以实现循环的关键字是（）A)ifB)forC)whileD)with[多选题]190.下列选项中，关于Metadata元数据说法正确的是（）。A)元数据维护HDFS文件系统中文件和目录的信息B)元数据记录与文件内容存储相关的信息C)元数据用来记录HDFS中所有DataNode的信息D)元数据用于维护文件系统名称并管理客户端对文件的访问[多选题]191.Pig说法正确的是()。A)弥补MapReduce编程复杂性B)封装MapReduce处理过程C)PigLatin是一种数据分析语言D)适用于并行处理[多选题]192.公司数据标准主要包括统一数据模型、企业级主数据和参考数据标准。统一数据模型，主要包括（）。A)概念模型B)逻辑模型C)物理模型D)接口标准模型[多选题]193.不属于使用池化层相比于相同步长的卷积层的优势有()A)参数更少B)可以获得更大下来样C)速度吏快D)有助于提升精度[多选题]194.下面关于大数据编程框架Beam的描述正确的是：()A)Beam是由微软公司贡献的Apache顶级项目B)Beam的目标是为开发者提供一个易于使用、却又很强大的数据并行处理模型，能够支持流处理和批处理C)Beam是一个开源的统一的编程模型，开发者可以使用BeamD)Beam[多选题]195.当MaxCompute中某个字段取值为double，以下说法正确的是:（）。A)double类型中使用丨nf表示无穷大B)double类型中使用NaN标识无穷小C)所有数据类型都可以有空值D)Datetime类型默认支持时区为GMT+8[多选题]196.创建数据表时，下列哪些列类型的宽度是可以省略的。()A)DATEB)INTC)CHARD)TEXT[多选题]197.脏指数据可能存在以下哪些问题?()A)数据缺失B)数据噪声C)数据不一致D)数据重复[多选题]198.以下描述错误的是?A)SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier）B)在聚类解析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好C)在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题D)聚类解析可以看作是一种非监督的分类[多选题]199.下列哪些列类型是数值型的数据()。A)DOUBLEB)INTC)SETD)FLOAT[多选题]200.大数据计算服务中，检查数据何时被修改时需要参考lastmodifiedtime属性，对于分区表，在分区级别和表级别都有lastmodified属性。对此属性的影响，以下描述正确的有:（）。A)更新一个分区中的数据时，只会影响该分区的lastmodifiedtime属性B)更新一个分区中的数据时，表的lastmodifiedtime属性会被更新C)更新一个分区中的数据时，分区的lastodifiedtime属性会被更新D)更新一个分区中的数据时，不会更新表和分区的lastmodifiedtime[多选题]201.以下说法正确的是()A)一个服务器只能有一个数据库B)一个服务器可以有多个数据库C)一个数据库只能建立一张数据表D)一个数据库可以建立多张数据表[多选题]202.输出值是数值(scalar)类型的机器学习模型有()A)regressioB)简单线性回C)多重线性回归D)对数回归[多选题]203.银行进行信贷分析时，通常采用（）两种数据分析方法A)宏观经济运行分析B)行业风险分析C)非财务分析D)财务分析[多选题]204.关于Hive的说法正确的是()。A)Hive是基于Hadoop的数据仓库工具B)Hive可以将结构化的数据文件映射为一张数据库表C)最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D)Hive的主要应用场景是离线分析[多选题]205.有关Hive的数据库除描述正确的是（）【选三项】A)Hive是一种数据库技术，可以定义数据库和表来分析结构化数据B)Hive的数据库是一个命名空间或表的集合C)通常会使用数据库来将生产的表组织成逻辑组D)如果用户没有显示指定数据库，那么将会使用默认的数据库hive[多选题]206.下列各国大数据发展路径的描述中，对应关系正确的是（）。A)日本：走尖端IT路线B)英国：识大数据为新的自然资源C)韩国：重视基础，首都先行D)印度：以IT外包转型为突破口E)澳大利亚：原则先行，谨慎发展第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.Hive构建数据仓库时通常需要进行分层。A)正确B)错误[判断题]208.离群点可以是合法的数据对象或者值。()A)正确B)错误[判断题]209.AnalyticDB是一个RealtimeOLAP系统。A)正确B)错误[判断题]210.已知函数定义defdemo(x,y,op):returneval(str(x)+op+str(y))，那么表达式demo(3,5,'*')的值为8。A)正确B)错误[判断题]211.()UNION中ALL关键字的作用是在结果集中所有行全部列出，不管是否有重复行。A)正确B)错误[判断题]212.已知a=[1,2,3]和b=[1,2,4]，那么id(a[1])==id(b[1])的执行结果为False。A)正确B)错误[判断题]213.Hadoop集群执行完MapReduce程序后，会输出_SUCCESS和part-r-00000结果文件。A)正确B)错误[判断题]214.生日悖论证明了大数据环境下，小概率事件也会趋向于必然A)正确B)错误[判断题]215.SparkOnYarn模式下的driver只能运行在客户端。A)正确B)错误[判断题]216.Flink状态快照是同步捕获的，会影响正在进行的计算任务。A)正确B)错误[判断题]217.在Hadoop1.x版本中，MapReduce程序是运行在Yarn集群之上。()A)正确B)错误[判断题]218.数据科学家需要拥有数据产品的研发能力，不需要团队合作与协同工作。()A)正确B)错误[判断题]219.HLog日志保证了用户写入的数据不丢失。A)正确B)错误[判断题]220.GatedRecurrentunits的出现可以帮助防止RNN中的梯度消失问题。A)正确B)错误[判断题]221.已知x='Python是一种非常好的编程语言'A)正确B)错误[判断题]222.ElasticSoarch中，只要一-个shard请求成功即可向用户返回Success消息。A)正确B)错误[判断题]223.数据中台对外提供可复用的数据处理服务。A)正确B)错误[判断题]224.模型的具体化就是预测公式，公式可以产生与观察值有相似结构的输出，这就是预测值A)正确B)错误[判断题]225.yarn-env.sh配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、SecondaryNameNode和DataNode。A)正确B)错误[判断题]226.()用union上下连接的各个select都可以带有自己的orderby子句。A)正确B)错误[判断题]227.在连接课程数据库时,选择相关课程后,无需单击连接操作,数据源中自动出现相关表,供抽取操作。A)正确B)错误[判断题]228.已知x为非空列表，那么表达式sorted(x,reverse=True)==list(reversed(x))的值一定是True。A)正确B)错误[判断题]229.数据多比数据小好，更好数据比算法系统更智能还是重要。因此，大数据的简单算法比小数据的复杂算法更有效A)正确B)错误[判断题]230.Loader仅支持关系型数据库与HadoopHBase之间的数据的导入和导出。A)正确B)错误[判断题]231.数据科学家能够从堆积如山的大数据中找到金矿，并将其价值以易懂的形式传达给决策者，最终得以在业务上实现A)正确B)错误[判断题]232.数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程A)正确B)错误[判断题]233.热力图可以用来统计出差次数()A)正确B)错误[判断题]234.df1=pdA)正确B)错误[判断题]235.MySQL中取模运算的正负与被模数的符号相同。--A)正确B)错误[判断题]236.3NF消除了传递函数依赖。--A)正确B)错误[判断题]237.数据量化就是将一些不具体,模糊的定性数据用具体的数据来表示,从而达到便于分析比较的目的。()A)正确B)错误[判断题]238.可视化模块中无法通过闪烁动画等方式突出图表中的某个部分;()A)正确B)错误[判断题]239.使用Datediff转换器数据类型必须是DATE是否正确()A)正确B)错误[判断题]240.在智慧医疗方面，通过大数据，可以提高医疗质量，做好医疗监控。A)正确B)错误[判断题]241.Python关键字不可以作为变量名。A)正确B)错误[判断题]242.数据加工(Da饲Wrangling或DataMunging)的本质是将高层次数据转化为低层次数据的过程。()A)正确B)错误[判断题]243.分类任务是预测连续值A)正确B)错误[判断题]244.沿负梯度下降的方向一定是最优的方向。A)正确B)错误[判断题]245.如果仅仅是用于控制循环次数，那么使用foriinrange(20)和foriinrange(20,40)的作用是等价的。A)正确B)错误[判断题]246.numpy中产生全1的矩阵使用的方法是emptyA)正确B)错误[判断题]247.Hadoop的MapReduce与Spark都可以进行数据计算，而相比于MapReduce，Spark的速度更快并且提供的功能更加丰富。A)正确B)错误[判断题]248.查看对象内存地址的Python内置函数是ID。A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.（）（请填写英文）命令可以清空当前数据库的数据。[问答题]250.Pandas是一个基于【】的Python库。[问答题]251.Hadoop安装在什么目录下？[问答题]252.简单介绍如何导入与使用模块。[问答题]253.导入数据到Hive表时,不会检查数据合法性,只会在读取数据时候检查。A)TRUEB)FALSE[问答题]254.我们在使用智能手机进行导航来避开城市拥堵路段时，体现了哪种大数据思维方式：()我为人人，人人为我全样而非抽样效率而非精确相关而非因果谷歌采用搜索引擎大数据进行流感趋势预测，体现了哪种大数据思维方式：()我为人人，人人为我全样而非抽样效率而非精确相关而非因果[问答题]255.MapReduce在操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为()和()两个阶段。[问答题]256.Loader通过组件（）来实现认证以及作业权限管理。[问答题]257.请简述什么是层次化索引。[问答题]258.请简单介绍Python中的运算符。[问答题]259.数据仓库是面向（）（）（）和时变的数据集合，用于支持管理决策。[单选题]260.在支持向量机中，可利用（__）方法将原问题转化为其对偶问题。A)拉格朗日乘子法B)留出法C)比较检验D)划分选择1.答案:C解析:a.MartinFowler【敏捷开发方法论-软件开发教父】b.KentBeck【极限编程，测试驱动开发，实现模式】c.Dougcutting√【Hadoop作者，道格·卡廷】2.答案:C解析:3.答案:A解析:4.答案:B解析:5.答案:D解析:6.答案:B解析:7.答案:A解析:8.答案:A解析:Python是免费开源的编程语言。9.答案:B解析:10.答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。11.答案:D解析:12.答案:C解析:13.答案:B解析:14.答案:C解析:15.答案:B解析:16.答案:A解析:马氏距离是基于样本分布的一种距离。17.答案:C解析:18.答案:C解析:19.答案:B解析:20.答案:C解析:21.答案:B解析:Spark的所有Transformation操作采取的都是"情性计算模式"。22.答案:A解析:23.答案:C解析:24.答案:D解析:25.答案:B解析:26.答案:D解析:27.答案:C解析:28.答案:A解析:通常,结构化数据是指直接可以用传统关系数据库存储、计算和管理的数据。29.答案:B解析:数据治理并不是一次性工作,而是一种循序渐进的过程,主要包含计划、执行、检查和改进等基本活动,即数据治理的PDCA模型,其中;①计划(Plan);数据管理方针和目标的确定,明确组织机构的数据管理的目的、边界和工作内容。②执行(Do);根据数据管理计划,设计或选择具体的方法、技术、工具等解决方案,实现计划中的工作内容。③检查(Check):定期检查执行效果,进行绩效评估,并发现存在问题与潜在风险。④改进(Action):根据检查结果中发现的问题与风险,进一步改进自己的数据管理工作。30.答案:D解析:31.答案:C解析:DataNode负责HDFS的数据块存储。32.答案:A解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。33.答案:B解析:34.答案:D解析:LSTM在RNN基础上进行了改进，能够学习到长期依赖关系，是RNN的一个变种。35.答案:B解析:36.答案:D解析:37.答案:B解析:38.答案:D解析:39.答案:C解析:40.答案:B解析:41.答案:B解析:42.答案:D解析:43.答案:D解析:44.答案:C解析:45.答案:C解析:46.答案:D解析:在大数据的分析理念中,数据规模上强调绝对数据而不是相对数据。47.答案:C解析:48.答案:D解析:49.答案:B解析:50.答案:A解析:51.答案:C解析:52.答案:B解析:53.答案:C解析:54.答案:B解析:A、copy()【复制】B、copyFromStdin()【中文翻译：从stdin（标准输入设备，即键盘等）复制到指定的文件】C、printToStdout()【？输出到标准输出装置】D、copyFromLocal()【只能拷贝本地文件到HDFS中，不过目前也和put命令一样，还可以把HDFS上的文件拷贝到HDFS中，但是有一点小区别，就是copyFromLocal有个-t选项可以开启多线程上传，但是put不能】55.答案:A解析:56.答案:C解析:57.答案:A解析:random（）函数用来生成0～1之间的小数；randint（）函数用来生成随机整数；getrandbits（）函数用来生成特定比特长的随机整数；randrange（）用来生成特定步长的随机整数序列。58.答案:A解析:59.答案:B解析:60.答案:D解析:61.答案:A解析:62.答案:C解析:63.答案:D解析:64.答案:C解析:65.答案:D解析:饼图负值不显示66.答案:D解析:67.答案:D解析:68.答案:A解析:69.答案:C解析:似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。70.答案:B解析:71.答案:B解析:《我们的大数据时代》一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的相关思维。72.答案:C解析:73.答案:C解析:74.答案:B解析:75.答案:A解析:76.答案:D解析:77.答案:A解析:r模式需要文件存在。27278.答案:B解析:在使用pyplot进行绘图时，线条标记可以使用'oDhH8p，+.s*dV<>^x：'等标记。79.答案:D解析:80.答案:B解析:在回归分析中，解释变量可以理解为自变量，具有确定性，因此为非随机变量；被解释变量可以理解为因变量，具有随机性，因此为随机变量。81.答案:A解析:82.答案:C解析:83.答案:B解析:84.答案:A解析:85.答案:C解析:86.答案:C解析:87.答案:D解析:88.答案:D解析:89.答案:C解析:90.答案:C解析:91.答案:D解析:92.答案:C解析:在数据分析中，流程分为以下方式：描述性分析、诊断性分析、预测性分析、规范性分析。93.答案:C解析:94.答案:C解析:95.答案:A解析:96.答案:C解析:97.答案:B解析:98.答案:D解析:99.答案:A解析:100.答案:B解析:101.答案:B解析:102.答案:A解析:103.答案:C解析:104.答案:C解析:105.答案:D解析:106.答案:A解析:107.答案:C解析:缺失值可以通过删除、填补等方法进行处理。108.答案:D解析:ChainReducer.addMapper()方法中，值传递安全性高，引用传递性能高109.答案:B解析:110.答案:C解析:111.答案:A解析:记住即可112.答案:D解析:113.答案:C解析:114.答案:B解析:115.答案:C解析:116.答案:B解析:117.答案:B解析:在启动一个刚刚格式化的HDFS集群时,因为系统中还没有任何块,所以NameNode不会进入安全模式。118.答案:C解析:119.答案:D解析:120.答案:C解析:121.答案:D解析:122.答案:A解

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷4)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷4)

文档简介

温馨提示

最新文档

评论

相关文档