大数据开发基础(习题卷25)

上传人：1*** IP属地：重庆上传时间：2024-02-25 格式：DOCX 页数：59 大小：73.98KB 积分：3.6 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷25)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共144题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.HDFS有一个LZO（withindex）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时inputsplit大小为？A)64MBB)75MBC)一个map读取64MB，另外一个map读取11MB答案:C解析:问inputsplit输入拆分的话：gzip算法不支持split，lzo压缩/解压支持split(需要建索引，文件修改后需要重新建索引)[单选题]2.卷积神经网络调整参数时信息的传播方向是（）。A)后向传播B)前向传播C)双向传播D)跳跃传播答案:B解析:[单选题]3.在比较模型的拟合效果时,甲、乙、丙三个模型的相关指数R²的值分别约为0.71、0.85、0.90,则拟合效果较好的模型是()。A)甲B)乙C)丙D)效果一样答案:C解析:R2的取值为0~1,越靠近1,拟合效果越好。[单选题]4.下面不属于数据加工的有(__)。A)数据脱敏B)数据脱质C)数据规约D)数据标注答案:B解析:[单选题]5.HDFS结构不包括（）。A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:[单选题]6.对于线性回归模型，包括附加变量在内，以下可能正确的是()1)R-Squared和AdjustedR呵uared都是递增的2)R-Squared是常量的，AdjustedR叫uared是递增的R-Squared是递减的，AdjustedR-squared也是递减的R-Squared是递减的，AdjustedR-Squared是递增的A)l和2B)l和3C)2和4D)以上都不是答案:D解析:[单选题]7.以下对大数据4V特性描述不正确的是()。A)在大数据中，价值与数据总量的大小不存在线性关系B)数据量大是相对计算与存储能力而定的C)Volume是指数据大D)大数据中所说的?速度?包括两种：增长速度和处理速度答案:C解析:[单选题]8.关系数据库所谓的关系是指()A)各记录中的数据彼此有一定关联B)数据模型符合满足一定条件的二维表格式C)某两个数据库之间有一定的关系D)表中两个字段有一定的关系答案:B解析:[单选题]9.数据安全技术保护与信息系统"三同步"原则不包括以下哪项()。A)同步规划B)同步建设C)同步使用D)同步运维答案:D解析:数据安全技术保护与信息系统包含同步规划、同步建设、同步使用三项原则。[单选题]10.语句np.random.randn（5，4）的运算结果是（）。A)生成一个5行4列的随机矩阵B)将矩阵的第5行第4列改成一个随机值C)将矩阵的第4行第3列改成一个随机值D)将矩阵的第5列和第4列都用随机值代替答案:A解析:rand（）和randn（）是简化的随机函数，传递形状参数不需要元组，传入的所有参数构成数组的形状元组，此题中就用（5，4）作为数组的形状参数。[单选题]11.以下不符合大数据问题处理范畴的是:A)1TB、数据,秒级提交结果B)1TB、数据,分钟级提交结果C)1TB、数据,半小时内提交结果D)1TB、数据,一天内提交结果答案:D解析:[单选题]12.如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task，应该选择以下（）消息发布策略。A)局部字段分组B)广播分组C)直接分组D)全局分组答案:C解析:[单选题]13.在Hadoop框架中()为大数据提供了计算。A)HDFSB)MapReduceC)YARND)Container答案:B解析:[单选题]14.Flume中基于WAL(预写式日志Write-AheadLog)实现Channel持久化的是?A)JDBCChannelB)KafkaChannelC)MemoryChannelD)FileChannel答案:D解析:[单选题]15.Sklearn库中对数据进行预处理和规范化主要依靠（）模块。A)neighbors模块B)preprocessing模块C)pipeline模块D)datasets模块315答案:B解析:sklearn.preprocessing模块包括缩放、居中、归一化、二值化和插补方法，主要是对数据进行预处理和规范化。[单选题]16.通过HDFS的Shel1命令来操作HDFS，表示删除文件的命令是?A)hdfsdfs-rmB)hdfsdfs-putC)hdfsdfs-mkdirD)hdfsdfs-catCpath>答案:A解析:[单选题]17.在SQL语言中，子查询是（）。A)选取单表中字段子集的查询语句B)选取多表中字段子集的查询语句C)返回单表中数据子集的查询语言D)嵌入到另一个查询语句之中的查询语句答案:D解析:[单选题]18.HBase依靠（）存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:HBase位于结构化存储层，HDFS为HBase提供了高可靠性的底层存储支持。[单选题]19.创建视图的命令是()A)alterviewB)altertableC)createtableD)createview答案:D解析:[单选题]20.当zookeeper集群节点数为5时，请问集群的容灾能力和（）节点时等价的。A)3B)4C)5D)以上全不正确答案:B解析:[单选题]21.ADS可以使用explain命令查看执行计划。下面说法中正确的是:（）。A)当用户发起一个explain查询到ADS系统后，ADS会根据所有活跃节点上的数据来分析执行计划B)当用户通过查询的方式，想要获取文本格式的explain语句后，将会得到一个XML格式的串C)逻辑计划汇总，TableExecutor节点表示参与计算后的信息，JoinExecutor表示join的节点信息D)explain正确执行后返回信息中，第一行为逻辑计划，第二行为物理计划答案:D解析:[单选题]22.执行以下代码段defdescribe_pet(animal_type,pet_name):print("Ihavea"+animal_type+".")print("My"+animal_type+"'snameis"+pet_name.title()+".")describe_pet('harry')describe_pet('Hamster')时，输出为()。A)Ihaveaharry.Myharry'snameisHarry.B)Ihaveaharry.Myharry'snameisHamster.C)Ihaveahamster.Myhamster'snameisHamster.D)Error答案:D解析:[单选题]23.对于随机森林和GBDT，下面说法正确的是()A)在随机森林的单个树中，树和树之间是有依赖的，而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集，来生成许多单个的树C)我们可以并行地生成GBDT单个树，因为它们之间是没有依赖的D)GBDT训练模型的表现总是比随机森林好答案:B解析:[单选题]24.以下哪个不是Flume的核心组件：()A)数据块（Block）B)数据源（Source）C)数据通道（Channel）D)数据槽（Sink）答案:A解析:[单选题]25.SELECTINSERT('welcome',3,4,'HA')的执行结果为()。--A)weHAeB)welHAmeC)weHAomeD)welHAcome答案:A解析:[单选题]26.下面在python3中合法的语句为()。A)printHello,World!B)print'Hello,World!'C)print('Hello,World!')D)print"Hello,World!"答案:C解析:[单选题]27.HBase架构的四大组件中，（）HBase集群的主控服务器。A)ZookeeperB)MasterC)RegionServerD)Client答案:B解析:[单选题]28.根据数据管理计划，设计或选择具体方法实行计划中的工作内容，属于数据治理的哪一步()。A)计划B)执行C)检查D)改进答案:B解析:[单选题]29.（）算法可以较好地避免样本的不平衡问题。A)KNNB)SVMC)BayesD)神经网络答案:A解析:KNN只是取了最近的几个样本点做平均，离预测数据较远的训练数据对预测结果不会造成影响，但是SVM、Bayes和KNN的每一个训练样本结果都会对预测结果产生影响。[单选题]30.下列关于Boosting算法的描述错误的是（）。A)可将强学习器降为弱学习器B)从初始训练集训练基学习器C)对训练样本分布进行调整D)做错的训练样本多次训练答案:A解析:Boosting是一种集成学习算法，由一系列基本分类器按照不同的权重组合成为一个强分类器。[单选题]31.以P（w）表示词条w的概率，假设已知P（南京）=0.8，P（市长）=0.6，P（江大桥）=0.4；P（南京市）=0.3，P（长江大桥）=0.5。如果假设前后两个词的出现是独立的，那么分词结果就是（）。A)南京市*长江*大桥B)南京*市长*江大桥C)南京市长*江大桥D)南京市*长江大桥答案:B解析:最大概率分词基本思想：一句话有多种切割方法，我们选择联合概率最大的结果。P（A）=0；P（B）=0.8×0.6×0.4=0.192；P（C）=0；P（D）=0.3×0.5=0.15。所以这道题选择B。[单选题]32.决策树中,同一路径上的所有属性之间是()关系。A)因果B)相关C)逻辑或D)逻辑与答案:D解析:[单选题]33.关于集群的特点下列叙述正确的一项是（）。A)系统吞吐量小B)可靠性高C)扩展性弱D)性价比低答案:B解析:[单选题]34.加载数据到Hive表，哪种方式不正确？A)直接将本地路径的文件load到Hive表中B)将HDFS的文件load到Hive表汇总C)Hive支持insertinto单条记录的方法，所以可以直接在命令行插入单条记录D)将其他表的结果集insertinto到Hive表答案:C解析:[单选题]35.以下说法对的是：（）A)当前云公司提供的公有云存储只能通过互联网访问B)对象存储不可以在客户机房建设C)对象存储可以存储数据库数据D)客户数据传输慢与客户开通的资源池带宽大小有关系答案:A解析:[单选题]36.Hadoop中,Reducer的三个阶段是()。A)Shuffle-Sort-ReduceB)Shuffle-Reduce-SortC)Reduce-Shuffle-SortD)Sort-Shuffile-Reduce答案:A解析:Reducer主要分为Shuffle洗牌、Sort排序和Reduce三个步骤。[单选题]37.info='abc'Info[2]='d'的输出结果是（）。A)TypeError：'str'objectdoesnotsupportitemassignmentB)bC)cD)d答案:A解析:字符串不能被修改。[单选题]38.用户输入整数的时候不合规导致程序出错，为了不让程序异常中断，需要用到的语句是：A)if语句B)eval语句C)try-except语句D)循环语句答案:C解析:[单选题]39.数据变换的策略包括()。A)平滑处理、特征构造、聚集、标准化、离散化B)平滑处理、特征构造、聚集、审计、离散化C)平滑处理、、聚集、标准化、审计、离散化D)特征构造、聚集、标准化、审计、离散化答案:A解析:数据变换的策略不包括审计。[单选题]40.一件商品仅有一个分类,而一个分类可有多件商品,则商品与分类的关系是()。--A)1:1B)1:nC)n:1D)n:m答案:C解析:[单选题]41.TaskTracker会接受()发送过来的命令并执行相应的操作如启动新任务、杀死任务等。A)TaskTrackB)TaskC)ClientD)JobTracker答案:D解析:[单选题]42.下列论据中，体现?冷眼?看大数据的观点是（）A)互联网金融打破了传统的观念和行为B)大数据医疗正在走进平民百姓C)数据资产型企业前景光明D)个人隐私泄露与信息安全担忧答案:D解析:[单选题]43.()是一个在HDFS上开发的面向列的分布式数据库。A)HiveB)PigC)MahoutD)Hbase答案:D解析:[单选题]44.HDFS是Hadoop平台上的分布式文件系统,那么它是由()构成的。A)由一个NameNode和多个DataNode组成B)由一个DataNode和多个NameNode组成C)由多个NameNode和多个DataNode组成D)由一个NameNode和一个DataNode组成答案:A解析:HDFS由一个NameNode、一个SecondaryNameNode和多个DataNode组成。[单选题]45.执行"a"+"bc"语句时输出是()。A)aB)bcC)bcaD)abc答案:D解析:[单选题]46.在MapReduce中，下列组件中用户不指定也不会有默认的是（）。A)CombinerB)OutputFormatC)PartitionerD)InputFormat答案:A解析:在MapReduce编程模型中，Combiner是可有可无的组件，它的作用是给MapTask的结果数据做局部合并以减少ReduceTask接收的数据量，以减少网络数据传输；OutputFormat的默认组件是TextOutputFormat；InputFormat的默认组件是TextInputFormat；Partitioner的默认实现是HashPartitioner。[单选题]47.HBase元数据MetaRegion路由信息保存在哪里?A)ZookeeperB)Meta表C)HMasterD)Root表答案:B解析:[单选题]48.x=123.4567，语句print("{:5.3e}".format(x))的输出结果是()。A)123.457B)1.235e+02C)1.24e+02D)1.23e+02答案:B解析:[单选题]49.关于KNN最近邻分类算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离值进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票,得到最后的分类类别。正确的排序为A)①③②④B)②④③①C)①②③④D)①②④③答案:C解析:[单选题]50.聚类算法已经默认所有的记录都是()的实体A)相关联B)有备份C)不独立D)独立答案:C解析:[单选题]51.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送()A)PostgresB)OracleC)MySQLD)Redis答案:D解析:[单选题]52.int('0xa',16)的结果为()。A)10B)12C)16D)a答案:A解析:[单选题]53.资源（Resource）是大数据计算服务（MaxCompute，原ODPS）的特有概念。用户如果想使用MaxCompute的MapReduce或自定义函数（UDF）功能，需要依赖资源来完成。Dataworks中，可以通过数据开发面板的资源管理上传资源，目前支持的资源类型有：（）。A)jar、file、archiveB)jar、file、pythonC)jar、archive、pythonD)file、archive、python答案:A解析:[单选题]54.在HBase系统架构中,HRegionServer主要负责相应用户I/O请求，向()文件系统中读写数据A)HAFSB)HBFSC)HCFSD)HDFS答案:D解析:[单选题]55.对于ADS，（）说法不正确。A)ADS表存在主键，即可根据主键使用delete删除纪录B)普通表分区列如果是字符串型，则不支持普通表之间的joinC)自查询之间不支持joinD)ADS通过UNION（ALL）各个分区内的查询结果实现自查询答案:A解析:[单选题]56.大数据公司的多样性表明了（）A)数据作用的体现B)数据价值的转移C)数据思维的创新D)数据技术的发展答案:B解析:[单选题]57.以下语句错误的是()A)selectsal+1fromemp;B)selectsal*10,sal*deptnofromemp;C)不能使用运算符号D)selectsal*10,deptno*10fromemp;答案:C解析:[单选题]58.下列关于DNN的说法不正确的是（）。A)层数多B)抽象能力强C)模拟更复杂模型D)广义上包含CNN、DBN、SVM等答案:D解析:DNN不包括SVM和DBM。[单选题]59.数据清洗工作不包括()。A)删除多余重复的数据B)采用适当的方法补充缺失的数据C)纠正或者删除错误的数据D)更改过大和过小的异常数据答案:D解析:[单选题]60.表A为ADS中的普通表，列a为其中一个普通列，类型为int，以下SQL（）是正确的。A)SELECTa+COUNT(*)FROMAB)SELECTUDF_SYS_COUNT_COLUMN(a)FROMAC)SELECTSUM(COUNT(*))FROMAD)以上都正确答案:B解析:[单选题]61.FusionInsightManager用户权限管理不支持哪个配置?A)给用户配置角色B)给用户组配置角色C)给角色配置权限D)给用户组配置权限答案:D解析:[单选题]62.根据泛在电力物联网建设战略安排，第一个阶段是到（）年，初步建成泛在电力物联网。A)2020B)2021C)2024D)2025答案:B解析:[单选题]63.下列选项哪一个不属于HIVE的工作内容？A)表结构元数据管理B)HQL语句命令解析C)分布式文件底层数据管理D)数据结构以及函数的定义答案:C解析:[单选题]64.关于?from-import?形式，以下错误的选项是()。A)从模块名导入标识符B)这种导入形式可以防止名称冲突C)被导入模块的命名空间是模块导入的一部分D)模块中的标识符可直接访问为标识符答案:B解析:[单选题]65.在Flume中，()指的是位于源与接收器之间的组件。A)数据流B)Flume通道C)Flume拦截器D)Flume代理答案:B解析:[单选题]66.(__)不属于基本分析方法。A)回归分析B)分类分析C)聚类分析D)元分析答案:D解析:[单选题]67.python中while的中止的关键字是（）。A)continueB)brokenC)breakD)plug答案:C解析:break是while的中止的关键字。[单选题]68.Insert事务使用的锁模式是：（）。A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock答案:B解析:[单选题]69.下列表达式的值为True的是（）A)5+4j>2-3jB)3>2==2C)e>5and4==fD)(x-6)>5答案:B解析:[单选题]70.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。A)穷举搜索B)随机搜索C)Bayesian优化D)以上全是答案:D解析:[单选题]71.RNN不同于其他神经网络的地方在于()A)实现了记忆功能B)速度快C)精度高D)易于搭建答案:A解析:[单选题]72.若a=np.array([[1,2,3],[4,5,6]])，则print(np.cumsum(a,1))的输出结果是（__)。A)[[136][4915]]B)[136101521]C)[[123][579]]D)[615]答案:A解析:[单选题]73.一般情况下,若要提高Elasticsearch检索效率，可以采取什么操作?A)增加EsMaster节点B)使用Hive做底层存储C)调整索引分片数D)压缩索引答案:C解析:[单选题]74.阅读以下代码，回答问题，当n是11的时候，s为多少1deftotal(n):2s=03i=14while(iA)55B)66C)44D)50答案:B解析:[单选题]75.我行《大数据应用推动考核办法》从（）开始实施。A)20170101B)20170801C)20180101D)20180801答案:D解析:[单选题]76.hadoop中下面哪项操作是不需要记录进日志的（）A)打开文件B)重命名C)编译文件D)删除操作答案:C解析:记住即可[单选题]77.下列表述正确的是（）。A)if语句总是与else成对出现B)if语句总是与elif成对出现C)if语句分支嵌套实现多分支D)if语句只能实现二分支答案:C解析:if语句可以成单出现也可以与elif、else实现分支嵌套功能。[单选题]78.下列关于不精确推理过程的叙述错误的是（）。A)不精确推理过程是从不确定的事实出发B)不精确推理过程最终能够推出确定的结论C)不精确推理过程是运用不确定的知识D)不精确推理过程最终推出不确定性的结论答案:B解析:[单选题]79.__new__和__init__的区别，说法不正确的是（）。A)__new__是一个实例方法，而__init__是一个静态方法B)__new__方法会返回一个创建的实例，而__init__什么都不返回C)只有在__new__返回一个cls的实例时，后面的__init__才能被调用D)当创建一个新实例时调用__new__，初始化一个实例时用__init__答案:A解析:[单选题]80.ordinalencoder将属性转化为（）A)独热编码B)附带特性的数字C)二进制编码D)ASCII码答案:B解析:[单选题]81.下列关于Map/Reduce并行计算模型叙述正确的一项为（）。A)Map/Reduce把待处理的数据集分割成许多大的数据块B)大数据块经Map()函数并行处理后输出新的中间结果C)reduce()函数把多任务处理后的中间结果进行汇总D)reduce阶段的作用接受来自输出列表的迭代器答案:C解析:[单选题]82.下列关于图像平滑的叙述错误的是（）。A)可以减少噪声B)可以使图像变得均匀C)图像的细节部分可以不保持原有特征D)可以采用基于卷积的滤波方法答案:C解析:图像平滑的过程中，图像的细节部分保持原有特征。[单选题]83.()能反映出X和Y之间的强相关性。A)相关系数为0.9B)对于无效假设,β=0的p值为0.0001C)对于无效假设,β=0的t值为30D)以上说法都不对答案:A解析:相关系数反映了不同变量之间线性相关程度,取值范围为[-1,1],值越大表示相关程度越高。因此,A选项中r=0.9,表示X和Y之间有较强的相关性。p和t的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。[单选题]84.以下（）不是MaxcomputeMR的必须组成阶段。A)MapB)ShuffleC)ReduceD)Combiner答案:D解析:[单选题]85.可用信息增益来进行决策树的()。A)树高B)叶子结点数C)总结点数D)划分属性选择答案:D解析:[单选题]86.与HMM和MEMM模型相比，CRF模型的优势不包含（）。A)特征灵活B)速度快C)可容纳较多上下文信息D)全局最优答案:B解析:CRF模型的优点：①与HMM相比，CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息，特征设计灵活；②与MEMM相比，由于CRF计算全局最优输出节点的条件概率，还克服了MEMM模型标记偏置的缺点。CRF模型的缺点：训练代价大，复杂度高。[单选题]87.以下可以在项目开发中实现分页功能的是()。--A)WHEREB)GROUPBYC)LIMITD)以上答案都不正确答案:C解析:[单选题]88.hadoop集群可以用（）种模式进行。A)四B)三C)五D)二答案:B解析:[单选题]89.下列说法中：①R-Squared和AdjustedR-squared都是递增的；②R-Squared是常量的，AdjustedR-squared是递增的；③R-Squared是递减的，AdjustedR-squared也是递减的；④R-Squared是递减的，AdjustedR-squared是递增的。对于线性回归模型，包括附加变量在内，可能正确的是（）。A)①②B)①③C)②④D)以上都不是答案:D解析:R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器，R-squared递增或不变。[单选题]90.有一个关系,课程目录(课程号,授课教师,所述专业),规定授课教师不能取空值,这一规则属于()A)实体完整性约束B)参照完整性约束C)用户自定义完整性约束D)关键字完整性约束答案:C解析:[单选题]91.cell.zero_state(self.batch_size,dtype=tf.float32)这句代码的作用是（）。A)对inputs进行DropoutB)构造MultiCellC)输入图片D)对MultiCell初始化答案:D解析:[单选题]92.在数据科学项目的活动流程中.()主要回答的是"我们用什么方式记录和展现数据结果"。A)数据的获得与管理B)模式/模型的验证和优化C)结果的可视化与文档化D)模式/模型的应用及维护答案:C解析:[单选题]93.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()。A)无偏性B)有效性C)及时性D)一致性答案:D解析:一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大。对于给定的偏差控制水平,两者间偏差高于此控制水平的可能性越小。[单选题]94.支持向量回归与传统回归模型的差别是()。A)模型输出与真实值相同B)模型输出与真实值存在ε偏差C)模型输出大于真实值D)模型输出小于真实值答案:B解析:以线性回归为例,通过模型输出的f(x)与真实输出的y之间的差别来计算损失。而SVR假设模型输出f(x)与真实的y之间可以容忍有eps大小的偏差,也就意味只要样本的预测值落在f(x)两侧在y轴方向上绝对值之差小于eps的间隔带就是预测正确的。[单选题]95.以下不能创建一个字典的语句是A)dict1={}B)dict2={3:5}C)dict3={[1,2,3]:?uestc?}D)dict4={(1,2,3):?uestc?}答案:C解析:[单选题]96.考虑某个具体问题时，你可能只有少量数据来解决这个问题不过幸运的是你有一个类似问题已经预先训练好的神经网络可以利用这个预先训练好的网络的方法是（）A)把除了最后一层外所有的层都冻住，重新训练最后一层B)对新数据重新制l鲸整个模型C)只对最后几层进行训练调参(直netune)D)对每一层模型进行评估，选择其中的少数来用答案:C解析:[单选题]97.y=10whiley:y-=1print(y)请问输出的y是多少（）A)-1B)1C)0D)while构成无限循环答案:C解析:[单选题]98.np.set_printoptions(threshold='nan')的作用是（__)。A)打印?nan?B)使其可以打印过大的数组C)打印出相关的设置内容D)删除需要打印的内容答案:B解析:[单选题]99.数据库系统的数据独立性是指A)不会因为数据的变化而影响应用程序B)不会因为系统数据存储结构与数据逻辑结构的变化而影响应用程序C)不会因为存储策略的变化而影响存储结构D)不会因为某些存储结构的变化而影响其他的存储结构答案:B解析:[单选题]100.在我们神经网络训练过程中，每次dropout想去掉20%的参数，下面有关激活函数说法错误的是：()A)Sigmoid容易饱和，出现梯度消失。B)LeakyRelu是Relu的一个变种，他在xC)Tanh存在梯度消失问题，但是是0均值，而且收敛速度比sigmoid慢。D)Relu收敛速度比sigmoid和tanh快很多，可以缓解梯度消失现象。答案:C解析:[单选题]101.执行a=np.array([[1,1,3],[4,3,6]]);print(np.append(a,[[1,1,1]],axis=0))结果为？A)[113436111]B)[[141][251][361]]C)[[113][436][111]]D)[[1,1,3,4,3,6,1,1,1]]答案:C解析:[单选题]102.OTS的列对长度有限制。对于string类型，如果出现在主键里，长度限制为：（）。A)64kB)1kC)256kD)128k答案:B解析:[单选题]103.下列不属于Hive记录中默认分隔符（）A)\nB)^AC)^BD)\r\n答案:D解析:[单选题]104.下列描述中不属于情感分析的具体任务是（）。A)情感分类B)观点抽取C)观点问答D)段落匹配答案:D解析:情感分析又称意见挖掘、倾向性分析等，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，包括情感分类、观点抽取、观点问答等，没有段落匹配。[单选题]105.在fusionlnsight产品中,关于kafka的topic.以下描述不正确的是?A)topic的partition数量可以创建时配置B)每个topic只能被分成一个partition区C)每条发布到kafka的消息都有一个类别,这个类别被称为topic.也可以理解为一个存储消息的队列D)每个partition在存储层面对应一个log文件,log文件中记录了所有的消息数据答案:B解析:[单选题]106.在MySQL中，建立数据库用()A)CREATETABLE命令B)CREATETRIGGER命令C)CREATEINDEX命令D)CREATEDATABASE命令答案:D解析:[单选题]107.下面关于云计算数据中心的描述正确的是：A)数据中心是云计算的重要载体，为各种平台和应用提供运行支撑环境B)数据中心就是放在企业内部的一台中心服务器C)每个企业都需要建设一个云计算数据中心D)数据中心不需要网络带宽的支撑答案:A解析:[单选题]108.例如数据库中有A表，包括学生，学科，成绩三个字段,数据库结构为学生学科成绩张三语文60张三数学100李四语文70李四数学80李四英语80如何统计最高分>80的学科()A)SELECTMAX(成绩)FROMAGROUPBY学科HAVINGMAX(成绩)>80;B)SELECT学科FROMAGROUPBY学科HAVING成绩>80;C)SELECT学科FROMAGROUPBY学科HAVINGMAX(成绩)>80;D)SELECT学科FROMAGROUPBY学科WHEREMAX(成绩)>80;答案:C解析:[单选题]109.()模式的变化意味着数据科学中所关注的数据计算的常见瓶颈、关注焦点、主要矛盾和思维模式发生了根本性变化。A)数据计算B)、数据管理C)、数据分析D)、数据获取答案:A解析:[单选题]110.考虑以下场景，Hbase中有列簇CF1，列C1，C2。当读取Hbase表时，只要求返回C1的列值，使用下列那个选项可以实现该功能？A)ColumeFilterB)QualifierFliterC)ValueFilterD)RowFilter答案:C解析:[单选题]111.如何禁用reduce阶段（）A)设置conf.setNumreduceTasks(0)B)设置job.setNumreduceTasks(0)C)设置job.setNumreduceTasks()=0D)修改配置文件中NumreduceTasks=0答案:B解析:[单选题]112.执行以下代码段age=12ifage<4print("Youradmissioncostis$0.")elifage<18print("Youradmissioncostis$5.")elseprint("Youradmissioncostis$10.")时，输出为()。A)Youradmissioncostis$0.B)Youradmissioncostis$5.C)Youradmissioncostis$10.D)以上都不对答案:D解析:[单选题]113.想要获取序列的长度，应使用（）A)lenB)inC)mapD)dict答案:A解析:[单选题]114.下面关于Flink的描述错误的是：()A)Flink是一个针对流数据和批数据的分布式计算框架B)Flink的设计思想主要来源于Hadoop、MPP数据库、流计算系统等C)Flink主要是由Python代码实现的D)Flink所要处理的主要场景是流数据，批数据只是流数据的一个特例而已答案:C解析:二、多选题[单选题]115.下列不属于业务操作员安全责任的是()A)严格执行系统操作规程和运行安全管理制度。B)不得向他人提供自己的操作密码、柜员号、柜员卡、授权卡等机密信息。C)及时向科技部门报告系统各种异常事件。D)对进行系统操作的其他人员予以安全监督。答案:D解析:[单选题]116.下面程序中最后X_train_minmax值为多少（）>>>X_train=np.array([[1.,-1.,2.],...[2.,0.,0.],...[0.,1.,-1.]])...>>>min_max_scaler=preprocessing.MinMaxScaler()>>>X_train_minmax=min_max_scaler.fit_transform(X_train)A)array([[0.,0.,1.],[1.,0.5,0.33333333],[0.5,1.,0.]])B)array([[0.5,0.,0.],[1.,0.5,0.33333333],[0.,1.,1.]])C)array([[0.5,0.,1.],[1.,0.5,0.33333333],[0.,1.,0.]])D)array([[0.5,0.,1.],[1.,0.5,0.],[0.,1.,0.]])答案:C解析:[单选题]117.对参数进行L2正则，是机器学习常用的防止过拟合的方法。请问对参数做L2正则，是对参数本身做了哪些先验分布假设?A)高斯分布B)拉普拉斯分布C)泊松分布D)均匀分布答案:A解析:[单选题]118.跨平台基础设施和分析工具不包括A)亚马逊Web服务B)微软CortanaC)Google云平台D)微软Azure答案:B解析:[单选题]119.对数组中的某个元素进行修改时，计算机对其的操作是（__)。A)复制该数组后再修改B)直接在原数组中修改C)修改该数组后再复制D)删除该数组后，重新创建答案:B解析:[单选题]120.关于基本数据的元数据是指：A)基本元数据与数据源，数据仓库，数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于装载和更新处理，分析处理以及管理方面的信息答案:D解析:[单选题]121.决策树的父节点和子节点的熵的大小关系是()。A)父节点的熵更小B)子节点的熵更小C)两者相等D)根据具体情况而定答案:B解析:决策树分解策略是保证子结点的熵小于父结点的熵。但子结点的熵是该父结点所有孩子结点的熵的总和,因此,并保证任意一个子节点的熵都小于父结点病。[单选题]122.剪枝是决策树学习算法对付（__）的主要手段。A)欠拟合B)过拟合C)样本数过多D)特征数过多答案:B解析:[单选题]123.在一个MR程序的运行过程中，哪个步骤会涉及到多个节点之间的数据交换？A)MapB)CombineC)ShuffleD)Reduce答案:C解析:[单选题]124.关于Hadoop下列说法错误的是（）A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据答案:C解析:Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录，不是Datanode[单选题]125.()负责HDFS数据存储。A)NameNodeB)IobtrackerC)DataNodeD)SecondaryNameNode答案:C解析:[单选题]126.Partition的任务是分割Map每个节点的结果，然后按照()分别映射到不同的Reduce。A)索引B)键C)值D)大小答案:B解析:[单选题]127.HDFS创建目录过程中，通过调用FileSystem实例的（）方法查看该目录是否存在。A)createB)MkdirsC)existsD)find答案:C解析:[单选题]128.()操作属于预剪枝。A)信息增益B)计算最好的特征切分点C)限制树模型的深度D)可视化树模型答案:C解析:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。[单选题]129.下列对数据定义语言（DDL）描述正确的是()。A)DDL关心的是数据库中的数据B)完成数据的增删改查操作C)控制对数据库的访问D)定义数据库的结构答案:D解析:[单选题]130.下列关于IPython的说法，错误的是()A)IPython集成了交互式Python的很多优点B)IPython的性能远远优于标准的Python的shellC)IPython支持变量自动补全，自动收缩D)与标准的Python相比，IPython缺少内置的功能和函数答案:D解析:[单选题]131.以下()只有完全符合给定的判断条件才返回1。--A)带ANY关键字的子查询B)带ALL关键字的子查询C)带IN关键字的子查询D)以上答案都不正确答案:B解析:[单选题]132.在Maxcompute表T中添加一个新的列col，类型为bigint，最简单易行的办法是:（）。A)将表T删掉重建B)altertabletaddcolumns（cbigint）C)新建一张表，将原有数据插入D)altertableaddcbigint答案:B解析:[单选题]133.留出法直接将数据集划分为()个互斥的集合。A)一B)二C)三D)四答案:B解析:留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。[单选题]134.GaussDB200在创建表时，需要注意以下哪些事项（?A)创建列存表之后,后续可以修改为行存表。B)创建列存表时压缩级别默认为HIGH。C)如果指定表空间为普通表空间,创建表时默认是行式存储D)创建一个行存表之后,后续可以修改为列存表。答案:C解析:[单选题]135.用决策树法训练大量数据集时,()最节约时间。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个数答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。[单选题]136.关于Pandas层次化索引，下列说法错误的是（）。A)层次化索引是指Pandas对象在一个轴方向上具有多层索引B)层次化索引至多只能有两层索引C)可以使用swaplevel()方法对层次化索引的位置交换顺序D)使用sort_index()可以对索引进行排序答案:B解析:[单选题]137.以下哪项是SparkQ2x程序统一入口?0A)StreamingContextB)Sa|ContextC)HiveContextD)SparkSession答案:D解析:[单选题]138.（__）是一种著名的密度聚类算法，它基于一组?邻域?参数来刻画样本的紧密程度。A)DBSCANB)原型聚类C)密度聚类D)层次聚类答案:A解析:[单选题]139.在其它条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题A)增加训练集数量B)减少神经网络隐藏层节点数C)删除稀疏的特征D)SVM算法中使用高斯核/RBF核代替答案:D解析:[单选题]140.大数据在电信中的应用不包括下列哪项？（）A)基于用户、业务及流量的分级的多维管控机制B)精准的客户分析及营销C)利用位置和轨迹信息服务社会D)基础设施建设优化和网络运营管理和优化答案:A解析:[单选题]141.HBase中数据存储的文件格式是什么?A)HLogB)TextFileC)HFileD)SequenceFile答案:C解析:[单选题]142.preprocessing.Normalizer表示(__)。A)一个函数B)一个参数C)一个类D)一个变量答案:C解析:[单选题]143.属于无监督学习的是()A)、随机森林B)、朴素贝叶斯C)、主成分分析D)、支持向量机答案:C解析:[单选题]144.以下Python在数据科学中应用的缺点的是()A)、Python中可用于数据科学的第三方扩展包的数量多、功能强B)、Python是一种解释型语言,因此能较好地支持数据科学中的交互式分析任务C)、Python编写的源代码跨平台性高,可扩展性和可移植性强D)、Python代码不能加密,因此安全性较低答案:D解析:第2部分：多项选择题，共63题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.数据的类型主要包括：（）A)文本B)图片C)音频D)视频答案:ABCD解析:[多选题]146.自助审贷中下列哪些客户会被严禁准入（）A)九种人范畴B)我行黑名单C)我行存款大户D)年龄16岁答案:ABD解析:[多选题]147.在神经网络学习中，sigmoid函数可用作（__）。A)损失函数B)优化函数C)激活函数D)响应函数答案:CD解析:[多选题]148.(__)是preprocessing.OneHotEncoder的重要接口。A)fitB)transformC)get_frature_namesD)next答案:ABC解析:[多选题]149.影响聚类算法效果的主要原因有()。A)特征选取B)模式相似性测度C)分类准则D)已知类别的样本质量答案:ABC解析:聚类算法是无监督的学习算法,训练样本的标记信息是未知的。[多选题]150.下面哪些方方法不属于映射数据到新的空间？()A)傅立叶变换B)特征加权C)渐进抽样D)渐进抽样答案:BCD解析:[多选题]151.从学科定位看,数据科学处于()的重叠之处,具有显著的跨学科性A)数学与统计知识B)计算机科学C)黑客精神与技能D)领域实务知识答案:ACD解析:[多选题]152.关于ADS的ECU说法（）是正确的。A)ECU的型号在DB创建后不可更改B)资源计量的最小单位C)ECU数量可以在使用中扩容或者缩容D)ECU数量变化是瞬时的同步操作。答案:ABC解析:[多选题]153.泛在电力物联网的核心目标包括（）A)对内业务和数据分析B)对外业务C)基础支撑D)技术攻关和安全防护答案:BCD解析:[多选题]154.变量标准化的方法有（）A)Z-score标准化B)0-1标准化C)小数定标标准化D)Logistic标准化答案:ABCD解析:[多选题]155.使用下面哪种图表类型能更好地表示随时间(年、月和日)或类别变化的趋势?()A)饼图B)折线图C)面积图D)柱形图答案:BD解析:[多选题]156.数据流转和应用过程中应确保（），前序环节应保证数据的真实、完整并及时传递到后序环节，前后环节数据应保持衔接一致。A)可追溯B)可复查C)安全性D)一致性答案:AB解析:[多选题]157.Cloudera提供哪几种安装CDH的方法A)ClouderamanagerB)TarballC)YumD)Rpm答案:ABCD解析:CDH安装有四种方式：ClouderamanagerTarballYumRpm其中Yum及Rpm安装可以算作一种安装方式/xfg0218/article/details/52490971[多选题]158.实时检索解决方案的项目流程包括以下哪些选项?A)应用部署B)代码工程C)应用开发D)项目环境准备答案:ABCD解析:[多选题]159.HDFS具有较高的容错性，设计了哪些相应的机制检测数据错误和进行自动恢复？A)数据源太大B)数据节点出错C)数据出错D)名称节点出错答案:BCD解析:[多选题]160.CNN相比于全连接的DNN有哪些优势？（）A)参数更少B)泛化更好C)训练更快D)更容易搭建答案:ABC解析:[多选题]161.ADS的普通表分区，支持（）分区方式。A)ListB)IntervalC)HashD)Range答案:AC解析:[多选题]162.以下是Python元组的有()。A)[1,2,3]B)(1,2,3)C){1,2,3}D)()答案:BD解析:[多选题]163.下列哪些措施是为了保障数据的完整性A)元数据可靠性保证B)重建失效数据盘的副本数据C)安全模式D)集群数据均衡答案:ABCD解析:[多选题]164.（___）是数据集的一般特性。A)特征B)维度C)稀疏性D)分辨率答案:BCD解析:[多选题]165.Zookeeper在Kafka中有以下哪些功能?A)协调Kafka与ResourceManager的通信B)触发负载均衡，保障一个consumergroup内的多个consumer的订阅负戴平衡C)管理broker与consumer的动态加入与离开D)负责partition中index数据的生成答案:BC解析:[多选题]166.以数据为中心"是数据产品区别于其他类型产品的本质特征，表现在()A)数据驱动B)数据密集型C)数据范式D)数据可视化中方面。答案:ABC解析:[多选题]167.下面关于外键约束描述正确的是()。--A)可防止非法数据的插入B)会带来额外的开销C)删除主表的数据时,需要先删除从表的数据D)以上说法都不正确答案:ABC解析:[多选题]168.我们可以通过（）来查询HBase表的记录。A)get'table_name','rowkey'B)get'table_name','rowkey','column_family:column'C)scan'table_name'D)scan'table_name',{COLUMNS=>'column_family:column'}答案:ABCD解析:[多选题]169.大数据的来源途径有许多，如下哪些属于大数据来源（）。A)传感器设备采集的数据B)计算机网络运行产生的日志C)人在微博上发表的记录D)网络爬虫得到的数据答案:ABCD解析:[多选题]170.Flink流式处理的数据源类型包括?A)CollectionsB)JDBCC)SocketstreamsD)Files答案:ABCD解析:[多选题]171.关于python中函数调用的目的，下列说法正确的是()。A)提高程序的执行效率B)减少程序文件所占用的内存C)提高程序的可读性D)提高程序的开发效率答案:ACD解析:[多选题]172.下列属于朴素贝叶斯分类器的特点的是（__）。A)朴素贝叶斯模型假设属性之间相互关联B)算法逻辑简单，易于实现C)实际问题中，运用拉普拉斯修正避免了因训练样本不充分导致概率估计值为0的问题。D)分类过程中时空开销小答案:BCD解析:[多选题]173.数据战略等于(__)之?和?。A)数据管理目标B)行动方案C)目标管理D)动态机制答案:ABC解析:[多选题]174.下面说法选项错误的是（）()A)在一个Agent中，同一个source可以有多个channelB)在一个Agent中，同一个sink可以有多个channelC)在一个Agent中，同一个source只能多1个channelD)在一个Agent中，同一个sink只能有1个channel答案:AD解析:[多选题]175.MaxCompute的资源类型包括:（）。A)File类型B)Table类型C)Jar类型D)Archive类型答案:ABCD解析:[多选题]176.HBase中包含的一些典型的Filter有哪些?A)SingleColumnValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter答案:ABCD解析:[多选题]177.FusionlnsightManager与外部管理平台对接时，支持哪些接口A)SNMPB)VPNC)BGPD)Syslog答案:AD解析:[多选题]178.下列关于python的说法中正确的为()。A)Python提供了一个?内置函数?：type（）用来观察数据的类型B)Python支持常用的算术运算：加、减、乘、除和括号（）C)Python中，在使用前不需要明确数据的使用类型D)Python中，可以使用加号（+）来合并字符串答案:ABCD解析:[多选题]179.NodeManager的内存和CPU的数量,是通过下列哪些选项进行配置?A)Yarn.scheduler.capacity.root.QueueA.maximum-capacityB)Yarn.nodemanager.resource.cpu-vcoreC)Yarn.nodemanager.vmem-pmom-ratioD)Yarn.modemanager.resource.memory-mb答案:BCD解析:[多选题]180.关于华为云MRS中Loader的描述，以下哪些选项是正确的?A)Loader提供可视化向导式的作业配置管理界面B)Loader页面是基于开源SqoopWebUI的图形化数据迁移管理工具，该页面托管在Hue的WebUI中C)Loader提供定时调度任务，周期性执行ETL作业D)Loader在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等答案:ACD解析:[多选题]181.Hadoop启动方法有(ABC)A)Start-all.shB)start-dfs.shC)start-yarn.shD)start-hadoop.sh答案:ABC解析:[多选题]182.Hadoop的HDFS是一种分布式文件系统，适合以下哪种场景的数据存储和管理()。A)大量小文件存储B)高容错、高吞吐量C)低延迟读取D)流式数据访问答案:BD解析:[多选题]183.下面关于Spark的运行架构的描述，正确的是：()A)Spark运行架构包括ClusterB)Spark集群资源管理器可以是Spark自带的资源管理器，也可以是YARN或Mesos等资源管理框架C)Spark采用?P2P架构?D)Spark利用多线程来执行具体的任务答案:ABD解析:[多选题]184.与HadoopMapReduce计算框架相比，Spark所采用的Executor具有哪些优点？A)利用多线程来执行具体的任务，减少任务的启动开销B)Executor中有一个BlockManager存储模块，有效减少IO开销C)提供了一种高度受限的共享内存模型D)不同场景之间输入输出数据能做到无缝共享答案:AB解析:[多选题]185.数据库管理系统的工作包括A)定义数据库B)对已定义的数据库进行管理C)为定义的数据库提供操作系统D)数据通信答案:ABD解析:[多选题]186.（）和（）暂不参与《大数据应用推动考核办法》中的日常工作月度考核。A)风险管理部B)内审监督部C)科技信息部D)数据运管部答案:CD解析:[多选题]187.下面对Hbase组件描述正确的是()。A)HBase属于关系型数据库B)HBase不属于关系型数据库C)HBase支持SQL语言D)HBase不支持SQL语言答案:BD解析:[多选题]188.以下（）是MaxcomputeSQL的优点。A)相对于使用API或者SDK编程，MaxcomputeSQL的学习成本较低B)可将其他数据库中的SQL语句迁移到Maxcompute上来，无需修改或者重新开发C)提供了丰富的内置函数D)用户不需要了解分布式概念答案:ACD解析:[多选题]189.数据使用环节主要内容包括（）。A)落实公司业务授权及账号权限管理要求，合理分配数据访问权限，强化数据访问控制B)排查整改业务逻辑缺陷和漏洞，防止失泄密事件C)加快数据脱敏等用户敏感数据保护措施建设D)健全数据安全日志审计、监测预警、态势感知机制答案:ABCD解析:[多选题]190.创建视图时可用以下()选项完成视图的安全控制。--A)DEFINERB)UNDEFINEDC)WITHCHECKOPTIOND)SQLSECURITY答案:AD解析:[多选题]191.哪些机器学习算法需要做归一化处理？A)logistic回归B)神经网络C)SVMD)随机森林答案:ABC解析:[多选题]192.Kafka中删除消息的阈值有哪几种?A)分区总日志大小B)数据使用的频率C)数据产生的时间D)硬盘总空间大小答案:AC解析:[多选题]193.根据《国网数据管理办法》（2019征求意见稿），总部各业务部门是本专业数据的产生者、维护者和使用者，对本专业数据负责，以下（）对其主要职责的描述是错误的：A)负责本公司整体及本专业数据库表目录管理B)负责本专业数据标准建设和执行C)不负责本专业数据质量核查治理D)负责本专业大数据应用和数据安全管理答案:AC解析:[多选题]194.关于SparkSQL&Hive区别与联系，下列说法正确的是？A)SparkSQL依赖Hive的元数据B)SparkSQL的执行引擎为Sparkcore，Hive默认执行引擎为MapReduceC)SparkSQL不可以使用Hive的自定义函数D)SparkSQL兼容绝大部分Hive的语法和函数答案:BCD解析:[多选题]195.大数据计算框架Spark中除了RDD还有哪些数据类型?A)DataTypeB)DataFrameC)DataSetD)DataSchema答案:BC解析:[多选题]196.下列有关k-mean算法说法正确的是A)不能自动识别类的个数，随机挑选初始点为中心点计算B)数据数量不多时，输入的数据的顺序不同会导致结果不同C)不能自动识别类的个数，不是随机挑选初始点为中心点计算D)初始聚类中心的选择对聚类结果的影响很大答案:AD解析:[多选题]197.下列不是Python关键字的有（）。A)noB)NoneC)nullD)none答案:ACD解析:详见Python关键字列表。[多选题]198.下面关于搜索引擎?点击模型?的描述正确的是：（）A)随若数据量的积累，点击模型对捜索结果排名的预测越来越准确，它的重要性也越来越大B)点击模型的准确性取决于数据量的大小C)一个捜索引擎使用的时间越长，数据的积累就越，对于长尾搜索就做越准确D)当整个捜索行业都意识到点击数据的重要性后，这个市场上的竞争就从技术竞争变成了数据竞争答案:ABCD解析:[多选题]199.下面与数据科学相关的正确描述有(__)。A)数据科学中的?数据?并不仅仅是?数值?也不等同?数值?B)数据科学中?计算?包括查询、洞见、可视化等C)数据科学关注的是?单一学科?D)数据科学并不仅仅是?理论研究?也不是?领域务实知识?答案:ABD解析:[多选题]200.Grealin包括哪三个基本的对数据流的操作?A)sideBffect-stepB)filter-stepC)get-stepD)map-step答案:ABD解析:[多选题]201.KafkaConsumer在跟踪消费记录时，需要以下哪几个选项的信息?A)partitionB)offsetC)producerD)topic答案:ABD解析:[多选题]202.建设泛在电力物联网的原因包括（）：A)公司深入贯彻落实习近平新时代中国特色社会主义思想的政治担当B)公司深入贯彻落实中央领导同志最新要求的实际行动C)公司加快新旧动能转换、突破发展瓶颈的主动抉择D)公司新一届领导班子坚持守正创新、坚定不移做强做优做大公司的战略选择答案:ABCD解析:[多选题]203.下列说法中正确的是()。A)云计算的主要特点是非常昂贵B)大数据是多源、异构、动态的复杂数据,即具有4V特征的数据C)大数据是数据科学的研究对象之一D)MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)答案:BCD解析:云计算的一个重要优势在于其经济性。与其他计算模式不同的是,云计算的出发点是如何使用成本低的商用机(而不是成本很高的高性能服务器)实现强大的计算能力[多选题]204.以下语句错误的是（）;SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;A)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000B)SELECTrank,AVG(salary)FROMpeopleHAVINGAVG(salary)>1000GROUPBYrank;C)SELECTAVG(salary)FROMpeopleGROUPBYrankHAVINGAVG(salary)>1000;D)SELECTrank,AVG(salary)FROMpeopleGROUPBYrankWHEREAVG(salary)>1000;答案:BD解析:[多选题]205.ETL的组成部分包括()。A)数据抽取B)数据转换和加工C)数据加载D)数据的存储答案:ABC解析:[多选题]206.针对维数灾难,我们主要采用的降维方法有()。A)多维缩放B)主成分分析C)核化线性降维D)流形学习E)度量学习答案:ABCDE解析:第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.自连接查询指相互连接的表在物理上为同一个表,但逻辑上分为两个表。--A)正确B)错误答案:对解析:[判断题]208.ClouderaCDH是需要付费使用的。()A)正确B)错误答案:错解析:[判断题]209.在hdfs-site.xml配置文件中可以配置HDFS数据块的副本数量。A)正确B)错误答案:对解析:[判断题]210.()INSERT语句所插入的数据行数据可以来自另外一个SELECT语句的结果集。A)正确B)错误答案:对解析:[判断题]211.编写函数时，一般建议先对参数进行合法性检查，然后再编写正常的功能代码。A)正确B)错误答案:对解析:[判断题]212.在Map阶段的分组部分，相同key的若干value会被放入一个组里。()A)正确B)错误答案:对解析:[判断题]213.分区数量是ReduceTask的数量。()A)正确B)错误答案:对解析:[判断题]214.已知x={1:1,2:2}，那么语句x[3]=3无法正常执行。A)正确B)错误答案:错解析:[判断题]215.from_arrays()方法是将元组列表转换为MultiIndex对象。（）A)正确B)错误答案:错解析:[判断题]216.假设有非空列表x，那么xA)正确B)错误答案:错解析:[判断题]217.Python不允许使用关键字作为变量名，允许使用内置函数名作为变量名，但这会改变函数名的含义A)正确B)错误答案:对解析:[判断题]218.数组之间的任何算术运算都会将运算应用到元素级。（）

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷25)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷25)

文档简介

温馨提示

最新文档

评论

相关文档