大数据开发基础(习题卷80)_第1页
大数据开发基础(习题卷80)_第2页
大数据开发基础(习题卷80)_第3页
大数据开发基础(习题卷80)_第4页
大数据开发基础(习题卷80)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷80)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.数据变换的策略包括()。A)平滑处理、特征构造、聚集、标准化、离散化B)平滑处理、特征构造、聚集、审计、离散化C)平滑处理、、聚集、标准化、审计、离散化D)特征构造、聚集、标准化、审计、离散化答案:A解析:数据变换的策略不包括审计。[单选题]2.对于随机森林和GBDT,下面说法正确的是()A)在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D)GBDT训练模型的表现总是比随机森林好答案:B解析:[单选题]3.Hadoop使用了一套独有的配置文件管理系统,并提供自己的API,即使用()处理配置信息。A)org.apache.hadoop.conf.ConfigurationB)org.apache.hadoop.conf.ConfigC)org.apache.hadoop.fs.FileSystemD)org.apache.hadoop.fs.Path答案:A解析:[单选题]4.按照维度将多个矩阵连接起来应该用哪个函数?A)np.mulB)np.sumC)np.concatenatD)np.mat答案:C解析:[单选题]5.Flink快照机制的核心是barriers不包含以下哪个特点?A)将前后周期快照数据分隔B)携带所属快照周期的IDC)严格的按照线性流动D)会阻断数据流,重量级元组答案:D解析:[单选题]6.统筹感知层、()和平台层关键技术攻关,协同输变电物联网、配电物联网等相关建设任务,联合打造全面感知、高效处理、应用灵活的企业级智慧物联体系A)网络层B)数据层C)应用层D)科技层答案:A解析:[单选题]7.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,下面叙述正确的是()A)没啥问题,神经网络会正常开始训练B)神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西C)神经网络不会开始训练,因为没有梯度改变D)以上选项都不对答案:B解析:[单选题]8.forIinrange(2):print('hi')的结果()A)打印两次hiB)打印两次2C)打印一次2D)打印一次hi答案:A解析:[单选题]9.应用人工智能和()等新技术,实现区域自治、云边协同和能力开放。A)云计算B)能源生态C)边缘计算D)数据共享答案:C解析:[单选题]10.采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,推荐使用以下哪种channel类型?A)MemoryChannelB)FileChannelC)JDBCChannelD)HDFSChannel答案:B解析:[单选题]11.泛在电力物联网系统建设必须严格遵循公司统一的()数据模型和数据、采集、定义、编码、应用等标准,确保数据共享。A)E-R模型B)SG-CIM模型C)IMS模型D)DBTG模型答案:B解析:[单选题]12.与大数据密切相关的技术是()A)蓝牙B)云计算C)博弈论D)WiFi答案:B解析:[单选题]13.下列选项中,不会加剧数据信息泄露风险的是()。A)不限制大数据搜集内容B)数据中心内的大数据清洗C)互联网平台进行大数据处理D)个人移动设备参与大数据存储答案:B解析:[单选题]14.第3次信息化浪潮的标志是:()A)个人计算机的普及B)互联网的普及C)云计算、大数据和物联网技术的普及D)人工智能化答案:C解析:[单选题]15.税易通授信额度的基本计算模型:授信额度=()×年收入水平层级系数×纳税期限调整系数A)年收入总额B)月平均收入C)年度内月最高收入D)季平均收入答案:A解析:[单选题]16.关于饼图说法错误的是()A)、用于以二维或三维形式显示每一数值相对于总数值的大小B)、饼图显示的是各数据之间的相对比例关系,而不是其绝对值C)、饼图显示的是各数据之间的绝对值关系D)、饼图可以用于分析数据各个类别占比情况答案:C解析:[单选题]17.数据整合和分组的说法,不正确的是()A)数据连接可以用concat或merge函数B)axis=1表示轴向连接C)数据分组可以使用mean函数D)使用agg可以自定义多个聚合函数答案:C解析:[单选题]18.我国首家大数据交易所是:()A)貴阳大数据交易所B)上海数据交易中心C)华东江苏大数据交易中心D)浙江大数据交易中心答案:A解析:[单选题]19.概率密度函数服从正态分布的噪声,叫做(__)。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]20.搜索引擎?点击模型?体现的大数据思维方式是()A)全样而非抽样B)效率而非精确C)相关而非因果D)以数据为中心答案:D解析:[单选题]21.python语句print(type((1,2,3,4)))的输出结果是。()A)class?tuple?B)class?dict?C)class?set?D)class?list?答案:A解析:[单选题]22.公安行业中实时检索不适用于以下哪个场景?A)实时布控B)快速信息汇集C)评估嫌疑人犯罪概率D)车辆信息查询答案:C解析:[单选题]23.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:A)logistic回归B)SVMC)树形模型D)神经网络答案:C解析:[单选题]24.关系型数据库最多可以创建()个只读实例A)5B)4C)3D)2答案:A解析:[单选题]25.下列关于人工智能的叙述不正确的有:()。A)人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平。B)人工智能是科学技术发展的趋势。C)因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要。D)人工智能有力地促进了社会的发展。答案:C解析:[单选题]26.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?A)Namenode,Datanode,TaskTrackerB)Namenode,Datanode,secondaryNameNodeC)Namenode,Datanode,HMasterD)Namenode,JobTracker,secondaryNameNode答案:D解析:[单选题]27.Spark生态系统组件SparkStreaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:[单选题]28.将灰度图像转换成二值图像的命令为()。A)ind2grayB)ind2rgbC)im2bwD)ind2bw答案:C解析:[单选题]29.列表是Python语言中基本数据类型之一。我们可以通过list[i]获取列表中第i个元素的值,那么list[i∶j]的作用是()。A)将列表中第i个元素的值设置为jB)返回一个列表切片--由原列表第i个到第j-1个元素组成的新列表C)返回一个拥有第i和j个元素的新列表D)返回一个拥有第j和i个元素的新列表答案:B解析:切片得到索引从i到末尾。[单选题]30.若要修改HBase表,下列API哪个最先被调用?A)createConnection()B)getTable()C)getConnect()D)getAdmin()答案:D解析:[单选题]31.下列选项中,不属于python特点的是。()A)面向对象B)运行效率高C)可移植性D)免费和开源答案:B解析:[单选题]32.下列有关HDFS的容错机制描述错误的是()。A)HDFS可以使用机架位感知的方法实现容错机制B)HDFS可以使用基于erasurecode的方法实现容错机制C)HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后在拷贝一份到其他服务器D)HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后在拷贝一份到同机架机器的不同位置上答案:D解析:[单选题]33.通过(),持续降低自动采集成本和操作难度,不断提高公司数据的自动采集水平。A)组织开展数据转换技术及应用研究B)组织开展数据分类技术及应用研究C)组织开展数据录入技术及应用研究D)组织开展数据自动采集技术及应用研究答案:D解析:[单选题]34.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A)sort()B)combiner()C)join()D)gather()答案:B解析:[单选题]35.教育大数据面临的安全风险中,影响范围最大的是()。A)学生隐私保护B)学校OA数据C)云计算安全风险D)缺乏行业安全标准答案:A解析:[单选题]36.HBase的主HMaster是:()选举的。A)由RegionServer进行裁决B)HMaster为双主模式,不需要进行裁决C)通过ZooKeeper进行裁决D)随机选举答案:C解析:[单选题]37.2003年,Tableau在斯坦福大学诞生,它起源于一种改变数据使用方式的新技术()。A)VizQL语言B)SQL语言C)XSQL语言D)NewSQL语言答案:A解析:[单选题]38.下列()中的参数可以帮助我们实现?create'help_keyword','person'?的效果。A)--hbase-create-table--hbase-tablehelp_keyword--column-familypersonB)--hbase-table--hbase-create-tablehelp_keyword--column-familypersonC)--hbase-create-table--hbase-tablehelp_keyword--hbase-row-keypersonD)--hbase-table--hbase-create-tablehelp_keyword--hbase-row-keyperson答案:A解析:[单选题]39.数据应用按照?谁经手,谁使用,谁负责?的原则,规范使用过程,切实防范()风险。A)数据录入不及时B)业务数据失泄C)数据变更记录缺失D)业务数据不一致答案:B解析:[单选题]40.平滑图像处理可以采用RGB彩色()模型。A)直方图均衡化B)直方图均衡化C)加权均值滤波D)中值滤波答案:C解析:平滑图像处理可以采用RGB彩色加权均值滤波模型。[单选题]41.医疗大数据的主要来源不包括()。A)制药企业/生命科学B)临床医疗/实验室数据C)费用报销/利用率D)健康管理/社交网络答案:A解析:[单选题]42.执行以下代码段numberGames={}numberGames[(1,2,4)]=8numberGames[(4,2,1)]=10numberGames[(1,2)]=12sum=0forkinnumberGames:sum+=numberGames[k]print(len(numberGames)+sum)时,输出为()。A)30B)24C)33D)12答案:C解析:[单选题]43.(__)是具有适应性的简单单元组成的广泛并行互联的网络。A)神经系统B)神经网络C)神经元D)感知机答案:B解析:[单选题]44.HiveSQL中DDL指定是哪一种语言?A)数据删除语言B)数据管理语言C)数据查询语言D)数据定义语言答案:D解析:[单选题]45.关于bagging下列说法错误的是()A)各基分类器之间有较强依赖,不可以进行并行训练B)嘈最著名的算法之一是基于决策树基分类器的随机森林C)当训练样本数量较少时,子集之间可能有重叠D)为了让基分类器之间互相独立,需要将训练集分为若干子集答案:A解析:[单选题]46.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类,下列关于卷积神经网络能达到该效果的原因的描述不正确的是()。A)同样模式的内容(如鸟嘴)在图像不同位置可能出现B)池化之后的图像主体内容基本不变C)不同种类鸟的相同部位(如鸟嘴)形状相似D)池化作用能使不同种类鸟变得相似答案:D解析:特征维数的减少并不会让之前的特征丢失。[单选题]47.从数据库架构设计来看,主要有以下哪些设计思路?A)Shared-DiskB)Shared-EveryingC)Shared-NothingD)以上全正确答案:D解析:[单选题]48.对GaussDB200描述不正确的是?()A)并行架构B)易运维,安全可靠C)行列不能混存D)节点多,易扩展答案:C解析:[单选题]49.()是表管理类,提供了一个接口来管理HBase数据库的表信息。它提供的方法包括:创建表、删除表、列出表项、使表有效或无效,以及添加或删除表列簇成员等。A)AdminB)TableC)HTableDescriptorD)HColumnDescriptor答案:A解析:[单选题]50.通常来说,()能够用来预测连续因变量。A)线性回归B)逻辑回归C)线性回归和逻辑回归D)以上答案都不正确答案:A解析:逻辑回归被用来处理分类问题。[单选题]51.与以下代码段foriinrange(1,101):ifint(i*0.5)==i*0.5:print(i)等效的列表描述()。A)[iforiinrange(1,100)ifint(i*0.5)==(i*0.5)]B)[iforiinrange(1,101)ifint(i*0.5)==(i*0.5)]C)[iforiinrange(1,101)ifint(i*0.5)=(i*0.5)]D)[iforiinrange(1,100)ifint(i*0.5)=(i*0.5)]答案:B解析:[单选题]52.下列关于DMM(数据管理成熟度模型)中已管理级基本特点的描述正确的是()。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B)组织机构已用定量化的方式管理其关键过程的执行过程C)组织机构只在项目管理过程中执行了DM给出的关键过程,而缺乏机构层次的统筹与管理D)组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程答案:D解析:DMM(数据管理成熟度模型)中?已管理级?的基本特点是组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程。[单选题]53.下列方法中,默认删除列表最后一个元素的是()。A)delB)remove()C)pop()D)extend()答案:C解析:[单选题]54.数据转换器中日期类型的使用用途正确的是()A)DateDiff对应用途是将时间类型转换为字符类型B)DateFomat对应用途是把一个日期值格式化为Dateshire系统内部统一格式C)StringToDateTime对应用途是将字符串转换为日期时间D)FormatDate对应用途为计算两个日期之间的差答案:C解析:DateFomat对应用途是将时间类型转换为字符类型。第2部分:多项选择题,共25题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.(___)是数据集的一般特性。A)特征B)维度C)稀疏性D)分辨率答案:BCD解析:[多选题]56.下列可以用来评估线性回归模型的指标有()。A)R-SquaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE答案:ABCD解析:R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指标均可以评估线性回归模型。[多选题]57.数据预处理方法主要有()A)数据清洗B)数据集成C)数据变换D)数据归约答案:ABCD解析:[多选题]58.Flume适用于以下哪些场景的数据收集?A)Thrift,Avro,Syslog,Kafka等数据源上收集数据B)本地文件数据采集C)应用系统产生的日志采集D)大量数据的实时数据采集答案:ABC解析:[多选题]59.下列关于集成学习的说法正确的有()。A)随机森林是减少模型的方差,而GBDT是减少模型的偏差B)组成随机森林的树可以并行生成,而GBDT是串行生成C)随机森林的结果是多数表决的,而GBDT则是多棵树累加之和D)随机森林对异常值不敏感,而GBDT对异常值比较敏感答案:ABCD解析:随机森林与GBDT之间的区别:①组成随机森林的树可以是分类树也可以是回归树,而GBDT只由回归树组成;②组成随机森林的树可以并行生成,而GBDT是串行生成;③随机森林的结果是多数表决的,而GBDT则是多棵树累加之和;④随机森林对异常值不敏感,而GBDT对异常值比较敏感;⑤随机森林是通过减少模型的方差来提高性能,而GBDT是减少模型的偏差来提高性能的;⑥随机森林不需要进行数据预处理即特征归一化,而GBDT则需要进行特征归一化。156[多选题]60.下列哪种服务可以用于存储数据()。A)MapReduceB)YARNC)HBaseD)HDFS答案:CD解析:[多选题]61.下列关于神经网络描述正确的是(__)。A)我们在机器学习中谈论神经网络是指的是生物学意义上的神经网络B)神经网络中最基本的成分是神经元模型C)在MP神经元模型中,神经元接受来自n个其他神经元传递过来的信号D)神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。答案:BCD解析:[多选题]62.在比特币区块链中关于如何争夺记账权的问题,下面描述正确的是:()A)釆用的是POW机制,也就是?工作量证明机制?B)记账节点通过计算数学题,来争夺记账权C)对于数学公式的计算.除了从零开始遍历随机数碰运气以外,没有其他办法D)解题的过程,又叫?挖矿?,记账节点被称为矿工。谁先解对,谁就获记账权答案:ABCD解析:[多选题]63.下列关于负荷Python的模块的说法正确的有()。A)模块能够用来有逻辑地组织Python代码段B)Python拥有丰富的模块,不支持自定义模块C)把相关的代码分配到一个模块里能让代码更好用、更易懂D)模块能定义函数、类和变量,模块里也能包含可执行的代码答案:ACD解析:Python不仅支持自带的模块/库,还支持第三方库导入。[多选题]64.执行HBase读取数据业务,需要读取哪几部分数据?A)HMasterB)HFileC)HlogD)MemStore答案:BD解析:[多选题]65.QuickBI在阿里云大数据解决方案中扮演了很重要的角色,可以提供包括:()等在内的多种功能。A)报表展示B)即席查询C)门户集成D)数据采集答案:ACD解析:[多选题]66.FusionInsightHD集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?A)HDFSB)NameNodeC)DataNodeD)HBase答案:BC解析:[多选题]67.HIS表色系的三属性包含()。A)色调B)饱和度C)亮度D)色度答案:ABC解析:[多选题]68.下列说法中,关于InputFormat接口定义的getSplits()方法说法正确的是()。A)用来从分片中读取数据B)负责创建RecordReader对象C)实现了逻辑切片机制D)getSplits()方法的切片大小splitSize是由minSize、maxSize和blockSize的值确定的答案:CD解析:[多选题]69.下面属于视图优点的是()。--A)简化查询语句B)提高安全性C)实现了逻辑数据独立性D)加快了查询效率答案:ABC解析:[多选题]70.以下()属于《促进大数据发展行动纲要》(国发〔2015〕50号)明确提出的主要任务。A)加快政府数据开放共享,推动资源整合,提升治理能力B)推动产业创新发展,培育新兴业态,助力经济转型C)强化安全保障,提高管理水平,促进健康发展D)从国家信息化发展的战略全局把握大数据的概念与范畴答案:ABC解析:[多选题]71.可以用于判断一个对象的数据类型的是()A)isinstanceB)inC)typeD)for答案:AC解析:[多选题]72.下列关于Hive中的视图说法正确的是()A)和关系型数据库一样,Hive中也提供了视图的功能,它享用基本表的数据,不会生成另外一份数据。B)Hive中只有物化视图,没有逻辑视图。C)Hive中的视图只能SELECT/LOAD/INSERT/UPDATE/DELETE数据。D)Hive中的视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询。答案:AD解析:[多选题]73.不可以实现循环的关键字是()A)ifB)forC)whileD)with答案:AD解析:[多选题]74.ADS的维度表租中存放的表的特点包括:()。A)数据量较小B)为星型或者雪花型C)记录条数据不超过100万或者不大于1GD)需要和任何表关联答案:AD解析:[多选题]75.下列对字符串函数或方法说法正确的有()A)istitle()如果字符串是标题化的(见title())则返回True,否则返回FalseB)max(str)返回字符串str中最大的字母。C)replace(old,new,max)把将字符串中的str1替换成str2,如果max指定,则替换不超过max次D)upper()转换字符串中所有大写字符为小写.答案:ABC解析:[多选题]76.在Spark的基本流程中,主要涉及()。A)DriverProgramB)ClusterManagerC)WorkerNodeD)Executor答案:ABCD解析:Spark的基本流程,主要涉及DriverProgram(驱动程序)、Spark-Context、ClusterManager(集群管理器)、WorkerNode(工作节点)、Executor(执行器)和Cache(缓存)等角色。[多选题]77.下列属于半监督学习方法的是(__)。A)半监督支持向量机B)图半监督学习C)生成式方法D)支持向量机答案:ABC解析:第3部分:判断题,共17题,请判断题目是否正确。[判断题]78.Python列表、元组、字符串都属于有序序列。A)正确B)错误答案:对解析:[判断题]79.用来安装Python扩展库的pip命令应该在命令提示符环境下运行,如果安装了多个版本的Python,最好切换至相应版本的Python安装目录下运行。A)正确B)错误答案:对解析:[判断题]80.s=pdA)正确B)错误答案:错解析:[判断题]81.Flink状态快照是同步捕获的,影响正在进行的计算任务。A)正确B)错误答案:错解析:[判断题]82.表达式range(10,20)[4]的值运行结果为14。A)正确B)错误答案:对解析:[判断题]83.正则表达式元字符+用来表示该符号前面的字符或子模式1次或多次出现。A)正确B)错误答案:对解析:[判断题]84.数据多比数据小好,更好数据比算法系统更智能还是重要。因此,大数据的简单算法比小数据的复杂算法更有效A)正确B)错误答案:对解析:[判断题]85.在大数据时代,我们无须再紧盯事物之间的因果关系。A)正确B)错误答案:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论