




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.大数据的价值是通过数据共享、()后获取最大的数据价值A)算法共享B)共享应用C)数据交换D)交叉复用答案:D解析:[单选题]2.下列关于k-means的优点不正确的是()A)原理简单B)k值容易选取C)聚类效果较好D)可解释性强答案:B解析:[单选题]3.Redis中相对于AOF持久化,对RDB持久化描述正确的是?A)内存占用过多,持久化文件尺寸较大B)占用较多的磁盘IO开支C)会丢失最后一次持久化以后的数据D)恢复数据相对较慢,写入数据相对较快答案:C解析:[单选题]4.使用Pig语句实现分组查询,下列语句正确的是()。A)SELECT*FROMtmp_tableGROUPBYis_male;B)DUMPtmp_tableGROUPBYis_male;C)GROUPtmp_tableBYis_male;D)tmp_table_group=GROUPtmp_tableBYis_male;DUMPtmp_table_group;答案:D解析:[单选题]5.现有如下代码:sum=0foriinrange(100):if(i%10):continuesum=sum+iprint(sum)若运行代码,输出的结果为()A)5050B)4950C)450D)45答案:C解析:[单选题]6.()是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分析答案:B解析:[单选题]7.下列关于ADS用户的说法,()是正确的。A)对用户的授权支持ACL和policy两种B)在授权给一个用户之前,需要使用adduseron.*将用户添加到ADS库dbname中来C)数据库拥有者可以删除用户,意味着被删除用户无法再使用ADS的任何服务D)用户是被授权的数据库用户,由数据库拥有者授权时添加,无须开通ADS服务答案:D解析:[单选题]8.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。A)穷举搜索B)随机搜索C)Bayesian优化D)以上全是答案:D解析:[单选题]9.()属于SVM应用。A)文本和超文本分类B)图像分类C)新文章聚类D)以上均是答案:D解析:SVM可用于分类与回归,文本和超文本分类、图像分类、新文章聚类。[单选题]10.下列关于Hive基本操作命令的解释错误的是()A)createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,创建表usr,含三个属性id,name,ageB)loaddatalocalinpath?/usr/local/data?overwriteintotableusr;//把目录?/usr/local/data?下的数据文件中的数据以追加的方式装载进usr表C)createdatabaseuserdb;//创建数据库userdbD)insertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据答案:B解析:[单选题]11.下列关于数据存储系统叙述不正确的一项为()。A)数据采集层B)数据清洗、抽取与建模C)数据仓库与数据服务D)无统一数据接口答案:D解析:[单选题]12.在HDFS中()管理文件系统的命名空间。A)DataNodeB)ClientC)NameNodeD)Flume答案:C解析:[单选题]13.()情况下,LDA会失败。A)如果有辨识性的信息不是平均值,而是数据的方差B)如果有辨识性的信息是平均值,而不是数据方差C)如果有辨识性的信息是数据的均值和方差D)以上答案都不正确答案:A解析:LDA的思想是投影后类内方差最小、类间方差最大。[单选题]14.零售商Target的机遇大数据的商品营销案例体现的大数据思维方式是()A)全样而非抽样B)效率而非精确C)相关而非因果D)以数据为中心答案:C解析:[单选题]15.()不是长短时记忆神经网络三个门中的一个门。A)输入门B)输出门C)遗忘门D)进化门答案:D解析:长短时记忆神经网络(LSTM)增加了三个门用来控制信息传递和最后的结果计算,三个门分别为遗忘门、输入门、输出门。[单选题]16.下列关于舍恩伯格对大数据特点的说法中,错误的是()。A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高答案:D解析:[单选题]17.以下选项中哪个不属于数据预处理的方法()。A)数据清洗B)数据集成C)数据变换D)数据统计答案:D解析:数据统计并非为数据预处理的常见内容。[单选题]18.不属于桌面虚拟化技术构架的选项是。A)SaaSB)PaaSC)IaaSD)HaaS答案:D解析:[单选题]19.通过聚集多个分类器的预测来提高分类准确率的技术称为()A)组合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:[单选题]20.执行以下代码段list1=[2445,133,12254,123]print(min(list1),max(list1))时,输出为()。A)1232445B)2445133C)12312254D)122542445答案:C解析:[单选题]21.输入图片大小为100×100×3,依次经过一层卷积(kernelsize5×5,paddingsame,stride2),pooling(kernelsize3×3,paddingsame,stride2),又一层卷积(kernelsize3×3,paddingvalid,stride1)之后,输出特征图大小为:()A)25×25B)50×50C)48×48D)23×23答案:D解析:[单选题]22.假负率是指()A)正样本预剧结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数答案:B解析:[单选题]23.若a=np.array([[7,2,3],[8,5,6]]),则print(np.sort(a,1))的结果为(__)。A)[[723][856]]B)[[237][568]]C)[235678]D)[[235][678]]答案:B解析:[单选题]24.在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()A)分片操作B)合并操作C)格式化操作D)溢写操作答案:B解析:在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次合并操作,以确保最终只会生成一个数据文件[单选题]25.下面几种梯度下降方法中,哪种是速度最慢的:()A)SGDB)AdagradC)RMSPropD)Adam答案:A解析:[单选题]26.建立在相关关系分析法基础上的预测是大数据的()。A)基础B)前提C)核心D)条件答案:C解析:略。[单选题]27.下列关于支持向量回归说法,错误的是()。A)支持向量回归是将支持向量的方法应用到回归问题中B)支持向量回归同样可以应用核函数求解线性不可分的问题C)同分类算法不同的是,支持向量回归要最小化一个凹函数D)支持向量回归的解是稀疏的答案:C解析:支持向量机最大间隔模型是一个凸二次规划问题。[单选题]28.SQL语句中的条件用以下哪一项来表达()A)THENB)WHILEC)WHERED)IF答案:C解析:[单选题]29.下列哪种去噪方法能较好的保持图像边缘。()A)中值滤波B)双边滤波C)均值滤波D)高斯滤波答案:A解析:[单选题]30.下面组件哪个是负责在Hadoop和关系数据库之间实现数据导入导出的:()A)MySQLB)HDFSC)SqoopD)FIume答案:C解析:[单选题]31.执行以下代码段alien={'color':'green','points':5}print(alien['color'])时,输出为()。A)colorB)greenC)pointsD)5答案:B解析:[单选题]32.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们可通过()来保证得到的模型是线性可分离的。A)C=0B)C=1C)C正无穷大D)C负无穷大答案:C解析:C为分类错误项的参数,即正则化中的惩罚因子,C越大,边界越窄,尽可能把更多点正确分类,分类错误越少。C越小,边界越宽,分类错误点的个数增加。因此,C正无穷大时,可以实现没有分类错误的点,模型线性可分。[单选题]33.有关神经网络训练过程的说法,错误的是?()A)对神经网络训练的优化需要综合考虑激活函数、网络结构、权重更新方法等多种因素。B)分析问题确定后,神经网络合适的结构就可以确定。C)神经网络权重的初始化大小会对网络的训练结果影响。D)使用增加训练次数的方法不一定可以减少代价函数的取值。答案:B解析:[单选题]34.下列()程序通常与NameNode在一个节点启动.A)SecondNameNodeB)DataNodeC)TaskTrackerD)JobTracker答案:D解析:[单选题]35.下列关于计算机存储容量单位的说法中,错误的是()。A)1KB<1MB<1GBB)基本单位是字节(Byte)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字符答案:D解析:[单选题]36.以下哪个组件可以指定对key进行Reduce分发的策略?A)RecordReaderB)CombinerC)PartitionerD)FileInputFormat答案:C解析:[单选题]37.下面不属于数据转换的有(__)。A)talendB)alteryxC)streamsetsD)stitch答案:D解析:[单选题]38.DWSDN的高可用架构是:()。A)主备从架构B)一主多备架构C)两者兼有D)其他答案:A解析:[单选题]39.()是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。A)数据治理B)数据战略C)数据加工D)数据能力答案:B解析:数据战略(DataStrategy)是一个机构的数据管理的愿景、目标以及功能蓝图的统一管理。从DMM模型可看出,数据战略是组织机构的数据管理工作的重要前提。[单选题]40.DRDS的产品定位不包括:()。A)基于RDS的分布式数据存储和检索产品B)海量数据的多维分析C)降低用户使用分布式数据库的难度D)解决用户单RDS无法支撑业务的困难答案:B解析:[单选题]41.在一个神经网络中,下面哪种方法可以用来处理过拟合?()A)DropoutB)分批归一化(BatchNormalization)C)正则化(regularization)D)都可以答案:D解析:[单选题]42.大数据要求企业设置的岗位是()。A)首席信息官和首席数据官B)首席信息官和首席工程师C)首席分析师和首席工程师D)首席分析师和首席数据官答案:A解析:[单选题]43.在Spark生态系统组件的应用场景中,下列哪项说法是错误的?A)Spark应用在复杂的批量数据处理B)SparkSQL是基于历史数据的交互式查询C)SparkStreaming是基于历史数据的数据挖掘D)GraphX是图结构数据的处理答案:C解析:[单选题]44.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A)表达观点的关键词B)表达程度的关键词C)表达情绪的关键词D)表达客观事实的关键词答案:D解析:表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的关键词都是带有情感倾向的主观性文本,适用于情感分析。[单选题]45.我们常见的二维码标签属于物联网架构中的哪一层?A)感知层B)网络层C)处理层D)应用层答案:A解析:[单选题]46.在存储过程中有如下代码:DECLAREiD、INTDEFAULT0;REPEATSETid=id+1;UNTILid>=10;END、REPEAT;下面选项中,对于代码的功能描述正确的是()。--A)实现1~10之间的数字累加B)实现1~10之间的数字遍历C)当id=10时循环就会退出执行D)以上代码会出现语法错误答案:D解析:[单选题]47.Kafka消息默认保存时间为多少天?A)14天B)30天C)1天D)7天答案:D解析:[单选题]48.Hadoop的哪个包的功能是表示层,将各种数据编码/解码,方便在网络上传输()A)fsB)ipcC)ioD)net答案:C解析:A、fs【抽象文件系统,提供统一访问接口】B、ipc【节点间通信】C、io【表现层,将数据编码、解码,序列化】D、net【网络功能】/frady-p-2704658.html[单选题]49.在hadoop01上想要连接hadoop02的ZooKeeper服务器,使用()命令。A)zkCli.sh-serverhadoop02:2181B)zkCli.sh-serverhadoop02:2888C)zkCli.shserverhadoop02:2181D)zkCli.shserverhadoop02:2888答案:A解析:[单选题]50.向数据表中插入一条记录用以下哪一项()A)CREATEB)INSERTC)SAVED)UPDATE答案:B解析:[单选题]51.()计算框架源自一种分布式计算模型,其输入和输出值均为"键值对"结构。A)MahoutB)MapReduceC)SparkD)Sqoop答案:B解析:[单选题]52.在FusionInsightManager界面中,对Loader的操作不包括下列哪个选项?A)切换Loader主备节点B)启动Loader实例C)配置Loader参数D)查看Loader服务状态答案:A解析:[单选题]53.若学习算法不依赖于环境建模,则称为(__)A)免模型学习B)机器学习C)深度学习D)蒙特卡罗强化学习答案:A解析:[单选题]54.数据恢复必须坚持审批登记制。需要恢复数据时,报批准后方可进行;恢复数据必须坚持(),一人操作,一人监督,并详细登记;恢复过程中若有异常情况,应及时与有关技术人员联系,不得任意处理;若恢复异常对业务造成重大影响,必须向主管领导汇报,并组织实施补救。A)双人制B)复核制C)AA制D)单人制答案:A解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.传统数据密集型行业积极探索和布局大数据应用的表现是()A)投资入股互联网电商行业B)打通多源跨域数据C)提高分析挖掘能力D)实现科学决策与运营答案:BCD解析:[多选题]56.流式大数据处理主流采用哪三种框架?A)StormB)SamzaC)MesosD)Spark答案:ABD解析:[多选题]57.DRDS则将整个扩容的过程分为多个阶段,包括:()步骤。A)切换数据库B)增量同步C)全量迁移D)重启实例答案:AC解析:[多选题]58.根据《大数据风控平台项目操作手册》,企业信用智能分析报告分()2个版本。A)征信报告B)尽职调查报告C)企业信用智能分析报告D)企业信用智能分析报告(含征信)答案:CD解析:[多选题]59.下面关于单样本t检验的说法,错误的是()。A)当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布中B)羊样本t检验适用于样本量比较多(n>30)的情况C)t分布的不确定性比正态分布小,其原因是样本数量比较小D)单样本t检栓通常也被叫作学生t检验答案:ABC解析:[多选题]60.通过(),提出公司数据资产需求。A)结合业务管理现状和未来发展B)研究各项业务与数据的完全映射C)形成公司业务数据集D)分析与现有数据资源的差异答案:ABCD解析:[多选题]61.对于ADS的索引说法正确的是:()。A)一个列可以设置列属性disableIndex=true,用于屏蔽ADS的默认列索引B)ADS弱化了索引的概念,用户无需亲自为自己的数据表配置索引C)ADS拥有高度智能的自动化索引机制,会搜集相关信息,去自动创建索引D)用户需要对某列进行hashJoin时,无论是事实表之间的join还是事实表和维度表的join,都需要考虑手工处理索引问题。答案:ABC解析:[多选题]62.流式计算的应用场景包括:()。A)实时数据仓库B)实时监控C)实时报表D)流式数据分析答案:ABCD解析:[多选题]63.下列关于Spark中的RDD描述正确的有()。A)RDD(ResilientDistributedDataset)叫作弹性分布式数据集,是Spark中最基本的数据抽象B)Resilient:表示弹性的C)Destributed:分布式,可以并行在集群计算D)Dataset:就是一个集合,用于存放数据答案:ABCD解析:A、B、C、D全部正确。[多选题]64.云计算的优势体现在以下几个方面A)设备数量B)设备成本C)运维成本D)管理成本答案:ABCD解析:[多选题]65.数据质量的问题体现在()A)完整性B)一致性C)合法性D)精确性答案:ABCD解析:[多选题]66.在MySQL数据库中,表之间存在下列哪些关系()。A)一对一B)一对多C)多对多D)继承答案:ABC解析:[多选题]67.下列属于HBaseConfiguration类的静态方法是()【选两项】A)Configurationcreate()B)Configurationcreate(String[]conf)C)Configurationcreate(Stringconf)D)Configurationcreate(Configurationconf)答案:AD解析:[多选题]68.Gs_dump和gs_dumpa11的异同点是(A)二者都支持纯文本格式数据的导出。B)ds_dump只支持纯文本格式的数据导出,dsdumpall支持多种数据格式的数据导出。C)二者都支持公共全局对象的数据导出。D)ds_dump针对的是单个数据库,ds_dumpall针对的是所有数据库。答案:ACD解析:[多选题]69.某开发小组可以利用E1asticSearch实现下列哪些功能?A)查询交易凭证B)开发交易系统C)查询客户信用记录D)自动化评估贷款额度答案:AC解析:[多选题]70.下列关于密度聚类说法正确的是(__)。A)密度直达关系通常满足对称性B)密度可达关系满足直递性,但不满足对称性C)密度相连关系满足对称性D)密度相连关系满足直递性答案:BC解析:[多选题]71.直方图修正法包括()。A)直方图统计B)直方图均衡C)直方图过滤D)直方图规定化答案:BD解析:[多选题]72.在Spark技术中,下面对Storage模块中各个类的的主要功能表述正确的是(__)。A)org.apache.spark.storage.BlockManagerMasterActor:在Driver节点上的Actor,负责track所有Slave节点的Block的信息B)org.apache.spark.storage.BlockManagerMaster:Block管理的接口类C)org.apache.spark.storage.BlockObjectWriter:一个抽象类,可以将任何的JVMobject写入外部存储系统。注意,它可以支持并发的写操作。D)org.apache.spark.storage.BlockStore:存储Block的抽象类。答案:ABD解析:[多选题]73.下列关于集合操作结果正确的有()A)name={?d?,?s?}name.add(?sd?)name值为:{?sd?,?d?,?s?}B)name={?sd?,d?,?s?}name.remove(?s?)name值为:{?sd?,?d?}C)name={?sd?,d?,?s?}name.clear()name值为:{}D)name={?sd?,d?,?s?}name.update(?df?)name值为:{?sd?,?d?,?f?,?s?,?j?}答案:ABC解析:[多选题]74.下列有关类的说法正确的是(___)。A)当类被实例化时自动执行的函数__init__(),如果没有写自定义的构造函数,则会执行默认构造函数B)析构函数_del__()也是可选的,如果不提供,则Python会在后台提供默认析构函数C)当使用del删除对象时,会调用他本身的析构函数D)当对象在某个作用域中调用完毕,在跳出其作用域的同时析构函数也会被调用一次,这样可以用来释放内存空间答案:ABCD解析:[多选题]75.Redis中Key的生存时间expire适合用于以下哪些应用场景?A)限制网站访客访问须率B)限时的优惠活动信息C)网站积分排行榜D)存储特定用户所有历史信息答案:ABC解析:[多选题]76.在HBase中,下列Table提供的获取Scan实例的方法正确的有()【选三项】A)ResultScannergetScanner(Scanscan)throwsIOExceptionB)ResultScannergetScanner(String[]str)throwsIOExceptionC)ResultScannergetScanner(byte[]family)throwsIOExceptionD)ResultScannergetScanner(byte[]family,byte[]qualifier)throwsIOException答案:ACD解析:[多选题]77.下列关于AUC面积的描述,正确的是()A)AUC被定义为ROC曲线丁与坐标轴围成的面积B)AUC面积的值大于1C)AUC等于0.5时,则真实性最低,无应用价值D)AUC越接近1.0,检测方法真实性越高答案:ACD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.()建立索引的目的在于加快查询速度以及约束输入的数据。A)正确B)错误答案:对解析:[判断题]79.在IDLE交互模式下,一个下划线?_?表示解释器中最后一次显示的内容或最后一次语句正确执行的输出结果。A)正确B)错误答案:对解析:[判断题]80.子类中不能重新实现从父类继承的方法。()A)正确B)错误答案:错解析:[判断题]81.大数据平台专区是基于集团大数据平台为省公司打造的一站式数据应用开发平台,能够为各省开发者提供从底层(计算、存储、工具能力)、中间(OpenAPI、模型)到上层应用快速数据科学探索的一条龙服务。A)正确B)错误答案:对解析:[判断题]82.应用开发需要进行需求分析,包括需求调研和市场调研。A)正确B)错误答案:对解析:[判断题]83.在python中处理的每样东西都是对象。A)正确B)错误答案:对解析:[判断题]84.复数类型的实数部分可以为0。()A)正确B)错误答案:对解析:[判断题]85.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差A)正确B)错误答案:错解析:[判断题]86.在循环语句中,continue语句的作用是提前进入下一次循环。A)正确B)错误答案:对解析:[判断题]87.SELECTBIN(2);的执行结果为11。--A)正确B)错误答案:错解析:[判断题]88.MapTask作为MapReduce工作流程的前半部分,它主要经历Read阶段、Map阶段、Collect阶段、Spill阶段和Shuffle阶段。A)正确B)错误答案:错解析:MapTask作为MapReduce工作流程的前半
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁路旅客运输服务铁路客运服务质量保证与补救课件
- 生活用品租赁协议
- 铁路市场营销市场细分的原则课件
- 河池脱硫塔防腐施工方案
- 中国主要旅游线路
- 大学生职业规划大赛《光电信息科学与工程专业》生涯发展展示
- 分销商合同框架协议
- 江西工程职业学院《影视传媒法律法规》2023-2024学年第二学期期末试卷
- 湘潭理工学院《建筑结构抗震》2023-2024学年第二学期期末试卷
- 天津仁爱学院《发电厂电气设备及运行》2023-2024学年第二学期期末试卷
- 防爆电气工程施工方案
- (高清版)DBJ52∕T 017-2014 回弹法检测山砂混凝土抗压强度技术规程
- 教师资格考试小学美术面试试题与参考答案(2024年)
- 2023年北京市公务员招考考试真题
- 2024九省联考适应性考试【贵州省】物理答案及答案解析
- 劳动合同换签主体协议书范文
- 【N市某公寓楼建筑电气与智能化系统工程设计(论文)18000字】
- 风电基础施工方案
- 2024年职业病防治考试题库附答案(版)
- 六年级升学讲座模板
- 工程项目后评价与经验总结考核试卷
评论
0/150
提交评论