大数据开发基础(习题卷74)_第1页
大数据开发基础(习题卷74)_第2页
大数据开发基础(习题卷74)_第3页
大数据开发基础(习题卷74)_第4页
大数据开发基础(习题卷74)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷74)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Redis中数据排序的性能优化不包含以下哪个选项?A)减少待排序键中元素的数量B)增加集群中Master节点C)如果要排序的数据数量很大,尽可能使用store参数将结果缓存D)使用limit参数只获取需要的数据答案:D解析:[单选题]2.某电商公司数据库高级工程师进行大数据分析,现在界面提示:"0:jdbe:hive2://86:2181/>"信息,那么他最有可能在进行什么场录的数据分析工作?A)实时检素场景B)离线批处理场景C)图搜索场景D)实时流开发场景答案:B解析:[单选题]3.根据DIKW信息、数据、知识、智慧模型,以下说法错误的是A)数据是记录下来可以被鉴别的符号,它是最原始的素材,未被加工解释,没有回答特定的问题,没有任何意义B)信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义C)知识是从相关信息中过滤、提炼及加工而得到的有用资料,不能从知识中产生新的知识D)智慧是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法答案:C解析:[单选题]4.利用公共网络来构建的私人专用网络称为:()A)VLANB)VMRC)VPND)VPP答案:C解析:[单选题]5.hbase的底层数据以答案:的形式存在的?A)keyvalueB)列存储C)行存储D)实时存储答案:A解析:[单选题]6.ADS的高度智能优化策略是指:()。A)PBOB)CBOC)RBOD)HBO答案:B解析:[单选题]7.关于字符串下列说法错误的是A)字符应该视为长度为1的字符串B)字符串以\n标志字符串的结束C)既可以用单引号,也可以用双引号创建字符串D)在三引号字符串中可以包含换行回车等特殊字符答案:B解析:[单选题]8.计数器是用来记录()的执行进度和状态的A)mapperB)reducerC)partitionerD)job答案:D解析:[单选题]9.通过()工作流节点可以按照百分比随机从数据表中抽取部分数据。A)抽样B)转换C)行转列D)分组标签答案:A解析:[单选题]10.基于Bagging的集成学习代表算法有()。A)AdaboostB)GBDTC)XGBOOSTD)随机森林答案:D解析:基于Boosting的集成学习算法的集成学习代表算法包含Adaboost、GBDT、XGBOOST,随机森林是基于Bagging。[单选题]11.数据、信息、知识三者之间的变化趋势是?A)价值先增后减B)价值递减C)价值递增D)价值不变答案:C解析:[单选题]12.一个输入为(32,32,3)的数据集,通过一个大小为2×2的不重叠最大池化层,输出()。A)(28,28,8)B)(16,16,8)C)(28,28,3)D)(16,16,3)答案:D解析:[单选题]13.关于创建api,以下描述正确的是:()。A)创建api只能通过脚本模式创建B)创建api只能通过向导模式创建C)创建api可以通过脚本模式和向导模式两种方式创建D)以上说法均不正确答案:C解析:[单选题]14.关于Hive与Pig的比较正确的一项为()。A)Pig更适合于数据呈现的工作B)Pig能对中小规模的数据进行迭代处理C)Hive更适合做数据准备阶段的工作D)Hive会按照用户所需要的形式呈现答案:D解析:[单选题]15.关于Python循环结构,以下选项中描述错误的是A)遍历循环中的遍历结构可以是字符串、文件、组合数据类型和range()函数等B)break用来跳出最内层for或者while循环,脱离该循环后程序从循环代码后继续执行C)每个continue语句只有能力跳出当前层次的循环D)Python通过for、while等保留字提供遍历循环和无限循环结构答案:C解析:[单选题]16.个栈的初始状态为空。现将元素1、2、3、4、5、A、B、C、D、E依次入栈,然后再依次出栈,则元素出栈的顺序是A)12345ABCDEB)EDCBA54321C)54321EDCBAD)ABCDE12345答案:B解析:[单选题]17.Maxcompute项目空间prj1中存在表t1,owner打开LabelSecurity设置后,执行如下命令:SETLABEL1TOTABLEt1;SETLABEL2TOTABLEt1(id);SETLABEL3TOTABLEt1;此时,t1表中的列ID的敏感等级标签是:()。A)0级B)2级C)1级D)3级答案:B解析:[单选题]18.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?()A)Namenode,Datanode,TaskTrackerB)Namenode,Datanode,secondaryNameNodeC)Namenode,Datanode,HMasterD)Namenode,JobTracker,secondaryNameNode答案:D解析:[单选题]19.可用信息增益来进行决策树的()。A)树高B)叶子结点数C)总结点数D)划分属性选择答案:D解析:[单选题]20.Spark集群搭建中,在(__)文件中配置java信息。A)hadoop.shB)hadoopenv.shC)hadoop-env.shD)henv.sh答案:C解析:[单选题]21.下列哪一项不属于仪表板的布局模式()A)标准模式B)自由模式C)标准模式(分页)D)自由模式(分页)答案:C解析:[单选题]22.为了得到和SVD一样的投射(projection),你需要在PCA中怎样做A)将数据转换成零均值B)将数据转换成零中位数C)将数据转换成最大值D)以上方法不行答案:A解析:[单选题]23.在Hadoop2.x版本下,HDFS中的文件总是按照默认大小()被切分成不同的块,且备份3份。A)256MB)128MC)512MD)1024M答案:B解析:[单选题]24.()不是Spark服务层的功能。A)SQL查询B)实时处理C)机器学习D)内存计算答案:D解析:Spark服务层主要提供面向特定类型的计算服务,如SQL查询、实时处理、机器学习以及图计算。[单选题]25.np.argmax()函数的作用是()。A)输出数组的最大值B)输出数组最大值的索引下标C)输出数组的最小值D)输出数组最小值的索引下标答案:B解析:argmax()的作用是输出数组中最大值的索引下标。[单选题]26.根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。A)数据管理人员B)数据分析员C)研究科学家D)软件开发工程师答案:C解析:[单选题]27.下列哪个不属于RDD中常用的TransformationA)map(func)B)reduce(func)C)groupByKey(numTasks)D)filter(func)答案:B解析:[单选题]28.下列选项中,用于标识为静态方法的是()。A)@classmethodB)Python标示注释使用符号是以下哪个?C)@staticmethodD)?@privatemethod答案:C解析:[单选题]29.国家()负责统筹协调网络安全工作和相关监督管理工作A)网信部门B)国安部门C)电信部门D)公安机关网警部门答案:A解析:[单选题]30.下列方法中,可以对列表元素排序的是()。A)sort()B)reverse()C)max()D)list()答案:A解析:[单选题]31.HBase的Region组成中,必须要有以下哪一项()A)StoreFileB)MemStoreC)HfileD)MetaStore答案:B解析:[单选题]32.下列关于智能物流的描述错误的是()。A)是利用智能化技术,使物流技术能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力B)实现物流资源优化配置和有效调度,并且提示物流系统效率C)智能物流概念源于2010年IBM发布的研究报告《智慧的未来供应链》D)提高了物流活动的一体化,增加了物流的复杂性答案:D解析:[单选题]33.下列选项描述错误的是?()A)HadoopHA即集群中包含SecondaryNameNode作为备份节点存在。B)ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作C)NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况以及接收并处理来自ApplicationMaster的启动停止容器(Container)的各种请求。D)初次启动HadoopHA集群时,需要将格式化文件系统后的目录拷贝至另外一台答案:A解析:[单选题]34.下列说法哪项有误?A)相对于Spark来说,使用Hadoop进行迭代计算非常耗资源B)Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据C)Hadoop的设计遵循?一个软件栈满足不同应用场景?的理念D)Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案答案:C解析:[单选题]35.数组的切片是原数组的(__)。A)副本B)视图C)无关变量D)子类答案:B解析:[单选题]36.Python单下划线_foo与双下划线__foo与__foo__的成员,下列说法错误的是()。A)_foo不能直接用于?frommoduleimport?B)__foo解析器用_classname__foo来代替这个名字,以区别和其他类相同的命名C)__foo__代表python里特殊方法专用的标识D)__foo可以直接用于?frommoduleimport?答案:D解析:[单选题]37.()是数据库管理系统运行的基本工作单位。A)事务B)数据仓库C)数据单元D)数据分析答案:A解析:[单选题]38.numpy中向量转成矩阵使用什么函数?A)np.reshape()B)np.reval()C)np.arange()D)np.random()答案:A解析:[单选题]39.IBMCloud为我们提供的是以下哪种服务?A)SaaSB)PaaSC)IaaSD)DaaS答案:B解析:[单选题]40.假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,QueueA.minimum-user-limit-percent=24。则以下说法错误的是:()。A)第3个用户提交任务时,每个用户最多获得33.33%的资源B)第2个用户提交任务时每个用户最多获得50%的资源C)第4个用户提交任务时,每个用户最多获得25%的资源D)第5个用户提交任务时,每个用户最多获得20%的资源答案:D解析:[单选题]41.如果需要在select语句中根据某列的结果进行判断处理,Hive支持在select语句中使用()的判断子句A)casewhenthenB)casewherethenC)casewhilethenD)casehowthen答案:A解析:[单选题]42.下列哪个HDFS命令可用于检测数据块的完整性A)hdfsfsck/B)hdfsfsck/-deleteC)hdfsdfsadmin-reportD)hdfsbalancer-thresheld1答案:A解析:[单选题]43.大数据在金融领域的应用不包括以下哪项?()A)股票交易B)市场情绪分析C)信贷风险分析D)大数据征信答案:A解析:[单选题]44.大数据开发套件Dataworks支持数据分析项目的全流程开发,以下的说法中不正确的是:()。A)开发人员在数据开发和数据理模块中完成数据输入,数据加工,数据输出等工作B)部署或是运维人员可以根据最新的开发结果生成发布包C)部署人员或是运维人员可以通过发布管理模块完成发布包发布D)运维人员可以在运维中心模块中,监控生产环境下的数据运行情况答案:B解析:[单选题]45.下列关于饼图的说法中,错误的是()A)饼图的数据项中允许有负值B)在设计饼图时,往往需要维护不同半径对应的标签以使不同半径数值直观化C)饼图通常适用于统计不同指标数据占比的情形D)饼图也被称为扇形统计图答案:A解析:[单选题]46.创建存储过程的关键字是()。--A)CREATEPROCB)CREATEDATABASEC)CREATEFUNCTIOND)CREATEPROCEDURE答案:D解析:[单选题]47.print方法默认以()结束A)\dB)\sC)\tD)\n答案:D解析:[单选题]48.Ndarray是一个通用的()数据容器。A)单维同类B)单维多类C)多维同类D)多维多类答案:C解析:Ndarray可以容纳多维数据,且数组每个元素的类型相同。[单选题]49.()是压缩跟解压缩工具,它的应用包括将mr的最终输出结果压缩起来。A)AvroB)HttPFSBC)MahoutD)Snappy答案:D解析:[单选题]50.np.dsplit()函数的作用是(__)。A)沿着它的水平轴分割B)沿着纵向的轴分割C)允许指定沿哪个轴分割D)按深度方向分割答案:D解析:[单选题]51.在设计词频统计的MapReduce程序时,对于文本行?hellobigdatahellohadoop?,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):()。A)<"hello",1,1>、<"bigdata",1>和<"hadoop",1>B)<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>C)<"hello",2>、<"bigdata",1>和<"hadoop",1>D)<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>答案:D解析:[单选题]52.()是窄依赖操作。A)joinB)flterC)groupD)sort答案:B解析:spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖的操作包括reduceByKey、groupByKey、join等。[单选题]53.对HDFS通信协议的理解错误的是().A)客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的B)客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C)名称节点和数据节点之间则使用数据节点协议进行交互D)HDFS通信协议都是构建在IoT协议基础之上的答案:D解析:[单选题]54.已知x=10,y=20,z=30;以下语句执行后x,y,z的值是()Ifx<y:z=xx=yy=zA)10,20,30B)10,20,20C)20,10,10D)20,10,30答案:C解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列关于探索型数据分析常用图表的说法,正确的有()。A)绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B)探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C)在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D)直方图和箱型图都可以用来展示数据的分布情况答案:BCD解析:数据之间的特征和对比使用条形图可更加直观地展示数据。[多选题]56.聚类性能度量外部指标包括()。A)Jaccard系数B)FM指数C)Dunn指数D)Rand指数答案:ABD解析:常用的聚类性能度量外部指标包括Jaccard系数、FM指数、Rand指数。[多选题]57.以下关于HBase说法正确的是()A)面向列的数据库B)非结构化的数据库C)支持大规模的随机、实时读写D)采用松散数据模型答案:ABCD解析:[多选题]58.关于现阶段大数据技术体系,说法正确的是()。A)基础设施提供数据计算、数据存储、数据加工(DataWrangling或DataMunging)等服务B)数据流处理、统计工具、日志分析都属于常用的开源工C)数据资源代表的是生成数据的机构D)数据源与App为数据科学和大数据产业生态系统提供数据内容答案:ABCD解析:[多选题]59.Spark的集群部署方式包括:()A)SparkB)SparkC)SparkD)Local模式答案:ABC解析:[多选题]60.下面数据库名称合法的是()A)db1/studentB)db1.studentC)db1_studentD)db1&student答案:CD解析:[多选题]61.关于脏数据说法正确的是()?A)格式不规范B)数据不完整C)编码不统D)意义不明确答案:ABCD解析:[多选题]62.小王开发了一个MaxcomputeUDF,打成jar包之后,作为资源上传到项目空间里,创建了对应的函数,但是在执行的时候发现该jar包依赖的另一个jar包不存在,他应该()才能正常使用。A)在使用jar命令调用的时候,在classpath参数中增加依赖jar包的路径即可B)将依赖的jar包作为资源上传到项目空间,在UDF的初始化函数setup中,使用readJarResource读取jar包资源C)将依赖的jar包作为资源上传到项目空间,同时在创建函数的时候(CREATEFUNCTION),using子句中增加依赖的包,如果多个包的话,用逗号分隔D)在对UDF打jar包的时候,把依赖的jar包包含进去,统一打成一个包即可答案:CD解析:[多选题]63.下列关于reduce函数功能的描述正确的有()。A)合并value值,形成较小集合B)采用迭代器将中间值提供给reduce()函数C)map()函数处理后结果才会传输给reduce()函数D)内存中不会存储大量的value值答案:ABCD解析:略。[多选题]64.下列方法中,可以用于特征降维的方法包括()。A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD答案:ABD解析:[多选题]65.造成数据缺失的原因是多方面的,主要可能有()A)有些信息暂时无法获取B)有些信息是被遗漏的C)有些对象的某个或某些属性是不可用的D)获取这些信息的代价太大答案:ABCD解析:[多选题]66.使用Maxcompute的客户端工具odpscmd时,()能进入一个已有的项目。A)使用odpscmd登录时,通过-p参数,指定登录使用的项目空间B)如果账户下就一个project,登录后就会默认进入该项目C)配置文件中指定project_name,登录后即默认进入项目D)进入odpscmd后,执行use答案:CD解析:[多选题]67.因数据而产生的垄断问题,主要包括哪儿种类型:()A)数据可能造成进入壁垒或扩张壁垒B)拥有大数据形成市场支配地位并滥用C)因数据产品而形成市场支配地位并滥用D)及数据方面的垄断协议答案:ABCD解析:[多选题]68.(__)是图像降噪的方法。A)空间域合成法B)中值滤波器C)最小值滤波D)非线性小波变换答案:ABCD解析:[多选题]69.Python的字符串内建函数有哪些?A)capitalize()B)isnumeric()C)isalnum()D)isalpha()答案:ABCD解析:[多选题]70.下面()选项是正确的Python标准库对象导入语句。A)importmath.sinassinB)frommathimportsinC)importmath.*D)frommathimport*答案:BD解析:[多选题]71.数据采集与传输环节主要内容包括()A)明确可采集数据内容及重要程度B)明确数据安全保护对象C)落实重要数据内容加密传输以及数据完整性、有效性检测措施D)强化数据质量、数据分类和重要性定级机制答案:ABCD解析:[多选题]72.下列说法正确的是?A)MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及TaskB)Task分为MapTask和ReduceTask两种,均由TaskTracker启动C)在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的D)在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息答案:ABCD解析:[多选题]73.以下Hive数据仓库数据表分层的描述,准确的是?A)ADS层,为各种统计报表提供数据,做分析处理同步到RDS数据库里边。B)DWD层结构和粒度与原始表保持一致,简单清洗,数据明细详情,去除空值,脏数据,超过极限范围的明细解析。C)ODS层,通常表述原始数据存储表,Hive接收到原始的数据通常是杂乱无章的,但是又具有安全隐私考虑,通常应用侧是不能看到的D)DWS层,以DWD为基础,进行轻度汇总。答案:ABCD解析:[多选题]74.党中央、国务院高度重视网络安全工作,出台了一系列法律、法规和专项文件,其中针对()等,提出了明确法律规定和要求,必须认真贯彻。A)保障数据与个人信息安全B)维护信息内容安全C)保护国家和企业秘密D)确保网络意识形态安全答案:ABCD解析:[多选题]75.数据采集的三大要点是:()A)全面性B)多维性C)高效性D)精确性答案:ABC解析:[多选题]76.下列可以用于特征降维的方法有()。A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD答案:ABD解析:[多选题]77.GaussDB200的高可靠主要体现在()?A)GTM采用Active-Standby模式。B)提供集群管理和数据节点HA。C)CN支持多CNActive-Active模式HA。D)支持标准SQL和标准JDBC特性。答案:BC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.对于Python类中的私有成员,可以通过?对象名A)正确B)错误答案:对解析:[判断题]79.具有较高的支持度的项集具有较高的置信度A)正确B)错误答案:错解析:[判断题]80.使用配置规划工具对FusioninsightHDV100R00C50集群进行规划时,可以用V100R002C60版本的配置规划工具来规划。A)正确B)错误答案:错解析:[判断题]81.使用print()函数无法将信息写入文件。A)正确B)错误答案:错解析:[判断题]82.Spark任务的每个stage可划分为job,划分的标记是shuffleA)正确B)错误答案:错解析:[判断题]83.使用Datediff转换器数据类型必须是DATE是否正确()A)正确B)错误答案:错解析:[判断题]84.假设已成功导入Python标准库string,那么表达式len(stringA)正确B)错误答案:错解析:[判断题]85.HDFS适用于低延迟数据访问的场景,例如毫秒级实时查询。A)正确B)错误答案:错解析:[判断题]86.模块文件的后缀名必定是.py。()A)正确B)错误答案:对解析:[判断题]87.Python内置的集合set中元素顺序是按元素的哈希值进行存储的,并不是按先后顺序。A)正确B)错误答案:对解析:[判断题]88.集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。()A)正确B)错误答案:错解析:首先明白什么是RAID,可以参考百科磁盘阵列。这句话错误的地方在于太绝对,具体情况具体分析。题目不是重点,知识才是最重要的。因为hadoop本身就具有冗余能力,所以如果不是很严格不需要都配备

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论