大数据开发基础(习题卷65)_第1页
大数据开发基础(习题卷65)_第2页
大数据开发基础(习题卷65)_第3页
大数据开发基础(习题卷65)_第4页
大数据开发基础(习题卷65)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷65)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.学生关系模式S(S#,Sname,Sex,Age),S的属性分别表示学生的学号、姓名、性别、年龄。要在表S中删除一个属性?年龄?,可选用的SQL语句是()。A)UPDATESAgeB)DELETEAgefromSC)ALTERTABLES?Age?D)ALTERTABLESDROPAge答案:D解析:[单选题]2.关于批量处理数据组件的描述不正确的时?A)SparkSql,新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据,处理速度高效。B)Spark新型批处理引擎,可以用于处理非SQL类,尤其是数据挖掘和机器学习批处理作业,适合海量数据,树立速度高效。C)MapReduce,传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习批处理作业,使用广泛,海量数据下表现不稳定,但是处理速度较快。D)Hive,传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢。答案:C解析:[单选题]3.关于HBase的三层结构中各层次的名称和作用的说法,哪个是错误的?A)Zookeeper文件记录了用户数据表的Region位置信息B)-ROOT-表记录了.META.表的Region位置信息C)META.表保存了HBase中所有用户数据表的Region位置信息D)Zookeeper文件记录了-ROOT-表的位置信息答案:A解析:[单选题]4.以下哪个不是海量大数据的常用处理工具()A)HadoopB)ExcelC)SparkD)Hive答案:B解析:[单选题]5.()提供的支撑技术,有效的解决了大数据分析、研发的问题,比如:虚拟化技术、并行计算、海量存储及管理等。A)点计算B)云计算C)面计算D)线计算答案:B解析:[单选题]6.(__)是指同样的一句话,可能有两种或者更多的切分方法。A)生词B)歧义C)断句D)分词答案:B解析:[单选题]7.下面代码s=["seashell","gold","pink","brown","purple","tomato"]print(s[4:])的输出结果是A)['purple']B)['seashell','gold','pink','brown']C)['gold','pink','brown','purple','tomato']D)['purple','tomato']答案:D解析:[单选题]8.关于ADS的聚集列,下列说法不正确的是:()。A)如果用户的查询Query的条件中会指定聚集列的内容或范围,那么这样的查询性能便会有较大的提升B)聚集列可以在建表后进行修改,修改后DB会在后台自动刷新数据C)一个分区内聚集列内容相同的数据会尽可能的分布在同样的区块内存D)创建表时可以指定一列或者若干列作为聚集列答案:B解析:[单选题]9.()代表了Oracle数据库中最小粒度的逻辑数据存储层次。A)表空间B)盘区C)数据文件D)数据块答案:D解析:[单选题]10.python语句print(chr(65))的运行结果是。()A)65B)6C)5D)A答案:D解析:[单选题]11.在数据科学项目的活动流程中.()主要回答的是"我们用什么方式记录和展现数据结果"。A)数据的获得与管理B)模式/模型的验证和优化C)结果的可视化与文档化D)模式/模型的应用及维护答案:C解析:[单选题]12.关于OLAP和OLTP的区别描述,不正确的是()。A)OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的答案:C解析:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。[单选题]13.以下MaxcomputeSQL()效率最高。A)select*from(select*fromAwheredt=20140301)A`leftouterjoinBonB.id=A.idB)没有区别C)select*fromAleftouterjoinBonB.id=A.idandA.dt=20140301D)select*fromAleftouterjoinBonB.id=A.idwhereA.dt=20140301答案:A解析:[单选题]14.关于DataSet,下列说法不正确的是?A)DataSet不需要反序列化就可执行大部分操作B)DataSet是一个由特定域的对象组成的强类型集合C)DataSet与RDD高度类似,性能比RDD好D)DataSet执行sort,filter,shuffle登操作需要进行反序列化答案:D解析:[单选题]15.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称为()。A)欠拟合B)过拟合C)拟合D)以上答案都不正确答案:B解析:当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为过拟合。[单选题]16.对于HBaseKeyValue存储模型描述不正确的是?A)同一个Key值只能关联个valueB)拥有时间戳类型等关键信息C)Keyvalue具有特定的格式D)时间戳来区分多个记录版本答案:A解析:[单选题]17.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A)相关性越高B)越不重要C)相关性越低D)越重要答案:D解析:PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要。[单选题]18.在运行时,由MaxCompute依据上下文使用环境及类型转换规则自动进行的类型转换是:()。A)显示转换B)影式专换C)cast转换D)SQL转换答案:B解析:[单选题]19.若视图是由调用视图的用户执行时,SQLSECURITY的值为()。--A)DEFINERB)INVOKERC)rootD)以上答案都不正确答案:B解析:[单选题]20.如果使用的学习率太大,会导致()A)网络无法收敛B)不确定C)网络收敛的快D)网络收敛的慢答案:A解析:[单选题]21.关于Kafka的Topic,以下哪-项描述是错误的?A)Kafka集群中Topic可以设置多个。B)设置多副本可以增强Kafka服务的容交能力。C)Topic的Partition数量可以在创建时配置。D)在创建Kafka的Topic时,必须设置Partition个数答案:D解析:[单选题]22.下列关于视图和表的说法正确的是()。--A)每个视图对应一个表B)视图是表的一个镜像备份C)对所有视图都可以像表一样执行UPDATE操作D)视图的数据全部在表中答案:D解析:[单选题]23.()负责HDFS数据存储。A)NameNodeB)JobtrackerC)DataNodeD)SecondaryNameNode答案:C解析:Hadoop中NameNode节点作为Master节点,对集群进行管理;SecondaryNameNode节点在于分担NameNode的压力而设置;JobTracker是为了跟踪作业运行的情况而设置的节点。[单选题]24.以下关于Hive和关系数据库的区别描述错误的是()A)Hive的查询语言是HQL,关系型数据库的查询语言是SQLB)Hive的数据格式是用户定义,关系型数据库的数据格式是系统决定C)Hive可扩展性高,关系型数据库可扩展性低D)Hive的数据规模小,关系型数据库的数据规模大答案:D解析:[单选题]25.以下关于降维的表述,错误的是()。A)降维过程中可以保留原始数据的所有信息B)多维缩放的目标是要保证降维后样本之间的距离不变C)线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失答案:A解析:降维过程中尽量保留原始数据的信息,但不能保留原始数据的全部信息。[单选题]26.如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下()消息发布策略。A)局部字段分组B)广播分组C)直接分组D)全局分组答案:C解析:[单选题]27.有如下程序:defvolum(length,width=2,high=3):value=length*width*highreturnvaluedefmain():x=5y=6z=7value1=volum(x)value2=volum(x,high=z)print(value1,";",value2)main()程序的输出结果是()。A)30;70B)30;105C)30;30D)70;30答案:A解析:[单选题]28.以下哪个函数()可以帮助我们找到当前正在使用的python版本?A)sys.versionB)sys.version()C)sys.version(0)D)sys.version(1)答案:A解析:[单选题]29.查看Kafka某Topic的Partition详细信息时,使用如下哪个命令A)bin/kafka-topics.sh--createB)bin/kafka-topics.sh-listC)bin/kafka-topics.sh-describeD)bin/kafka-topics.sh-delete答案:C解析:[单选题]30.(__)属于基于概念方法。A)决策树算法B)Find-S算法C)人工神经网络D)KNN答案:B解析:[单选题]31.下列选项中,关于Zookeeper可靠性含义说法正确的是?A)可靠性通过主备部署模式实现B)可靠性是指更新更新只能成功或者失败,没有中间状态C)可靠性是指无论哪个server,对外展示的均是同一个视图D)可靠性是指一个消息被一个Server接收,它将被所有的Server接受答案:D解析:[单选题]32.从网络的原理上来看,结构最复杂的神经网络是()。A)卷积神经网络B)长短时记忆神经网络C)GRUD)BP神经网络答案:B解析:[单选题]33.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A)平方欧几里德距离B)余弦距离C)直接相似度D)共享最近邻答案:D解析:SNN相似度通过共享最近邻的个数考虑了对象的环境,因此可以处理两个对象相对接近却不属于同一类的情况。[单选题]34.数据科学中,人们开始注意到传统数据处理方式中普遍存在的信息丢失现象,进而数据处理范式变为()。A)从产品在先,数据在后范式转向数据在先,产品在后范式或无模式B)从模式在先,产品在后范式转向产品在先,模式在后范式或无模式C)从数据在先,模式在后范式或无模式转向模式在先,数据在后范式D)从模式在先,数据在后范式转向数据在先,模式在后范式或无模式答案:D解析:传统关系数据库中,先定义模式,然后严格按照模式要求存储数据;当需要调整模式时,不仅需要数据结构,而且还需要修改上层应用程序。然而,NoSQL技术则采用了非常简单的Key-Value等模式在后(SchemaLater)和无模式(Schemaless)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。[单选题]35.下列关于雷达图的说法中,正确的是()A)雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图等B)雷达图不适合展现某个数据集的多个关键特征C)雷达图中不同坐标的点之间无法连接D)雷达图不常用于多项指标的全面分析答案:A解析:[单选题]36.Redis中哪个命令是查看键的剩余生存时间?A)ttlB)expireatC)persistD)expire答案:A解析:[单选题]37.在HBase中,改变表属性的关键字是()A)updateB)alterC)setD)以上都不正确答案:B解析:[单选题]38.下面关于数据粒度的描述不正确的是:A)粒度是指数据仓库小数据单元的详细程度和级别B)数据越详细,粒度就越小,级别也就越高C)数据综合度越高,粒度也就越大,级别也就越高D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量答案:C解析:[单选题]39.某地准备投资建立光伏电站,但需要对投资回报和运营发电进行预测分析。现有既往其他类似地区的发电量数据,计划采用线性回归算法将根据既有数据进行预测。数值组装和电力输出预测会用到哪2个数值转换器?A)Choice、PredictB)NumAssemble、PowerC)NumericCast、PowerD)NumAssemble、Predict答案:D解析:[单选题]40.RDD有Transformation和Action算子,下列属于Action算子的是?A)mapB)saveAsTextFileC)FilterD)reduceByKey答案:B解析:[单选题]41.以下会出现错误的是A)?北京?.encode()B)?北京?.decode()C)?北京?.enode().deode()D)以上都不会错误答案:B解析:[单选题]42.执行以下代码段requested_toppings=['mushrooms','greenpeppers','extracheese']forrequested_toppinginrequested_toppings:print("Adding"+requested_topping+".")时,输出为()。A)Addingmushrooms.Addinggreenpeppers.Addingextracheese.B)Addingmushrooms.C)Addinggreenpeppers.D)Addingextracheese.答案:A解析:[单选题]43.阅读下列代码,最后错误的一行代码是:1fromrandomimportrandint2s=random.randint(1,99)3.print(s)A)第一行代码B)第二行代码C)第三行代码D)没有错答案:B解析:[单选题]44.Partition的任务是分割Map每个节点的结果,然后按照()分别映射到不同的Reduce。A)索引B)键C)值D)大小答案:B解析:[单选题]45.下列对于错误率的公式,解释正确的是(__)。A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B)先统计分类正确的样本数,然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:A解析:[单选题]46.以下哪个选项属于大数据消息系统?A)ZookeeperB)HBaseC)KafkaD)Spark答案:C解析:[单选题]47.下列哪个方法会把读取到的数据返回的是一个列表()。A)read(12)B)read()C)readlines()D)readline()答案:C解析:[单选题]48.()一般由信道不理想引起,它们与信号的关系是相乘的,信号在它在,信号不在时他也就不在了。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:C解析:[单选题]49.关于MaxCompute分区的说法,正确的是:()。A)Maxcompute将分区列的每个值作为一个分区B)用户最多能指定2级分区C)分区列只支持string和bigint两种,且统一表的分区列要么全部是string,要么全部是bigint,不能混用D)在使用数据时必须指定分区列,否则会出错答案:A解析:[单选题]50.np.swapaxes()函数的作用是(__)。A)数组转置B)删除数组C)修改数组存储位置D)对轴进行调整答案:D解析:[单选题]51.关于RDD,下列说法错误的是?A)RDD具有血统机制答案:LineageB)RDD默认存储在磁盘C)RDD是一个只读的,可分区的分布式数据集D)RDD是Spark对基础数据的抽象答案:B解析:[单选题]52.DRDS事务支持()一致性。A)最终一致性事务B)会话一致性事务C)强一致性事务D)因果一致性事务答案:A解析:[单选题]53.Python变量作为实参时,它和对应的形参之间数据传递方式是()。A)由形参传给实参B)由实参传给形参C)由实参传给形参,再由形参传给实参D)在用户干预情况下,实参形参能相互传递答案:D解析:[单选题]54.某公司总经理在公司年会上,希望清楚地展示出公司本年度发展的关键词、以及公司经历的令人记忆深刻的大事件,他可以选择的图表是()A)气泡图B)面积图C)地图D)文本图答案:D解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.一个典型的KafKa集群中包含以下哪此组件?A)若干个ConsumerB)一个ZooKeepers集群C)若干个BrockerD)若干个Producer答案:ABCD解析:[多选题]56.对于正交属性空间中的样本点,若存在一个超平面对所有样本进行恰当的表达,则这样的超平面应具有(__)和(__)的性质。A)最近重构性B)最大可分性C)最远重构性D)最小可分性答案:AB解析:[多选题]57.什么情况下,可以对RDD进行序列化处理?A)在完成成本比较高的操作之后B)在执行容易失败的操作之前C)当RDD被重复使用或者计算其代价很高时D)class实现Serializable就一定要序列化答案:ABC解析:[多选题]58.下面属于词袋模型的缺点的是?()A)词汇表的词汇需要经过精心设计B)表示具有稀疏性C)丢失词序忽略了上下文D)模型复杂,不利于实施答案:ABC解析:[多选题]59.Loader提供了哪些方式或接口实现作业管理?A)WebUIB)Linux命令行C)Rest接口D)javaAPI答案:ABCD解析:[多选题]60.下列哪些是情感分析的途径?A)关键词识别B)数据增强C)统计方法D)概念级技术答案:ACD解析:[多选题]61.落实国家大数据安全保护要求需完善安全保密管理措施,切实加强对涉及()等信息的保护。A)国家利益B)公共安全C)商业秘密D)个人隐私答案:ABCD解析:[多选题]62.关于读写excel文件的说法中,下列描述正确的是()A)to_excel()方法表示将结构化数据写入到Excel文件中B)to_excel()方法表示将结构化数据读取到DataFrame中C)read_excel()函数表示将结构化数据读取到DataFrame中D)read_excel()函数表示将结构化数据写入到DataFrame中答案:AC解析:[多选题]63.国网人资部的职责是()A)电力物联网组织优化诊断B)优化调整泛在电力物联网管理、研发、建设和运营组织机构和管控模式C)负责优化流程,制定激励措施D)负责开展商业模式的创新研究答案:ABC解析:[多选题]64.缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。对于缺失值的处理方法包括()A)复制元B)删除元组C)缺值补齐D)不处理答案:BCD解析:[多选题]65.以下正确的语句是()。A)_a=1B)__a=1C)__str__=1D)__True_=1答案:ABCD解析:[多选题]66.以下属于NoSQL的有A)MongoDBB)HbaseC)RedisD)Cassandra答案:ABCD解析:[多选题]67.以下关于模型评估与选择说法正确的是()A)留出法直接将数据集划分为2个互斥的集合B)保留类别比例的采样方法通常称为?分层采样?C)bootstrapping直接以自助采样法为基础D)自助法在数据集较大、容易划分训练集/测试集时很有用答案:ABC解析:[多选题]68.数据集成可以分为(__)。A)内容集成B)结构集成C)模式集成D)概念集成答案:AB解析:[多选题]69.HDFS的局限性包括:()A)不适合低延迟数据访问B)无法用于大規模数据存储C)无法高效存储大量小文件D)不支持多用户写入及任意修改文件答案:ACD解析:[多选题]70.消除数据孤岛对于企业具有哪些重要的意义:()A)有助于企业做出有利于生产要素组合优化的决策,使企业能够合理配置资源,实现企业利益最大化B)有利于企业获更好的经营发展能力C)企业信息的増多可以増加做出正确选择的能力,从而提高经济效率D)不利于企业长远的发展答案:ABC解析:[多选题]71.下列关于Ridge回归,说法正确的是()?A)若λ=0,则等价于一般的线性回归B)若λ=0,则不等价于一般的线性回归C)若λ=+∞,则得到的权重系数很小,接近于零D)若λ=+∞,则得到的权重系数很大,接近与无穷大答案:AC解析:[多选题]72.Hadoop通过ResourceManager对集群资源进行管理,它的主要功能有?A)集群资源调度B)应用程序管理C)集群资源管理D)日志管理答案:ABC解析:[多选题]73.大数据计算服务中,检查数据何时被修改时需要参考lastmodifiedtime属性,对于分区表,在分区级别和表级别都有lastmodified属性。对此属性的影响,以下描述正确的有:()。A)更新一个分区中的数据时,只会影响该分区的lastmodifiedtime属性B)更新一个分区中的数据时,表的lastmodifiedtime属性会被更新C)更新一个分区中的数据时,分区的lastodifiedtime属性会被更新D)更新一个分区中的数据时,不会更新表和分区的lastmodifiedtime答案:BC解析:[多选题]74.用区域聚合法分割图像,要求(__)。A)各个点在平面上相邻接B)各个点是在平面上分散C)邻接点的特征相似D)点与点之间无关答案:AC解析:[多选题]75.对于不同场景内容,一般数字图像可以分为()。A)二值图像B)灰度图像C)彩色图像D)深度图像答案:ABC解析:[多选题]76.Cloudera提供哪几种安装CDH的方法A)ClouderamanagerB)TarballC)YumD)Rpm答案:ABCD解析:CDH安装有四种方式:ClouderamanagerTarballYumRpm其中Yum及Rpm安装可以算作一种安装方式/xfg0218/article/details/52490971[多选题]77.卷积神经网络中常用的池化函数包括()A)最大池化函数B)L2范数C)相邻矩形区域内的平均值D)基于据中心像章距离的加权平均函数答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处速对处理时间要求不高。A)正确B)错误答案:对解析:[判断题]79.字典中的键唯一。()A)正确B)错误答案:对解析:[判断题]80.Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现A)正确B)错误答案:对解析:[判断题]81.关系型数据库仍然是大数据处理中的关键技术。A)正确B)错误答案:错解析:[判断题]82.break语句用于结束循环。()A)正确B)错误答案:错解析:[判断题]83.HBase可以有列,可以没有列簇。A)正确B)错误答案:错解析:[判断题]84.数据湖需要高性能、Schema校验、事务型更新等能力,同时支持多个开源计算引擎生态。A)正确B)错误答案:对解析:[判断题]85.授予给everyone的权限,非项目空间内的用户也可以使用。A)正确B)错误答案:对解析:[判断题]86.已知x='123'和y='456',那么表达式x+y的值为579。A)正确B)错误答案:错解析:[判断题]87.表达式sorted(['abc','acd','ade'],key=lambdax:(x[0],x[2]))的值为['abc','acd','ade']。A)正确B)错误答案:对解析:[判断题]88.9+4j是合法Python数字类型。A)正确B)错误答案:对解析:[判断题]89.在编写函数时,建议首先对形参进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论