




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷21)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.(__)为数据科学和大数据产业生态系统提供数据内容的捕获和获取服务。A)数据源和APPsB)数据资源C)数据端D)基础设施答案:A解析:[单选题]2.关于Flink的角色,下列哪-项说法是错误的?A)TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。B)Cient是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处理。C)JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。D)TaskManager是实际负责执行计算的Worker.答案:A解析:[单选题]3.云计算包括3种类型。只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务,这种云计算属于:()A)有云B)私有云C)混合云D)独立云答案:B解析:[单选题]4.关于数据仓库Impala的描述错误的是:()A)Impala作为开源大数据分析引擎,支持实时计算,它提供了与Hive类似的功能,并在性能上比Hive高出3~30倍B)Impala是由Cloudera公司开发的查询系统C)Impala提供了SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据D)Impala最初是参照MySQL系统进行设计的答案:D解析:[单选题]5.以下()选项用于创建数据表时设置存储引擎和字符集。--A)ENGINE和COLLATEB)ENGINE和CHARSETC)CHARSET和COLLATED)以上答案都不正确答案:B解析:[单选题]6.下面不属于数据科学中特有的管理方法有(__)。A)关系数据库B)NewSQLC)NoSQLD)关系云答案:A解析:[单选题]7.下面有关NameNode安全模式(safemode)说法错误的是()A)namespace处于安全模式时只能被读取B)NameNode启动时自动进入安全模式C)调用setSafeMode()函数能够打开或关闭安全模式D)安全模式下不能够复制或删除文件中的数据块答案:B解析:在启动一个刚刚格式化的HDFS集群时,因为系统中还没有任何块,所以NameNode不会进入安全模式。[单选题]8.传统处理数据的数据规模的单位是:()。A)TBB)EBC)PBD)GB答案:D解析:[单选题]9.()是Hadoop系统核心组件之一,主要解决海量数据的计算。A)HDFSB)MapReduceC)SparkD)HBase答案:B解析:[单选题]10.(__)是M-P神经元,也称为?阈值逻辑单元?。A)输入层B)输出层C)第一层D)第二层答案:B解析:[单选题]11.下列选择Logistic回归中的One-Vs-All方法中,()是真实的。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)以上答案都不正确答案:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。[单选题]12.下列哪一点不是云计算的特点()A)通过网络为用户提供服务B)需要用到虚拟化技术C)非常昂贵D)可动态扩展和压缩答案:C解析:[单选题]13.Spark默认的存储级别()A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND_DISKD)MEMORY_AND_DISK_SER答案:A解析:[单选题]14.大数据的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可视)D)Variety(多样)答案:C解析:[单选题]15.以下哪些算法是基于规则的分类器()。A)C4.5B)KNNC)BayesD)ANN答案:A解析:[单选题]16.假设A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。采用Z-Score规范化以后,二者谁的成绩更加优秀:()A)A的成绩更为优秀B)B的成绩更为优秀C)二者一样优秀D)无法比较答案:B解析:[单选题]17.下面关于数据产品开发相关描述正确的有(__)。A)数据科学家的主要职责是?数据的管理?B)数据科学家一定是科学家C)?数据码农?可以胜任数据科学家D)数据科学家是为解决现实世界中问题提供直接指导、依据或参考的高级专家答案:D解析:[单选题]18.仪表板中的多个图表,可以设置统一的筛选器,在BI工具中可以通过()功能实现A)全局设置B)联动设置C)筛选器D)布局设置答案:A解析:[单选题]19.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()A)无偏性B)有效性C)及时性D)一致性答案:D解析:[单选题]20.关于表连接算子的说法错误的是(?A)聚合操作如groupby会触发NergeJoinB)表连接算子主要有NestloopMergeJoin.Minorjoin.HashJoinC)算子的选择是SQL根据逻辑≡行选择的,与人为无关。D)默认情况下,执行效率来说Hashjoin最高。答案:D解析:[单选题]21.从日常工作月度考核奖中提取()%用于奖励部门负责人A)20B)25C)30D)35答案:A解析:[单选题]22.典型的NoSQL数据库是()A)HiveB)MySQLC)HbaseD)Oracle答案:C解析:[单选题]23.Oracle数据库中,数据字典表和视图存储在()A)USERS表B)SYSTEM表空间C)TEMPORARY表空间D)ORACLE表空间答案:B解析:[单选题]24.下列关于欠拟合(under-fitting)的说法正确的是()。A)训练误差较大,测试误差较小B)训练误差较小,测试误差较大C)训练误差较大,测试误差较大D)训练误差较小,测试误差较小答案:C解析:欠拟合是指对训练样本的一般性质尚未学好,因此训练误差和测试误差均较大。[单选题]25.执行以下代码段pets=['dog','cat','dog','goldfish','cat','rabbit','cat']while'cat'inpets:pets.remove('cat')print(pets)时,输出为()。A)['dog','cat','dog','goldfish','cat','rabbit','cat']B)['dog','dog','goldfish','rabbit']C)['dog','dog','goldfish','cat','rabbit','cat']D)['dog','dog','goldfish','rabbit','cat']答案:B解析:[单选题]26.以下描述中不正确的是(___)。A)归纳是指从特殊到一般的泛化过程B)归纳是指从具体的事实归结出一般性规律C)演绎是指从特殊到一般的特化过程D)演绎是指从基础原理推演出具体情况答案:C解析:[单选题]27.通过FusionlnsightManager不能完成以下哪个橾作A)安装部署B)性能监控C)权限管理D)虚拟机分配答案:D解析:[单选题]28.某BI系统构建在大数据计算服务上,某数据分析员在分析订单的地域分布时,需要把订单表order(占用存储空间约10G)与地狱维表region(占用存储空间100M)关联起来,两张表的结构如下:createtableorder(order_idstring,region_idstring,orderamtbigint);createtableregion(region_idstring,region_namestring)在运行时发现由于订单大量集中在上海地区,数据的倾斜导致整体运行时间较长,运行的SQL语句如下:selectregion_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;此时可以考虑通过()优化SQL的运行效率。A)使用mapjoinhint:select+mapjoin(t2)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;B)使用mapjoinhint:select+mapjoin(t1)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;C)调整两张表的位置:selectregion_name,sum(order_amt)amtfromregiont1joint2ont1.region_id=t2.region_id;D)减小SQL的splitsize,增加计算资源答案:A解析:[单选题]29.下面()表示日期和时间的数据类型。--A)DECIMAL(6,2)B)DATEC)YEARD)TIMESTAMP答案:D解析:[单选题]30.在Graphbash上,创建一个新的图,必须使用的参数是?A)graphNameB)lableC)edgeD)vertex答案:A解析:[单选题]31.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()。A)无偏性B)有效性C)及时性D)一致性答案:D解析:一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大。对于给定的偏差控制水平,两者间偏差高于此控制水平的可能性越小。[单选题]32.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是(__)。A)有监督学习B)全监督学习C)无监督学习D)半监督学习答案:D解析:[单选题]33.一切以数据作为驱动或者核心的产品叫做()A)创新性产品B)数据产品C)风控产品D)核心产品答案:B解析:[单选题]34.HBase元数据MetaRegion路由信息保存在哪里?A)ZookeeperB)Meta表C)HMasterD)Root表答案:B解析:[单选题]35.通过DMS管理后台或者数据库客户端,连接RDS数据库时,提示错误信息?max_user_connections?,代表()含义。A)IOPS超出极限B)RDS空间满了C)网络中断D)RDS数据库的连接数满了答案:D解析:[单选题]36.代码片段:x=10if(xA)28B)12C)16D)14答案:B解析:[单选题]37.下⾯哪个不是RDD的特点()A)可分区B)可序列化C)可修改D)可持久化答案:C解析:[单选题]38.下面描述错误的是:()A)?探针盒子?就是一款自动收集用户隐私的产品B)许多顾客在使用WiFi之后会收到大量的广告信息,甚至自己的手机号码也会被当做信息进行多次买卖C)在免费上网的背后,其实也存在着不小的信息安全风险,或许一不小心,就落入了电脑黑客们设计的WiFi陷阱之中D)免费WIFI都是安全的,可以放心使用答案:D解析:[单选题]39.以下关于数据服务API开放方使用流程,描述正确的是:()。A)创建api并发布apiB)获取APIC)调用APID)创建应用并获取授权答案:A解析:[单选题]40.HBase交互模式中,创建命名空间的语法是()A)createnamespace'自定义命名空间名称'B)create_namespace'自定义命名空间名称'C)alternamespace'自定义命名空间名称'D)alter_namespace'自定义命名空间名称'答案:B解析:[单选题]41.CREATETABLE与()一起使用可为新表复制已有的表结构。--A)ASB)ISC)LIKED)以上的答案都不正确答案:C解析:[单选题]42.HBase针对逻辑模型的理解错误的选项是()A)一开始以时间戳版本为键,以数据(Data)为值(Value)建立单元(Cell)映射(Map)B)往下一层以列标识为键,以单元映射为值建立列簇映射C)再往上一层以列簇为键,以列簇映射为值建立行键映射D)最后以行键为键,以行键映射为值建立表映射答案:B解析:[单选题]43.给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法。A)PCAB)SVMC)K-meansD)LDA答案:D解析:[单选题]44.对于ADS的hash分区,()说法是正确的。A)ADS表的第一级分区必须为hash分区,第二级没有强制要求,目前可以为list或者hashB)hash分区时一种动态分区类型,需要指定具体的分区列,最多为2列C)ADS表的一级hash分区数最大为1000D)若一张表为batch更新类型,且仅有一级hash分区,则每次导入数据时,会对已有数据进行全量覆盖答案:D解析:[单选题]45.构成状态空间的4个要素是:()。A)开始状态、目标状态、规则与操作B)初始状态、中间状态、目标状态与操作C)空间、状态、规则与操作D)开始状态、中间状态、结束状态与其他状态答案:B解析:[单选题]46.与k均值算法类似,(__)也是试图找到一组原型向量来刻画聚类结构,但与一般聚类方法不同的是,该算法假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。A)高斯混合聚类密度聚类B)学习向量量化C)k均值算法D)学习向量量化答案:B解析:[单选题]47.线性模型试图学得一个属性的(__)来进行预测的函数。A)线性组合B)非线性组合C)取值D)维度答案:A解析:[单选题]48.根据某个词所连接所有词汇的权重,重新计算该词汇的权重,然后把重新计算的权重传递下去。直到这种变化达到均衡态,权重数值不再发生改变。这种关键词提取算法叫做()。A)TF-IDFB)TextRankC)LDAD)PCA答案:B解析:[单选题]49.MySQL中,预设的、拥有最高权限超级用户的用户名为()A)testB)AdministratorC)DAD)root答案:D解析:[单选题]50.下列关于多层前馈神经网络的描述错误的是()。A)输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元B)神经元之间存在同层连接以及跨层连接C)输入层仅仅是接收输入,不进行函数处理D)每层神经元上一层与下一层全互连答案:B解析:多层前馈神经网络的特点:①每层神经元与下一层神经元之间完全互连;②神经元之间不存在同层连接;③神经元之间不存在跨层连接。[单选题]51.关于云数据库描述不对的是()A)云数据可支持关系型数据库B)数据库支持按量计费C)支持创建只读实例D)支持备份与恢复,可保留历史2周数据答案:D解析:[单选题]52.Python中statsmodel库和()库关系密切。A)NumpyB)ScipyC)JiebaD)Pandas答案:D解析:statsmodels建立在Pandas之上。[单选题]53.对于神经网络的说法,下面说法正确的是()A)增加神经网络层数,可能会增加测试数据集的分类错误率B)减少神经网络层数,总是能减小测试数据集的分类错误率C)增加神经网络层数,总是能减小训练数据集的分类错误率D)A、B都对答案:A解析:[单选题]54.()提供RESTHTTPAPI来读写hdfs。A)AvroB)HttPFSBC)MahoutD)Snappy答案:B解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.云计算关键技术之一的软件定义架构,包括()A)软件定义计算B)软件定义存储C)软件定义网络D)软件定义数据中心答案:ABC解析:[多选题]56.MaxCompute中实例运行可能出现下述()状态。A)RunningB)SuccessC)FailedD)Terminated答案:ABC解析:[多选题]57.HAVING与WHERE的不同之处有()A)WHERE语句可以使用聚合函数,而HAVING不能使用。B)HAVING只用于GROUPBY分组统计语句中。C)HAVING子句中的每一个元素必须出现在SELECT列表中。D)HAVING针对表中的列发挥作用,查询数据;WHERE针对查询结果中的列发挥作用,筛选数据。答案:BC解析:[多选题]58.主要面向或关注"过去"的数据分析过程为()。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:AB解析:Gartner分析学价值扶梯模型认为,从复杂度及价值高低两个维度,可以将数据分析分为描述性分析、诊断性分析、预测性分析和规范性分析四种,其中描述性分析和诊断性分析关注和面向的是"过去"的时间点。[多选题]59.以下关于动态分区的描述正确的是:()。A)动态分区插入时,动态分区列必须在select列表中B)在使用动态分区功能的SQL中,在分布式环境下,单个进程最多只能输出512个动态分区C)在现阶段,任意动态分区SQL不可以生成超过2000个动态分区D)动态生成的分区值可以为NULL答案:ABC解析:[多选题]60.GuassDB200的基本功能包含哪些?A)标准SQL支持B)提供安装部署工具、集群启停工具、集群状态监控工具、升级和扩容工具C)支持表空间,支持集群在线扩容功能D)支持标准JDBC4.0的特性但不支持ODBC答案:ABC解析:[多选题]61.以下提法中正确的是(___)。A)数据学科中的?数据?并不仅仅是?数值?,也不等同于?数值?B)数据科学中的?计算?并不仅仅是加、减、乘、除等?数学计算?,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型C)数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神D)数据科学强调的是?理论研究?,一般不涉及?领域实务知识?答案:ABC解析:[多选题]62.以下对数据描述正确的是()。A)数据只包含显性数据和隐性数据B)数值是数据的一种形式C)数据到智慧是人们认知提升的过程D)数据是现实世界的记录答案:BCD解析:[多选题]63.在GaussDB200中,关于Schema和Database,下面说法正确的是()A)二者都能实现资源隔离。B)Database之间无法直接访问,但通过权限授子可以访问数据。C)相比于Database,Schema的隔离更加的彻底。D)Schema和用户强相关的,通过权限控制语法可以实现不同用户对各Schema的权限。答案:ABD解析:[多选题]64.StructuredStreaming中OutPut定义的存储方式包含以下哪几种?A)ModifyModeB)AppendModeC)UpdateMode.D)CompleteMode答案:BCD解析:[多选题]65.以下对HDFS中提供文件读写的类描述正确的是?A)FSDataOutputStream是与DataNode交互的接口类。B)FSDataOutputStream是HOFSAPI中提供读取文件的类,通过FileSystem的close方法获取读取数据流。C)FSDataOutputStream通过FileSystem的create和append方法获取写入数据流。D)FSDataOutputStream是HDFSAPI中提供文件写入文件的类。答案:ACD解析:[多选题]66.下列是SVM核函数的是:()A)多项式核函数B)logistic核函数C)径向基核函数D)Sigmoid核函数答案:ACD解析:[多选题]67.以下哪些是大数据技术在5G运营中的应用场景()A)5G切片管理B)5G网络精定位C)5G基站节能D)5G天线波束管理答案:ABCD解析:[多选题]68.下面关于k近邻的表述中,正确的是(__)。A)当k取不同值时,分类结果会有显著不同B)若采用不同的距离计算方式,则找出的?近邻?可能有显著差别C)k近邻可用来对数据进行分类D)k近邻可用来对数据进行回归答案:ABCD解析:[多选题]69.下列运算符中合法的是()。A)%=B)&=C)**=D)|=答案:AC解析:[多选题]70.下列有关Oracle数据库描述正确的是()。A)一个表的唯一标识称为主键B)Oracle数据库结构型数据库C)主键的类型包括单一主键和复合主键D)Oracle数据库是非结构型数据库答案:ABC解析:[多选题]71.在聚类分析当中,()等技术可以处理任意形状的簇。A)MIN(单链)B)MAX(全链)C)组平均D)Chameleon答案:AD解析:[多选题]72.数据可视化的作用()。A)数据表达B)数据操作C)数据分析D)挖掘答案:ABC解析:[多选题]73.Hive的自定义函数包括?A)UDAFB)UDCEC)UDTFD)UDE答案:ACD解析:[多选题]74.HDFS里包含哪些实例?A)NameNodeB)TaskManagerC)DataNodeD)JobManager答案:AC解析:[多选题]75.下列哪些假设是我们推导线性回归参数时遵循的()?A)X与Y有线性关系(多项式关系)B)模型误差在统计学上是独立的C)误差一般服从0均值和固定标准差的正态分布D)X是非随机且测量没有误差的答案:ABCD解析:[多选题]76.从理论上讲数据能力评价方法有(__)。A)评价理论B)评价结果C)评价过程D)评价质量答案:BC解析:[多选题]77.以下哪些模块是属于Spark组件的?A)StreamingB)MLLibC)GraphXD)Hive答案:ABC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.云环境下的安全模型包括应用服务安全、数据安全、虚拟化安全、基础设施安全。A)正确B)错误答案:对解析:[判断题]79.技术选型时应该采用最新的技术不需要考虑技术的稳定性。A)正确B)错误答案:错解析:[判断题]80.yarn-env.sh配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、SecondaryNameNode和DataNode。A)正确B)错误答案:错解析:hadoop-env.sh配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、SecondaryNameNode和DataNode。[判断题]81.大数据的价值重在挖掘,而挖掘就是分析。()A)正确B)错误答案:对解析:[判断题]82.已知当前文件夹中有一个文件readmeA)正确B)错误答案:对解析:[判断题]83.已知x={1:1,2:2},那么语句x[3]=3无法正常执行。A)正确B)错误答案:错解析:[判断题]84.大数据技术和云计算技术是两门完全不相关的技术。A)正确B)错误答案:错解析:[判断题]85.在Spark中,SparkSQL是独立的模块,可以不依赖于SparkCore独立完成SQL语句的解析、优化和执行等操作。A)正确B)错误答案:错解析:[判断题]86.多维数组操作索引时,可以将切片与整数索引混合使用。()A)正确B)错误答案:对解析:[判断题]87.在没有大数据的条件下,人才的发现与选拔都很难做到?全信息?,大数据能够帮助人们解决这个问题。A)正确B)错误答案:对解析:[判断题]88.表达式3>5andm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鞋类旗舰店行业跨境出海项目商业计划书
- 医药大数据分析平台企业制定与实施新质生产力项目商业计划书
- 养生度假休闲小镇行业深度调研及发展项目商业计划书
- 智能仿生语音翻译耳机行业跨境出海项目商业计划书
- 商场美食活动策划方案
- 周年庆策划活动方案
- 鼻梅毒护理措施课件
- 团建小活动跳舞活动方案
- 国乒迎新春活动方案
- 团日联谊活动方案
- 日用品批发采购合同
- 位置随动系统的MATLAB计算及仿真毕业设计说明书
- 脑梗死的预防和治疗
- 湖南省长沙市2024年中考语文真题试卷(含答案)
- 2023-2024学年全国初中七年级下地理人教版期末考试试卷(含答案解析)
- 污水管网工程竣工验收报告
- 初中七年级英语翻译专项集中训练100题(含答案)
- 高中英语必背3500单词表
- 药物临床试验监查员(monitor)技能培训资料
- 大学语文(滨州学院)智慧树知到期末考试答案章节答案2024年山东航空学院
- 三相异步电动机检修课件
评论
0/150
提交评论