




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试题说明
本套试题共包括1套试卷
答案和解析在每套试卷后
大数据开发基础练习题及答案3(500题)
大数据开发基础练习题及答案3
L[单选题]下列关于机器学习模型的说法正确的是()。
A)一个机器学习模型如果有较高准确率,总是说明这个分类器是好的
B)如果增加模型复杂度,那么模型的测试错误率不一定会降低
C)如果增加模型复杂度,那么模型的训练错误率总是会降低
2.[单选题]大数据环境下,为了从大量电子数据中挖掘有用的信息,一些数据分析工具被开发出来
,主要有三类工具:批处理工具、流处理工具、交互式分析工具
A)交互式分析工具
B)嵌入式分析工具
C)模拟仿真工具
3.[单选题]MapReduce任务最终是在下列()中被执行的。
A)NodeManager
B)container
C)ResourceManager
D)AppMaster
4.[单选题]什么是词向量?
A)句子分词得到的向量
B)多个词组成的向量
C)对每个词进行编码得到的向量
D)文档的向量表示
5.[单选题]下列关于误差的说法,正确的是O
A)训练样本容量增加,泛化误差也会增加
B)过拟合指数据在训练集上的误差过大
C)过拟合可以通过减少模型参数数量解决
D)交叉验证不重复使用数据
6.[单选题]在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题
A)增加训练集数量
B)减少神经网络隐藏层节点数
C)删除稀疏的特征
D)SVM算法中使用高斯核/RBF核代替
7.[单选题]()是用来解决海量大数据文件存储问题的,是目前应用最广泛的分布式文件系统。
A)HDFS
B)HBase
OHIve
D)Kafka
8.[单选题]以下关于turtle库的描述,正确的是:
A)在importturtle之后就可以用CirCle()语句,来画一个圆圈
B)要用fromturtleimportturtle来导入所有的库函数
OhomeO函数设置当前画笔位置到原点,朝向东
D)seth(x)是Setheading(X)函数的别名,让画笔向前移动X
9.[单选题]IDC的定义除了揭示大数据传统3V基本特征,即VOlUme、Variety和VeIOCity,还增添了
一个新特征是
A)量大
B)速度快
C)应用广
D)价值
10.[单选题]下列关于可视化工具中高级分析工具的说法,错误的是?()
A)R是属于GNU系统的一个自由、免费、源代码开放的软件
B)Weka主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形
C)GePhi主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形
D)R通常用于大数据集的统计与分析
11.[单选题]执行以下代码段Print(bool('FaISe'))Print(bool())时,输出为(.)。
A)TrueTrue
B)TrueFalse
C)FalseTrue
D)FalseFalse
12.[单选题]关系云的一个重要功能是提供()。
A)数据库即服务
B)虚拟服务
C)弹性计算
D)按需服务
13.[单选题]python语句Print(type({}))的结果是。()
A)class'dict'
B)class'tuple'
C)class'set'
D)class'list'
14.[单选题]第3次信息化浪潮的标志是:O
A)个人计算机的普及
B)互联网的普及
C)云计算、大数据和物联网技术的普及
D)人工智能化
15.[单选题]针对MaXCOnIPUteSQL做逻辑分析的时候,会进行一些优化,不包括:()优化。
A)常量表达式(ConStantExpression)
B)列映射(ColumnProjection)
C)谓语动词下沉(PredictPushDown)
D)扫描方式(ScanMethod)
16.[单选题]在早期版本低的HadooP中使用的是()方法来调度用户的作业。
A)短作业优先
B)高响应比优选
C)基于时间片轮转
D)先进先出
17.[单选题]以下风险管理工作,哪些可运用大数据实现?
A)贷款催收
B)凭证审阅
C)风险模型预警
D)以上都是
18.[单选题]数据资产应用以安全可控为前提,按照()的原则,落实安全与保密责任。
A)谁经手,谁使用,谁负责
B)谁主管,谁负责
C)谁使用,谁主管,谁负责
D)谁录入,谁使用,谁负责
19.[单选题]哪个软件架构是GOogIe提出的用于处理海量数据的并行编程模式和大规模数据集的
A)GFS
B)MapReduce
C)Chubby
D)Bigtable
20.[单选题]关于数据相关性,以下说法错误的是(一)。
A)相关性体现了大数据的灵魂
B)相关性思维实现了从“为什么”到“是什么”的思维转变
C)相关性关注事物的因果关系
D)相关性关注事物的相关关系
21.[单选题]HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为300M,那么在存
储时会分配()个block进行存储。
A)l
B)2
03
D)4
22.[单选题]第一数字定律中使用概率最大的数字是()。
A)0
B)l
02
D)3
23.[单选题]下列关于HiVe中连接查询描述正确的是()
A)HiVe中连接查询只支持相等连接而不支持不等连接
B)HiVe中连接查询支持相等连接和不等连接
C)HiVe中连接查询只支持不等连接而不支持相等连接
D)以上都不对
24.[单选题]在TF-IDF算法中,在计算完词频与逆文档频率后,将两者()后得到最终的结果。
A)相加
B)相减
C)相乘
D)相除
25.[单选题]下列选项中,关于HBaSe特性描述不正确的一项是()。
A)高可靠性
B)高性能
C)面向行
D)可伸缩
26.[单选题]对于二分类问题,线性分类器用一个超平面将两类样本分开,对于二维平面,这个超平面
是一条()
A)折线
B)曲线
C)直线
D)以上说法都不对
27.[单选题]由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,
以下哪一类不属于此关键词类型的是()。
A)、引用词
B)、普通关键词
C)、高频词汇
D)、扩展关键词
28.[单选题]根据《大数据风控平台项目操作手册》,系统在【客户信息管理】一级菜单下增加【征
信报告查询管理】二级菜单,用户可在此菜单下的O节点查看否决意见。
A)待处理的征信报告
B)B.审批中的征信报告
C)C.审批批准
D)D.审批否决
29.[单选题]如果问题存在最优解,则下面几种搜索算法中,()必然可以得到该最优解。
A)广度优先搜索
B)深度优先搜索
C)有界深度优先搜索
D)启发式搜索
30.[单选题]组合多条SQL查询语句形成组合查询的操作符是()
A)SELECT
B)ALL
C)LINK
D)UNION
31.[单选题]下列不属于TranSfOrmation操作的是0
A)map
B)fIter
C)sample
D)count
32.[单选题]某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量
,构建抢修热点。模型构建步骤如下:①将历史数据进行随机自助法重抽样,生成N个训练样本集;②将
N个训练样本集分别做决策树,生成N棵决策树;③将N棵决策树随机构成随机森林;④未来根据预测样
本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运
算,并计算出最终结果。模型算法构建步骤合理的顺序是()。
A)①②③④
B)①③②④
C)④①②③
D)④②①③
33.[单选题]执行以下代码段ClaSSA:def_init_(self,x=1):self,x=xclassder(A):def
—init一(self,y=2):super().—init—()self,y=ydefmain():obj=der()print(obj.x,
Obj.y)main()时,输出为(一)0
A)l1
B)l2
C)22
D)21
34.[单选题]在Matplotlib中设置X轴、y轴的刻度位置可用函数()。
A)xlabel()、ylabel()
B)xlimO、ylimO
C)Xscale()、yscale()
D)xticks()、yticks()
35.[单选题]以下哪个选项对Redis数据读写流程描述是正确的?(
A)ServerA节点返回集群拓扑-客户端选择集群任意一个serverA节点连接客户端计算Key归属的槽
位以及对应SerVerB节点并连接-Servere节点返回业务操作结果
B)客户端选择集群任意一个SerVerA节点连接-Servera节点返回集群拓扑客户端计算Key归属的槽
位以及对应SerVerB节点并连接一ServerB节点返回业务操作结果
C)ServerA节点返回集群拓扑-喜户端计算Key归属的槽位以及对应SerVerB节点并连接户端选择集
群任意一个SerVerA节点连接-eerB节点返回业务操作结果
D)客户端选择集群任意一个SerVera节点连接客户端计算Key归属的槽位以及对应SerVerB节点并连
接-ServerA节点返回集群拓扑-ServerB节点返回业务操作结果
36.[单选题]以下描述中不属于"规整数据(TidyData)"三个基本原则的是()。
A)每一类观察单元构成一个关系(表)
B)每个观察占且仅占一行
C)每个变量占且仅占一列
D)每个观察占且仅占一个关系(表)
37.[单选题]关于MaXCOmPUte用户和权限,说法正确的是:()。
A)每一个项目空间在创建后,需要手工创建一个admin的角色,并且为该角色授予了确定的权限
B)admin角色可以将admin权限指派给用户
C)Admin可以设定项目空间的安全配置,但是不能修改项目空间的鉴权模型
D)MaXComPUte目前不支持在项目空间中彻底移除一个用户及其所有权限数据。
38.[单选题]考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME0最低层
输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是
200X300的RGB图片,则总参数的数量是()。
A)903400
B)2800
C)180200
D)720400
39.[单选题]F1参数(一),说明模型越稳定。
A)越小
B)越大
C)越趋近于某一特定值
D)Fl参数和模型稳定性没有关系
40.[单选题]数据使用环节的安全技术措施除防火墙、()、防病毒、防DDOS、漏洞检测等网络安全
防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和
审计、异常行为实时监控和终端数据防泄漏。
A)入侵检测
B)病毒检测
C)程序检测
D)进程检测
41.[单选题]下列哪个程序通常与NameNode在同一个节点启动
A)TaskTracker
B)DataNode
C)SecondaryNameNode
D)Jobtracker
42.[单选题]大数据计算服务项目空间Prjl中存在表tl,其中包含一列名字为id,OWner打开
LabelSeCUrity设置后,执行如下命令:SETLABEL1TOTABLEtl;SETLABEL2TOTABLE
tl(id);SETLABEL3TOTABLEtl;此时,tl表中的id列的敏感等级标签()。
A)I级
B)3级
C)2级
D)O级
43.[单选题](一)是一种建立在HadooP之上的数据仓库架构。
A)HDFS
B)Flume
C)Sqoop
D)Hive
44.[单选题]长短时记忆神经网络被设计用来解决什么问题?()
A)、传统RNN存在的梯度消失/爆炸问题
B)、传统RNN计算量大的问题
C)、传统RNN速度较慢的问题
D)、传统RNN容易过过拟合的问题
45.[单选题]下面哪一个不属于大数据伦理问题:()
A)隐私泄露问题
B)数据安全问题
C)数字鸿沟问题
D)数据冗余问题
46.[单选题]执行以下代码段CiaSSFather():def_init_(self,a,b):self,b=bifa<b:
self,a=aelse:self,a=bdefaction(self):self,a+=4classSon(Father):def
init_(self,a,b):self,a=8self,b=4defaction(self):self,a+=7self,b*=
2classGrandSon(Son):def—init—(self,a,b):Father.—init—(self,a,b)grandson=
GrandSon(9,6)grandson,action()print(grandson,a)⅛,输出为()0
A)10
B)13
C)15
D)16
47.[单选题]以等可能性为基础的概率是O。
A)古典概率
B)经验概率
C)试验概率
D)主观概率
48.[单选题]在神经网络学习中,感知机输出层中的M-P神经元通常被称为()。
A)阈值逻辑单元
B)激活函数
C)挤压函数
D)连接函数
49.[单选题]以下对于离线批处理的概念理解错误的是哪-项?
A)离线批处理对数据处理的时延要求不高。
B)离线批处理占用的内存资源较多。
C)离线批处理通常通过眠作业、SPark作业或者HQL作业实现。
D)离线批处理针对的数据量较大。
50.[单选题]MapReduce默认的分区函数是()。
A)hash
B)disk
C)reduce
D)map
51.[单选题]查找表结构用以下哪一项()
A)FIND
B)SELETE
C)ALTER
D)DESC
52.[单选题]Flink的数据转换操作在:()环节中完成。
A)channel
B)Transformation
C)sink
D)source
53.[单选题]下列哪项通常是集群的最主要瓶颈_
A)CPU
B)网络
C)磁盘IO
D)内存
54.[单选题]在比较模型的拟合效果时,甲、乙、丙兰个模型的相关指数R2的值分别约为0.71、
0.85.0.90,则拟合效果较好的模型是()。
A)甲
B)乙
C)丙
D)效果一样
55.[单选题]下列代码中最适合接受系统输入是一个整数的是()。
A)num=input()
B)num=input("6")
C)num=int(input)
D)num=oat(input)
56.[单选题]使用Pig语句查询一张名为tmp_table的表的前50行,下列语句正确的是()。
A)SELECT*FROMtmp_tableLIMIT50;
B)tmp_table_limit=LIMITtmp_table50;DUMPtmp_table_limit;
ODUMPtmp_tableLIMIT50
D)DUMPtmp_tableLIMIT=50;
57.[单选题]推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推
荐基于网站最热卖商品、客户所处城市、(),推测客户将来可能的购买行为。
A)客户的朋友
B)客户的个人信息
C)客户的兴趣爱好
D)客户过去的购买行为和购买记录
58.[单选题]下面关于数据粒度的描述不正确的是:
A)粒度是指数据仓库小数据单元的详细程度和级别
B)数据越详细,粒度就越小,级别也就越高
C)数据综合度越高,粒度也就越大,级别也就越高
D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
59.[单选题]留出法直接将数据集划分为()个互斥的集合
A)一
B)二
C)三
D)四
60.[单选题]决策树的基本流程遵循()的策略。
A)贪心
B)最优化
C)分而治之
D)顺序
61.[单选题]关于数据整合和分组的说法,不E确的是
A)数据连接可以用concat或merge函数
B)axis=l表示轴向连接
C)数据分组可以使用mean函数
D)使用agg可以自定义多个聚合函数
62.[单选题]遗忘门的作用是()。
A)保留重要信息
B)去除不重要信息
C)信息增加
D)输出
63.[单选题]创建数据库使用以下哪项()
A)createmytest
B)createtablemytest
C)databasemytest
D)createdatabasemytest
64.[单选题]下列关于MaPRedUCe计算原理叙述不正确的一项是()0
A)将大数据集划分为小数据集,小数据集划分为更小数据集
B)将最终划分的小数据分发布到集群节点上
C)以串行的方式完成计算处理
D)将计算结果递归融汇,得到最后的结果
65.[单选题]在SeleCt语句中,实现选择操作的子句是()
A)select
B)groupby
C)where
D)from
66.[单选题]Python源程序文件的扩展名为()
A)pdb
B)db
Opy
D)exe
67.[单选题]决策树中,同一路径上的所有属性之间是()关系
A)因果
B)相关
C)逻辑或
D)逻辑与
68.[单选题]()是SPark中用于结构化数据处理的软件包。
A)SPARKCORE
B)SparkSQL
C)SparkStreaming
D)Mllib
69.[单选题]下面关于MaPRedUCe模型中MaP函数与RedUCe函数的描述正确的是()
A)一个MaP函数就是对一部分原始数据进行指定的操作。
B)一个MaP操作就是对每个RedUCe所产生的一部分中间结果进行合并操作。
C)MaP与MaP之间不是相互独立的。
D)RedUCee与RedUCe之间不是相互独立的。
70.[单选题]数据资产应用O以为前提,按照“谁经手,谁使用,谁负责”的原则,落实安全与保
密责任。
A)来源明确
B)冗余率低
C)分类清晰
D)安全可控
71.[单选题]下面不属于NoSQL的有(_)。
A)ORACLE
B)Redislabs
C)couchbase
D)paradigm4
72.[单选题]数据抽取是从数据源中抽取数据的过程,数据抽取的方式有全量抽取和()。
A)重点抽取
B)个别抽取
C)抽样抽取
D)增量抽取
73.[单选题]一般情况下,若要提高EIaStiCSearCh检索效率,可以采取什么操作?
A)调整索引分片数
B)使用HiVe做底层存储
C)压缩素引
D)正价ESMaSter节点
74.[单选题]下面属于批处理技术的是:()
A)MapReduce
B)Storm
C)Spark
D)GraphX
75.[单选题]下列关于数据交易市场的说法中,错误的是()。
A)数据交易市场是大数据产业发展到一定程度的产物
B)商业化的数据交易活动催生了多方参与的第三方数据交易市场
C)数据交易市场通过生产、研发和分析数据,为数据交易提供帮助
D)数据交易市场是大数据资源化的必然产物
76.[单选题]下面几种梯度下降方法中,哪种是速度最慢的:()
A)SGD
B)Adagrad
ORMSProp
D)Adam
77.[单选题]在我们神经网络训练过程中,每次dropout想去掉20%的参数,下面有关激活函数说法错
误的是:()
A)SigmOid容易饱和,出现梯度消失。
B)LeakyRelU是ReiU的一个变种,他在X
C)Tanh存在梯度消失问题,但是是0均值,而且收敛速度比Sigmoid慢。
D)ReIU收敛速度比Sigmoid和tanh快很多,可以缓解梯度消失现象。
78.[单选题]()反映数据的精细化程度,越细化的数据,价值越高。
A)规模
B)活性
0关联度
D)颗粒度
79.[单选题]HBase使用get方法读取数据时,下列哪个选项是需要的?
A)Deletedelete=newDelete(rowkey)
B)scan.SetCaching(1000)
C)bytellrowkey=Bytes.toBytesC"012005000201")
D)List<Put>]putS=newArraylist<Put>0
80.[单选题]与以下代码段foriinranged,101):ifint(i*0.5)==i*0.5:Print(i)等效
的列表描述(一)o
A)[iforiinrange(1,100)ifint(i*0.5)==(i*0.5)]
B)[iforiinrange(1,101)ifint(i*0.5)==(i*0.5)]
C)[iforiinrange(1,101)ifint(i*0.5)=(i*0.5)]
D)[iforiinrange(1,100)ifint(i*0.5)=(i*0.5)]
81.[单选题]在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个(_)。
A)偏置项b
B)系数
C)松弛变量
D)两种情况的目标函数相同
82.[单选题]Hive创建。时,会将数据移动到数据仓库指向的路径;创建O,仅记录数据所在的
路径,不对数据的位置做任何改变
A)内部表.外部表
B)内部表.元数据
C)原元数据.外部表
D)外部表.托管表
83.[单选题]若不针对MapReduce编程模型中的key和VaIUe值进行特别设置,下列哪一项是
MapReduce不适宜的运算。()
A)Max
B)Min
C)Count
D)Average
84.[单选题]()可用来展示持续性数据,可很好地表示趋势、累积、减少以及变化。
A)柱形图
B)地图
C)面积图
D)雷达图
85.[单选题]Spark的核心概念不包括?
A)RDD
B)Hoq
C)宽套依赖
D)Shuffle
86.[单选题]以下哪个不是大数据的“4V”特性:()
A)数据量大
B)数据类型繁多
C)处理速度快
D)价值密度高
87.[单选题]关于FusionlnsightHD中Loader作业描述正确的是
A)Load可将作业提交到Yarn执行后,如果此时Loader服务出现异常,则此作业执行失败。
B)LOader将作业提交至Yarn执行后,如果某个MaPPer任务执行失败,能够自动进行重试。
C)Loader作业执行共败后将会产生垃圾数据,需要用户手动清除
D)LOader将一个作业提交至Yarn执行后,该作让执行完成前,不能再提交其他作业
88.[单选题]落实国家大数据安全保护要求时,需进一步明确大数据采集、传输、存储、使用、开放
等各环节的O和具体措施。
A)责任主体
B)生产成本
C)关键技术
D)标准规范
89.[单选题]评估完模型之后,发现模型存在高偏差(highbi踊),应采取的解决方法是0
A)减少模型的特征数量
B)增加模型的特征数量
C)增加样本数量
D)以上答案都正确
90.[单选题]相对于HadoopMapReducel.0,Spark的特点不包括()。
A)速度快
B)并发多
C)通用性
D)易用性
91.[单选题]Flink的窗口,按窗口行为划分不包含以下哪种?
A)容量窗口
B)滑动窗
C)滚动窗口
D)会话窗口
92.[单选题]一张表的主键个数为()
A)至多3个
B)没有限制
C)至多1个
D)至多2个
93.[单选题]下面的循环会打印多少次"ILovePythonw?foriinrange(0,10,2):print('ILove
Python')
A)2
B)5
C)6
D)10
94.[单选题]下列关于类属性和实例属性的说法中,描述正确的是。。
A)类属性既可以显式定义,又能在方法中定义
B)公有类属性可以通过类和类的实例访问
C)通过类可以获取实例属性的值
D)类的实例只能获取实例属性的值
95.[单选题]Maxcompute拓展MR的主要特点是:()。
A)支持计算在内存中进行,中间结果不落地
B)支持MaP后连续任意多个RedUCe操作
C)可以在上一次的reduce结束之后,直接增加一次map
D)从MaP直接到RedUCe,省去ShUffle阶段
96.[单选题]有关HiVe支持的基本数据类型,TimeStamP表示()
A)时间戳
B)字符序列,可以指定字符集
C)字节数组
D)集合数据类型
97.[单选题]Flume中最小的独立运行单位是()。
A)Source
B)Agent
C)Channel
D)Sink
98.[单选题IStructuredStreaming中通过什么机制解决数据的无序和滞后问题?
A)事件时间
B)流连接
C)Watermark机制
D)持续查询
99.[单选题]输入图像为32x32,经过步长为1,不进行Padding,卷积核为5x5的卷积层后,得到的特
征图尺寸是多少?O
A)28x28
B)27x27
C)29x29
D)32x32
100.[单选题]下列关于SkIearn说法错误的是Oo
A)sklearn全称为SCikitTearn
B)sklearn在官网被分为7个大块
C)sklearn的聚类算法几乎都已经放在CIUSter模块中了
D)sklearn需要NUmPy和SCiPy库的支持
IOL[单选题]执行"abedef''[::-l]语句时输出是(Jo
A)fedcba
B)f
C)abcdef
D)abcde
102.[单选题]业务中台方面,以业务为导向,优先建设()和客户服务业务中台,后期逐步视
情况拓展账务结算等业务共享服务
A)电网服务业务中台
B)电网资源业务中台
C)电网优化业务中台
D)电网环境业务中台
103.[单选题]()属于SVM应用。
A)文本和超文本分类
B)图像分类
C)新文章聚类
D)以上均是
104.[单选题]Relief的时间开销随采样次数以及原始特征数(_)。
A)线性增长
B)指数型增长
C)快速增长
D)负增长
105.[单选题]Reduce阶段不包括以下哪一步?。
A)排序
B)分区
C分组
D)规约
106.[单选题]YARN分层结构的本质是(一),负责整个系统的资源管理和分配。
A)ResourceManger
B)NodeManger
C)ApplicationMaster
D)Container
107.[单选题]下列哪个命令是删除文件的?
A)dfs-clear
B)dfs-Is
C)dfs-rm
D)dfs-del
108.[单选题]下面程序段执行后的输出结果是()。
N=Is=l
Whilen<5:
S=s*nn=n+lprint(s)
A)24
B)10
C)120
D)15
109.[单选题]Hadoopl.0默认的调度器策略是哪个。()
A)先进先出调度器
B)计算能力调度器
C)公平调度器
D)优先级调度器
110.[单选题]一幅大小为512X512的8比特图像,则该图像大小为(一)。
A)32KB
B)128KB
C)16KB
D)256KB
Ill.[单选题]一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的
()O
A)定量思维
B)相关思维
C)因果思维
D)检验思维
112.[单选题]O以上地方人民政府有关部门的网络安全保护和监督管理职责,按照国家有关规定
确定
A)乡级
B)县级
C)市级
D)省级
113.[单选题]数据管理成熟度模型将机构数据管理能力定义为(_)个不同成熟度等级,并给出了
(_)类关键过程域,共(_)个关键活动。
A)3,7,21
B)4,6,24
05,6,25
D)6,7,28
114.[单选题IMapReduce编程模型,键值对<key,value>的key必须实现哪个接口?()
A)WritableComparab1e
B)ComparabIe
OWritable
D)LongWritable
115.[单选题]CNN神经网络对图像特征提取带来了变革性的变化,使之前的人工特征提取升级到数据
驱动的自动特征提取,在αN中,起到特征提取作用的网络层是()
A)ConVoIUtion层
B)fullConneet层
C)maxpooling层
D)norm层
116.[单选题]Maxcompute中,当一个用户被移除后,与该用户有关的()授权会保留。
ʌ)PaCkage授权
B)POIiCy授权
C)ACL授权
D)项目空间授权
117.[单选题]关于缺失值填补,不正确的说法是()。
A)填补数据可以用中位数或者众数等
B)Pandas,dropna可以用来填补缺失值
C)用平均值填补会引入相关性
D)哑变量填补是将缺失值当做一类新特征处理
118.[单选题]Hadoop环境下HDFS系统中的NameNOde实现的功能是()。
A)管理文件系统的命名空间
B)管理存储空间
C)分配算力
D)调控算法
119.[单选题]下列关于GaUSSDB200的TOAST机制说法正确的是O?
A)存储超过2KB的字段时,会触发TOAST机制.
B)支持变长(Varlena)表现形式的数据类型.
C)存储超过1/2KB的字段时,会触发TOAST机制。
D)存储超过IKB的字段时,会触发ToAST机制。
120.[单选题]执行以下代码段IiStl=[1,5,9]Print(SUnI(IiStI))时,输出为(_)。
A)l
B)5
09
D)15
121.[单选题]假如使用LaSSO回归来拟合数据集,该数据集输入特征有100个(XI,X2,…,
XlOO)O现在,把其中一个特征的值扩大10倍(如特征XD,然后用相同的正则化参数对LaSSO
回归进行修正。那么下列说法正确的是()。
A)特征Xl很可能被排除在模型之外
B)特征Xl很可能还包含在模型之中
C)无法确定特征Xl是否被舍
D)以上答案都不正确
122.[单选题]防火墙、漏洞扫描、病毒防范和系统加固等服务属于O
A)安全增值服务
B)代理代维服务
C)优化类服务
D)容灾服务
123.[单选题]K折交叉验证器是()函数。
A)model_selection.GroupKFold()
B)model_SeleCtion.GroupShufeSplit()
C)model_selection.KFold()
D)model_seIection.RepeatedKFold()
124.[单选题]阅读以下代码,回答问题,当n是11的时候,S为多少1deftotal(n):2s=03i=14
while(i
A)55
B)66
C)44
D)50
125.[单选题]已知初始问题的描述,通过一系列变换把此问题最终变为一个子问题集合;这些子问题
的解可以直接得到,从而解决了初始问题。这是知识表示法叫OO
A)状态空间法
B)问题归约法
C)谓词逻辑法
D)语义网络法
126.[单选题]下面哪个是分布式数据库O
ʌ)HDFS
B)HBase
C)Oracle
D)Mysql
127.[单选题]HBase的物理存储单元是什么?
A)Region
B)ColumnFamily
C)Column
D)ROW
128.[单选题]numPy中实现竖直轴分割数组的函数是什么?
A)np.vsplit
B)np.hsplit
C)np.dsplit
D)np.split
129.[单选题]假设现在要做一个可以根据线索指导运维人员进行排障的功能,你建议选择下列哪个
工具实现该功能?
A)Lucene
B)HBase
C)ElasticSearch
D)GraphBase
130.[单选题]关于HiVe在FUSiOnlnSightHD中的架构描述错误的是?
A)只要有一个HiVeSerVer不可用,整个HiVe集群便不可用
B)MOtaStOre用于提供元数据服务,依赖于DBSerViCe
C)在同一时间点,HiVeSerVer只要一个处于ACtiVe状态,另一个则处于Standby状态
D)HiVeSerVer负责接收客户端请求.解析.执行HQL命令并返回查询结果
131.[单选题]哪一项不属于FUSiOnInSightHD中HiVe的流控特性的描述?
A)支持对已经建立的总连接数做阀值控制
B)支持对每个用户已经建立的连接数做阀值控制
C)支持对某个特定用户已经建立的连接数做阀值控制
D)支持对单位时间所建立的连接数做阀值控制
132.[单选题]()是GOOgle提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的
软件架构。
Λ)GFS
B)MapReduce
C)Chubby
D)BitTable
133.[单选题]下列关于数据交易市场的说法中,错误的是()。
A)数据交易市场是大数据产业发展到一定程度的产物
B)咱商业化的数据交易活动催生了多方参与的第三方数据交易市场
C)数据交易市场通过生产、研友和分析数据,为数据交易提供帮助
D)数据交易市场是大数据资源化的必然产物
134.[单选题]下列对于ADS中表和表组的描述正确的是()。
A)维度表在创建时不需要指定表组,但是需要配置分区信息
B)维度表可以和除维度表组外的任意表组中的表关联
C)批量插入的表如果只有一级分区,每次导入数据是会覆盖掉已有数据
D)维度表组有且只有一个,用户可以修改表组属性,但是不能删除
135.[单选题]np.arraySPIit()函数的作用是(_)o
A)沿着它的水平轴分割
B)沿着纵向的轴分割
C)允许指定沿哪个轴分割
D)按深度方向分割
136.[单选题]sciPy中模块Signal.的作用是什么?
A)信号处理
B)程序输入输出
C)程序输入输出
D)计算积分
137.[单选题]大数据产业指什么?
A)一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
B)提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业
C)提供数据分享平台、数据分析平台、数据租售平台等服务的企业
D)提供分布式计算、数据挖掘、统计分析等服务的各类企业
138.[单选题]为保证流应用的快照存储的可靠性,快照主要存储在:()。
A)本地文件系统中
B)JObManager的内存中
C)HDFS中
D)可靠性高的单击数据库中
139.[单选题]下列选项中,用于标识为静态方法的是OO
A)@classmethod
B)PythOn标示注释使用符号是以下哪个?
C)©staticmethod
D)'©privatemethod
140.[单选题]HBase为什么适用于海量数据存储?
A)集群规模小
B)支持列存表
C)多列簇特性
D)HDFS做底层存储
141.[单选题]下列关于RDD说法,描述有误的是?
A)一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
B)每个RDD可分成多个分区,每个分区就是一个数据集片段
C)RDD是可以直接修改的
D)RDD提供了一种高度受限的共享内存模型
142.[单选题]以下不属于生成式模型的是:
A)朴素贝叶斯
B)K近邻
C)高斯混合模型
D)马尔科夫随机场
143.[单选题]在其他条件不变的前提下,()容易引起机器学习中的过拟合问题
A)增加训练集量
B)减少神经网络隐藏层节点数
C)删除稀疏的特征
D)SVM算法中使用高斯拉底BF桂代替线性
144.[单选题]信息安全管理最关注的是?()
A)外部恶意攻击
B)病毒对PC的影响
C)内部恶意攻击
D)病毒对网络的影响
145.[单选题]数据、信息与知识三者之间的变化趋势是O
A)宏课程
B)大课程
C)小课程
D)微课程
146.[单选题]在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训
练集和测试集的情况。
A)留出法
B)交叉验证法
C)自助法
D)留一法
147.[单选题]下列关于键值数据库的描述,哪一项是错误的:()
A)扩展性好,灵活性好
B)大量写操作时性能高
C)无法存储结构化信息
D)条件查询效率高
148.[单选题]下列操作是创建目录的是(__)。
A)mkdir
B)chdir
C)rmdir
D)move
149.[单选题IFusionInsightHD集群组网设计中,有一种机架可以按照业务需求线性扩展,这种机
架被称为()
A)基本框
B)扩展框
C)管理框
D)数据框
150.[单选题]下面说法错误的是()。
A)可以利用统计量对缺失值进行填补
B)可以利用K近邻值对缺失值进行填补
C)只要有缺失值就必须把对应记录删除
D)对于缺失值较多的属性可以考虑删除
151.[单选题]下列选项中,不属于PythOn特点的是。()
A)面向对象
B)运行效率高
C)可移植性
D)免费和开源
152.[单选题]MySQL数据库驱动文件放置于hive哪个目录下O
A)jar
B)lib
Obin
D)sbin
153.[单选题]在HadoOP的分区阶段,默认的PartitiOner是()。
A)RangePartitioner
B)Partitioner
C)HashPartitioner
D)用户自定义的Partitioner
154.[单选题]大数据计算服务(MaxCompute,原ODPS)的运维人员想要知道一张日志表IOg已经占
用了多少存储空间,可以在命令行工具OdPSemd中使用()命令查看。
A)Islog;
B)desclog;
C)select*fromlog;
D)sizelog;
155.[单选题]下列选项中,哪个配置文件可以配置HDFS地址、端口号以及临时文件目录()
A)core-site,xml
B)hdfs-site.xml
C)mapred-site.xml
D)yarn-site,xml
156.[单选题]有N个样本,一般用于训练,一般用于测试若N增大,则训练误差和测试误差之间的差
距会()
A)增大
B)减小
C)无法确定
D)无明显变化
157.[单选题]下面哪个RDD操作肯定是宽依赖()
A)map
B)fIatMap
OreduceByKey
D)sample
158.[单选题]下面哪个不属于matplotlib基本图表包含的元素
A)坐标轴
B)刻度
C)刻度标签
D)参考区域
159.[单选题]表A为ADS中的普通表,列a为其中一个普通列,类型为int,以下SQL()是正确的。
A)SELECTa+COUNT(*)FROMA
B)SELECTUDF_SYS_COUNT_COLUMN(a)FROMA
C)SELECTSUM(COUNT(*))FROMA
D)以上都正确
160.[单选题]下列关于Python文件处理的描述错误的是()。
A)Python能处理jpg图像文件
B)Python不可以处理PDF文件
OPython能处理CSV文件
D)Python能处理Excel文件
161.[单选题]在空间维度上刻画数据连续性是数据的()特点。
A)可关联性
B)可溯源性
C)可理解性
D)可复制性
162.[单选题]()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。
A)支持向量机
B)间隔最大化
C)线性分类器
D)贝叶斯判定准则
163.[单选题]Flume中基于WAL(预写式日志Write-AheadLog)实现ChanneI持久化的是?
A)JDBCChannel
B)KafkaChannel
C)MemoryChannel
D)FiIeChannel
164.[单选题]情感信息抽取不包括以下哪些方法?()
A)、基于命名实体识别的抽取方法
B)、基于重复段落的识别方法
0、基于语义角色标注的抽取方法
D)、基于监督学习抽取的学习方法
165.[单选题]下列的处理过程与RedUCe处理过程相似的是(一)0
A)Shuffle
B)Combiner
C)Partition
D)Map
166.[单选题]假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,
QueueA.minimum-userTimit-PerCent=24。则以下说法错误的是?
A)第3个用户提交任务时,每个用户最多获得33.33%的资源
B)第2个用户提交任务时,每个用户最多获得50%的资源
C)C第4个用户提交任务时,每个用户最多获得25%的资源
D)D第5个用户提交任务时,每个用户最多获得20%的资源
167.[单选题]CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。现在需要在
DEEP平台中将多个字符串拼接成CSV格式的字符串。请选择适用的数值转换器:
A)Ceiling
B)CsvAssemble
C)CsnToString
D)TermExtract
168.[单选题]下面插入数据操作错误的是()。-
A)INSERT数据表名VALUE(值列表)
B)INSERTINTO数据表名VALUES(值列表)
C)INSERT数据表名VALUES(值列表)
D)INSERT数据表名(值列表)
169.[单选题]执行以下代码段deffl(a,b=[]):b.append(a)returnbprint(fl(1,[2,3]))时
,输出为()o
A)[1,2,3]
B)[1,3,2]
C)[3,2,1]
D)[2,3,1]
170.[单选题]在hadoop配置中yarn-site,xml作用是()
A)用于定义系统级别的参数
B)用于名称节点和数据节点的存放位置
C)用于配置
D)配置
171.[单选题]当(_)过高,会出现欠拟合现象
A)偏差
B)方差
C)噪声
D)泛化误差
172.[单选题]YARN调度器分配资源的顺序是:()o
A)任意机器一本地资源一同机架
B)任意机器一同机架一本地资源
C)本地资源一同机架一任意机器
D)同机架一任意机器一本地资源
173.[单选题]假设PreCiSiOn=TP/(TP+FP),recall=TP/(TP+FN),则在二分类问题中,当测试集的正例
和负例数量不均衡时,以下评价方案中()是相对不合理的。
A)Accuracy:(TP+TN)/all
B)F-value:2recallprecision/(recal!+precision)
C)G-mean:sqrt(precision*recall)
D)AUC:曲线下面积
174.[单选题]国网数据中台,是在下面()数据中心阶段的基础上发展过来的。
A)营销服务中心
B)全业务统一数据中心
C)海量历史/实时数据中心
D)电网GlS数据中心
175.[单选题]执行下列语句后的显示结果是什么?>>>World="world"»>print"hello"+
world
A)helloworld
B)“hello"world
C)helloworld
D)语法错误
176.[单选题]在MaPRedUCe中,以下描述错误的有()。
A)WOrker缸故障和MaSter故障的处理方法不相同
B)Map和Reduce的处理结果都存储在本地文件件统
C)一个WOrker发生故障时,该节点上执行完成的Map任务需要再次执行
D)MapReduce具有很强的容错机制
177.[单选题]离线批处理方案的应用场景不包括?
A)占用计算存储资源多
B)快速高效,实时的数据处理
C)数据处理格式多样
D)处理大规模数据
178.[单选题]Hive中distributeby和Sortby的功能结合的是()
A)orderby
B)sortby
C)distributeby
D)clusterby
179.[单选题]大数据在餐饮行业的应用不包括以下哪项?O
A)大数据驱动的团购模式
B)利用大数据为用户推荐消费内容
C)利用大数据调整线下门店布局
D)利用大数据控制消费人群的口味喜好
180.[单选题]如果x=5.5,则表达式x>0andx==int(x)的运算结果为;表达式x>0or
x==int(x)的运算结果为?
A)TrUe、False
B)False,True
C)TrUe、True
D)False,False
181.[单选题]以下语句错误的是()
A)selectsal+1fromemp;
B)selectsal*10,sal*deptnofromemp;
C)不能使用运算符号
D)selectsal*10,deptno*10fromemp;
182.[单选题]在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位
(增加或减少),那么输出将改变()。
A)一个单位
B)不变
C)截距
D)回归模型的尺度因子
183.[单选题]MaxCompute中负责对等待提交的task进行排序的模块是:()。
A)Worker
B)Executor
C)Scheduler
D)controller
184.[单选题]把图像分割问题与图的最小割(mincut)问题相关联的方法是()。
A)基于图论的分割方法
B)分水岭算法
OSLIC算法
D)基于阈值的方法
185.[单选题]对于缺失值的处理中,不属于数据补齐的是()
A)热卡填充
B)期望值最大化方法
C)人工填写
D)随机补充
186.[单选题]从数据库架构设计来看,主要有以下哪些设计思路?
A)Shared-Disk
B)Shared-Everying
C)Shared-Nothing
D)以上全都正确
187.[单选题]下列选项中,若是哪个节点关闭了,就无法访问HadooP集群()。
A)namenode
B)datanode
C)secondarynamenode
D)yarn
188.[单选题]现阶段的大数据技术体系主要类型不包括()。
A)数据源与App
B)基础设施
OHadoop
D)D.数据资源
189.[单选题]下面()表示日期和时间的数据类型。--
A)DECIMAL(6,2)
B)DATE
OYEAR
D)TIMESTAMP
190.[单选题]在DlKW金字塔中属于未来的是(一)。
A)信息
B)数据
C)知识
D)智慧
191.[单选题]下列选项中适合MapReduce的场景有?
A)实时交互计算
B)迭代计算
C)流式计算
D)离线计算
192.[单选题]综合类大数据应用管理主要包括应用需求、分析应用和O,由互联网部统一组织开
展。
A)数据安全
B)成果管理
C)商务拓展
D)推广应用
193.[单选题]大数据的起源是()。
A)金融
B)电信
C)互联网
D)公共管理
194.[单选题]()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问
题本身的难度。
A)偏差
B)方差
C)噪声
D)泛化误差
195.[单选题]在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明
模型中存在()
A)异方差
B)嘈序列相关
C)多重共线性
D)高拟合优皮
196.[单选题]下列哪一种不属于Bl工具数据集的数据字段类型?()
A)文本
B)数值
C)日期
D)整型
197.[单选题]数据科学是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学
习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算等活动的(一)o
A)新兴科学
B)交叉性学科
C)独立学科
D)一整套知识体系
198.[单选题]在计算拟合曲线时,如果拟合曲线始终没有收敛,应调整哪个参数?
A)增加迭代步数
B)减少迭代步数
C)增大收敛系数
D)减小收敛系数
199.[单选题]SQL语言的数据操纵语句包括SELECT、INSERT、UPDATE、DELETE等。其中最重要的,也
是使用最频繁的语句是()。
A)UPDATE
B)SELECT
C)DELETE
D)INSERT
200.[单选题]下列算法中,()更适合做时间序列建模。
A)CNN
B)决策树
C)LSTM
D)贝叶斯算法
201.[单选题]s=On=int(input())foriinrange(1,n+1):al=0forjinrange(1,i+
1):al+=ja=1.0/als+=aprint("s=%.If"%S)当输入的n为4时,输出S=()。
A)l.5
B)1.4
01.6
D)l.7
202.[单选题]以下可以在字符串中表示单引号的是()。-
A)∖"
B)∖∖'
C)∖'
D)'
203.[单选题]Spark的技术架构中,SPark核心层的作用是什么?
A)资源管理
B)提供内存计算框架
C)提供面向特定类型的计算服务
D)分布式数据存取
204.[单选题]神经网络研究属于下列O学派
A)符号主义
B)连接主义
C)行为主义
D)都不是
205.[单选题]使用似然函数的目的是()。
A)求解目标函数
B)得到最优数据样本
C)找到最适合数据的参数
D)改变目标函数分布
206.[单选题]如果要将读写位置移动到文件开头,需要使用的命令是()。
A)close
B)seek(0)
C)truncate
D)write(1stuff')
207.[单选题]FusionInsightHD中LOader从SFTP服务器导入文件,如果不需要做编码转换和数据转
换且速度最快,选择下面哪个文件类型?
A)test_file
B)sequence_file
C)binary_file
D)graph_file
208.[单选题](_)在划分属性时是在当前结点的属性集合中选择一个最优属性。
A)AdaBoost
B)RF
C)Bagging
D)传统决策树
209.[单选题]以下哪些情景可以使用机器学习技术?O
A)记录过去一段时间内某移动运营商客户转移到竞争对手的案例
B)统计电商网站某类别商品在一定时间内的销量均值
C)统计某零售超市一个月内哪类牛奶的销量最大
D)为携程在线旅游公司的客户推荐度假产品
210.[单选题]下列不是数据科学项目的主要角色()。
A)项目发起人
B)项目经理
C)操作员
D)验收人员
211.[单选题]Python运算符中用来计算集合并集的是()。
A)l
B)&
Oll
D)+
212.[单选题]以下选项哪个是MapReduce正确的运行模型()
ʌ)Reduce-Map-Shuffie
B)Shuffle-Map-Reduce
C)Map-Shuff1e-Reduce
D)Map-Reduce-Shuffie
213.[单选题]下列哪一种命令格式是不正确的()
ʌ)get表行健列族
B)scan表时间戳起始行健结束行健
C)alter表列族
D)put表行键列族:列值
214.[单选题]关于计算机技术的描述以下正确的是,:
A)计算机是革命性技术
B)计算机早于工业革命时代诞生
C)计算机运行算法的时候跟CPU速度没关系
D)计算机不能用来收集数据
215.[单选题]下列不属于无监督学习方法的是O
A)K-means
B)线性降维
C)DBSCAN
D)支持向量机
216.[单选题]以下()属于DMM(数据管理成熟度模型)中的关键过程域"数据战略"。
A)数据战略制定
B)嘈业务术语表
C)数据质量评估
D)过程质量保障
217.[单选题]优化管理体系,实现管理模式从(_)向(_)转变,向各级组织和业务赋能。
A)数据化,业务化
B)平台化,集约化
C)条块化,共享化
D)纵向贯通,横向贯通
218.[单选题]namenode默认的WebUl访问端口号是()
A)50070
B)50060
C)50050
D)50040
219.[单选题]()选择成为支持向量机的最大变数
A)核函数
B)样本空间
C)模型
D)算法
220.[单选题]下列描述说法错误的是?O
A)SeCUreCRT是一款支持SSH的终端仿真程序,它能够在WindoWS操作系统上远程连接LinUX服务器执
行操作。
B)HadOoP是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及WindOWS系统上进行
安装使用。
C)VMware
D)SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。
221.[单选题]以下哪项用来分组()
A)ORDERBY
B)ORDEREDBY
C)GROUPBY
D)GROUPEDBY
222.[单选题]假设我们使用原始的非线性可分版本的SOft-SVM优化目标函数。我们可通过0来保证
得到的模型是线性可分离的。
A)C=O
B)C=1
C)C正无穷大
D)C负无穷大
223.[单选题]创建分支语句如下,CREATEORREPLACEPROCEDUREproccase,branch(pi_result
ininteger,pi_returnoutinteger)ASBEGINCASEpi_resultWHEN!THENpi_return;=
1:WHEN2THENpi_return:=3:WHEN3THENpireturn:5:WHEN6THENPi_return:-7:WHEN
7THENpi_return
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 维修厂房屋租赁合同范本
- 镀锌钢踏板采购合同范本
- 签了三方协议不用签合同
- 网络主播与公会合同范本
- 礼品定做合同协议书模板
- 精装房公寓出售合同范本
- 聘请临时足球教练协议书
- 空压机租赁服务合同范本
- 灯光学徒合同协议书模板
- 甲方解除劳动合同协议书
- 《药物竹罐疗法》医学课件
- 冬病夏治穴位贴敷技术备案表
- 图书登记表完整版本
- 2024中国南水北调集团新能源投资有限公司招聘笔试参考题库含答案解析
- 办公设备(电脑、一体机、投影机等)采购 投标方案(技术方案)
- 猪场技术员述职报告
- 上海春季高考英语真题试题word精校版(含答案)
- 上尿路感染教学查房
- 20道中国人民财产保险股份有限公司保险理赔员岗位常见面试问题含HR常问问题考察点及参考回答
- 水上光伏施工组织设计
- 读书分享读书交流会《全球通史》课件感
评论
0/150
提交评论