大数据开发基础(习题卷12)_第1页
大数据开发基础(习题卷12)_第2页
大数据开发基础(习题卷12)_第3页
大数据开发基础(习题卷12)_第4页
大数据开发基础(习题卷12)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷12)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Hive创建()时,会将数据移动到数据仓库指向的路径;创建(),仅记录数据所在的路径,不对数据的位置做任何改变A)内部表.外部表B)内部表.元数据C)原元数据.外部表D)外部表.托管表答案:A解析:[单选题]2.在Zookeeper中,路径由()字符串构成。A)UnicodeB)UTF-8C)GBKD)ASCII答案:A解析:[单选题]3.Apriori算法的核心思想是()A)通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集B)通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集C)数据集中包含该项集的数据所占数据集的比例,度量一个集合在原始数据中出现的频率D)若某条规则不满足最小置信度要求,则该规则的所有子集也不满足最小置信皮要求答案:B解析:[单选题]4.高通滤波后的图像通常较暗,为改善这种情况,将高通滤波器的转移函数加上一常数量以便于引入一些低频分量。这样滤波器叫()。A)巴特沃斯高通滤波器B)高频提升滤波器C)高频加强滤波器D)理想高通滤波器答案:B解析:[单选题]5.下列算法中属于点处理的是A)梯度锐化B)二值化C)傅立叶变换D)中值滤波答案:B解析:[单选题]6.SQL语言是()语言A)层次数据库B)网络数据库C)关系数据库D)非数据库答案:C解析:[单选题]7.关于Python中的复数,下列说法错误的是A)表示复数的语法是real+imagejB)实部和虚部都是浮点数C)虚部必须后缀j,且必须是小写D)方法conjugate返回复数的共轭复数答案:C解析:[单选题]8.语句x=input()执行时,如果从键盘输入12并按回车键,则x的值是()。A)12B)12.00C)1e2D)'12'答案:D解析:[单选题]9.对于分类任务来说,在所有相关概率都已知的理想情形下,(__)考虑如何基于这些概率和误判损失来选择最优的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯决策论答案:D解析:[单选题]10.下列关于Map/Reduce并行计算模型叙述正确的一项为()。A)Map/Reduce把待处理的数据集分割成许多大的数据块B)大数据块经Map()函数并行处理后输出新的中间结果C)reduce()函数把多任务处理后的中间结果进行汇总D)reduce阶段的作用接受来自输出列表的迭代器答案:C解析:[单选题]11.k近邻算法在()的情况下效果较好。A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:k近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。[单选题]12.以下哪项不属于数据挖掘的内容?()A)补充与完善路网属性B)多维分析统计用户出行规律C)高德地图导航有躲避拥堵功能D)建立道路拥堵概率与拥堵趋势变化模型答案:C解析:[单选题]13.不良信用记录会在征信系统里保存()年A)1B)3C)5D)10答案:C解析:[单选题]14.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:A)1比特B)2.6比特C)3.2比特D)3.8比特答案:B解析:[单选题]15.以下()属于DMM(数据管理成熟度模型)中的关键过程域"数据战略"。A)数据战略制定B)嘈业务术语表C)数据质量评估D)过程质量保障答案:A解析:[单选题]16.ADS中,对批量导入的表,()分区模式是可取的。A)list+listB)list+hashC)hash+hashD)hash+list答案:D解析:[单选题]17.以下现象不能直接通过低通滤波器解决的是()。A)低分辨率文本图像中出现的字符断裂问题B)指纹图像中的去污染问题C)人脸图像中需要?美容?的去皱纹问题D)遥感图像中的扫描线滤除问题答案:B解析:[单选题]18.物联网(IoT,InternetofThings)即?物物相连的互联网?,是()向物理世界的渗透、拓展和延伸。A)物理理论B)信息世界C)互联网D)能源互联网答案:C解析:[单选题]19.如果训练一个RNN网络时发现权重与激活值都是NaN,则导致这个问题最有可能的原因是()。A)梯度消失B)梯度爆炸C)ReLU函数作为激活函数g(),在计算g(z)时,z的数值过大了D)Sigmoid函数作为激活函数g(),在计算g(z)时,z的数值过大了答案:B解析:训练过程中出现梯度爆炸会伴随一些细微的信号,如:①模型无法从训练数据中获得更新(如低损失);②模型不稳定,导致更新过程中的损失出现显著变化;③训练过程中,模型损失变成NaN。[单选题]20.以下对于概率图模型的叙述,错误的是:A)动态贝叶斯网是结构最简单的隐马尔科夫模型B)概率图模型可分为有向图模型和无向图模型C)概率图模型可分为贝叶斯网和马尔可夫网D)隐马尔科夫模型是一种著名的有向图模型,主要用于时序数据建模答案:A解析:[单选题]21.(__)是指能够通过数据来帮助用户实现其某一个目标的产品。A)数据产品B)电子产品C)数据系统D)电子系统答案:A解析:[单选题]22.一个属性具有n个可取值,对该属性进行onehot编码至少需要()位二进制进行表示A)2nB)2的n次方C)nD)n的平方答案:C解析:[单选题]23.使用pip工具查看当前已安装的Python扩展库的完整命令是()。A)pipupdateB)piplistC)pipinstallD)pipshowall答案:B解析:使用pip工具查看当前已安装的Python扩展库的完整命令piplist。[单选题]24.如果想按照空格分隔字符串则使用A)lenB)splitC)lowerD)upper答案:B解析:[单选题]25.以下哪个选项是目前利用大数据分析技术无法进行有效支持的?A)新型病毒的分析判断B)精确预测股票价格C)个人消费习惯分析及预测D)天气情况预测答案:B解析:[单选题]26.SQL中UNIQUE唯一索引的作用是()A)保证各行在该索引上的值都不得重复B)保证各行在该索引上的值不得为NULLC)保证参加惟一索引的各列,不得再参加其他的索引D)保证惟一索引不能被删除答案:A解析:[单选题]27.Storage模块负责了Spark计算过程中所有的(__)。A)运算B)存储C)编程D)编译答案:B解析:[单选题]28.未来二十年就是()为王的时代。A)文化B)工业C)数据D)农业答案:C解析:[单选题]29.池化层的作用是()。A)标准化处理输入特征B)对特征图进行特征选择和信息过滤C)对提取的特征进行非线性组合以得到输出D)直接输出每个像素的分类结果答案:B解析:[单选题]30.通过线条起伏展示数据变化,并通过面积渲染引起对总值关注的图表是?()A)折线图B)面积图C)双轴图D)瀑布图答案:B解析:[单选题]31.以下风险管理工作,哪些可运用大数据实现?A)贷款催收B)凭证审阅C)风险模型预警D)以上都是答案:D解析:[单选题]32.HDFS中的主备仲裁,是由:()组件控制的。A)ZookeeperFailoverControllerB)NodeManagerC)ResourceManagerD)HDFSClient答案:A解析:[单选题]33.print()是通过参数()来设定以什么结尾。A)objectsB)sepC)endD)file答案:C解析:[单选题]34.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A)0.82B)0.64C)0.8D)0.7答案:C解析:一元回归分析中,自变量和因变量的相关系数的平方等于回归模型的判定系数。所以,相关系数=sqrt(0.64)=0.8。[单选题]35.我们常提到的"Window装个VMware装个Linux虚拟机"属于()A)内存虚拟化B)存储虚拟化C)系统虚拟化D)网络虚拟化答案:C解析:[单选题]36.下列有关Hive和Impala的对比错误的是()。A)Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B)Hive与Impala使用相同的元数据C)Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D)Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此答案:D解析:[单选题]37.在Hive的条件语句中,?and?连接两个表达式,如果其中一个表达式结果为true,另一个表达式结果为false,则计算结果为()A)TRUEB)FALSEC)nullD)以上都不正确答案:B解析:[单选题]38.Loader作业运行前后,需要保证哪些节点与外部数据源通讯?A)Loader进程所在的节点B)运行MapReduce作业的节点C)前面两个都需要D)前面两个都不需要答案:C解析:[单选题]39.数组允许批量计算而无须任何for循环,这种特性叫(__)。A)矩阵化B)便捷化C)批量化D)向量化答案:D解析:[单选题]40.当使用的Hive是2.x之后的版本时,那么就必须手动初始化元数据库。若是我们使用Hive默认的dB、类型?derby?,那么我们应该使用()命令进行初始化。A)schematool‐dbTypederby‐initSchemaB)schematool‐Typederby‐initSchemaC)schema‐dbTypederby‐initSchemaD)schema‐Typederby‐initSchema答案:A解析:[单选题]41.以下()选项用于为视图数据操作设置检查条件。--A)WITHCHECKOPTIONB)ASC)SQLSECURITYD)ALGORITHM答案:A解析:[单选题]42.()与HDFS类似,均为分布式文件系统。A)NTFSB)FAT32C)GFSD)EXT3答案:C解析:GFS也是分布式文件系统。[单选题]43.某企业使用ADS做数据分析,其中部分数据来源于Maxcompute。技术人员在使用LOADDATA命令从Maxcompute加载数据到ADS的过程中,碰到如下错误信息:ERROR1105(HY000):Youarenottheownerofthesourcetable,最有可能出错的原因是:()。A)源表不存在B)ADS的用户garuda_build@没有对源表的操作权限C)Maxcompute的用户garuda_build@没有对源表的操作权限D)源表中没有数据,为空表答案:C解析:[单选题]44.()是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。A)数据治理B)数据战略C)数据加工D)数据能力答案:B解析:[单选题]45.信息技术发展史上的第二次信息化浪潮发生在().A)1950年前后B)1980年前后C)1995年前后D)2010年前后答案:C解析:[单选题]46.Scipy库不包含()功能。A)线性代数模块B)傅里叶变换C)信号和图像图例D)提供机器学习等算法答案:D解析:Scipy库包括了统计、优化、整合以及线性代数模块、傅里叶变换、信号和图像图例,常微分方差的求解等。[单选题]47.可以从foohs2019bar提取hs2019的正确语句是A)selectregexp_replace('foohs2019bar','hs[0-9]{3}','')B)selectregexp_replace('foohs2019bar','hs[0-9]{4}','')C)selectregexp_extract('foohs2019bar','(hs[0-9]{4})',0)D)selectregexp_extract('foohs2019bar','(hs[0-9]{4})',1)答案:D解析:[单选题]48.图像分割是(__)的过程。A)改变图像大小B)将图像分成多个小区域C)去除干扰信号D)使图像变得更加丰富答案:B解析:[单选题]49.重点围绕营配贯通和()体系变革两条主线,打破专业壁垒,打造业务中台A)优化客户服务B)多维精益管理C)营销服务D)计量计费答案:B解析:[单选题]50.OTS的一些表中存在冷数据和热数据的区分,所谓冷数据是指根据时效性判断被查询的可能性不大的数据,反之为热数据。下面关于冷热数据的说法,错误的是:()。A)可以用不同的表来区分冷热数据,并设置不同的预留读写吞吐量B)表中存在大量冷数据会导致数据访问压力不均匀,从而导致表上配置的预留读写吞吐量无法被充分利用C)按照冷热数据拆分成不同的表后,可对冷数据对应的表设置较小的预留读写吞吐量D)在同一张表可以对不同的分片设置不同的预留读写吞吐量,对于冷数据所在的片,设置较低的预留读写吞吐量答案:D解析:[单选题]51.np.multiply([[1,2,3],[1,2,3],[1,2,3]],[[2,1,1],[2,1,1],[2,1,1]])的结果是多少?A)[[1266][1266][1266]]B)[[211][211][211]]C)[[223][223][223]]D)[[123][123][123]]答案:C解析:[单选题]52.依据国网公司数据管理办法,()是用来描述公司核心业务实体的数据,是各业务应用和各系统之间进行信息交互的基础。A)基础数据B)数据标准C)参考数据D)主数据答案:D解析:[单选题]53.下列关于F1值的计算正确的是(__)。A)F1值=正确率*召回率*/(正确率+召回率)B)F1值=正确率*召回率*2/(正确率+召回率)C)F1值=正确率*2/(正确率+召回率)D)F1值=召回率*2/(正确率+召回率)答案:B解析:[单选题]54.关于FusionInsightManager,说法错误的是?A)NTPsever/client负责集群内各节点的时钟同步B)通过FusionInsightManager,可以对HDFS进行启停控制、配置参数C)FusionInsightManager所有维护操作只能够通过WebUI来完成,没有提供Shell维护命令D)通过FusionInsightManager,可以向导式安装集群,缩短集群部署时间答案:C解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.深度学习方法不适用于的场景有()。A)数据样本充足B)数据样本不足C)数据集具有局部相关特性D)数据集没有局部相关特性答案:BD解析:以下数据集不适合用深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势。②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。[多选题]56.云计算的主要优点是:()A)初期投入大,需要用户自己维护B)初期零成本,瞬时可获C)后期免维护,使用成本低D)在供应IT资源量方面?予取予求?答案:BCD解析:[多选题]57.大数据在金融领域的应用主要包括:()A)髙频交易B)市场情析C)信贷风析D)大数据征信答案:ABCD解析:[多选题]58.在Hive架构中支持对数据的操作有()。A)插入B)查询C)删除D)分析答案:BD解析:[多选题]59.常用来缓解BP网络的过拟合的两种策略是()A)晚停B)早停C)正则化D)加入损失函数答案:BC解析:[多选题]60.目前LSTM已经应用到()领域。A)自然语言处理B)语音识别C)图像标注D)发动机答案:ABC解析:[多选题]61.如果请你在DEEP平台中,根据既有数据进行未来天气的预测,将会采用线性回归模型,将会用到哪几个数据转换器?A)NumericCastB)NumAssembleC)ChoiceD)Predict答案:BD解析:[多选题]62.类的特点有()。A)封装B)继承C)多态D)重复答案:ABC解析:类的特点:封装、继承、多态。[多选题]63.下面不属于探索性统计中常用数据分布统计量的是(__)。A)残差B)偏态C)峰态D)众数答案:AD解析:[多选题]64.常用的冲突消解策略包括()A)投票法B)排序法C)元规则法D)调研法答案:ABC解析:[多选题]65.当不知道数据所带标签时,下面哪些技术不能促使带同类标签的数据与带其他标签的数据相分离?()A)分类B)聚类C)关联分析D)隐马尔可夫链答案:ACD解析:[多选题]66.下列关于Ridge回归的说法,正确的是()。A)若λ=0,则等价于一般的线性回归B)若λ=0,则不等价于一般的线性回归C)若λ=+∞,则得到的权重系数很小,接近于零D)若λ=+∞,则得到的权重系数很大,接近与无穷大答案:AC解析:Ridge回归中,若λ=0,则等价于一般的线性回归;若λ=+∞,则得到的权重系数很小,接近于零。[多选题]67.MapReDuce更适合以下哪种大数据处理业务A)ETLB)迭代挖掘算法C)图挖掘算法D)统计答案:AD解析:[多选题]68.下列关于数据生命周期管理的核心认识中,对的是()A)数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B)在不同的数据存在阶段,数据的价值是不同的C)根据数据价值的不同应该对数据采取不同的管理策略D)数据生命周期管理旨在产生效益的同时,降低生产成本、数据生命周期管理最终关注的是社会效益答案:ABC解析:[多选题]69.数据资产维护应详细记录(),以备查验。A)维护时间B)内容C)原因及结果D)责任人答案:ABCD解析:[多选题]70.大数据计算服务中关于tunnel命令行工具的说法,正确的是:()。A)tunnel上传到分区表时,会把数据直接上传到指定的分区中去,不保证业务逻辑B)tunnel命令上传文件时,不能进行压缩C)tunnel上传的数据是先写到临时目录,最后确定成功后才写到结果目录D)tunnel上传过程中不加密,数据以明文方式在网络中传输答案:AC解析:[多选题]71.在模型评估与度量的方法中,下列描述正确的是(__)。A)在留出法中,如果从采样的角度来看待数据集划分的过程,则保留类别比例的采样方式通常称为分层采样B)通常,我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。C)我们需要一个测试集来测试学习器对新样本的判别能力D)测试样本不可从样本真实分布中独立同分布采样而得答案:ABC解析:[多选题]72.为了保证应用获得可预期的性能,需要设置OTS表的()。A)预留存储空间B)预留处理内存C)预留写吞吐量D)预留读吞吐量答案:CD解析:[多选题]73.Hadoop集群的整体性能主要受到什么因素影响?A)CPU性能B)内存C)网络D)存储容量答案:ABCD解析:[多选题]74.下列关于Python中的列表和字典的说法正确的有()。A)字典和列表都可以通过?[]?操作符访问元素的值B)列表的索引必须是整型数或者切片C)字典不过是列表的另一个名字,二者没有区别D)字典的长度是动态的,而列表的长度是固定的答案:AB解析:字典与列表有区别,长度均为动态。[多选题]75.关于HDFS的文件写人,正确的是()。A)不支持多用户对同一文件的写操作B)用户不可以在文件任意位置进行修改C)默认将文件复制成三份存放D)复制的文件块默认不存在同一机架上答案:ABCD解析:[多选题]76.下列选项中,在Reducer类的run()方法中定义的三个方法有()。A)setup()B)reduce()C)cleanup()D)map()答案:ABC解析:[多选题]77.对于Maxcompute项目空间的描述,正确的是:()。A)一个用户可以拥有多个项目空间的权限B)所有的对象都会属于某个项目空间C)通过安全授权,可以在一个项目空间中访问另一个项目空间D)一个帐号可以创建多个项目空间,最多不能超过10个答案:ACD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.Python3A)正确B)错误答案:错解析:[判断题]79.()UPDATE语句修改的是表中数据行中的数据,也可以修改表的结构。A)正确B)错误答案:错解析:[判断题]80.表达式chr(ord('A')+2)的值为'A+2'。A)正确B)错误答案:错解析:[判断题]81.表达式sum(range(10))的值为10。A)正确B)错误答案:错解析:[判断题]82.两次指数平滑法有多期预测能力,短期预测效果较好。()A)正确B)错误答案:错解析:[判断题]83.谷歌流感趋势充分体现了数据重组额扩展对数据价值的重要意义。A)正确B)错误答案:错解析:[判断题]84.使用内置函数open()且以?w?模式打开的文件,文件指针默认指向文件尾。A)正确B)错误答案:错解析:[判断题]85.Loader仅支持关系型数据库与HadoopHBase之间的数据的导入和导出。A)正确B)错误答案:错解析:[判断题]86.Series和DataFrame都支持切片操作。()A)正确B)错误答案:对解析:[判断题]87.已知f=lambda

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论