大数据理论考试(习题卷13)_第1页
大数据理论考试(习题卷13)_第2页
大数据理论考试(习题卷13)_第3页
大数据理论考试(习题卷13)_第4页
大数据理论考试(习题卷13)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据理论考试大数据理论考试(习题卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.大数据计算服务(MaxCompute,原ODPS)的MapReduce由多个步骤组成,以下()步骤不是必须的。A)combineB)shuffleC)mapD)reduce答案:C解析:[单选题]2.在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性()。A)互信息B)最大熵C)卡方检验D)最大似然答案:B解析:最大熵为寻找最优模型的方法,并不能度量相似性。[单选题]3.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A)sort()B)combiner()C)join()D)gather()答案:B解析:为了降低数据传递量,采用combiner()函数对map()函数的数据结果进行合并处理。[单选题]4.关于Sqoop的说法,不正确的是()A)主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作B)数据导入导出通过MapReduce完成C)Sqoop具备MapReduce的并行化和容错性D)Sqoop的Reduce操作速度更答案:D解析:sqoop是一个强大的工具,主要用来处理大量的数据传输,并不会影响Reduce的操作速度。[单选题]5.以下四个选项中,()是Spark的核心数据结构。A)弹性分布式数据集B)列表C)元组D)字典答案:A解析:弹性分布式数据集(RDD)是Spark的核心数据结构[单选题]6.一幅256*256(2^16)的图像,若灰度级数为16,则该图像的大小是:()A)128KB)32KC)1MD)2MB答案:B解析:二、多选题Web内容挖掘实现技术包括()文本总结文本分类文本机器学习关联规则下列关于TF-IDF模型的描述正确的有()TF是词频IDF是逆文本频率该模型基于统计方法在信息检索中应用较少图像处理中的去噪方法有()中值滤波均值滤波峰值滤波高值滤波三、[单选题]7.信息熵是度量()最常用的一种指标。A)样本的个数B)样本的维度C)样本的纯度D)样本的冗余答案:C解析:信息熵是度量样本纯度最常用的一种指标。[单选题]8.数据分析的第一步是()。A)探索性分析B)描述性分析C)诊断性分析D)规范性分答案:B解析:数据分析的步骤:描述性分析、诊断性分析、预测性分析、规范性分析。[单选题]9.输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后,得到的特征图尺寸是多少()A)28x28B)27x27C)29x29D)32x32答案:A解析:(32+0-5)/1+1=28。[单选题]10.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:()。A)模型预测准确率已经很高了,我们不需要做什么了B)模型预测准确率不高,我们需要做点什么改进模型C)无法下结论D)以上答案都不正确答案:C解析:类别不均衡的情况下,不能用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,此时分类器一点用都没有。[单选题]11.pyplot.pie()所画的图像是()。A)箱线图B)折线图C)直方图D)饼图答案:D解析:pyplot.pie()的作用是绘制饼图。[单选题]12.以下处理能获得像素级标注的是()。A)图像分类B)物体检测C)图像去噪D)语义分答案:D解析:语义分割通过对每个像素进行密集的预测、推断标签来实现细粒度的推理,从而使每个像素都被标记为其封闭对象矿石区域的类别,因此能够获得像素级标注。[单选题]13.关于混合模型聚类算法的优缺点,下面说法正确的是()。A)当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B)混合模型很难发现不同大小和椭球形状的簇C)混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布D)混合模型在有噪声和离群点时不会存在问题答案:C解析:K均值与模糊C均值,这两个方法都是迭代求取最终的聚类划分,即聚类中心与隶属度值。两者都不能保证找到问题的最优解,都有可能收敛到局部极值。模糊C均值是K均值方法的改进,算法的目标函数与K均值一致,区别在于目标函数中增加了模糊权重指数;GMM高斯混合模型聚类采用了新的判断依据--概率,即通过属于某一类的概率大小来判断最终的归属类别。[单选题]14.以下描述中错误的是()。A)数据科学中的?数据?不仅仅是?数值?,也不等同于?数值?B)数据科学中的?计算?包括数据的查询、挖掘、洞见等C)数据科学强调的是跨学科视角D)数据科学不包括?理论知识?,只包括?领域实务经验?答案:D解析:数据科学既包括?理论知识?,又包括?领域实务经验?。[单选题]15.大数据计算服务(MaxCompute,原ODPS)中的用户表dim_user是一张非分区表,另外有一部分新增用户的数据存在user_delta表中,两张表的结构相同,为了在dim_user表中得到全量的用户数据,可以采用()方式A)select*fromuser_delta、intodim_userB)insertintodim_userselect*fromuser_deltaunionallselect*fromdim_userC)insertoverwritetabledim_userselect*fromuser_deltaD)insertintotabledim_userselect*fromuser_delta答案:D解析:[单选题]16.为了允许支持向量机在一些样本上出错,引入()的概念。A)软间隔B)硬间隔C)间隔D)误答案:A解析:为了允许支持向量机在一些样本上出错,引入软间隔的概念。[单选题]17.MaxCompute中,A和B都是bigint类型,进行A/B运算,返回结果为:()。A)doubleB)intC)bigintD)float答案:A解析:[单选题]18.目前,多数NoSQL数据库是针对特定应用场景研发出来的,其设计遵循()原则,更加强调读写效率、数据容量以及系统可扩展性。A)EY原则B)READ原则C)BASE原则D)BASIC原则答案:C解析:BASE原则是BasicallyAvailable(基本可用)、SoftState(柔性状态)和EventuallyConsistent(最终一致)的缩写。BasicallyAvailable是指可以容忍系统的短期不可用,并不追求全天候服务;SoftState是指不要求一直保持强一致状态;EventuallyConsistent是指最终数据一致,而不是严格的实时一致,系统在某一个时刻后达到一致性要求即可。[单选题]19.DWS的stream算子不包括下列哪个:A)broadcastB)gatherC)redistributeD)has答案:D解析:[单选题]20.关系云的一个重要功能是提供()。A)数据库即服务B)虚拟服务C)弹性计算D)按需服务答案:A解析:关系云的一个重要功能是提供?数据库即服务(DatabaseasaService)?,用户无须在本机安装数据库管理软件,也不需要搭建自己的数据管理集群,而只需要使用服务提供商提供的数据库服务。[单选题]21.下列方法中,用于获取当前目录的是()。A)openB)writeC)GetpwdD)read答案:C解析:用于获取当前目录的方法是Getcwd。[单选题]22.下面哪个功能不是大数据平台安全管理组件提供的功能()。A)接口代理B)接口认证C)接口授权D)路由代理答案:D解析:接口可以对用户的身份和请求的参数进行验证,以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性,防止数据被篡改和信息泄露。[单选题]23.关于OLAP和OLTP的区别描述,不正确的是()。A)OL主要是关于如何理解聚集的大量不同的数据.它与OT应用程序不同。B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高。D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的答案:C解析:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。[单选题]24.不属于数据脱敏的要求的是()。A)双向性B)单向性C)无残留D)易于实现答案:A解析:数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏操作必须满足以下3个要求:单向性、无残留、易于实现。[单选题]25.对文本数据处理,通常采用()核函数。A)多项式核B)sigmoid核C)线性核D)拉普拉斯答案:C解析:对文本数据处理,通常采用线性核函数。[单选题]26.()试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模答案:D解析:线性模型试图学得一个属性的线性组合来进行预测的函数。[单选题]27.列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为()。A)FalseB)NoneC)TrueD)报错答案:B解析:列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为None。[单选题]28.下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。A)多项式的阶数B)是否通过矩阵求逆或梯度下降学习权重C)使用常数项D)使用正则化答案:A解析:选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。[单选题]29.下列不属于transform操作的是()A)mapB)filterC)sampleD)count答案:D解析:Transformation常用函数为map、filter、flatMap、sample、union、join等。[单选题]30.当Spark发生Shuffle时,MapTask的运算结果会通过()的形式把运算结果分发到对应的任务上去。A)序列化B)键值对C)二进制D)RD答案:B解析:[单选题]31.基于统计的分词方法为()。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)条件随机答案:D解析:第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描,这是基于词典分词的方法。1.正向最大匹配法,2.逆向最大匹配法,3.最少切分法:使每一句中切出的词数最小,这也是基于词典分词的方法。[单选题]32.Scipy的stats包中提供了产生连续性分布的函数,其中用于均匀分布的函数是()。A)normB)uniformC)betaD)geom答案:B解析:均匀分布是uniform。[单选题]33.下列选项中,用于触发异常的是()。A)tryB)catchC)raiseD)except答案:C解析:[单选题]34.以下关于break,continue说法正确的是()。A)continue语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环在循环中break的作用是终止当前循环结构的后续操作,一旦程序运行了break,循环也就终止了!B)break语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环,在循环中continue的作用是终止当前循环结构的后续操作,一旦程序运行了continue,循环也就终止了!C)break,continue语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环D)在循环中break,continue的作用是终止当前循环结构的后续操作,一旦程序运行了break循环也就终止了!答案:A解析:continue语句可以跳过循环的当前一步。[单选题]35.在Hive中一个查询语句执行后显示的结果为:2018081250;2018081332;20180814NULL,则最有可能的查询语句是()A)SELECTinc_day,count(task_no)FROM任务表WHEREinc_dayB)SELECTinc_day,count(task_no)FROM任务表WHEREinc_dayC)SELECTinc_day,count(task_no)FROM任务表WHEREinc_dayD)SELECTinc_day,count(task_no)FROM任务表HAVINGinc_day答案:B解析:[单选题]36.下列哪些项目是在图像识别任务中使用的数据扩增技术(dataaugmentationtechnique)()。1水平翻转(Horizontalflipping)2随机裁剪(Randomcropping)3随机放缩(Randomscaling)4颜色抖动(Colorjittering)5随机平移(Randomtranslation)6随机剪切(Randomshearing)A)1,3,5,6B)1,2,4C)2,3,4,5,6D)所有项答案:D解析:水平翻转、随机裁剪、随机放缩、颜色抖动、随机平移和随机剪切都是在图像识别任务中使用的数据扩增技术[单选题]37.下列方法中,能够返回某个子串在字符串中出现次数的是()。A)lengthB)indexC)countD)find答案:C解析:count能够返回某个子串在字符串中出现次数。[单选题]38.关于创建api,以下描述正确的是:()。A)创建api只能通过脚本模式创建B)创建api只能通过向导模式创建C)创建api可以通过脚本模式和向导模式两种方式创建D)以上说法均不正答案:C解析:[单选题]39.建立一个词典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A)[1,1,2,1,1,1,0]B)[1,1,2,1,1,1]C)[1,1,1,1,1,1,0]D)[1,1,1,1,1,1,1答案:A解析:向量中每个元素代表该词在句中出现的次数,比如to在句中出现两次,所以第3个元素应为2。[单选题]40.下列关于LSTM说法错误的是(__)。A)LSTM中存在sigmoid函数B)LSTM中存在tanh函数C)LSTM又称长短时记忆网络D)RNN是LSTM的变答案:D解析:LSTM在RNN基础上进行了改进,能够学习到长期依赖关系,因此是RNN的一个变种。[单选题]41.关于__name__的说法,下列描述错误的是()A)它是Python提供的一个方法B)每个模块内部都有一个__name__属性C)当它的值为?main?时,表示模块自身在运行D)当它的值不为?main?时,表示模块被引用答案:A解析:__name__是属于python中的内置类属性[单选题]42.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,如何花费更少的时间,并给出比较相似的精度()。A)降低学习率,减少迭代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次答案:D解析:如果在训练时减少迭代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。[单选题]43.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A)暂时隔离B)暂时删除C)永久删除D)不作处理答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。[单选题]44.下列关于Kafka描述正确的是()?A)数据实时传输,没有延迟B)不支持物联网传感数据直接接入C)可以实现全局消息有序D)监控完善,可以独立监答案:B解析:[单选题]45.下列哪个神经网络结构会发生权重共享(__)。A)卷积神经网络B)循环神经网络C)全连接神经网络D)选项A和答案:D解析:CNN与RNN网络会发生权重共享。[单选题]46.机器学习算法在学习过程中对某种类型假设的偏好,称为()。A)训练偏好B)归纳偏好C)分析偏好D)假设偏答案:B解析:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。[单选题]47.一篇文章中某些名词的TF-IDF值比较大,则说明()。A)这些名词对这篇文章的区分度比较高B)这些名词对这篇文章的区分度比较低C)不能说明什么D)以上答案都不正答案:A解析:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。名词的TF-IDF值越大说明这些名词对这篇文章的区分度越高。[单选题]48.()是利用样本的实际资料计算统计量的取值,并以引来检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法A)假设检验B)逻辑分析C)方差分析D)回归分答案:A解析:假设检验,又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。[单选题]49.以下关于异常处理的描述,正确的是()。A)try语句中有except子句就不能有finally子句B)Python中,可以用异常处理捕获程序中的所有错误C)引发一个不存在索引的列表元素会引发NameError错误D)Python中允许利用raise语句由程序主动引发异常答案:D解析:try语句中有except子句可以有finally子句,不用异常处理捕获程序中的所有错误,引发一个不存在索引的列表元素会引发lisindeoutError。[单选题]50.数据科学是一门以()为主要研究任务的独立学科。A)?数据驱动??数据业务化??数据洞见??数据产品研发?和(或)?数据生态系统的建设?B)数据研发C)数据处理D)数据洞见答案:A解析:数据科学是一门以实现?从数据到信息?、?从数据到知识?和(或)?从数据到智慧?的转化为主要研究目的的,以?数据驱动?、?数据业务化?、?数据洞见?、?数据产品研发?和(或)?数据生态系统的建设?为主要研究任务的独立学科。[单选题]51.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值为()。A)[[1,2,1],[4,5,4]]B)[[4,5,4],[4,5,4]]C)[[4,5,4],[1,2,1]]D)以上答案都不正确答案:D解析:列表不能和数字相加,因此会报错。[单选题]52.对于随机森林和GBDT,下面说法正确的是()。A)在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D)GB训练模型的表现总是比随机森林答案:B解析:组成随机森林的树可以并行生成;而GBDT只能是串行生成[单选题]53.回归方程判定系数的计算公式R^2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A)式中的SSE指残差平方和B)式中的SSR指总离差平方和C)判定系数用来衡量回归方程的扰合优度D)判定系数R^2等于相关系数的平方答案:B解析:SSR指回归平方和。[单选题]54.以下哪些算法是基于规则的分类器()。A)C4.5B)KNNC)NaiveBayesD)AN答案:A解析:基于规则的分类器有决策树、随机森林、Aprior。[单选题]55.当训练样本近似线性可分时,通过(),学习一个()。A)硬间隔最大化线性可分支持向量机B)软间隔最大化线性支持向量机C)硬间隔最大化线性支持向量机D)软间隔最大化非线性支持向量机答案:B解析:当训练样本近似线性可分时,通过软间隔,学习一个最大化线性支持向量机。[单选题]56.下列常用模块功能描述错误的是()。A)datetime:datetime对象不可将日期对象格式化为可读字符串的方法B)json:JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式C)sys:这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数D)scipy:应用广泛的科学计算包答案:A解析:strftime()是datetime库将日期对象格式化为可读字符串的方法。[单选题]57.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。A)中值滤波B)均值滤波C)最大值滤波D)最小值滤答案:A解析:中值滤波对图像椒盐噪声的滤波效果最好。[单选题]58.下列哪个程序通常与NameNode在一个节点启动()A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker答案:D解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。JobTracker对应于NameNode。TaskTracker对应于DataNode。DataNode和NameNode是针对数据存放来而言的,JobTracker和TaskTracker是对于MapReduce执行而言的。[单选题]59.下面关于HiveSQL的内外表使用正确的是()A)在/tmp/path创建外表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';B)在/tmp/path创建外表:CREATETABLE...;C)创建内表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';D)创建内表:CREATEEXTERNALTABLE...答案:A解析:[单选题]60.Spark中引入RDD概念的目的是()。A)数据存储B)数据查重C)提升容错能力D)增强数据一致答案:C解析:在Spark中引入RDD概念的目的是实现Spark的并行操作和灵活的容错能力。[单选题]61.以下说法正确的是:()。1.一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.如果增加模型复杂度,那么模型的训练错误率总是会降低A)1B)2C)3D)1and答案:C解析:如果增加模型复杂度,那么模型的测试错误率总是会降低,训练错误率可能降低,也可能增高。[单选题]62.异常检测过程查找基于()组标准值偏差的异常个案。A)单体B)分类C)聚类D)回答案:C解析:异常检测?过程查找基于聚类组标准值偏差的异常个案。该过程设计为在探索性步骤中,快速检测到用于数据审核的异常个案,并优先于任何推论性数据分析。[单选题]63.Python中用于生成随机数的模块是random,以下描述错误的是()。A)random.random():生成一个0-1之间的随机浮点数B)random.uniform(a,b):生成[a,b]之间的浮点数C)random.randint(a,b):生成[a,b]之间的整数D)random.choice(sequence):随机生成任意一个整数答案:D解析:random.choice(sequence)函数用来从给定的序列中随机采样。[单选题]64.关于数据清洗,不正确的说法是()。A)单数据源,主键取值不能重复B)多数据源会存在数据重复,单位不一致的问题C)连续型数据不存在冗余问题D)缺失值可以采用删除和填补等方法处理答案:C解析:连续型数据可能存在冗余问题。第2部分:多项选择题,共22题,每题至少两个正确答案,多选或少选均不得分。[多选题]65.Hadoop框架的缺陷有()。A)MR编程框架的限制;B)过多的磁盘操作,缺乏对分布式内存的支持;C)无法高效支持迭代式计算;D)不支持多用户写入并任意修改文件;答案:ABCD解析:以上四项都为Hadoop的缺点。[多选题]66.Spark的部署模式包括()。A)本地模式B)standalone模式C)SparkonyarnD)mesos模式答案:ABCD解析:spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置standalone模式运行。[多选题]67.对于大数据计算服务(MaxCompute,原ODPS)内置绝对值函数abs描述正确的有:()。A)当输入参数是bigint时,返回值是bigint类型B)当输入参数是string类型时,一定会导致异常C)输入类型是boolean则返回值是TrueD)当输入参数是double时,返回值是double类型答案:AD解析:[多选题]68.一个监督观测值集合会被划分为()。A)训练集B)验证集C)测试集D)预处理答案:ABC解析:一个监督观测值集合会被划分为训练集、测试集、预测集。其中测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testingerror)作为泛化误差的近似。[多选题]69."噪声"是指测量变量中的随机错误或偏差,噪声数据的主要表现有那几种形式()A)错误数据B)假数据C)异常数据D)僵尸数据答案:ABC解析:错误数据、假数据、异常数据在测量变量中多被定义为噪声。[多选题]70.以下哪层是卷积神经网络的组成部分。A)卷积层B)中间层C)池化层D)全连接层答案:ACD解析:卷积神经网络的组成部分不包括中间层。[多选题]71.大数据的资产属性体现在()。A)具有劳动增值B)涉及法律权属C)具有财务价值D)涉及道德与伦理答案:ABCD解析:大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。[多选题]72.下面关于单样本Z检验的说法,正确的是()。A)在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B)单样本Z检验适用于样本量较大的情况C)单样本Z检验假设要检验的统计量(近似)满足正态分布D)单样本Z检验常用于检验总体平均值是否等于某个常量答案:BCD解析:在Python中,单样本Z检验可以使用statsmodels.stats.weightstats.ztest实现。[多选题]73.在BP网络中,常用于缓解其过拟合的策略有()。A)早停策略B)正则化策略C)全局最小策略D)局部最小策答案:AB解析:通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping):将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。[多选题]74.Spark2.0提供的应用库包括()。A)SparkSQLB)SparkStreamingC)MLibD)GraphX答案:ABCD解析:Spark2.0提供的应用库包括SparkSQL、SparkStreaming、MLib、GraphX。[多选题]75.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。A)精确性B)可辨认性C)可分离性D)视觉突出性答案:ABCD解析:在数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。1)精确性代表的是人类感知系统对于可视化编码结果和原始数据之间的吻合程度。斯坦福大学Mackinlay曾于1986年提出了不同视觉通道所表示信息的精确性2)可辨认性是指视觉通道的可辨认度。3)可分离性是指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性。4)视觉突出性是指视觉编码结果能否在很短的时间内(如毫秒级)能够迅速准确表达出可视化编码的主要意图。[多选题]76.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A)ClientB)JobTrackerC)TaskTrackerD)HDFS答案:ABCD解析:可以将MapReduce的工作流程概括为4个独立的实体①客户端,用来提交MapReduce的作业。编写MapReduce程序,配置作业,提交作业,程序员完成的工作。②JobTracker,用来协调作业的运行。与TaskTracker通信,协调整个作业的执行③TaskTracker,用来处理作业划分后的任务。保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要方面,就是在执行任务时候TaskTracker可以有n多个,JobTracker则只会有一个④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配置信息等等,最后的结果也是保存在hdfs上面。[多选题]77.ElasticSearch支持的gateway类型有?A)AmazonS3B)本地文件系统C)HDFSD)AmazonS5答案:ABCD解析:[多选题]78.非频繁模式()。A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感答案:AD解析:非频繁模式,是一个项集或规则,其支持度小于阈值。绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及到数据中的负相关时。它对异常数据项敏感。[多选题]79.在金融领域的大数据批量离线处理平台中,以下描述准确的是?A)金融领域的外部数据来源可以是征信信息、社交网络和电商等。B)在数据集成模块,可以分为数据采集、数据操控和数据加载3个阶段。C)金融领域的内部数据来源均是结构化数据,包括信贷数据、信用卡数据和收单数据等、D)金融领域的数据应用层面均是面向金融机构内部的,如监管报表系统,精准营销BI应用等,完全不对外或对其他下属机构开放答案:AB解析:[多选题]80.API网关是:华为云提供的一个API托管的应用服务,API网管包括的功能有:()。A)API全生命周期的管理B)权限控制C)访问控制D流量控D)PI网关是:华为云提供的一个API托管的应用服务,API网管包括的功能有:()。A、API全生命周期的管理B、权限控制C、访问控制D流量控答案:ABCD解析:[多选题]81.下面关于随机变量及其概率分布的说法,正确的是()。A)随机变量可以分为离散型随机变量和连续型随机变量B)随机变量的概率分布指的是一个随机变量所有取值的可能性C)扔5次硬币,正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的D)扔5次硬币,正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数为5的概率是最大的答案:ABC解析:扔5次硬币,正面朝上次数的可能取值是0,1,2,3,4,5,其中正面朝上次数为5的概率不是最大的。[多选题]82.分布式列式存储的功能有()。A)支持在线快速读写B)支持线性扩展C)具备节点监控管理D)数据同源不压缩答案:ABC解析:分布式列式存储的功能包括数据压缩。[多选题]83.可视分析学是一门以可视交互为基础,综合运用()等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理学科。A)物理学B)图形学C)数据挖掘D)人机交互答案:BCD解析:可视分析学(VisualAnalytics):科学可视化和信息可视化理论的进一步演变以及与其他学科相互交融发展之后的结果。在数据科学中,通常采用数据可视化的广义定义方法,并以可视分析学为主要理论基础。[多选题]84.下列关于spark中的RDD描述正确的有()。A)RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象;B)Resilient:表示弹性的;C)Destributed:分布式,可以并行在集群计算;D)Dataset:就是一个集合,用于存放数据的;答案:ABCD解析:关于spark中的RDD描述正确的有RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象;Resilient:表示弹性的;Destributed:分布式,可以并行在集群计算;Dataset:就是一个集合,用于存放数据的。[多选题]85.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及哪些操作()。A)合并B)排序C)分区D)抽样答案:ABC解析:分别涉及Shuffle(排序)、combiner(合并)和partition(分区)操作。[多选题]86

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论