版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷50)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.Relief的时间开销随采样次数以及原始特征数(__)。A)线性增长B)指数型增长C)快速增长D)负增长答案:A解析:[单选题]2.()不是卷积神经网络的损失函数。A)sigmoidB)L1范数C)L2范数D)MSE答案:A解析:[单选题]3.numpy中矩阵转成向量使用什么函数?A)np.shape()B)np.resize()C)np.arange()D)np.random()答案:B解析:[单选题]4.下面属于批处理技术的是:()A)MapReduceB)StormC)SparkD)GraphX答案:A解析:[单选题]5.ETL过程包含四个模块:数据抽取、数据转换、()、和元数据管理。A)数据清洗B)数据处理C)数据装载D)数据转换答案:C解析:[单选题]6.下列对数据定义语言(DDL)描述正确的是()。A)DDL关心的是数据库中的数据B)完成数据的增删改查操作C)控制对数据库的访问D)定义数据库的结构答案:D解析:[单选题]7.下面不属于网络钓鱼行为的是:()A)黑客利用各种手段,可以将用户的访问引导到假冒的网站上B)以银行升级为诱饵,欺骗客户点击金融之家进行系统升级C)网购信息泄露,财产损失D)用户在假冒的网站上输入的信用卡号都进入了黑客的银行答案:C解析:[单选题]8.Hadoop平台中;要查看YARN服务中一个application的信息;通常需要使用什么命令A)containerB)applicationattermptC)jarD)application答案:D解析:[单选题]9.以下哪项属于DDL操作()A)updateB)createC)insertD)delete答案:B解析:[单选题]10.在有N个节点FusionInsightHD集群中部署HBase时,推荐部署答案:个HMaster进程,()个RegionServer进程?A)3,NB)N,NC)2,ND)2,2答案:C解析:[单选题]11.Redis中相对于AOF持久化,对RDB持久化描述正确的是()。A)会丢失最后一次持久化以后的数据B)内存占用过多,持久化文件尺寸较大C)占用较多的磁盘I0开支D)恢复数度相对较慢,写入数据相对较快答案:A解析:[单选题]12.查找数据库中所有的数据表用以下哪一项()A)SHOWDATABASEB)SHOWTABLESC)SHOWDATABASESD)SHOWTABLE答案:B解析:[单选题]13.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取的措施是()。A)增加数据点B)减少数据点C)增加特征D)减少特征答案:C解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。[单选题]14.对一幅100*100像素的图像,若像元用8bit表示灰度值,霍夫曼编码压缩后的图像数据量为40000bit,则图像压缩比例为()。A)2:1B)3:1C)4:1D)1:2答案:A解析:[单选题]15.Zookeeper启动时会最多监听几个端口()A)1B)2C)3D)4答案:B解析:[单选题]16.下列()选项属于Hive的数据存储模型。A)桶B)数据库C)分区D)以上全都正确答案:D解析:[单选题]17.下列Python文件模式中,不可写的模式是(___)。A)?r?B)?W?C)?a?D)?W+?答案:A解析:[单选题]18.万维网的实施国家是()A)英国B)美国C)德国D)印度答案:B解析:[单选题]19.关于刚N最近邻分类算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离值进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票,得到最后的分类类别正确的排序为()A)①③②④B)②④①③C)①②③④D)①②④③答案:C解析:[单选题]20.()数据中台技术能力主要包括数据接入、存储计算、数据分析、数据服务、数据资产管理和数据运营管理六个方面,以下哪些不属于结构化数据存储。A)分布式关系型数据库B)分析型数据库C)分布式文件系统D)分布式数据仓库答案:C解析:[单选题]21.Sparkjob默认的调度模式是()A)FIFOB)FAIRC)无D)运行时指定答案:A解析:[单选题]22.下列算法中属于局部处理的是A)灰度线性变换B)二值化C)傅立叶变换D)中值滤波答案:D解析:[单选题]23.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A)pigB)HBaseC)HiveD)MapReduce答案:C解析:[单选题]24.下面哪个变量命名是正确的A)123aB)abcC)$y6D)abc答案:D解析:[单选题]25.()是一种建立在Hadoop之上的数据仓库架构。A)HDFSB)FlumeC)SqoopD)Hive答案:D解析:[单选题]26.kNN最近邻方法在()情况下效果较好。A)样本较多但典型性不好B)样本呈团状分布C)样本呈链状分布D)样本较少但典型性好答案:D解析:[单选题]27.下列关于Matplotlib中绘图标准流程的说法错误的是()。A)绘制最简单的图形可以不用创建画布B)添加图例可以在绘制图形之前C)添加x轴、y轴的标签可以在绘制图形之前D)修改x轴标签、y轴标签和绘制图形没有先后答案:B解析:绘制图例需要在绘制图形之后。[单选题]28.下列关于大数据中计算机存储容量单位的说法中,错误的是A)基本存储容量单位是字节(Byte)B)汉字字符存储空间要大于英文字符存储空间C)一个英文字符需要2个字节的存储空间D)一个汉字字符需要2个字节的存储空间答案:C解析:[单选题]29.(__)不是遗传算法基本原则。A)适者生存B)突变C)两性繁衍D)进化答案:D解析:[单选题]30.下面哪种部署方式不是Spark集群部署方式()A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonlocal答案:D解析:[单选题]31.大数据时代,数据使用的关键是()。A)数据收集B)数据存储C)数据分析D)数据再利用答案:D解析:[单选题]32.CNN神经网络对图像特征提取带来了变革性的变化,使之前的人工特征提取升级到数据驱动的自动特征提取,在CNN中,起到特征提取作用的网络层是()。A)卷积层B)全连接层C)池化层D)采样层答案:A解析:卷积层负责提取特征,采样层负责特征选择,全连接层负责分类。[单选题]33.第三次技术大革命的标志性技术是:A)农耕技术与农业出现B)蒸汽工业技术与工业出现C)电子计算机网络技术D)量子技术与核能答案:C解析:[单选题]34.执行以下代码段t=(1,2,4,3)print(t[1:3])时,输出为()。A)(1,2)B)(1,2,4)C)(2,4)D)(2,4,3)答案:C解析:[单选题]35.例如数据库中有A表,包括学生,学科,成绩三个字段,数据库结构为学生学科成绩张三语文80张三数学100李四语文70李四数学80李四英语80如何统计每个学科的最高分()A)select学生,max(成绩)fromAgroupby学生;B)select学生,max(成绩)fromAgroupby学科;C)select学生,max(成绩)fromAorderby学生;D)select学生,max(成绩)fromAgroupby成绩;答案:B解析:[单选题]36.运行下面程序,可以获得两个数组元素匹配的位置的操作是()。输入:a=np.array([1,2,3,2,3,4,3,4,5,6])B=np.array([7,2,10,2,7,4,9,4,9,8])期望输出:(array([1,3,5,7]),)A)np.where(a!=b)B)np.where(a==b)C)np.where(a=b)D)np.where(a>b)答案:B解析:np.where()在只有一个参数时返回数值不为0元素的下标。294[单选题]37.()能反映出X和Y之间的强相关性A)相关系数为0.9B)对于无效假设,卢bO的p值为0.0001C)对于无效假设,?=O的t值为30D)以上说法都不对答案:A解析:[单选题]38.某公司财务总监在三季度总结会上的报告中,需要清晰地展示出本年累计净利润、营业额以及部门业绩合同的完成进度情况等,以下可视化图标中,他可以选择的是()A)仪表盘B)线形图C)矩阵块图D)雷达图答案:A解析:应用场景:直观展示KPI数值的组件,可直接显示所选字段的数值,比如展示销售额、毛利、毛利率等指标数值。[单选题]39.下面关于词袋模型的说法,错误的是()A)饲袋模型使用一个多重集对文本中出现的单词进行编码B)词袋模型不考虑词语原本在句子中的顺序C)词袋模型可以应用于文档分类和检索,同时受到编码信息的限制D)饲袋模型产生的灵感来源于包含类似单坷的文档经常有相似的含义答案:C解析:[单选题]40.对数值型输出,最常见的结合策略是()A)投票法B)平均法C)学习法D)排序法答案:B解析:[单选题]41.HBase中的Region是由哪个服务进程来管理的?A)HRegionServerB)ZookeeperC)HMasterD)DataNode答案:A解析:[单选题]42.以下属于数据统计分析工具的是A)NoSQLB)SQLC)SPSSD)MapReduce答案:C解析:[单选题]43.数据战略的侧重点是(__)。A)数据密集型问题B)计算密集型问题C)人才密集型问题D)模型密集型问题答案:A解析:[单选题]44.导入模块的方式错误的是()。A)importmoB)frommoimport*;C)importmoasmD)importmfrommo答案:D解析:from在import前,正确方式为frommoimportm。[单选题]45.下列选项中,()是唯一不在运行时发生的异常。A)ZeroDivisionErrorB)NameErrorC)SyntaxErrorD)KeyError答案:C解析:[单选题]46.Hadoop()中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并到输出。A)应用场景B)分布式计算C)分阶段计算D)高效处理答案:B解析:[单选题]47.对于Boosting算法描述错误的是()A)可将强学习器降为弱学习器B)从初始训练集训练基学习器C)对训练样本分布进行调整D)做错的训练样本多次训练答案:A解析:[单选题]48.大数据计算服务(MaxCompute,原ODPS)项目prj1中,用户owner创建表T1,通过ACL方式将读权限给用户U1(此前用户U1无项目空间prj1的任何权限),现在使用ACL授权U1可以通过select*fromprj1.T1来访问T1中的数据。接下来owner将表T1删除,重新创建一张新表,名字仍然叫T1,以下说法中正确的是:()。A)如果新建后的T1和原来的表T1表结构一致,则U1仍可以访问T1B)用户U1仍然可以访问表T1C)用户U1无法访问当前表T1D)如果新建后的T1和原来的表T1表结构、数据内容均一致,则U1仍可以访问T1答案:C解析:[单选题]49.一般情况下,若要提高Elasticsearch检索效率,可以采取什么操作?A)增加EsMaster节点B)使用Hive做底层存储C)调整索引分片数D)压缩索引答案:C解析:[单选题]50.在HBase中,过滤器顶层抽象类是()A)FilterB)FilterListC)WhileMatchFilterD)SkipFilter答案:A解析:[单选题]51.下列算法中属于图像平滑处理的是()。A)梯度锐化B)直方图均衡化C)中值滤波D)Laplacian增强答案:C解析:[单选题]52.下列算法中,()更适合做时间序列建模。A)CNNB)决策树C)LSTMD)贝叶斯算法答案:C解析:LSTM为长短时记忆网络,是一种时间递归神经网络。[单选题]53.如果想替换字符串指定字符使用字符串方法A)countB)replaceC)lowerD)upper答案:B解析:[单选题]54.以下()只有完全符合给定的判断条件才返回1。--A)带ANY关键字的子查询B)带ALL关键字的子查询C)带IN关键字的子查询D)以上答案都不正确答案:B解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.以下不能创建一个字典的语句是()A)dict3={[1,2,3]:"fighting"}B)dict3={(1,2,3):"fighting"}C)dict3={{1:1}:"fighting"}D)dict3={([1,6],2,3):"fighting"}答案:ACD解析:[多选题]56.下列关于spark中的RDD描述正确的有()A)RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象B)Resilient:表示弹性的,弹性表示C)Destributed:分布式,可以并行在集群计算D)Dataset:就是一个集合,用于存放数据的答案:ABCD解析:[多选题]57.大数据时代的五个无处不在,具体指的是()、服务无处不在。A)网络无处不在B)计算无处不在C)大数据无处不在D)软件无处不在答案:ABCD解析:[多选题]58.在mysql提示符下可以输入一个SQL语句,并以()结尾,然后按回车执行该语句()A)?\G?B)?。?C)?\g?D)?;?答案:ACD解析:[多选题]59.对于缺失值的处理,从总体上来说分为()A)删除元组B)直接复制上一行结果C)缺值补齐D)不处理答案:ACD解析:[多选题]60.下列哪种方法可以用来减小过拟合?()A)更多的训练数据B)L1正则化C)L2正则化D)减小模型的复杂度答案:ABCD解析:[多选题]61.可以确保x具有整数的选项有()。A)x=13//2B)x=13/2C)x=13%2D)x=13^2答案:ACD解析:[多选题]62.以下哪个聚类算法是属于基于原型的聚类()A)模糊C均值B)EM算法C)SOMD)CLIQUE答案:ABC解析:[多选题]63.关于数据科学中常用的机器学习知识,以下说法正确的是()A)决策树学习的本质是一种逼近离散值目标函数的过程B)深度学习可以划分为无监督学习深度网络和有监督学习深度网络C)分析学习是相对于归纳学习的一种想法,优点在于从稀缺的数据中学习D)增强学习中的Agent任务就是从有延迟的回报中学习?控制策略?,使得后续动作与真实环境间产生最小偏差答案:AC解析:[多选题]64.请问下面哪些是离散型变量()。A)示波器B)心电图及脑动电图扫描器对脑电波的测量C)过去数月的总销售额D)公司每年的红利答案:CD解析:在统计学中,变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量,如职工人数、工厂数、机,器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。离散变量的数值用计数的方法取得。[多选题]65.Numpy支持的统计函数有()。A)minB)maxC)medianD)mean答案:ABCD解析:这些都是Numpy支持的统计函数。[多选题]66.Spark容错性的方式有哪些()。A)数据检查点B)存储原始数据C)记录数据的更新D)自建数据版本答案:AC解析:[多选题]67.精准营销三要素是:A)人B)位置C)物D)性别答案:ABC解析:[多选题]68.关于MaxcomputePolicy授权的特点,说法正确的是:()。A)授权对象支持以通配符?*?B)删除一个对象时,与该对象相关的policy授权会被删除C)policy支持通过xml文件的方式授权D)当Allow和deny同时存在时,则以deny优先原则答案:AD解析:[多选题]69.下面属于数据科学主要研究内容的有(__)。A)理论基础B)数据加工C)数据计算D)数据产品开发答案:BCD解析:[多选题]70.下面属于维归约常用的线性代数技术的有:()A)主成分分析B)特征提取C)奇异值分解D)特征加权答案:AC解析:[多选题]71.关于Hadoop提供的计数器,下面说法正确的是()A)Hadoop默认使用了若干计数器,用户也可以自定义计数器B)在map和reduce函数中,可以通过API对计数器进行累加C)计数器是全局可见的D)计数器结果均需要在网络中传输答案:ABC解析:[多选题]72.公司组织制定《国家电网公司数据资产管理办法》是为了()A)贯彻落实公司党组决策部署B)规范公司数据资产管理C)充分挖掘数据资产价值D)推动公司精益管理和创新发展答案:ABCD解析:[多选题]73.在公安领域的大数据批量离线处理平台中,以下描述准确的是()A)不同的数据来源可以整理后划分实时数据、增量文件、全量文件和数据库等。B)数据来源可以按照结构或类型分为视频/图像数据、文本数据、数据库中数据等。C)数据来源包括公安系统、社会系统、互联网系统其他如运营商系统等。D)经过整理后的原始数据可以根据业务主题,分为基本信息、交往圈信息、轨迹信息、行为信息等存储。答案:ABCD解析:[多选题]74.决策树在()情况下会导致递归返回。A)当前节点包含的样本全属于同一类B)当前属性集为空C)当前节点包含的样本集合为空D)所有样本在所有属性上取值相同答案:ABCD解析:决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:①当前结点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前结点包含的样本集合为空,不能划分。[多选题]75.大数据交易平台的类型主要包括哪两种:()A)综合数据服务平台B)实时数据交易平时C)零散数据交易平台D)第三方数据交易平台答案:AD解析:[多选题]76.时间序列主要组成因素包括:()A)时间要素B)逻辑要素C)数据要素D)非变量答案:AC解析:[多选题]77.大数据离线批处理场景中常见的数据源包括?A)网页日志流B)流式数据Socket流C)数据库D)批量文件数据答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.MySQL中为所有字段插入记录时,省略字段名称,必须严格按照数据表结构插入对应的值。--A)正确B)错误答案:对解析:[判断题]79.我国互联网发展成就巨大,但是还没有进入融合创新期A)正确B)错误答案:错解析:[判断题]80.扩展库os中的方法remove()可以删除带有只读属性的文件。A)正确B)错误答案:错解析:[判断题]81.表达式4<5==5的值为True。()A)正确B)错误答案:对解析:[判断题]82.Hadoop提供的Mapper类是实现Map任务的一个抽象基类。A)正确B)错误答案:对解析:Hadoop提供的Mapper类是实现Map任务的一个抽象基类,该基类提供了一个map()方法,默认情况下,Mapper类中的map()方法是没有做任何处理的。[判断题]83.模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值A)正确B)错误答案:对解析:[判断题]84.大数据安全是信息安全专家的工作范畴,与普通人没有关系。A)正确B)错误答案:错解析:[判断题]85.数据中台汇聚数据类型包括结构化、非结构化、采集量测。A)正确B)错误答案:对解析:[判断题]86.实际开发中,目录操作需要使用os模块中的函数。()A)正确B)错误答案:对解析:[判断题]87.FusionlnsightHD的Hive中,用户自定义的UDF可以和Hive内置的UDF重名,这种情况下,将使用用户自定义的UDF。A)正确B)错误答案:错解析:[判断题]88.元组是不可变的,不支持列表对象的inset()、remove()等方法,也不支持del命令删除其中的元素,但可以使用del命令删除整个元组对象A)正确B)错误答案:对解析:[判断题]89.一旦MaxCompute项目空间保护打开(setsecurity.Projec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度整栋仓库出租承包及仓储服务合同4篇
- 2024版技术开发与转让合同具体内容
- 2025年度无人机航空拍摄服务合同3篇
- 2024版农业蔬菜大棚承包合同
- 2025年度体育健身充值卡销售与合作推广合同4篇
- 2025年度水电工程招投标代理服务承包合同集锦4篇
- 2025年度新型建筑材料代售合同协议范本4篇
- 2025年度商业地产资产保值增值顾问服务合同4篇
- 2025年度新能源企业代理记账与绿色金融合作合同4篇
- 2025年度智能窗帘系统承包安装与维护合同范本4篇
- 金蓉颗粒-临床用药解读
- 社区健康服务与管理教案
- 2023-2024年家政服务员职业技能培训考试题库(含答案)
- 2023年(中级)电工职业技能鉴定考试题库(必刷500题)
- 藏历新年文化活动的工作方案
- 果酒酿造完整
- 第4章-理想气体的热力过程
- 生涯发展展示
- 法治副校长专题培训课件
- 手术室应对突发事件、批量伤员应急预案及处理流程
- 动机-行为背后的原因课件
评论
0/150
提交评论