能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题)_第1页
能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题)_第2页
能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题)_第3页
能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题)_第4页
能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题)_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1能源大数据应用开发技能竞赛理论考试题库-下(多选、判断题汇总)多选题1.在选择高斯函数作为核函数的支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则可能导致该结果的原因有()。A、其他参数保持不变,B、过大C、其他参数保持不变,D、较小E、其他参数保持不变,σF、其他参数保持不变,σG、nan答案:AD2.加强()等法律法规规章的学习、宣传,强化全员数据合规理念,筑牢数据合规意识防线。A、《民法典》B、《网络安全法》C、《保守国家秘密法》D、《网络产品和服务安全审查办法(试行)》答案:ABCD解析:统计分析3.公司在“十三五”重点任务——(七)重点跨领域技术中将“先进计算与电力大数据技术”列为一项需要重点发展的技术,预期目标为()A、在高性能计算关键技术领域方面取得突破,形成融合多计算模式的混合计算体系,形成广域分布式环境下智能电网协同计算及属地化多级计算体系;B、在基于先进计算的大数据分析处理技术上取得突破,满足大数据全生命周期技术需求;C、完善公司数据治理体系,研发专业化、智能化大数据治理辅助平台,实现大数据环境下数据统一管控;D、建设电力大数据与云计算应用检测和评估能力,掌握电力大数据应用总体架构、技术路线和方法论,推进大数据在智能电网各业务领域的广泛应用。答案:ABCD4.以习近平新时代中国特色社会主义思想为指导,全面贯彻习近平总书记关于网络强囯的重要思想和国家网络空间安全战略、国家大数据发展战略,认真落实囯务院国资委加强合规管理、建设法治央企工作部署,紧扣“稳、进、育、幵”四字要求,秉持()理念。A、引领规范B、合法合规C、支撑推动D、引领推动答案:AC5.依据《国家电网有限公司数据管理办法》和《国家电网有限公司网络与信息系统安全管理办法》职责划分,按照()的总体原则,明确数据安全职责分工,落实数据安全责任。A、谁产生谁负责B、谁主管谁负责C、谁运行谁负责D、谁使用谁负责答案:BCD6.数据集成功能包括:()。A、表/文件/整库迁移B、增量数据迁移C、事务模式迁移D、字段转换答案:ABCD7.阿里云MaxCompute中,下列对分区描述正确的是:()。A、需要在创建表时指定分区空间B、以将分区类比为文件系统下的目录C、MaxCompute将分区列的每个直作为一个分区D、目前仅支持2级分区答案:ABC8.在大数据时代,企业所面临的挑战有:()。A、企业各个部门间数据分散,相同数据在各个部门内部存储格式不一致B、数据结构多样化C、竞争对手的技术进步D、数据在噪音、缺失、储存不规范等问题,需要进行大量的数据预处理工作答案:ABCD9.用大数据计算服务构建海量的数据仓库时,分区表是一种很常见的做法,对于分区表的描述正确的有:()。A、支持hash分区、范围分区、列表分区及组合分区B、在通过SQL读取分区表中的数据时,可以通过指定分区的方法只读取一部分分组,减少IO开销C、可以单独处理指定分区中的数据,不会对其他分区数据产生影响D、对于过期的数据可以将对应的分区drop掉,不会影响其他分区中的数据答案:BCD10.以下关于负面清单描述正确的是()。A、国网公司坚持“以共享为原则、不共享为例外”,遵循“最小化”要求,建立数据共享负面清单B、纳入公司负面清单的数据主要包括:涉及商业秘密和工作秘密、个人隐私及相关敏感事项的数据C、负面清单数据在公司范围内可直接共享使用D、投标标底、审计事项、问题线索等未涉及相关敏感事项的负面清单数据答案:ABD11.下面不是Python关键字的是()。A、noB、NoneC、nanD、none答案:ACD12.法律部门对涉及数据的()等进行合法合规性审核,确保对外提供的数据产品及服务等合法合规A、重要制度B、重要文件制定C、重大决策D、重要合同订立答案:ABCD13.下列跟人工智能场景相关的是()。A、图像识别B、人脸识别C、语音识别D、语义分析答案:ABCD14.以下现象属于过拟合的是A、训练集Loss下降,验证集loss不变B、训练集Loss下降,验证集loss上升C、训练集Loss上升,验证集loss.上升D、训练集Loss下降,验证集loss下降答案:AB15.下面关于机器学习的理解正确的是()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据答案:BCD16.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。请问下列关于神经元的描述中,哪一项是正确的(__)。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出答案:ABCD17.影响聚类算法效果的主要原因有:()A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量答案:ABC18.可作为决策树选择划分属性的参数是()。A、信息增益B、增益率C、基尼指数D、密度函数答案:ABC19.大数据应用需求征集及审核分为哪几个阶段?A、需求评审及储备B、需求立项及计划编制C、计划调整D、计划下达答案:ABC20.回归分析有很多种类,常见的有()。A、线性回归B、系数回归C、逻辑回归D、曲线回归答案:ACD21.创建API时,需要填写()信息。A、PI名称B、API目录C、请求PathD、请求方法答案:ABCD22.下列关于流计算特点的描述中,正确的是:()。A、实时且流式的B、数据是无界的C、事件触发D、用户触发答案:ABC23.决策树()情况下会导致递归返回。A、当前节点包含的样本全属于同一类B、当前属性集为空C、当前节点包含的样本集合为空D、所有样本在所有属性上取值相同答案:ABCD24.深度学习中的激活函数需要具有哪些属性?A、计算简单B、非线性C、具有饱和区D、几乎处处可微答案:ABD25.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据答案:ABC26.数据通过分层与水平分解,经过()沉淀公共的数据能力,根据业务场景进行服务封装,形成企业级数据服务,支撑前端应用敏捷迭代和快速构建,实现数据价值共享A、汇聚B、存储C、整合D、分析E、加工答案:ABCDE27.在建立模型时,需要用到()。A、训练数据B、测试数据C、原始数据D、验证数据答案:ABD28.下列属于文本处理流程的是()。A、NormalizationB、TokenizationStopC、Part-of-speechD、Named答案:ABCD29.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络答案:ABD30.MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模。下列()属于常见的图计算的应用。A、PageRankB、二分图匹配C、单源最短距离法D、K-means答案:ABCD31.评估内容包括但不限于()两个方面,具体可包括使用频率、使用范围及应用大数据带来的效率提升、增加的社会或经济效益等。A、应用性能B、应用拓展C、应用延伸D、应用效益答案:AD32.MaxCompute中使用showgrants查看用户已有的权限时,具体的权限使用了下列()字符标识。A、B、CC、DD、G答案:ABCD33.下面对于超链接的说法,正确的是()。A、语句&;lt;aB、语句&;lt;aC、语句&;lt;aD、语句&;lt;a答案:ABC34.去除噪声数据的方法有哪些?A、分箱B、回归C、离群点分析D、特征提取答案:ABC解析:阿里中台35.门循环单元网络(GRU)主要有哪两个门限函数组成()。A、重置门B、遗忘门C、激活门D、更新门答案:AD36.严格采取()的方式收集数据,对照法律法规、规章、国家与行业标准,区分数据收集对象和收集方式,制定有效的安全管理策略和保障措施。A、合规B、合法C、最小化D、正当答案:BD37.关于MySQL的CloudDBA的诊断报告说法正确的是A、自动或手动诊断实例B、查看实例的健康状况C、查看实例的告警信息D、查看实例的慢SQL信息答案:ABCD38.下面哪些是spark比Mapreduce计算快的原因()。A、基于内存的计算;B、基于DAG的调度框架;C、基于Lineage的容错机制;D、基于分布式计算的框架;答案:ABC39.决策树递归停止的条件为()。A、训练数据集使用完B、所有的类标签完全相同C、特征用完D、遇到丢失值答案:BC40.哪些项不属于使用池化层相比于相同步长的卷积层的优势()A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度答案:BCD41.关于梯度消失和梯度消失,以下说法正确的是:(__)。A、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0B、可以采用ReLU激活函数有效的解决梯度消失的情况C、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大D、可以通过减小初始权重矩阵的值来缓解梯度爆炸答案:ABCD42.MaxCompute中的命令purgetable&;lt;table_name>可以回收某张指定的表,以下说法正确的是:()。A、如果用户想在删除表时直接将磁盘空间释放,不占用回收站,B、当表已被drop时,只有projectC、当指定名称的表存在时,projectD、清空指定表名的对象在回收站中的记录,释放存储空间答案:ABCD解析:可以使用DropTablePurge功能43.大数据计算服务(MaxCompute,原ODPS)提出了安全沙箱的概念,为了保证整个计算环境的安全,某些特殊操作会被禁止。以下()操作会受到沙箱的影响。A、使用内置函数B、使用MRC、使用DDL创建表D、使用UDF答案:BD44.Spark提交工作的方式()。A、ClientB、ClusterC、StandaloneD、Yarn答案:AB45.数据中台技术能力主要包括()等方面的能力。A、数据接入B、存储计算C、数据分析D、数据服务答案:ABCD46.以下哪些选项是Kafka的特点?A、支持消息随机读取B、高吞吐C、分布式D、消息持久化答案:BCD47.直方图修正法包括()。A、直方图统计B、直方图均衡C、直方图过滤D、直方图规定化;答案:BD48.关于Attention机制里的Attention-basedModel,下列说法错误的是()。A、相似度度量模型B、是一种新的深度学习网络C、是一种输入对输出的比例模型D、以上都不对答案:CD49.下列关于包裹式选择的描述正确的是(__)。A、包裹式特征选择方法直接针对给定学习器进行优化B、从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好C、包裹式特征选择的计算开销通常比过滤式特征选择大得多D、包裹式特征选择的典型算法:LVW算法,其特征子集搜索采用了随机策略答案:ABCD50.基于Boosting的集成学习代表算法有()。A、daboostB、GBDTC、XGBOOSTD、随机森林答案:ABC51.下列场景适合使用Python的是()。A、可作为脚本语言,快速编写小型程序、脚本等B、可应用在数据科学、交互式计算及可视化领域C、可作为胶水语言,整合如C++等语言代码D、Python适用于低延时、高利用率的应用场景答案:ABC52.支持创建的数据标签类型有:()。A、规则标签B、组合标签C、手工标签D、实时标签答案:ABCD53.CNN常见的Loss函数包括以下哪个()。A、softmax_lossB、sigmoid_lossC、ontrastive_LossD、siamese_loss答案:ABC54.以下描述中正确的是()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)答案:AC55.使用ADS可以很好的支持即席查询,对一些复杂的查询,也能在很短的时间内返回处理结果。以下关于ADS中查询涉及的说法正确的有:()。A、如果用户的查询的条件会指定聚集列的内容或者范围,那么这样的查询性能便会有较大的提升B、处于关联方便的考虑,普通表可以放在维度表组上,这样该表和其他任意表关联都不在受表组的限制C、ADS中join会优先采用hashD、需要关联查询的普通表,需要放在同一个表组上答案:AD56.时序数据库TSDB是一种()的在线时序数据库服务,为您提供高效读写、高压缩比存储、时序数据插值及聚合计算等服务。A、高性能B、低成本C、稳定可靠D、nan答案:ABC57.下列哪些情况下SOL自诊断可以识别,并上报告警信息?A、数据倾斜。B、SQLC、大表D、HashJoin答案:ABCD58.在MaxComputeSQL中可以通过命令清空表中已有的数据,以下命令正确的包括()。A、对非分区表truncateB、对分区表truncateC、对分区表alterD、对所有表drop答案:AC59.许多功能更为强大的非线性模型可在线性模型基础上通过引入()和()而得。A、层级结构B、高维映射C、降维D、分类答案:AB60.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化答案:ABD61.表t_sale_detail为销售明细表,包含字段order_no(订单号)、product_id(商品编号)等字段,表dim_product为商品表,包含字段product_id(商品编号)、product_name(商品名称)等字段。现要将销售明细表t_sale_detail与商品表dim_product关联获取商品名称,输出为销售表全部记录,以下哪些SQL语句可以实现这个要求?A、selectB、selectC、selectD、select答案:AD解析:fromt_sale_detailaleftouterjoindim_duct_id=duct_idfromt_sale_detailarightouterjoindim_duct_id=duct_idfromdim_productaleftouterjoint_sale_duct_id=duct_idfromdim_productarightouterjoint_sale_duct_id=duct_id62.长短时记忆神经网络三个门是哪些()A、进化门B、输出门C、输入门D、遗忘门答案:BCD63.大数据计算服务(MaxCompute,原ODPS)中的ACL授权时类似SQL92定义的GRANT/REVOKE语法来实现,更接近于传统关系型数据库的授权模式,Policy授权主要解决ACL授权机制无法解决的一些复杂授权场景。以下场景中,()既能使用ACL授权又能使用Policy授权实现。A、一次操作对一组对象进行授权B、只允许用户使用SQL(而不允许其他类型的Task)来访问某张表C、将一个对象的多个权限一次性授予一个用户D、带限制条件的授权答案:BC64.由____一并明确数据传输、存储管理规范和标准。A、客服中心B、信通公司C、大数据中心D、运营商答案:ABC65.字符串的格式化可以使用()。A、%B、formatC、inputD、+答案:AB66.()对象的操作不需要通过Maxcompute的任务(Task)来完成。A、projectB、UDFC、instanceD、resource答案:ABCD67.数据销毁环节,应根据公司要求合理选择数据___措施进行处理A、恢复B、传输C、擦除D、销毁答案:ACD68.DGI定义的数据治理任务包括()。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题答案:BCD69.以下关于动态分区的描述正确的是:()。A、动态分区插入时,动态分区列必须在select列表中B、在使用动态分区功能的SQL中,在分布式环境下,单个进程最多只能输出512个动C、在现阶段,任意动态分区SQL不可以生成超过2000个动态分区D、动态生成的分区值可以为NULL答案:ABC70.DataWorks的功能包括:()。A、支持按照时间和依赖关系的任务全面托管调度B、支持每曰千万级别的任务按照DAG关系准确、准时运行C、提供可视化的彳王务监控管理工具D、支持以DAG图的形式展示任务运行时的全局情况答案:ABCD71.大数据应用承建单位应基于项目建设方案编制实施方案,开展()等工作,确保数据完整、准确、有效,并不断跟踪反馈、迭代更新数据模型,优化数据展示场景,充分发挥大数据应用价值。A、数据溯源B、数据申请C、数据清洗D、数据建模、数据展示答案:ABCD72.下面关于函数的递归调用描述正确的是()。A、必须有一个明确的结束条件B、每次进入更深一层递归时,问题规模相比上次递归都应有所减少C、递归调用效率不高,递归层次过多会导致栈溢出(在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧D、由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出)答案:ABCD73.下列属于数值优化算法的是()。A、梯度下降法B、牛顿法C、极大似然法D、逻辑回归答案:AB74.以下是正确的字符串()。A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”答案:BD75.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA答案:ABCD76.Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理()。A、大量小文件存储B、高容错、高吞吐量C、低延迟读取D、流式数据访问答案:BD77.关于HDFS集群中的DataNode的描述不正确的是()。A、DataNode之间都是独立的,相互之间不会有通信B、存储客户端上传的数据的数据块C、一个DataNode上存储的所有数据块可以有相同的D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:AC78.以下那种神经网络的设计中引入了残差网络结构A、LeNetB、TransformerC、AlexNetD、ResNets答案:BD79.下列对于十大业务域和英文简称的说法,正确的是()A、资产域,ASTB、财务域,FINC、客户域,CSTD、安全域,SAF答案:ABCD80.在神经网络中,下列哪种技术用于解决过拟合()。A、DropoutB、正则化C、earlyD、Batch答案:ABCD81.人工智能平台总体架构由平台层、应用层、服务层组成。其中,平台层包括()、()、()、()、()支撑A、模型库B、样本库C、模型平台D、底层硬件算力答案:ABCD82.下面是文件基本操作的函数()。A、closeB、readC、renameD、remove答案:ABCD83.下列哪些是情感分析的途径()。A、关键词识别B、数据增强C、统计方法D、概念级技术答案:ABCD84.下面属于词袋模型的缺点的是()。A、词汇表的词汇需要经过精心设计B、表示具有稀疏性C、丢失词序忽略了上下文D、模型复杂,不利于实施;答案:ABC85.严格执行国家法律法规和相关标准,按照数据分级分类原则建立数据销毁策略和管理制度,明确数据销毁的()。A、场景B、对象C、方式D、要求答案:ABCD86.对于神经网络,以下哪些是超参数?A、神经网络的层数(numberB、神经网络的学习率(learningC、神经网络的权重(weights)D、神经网络的偏置(bias)答案:AB87.训练CNN时,GPU显存溢出,此时可以采取的措施有()。A、减少B、移除一些卷积层C、减少图片输入大小D、增加激活函数答案:ABC88.下列哪些现象属于乘性噪声()。A、电视光栅的退化B、二值图像上的胡椒盐噪声C、信道传输受扰D、胶片材料的退化答案:AD89.为什么正则化能处理过拟合?A、惩罚了模型的复杂度,避免模型过度学习训练集,提高泛化能力B、剃刀原理:如果两个理论都能解释一件事情,那么较为简单的理论往往是正确的C、正则项降低了每一次系数w更新的步伐,使参数更小,模型更简单D、贝叶斯学派的观点,认为加入了先验分布(l1拉普拉斯分布,l2高斯分布),减少参数的选择空间答案:ABCD90.以下哪些神经网络结构使用了卷积层?A、LeNet-5B、GRUC、LSTMD、VGG答案:AD91.按照公司战略实施要求,立足数据发展需要,以“()”为核心,建立健全数据合规管理体系,明确数据合规管理职责与重点领域数据合规管理要求A、可管B、可控C、可查D、可信答案:ABD92.下列属于描述gensim库的特性的是()。A、训练语料的预处理B、主题向量的变换C、文档相似度的计算D、文章切分词语统计计算答案:ABC93.严格按照《民法典》《网络安全法》等法律法规关于个人信息保护的规定,遵循()的原则,开展个人信息的处理活动。A、保密B、合法C、正当D、必要答案:BCD94.以下属于图像分割的算法的是:()。A、阈值分割方法(B、区域增长细分(regionalC、边缘检测分割方法(edgeD、基于聚类的分割(segmentationE、基于CNN中弱监督学习的分割答案:ABCDE95.以公司战略为统领,顺应数字化发展趋势,落实数字新基建任务部署,着力打造企业中台,助力打造能源互联网生态,全面支撑建设“具有中国特色国际领先的能源互联网企业”战略落地。A、赋能电网生产B、赋能客户服务C、赋能企业经营D、赋能资源唤醒答案:ABC96.训练CNN时,GPU显存溢出,此时可以采取什么办法?()A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数答案:ABC97.下列哪几种神经网络结构会发生权重共享()。A、卷积神经网络AlexNetB、循环神经网络LSTMC、卷积神经网络ResNetD、全连接神经网络答案:ABC98.以下()是scipy中的模块。A、clusterB、constantsC、integrateD、io答案:ABCD99.在神经网络中,下列哪种技术用于解决过拟合。A、DropoutB、正则化C、earlyD、Batch答案:ABCD100.以下属于统一视频平台的设计思想的是()A、标准B、开放C、迭代D、兼容答案:ABCD101.数据中台技术能力主要包括()六个方面A、数据接入B、存储计算C、数据分析D、数据服务E、数据资产管理答案:ABCDE102.以下跟图像处理相关的是()。A、图像识别B、人脸识别C、视频分析D、自然语言处理答案:ABC103.ODPSSQL不支持的包括哪些?A、deleteB、updateC、索引D、事务答案:ABCD104.健全数据合规管理体系,落实管理职责,强化横向协调和纵向指导,突出(),加强违规事件应对处置,严格管控数据合规风险。A、事前防范B、事中控制C、事后闭环D、过程管控答案:AD105.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作()。A、能够直观反映成对数据之间的空间关系B、能够直观反映多维数据之间的空间关系C、能够静态演化事物的变化及变化的规律D、能够动态演化事物的变化及变化的规律E、提供高性能并行计算技术的强力支撑答案:BD106.将相关内容纳入年度培训计划,实现各级领导班子成员、管理人员、重要风险岗位人员、新入职人员、境外人员等重点人员数据合规培训全覆盖,突出等重要法律法规和数据合规重大案例培训,提升培训实效。A、《保守国家秘密法》B、《网络安全法》C、《数据安全法》D、《个人信息保护法》答案:BCD107.对于大数据计算服务(MaxCompute,原ODPS)的多路输出(multiinsert),哪些项描述是不正确的A、对于源表为未分区表的,该表可以出现多次B、通常,单个SQL中最多可以写256路输出。超过256路,则报语法错误。C、PARTITIOND、<p>目标表为分区表的,对于不同的分区,可以混合使用答案:AD解析:和insertoverwrite,对于相同的分区则不可混用</p>108.下面对范数规则化描述正确的是()。A、L0是指向量中0的元素的个数B、L1范数是指向量中各个元素绝对值之和C、L2范数向量元素绝对值的平方和再开平方D、L0是指向量中非0的元素的个数答案:BCD109.严格按照______等法律法规关于个人信息保护的规定,遵循合法、正当、必要的原则,开展个人信息的处理活动A、《民法典》B、《网络安全法》C、《国家电网有限公司保密工作管理办法》D、《国家电网公司保护商业秘密规定答案:AB110.下列哪些指标可以用来评估线性回归模型()A、R-SquaredB、AdjustedC、FD、RMSE、/F、/G、nan答案:ABCD111.关于激活函数以下说法正确的是A、sigmoid函数在深度神经网络中梯度反向传递时容易导致梯度消失B、tanh函数对于规模比较大的深度网络计算速度比较慢C、ReLU函数计算速度和收敛速度都比tan/sigmoid快D、ReLU函数的正区间存在梯度消失问题答案:ABC112.Hadoop生态系统中,核心是()。A、FlumeB、MapReduceC、PigD、HDFS答案:BD113.在MaxCompute中通过SQL创建了一张分区表,createtablet_student(namestring,scorebigint),下面的SQL语句中语法正确的有:()。A、selectB、selectC、selectD、select答案:AC114.下列关于深度学习的实质及其与浅层学习区别的说法正确的有()。A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换C、没有区别D、以上答案都不正确答案:AB115.加强()等重点领域的数据合规管理。A、国家秘密B、企业秘密C、个人信息D、知识产权答案:ABCD116.DataWorks运维中心包括那些()A、运维大屏B、周期任务运维C、触发式任务运维D、智能监控答案:ABCD117.大数据计算服务(MaxCompute,原ODPS)中关于tunnel命令行工具的说法,正确的是:()。A、tunnel上传到分区表时,会把数据直接上传到指定的分区中去,不保证业务逻辑B、tunnel命令上传文件时,不能进行压缩(注:通过-cp参数进行压缩)C、tunnel上传的数据是先写到临时目录,最后确定成功后才写到结果目录D、tunnel上传过程中不加密,数据以明文方式在网络中传输(注:通过https连接就是加密方式)答案:AC118.组织开展公司营销、金融等业务活动、PPS涉嫌违法()假等问题梳理,并开展专项治理行动,督促违规整改,健全数据合规管理常态化机制。A、违规收集个人信息B、违规数据处理C、数据泄露D、数据造假答案:ABCD119.机器学习的三个关键组成要素是()。A、任务TB、性能指标PC、目标函数VD、经验来源E答案:ABD120.假设你使用带正则的逻辑回归进行目标分类,然而你将算法用于一个新的测试数据集上时,原本在训练数据集上表现很好的模型产生了很大的测试误差,可以如何处理A、减小回归正则系数B、使用更多的训练数据C、增大回归正则系数D、使用更少的训练数据答案:BC121.哪些是离线批处理的特点?A、处理数据量巨大,PB级B、处理时间要求高C、容易产生资源抢占D、多个作业调度复杂答案:ACD122.经典LSTM网络中使用tanh激活函数的模块是()A、输入门B、输出门C、遗忘门D、更新门答案:AB123.数据总线(DataHub)提供对流式数据的()、()和(),让用户可以轻松进行流式数据的分析和应用。A、采集B、存储C、处理D、计算答案:ABC124.在决策树基本算法中,有三种情形会导致递归返回,这三种情形分别是(__)。A、当前结点包含的样本全属于同一类别,无需划分B、当前属性集为空,或是所有样本在所有属性上取值相同,无法划分C、当前结点包含的样本集合为空,不能划分D、当前结点包含的样本不属于同一类别,不可划分答案:ABC125.Python变量命名规则()。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头,例如,可将变量命名为message_1,但不能将其命名为1_message。B、变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingC、不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print。D、变量名应既简短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。答案:ABCD126.按规定开展网络安全等级保护测评,强化()等技术措施。A、信息脱敏B、定密加密C、去标识化D、安全认证答案:ABC127.下面哪些是有效的类构造函数()。A、defB、defC、defD、ef答案:ABD128.下面关于中心极限定理的说法,正确的是:A、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础答案:ACD129.大数据偏见包括()A、数据源的选择偏见B、算法与模型偏见C、结果解读方法的偏见D、数据呈现方式的偏见答案:ABCD130.ElasticSearch具有什么特点?A、支持集群拓展B、支持结构化数据检素C、支持非结构化数据检索D、支持事务机制答案:ABCD131.以下()大数据计算服务(MaxCompute,原ODPS)的SQL语句可以用户表user中找出用户名称username中包含’hu’的记录。A、select*B、select*C、select*D、select*答案:AB132.将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况?A、正则化效应被增强B、正则化效应被减弱C、训练集的误差会增加D、训练集的误差会减小答案:BD133.下列关于支持向量机的说法正确的是(__)。A、支持向量机的学习策略是间隔最大化B、支持向量机的基本模型是特征空间上间隔最大的线性分类器C、支持向量机只能对线性可分的样本进行分类D、传统支持向量机只能求解二分类问题答案:ABD134.数据活动涉及公司商业秘密、工作秘密的,应严格执行()、()等有关规定,履行涉密审查流程,根据有关规定及工作需要确定知悉范围,并按照涉密程度实行分类管理A、《国家电网有限公司保密工作管理办法》B、《民法典》C、《网络安D、《国家电网公司保护商业秘密规定》答案:AD解析:全法》135.关于Python分隔代码块描述错误的是()。A、内嵌代码的每一行,都比外面的if语句的缩进更多B、代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D、代码块被封装在花括号中答案:BCD136.有两种策略常用来缓解BP网络的过拟合,分别是()和()。A、晚停B、早停C、正则化D、加入损失函数答案:BC137.深度学习方法不适用于以下哪些场景()。A、数据样本充足B、数据样本不足C、数据集具有局部相关特性D、数据集没有局部相关特性答案:BD138.从合规性监测和成效后评估向超前诊断、辅助决策转变,融入到公司()等决策各环节,提升决策能力。A、战略B、投资C、管理D、决策答案:ABC139.下列关于RNN、LSTM、GRU说法正确的是(__)。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法,没有区别答案:ABC140.电力大数据服务社会治理,具体是指()。A、助力智慧城市科学发展B、助力乡村振兴战略落地C、助力经济社会绿色发展D、助力突发事件研判答案:ABCD141.DataWorks中,调度系统提供了一些常用的时间参数,周期性调度任务使用这些参数后,在调度运行时参数会自动赋值为具体的时间,以下哪些参数是调度系统内置时间参数?A、{yyyymmdd}B、{date}C、{yyyy-mm-dd}D、{bdp.system.cyctime}答案:BD142.梯度为0的点可能是A、局部最优解B、全局最优解C、鞍点D、转折点答案:ABC143.Python中标识符的命名规则正确的是()。A、只能以下划线或者B、关键字不能作为标识符C、PythonD、关键字不能作为标识符答案:ABCD144.下列哪些函数可以作为神经网络中的激活函数A、y=tanh(x)B、yC、y=2xD、y=max(x,0)答案:ABD145.按照涉及自变量的多少,可以将回归分析分为()。A、线性回归分析B、非线性回归分析C、一元回归分析D、多元回归分析E、综合回归分析答案:CD146.以下关于周期刷新编码正确的是:A、按分钟刷新B、按小时刷新C、按日刷新D、按周刷新E、按月刷新答案:BCDE147.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS答案:ABCD148.以下哪些属于自适应学习率方法()。A、Mini-batchB、AdagradC、RMSpropD、Adam答案:BCD149.python中,字符串格式化的方式()。A、%B、formatC、inD、input答案:AB150.以下()属于数据统计分析工具。A、WekaB、SASC、SPSSD、Matlab答案:ABCD151.加强对公司数据中国家秘密的识别和保护,对涉及国家秘密的数据,严格按照国家有关规定执行,禁止非法复制、()。A、记录B、存储C、共享D、传输答案:ABCD152.浅层神经网络与深度神经网络比较,其区别之处是?A、浅层结构算法:其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约B、深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。C、浅层神经网络的好处是可以用较少的参数表示复杂的函数D、深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。答案:ABD153.<p>企业中台包含()、()、(),业务中台提供可复用的业务服务,数据中台提供可复用的数据服务,技术中台提供统一的技术服务</p>A、业务中台B、服务中台C、数据中台D、技术中台答案:ACD154.阿里云实时计算Flink平台中的容错机制是通过结合以下哪些技术来实现()?A、数据校验B、备份机制C、流重放D、检查点答案:CD155.下列对字符串函数或方法说法正确的有()。A、istitle()B、max(str)C、replace(old,newD、upper()答案:ABC156.涉及个人信息处理的部门和单位,在制定相关制度时应明确个人信息处理规则,建立()的告知同意机制,并采取必要的技术措施确保收集的个人信息安全。A、规范化B、体系化C、多层次D、全方位答案:BC157.下列哪些方法是常见解决分类模型之类别不平衡问题的方法。A、欠采样B、过采样C、强化学习D、生成对抗网络答案:ABD158.下列关于嵌入式选择描述正确的是(__)。A、嵌入式选择是将特征选择过程与学习器训练过程融为一体B、嵌入式选择在学习器训练过程中自动地进行了特征选择C、对于嵌入式选择,特征选择过程与学习器训练过程在同一个优化过程中完成D、嵌入式特征选择方法直接针对给定学习器进行优化答案:ABC159.对涉及负面清单中个人信息等敏感数据的共享应用,应采取数据A、共享B、数据水印C、访问授权D、安全审计答案:BCD160.事务型事实表也称为原子事实表,包含与业务过程描述有关的所有事实,数据来自于数据中台共享层数据,经下列哪些操作后得到。A、清洗B、转换C、加载D、合并答案:ABD161.Maxcompute通过eclipseplugin提供了MR的编程框架,开发时通常需要添加以下()类。A、reducerB、mapreduceC、ombinerD、mapper答案:ABD162.以下属于图像平滑算法的是()。A、中值滤波B、均值滤波C、邻域平均法D、高斯滤波答案:ABCD163.共享能力中心设计原则()A、高内聚B、单一性C、完整性D、强拆分答案:ABCD164.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近()。A、同态滤波B、高斯滤波C、巴特沃斯滤波D、中值滤波答案:BC165.请问下面哪些是离散型变量()。A、示波器B、心电图及脑动电图扫描器对脑电波的测量C、过去数月的总销售额D、公司每年的红利答案:CD166.深度学习的实质及其与浅层学习的说法正确的是(__)。A、DL强调模型深度B、DL突出特征学习的重要性.特征变换+非人工C、没有区别D、以上答案都不正确答案:AB167.以下()方法可以支持MaxCompute中受保护项目空间的数据流出。A、使用owner通过ACL授权B、使用owner通过policy授权C、设置例外(ExceptionD、设置项目互信(TrustedProject)答案:CD168.在MapReduce1.0版本中,JobTracker功能是()。A、负责资源管理B、作业控制C、作业存储D、作业审核答案:AB169.特征向量的归一化方法有哪些()A、线性函数转换B、对数函数转换C、反余切函数转换D、减去均值,除以方差答案:ABCD170.关于数据中台架构,以下说法正确的是()。A、业务中台提供共性服务赋能前端业务B、数据中台将业务生产资料转变为数据生产力C、技术中台为业务中台、数据中台提供统一的人工智能、GIS、身份认证等基础服务D、后台按需调用企业中台服务和外部系统数据答案:ABC171.Python中,复合赋值运算符包括()。A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符答案:ABCD172.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。A、精确性B、可辨认性C、可分离性D、视觉突出性答案:ABCD173.大数据计算服务(MaxCompute,原ODPS)中,使用CREATETABLELIKE语句创建新表时,原表的()属性会被复制到新表上。A、列注释B、分区C、表的生命周期属性D、表注释答案:ABD174.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误答案:BC175.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法答案:BC176.以下关于Pig说法正确的是()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理答案:ABCD177.以下哪种方法有可能解决模型在测试集上效果不好的问题。A、EarlyB、RegulizationC、DropoutD、Adaptive答案:ABC178.DataHub是实时数据分发平台、流式数据的处理平台,提供对流式数据的功能包含以下哪些。A、发布B、订阅C、分发D、同步答案:ABC179.神经网络模型(neuralnetwork)因受人类大脑的启发而得名。神经网络由许多神经元(neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。下列关于神经元的描述正确的有()。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出答案:ABCD180.算法“歧视”现象可能出现在()。A、算法设计B、算法实现C、算法投入使用D、算法验证答案:ABC181.在金融领域的大数据批量离线处理平台中,以下描述准确的是?A、金融领域的外部数据来源可以是征信信息、社交网络和电商等。B、在数据集成模块,可以分为数据采集、数据操控和数据加载3个阶段。C、金融领域的内部数据来D、金融领域的数据应用层面均是面向金融机构内部的,如监管报表系统,精准营销BI应用等,完全不对外或对其他下属机构开放。答案:AB182.先进计算与电力大数据技术,主要研究内容包括:();研究大数据环境下数据治理及安全技术,研究电力大数据仿真、测试与评价技术;研究大数据应用基础理论和标准体系,研究面向智能电网的各业务领域的大数据典型应用。A、研究数据采集、数据抽取、数据融合及数据存储技术B、研究先进计算体系及高性能计算关键技术C、研究新型计算架构与混合计算技术D、研究电力大数据分析挖掘算法、优化策略和可视化展现技术答案:ABCD183.以下关于API爬虫哪些说法是错误的()。A、基于API返回的结果通常会比较干净B、基于API的爬虫任务中,速度一般较慢C、基于API的爬虫爬取的好处是没有次数的限制D、基于API的爬取能够覆盖网站所有信息答案:BCD184.建立数据销毁流程和审批机制,规范数据信息()手段和方法,实现对数据的有效销毁,防范数据泄露风险。A、存储B、删除C、擦除D、销毁答案:CD185.客户端使用get方式读取HBase用户数据时,需要查询meta表哪些数据?A、RegionB、RegionC、RegionServerD、Region答案:CD186.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:()。A、把NaN直接作为一个特征,假设用0表示B、用均值填充C、用随机森林等算法预测填充D、以上答案都不正确答案:ABC187.下面是Numpy支持的统计函数有()。A、minB、maxC、medianD、mean答案:ABCD188.使用MySQL客户端连接ADS时,()信息是必须的。A、端口B、服务器地址C、数据库名称D、AccountID答案:ABC189.对于Maxcompute项目空间的描述,正确的是:()。A、一个用户可以拥有多个项目空间的权限B、所有的对象都会属于某个项目空间C、通过安全授权,可以在一个项目空间中访问另一个项目空间D、一个帐号可以创建多个项目空间,最多不能超过10个答案:ABC190.组织各专业部门、各单位梳理公司数据合规风险重点范围,开展数据合规风险()工作。A、规避B、识别C、评估D、防范答案:BC191.从内外部环境与市场需求来看,大数据应用的业务规划将聚焦在()核心领域上。A、电网运营B、经营管理C、客户服务D、业务创新E、对外服务答案:ABCDE192.DataHub服务基于阿里云自研的飞天操作平台,具有以下哪些特点。A、高可用B、低延迟C、高可扩展D、高吞吐答案:ABCD193.关于CAP理论说法正确的是()。A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B、一致性主要指强一致性C、一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”。答案:ABCD194.()等都是Scikit-Learn中包含的算法。A、SVMB、随机森林C、Lasso回归D、密度聚类答案:ABCD195.循环神经网络主要被应用于哪些场景(__)。A、语音识别B、语音建模C、机器翻译D、图像识别答案:ABC196.技术中台是企业级技术能力共享平台。通过对技术能力持续的平台化沉淀,为业务中台、数据中台及前台提供“()”的技术创新共享服务。A、统一B、易用C、强健D、快速答案:ABC197.数据应用的重点业务中赋能电网转型升级包括()。A、优化人员配置B、优化生产运行C、优化设备管控D、优化能源配置答案:BCD198.下列哪种方法可以直接应用于自然语言处理的任务A、循环神经网络B、卷积神经网络C、主成分分析(PCD、E、贝叶斯网络F、nan答案:ABD199.以下关于Hbase文件存储模块描述正确的有:()。A、应用在FusionInsightB、HFS封装了Hbase与HDFS的接口C、为上层应用提供文件存储、读取、删除等功能D、HFS是:Hbase的独立模块答案:ABCD200.下列有关Flume的描述正确的是()。A、Flume具有一定的容错性;B、Flume使用Java编写;C、Flume不支持failover;D、Flume是一个分布式的轻量级工具,适应各种方式的数据收集;答案:ABD201.ADS中不同型号的ECU标识着()不同的配置。A、内存大小B、磁盘空间C、带宽D、Vcpu核数答案:ABD202.业务中台是企业级业务能力共享平台,将公司电网建设、电力营销、规划计划等相关传统业务系统中的核心业务处理能力沉淀为各共享能力中心纳入业务中台,提供()创新能力和统一的企业级共享服务,持续提升业务创新效率。A、敏捷B、快速C、低成本D、高效答案:ABC203.下列哪些操作可以使神经网络模型拟合复杂函数的能力增加?A、隐藏层层数增加B、dropout的比例增加C、加大学习率D、增加神经元的数量答案:AD204.神经网络的数据预处理,一般包括以下哪些步骤A、将数据向量化B、将数据值标准化C、处理缺失值D、将数据值转化为浮点数或整数答案:ABCD解析:数据处理205.关于Python组合数据类型,以下选项中描述正确的是()。A、PythonB、PythonC、组合数据类型可以分为D、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问答案:ABC206.Spark适用于以下()场景。A、交互式查询B、实时流处理C、批处理D、图计算答案:ABCD解析:机器学习207.神经网络的拓扑结构可以分为()和随机型网络等。A、前向型B、后向型C、反馈型D、自组织竞争型答案:ACD208.下面哪些是Spark的组件()。A、SparkStreamingB、MLibC、GraphXD、SparkR答案:ABC209.可视分析学的几个特点包含()A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工(DataE、强调人机交互的重要性答案:ABCDE210.下列哪些属于TF-IDF的应用()。A、搜索引擎B、关键词提取C、文本相似性D、数据降维答案:ABC211.在BP网络中,常用于缓解其过拟合的策略有()。A、早停策略B、正则化策略C、全局最小策略D、局部最小策略答案:AB212.因业务需要,确需向境外提供的,应经公司()审批,根据国家相关规定做好安全评估等工作,视情况向国家有关部门报备。A、主管领导B、信息安全小组C、保密办D、业务部门答案:CD213.在网络爬虫的爬行策略中,应用最为常见的是()。A、深度优先遍历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略E、大站优先策略答案:AB214.应用层表命名:ADS_{数据域简称}_{项目名简称}_{自定义表名}_{刷新周期编码}{分区增量编码}。其中()()为非必填。A、{刷新周期编码}B、{分区增量编码}C、{项目名简称}D、{自定义表名}答案:AB215.以下是数据中台的建设目标的是:A、企业全局复用B、服务标准稳态C、数据融合共享”D、nan答案:ABC216.图像识别的精度会受到以下那些因素的影响()。A、数据类别数量不平衡B、输入图像尺寸不同C、图像中存在类标之外的环境干扰D、图像中存在随机噪声答案:ACD217.在使用阿里云大数据计算服务MaxComputeMapReduce的过程中,会遇到程序执行时间过长,运行缓慢等问题,针对这种情况,我们一般可以使用以下哪些方法来提升MaxComputeMapReduce的执行效率?A、增加中间环节,将多个串行的作业拆成多个map及reduce的循环阶段,增加中间表落磁盘的操作。B、输入数据进行列裁剪,也就是只关心需要的列数据。C、尽量增加Reducer数量。D、合理的使用combiner,对map阶段输出的结果中的重复key进行合并处理。答案:BD218.在深度学习中采用梯度下降方法往往达不到最优解,而是在以下哪些情况下停止了。A、鞍点B、局部极值点C、高原(plateau)点D、早停点答案:ABCD219.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定答案:ABC220.Python中jieba库支持哪几种模式()。A、精准模式B、匹配模式C、全模式D、搜索引擎模式答案:ACD221.在数据安全领域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防护C、检测D、响应答案:ABCD222.以下哪些属于深度学习中的优化算法()。A、SGDB、AdamC、MomentumD、MSELoss答案:ABC223.Spark中的Scheduler模块可以分为以下哪几个部分()。A、DAGScheduler;B、ResourceScheduler;C、TaskScheduler;D、JobScheduler;答案:AC224.能和decimal类型字符相互发生隐式转化的有A、bigintB、floatC、stringD、atetime答案:AB225.对于正交属性空间中的样本点,若存在一个超平面对所有样本进行恰当的表达,则这样的超平面应具有(__)和(__)的性质。A、最近重构性B、最大可分性C、最远重构性D、最小可分性答案:AB226.对于ADS的特色功能,以下说法正确的是:()。A、智能自动索引会自动为导入数据的每一列创建符合该列情况的索引类型,无需用户显式指定创建索引或索引类型B、聚集列能智能提升查询性能C、多值列支持in、contains等查询D、ADS采用高职能的基于规则的优化策略答案:ABC227.大数据计算服务(MaxCompute,原ODPS)中的MapReduce是一种编程模型,用于大规模数据集的并行运算,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。其中,两个主要阶段Map和Reduce相互配合,可以完成对海量数据的处理。关于这两个阶段的关系,说法正确的有:()。A、一个reduce的输入数据可能来自于多个map的输出B、一个MR处理可以不包括任何mapC、一个MR处理可以不包括任何reduceD、一个map的输出结果可能会被分配到多个reduce上去答案:ACD228.常用的代价函数有()。A、均方误差B、均方根误差C、平均绝对误差D、交叉熵答案:ABCD229.关于神经网络,下列说法正确的是()A、增加网络层数,可能会增加测试集分类错误率B、增加网络层数,一定会增加训练集分类错误率C、减少网络层数,可能会减少测试集分类错误率D、减少网络层数,一定会减少训练集分类错误率答案:AC230.关于数据流转和应用,以下说法正确的是()。A、数据流转和应用过程中应确保可追溯、可复查B、前序环节应保证数据的真实、完整C、前序环节应及时传递到后序环节D、前后环节数据应保持衔接一致答案:ABCD231.()、()、()等纳入负面清单的数据,由数据使用方提出申请,经数据产生的总部业务部门和数据归口管理部门审批后方可对内跨部门、跨单位给数据使用方使用。A、商业秘密B、企业秘密C、工作秘密D、个人信息答案:ACD232.Spark组件包含哪两个算子()。A、Map;B、Action;C、Transformation;D、Reduce;答案:BC233.在Python中,执行importdatetimeasdt语句后,如下时间或日期定义方式正确的是()。A、dt.datetime(2019,12,12,23,23,23)B、dt.datetime(2019,0,0,23,23,23)C、dt.datetime(2019,12,12,0)D、t.time(23,23,23)答案:ACD234.数据挖掘的挖掘方法包括()。A、聚类分析B、回归分析C、神经网络D、决策树算法答案:ABCD235.下面关于中台架构,中台之间关系说法正确的是()A、数据中台接收业务中台传输的数据,通过大数据算法、建模等技术,对数据进行清洗加工和分析处理B、其结果支撑业务中台供前端业务应用即时调用C、前端业务应用产生的新数据又流转到数据中台形成闭环D、技术中台为业务中台、数据中台分别提供相应的技术服务。答案:ABC236.MaxComputeGraph支持以下()编辑操作。A、修改点或边的权值B、增fiP/删除点C、增加/删除边D、节点间通信答案:ABC237.卷积神经网络为了保证图像对位移、缩放、扭曲的鲁棒性,可采取的措施有()。A、局部感受野B、共享权值C、池采样D、正则化答案:ABC238.结合实际,按照“谁主管谁负责、谁收集谁负责、谁使用谁负责、谁提供谁负责”的原则,从数据()、使用、内部共享、对外开放、销毁等重点环节进行管控,进一步加强数据全生命周期合规管理。A、收集B、传输C、存储D、加工答案:ABCD239.MaxCompute授权操作一般涉及到以下()要素。A、主体(Subject)B、客体(Object)C、操作(Action)D、选项(Option)答案:ABC240.训练的神经网络方差很高,下列哪个尝试是可能解决问题?A、添加正则项B、获取更多测试数据C、增加每个隐藏层的神经元数量D、用更多的训练数据答案:AD241.哪些是深度学习快速发展的原因?A、现在我们有了更好更快的计算能力。B、神经网络是一个全新的领域。C、我们现在可以获得更多的数据。D、深度学习已经取得了重大的进展,比如在在线广告、语音识别和图像识别方面有了很多的应用答案:AC242.紧扣大数据价值提升主题,充分发挥公司数据资源的()、()和()作用,加强专业协同和层级联动,推动数据与业务融合创新,持续提升大数据应用水平,实现价值创造。A、洞察预测B、统筹管理C、创新引擎D、动能转换答案:ACD243.Apriori算法的计算复杂度受()影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度答案:ABCD244.采用深度学习根据图像训练一个植物分类模型前,一般需要做以下哪些操作()A、搜集大量植物图像样本B、搜集少量典型植物图像样本C、对植物样本进行标注D、每类植物仅需搜集一张图像答案:AC245.禁止外部合作单位和供应商在对互联网提供服务的网络和信息系统中存储或运行公司()。A、明细业务数据B、商业秘密数据C、重要数据D、内部数据答案:BC246.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A、数据加工(DataB、数据管理C、数据计算D、数据产品研发答案:ABCD247.下列关于EM算法描述正确的是(__)。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法答案:ABCD248.下列方法中,可以用于特征降维的方法包括()。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD答案:ABD249.CNN网络中可能包含哪些层()A、输入层B、卷积层C、池化层D、全连接层答案:ABCD250.下列哪些项目是在图像识别任务中使用的数据扩增技术?A、水平翻转B、随机裁剪C、随机放缩D、颜色抖动答案:ABCD251.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立答案:AB252.建立健全()制度,明确数据违规事件发生后的处置流程和时间节点,最大化防范和化解风险。A、突发事件应急预案B、违规事件报告C、风险防控D、数据安全答案:AB253.下面()函数不是字符串处理函数。A、TRUNCB、TO_CHARC、SUBSTRD、INSTR答案:AB254.出于效率和成本的考虑,在使用MaxcomputeMR的时候,输入表最好应该只包含需要处理的字段,其余多余字段应该忽略。输入表wc_in包含10个字段,MR只对其中三个字段(c1,c2,c3)进行了处理,以下说法正确的是:()。A、使用包com.aliyun.odps.data中的TableInfo类中的setCols()方法指定处理的列c1,c2,c3B、MR的输入为一个SQLC、重建一张表wc_in_new,只包含三个字段(c1,c2,c3),加载数据:insertD、建一个视图v_wc_in,视图仅包括相应的三个字段:create答案:CD255.技术中台包括()等技术平台。A、统一视频平台B、统一权限平台C、GIS平台D、移动门户平台E、人工智能平台答案:ABCDE256.充分发挥数据在公司战略实施中的基础支撑作用,防范数据泄露、____、____、____、非法使用等事件对公司造成的不良影响A、篡改B、窃取C、损毁D、删除答案:ABC257.下面关于连续型随机变量以及连续型概率密度函数的说法,正确的是。A、“一个客服一天可能接听到多少个电话”是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1答案:BCD258.促进能源大数据分类洞察、供需匹配、策略优化的产品化,强化大数据服务业务创新及市场化运营能力,打造()创新点。A、电力服务B、能源服务C、金融服务D、数据增值服务答案:CD259.根据公司实际业务建设及应用现状,规划建设哪些公共维度表?A、公司级公共维度表B、专业级公共维度表C、网省级公共维度表D、地市级公共维度表答案:AB260.()能知道一个MaxcomputeSQL在运行时占用了多少instance。A、根据表的大小,自己计算B、使用psC、用odpscmd提交时,从返回的状态中查看D、打开logview查看答案:CD261.CNN相比于全连接的DNN有哪些优势()A、参数更少B、泛化更好C、训练更快D、更容易搭建;答案:ABC262.进一步完善数据共享负面清单,持续开展与客户、供应商等各类合作协议的梳理和修订,增加数据在公司内部流转的()条款,推动跨专业数据贯通融合和价值挖掘。A、授权B、书面C、同意D、协商答案:AC263.为了保证应用获得可预期的性能,需要设置OTS表的()。A、预留存储空间B、预留处理内存C、预留写吞吐量D、预留读吞吐量答案:CD264.对OTS的单行操作,描述正确的有:()。A、getrow:读取单行数据B、deleterow:删除一行C、updaterow:更新一行,如果该行不存在,则新增一行D、putrow:新插入一行数据,如果数据存在,则删除旧行,在写入新行答案:ABD解析:规章制度265.数据应用-重点业务-赋能经营管理提升包括()。A、辅助科学决策B、清洁能源消纳C、状态实时感知D、深化精益管理答案:AD266.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有()。A、MRB、SparkC、HDFSD、Hbase答案:CD267.信息系统运行风险预警管控重点抓好风险辨识和管控措施落实“两个环节”,满足“准确性、及时性、()”要求。A、稳定性B、全局性C、全面性D、可靠性答案:CD268.下列关于特征的稀疏性说法正确的是()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法答案:ABC269.在大数据计算服务SQL中使用distributeby和sortby可以对数据进行局部排序,以下对distributeby、sortby的用法描述正确的有:()。A、数据会按照distributeB、使用sortC、sortD、在一个分片中,数据会按照sort答案:ABD270.常用的爬虫技巧有以下哪些()。A、更改header,伪装成浏览器进行爬取B、设置爬取的时间间隔C、应用神经网络算法识别网站验证码D、通过代理服务器进行爬取答案:ABCD271.对以下代码说法正确的是()。x=np.linspace(0.05,10,1000)y=np.sin(x)plt.plot(x,y,ls="-.",l=2,c="c",label="plotfigure"plt.legend()plt.grid(linestyle=":",color="r")plt.show()?Python语言?A、该图表是一个蓝绿色的散点图?B、图表中有红色实线的网格线?C、图表中有图例?D、该图画的是sin曲线;?CDA、该图表是一个蓝绿色的散点图B、图表中有红色实线的网格线C、图表中有图例D、该图画的是sin曲线;答案:CD272.下来关于主数据的描述,正确的是()。A、主数据无法跨流程和跨系统重复使用。B、主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。C、主数据的错误可能导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用。D、主数据应该代表企业中的某个业务对象的唯一实例,重复创建主数据将导致数据的不一致,进而给业务流程和报告带来问题。答案:BCD273.下面对LDA判别分析的思想描述正确的是()。A、同类样例的投影点尽可能近B、异类样例的投影点尽可能远C、同类样例的投影点尽可能远D、异类样例的投影点尽可能近答案:AB274.在数据集成中,CDM支持A已经创建的链接进行()操作A、删除连接B、测试连通性C、备份连接D、编辑答案:ABD275.下面有关HTML叙述正确的是()。A、一个B、HTMLC、一个D、HTML答案:ABC276.以下关于卷积神经网络,说法不正确的是?A、卷积神经网络只能有一个卷积核B、卷积神经网络可以有多个卷积核,但是必须同大小C、卷积神经网络可以有多个卷积核,可以不同大小D、卷积神经网络不能使用在文本这种序列数据中答案:ABD277.图像处理中的去噪算法有()。A、中值滤波B、均值滤波C、峰值滤波D、高值滤波答案:AB278.实时计算是一种持续、低时延、事件触发的计算任务,一般的数据处理过程涉及如下哪几个步骤()?A、实时数据源获取B、数据定时传输C、结果实时展示D、数据实时计算答案:ACD279.关于梯度为0的点,下面说法正确的是()A、一般认为此时模型不收敛B、就是损失函数的最大值点C、就是损失函数的最小值点D、一般认为此时模型收敛答案:CD280.小王开发了一个MaxcomputeUDF,打成jar包之后,作为资源上传到项目空间里,创建了对应的函数,但是在执行的时候发现该jar包依赖的另一个jar包不存在,他应该()才能正常使用。A、在使用jar命令调用的时候,在classpath参数中增加依赖jar包的路径即可B、将依赖的jar包作为资源上传到项目空间,在UDF的初始化函数setup中,使用readJarResource读取jar包资源C、将依赖的jar包作为资源上传到项目空间,同时在创建函数的时候(CREATD、FUNCTION),using子句中增加依赖的包,如果多个包的话,用逗号分隔E、在对UDF打jar包的时候,把依赖的jar包包含进去,统一打成一个包即可F、nan答案:CD281.确保数据____、______、_______并不断跟踪反馈、迭代更新数据模型A、完整B、准确C、有效D、安全答案:ABC282.对于主成分分析方法,降维后低维空间的维数d可以通过()方法确定。A、由用户事先指定B、通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D、随机设置答案:ABC283.数据使用环节,应结合数据业务场景采用__

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论