2023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)_第1页
2023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)_第2页
2023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)_第3页
2023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)_第4页
2023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE12023年能源大数据应用开发技能竞赛备考试题库汇总-下(多选、判断题部分)多选题1.关于神经网络,下列说法正确的是()A、增加网络层数,可能会增加测试集分类错误率B、增加网络层数,一定会增加训练集分类错误率C、减少网络层数,可能会减少测试集分类错误率D、减少网络层数,一定会减少训练集分类错误率答案:AC2.创建API时,需要填写()信息。A、API名称B、API目录C、请求PathD、请求方法答案:ABCD3.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A、数据加工B、数据管理C、数据计算D、数据产品研发答案:ABCD4.下列哪些是目前深度学习的必备技术?A、反向传播算法B、卷积可视化解释C、非线性激活函数D、深度神经网络答案:ACD5.卷积层的输出通常由3个量来控制,它们是()。A、补零B、深度C、步幅D、输入数据答案:ABC6.下面属于范数规则化的作用的是()和()。A、保证模型尽可能的简单,避免过拟合B、约束模型特征C、最小化问题D、最大化问题答案:AB7.数据活动涉及公司商业秘密、工作秘密的,应严格执行()等有关规定,履行涉密审查流程,根据有关规定及工作需要确定知悉范围,并按照涉密程度实行分类管理。A、《信息安全技术网络安全等级保护基本要求》B、《中华人民共和国网络安全法》C、《囯家电网有限公司保密工作管理办法》D、《囯家电网公司保护商业秘密规定》答案:CD8.传统关系数据库的优点包括()。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高答案:ABD9.ElasticSearch具有什么特点?A、支持集群拓展B、支持结构化数据检素C、支持非结构化数据检索D、支持事务机制答案:ABCD10.关于梯度为0的点,下面说法正确的是()A、一般认为此时模型不收敛B、就是损失函数的最大值点C、就是损失函数的最小值点D、一般认为此时模型收敛答案:CD11.哪些项不属于使用池化层相比于相同步长的卷积层的优势()A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度答案:BCD12.CNN常见的Loss函数包括以下哪个()。A、softmax_lossB、sigmoid_lossC、Contrastive_LossD、siamese_loss答案:ABC13.下面关于单样本Z检验的说法,正确的是()。A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量答案:BCD14.在数据安全领域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防护C、检测D、响应答案:ABCD15.许多功能更为强大的非线性模型可在线性模型基础上通过引入()和()而得。A、层级结构B、高维映射C、降维D、分类答案:AB16.下列关于自助法描述错误的是(__)。A、自助法在数据集较大、难以有效划分训练集或测试集是很有用B、自助法能从初始数据集中产生多个不同的训练集C、自助法产生的数据集没有改变初始数据集的分布D、在初始数据量足够时,留出法和交叉验证法较自助法更为常用答案:AC17.关于数据流转和应用,以下说法正确的是()。A、数据流转和应用过程中应确保可追溯、可复查B、前序环节应保证数据的真实、完整C、前序环节应及时传递到后序环节D、前后环节数据应保持衔接一致答案:ABCD18.ADS创建普通表的时候限制有:()。A、一张普通表至少有一级Hash分区并且分区数不能小于8个B、一个普通表组最多可以创建256个普通表C、一个普通表最多不能超过1024列D、一张普通表至少有一级Hash分区并且分区数不能多于1000个答案:ABC19.下列关于模型能力(modelcapacity)的描述哪些是错误的?(指模型能近似复杂函数的能力)()。A、隐层层数增加,模型能力增加B、Dropout的比例增加,模型能力增加C、学习率增加,模型能力增加D、都不正确答案:BC20.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA答案:ABCD21.卷积神经网络通过哪些措施来保证图像对位移、缩放、扭曲的鲁棒性(__)。A、局部感受野B、共享权值C、池采样D、正则化答案:ABC22.Web内容挖掘实现技术()。A、文本总结B、文本分类C、文本机器学习D、关联规则答案:ABCD23.对于ADS的特色功能,以下说法正确的是:()。A、智能自动索引会自动为导入数据的每一列创建符合该列情况的索引类型,无需用户显式指定创建索引或索引类型B、聚集列能智能提升查询性能C、多值列支持in、contains等查询D、ADS采用高职能的基于规则的优化策略答案:ABC24.下列哪几种神经网络结构会发生权重共享()。A、卷积神经网络AlexNetB、循环神经网络LSTMC、卷积神经网络ResNetD、全连接神经网络答案:ABC25.加强()等重点领域的数据合规管理。A、国家秘密B、企业秘密C、个人信息D、知识产权答案:ABCD26.下列关于深度学习的实质及其与浅层学习区别的说法正确的有()。A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换C、没有区别D、以上答案都不正确答案:AB27.以下()项包含在Maxpute项目空间的鉴权模型中。A、SecurityConfigurationB、ProjectProtectionC、CheckPermissionUsingACLD、LabelSecurity答案:BCD28.关于数据产品研发,下列说法错误的是()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的“洞见数据”答案:ABD29.OGG的部署分为源端和目标端两部分组成,除Manager外还有哪些主要组件。A、ExtractB、PumpC、CollectorD、Replicat答案:ABCD30.按规定开展网络安全等级保护测评,强化()等技术措施;除非获得用户明确授权,未经脱敏处理的原始用户隐私数据等敏感数据限于公司内网传输、存储。A、信息脱敏B、定密加密C、去标识化D、去中心化答案:ABC31.对于神经网络,以下哪些是超参数?A、神经网络的层数(numberB、神经网络的学习率(learningC、神经网络的权重(weights)D、神经网络的偏置(bias)答案:AB32.语音识别的方法包括()。A、声道模型方法B、模板匹配的方法C、利用人工神经网络的方法D、语音知识方法答案:ABCD33.下列属于数值优化算法的是()。A、梯度下降法B、牛顿法C、极大似然法D、逻辑回归答案:AB34.信息系统运行风险预警管控重点抓好风险辨识和管控措施落实“两个环节”,满足“准确性、及时性、()”要求。A、稳定性B、全局性C、全面性D、可靠性答案:CD35.假设一个随机变量服从正态分布,则随机变量的概率分布跟其()和()有关。A、众数B、频数C、平均值D、方差答案:CD36.大数据应用建设及运营过程中如发生数据安全问题,应立即暂停大数据应用建设或运营工作,向____、____、法规部及相关专业管理等部门报告。A、数字化部B、信通公司C、安规部D、总师室答案:AC37.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定答案:ABC38.下列关于流计算特点的描述中,正确的是:()。A、实时且流式的B、数据是无界的C、事件触发D、用户触发答案:ABC39.以下关于MaxputeMR的输入和输出,描述正确的是:()。A、MR的输入输出支持Maxpute内置类型以及用户自定义类型B、可以支持多表输入。且输入表的Schema可以不同C、可以支持视图(View)作为输入D、Reduce支持多路输出,可以输出到不同的表或同一张表的不同分区答案:BD40.依据《国家电网有限公司数据管理办法》,建立基于负面清单的公司对内数据共享机制,坚持“以共享为原则、不共享为例外”,改变当前()的数据应用授权方式。A、安全第一B、一事一议C、层层审批D、审批流程答案:BC41.下面关于Python中的列表和字典说法正确的是()。A、字典和列表都可以通过“[]”操作符访问元素的值B、列表的索引必须是整型数或者切片C、字典不过是列表的另一个名字。二者没有区别D、字典的长度是动态的,而列表的长度是固定的答案:AB42.提升电网防灾抗灾能力,研究电网灾损与()等灾害之间的关联规律,优化电网运行策略并提高电网运行的可靠性,实现灾害风险预测与损失影响评估。A、台风B、火灾C、地震D、冰雪答案:ABCD43.在视觉智能建模过程中,已有数据整体通常分为训练集、验证集、测试集三部分,其中训练集的作用以下描述哪些是错误的()。A、用于训练模型B、验证模型的有效性C、衡量模型的性能D、比较同类算法的性能答案:BCD44.下列说法中正确的是()。A、云计算的主要特点是非常昂贵。B、大数据是多源、异构、动态的复杂数据,即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)答案:BCD45.阿里云流计算可以直接读写下列哪些产品的数据?A、DataHubB、日志服务C、RDSD、表格存储(Table答案:ABCD46.企业中台不仅是技术架构的创新,也是管理模式的转变,通过公司(),(),(),(),满足千人千面的需求服务,实现管理提升和价值创造。A、资源汇聚B、交叉引流C、业务融通D、开放共享答案:ABCD47.训练CNN时,GPU显存溢出,此时可以采取什么办法?()A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数答案:ABC48.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。请问下列关于神经元的描述中,哪一项是正确的(__)。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出答案:ABCD49.下列不属于聚类性能度量内部指标的是()。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数答案:CD50.常用的冲突消解策略有包括()。A、投票法B、排序法C、元规则法D、调研法答案:ABC51.Spark的部署模式包括()。A、本地模式B、standalone模式C、SparkonyarnD、mesos模式答案:ABCD52.下面属于词袋模型的缺点的是()。A、词汇表的词汇需要经过精心设计B、表示具有稀疏性C、丢失词序忽略了上下文D、模型复杂,不利于实施;答案:ABC53.以下对模型性能提高有帮助的是()。A、数据预处理B、特征工程C、机器学习算法D、模型集成答案:ABCD54.关于总体和样本的说法,正确的是:A、总体也就是研究对象的全体B、如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10秒抽取的产品C、样本是从总体的随机抽样D、如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生答案:ABC55.Python中,复合赋值运算符包括()。A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符答案:ABCD56.name=np.array(['Liu','Wang','Zhu','Wang','Zhu','Wang','Zhu']),则下列可以的到['Liu','Wang','Zhu']的代码是()。A、np.unique(name)B、sorted(set(name))C、np.sort(name)D、name答案:AB57.将相关内容纳入年度培训计划,实现各级领导班子成员、()等重点人员数据合规培训全覆盖。A、管理人员B、重要风险岗位人员C、新入职人员D、境外人员答案:ABCD58.DGI定义的数据治理任务包括()。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题答案:BCD59.大数据应用应严格遵守国家数据安全相关法律法规和公司数据安全相关规定,严格保护()、()、()安全,严格执行数据获取、数据传输、数据储存、数据使用、数据共享、数据销毁等环节安全管理要求,确保大数据应用工作安全合规。A、商业秘密B、国家秘密C、公司商业秘密D、个人信息安全答案:BCD60.建立健全()制度,明确数据违规事件发生后的处置流程和时间节点,最大化防范和化解风险。A、突发事件应急预案B、违规事件报告C、风险防控D、数据安全答案:AB61.对于数据,常常会使用数据增强来扩充训练集,以下Pytorch中的哪些方法用于数据增强A、RandomCropB、RandomFlipC、ToTensorD、RandonRotate答案:ABD62.Loader可以实现以下()转换规则。A、长整型时间转换B、增量转换C、拼接转换D、空值转换答案:ABCD63.由境外产生并跨境传输至境内的数据,应禁止()信息流入境内。A、非法B、负面C、国家安全D、非授权答案:AB64.数据销毁环节,应根据公司要求合理选择数据___措施进行处理A、恢复B、传输C、擦除D、销毁答案:ACD65.数据存储环节,企业重要数据原则上应存储于管理信息大区,在互联网大区存储企业重要数据时应加密存储。落实重要()等技术应用。A、数据备份B、访问控制C、加密传输D、安全审计答案:ABD66.神经网络的数据预处理,一般包括以下哪些步骤A、将数据向量化B、将数据值标准化C、处理缺失值D、将数据值转化为浮点数或整数答案:ABCD67.在神经网络中,下列哪种技术用于解决过拟合。A、DropoutB、正则化C、earlyD、Batch答案:ABCD68.以下现象属于过拟合的是A、训练集Loss下降,验证集loss不变B、训练集Loss下降,验证集loss上升C、训练集Loss上升,验证集loss.上升D、训练集Loss下降,验证集loss下降答案:AB69.在MapReduce1.0版本中,JobTracker功能是()。A、负责资源管理B、作业控制C、作业存储D、作业审核答案:AB70.神经网络中参数极多,常用的初始化方法有哪些?A、全零初始化B、随机初始化C、加载预训练模型D、使用深度信念网络答案:ABC71.健全数据合规管理体系,落实管理职责,强化横向协调和纵向指导,突出(),加强违规事件应对处置,严格管控数据合规风险。A、事前防范B、事中控制C、事后闭环D、过程管控答案:AD72.关于Maxpute中tunnelupload的分隔符,说法正确的是:()。A、列分隔符不能包含行分隔符B、支持多个字符的行列分隔符C、转义字符分隔符,在命令行方式下在只支持\r、\n和\tD、缺省为空格答案:BC73.大数据计算服务(Maxpute,原ODPS)提出了安全沙箱的概念,为了保证整个计算环境的安全,某些特殊操作会被禁止。以下()操作会受到沙箱的影响。A、使用内置函数B、使用MRC、使用DDL创建表D、使用UDF答案:BD74.GAN是一种生成式对抗网络,它采用哪些网络能迫使生成图像与真实图像在统计上几乎无法区分,从而生成相当逼真的图像A、生成器B、优化器C、判别器D、合成器答案:AC75.集成学习中多样性的增强有哪些()A、数据样本扰动B、输入属性扰动C、输出表示扰动D、算法参数扰动答案:ABCD76.当时序数据比较长时,循环神经网络(RNN)容易产生长距离依赖问题,对此以下哪些说法是正确的?()。A、这是由网络训练时反向传播时梯度消失引起的B、这会导致输入的长句词汇之间的语义关系很难拟合C、这会引发RNN的输入和输出的关系难以拟合D、可以使得网络记忆更多的训练样本信息答案:ABC77.去除噪声数据的方法有哪些?A、分箱B、回归C、离群点分析D、特征提取答案:ABC78.下面是python标准库的是()。A、osB、sysC、numpyD、re答案:ABD79.下面是Python的特点和优点是()。A、解释性B、动态特性C、面向对象D、语法简洁答案:ABCD80.神经网络的拓扑结构可以分为()和随机型网络等。A、前向型B、后向型C、反馈型D、自组织竞争型答案:ACD81.依托数据建模与仿真,实现经营管理的流程可视、运营可控、问题可溯,持续提升()。A、科学决策能力B、业务运行效率C、运营管理水平D、风险管控水平答案:ABD82.以下属于HiveSQL中DDL的是:()。A、修改表B、删除表C、数据导入D、建表答案:ABD83.关于模型参数(权重值)的描述,正确的说法是哪些?A、训练好的神经网络模型存储于一定结构的神经元之间的权重和神经元的偏置中B、在训练神经网络过程中,参数不断调整,其调整的依据是基于损失函数不断减少C、模型参数量越多越好,但没有固定的对应规则D、每一次Epoch都会对之前的参数进行调整,迭代次数越多,损失函数一般越小答案:ABD84.以下网络结构中可以应用于图像识别任务的是()。A、LeNet-5B、AlexNetC、CNND、VGG-net答案:ABCD85.对涉及负面清单中个人信息等敏感数据的共享应用,应采取数据A、共享B、数据水印C、访问授权D、安全审计答案:BCD86.下列关于包裹式选择的描述正确的是(__)。A、包裹式特征选择方法直接针对给定学习器进行优化B、从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好C、包裹式特征选择的计算开销通常比过滤式特征选择大得多D、包裹式特征选择的典型算法:LVW算法,其特征子集搜索采用了随机策略答案:ABCD87.以下哪层是卷积神经网络的组成部分。A、卷积层B、中间层C、池化层D、全连接层答案:ACD88.确保数据收集、传输、存储、加工、使用、内部共享、对外开放、销毁等环节数据合规管理机制(),促进数据依法合规利用,维护公司合法权益,支撑公司战略目标实现。A、制度化B、常态化C、自动化D、规范化答案:AD89.目前数据可视化分析平台QuickBI支持多种数据图表,包括线图、柱图、气泡地图、漏斗图等,如下相关图形中,哪几种图形可以用来表示部分占整体的百分比的情况?A、指标看板B、饼图C、漏斗图D、柱图答案:BC90.深度神经网络的构成中,把卷积层放在前面,全连接层放在后面。以下说法正确的是?A、用卷积层提取特征B、pooling的下采样能够降低overfittingC、全连接层只能有一层D、激活函数relu可以用到卷积层答案:ABD91.以下哪些应用适合使用循环神经网络来完成?()。A、看图说话B、机器翻译C、社交网络用户情感分类D、从一张合影照片找到特定的人答案:ABC92.下列关于数据科学中常用的统计学知识说法错误的是()。A、从行为目的与思维方式看,数据统计方法可以分为基本分析方法和元分析方法B、从方法论角度看,基于统计的数据分析方法又可分为描述统计和推断统计C、描述统计可分为集中趋势分析、离中趋势分析、参数估计和假设检验D、推断统计包括采样分布和相关分析答案:ABCD93.依托()等渠道,建立数据合规管理投诉、举报机制,及时受理内外部投诉举报。A、红网B、95598C、网上国网D、中国互联网协会12321网络不良与垃圾信息举报受理中心答案:BCD94.关于MaxputePolicy授权的特点,说法正确的是:()。A、删除一个对象时,与该对象相关的policy授权会被删除B、Policy支持通过xml文件的方式授权C、当Allow和Deny同时存在时,遵循Deny优先原则D、授权对象支持以通配符答案:CD95.下来关于主数据的描述,正确的是()。A、主数据无法跨流程和跨系统重复使用。B、主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。C、主数据的错误可能导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用。D、主数据应该代表企业中的某个业务对象的唯一实例,重复创建主数据将导致数据的不一致,进而给业务流程和报告带来问题。答案:BCD96.通过与外部合作单位和供应商签订()等方式进行数据安全管控,合同、协议、承诺书由业务部门会同法律合规部门根据实际情况制定,内容需明确数据使用范围、途径等。A、技术规范B、合同C、保密协议D、保密承诺书答案:BCD97.Maxpute由:()部分组成。A、客户端B、接入层C、逻辑层D、计算层答案:ABCD98.有关通道的说法,哪些说法是正确的?A、在卷积操作时,每个卷积核要对输入特征图的所有通道分别做卷积后求和,得到对应的新特征图B、卷积层的输入特征图的通道数和输出特征图的通道数是相同的C、通道数越多,获得的特征图越多,网络获得的特征越充分D、随着卷积网络深度的增加,一般使用更小的卷积核和更多的通道,兼顾训练速度和网络分类性能答案:CD99.以下哪些选项是Kafka的特点?A、支持消息随机读取B、高吞吐C、分布式D、消息持久化答案:BCD100.下列哪些选项属于桌面运维人员在对桌面计算机及外设进行日常运行时的工作范围()A、到货验收,资产登记B、外设安装、调试、与计算机或网络的连接及更换耗材C、提供耗材D、计算机硬件的安装、调试、从局域网接入交换机至设备网线的跳接答案:ABD101.DataHub服务基于阿里云自研的飞天操作平台,具有以下哪些特点。A、高可用B、低延迟C、高可扩展D、高吞吐答案:ABCD102.幵展公司数据在内网、外网、内外网间的传输,应最大限度避免()操作,并做好工作记录留存、日志审计等日常工作,确保敏感数据可溯源、可追踪、可审计。A、手工B、自动C、在线D、离线答案:AD103.DataHub是实时数据分发平台、流式数据的处理平台,提供对流式数据的功能包含以下哪些。A、发布B、订阅C、分发D、同步答案:ABC104.组织幵展数据按需脱敏、数据加密、数据应用分区保护、数据防泄漏、数据授权数据审计等安全防护相关专业技术的深入研究,强化数据在()过程中的安全管理。A、存储B、流转C、处理D、使用答案:BD105.严格执行国家法律法规和相关标准,按照数据分级分类原则建立数据销毁策略和管理制度,明确数据销毁的()。A、场景B、对象C、方式D、要求答案:ABCD106.下面哪些是spark比Mapreduce计算快的原因()。A、基于内存的计算;B、基于DAG的调度框架;C、基于Lineage的容错机制;D、基于分布式计算的框架;答案:ABC107.ADS使用DUMPDATA导出数据时,以限制导出行数为1000为例(LIMIT1000),()说法是正确的。A、实际数据行数可能小于1000B、实际数据行数可能等于1000C、实际数据行数严格等于1000D、实际数据行数可能稍大于1000答案:ABD108.DataWorks中,工作流任务支持的调度类型包括:()。A、一次性调度B、周期调度C、混合类型调度D、需要第三方工具用于支持调度答案:AB109.HIS表色系的三属性包含:()。A、色调B、色饱和度C、亮度D、色度答案:ABC110.数据集成中,CDM迁移支持的数据源有哪些()A、文件服务器B、NoSQL数据库C、传统关系型数据库D、大数据存储答案:ABCD111.下面有关编码解码器(自编码器)的说法,哪些是正确的?A、自编码器用于数据压缩时时有损的B、自编码器可以用于数据去噪,即把含有噪声的样本还原C、自编码器属于非监督学习,不需要损失函数D、自编码器可以作为一种数据降维技术答案:ABD112.假设只有少量数据来解决某个具体问题,但有有个预先训练好的神经网络来解决类似问题。可以用下面哪些方法来利用这个预先训练好的网络()。A、把除了最后一层外所有的层都冻结,重新训练最一层B、重新训练整个模型C、只对最后几层进行微调D、对每一层模型进行评估,只使用少数层答案:AC113.OTS的特点非常适合用来存储元数据,和使用RDS作为元数据管理工具相比,OTS具有:()优点。A、支持更大的单表规模,可以超过百TBB、更易扩展,理论上无限容量C、更高并发量,十万级别QPSD、更高的可用性,可达99.9%答案:ABCD114.对于决策树的优点描述正确的是()。A、可读性强B、分类速度快C、只用于回归问题D、是无监督学习答案:AB115.下面哪些情况可能导致神经网络训练失败。A、梯度消失B、梯度爆炸C、激活单元死亡D、鞍点答案:ABCD116.以下关于Pig说法正确的是()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理答案:ABCD117.加强()等法律法规规章的学习、宣传,强化全员数据合规理念,筑牢数据合规意识防线。A、《民法典》B、《网络安全法》C、《保守国家秘密法》D、《网络产品和服务安全审查办法(试行)》答案:ABCD118.门循环单元网络(GRU)主要有哪两个门限函数组成()。A、重置门B、遗忘门C、激活门D、更新门答案:AD119.评估内容包括但不限于____和____两个方面,具体可包括使用频率、使用范围及应用大数据带来的效率提升、增加的社会或经济效益等。A、应用推广B、应用背景C、应用性能D、应用效益答案:CD120.Spark支持的计算模型有()。A、批处理;B、实时计算;C、机器学习模型;D、交互式查询;答案:ABCD121.下列属于结合策略的是(__)。A、投票法B、平均法C、学习法D、排序法答案:ABC122.下列哪些现象属于乘性噪声()。A、电视光栅的退化B、二值图像上的胡椒盐噪声C、信道传输受扰D、胶片材料的退化答案:AD123.确保数据收集、传输、存储、加工、()等环节数据合规管理机制制度化、规范化,促进数据依法合规利用,维护公司合法权益,支撑公司战略目标实现。A、使用B、内部共享C、对外开放D、销毁答案:ABCD124.下面关于编码器和注意力机制的对比描述正确的说法有哪些?A、使用注意力机制之后会增加计算量,但是性能水平能够得到提升B、引注意力机制后会减少编码器(RNN)和解码器(RNN)的长跨度依赖问题C、注意力机制的含义表示输出与输入之间的对应关系D、解码器强化了不同时刻输出之间的关系答案:AC125.下列说法正确的有()。A、网站服务器可以识别你使用的访问软件,因为在发送访问请求中有特定位置的字符串和软件类型相关B、低级别的代理服务器十分容易被识别C、可以通过修改opener的proxy来模拟浏览器访问D、爬取图片的流程被中断时,之前所有爬取的信息都将被自动删除答案:AB126.神经网络可以按()A、学习方式分类B、网络结构分类C、网络的协议类型分类D、网络的活动方式分类答案:ABD127.Spark有哪些缺陷()。A、基于内存的计算B、支持Schema信息C、不支持增量迭代计算D、不支持细粒度更新操作答案:CD128.关于Python语言的特点,以下选项描述不正确的是()。A、Python语言不支持面向对象B、Python语言是解释型语言C、Python语言是编译型语言D、Python语言是非跨平台语言答案:ACD129.数据中台分析层包括以下哪几种表()。A、维度表B、汇总宽表C、应用结果表D、事实明细表答案:ABCD130.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近()。A、同态滤波B、高斯滤波C、巴特沃斯滤波D、中值滤波答案:BC131.以下选项中,不是Python语言保留字的是()。A、doB、passC、exceptD、until答案:AD132.()等都是Scikit-Learn中包含的算法。A、SVMB、随机森林C、Lasso回归D、密度聚类答案:ABCD133.下列关于嵌入式选择描述正确的是(__)。A、嵌入式选择是将特征选择过程与学习器训练过程融为一体B、嵌入式选择在学习器训练过程中自动地进行了特征选择C、对于嵌入式选择,特征选择过程与学习器训练过程在同一个优化过程中完成D、嵌入式特征选择方法直接针对给定学习器进行优化答案:ABC134.国网链平台利用了()、()等技术特性,通过与电网业务深度融合A、区块链分布式存储B、数据共享C、文件加密D、数据不可篡改答案:AD135.以下有关特征数据归一化的说法正确的是()。A、特征数据归一化加速梯度下降优化的速度B、特征数据归一化有可能提高模型的精度C、线性归一化适用于特征数值分化比较大的情况D、概率模型不需要做归一化处理答案:ABD136.假定你现在在解决一个有着非常不平衡的分类问题,即主要类别占据了训练数据的99%。现在你的模型在测试集上表现为99%的准确率。下面表述正确的是A、准确度并不适合于衡量不平衡类别问题B、准确度适合于衡量不平衡类别问题C、精确率和召回率适合于衡量不平衡类别问题D、精确率和召回率不适合于衡量不平衡类别问题答案:AC137.依据《国家电网有限公司数据管理办法》和《国家电网有限公司网络与信息系统安全管理办法》职责划分,按照()的总体原则,明确数据安全职责分工,落实数据安全责任。A、谁产生谁负责B、谁主管谁负责C、谁运行谁负责D、谁使用谁负责答案:BCD138.下面关于机器学习的理解正确的是()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据答案:BCD139.下列关于探索型数据分析常用图表的说法,正确的有:A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C、在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D、直方图和箱型图都可以用来展示数据的分布情况答案:BCD140.以下跟图像处理相关的是()。A、图像识别B、人脸识别C、视频分析D、自然语言处理答案:ABC141.长短时记忆神经网络三个门是()。A、进化门B、输出门C、输入门D、遗忘门答案:BCD142.以下()场景可以使用MaxputeMR实现。A、Web访问日志分析:分析用户访问行为,个性化推荐等B、搜索,比如pagerank、网页爬取等C、机器学习:监督学习、无监督学习、分类算法等D、广告推荐:用户点击购买行为预测答案:ABCD143.特征选择在子集生成与搜索方面引入了()人工智能搜索和评价方法。A、分支界限法B、浮动搜索法C、信息熵D、AIC答案:ABCD144.RDD具有()和()特征。A、可容错性;B、简洁性;C、并行数据结构;D、结构化;答案:AC145.事务型事实表也称为原子事实表,包含与业务过程描述有关的所有事实,数据来自于数据中台共享层数据,经下列哪些操作后得到。A、清洗B、转换C、加载D、合并答案:ABD146.下列关于AUC面积描述正确的是()。A、AUC被定义为ROC曲线下与坐标轴围成的面积B、AUC面积的值大于1C、AUC等于0.5时,则真实性最低,无应用价值D、AUC越接近1.0,检测方法真实性越高答案:ACD147.下列关于交叉验证法描述正确的是(__)。A、交叉验证法先将数据集划分为k个大小相似的互斥子集B、交叉验证法将数据集划分成的k个子集应尽可能保持数据分布的一致性C、通常把交叉验证法称为k折交叉验证D、假定数据集D中包含m个样本,若令交叉验证法中的系数k=m,则得到了交叉验证法的一个特例:自助法答案:ABC148.实现对多种能源的(),充分结合市场机制、价格机制,优化调度运行方案,实现多元能源主体之间的智能协同。A、全息感知B、智能预测C、精准调度D、自动化监控答案:ABC149.对于不同场景内容,一般数字图像可以分为()。A、二值图像B、灰度图像C、彩色图像D、深度图像答案:ABC150.下面哪些属于可视化高维数据技术()。A、矩阵B、平行坐标系C、星形坐标D、散布图答案:ABC151.严格采取()的方式收集数据,对照法律法规、规章、国家与行业标准,区分数据收集对象和收集方式,制定有效的安全管理策略和保障措施。A、合规B、合法C、最小化D、正当答案:BD152.使用阿里云Maxpute作为数据仓库处理系统中,数据同步周期有时、分,如果累积到一定时间,表分区会越来越多,这时如果全量扫描,效率会很低,可行的优化措施有()A、取消分区B、合理调整分区,适当增加较大周期的分区,如由小时增加日的分区C、增减临时处理层,如小时分区,每隔一段时间将数据收集到临时中间表中D、减少类似扫全量表的应用答案:BC153.对生成对抗网络(GenerativeAdversarialNetmork)描述正确的有()A、GAN是一种生成学习模型。B、GAN是一种区别学习模型。C、GAN包含生成网络和判别网络两个网络。D、生成网络和判别网络分别依次迭代优化。答案:ACD154.下面关于函数的递归调用描述正确的是()。A、必须有一个明确的结束条件B、每次进入更深一层递归时,问题规模相比上次递归都应有所减少C、递归调用效率不高,递归层次过多会导致栈溢出(在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧D、由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出)答案:ABCD155.神经网络的层次和每层神经元的数量可以通过以下哪些方法确定。A、可随意设定B、可人为进行设计C、可通过进化算法学习出来D、可通过强化算法学习出来答案:BCD156.Python函数包括下述哪些内容()。A、函数名称B、参数C、执行语句D、返回值答案:ABCD157.大数据成果应用管理,主要包括____、____、____等内容。A、成果共享B、成果应用C、成果交易D、成果推广答案:ABD158.关于ADS多值列的说法正确的包括:()。A、可以存入string类型的多个值,以逗号分隔B、可以直接在select中使用该列C、可以使用in,contains条件对该列的单个值进行查询D、不能在group答案:ACD159.训练CNN时,GPU显存溢出,此时可以采取什么办法()A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数答案:ABC160.关于降维说法正确的是()。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等答案:ACD161.GTM负责生成和维护下列哪些信息:A、全局事务IDB、事务快照C、时间戳D、执行计划答案:ABC162.下列关于密度聚类说法错误的是(__)。A、DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C、密度聚类基于不可连接样本不断扩展聚类簇易获得最终的聚类结果D、密度直达关系通常满足对称性答案:BCD163.应用层表命名:ADS_{数据域简称}_{项目名简称}_{自定义表名}_{刷新周期编码}{分区增量编码}。其中()()为非必填。A、{刷新周期编码}B、{分区增量编码}C、{项目名简称}D、{自定义表名}答案:AB164.数据中台是企业级数据能力共享平台。数据通过分层与水平分解,经过汇聚、(),沉淀公共的数据能力,根据业务场景进行服务封装,形成企业级数据服务,支撑前端应用敏捷迭代和快速构建,实现数据价值共享。A、存储B、整合C、分析D、加工答案:ABCD165.按照公司战略实施要求,立足数据发展需要,以“”为核心,建立健全数据合规管理体系。A、可靠B、可管C、可控D、可信答案:BCD166.在DataWorks中使用数据同步任务将云数据库RDS(MySQL)加载到大数据计算服务时,为了提高单个数据同步任务的速度及效率,可以采取()方式?A、数据过滤条件B、将云数据库C、容错记录条数D、提高作业速率上限的配置答案:BD167.当图像分类的准确率不高时,可以考虑以下哪种方法提高准确率。A、数据增强B、调整超参数C、使用预训练网络参数D、减少数据集答案:ABC168.Maxpute的资源类型包括:()。A、FileB、TableC、JarD、Archive答案:ABCD169.与自然语言处理相关的工具包Jieba,Gensim,NLTK,Scikit-Learn的区别是()。A、Jieba专注于中文分词操作B、NLTK主要用于一般自然语言处理任务(标记化,POS标记,解析等)C、Gensim主要用于题和向量空间建模、文档集合相似性等D、Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVectorizer)等。答案:ABCD170.以下属于图像平滑算法的是()。A、中值滤波B、均值滤波C、邻域平均法D、高斯滤波答案:ABCD171.哪些是深度学习快速发展的原因?A、现在我们有了更好更快的计算能力。B、神经网络是一个全新的领域。C、我们现在可以获得更多的数据。D、深度学习已经取得了重大的进展,比如在在线广告、语音识别和图像识别方面有了很多的应用答案:AC172.严格按照《民法典》《网络安全法》等法律法规关于个人信息保护的规定,遵循()的原则,开展个人信息的处理活动。A、保密B、合法C、正当D、必要答案:BCD173.关于Python分隔代码块描述错误的是()。A、内嵌代码的每一行,都比外面的if语句的缩进更多B、代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D、代码块被封装在花括号中答案:BCD174.大数据应用应严格遵守国家数据安全相关法律法规和公司数据安全相关规定,严格执行数据获取、____、____、____、数据共享、数据销毁等环节安全管理要求,确保大数据应用工作安全合规。A、数据传输B、数据存储C、数据分析D、数据使用答案:ABD175.依托数据(),实现经营管理的流程可视、运营可控、问题可溯,持续提升科学决策能力、业务运行效率和风险管控水平。A、算法B、挖掘C、建模D、仿真答案:CD176.下列场景适合使用Python的是()。A、可作为脚本语言,快速编写小型程序、脚本等B、可应用在数据科学、交互式计算及可视化领域C、可作为胶水语言,整合如C++等语言代码D、Python适用于低延时、高利用率的应用场景答案:ABC177.下列表示同一种学习方法的是(__)。A、集成学习B、多分类器系统C、基于委员会的学习D、平均策略答案:ABC178.DataWorks中工作流任务如果配置为周期性调度,所支持的周期包括哪些?A、月调度B、周调度C、天调度D、季度调度答案:ABC179.Spark提交工作的方式()。A、ClientB、ClusterC、StandaloneD、Yarn答案:AB180.以下属于规则的分词方法的是()。A、正向最大匹配法B、逆向最大匹配法C、双向最大匹配法D、条件随机场答案:ABC181.深度学习中,以下哪些方法可以降低模型过拟合?A、增加更多的样本B、DropoutC、增大模型复杂度,提高在训练集上的效果D、增加参数惩罚答案:ABD182.DataWorks中,调度任务每次运行前都先将任务实例化,即生成实例,调度运行时实际上在执行相应的实例。在调度的不同阶段,实例会处于不同的状态,包括()A、未完成B、运行中C、未运行D、失败答案:BCD183.数据挖掘的挖掘方法包括()。A、聚类分析B、回归分析C、神经网络D、决策树算法答案:ABCD184.以下()属于数据统计分析工具。A、WekaB、SASC、SPSSD、Matlab答案:ABCD185.随机森林的随机性主要体现在()。A、决策树选择的随机性B、数据集的随机性C、待选特征的随机性D、参数选择的随机性答案:BC186.数据使用环节,应结合数据业务场景采用()等技术手段实现差异化防护,遵循最小授权原则访问和处理个人信息和企业重要数据。A、加密B、脱敏C、水印D、审计答案:BCD187.下面关于连续型随机变量以及连续型概率密度函数的说法,正确的是。A、“一个客服一天可能接听到多少个电话”是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1答案:BCD188.关于Maxpute跨项目资源共享的说法正确的是:()。A、package是一种跨项目空间共享数据及资源的机制,主要用于解决跨项目空间的用户授权问题B、如果某个package还有人在使用,则该package的owner无法删除此packageC、添加到package中的不仅仅是对象本身,还包括相应的操作权限,如不显式指定权限,则默认为读写权限D、添加资源时支持的对象类型不包括project类型,即不能将project添加到package里答案:ABD189.按照“”的总体原则,明确大数据应用数据安全职责分工,落实数据安全责任。A、谁生产谁负责B、谁主管谁负责C、谁运行谁负责D、谁使用谁负责答案:BCD190.关于Maxpute中的admin角色,以下()说法是正确的。A、包含的权限只有owner可以调整B、可以修改项目空间的鉴权模型C、不能将admin权限指派给用户D、不能设定项目空间的安全配置答案:CD191.下面梯度下降说法正确的是?A、随机梯度下降是梯度下降中常用的一种B、梯度下降包括随机梯度下降和批量梯度下降C、梯度下降算法速度快且可靠D、随机梯度下降是深度学习算法当中常用的优化算法之一答案:ABD192.根据公司实际业务建设及应用现状,规划建设哪些公共维度表?A、公司级公共维度表B、专业级公共维度表C、网省级公共维度表D、地市级公共维度表答案:AB193.以下属于统一视频平台的设计思想的是()A、标准B、开放C、迭代D、兼容答案:ABCD194.下列关于RNN、LSTM、GRU说法正确的是(__)。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法,没有区别答案:ABC195.字符串的格式化可以使用()。A、%B、formatC、inputD、+答案:AB196.以下()场景可以使用大数据计算服务(Maxpute,原ODPS)的TunnelSDK方式实现。A、定时批量上传数据B、下载某个分区表的一个分区的数据C、一次性上传本地格式化文本文件D、随时变化的数据,通过事件(消息)驱动触发答案:ABC197.属于深度学习模型的选项是?A、朴素贝叶斯B、深度残差网络C、卷积神经网络CNND、循环神经网络RNN答案:BCD198.实时计算类应用主要通过()来实现。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务答案:AB199.注意力机制的优点有()A、参数少B、并行运算C、速度快D、时序特征答案:ABC200.Maxpute中用户认证(Authentication)的主要功能是检查请求(Request)发送者的真实身份。它一般包括:()。A、正确验证消息发送方的真实身份B、正确验证接收到的消息在途中是否被篡改C、正确验证用户状态,包括是否欠费等D、用户需要提取用户个性化信息时进行用户个性化认证答案:AB201.下列哪些情况下SOL自诊断可以识别,并上报告警信息?A、数据倾斜。B、SQLC、大表D、HashJoin答案:ABCD202.以习近平新时代中国特色社会主义思想为指导,全面贯彻习近平总书记关于网络强囯的重要思想和国家网络空间安全战略、国家大数据发展战略,认真落实囯务院国资委加强合规管理、建设法治央企工作部署,紧扣“稳、进、育、幵”四字要求,秉持()理念。A、引领规范B、合法合规C、支撑推动D、引领推动答案:AC203.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络答案:ABD204.公司大数据应用管理工作应遵循以下原则:A、强化统筹,协同推进B、价值导向,鼓励创新C、能力为先,持续发展D、加强管控,规范管理答案:ABCD205.技术中台是企业级技术能力共享平台。通过对技术能力持续的平台化沉淀,为业务中台、数据中台及前台提供“()”的技术创新共享服务。A、统一B、易用C、强健D、快速答案:ABC206.Python逻辑表达式()会导致逻辑短路,即不会继续向下推算而直接返回结果。A、False开头的and语句B、False开头的or语句C、True开头的and语句D、True开头的or语句答案:AD207.大数据计算服务(Maxpute,原ODPS)的MapReduce由多个步骤组成,以下哪些步骤是必须的?A、bineB、shuffleC、mapD、reduce答案:BC208.生成对抗网络中的生成模型可以A、输入噪声生成图像B、输入噪声和标签生成图像C、输入图像生成图像D、输入文字描述生成图像答案:ABCD209.严格遵守囯家法律、法规和公司相关规定,在保护国家秘密和企业秘密,且不损害()等相关方权益的前提下,有序推动数据对外幵放,重点防范对外幵放过程中的敏感数据泄露。A、公司B、用户C、客户D、供应商答案:ABD210.加强数据传输、存储过程中的安全管理,釆取加密、隔离、备份等安全技术手段,确保符合相应安全条件或技术标准,具备灾备能力,防范数据()风险。A、泄露B、篡改C、损毁D、丟失答案:ABCD211.关于残差网络下面哪些说法是正确的?A、使用跳越连接能够对反向传播的梯度下降有益,且能够对更深的网络进行训练B、跳跃连接计算输入的复杂的非线性函数以传递到网络中的更深层C、有L层的残差网络一共有L*L种跳跃连接的顺序D、跳跃连接能够使得网络轻松地学习残差块类的输入输出间的身份映射答案:BD212.按规定开展网络安全等级保护测评,强化()等技术措施。A、信息脱敏B、定密加密C、去标识化D、安全认证答案:ABC213.关于神经网络模型的说法,哪些是不正确的()A、神经网络的工作原理与生物体内的神经元是完全一样的B、训练神经网络的实质是对复杂函数求参数最优解的过程C、增加神经网络的层数和增加每层的神经元个数的效果是一样的D、神经网络只能进行二分类,不能进行更多种类的分类了答案:ACD214.数据挖掘算法的组件包括()。A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略答案:ABCD215.下列哪些是RDBMS中事务遵循的原则()A、原子性(Atomicity)B、一致性(Connsistency)C、隔离性(Isolation)D、持久性(Durability)答案:ABCD216.下面哪些情况可能导致神经网络训练失败A、梯度消失B、梯度爆炸C、激活单元消失D、鞍点答案:ABCD217.Maxpute中可以通过配额管理一个项目中可以使用的资源的上限,包括:()资源。A、存储B、带宽C、内存D、CPU答案:ACD218.数据中台是依据“()”原则,按需逐步迭代拓展中台建设范围,持续推进架构迭代演进,实现主要业务领域应用服务与技术能力全面沉淀,业务应用敏捷迭代能力大幅提升,赋能公司电网生产、客户服务、经营管理业务创新发展A、模型统一B、资源汇聚C、同源维护D、共建共享答案:ABCD219.半监督学习中,对未标记样本所揭示的数据分布信息与类别标记相联系的假设的有(__)和(__)。A、归纳假设B、聚类假设C、流形假设D、基本假设答案:BC220.相对于DNN模型,CNN模型做了哪些改变?A、局部连接B、使用了relu激活函数C、参数共享D、增加了batch答案:AC221.ElasticSearch具有什么特点?A、支持集群拓展B、支持结构化数据检素C、支持非结构化数据检索D、支持事务机制答案:ABCD222.阿里云Maxpute中,下列对分区描述正确的是:()。A、需要在创建表时指定分区空间B、以将分区类比为文件系统下的目录C、Maxpute将分区列的每个直作为一个分区D、目前仅支持2级分区答案:ABC223.下面对范数规则化描述正确的是()。A、L0是指向量中0的元素的个数B、L1范数是指向量中各个元素绝对值之和C、L2范数向量元素绝对值的平方和再开平方D、L0是指向量中非0的元素的个数答案:BCD224.a=np.array([1,2,3,4,5,6,7,8])以下()命令可以使输出结果为([5,6,7])。A、a[4:7]B、a[5:8]C、a[4:-1]D、a[5:]答案:AC225.以下属于数据挖掘与分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx答案:ABCD226.数据采集环节,对个人信息数据收集应遵循()、准确性、可问责性的原则,公开收集、使用等处理信息规则,明示收集、使用信息的目的、方式和范围,并获得个人信息主体同意或法律法规规定的其他情形。A、合法B、正当C、必要D、最小化答案:ABCD227.下列有关Zookeeper描述正确的是()。A、Zookeeper维护着一个树形的层次结构;B、Zookeeper的数据访问具有原子性;C、Zookeeper被设计是用来实现协调服务的;D、Zookeeper被设计是用来实现大容量数据存储的;答案:ABC228.循环神经网络主要被应用于哪些场景(__)。A、语音识别B、语音建模C、机器翻译D、图像识别答案:ABC229.下列既可以用于分类,又可以用于回归的机器学习算法有:A、k近邻B、逻辑回归C、决策树D、线性回归答案:AC230.ADS中不支持以下()表连接方式。A、rightB、笛卡尔积C、semiD、full答案:ACD231.下列关于EM算法描述正确的是(__)。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法答案:ABCD232.各单位要坚持维护()并重。A、数据管理B、数据安全C、促进数据利用D、促进数据开发利用答案:BD233.采用深度学习根据图像训练一个植物分类模型前,一般需要做以下哪些操作()A、搜集大量植物图像样本B、搜集少量典型植物图像样本C、对植物样本进行标注D、每类植物仅需搜集一张图像答案:AC234.pandas中主要的数据结构是()。A、DataB、DataFrameC、FrameD、Series答案:BD235.在分类问题中,我们经常会遇到正负样本数据量不等的情况比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是A、将负样本重复10次生成10w样本量打乱顺序参与分类B、直接进行分类可以最大限度利用数据C、从10w正样本中随机抽取1w参与分类D、将负样本每个权重设置为10,正样本权重为1,参与训练过程答案:ACD236.DRDS的全局唯一ID主要特点有:()。A、全局有序B、没有单点性能瓶颈C、全局唯一D、大并发获取答案:BCD237.特征选择的目的:()。A、减少特征数量、降维B、使模型泛化能力更强C、增强模型拟合能力D、减少过拟合。答案:ABD238.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:()。A、把NaN直接作为一个特征,假设用0表示B、用均值填充C、用随机森林等算法预测填充D、以上答案都不正确答案:ABC239.若想知道定时作业的运行情况,可在下列哪个页面查看:A、作业监控B、实例监控C、任务监控D、通知管理答案:AB240.下列关于偏差、方差、均方差、泛化误差描述有误的是(__)。A、方差度量了学习算法的期望预测与真实结果的偏离程度。B、偏差度量了同样大小的训练集的变动所导致的学习性能的变化。C、泛化误差表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。D、泛化误差可分解为偏差、方差与噪音之和。答案:ABC241.深度学习中的激活函数需要具有哪些属性()。A、计算简单B、非线性C、具有饱和区D、几乎处处可微答案:ABD242.下列关于神经网络说法正确的是()。A、不如决策树稳定B、高速寻找优化解C、非线性D、具有自学习、自组织、自适应性答案:BCD243.关于Maxpute中小文件的说法,正确的是:()。A、在reduce计算过程或者实时tunnel数据采集过程,会产生大量小文件B、小文件越多,会造成浪费资源,影响整体的执行性能,并且影响磁盘空间的利用率C、目前提供两种可供选择的小文件合并的方法:ALTER合并模式和SQL合并模式D、大小小于盘古文件系统中的块BLOCK大小的文件,称之为小文件答案:ABC244.Python变量命名规则()。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头,例如,可将变量命名为message_1,但不能将其命名为1_message。B、变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingC、不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print。D、变量名应既简短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。答案:ABCD245.关于神经网络与深度学习的关系表述正确的是?A、深度学习的概念源于人工神经网络的研究B、含有多个隐层的神经网络算法就是一种深度学习算法C、单层神经网络也是深度学习的一种D、卷积神经网络属于深度学习的一种答案:ABD246.鼓励各部门、各单位强化大数据成果转化、应用与推广。对内赋能()等实际工作,对外支撑国家治理能力现代化和新兴业务发展,切实发挥电力大数据的经济价值和社会效益。A、电网运行B、经营管理C、客户服务D、基层减负答案:ABCD247.以下关于动态分区的描述正确的是:()。A、动态分区插入时,动态分区列必须在select列表中B、在使用动态分区功能的SQL中,在分布式环境下,单个进程最多只能输出512个动C、在现阶段,任意动态分区SQL不可以生成超过2000个动态分区D、动态生成的分区值可以为NULL答案:ABC248.关于参数共享的下列哪个陈述是正确的?A、它减少了参数的总数,从而减少过拟合。B、它允许在整个输入值的多个位置使用特征检测器。C、它允许为一项任务学习的参数即使对于不同的任务也可以共享(迁移学习)。D、它允许梯度下降将许多参数设置为零,从而使得连接稀疏答案:BD249.总部数据管理重点工作中,数据管理的工作目标是以数据资产“易懂、易取、易用”为目标,坚持“()()()”的原则A、面向专业B、面向基层C、面向应用D、面向业务答案:ABC250.关于循环神经网络(RNN)描述错误的是()。A、可以用于处理序列数据B、不能处理可变长序列数据C、不同于卷积神经网络,RNN的参数不能共享D、隐藏层上面的unit彼此没有关联答案:BCD251.使用ADS可以很好的支持即席查询,对一些复杂的查询,也能在很短的时间内返回处理结果。以下关于ADS中查询涉及的说法正确的有:()。A、如果用户的查询的条件会指定聚集列的内容或者范围,那么这样的查询性能便会有较大的提升B、处于关联方便的考虑,普通表可以放在维度表组上,这样该表和其他任意表关联都不在受表组的限制C、ADS中join会优先采用hashD、需要关联查询的普通表,需要放在同一个表组上答案:AD252.变量名可以包含()。A、字母B、数字C、下划线D、空格答案:ABC253.以下关于数据中台的描述,正确的是()。A、数据中台是企业级数据能力共享平台。B、数据中台将业务生产资料转变为数据生产力,通过数据整合、提纯加工、数据可视化推动数据价值释放,反哺业务,实现数据增值、赋能新业务。C、数据中台通过实现各类型数据资源全量纳管、处理分析,推动数据业务化。D、国网数据中台采用总部和省市公司两级部署模式构建。答案:ABCD254.在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A、HadoopYARN资源管理器B、GFS分布式存储系统C、MapRedue分布式处理技术D、BigTable分布式数据库答案:BCD255.技术中台为业务中台、数据中台及前台提供“()、()、()”的技术创新服务,助力企业数字化应用快速建设。A、统一B、易用C、多样D、强健答案:ABD256.下面是Numpy支持的统计函数有()。A、minB、maxC、medianD、mean答案:ABCD257.影响聚类算法效果的主要原因有:()A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量答案:ABC258.实时计算是一种持续、低时延、事件触发的计算任务,一般的数据处理过程涉及如下哪几个步骤()?A、实时数据源获取B、数据定时传输C、结果实时展示D、数据实时计算答案:ACD259.使用Python操作目录以下哪些符合()。A、mkdir:用于以数字权限模式创建目录B、getcwd:用于返回当前工作目录C、chdir:用于改变当前工作目录到指定的路径D、rmdir:用于删除指定路径的目录。仅当这文件夹是空的才可以,否则,抛出OSError。答案:ABCD260.感知机能容易实现逻辑(__)、(__)、(__)运算A、加减B、与C、或D、非答案:BCD261.优化设备管控,保障本质安全包括()。A、强化设备状态诊断,B、优化设备运维策略C、优化配电网运行D、优化设备物资供应链答案:ABD262.下列哪些是常用分词方法()。A、基于BinaryB、基于HMM的分词方法C、基于CRF的分词方法D、基于Kmeans的分词方法答案:BC263.数据增值存在于哪些过程中()。A、数据对象的封装B、数据系统的研发C、数据的集成应用D、基于数据的创新答案:ABCD264.各单位要从责任、管理和技术上夯实基础,完善数据安全风险防控体系,确保安全合规地____、____、____数据。A、公开B、使用C、交互D、共享答案:BCD265.严格按照______等法律法规关于个人信息保护的规定,遵循合法、正当、必要的原则,开展个人信息的处理活动A、《民法典》B、《网络安全法》C、《国家电网有限公司保密工作管理办法》D、《国家电网公司保护商业秘密规定答案:AB266.深度学习中的激活函数需要具有哪些属性?A、计算简单B、非线性C、具有饱和区D、几乎处处可微答案:ABD267.当Maxpute中某个字段取值为double,以下说法正确的是:()。A、double类型中使用丨nf表示无穷大B、double类型中使用NaN标识无穷小C、所有数据类型都可以有空值D、Datetime类型默认支持时区为GMT+8答案:ACD268.特征工程一般需要做哪些工作()。A、正则化B、标准化C、特征处理D、特征选择答案:CD269.以下哪些方法是tf-idf的变种()。A、TFCB、EWCC、ITCD、IG答案:AC270.下面()函数不是字符串处理函数。A、TRUNCB、TO_CHARC、SUBSTRD、INSTR答案:AB271.大数据计算服务(Maxpute,原ODPS)提供的是海量数据的存储和计算能力,和我们熟悉的关系型数据库存在较大的差别。以下说法中正确的是:()。A、不支持事务B、不支持deleteC、不支持索引D、不支持压缩答案:ABC272.市场域描述了企业经营过程中发生的企业内部组织之间、企业组织与外部组织之间的商品交易所形成的市场信息,主要包括下列哪些业务。A、市场参与者B、市场运行C、能量计划D、市场管理答案:ABCD273.数据应用优化生产运行,提升电网质效包括()。A、优化源网荷储协调和清洁能源消纳的调度管理B、优化配电网运行C、提升电网防灾抗灾能力D、优化设备物资供应链答案:ABC274.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据答案:ABC275.以下关于Hbase说法正确的是()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型答案:ABCD276.以下关于降维方法,叙述正确的是()。A、主成分分析是一种常用的非线性降维方法B、核化线性降维是一种常用的线性降维方法C、流形学习是一种借鉴拓扑流形概念的降维方法D、度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习答案:CD277.常见的原型聚类算法包括()。A、k均值算法B、学习向量量化C、高斯混合聚类D、密度聚类答案:ABC278.通过对技术能力持续的平台化沉淀,为业务中台、数据中台及前台提供“统一、易用、强健”的技术创新共享服务,助力企业数字化应用快速建设。A、业务中台B、数据中台C、前台D、数据终端答案:ABC279.浙江数据中台部署方式A、一级部署B、二级部署C、三级部署D、集中部署答案:ABD280.加强数据合规管理体系建设包括:A、强化数据合规的组织管理B、加强数据合规管理制度建设C、完善数据合规管理工作机制D、培育公司数据合规文化。答案:ABCD281.模块可以分为以下通用类别()。A、使用python编写的.py文件B、已被编译为共享库或DLL的C或C++扩展C、把一系列模块组织到一起的文件夹D、使用C编写并链接到python解释器的内置模块答案:ABCD282.关于现阶段大数据技术体系,说法正确的是()。A、基础设施提供数据计算、数据存储、数据加工(DataB、流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与APP为数据科学和大数据产业生态系统提供数据内容答案:ABCD283.关于数据组织的维度,以下选项中描述正确的是()。A、数据组织存在维度,字典类型用于表示一维和二维数据B、高维数据有键值对类型的数据构成,采用对象方式组织C、二维数据采用表格方式组织,对应于数学中的矩阵D、一维数据采用线性方式组织,对应于数学中的数组和集合等概念答案:BCD284.直方图修正法包括()。A、直方图统计B、直方图均衡C、直方图过滤D、直方图规定化;答案:BD285.项目空间(project)是大数据计算服务(Maxpute,原ODPS)的基本组织单元,它类似于传统数据库的Database。以下关于项目空间的说法中正确的有:()。A、所有的对象都会属于某个项目空间B、一个帐号可以拥有多个项目空间的权限C、一个帐号可以创建多个项目空间,最多不能超过10个D、通过安全授权,可以在一个项目空间中访问另一个项目空间中的数据答案:ABD286.加强数据传输、存储过程中的安全管理,釆取()等安全技术手段,确保符合相应安全条件或技术标准,具备灾备能力,防范数据泄露、篡改、损毁、丟失风险。A、加密B、隔离C、备份D、存储答案:ABC287.关于Hbase存储模型的描述正确的是:()。A、即使是:key值相同,qualifier也相同的多个KeyValue也可能有:多个,此时使用时间戳来区分B、同一个key值可以关联多个valueC、keyvalue中期有:时间戳,类型等关键信息D、每一个keyvalue都有:一个qualifier标识答案:ABCD288.人工智能平台总体架构由平台层、应用层、服务层组成。其中,平台层包括()、()、()、()、()支撑A、模型库B、样本库C、模型平台D、底层硬件算力答案:ABCD289.在大数据时代,企业所面临的挑战有:()。A、企业各个部门间数据分散,相同数据在各个部门内部存储格式不一致B、数据结构多样化C、竞争对手的技术进步D、数据在噪音、缺失、储存不规范等问题,需要进行大量的数据预处理工作答案:ABCD290.图像识别的精度会受到以下那些因素的影响()。A、数据类别数量不平衡B、输入图像尺寸不同C、图像中存在类标之外的环境干扰D、图像中存在随机噪声答案:ACD291.按照公司战略实施要求,立足数据发展需要,以“()”为核心,建立健全数据合规管理体系,明确数据合规管理职责与重点领域数据合规管理要求A、可管B、可控C、可查D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论