大数据练习卷附答案_第1页
大数据练习卷附答案_第2页
大数据练习卷附答案_第3页
大数据练习卷附答案_第4页
大数据练习卷附答案_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页大数据练习卷附答案1.通过KMeans算法进行聚类分析后得出的聚类结果的特征是()。A、同一聚类中的对象间相似度高,不同聚类中的对象间相似度高B、同一聚类中的对象间相似度高,不同聚类中的对象间相似度低C、同一聚类中的对象间相似度低,不同聚类中的对象间相似度低D、同一聚类中的对象间相似度低,不同聚类中的对象间相似度高【正确答案】:B2.回归问题和分类问题的区别是什么?A、回归问题与分类问题在输入属性值上要求不同B、回归问题有标签,分类问题没有C、回归问题输出值是连续的;分类问题输出值是离散的D、回归问题输出值是离散的,分类问题输出值是连续的【正确答案】:C3.下面有关线性判别分析错误的说法是哪个?A、通过对原始的数据进行线性变换,使得不同类的样本尽量分开B、线性变换可以使同类样本的方差变大C、线性变换可以使不同类别样本的距离加大D、提高不同类样本的可分性【正确答案】:B4.《国家电网公司信息网络运行管理规程》对进出机房的人员进行详细登记,有关的登记记录应保存的最短日期是()。A、1年B、2年C、3年D、半年【正确答案】:A5.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()【正确答案】:B6.依托数据建模与仿真,实现经营管理的()可视、运营可控、问题可溯,持续提升科学决策能力、业务运行效率和风险管控水平。A、数据B、流程C、业务D、进度【正确答案】:B7.以下哪项是对早期停止(earlystop)的最佳描述?()。A、训练网络直到达到误差函数中的局部最小值B、在每次训练期后在测试数据集上模拟网络,当泛化误差开始增加时停止训练C、在中心化权重更新中添加一个梯度下降加速算子,以便训练更快地收敛D、更快的方法是反向传播算法【正确答案】:B8.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7B7,具有零填充且步幅为1。该层的输入图片的维度是224x224x3。那么该层输出的维度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7【正确答案】:C9.下列()命令是删除文件。A、dfs-clearB、dfs-lsC、dfs-rmD、dfs-del【正确答案】:C10.当决策树很小时,训练和检验误差都很大,这种情况称作(___)。A、模型拟合不足B、模型过拟合C、泛化能力好D、模型拟合适当【正确答案】:A11.大数据应用的业务规划将聚焦核心领域,打造共()大重点业务、12个业务领域、34项业务方向。A、4B、5C、6D、7【正确答案】:B12.长短时记忆网络属于一种()。A、全连接神经网络B、门控RNNC、BP神经网络D、双向RNN【正确答案】:B13.CNN中用来完成分类的是()A、卷积层B、池化层C、全连接层D、激活层【正确答案】:C14.在数据仓库中,有以下销售事实表,字段如下:日期、产品编号、区域ID、渠道ID、销售数量、销售金额。其中属于维度,并且需要关联维度表的字段有几个?A、1个B、2个C、3个D、4个【正确答案】:C15.关于神经网络结构的权重共享现象,下面哪个选项是正确的()A、只有全连接神经网络会出现B、只有卷积神经网络(CNN)会出现C、只有循环神经网络(RNN)会出现D、卷积神经网络和循环神经网络都会出现【正确答案】:D16.与传统机器学习方法相比,深度学习的优势在于()。A、深度学习可以自动学习特征B、深度学习完全不需要做数据预处理C、深度学习完全不提取底层特征,如图像边缘、纹理等D、深度学习不需要调参【正确答案】:A17.()属于Spark框架中的可扩展机器学习库。A、MLibB、GraphXC、StreamingD、SparkSQL【正确答案】:A解析:

“MLlib(machinelearninglibrary)是Spark提供的可扩展的机器学习库18.企业中台中不包含()A、业务中台B、数据中台C、技术中台D、应用中台【正确答案】:D19.在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致数据异常,用户可以通过“异常数据”页签查看,以帮助异常写入的排查。下列同步过程中,支持异常诊断的是:()。A、Postgres->GaussDB、Oracle->RDSC、Mysql->GaussDB(forD、Postgres->GaussDB【正确答案】:B20.以下关于语言类型的描述中,错误的是______。A、解释是将源代码逐条转换成目标代码同时逐条运行目标代码的过程B、静态语言采用解释方式执行,脚本语言采用编译方式执行C语言是静态编译语言,Python语言是脚本语言D、编译是将源代码转换成目标代码的过程【正确答案】:B21.多义现象可以被定义为在文本对象中一个单词或短语的多种含义共存。下列哪一种方法可能是解决此问题的最好选择?A、随机森林分类器B、卷积神经网络C、梯度爆炸D、上述所有方法【正确答案】:B22.数据传输环节,在互联网大区传输重要数据时应()。A、加密保护B、明文传输C、明文接收D、任意操作【正确答案】:A23.负责关键信息基础设施安全保护工作的部门,应当建立健全本行业、本领域的网络安全监测预警和(),并按照规定报送网络安全监测预警信息。A、网络安全风控机制B、信息通报制度C、网络安全风险库D、信息预警制度【正确答案】:B24.已经为所有隐藏的单位建立了一个使用tanh激活的网络。使用np.random.randn(…,…)*1000将权重初始化为相对较大的值。会发生什么?A、没关系。只要随机初始化权重,梯度下降不受权重大小的影响。B、这将导致tanh的输入也非常大,从而导致梯度也变大。因此,必须将设置得非常小,以防止发散;这将减慢学习速度。C、这将导致tanh的输入也非常大,导致单元被“高度激活”。与权重从小值开始相比,加快了学习速度。D、这将导致tanh的输入也非常大,从而导致梯度接近于零。因此,优化算法将变得缓慢【正确答案】:D25.神经网络感知机只有()神经元进行激活函数处理,即只拥有一层功能神经元。A、输出层B、输入层C、感知层D、网络层【正确答案】:A26.以下关于Python程序的基本语法元素,错误的描述是()A、变量是由用户定义的用来保存和表示数据的一种语法元素B、Python语言只能用4个空格的缩进来实现程序的强制可读性C、变量的命名规则之一是名字的首位不能是数字D、变量标识符是一个字符串,长度是没有限制的【正确答案】:B27.混淆矩阵中的TP=16,FP=12,FN=8,TN=4,查准率是()A、1/4B、1/2C、4/7D、2/3【正确答案】:B28.下列表达式的值为True的是()。A、(2**=3)2>2B、3>2>2C、1==1and2!=1D、not(1==1and0!=1)【正确答案】:C29.根据数据分级分类管理要求,建立()。A、数据访问权限制度B、数据备份制度C、数据安全加密制度D、数据审计制度【正确答案】:A30.2*1的数组与1*3的数组相加结果为()。A、2*3的数组B、1*1的数组C、3*2的数组D、以上都不对【正确答案】:A31.有关深度学习加速芯片,以下的说法中不正确的是()A、GPU既可以做游戏图形加速,也可以做深度学习加速B、用于玩游戏的高配置显卡,也可以用于深度学习计算。C、GoogleTPU已经发展了三代,它们只能用于推断(Inference)计算,不能用于训练(Training)计算D、FPGA最早是作为CPLD的竞争技术而出现的【正确答案】:C32.各级单位网络安全归口管理部门是本单位网络安全等级保护工作归口管理部门,主要职责是不包括()A、本单位自建管理信息系统安全防护方案审查工作;B、本单位由本专业负责建设的信息系统的网络安全等级保护各环节工作。C、负责对本单位信息客服工作提出业务需求和目标;D、负责与所在地公安机关、行业主管部门的网络安全等级保护工作对接;【正确答案】:C33.关于机器学习模型训练步骤的说法,错误的是()。A、测试集能够测试模型对于未知数据的拟合效果B、验证集能够用于防止模型过拟合C、划分数据集时需要注意数据是否为同分布D、模型训练需要准备多个备选算法用于效果比较【正确答案】:B34.关联规则的评价指标是()。A、均方误差、均方根误差B、Kappa统计、显著性检验C、支持度、置信度D、平均绝对误差、相对误差【正确答案】:C35.根据国家电网互联[2020]745号《国家电网有限公司关于进一步规范数据安全工作的通知》,以下说法错误的是()。A、商业秘密、工作秘密、个人信息等纳入负面清单的数据,由数据使用方提出申请,经数据产生的总部业务部门和数据归口管理部门审批后方可对内跨部门、跨单位给数据使用方使用。B、公司对外提供数据时,应根据有关要求,执行标准统一的数据开放策略。C、涉密数据按照公司保密规章制度执行,严格履行相关保密合规审核流程。D、除国家机关依法调取数据外,原则上公司明细业务数据不对外提供。【正确答案】:B36.卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是()。A、增强图像B、简化图像C、特征提取D、图像处理【正确答案】:C37.训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择()为树模型的分界点。A、天气B、气温C、人体感受D、风力【正确答案】:A38.下列哪些不是目前机器学习所面临的问题是()。A、测试集的规模B、维度灾难C、特征工程D、过拟合【正确答案】:A解析:

目前,机器学习领域所面临的主要挑战包括过拟合、维度灾难、特征工程、算法的可扩展性39.需要生成一个[a,b]之间的整数,采用下列哪个代码()A、random.randomB、random.uniform(a,b)C、random.randint(a,b)D、random.ranrange(a,b)【正确答案】:C解析:

1、random.random():生成一个0-1之间的随机浮点数。2、random.uniform(a,b):生成[a,b]之间的浮点数。3、random.randint(a,b):生成[a,b]之间的整数。4、random.randrange(a,b,step):在指定的集合[a,b)中,以step为基数随机取一个数。5、random.choice(sequence):从特定序列中随机取一个元素,这里的序列可以是字符串,列表,元组等。6、random.choices(sequence,weights=None,cum_weights=None,k=1)choices()方法返回一个列表,其中包含从指定序列中随机选择的元素。可以使用weights参数或cum_weights参数权衡每个结果的可能性。序列可以是字符串、范围、列表、元组或任何其他类型的序列。————————————————版权声明:本文为CSDN博主「IT之一小佬」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:/weixin_44799217/article/details/12407107740.数据的异构性问题中,下列属于专用格式的是()A、XMLB、CSVCLASSD、OWL【正确答案】:C解析:

“class格式的字节码文件,在交给JVM通过字节码解释器或JIT即时编辑器混合执行,class文件其实就是一个二进制字节流文件,他有固定的格式。41.加强数据合规管理顶层设计,强化跨专业、跨层级统筹协调,建立健全()工作机制,确保公司数据合规管理工作有力、有序、有效推进。A、闭环B、协同C、安全D、监控【正确答案】:B42.应严格执行“规划指导计划、计划确定项目、项目安排资金”的要求,制定专项规划,落实投资计划,保障网络安全费用不低于信息化投入的()A、12%B、10%C、8%D、6%【正确答案】:C43.做好数据识别和分类分级,通过数据盘点理清数据状况,建立数据目录,以数据目录为基础梳理形成数据共享()A、白名单B、分级目录C、备忘录D、负面清单【正确答案】:D44.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积神经网络能达到该效果的原因,下列说法不正确的是()。A、同样模式的内容(如鸟嘴)在图像不同位置可能出现B、池化之后的图像主体内容基本不变C、不同种类鸟的相同部位(如鸟嘴)形状相似D、池化作用能使不同种类鸟变得相似【正确答案】:D45.中台建设目标A、大前台,强中台,活后台B、活前台,大中台,强后台C、小前台,强中台,大后台D、小前台,强中台,活后台【正确答案】:B46.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】:D47.将一副图像进行分割后,分割出的区域彼此之间(__)重叠。A、可以B、不可以C、根据任务需要确定是否可以D、根据分割方法确定是否可以【正确答案】:B48.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A、一次写入,少次读取B、多次写入,少次读取C、多次写入,多次读取D、一次写入,多次读取【正确答案】:D49.下列哪一项属于特征学习算法(representationlearningalgorithm)?A、K近邻算法B、随机森林C、神经网络D、都不属于【正确答案】:C50.相比LeNet-5,以下哪个不是AlexNet的创新点?()A、dropoutB、共享权重C、ReLU激活函数和重叠池化D、双GPU训练【正确答案】:B51.恶意大量消耗网络带宽属于拒绝服务攻击中的哪一种类型()。A、配置修改型B、基于系统缺陷型C、资源消耗型D、物理实体破坏型【正确答案】:C52.运行下面的代码后,变量n的类型是()。n={}A、setB、listC、未知类型D、dict【正确答案】:D53.以下数据库选型中,()是一种将任务分散到多个服务器节点,多个节点并行计算完成后,将各自部分的结果汇总到一起,得到最终结果的海量并行处理技术。A、PGB、MPPC、pipdownload<拟下载库名>D、pyinstaller需要在命令行运行:\>pyinstaller【正确答案】:B解析:

MPP(MassivelyParallelProcessing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。54.在Hadoop的分区阶段,默认的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用户自定义的Partitioner【正确答案】:C55.()可以使神经网络模型拟合复杂函数的能力增加。A、隐藏层层数增加B、Dropout比例增加C、增大学习率D、增加训练轮数【正确答案】:A56.按照《国家电网有限公司数据共享负面清单管理细则》,纳入公司负面清单的数据主要有()。A、商业秘密和工作秘密B、个人隐私C、相关敏感事项D、以上都是【正确答案】:D57.长短时记忆神经网络通过什么来缓解梯度消失问题()A、增加网络深度B、减少网络神经元C、使用双向的网络结构D、增加一个用来保存长期状态的单元【正确答案】:D解析:

在RNN网络中,可以通过使用LSTM(long-shorttermmemorynetworks)长短时记忆网络,来解决信息遗忘和梯度传播的问题58.下列关于线性模型说法正确的是()。A、ln=wx+b不是线性模型B、线性模型不能用梯度下降求解C、线性模型试图学得一个通过属性的线性组合来预测的函数D、线性回归模型是无监督学习【正确答案】:C59.HDFS是Hadoop体系中定位是()。A、为数据仓库的管理提供功能B、对大型数据集进行分析和评估C、日志收集分析D、数据存储管理的基础【正确答案】:D解析:

HDFS是Hadoop体系中定位是数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障。60.以下关于字符串类型的操作的描述,错误的是()A、str.replace(x,y)方法把字符串str中所有的x子串都替换成yB、想把一个字符串str所有的字符都大写,用str.upper()C、想获取字符串str的长度,用字符串处理函数D、设【正确答案】:C61.以下不符合大数据问题处理范畴的是A、1TB数据,秒级提交结果B、1TB数据,分钟级提交结果C、1TB数据,半小时内提交结果D、1TB数据,一天内提交结果【正确答案】:D62.关键信息基础设施的运营者采购网络产品和服务,应当按照规定与提供者签订(),明确安全和保密义务与责任。A、合作协议B、安全保密协议C、安全补充条款D、保密涵【正确答案】:B解析:

《中华人民共和国数据安全法》第三十六条:关键信息基础设施的运营者采购网络产品和服务,应当按照规定与提供者签订安全保密协议,明确安全和保密义务与责任。63.构建一个神经网络,将前一层的输出和它自身作为输入,下列哪一种架构有反馈连接()A、循环神经网络B、卷积神经网络C、限制玻尔兹曼机D、都不是【正确答案】:A64.以下()不是NoSQL数据库。A、MongoDBBigTableC、HBaseD、Access【正确答案】:D解析:

1.access的数据库类型是:关系型数据库。2.NoSQL数据库的分类:列存储(HBase)、文档存储(MongoDB)、Key-Value存储(Redis)、图存储(FlockDB)、对象存储(db4o)、XML存储(BaseX)、bigtable等65.Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用()语言实现开源软件框架。A、javaB、C++C、R语言D、以上都不是【正确答案】:A66.信息熵是度量()最常用的一种指标。A、样本的个数B、样本的维度C、样本的纯度D、样本的冗余度【正确答案】:C67.随机森林与Bagging中基学习器"多样性"的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和来自属性扰动D、多样本集结合【正确答案】:C68.下列哪种业务场景中,不能直接使用Reducer充当Combiner使用()A、sum求和B、max求最大值C、count求计数D、avg求平均【正确答案】:D69.以下那种卷积神经网络的设计引入了残差网络结构?A、LeNetB、AlexNetC、VGGD、ResNet【正确答案】:D70.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是()A、(AB)CB、AC(B)C、A(BC)D、所以效率都相同【正确答案】:A71.假定在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入,得到输出「-0.0001」。X可能是以下哪一个激活函数?A、ReLUB、tanhC、SIGMOIDD、以上都不是【正确答案】:B72.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核【正确答案】:D73.scipy.stats模块中随机变量的残存函数是()。A、cdfB、rvsC、pdfD、sf【正确答案】:D解析:

“sf:残存函数(1-CDF)ppf:分位点函数(CDF的逆)isf:逆残存函数(sf的逆)stats:返回均值,方差,(费舍尔)偏态,(费舍尔)峰度。moment:分布的非中心矩。”74.a=[1,2,3.4,5],切片时如果需要取[2,3.4],则下列结果正确的是()A、a[1:4]B、a[-2:]C、a[1:-1]D、a[::2]【正确答案】:C75.关于神经网络中经典使用的优化器,以下说法正确的是?Adam的收敛速度比RMSprop慢B、相比于SGD或RMSprop等优化器,Adam的收敛效果是最好的C、对于轻量级神经网络,使用Adam比使用RMSprop更合适D、相比于Adam或RMSprop等优化器,SGD的收敛效果是最好的【正确答案】:D76.要解决的问题只有少量的数据,但幸运的是有一个之前训练过的针对类似问题的神经网络模型。最佳方案是()。A、对于新的数据集重新训练模型B、冻结除第一层之外的所有层,微调第一层C、评估模型每一层的功能,然后选择其中的某些层D、冻结除最后一层之外的所有层,重新训练最后一层【正确答案】:D77.在Spark中,()是指RDD的每个分区都只被子RDD的一个分区所依赖。A、子分区B、父分区C、宽依赖D、窄依赖【正确答案】:D78.以下属于Python脚本程序转变为可执行程序的第三方库的是()A、requestsB、pyinstallerC、numpyD、scrapy【正确答案】:B79.参考公司()按域进行数据分类。A、维度模型B、公共数据模型(SG-CIM)C、通用数据模型D、业务分类【正确答案】:B80.卷积神经网络中池化层的作用是()。A、降低卷积层对位置的敏感性,同时降低对空间降采样表示的敏感性B、权值初始化C、对图像实现边缘检测D、提取输入的不同特征【正确答案】:A81.()的残差结构解决了深度学习模型的退化问题,在ImageNet的数据集上,其Top5准确率达到了95.51%。A、InceptionNetB、VCG网络C、ResNetD、AlexNet【正确答案】:C82.将两篇文本通过词袋模型变为向量模型,通过计算向量的()来计算两个文本间的相似度。A、正弦距离B、余弦距离C、长度D、方向【正确答案】:B83.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、combiner()C、join()D、gather()【正确答案】:B解析:

组合器函数combiner组合器函数是一个优化项,减少Map与Reduce之间的网络传输的带宽。84.以下程序的输出结果是:ss=list(set("jzzszyj"))ss.sort()print(ss)A、['z','j','s','y']B、['j','s','y','z']C、['j','z','z','s','z','y','j']D、['j','j','s','y','z','z','z']【正确答案】:B85.以下关于Python的控制结构,错误的是()A、每个if条件后要使用冒号(:)B、在Python中,没有switch-case语句C、Python中的pass是空语句,一般用作占位语句D、elif可以单独使用【正确答案】:D86.移动平均法是测定()的一种较为简单的方法。A、长期趋势B、循环变动C、季节变动D、不规则变动【正确答案】:A87.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A、活性B、惰性C、实时D、非实时【正确答案】:B88.如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。造成这一现象的原因可能是()。A、只有一部分核被用于预测B、当核数量增加,神经网络的预测能力降低C、当核数量增加,其相关性增加,导致过拟合D、以上都不对【正确答案】:C89.考虑下面的3项频繁集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5【正确答案】:C90.在发生或者可能发生个人信息泄露、毁损、丢失的情况时,网络运营者应当立即采取相应的()措施,按照规定及时告知用户并向有关主管部门报告。A、弥补B、补救C、救援D、相关【正确答案】:B解析:

《中华人民共和国网络安全法》第二十五条:网络运营者应当制定网络安全事件应急预案,及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险;在发生危害网络安全的事件时,立即启动应急预案,采取相应的补救措施,并按照规定向有关主管部门报告。91.数据科学是一门以()为主要研究任务的独立学科。A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”B、数据研发C、数据处理D、数据洞见【正确答案】:A92.数据中台提供列式存储、在线快速读写、线性扩展、监控管理等能力。支持大规模集群部署、PB级数据存储;支持组件API访问接口,支持扩展的()访问,支持ODBC、JDBC等开发接口。A、SQLB、weblogicC、javaD、hive【正确答案】:A93.根据《国家电网有限公司大数据应用管理办法(征求意见稿)》,以下说法错误的是()。A、公司大数据应用建设应按照电网数字化建设要求,遵循公司大数据应用统一技术架构与标准,充分利用数据中台等各类企业级大数据应用公共服务能力平台进行开发和实施。B、在数字化能力开放平台发布或独立开发的大数据应用,均需建立退出机制,对于不满足用户需求或无价值的成果,经评估后组织有序下线。C、大数据成果应用管理,主要包括成果共享、成果应用、成果推广等内容。D、按照“谁主管谁负责,谁运行谁负责,谁归口谁负责”的总体原则,明确大数据应用数据安全职责分工,落实数据安全责任。【正确答案】:D94.基于词的n元文法模型,其最后的粗分结果集合大小()N。A、大于B、大于等于C、小于D、小于等于【正确答案】:B95.以下代码的输出结果为()。importnumpyasnpa=np.array([[10,7,4],[3,2,1]])print(np.percentile(a,50))A、[[10B、3.5C、[6.5D、[7.【正确答案】:B96.假设给定一个长度为n的不完整单词序列,希望预测下一个字母是什么,如输入是predictio(9个字母组成),希望预测第十个字母是什么。适用于解决这个工作的是()。A、循环神经网络B、全连接神经网络C、受限波尔兹曼机D、卷积神经网络【正确答案】:A97.Dropout技术在下列哪种神经层中将无法发挥显著优势?A、仿射层B、卷积层C、RNN层D、均不对【正确答案】:C98.加强公司大数据应用项目化管理,建立全生命周期管理机制,运用数字化技术,强化()等关键环节和关键要素的在线管控力度,提升公司大数据应用管理规范性。A、职责、流程、制度、标准、评价B、职责、制度、流程、标准、评价C、职责、流程、标准、制度、评价D、职责、标准、制度、流程、评价【正确答案】:A99.某城市有甲、乙两个区,人口比例为2:3,据历史统计甲区的犯罪率为0.02%,乙区为0.03%,现有一起新案件发生在该市,那么案件发生在甲区的可能性有多大?()。A、0.31B、0.4C、0.6D、0.16【正确答案】:A100.CNN的()不能够减少网络自由参数的个数。A、全连接层B、池化C、权值共享D、局部连接【正确答案】:A1.下列关于梯度消失和梯度爆炸的说法正确的有()。A、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0B、可以采用ReLU激活函数有效地解决梯度消失的情况.根据链式法则。C、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大D、可以通过减小初始权重矩阵的值来缓解梯度爆炸【正确答案】:ABCD2.大数据应用应严格遵守国家数据安全相关法律法规和公司数据安全相关规定,严格执行数据获取、____、____、____、数据共享、数据销毁等环节安全管理要求,确保大数据应用工作安全合规。A、数据传输B、数据存储C、数据分析D、数据使用【正确答案】:ABD3.及时将数据活动中产生的智力成果纳入公司知识产权体系进行保护,妥善处理好数据()的关系。A、内部共享B、对外开放C、知识产权保护D、数据安全【正确答案】:ABC4.有关循环神经网络(RNN)的说法,以下哪些说法是正确的?()。A、RNN的隐层神经元的输入包括其历史各个时间点的输出B、RNN比较擅长处理时序数据,例如文本的分析C、在各个时间点,RNN的输入层与隐层之间、隐层与输出层之间以及相邻时间点之间的隐层权重是共享的,因为不同时刻对应同一个网络D、RNN的损失函数度量所有时刻的输入与理想输出的差异,需要使用梯度下降法调整参数不断降低损失函数【正确答案】:BCD5.下列目标检测网络中,哪个是单阶段的网络A、Faster-RNNB、SSDC、YOLOV3D、Cascade-RNN【正确答案】:BC6.企业中台作为公司新型数字基础设施的核心建设任务,是构筑()、()、(),是打造能源互联网数字化创新服务支撑体系的关键支撑,也是实现公司核心资源共享化、服务化的重要载体。A、电网生产运行B、经营管理C、客户服务数字化应用D、电网调度【正确答案】:ABC7.pandas中删除列的方式()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正确答案】:AB8.以下对模型性能提高有帮助的是()。A、数据预处理B、特征工程C、机器学习算法D、模型集成【正确答案】:ABCD9.针对维数灾难,我们主要采用的降维方法有哪些()。A、多维缩放B、主成分分析C、核化线性降维D、流形学习E、度量学习【正确答案】:ABCDE10.聚类性能度量的指标主要分为外部指标和内部指标,其中属于内部指标的是()。A、Jaccard指数B、FM指数C、DB指数Dunn指数【正确答案】:CD11.公司对外提供数据时,应通过与外部合作单位和供应商签订合同(含保密条款)、保密协议、保密承诺书等方式进行数据安全管控,合同、协议、承诺书由____会同____根据实际情况制定,内容需明确数据使用范围、途径等。A、供应商B、总师室C、业务部门D、法律合规部门【正确答案】:CD12.按照公司战略实施要求,立足数据发展需要,以“”为核心,建立健全数据合规管理体系。A、可靠B、可管C、可控D、可信【正确答案】:BCD13.图像识别的一般步骤包括()。A、预处理B、特征提取C、超像素生成D、识别分类【正确答案】:ABD14.依据()等标准文件,落实数据完整性、保密性、备份恢复和个人信息保护等技术要求。A、《信息安全技术网络安全等级保护基本要求》B、《中华人民共和国网络安全法》C、《信息安全技术个人信息安全规范》D、《中央企业商业秘密保护暂行规定》【正确答案】:AC15.关于AlexNet描述正确的是()。A、用dropout来控制全连接层的模型复杂度B、包含5层卷积和2层全连接隐藏层,以及1个全连接输出层C、将LeNet中的ReLU激活函数改成了Sigmoid激活函数D、首次证明了学习到的特征可以超越手工设计的特征【正确答案】:ABD16.噪声是指测量变量中的随机错误或偏差,噪声数据的主要表现有那几种形式()A、错误数据B、假数据C、异常数据D、僵尸数据【正确答案】:ABC17.DataWorks中,调度系统提供了一些常用的时间参数,周期性调度任务使用这些参数后,在调度运行时参数会自动赋值为具体的时间,以下哪些参数是调度系统内置时间参数?A、{yyyymmdd}B、{date}C、{yyyy-mm-dd}D、{bdp.system.cyctime}【正确答案】:BD18.语音识别的方法包括()。A、声道模型方法B、模板匹配的方法C、利用人工神经网络的方法D、语音知识方法【正确答案】:ABCD19.Spark容错性的方式有哪些()。A、数据检查点;B、存储原始数据;C、记录数据的更新;D、自建数据版本;【正确答案】:AC20.健全数据合规管理体系,落实管理职责,强化(),突出事前防范和过程管控,加强违规事件应对处置,严格管控数据合规风险。A、横向到边B、横向协调C、纵向指导D、纵向贯通【正确答案】:BC21.下列哪些是面向对象技术的特征()。A、封装B、继承C、多态D、分布性【正确答案】:ABC22.信息系统运行风险预警管控重点抓好风险辨识和管控措施落实“两个环节”,满足“准确性、及时性、()”要求。A、稳定性B、全局性C、全面性D、可靠性【正确答案】:CD23.关于学习器结合的描述正确的选项是()。A、避免单学习器可能因误选而导致泛化性能不佳B、降低陷入局部极小点的风险C、假设空间扩大,有可能学得更好的近似D、多学习器结合有可能冲突【正确答案】:ABC24.下面是python标准库的是()。A、osB、sysC、numpyD、re【正确答案】:ABD25.特征选择的目的:()。A、减少特征数量、降维B、使模型泛化能力更强C、增强模型拟合能力D、减少过拟合。【正确答案】:ABD26.过拟合和欠拟合都会导致问题,以下哪些问题可能是过拟合导致的()。A、误认为所有的树叶都必须有锯齿B、训练集损失很高,验证集损失很高C、训练集损失很低,验证集损失很高D、在测试集上效果好【正确答案】:AC27.下面提到的编程框架,()是MaxCompute支持的。A、SQLB、MapReduceC、MPID、Graph【正确答案】:ABCD28.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。A、精确性B、可辨认性C、可分离性D、视觉突出性【正确答案】:ABCD29.卷积层的输出通常由3个量来控制,它们是()。A、补零B、深度C、步幅D、输入数据【正确答案】:ABC30.ODS(OperationalDataStorage操作型数据存储)在数仓库中的作用,以下描述哪些是正确的?A、作为业务系统和数据仓库之间的数据隔离B、提供对历史明细数据查询需求C、可用于数据仓库对外提供即席查询功能D、可用于承担业务系统的细节数据查询功能【正确答案】:AD31.令U和V为3维向量,令A和B为3*3的矩阵,则下列说法正确的是A、如果B是3*3的单位矩阵,则A*B=B*AB、如果C=A*B,则C是6*6矩阵C、如果V是三维向量,则A*B*V是三维向量D、A*B=B*A【正确答案】:AC32.下面是Python注释语句的是()。A、'hello'B、'''hello'''C、"hello"D、<【正确答案】:BD33.下面是Python的特点和优点是()。A、解释性B、动态特性C、面向对象D、语法简洁【正确答案】:ABCD34.关于Hive的说法正确的是()。A、Hive是基于Hadoop的数据仓库工具B、Hive可以将结构化的数据文件映射为一张数据库表C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D、Hive的主要应用场景是离线分析【正确答案】:ABD35.____、____、____纳入负面清单的数据,由数据使用方提出申请,经数据产生的总部业务部门和数据归口管理部门审批后方可对内跨部门、跨单位给数据使用方使用。A、商业秘密B、工作秘密C、个人信息D、政府信息【正确答案】:ABC36.Spark组件包含哪两个算子()。A、Map;B、Action;C、Transformation;D、Reduce;【正确答案】:BC37.在大数据计算服务(MaxCompute,原ODPS)SQL中可以用逻辑运算连接多个条件,以下逻辑运算结果正确的有:()。A、TrueANDTrue=TrueB、FalseORFalse=FalseC、TrueANDFalse=FalseD、TrueorNULL=True【正确答案】:ABCD38.将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况?A、正则化效应被增强B、正则化效应被减弱C、训练集的误差会增加D、训练集的误差会减小【正确答案】:BD39.实现对多种能源的(),充分结合市场机制、价格机制,优化调度运行方案,实现多元能源主体之间的智能协同。A、全息感知B、智能预测C、精准调度D、自动化监控【正确答案】:ABC40.数据活动涉及公司商业秘密、工作秘密的,应严格执行()等有关规定,履行涉密审查流程,根据有关规定及工作需要确定知悉范围,并按照涉密程度实行分类管理。A、《信息安全技术网络安全等级保护基本要求》B、《中华人民共和国网络安全法》C、《囯家电网有限公司保密工作管理办法》D、《囯家电网公司保护商业秘密规定》【正确答案】:CD41.MaxCompute由:()部分组成。A、客户端B、接入层C、逻辑层D、计算层【正确答案】:ABCD42.下列关于EM算法描述正确的是(__)。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法【正确答案】:ABCD43.以下哪些属于深度学习中的优化算法()。A、SGDB、AdamC、MomentumD、MSELoss【正确答案】:ABC44.按照公司战略实施要求,立足数据发展需要,以“()”为核心,建立健全数据合规管理体系,明确数据合规管理职责与重点领域数据合规管理要求A、可管B、可控C、可查D、可信【正确答案】:ABD45.国家大数据发展战略,认真落实国务院国资委加强合规管理、建设法治央企工作部署,紧扣“________”的要求A、稳B、进C、育D、开【正确答案】:ABCD46.下列属于结合策略的是(__)。A、投票法B、平均法C、学习法D、排序法【正确答案】:ABC47.MapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内的广泛关注,并被大量应用到各种商业场景中。以下场景中,()适合用MapReduce来实现。A、交互式查询:基于海量数据的透视分析,用户可以通过上卷、下钻、切片等交互操作,了解数据集细节B、机器学习:监督学习、无监督学习、分类算法如决策树、SVM等C、文本统计分析:比如词频TFIDF分析;学术论文、专利文献的引用分析和统计;维基百科数据分析等D、Web访问日志分析;分析和挖掘用户在web上的访问、购物行为特征,分析用户访问行为【正确答案】:BCD48.若想知道定时作业的运行情况,可在下列哪个页面查看:A、作业监控B、实例监控C、任务监控D、通知管理【正确答案】:AB49.通过对技术能力持续的平台化沉淀,为()提供“统一、易用、强健”的技术创新共享服务,助力企业数字化应用快速建设。A、业务中台B、数据中台C、前台D、数据终端【正确答案】:ABC50.以下属于自然语言处理范畴的是()。A、情感倾向分析B、评论观点抽取C、文章分类D、新闻摘要抽取【正确答案】:ABCD51.Hadoop生态系统中,核心是()。A、FlumeB、MapReduceC、PigD、HDFS【正确答案】:BD52.SparkRDD的依赖机制包括()。A、宽依赖B、深度依赖C、广度依赖D、窄依赖【正确答案】:AD53.DataHub是实时数据分发平台、流式数据的处理平台,提供对流式数据的功能包含以下哪些。A、发布B、订阅C、分发D、同步【正确答案】:ABC54.技术中台为业务中台、数据中台及前台提供“()、()、()”的技术创新服务,助力企业数字化应用快速建设。A、统一B、易用C、多样D、强健【正确答案】:ABD55.网络运营者不得()其收集的个人信息。A、存储B、泄露C、篡改D、毁损【正确答案】:BCD56.下面()函数不是字符串处理函数。A、TRUNCB、TO_CHARC、SUBSTRD、INSTR【正确答案】:AB57.MaxCompute中的命令purgetable可以回收某张指定的表,以下说法正确的是:()。A、如果用户想在删除表时直接将磁盘空间释放,不占用回收站,可以使用DropTablePurge功能B、当表已被drop时,只有projectowner可以执行C、当指定名称的表存在时,projectowner或者对表有写权限的用户可以执行D、清空指定表名的对象在回收站中的记录,释放存储空间【正确答案】:ABCD58.在根虚拟节点的基础上,每个项目空间都应设置的二级虚拟节点类型包括:A、正常调度B、闲时调度C、顺序调度D、轮询调度【正确答案】:AB59.评估内容包括但不限于____和____两个方面,具体可包括使用频率、使用范围及应用大数据带来的效率提升、增加的社会或经济效益等。A、应用推广B、应用背景C、应用性能D、应用效益【正确答案】:CD60.深度学习的方法包括()A、监督学习B、无监督学习C、强化学习D、自主学习【正确答案】:ABC61.以下说法正确的是()。A、负梯度方向是使函数值下降最快的方向B、当目标函数是凸函数时,梯度下降法的解是全局最优解C、梯度下降法比牛顿法收敛速度快D、拟牛顿法不需要计算Hesse矩阵【正确答案】:ABD62.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数E、信息增益量【正确答案】:BCD63.从内外部环境与市场需求来看,大数据应用的业务规划将聚焦在()核心领域上。A、电网运营B、经营管理C、客户服务D、业务创新E、对外服务【正确答案】:ABCDE64.下列哪些是传统RDBMS的缺点()A、表结构schema扩展不方便B、全文搜索功能较弱C、大数据场景下I/O较高D、存储和处理复杂关系型数据功能较弱【正确答案】:ABCD65.下列说法正确的是()。A、cookielib库提供可存储cookie的对象,以便于与urllirequest库配合使用来进行访问B、过于频繁的爬虫不会带给网站额外的压力C、使用split()可以进行字符串的拆分D、正则表达式可以实现对爬取信息的快速过滤【正确答案】:ACD66.以下关于DataWorks周期任务正确的是()A、周期任务列表默认展示当前登录账号下的业务流程任务B、周期任务的实例均依赖于project_name_root节点,如果冻结该节点,周期任务实例将无法运行。C、任务提交后,将会在第二天23:30自动生成实例来运行任务。如果是在23:30以后提交的任务,D、周期任务是指调度系统按照调度配置自动定时执行的任务。【正确答案】:ABCD67.大数据应用专业支撑单位应落实大数据应用相关数据____和____,加强数据安全前沿技术研究应用,提升数据安全感知、监测、追溯和控制等能力,为大数据应用工作做好数据安全技术保障。A、安全策略B、管控措施C、技术研究D、技术应用【正确答案】:AB68.以下可以查看schema中所有表的语句是:A、元命令\dB、showtables;C、selecttablenamefrompg_tableswhereschemaname='test_schema';D、元命令\l【正确答案】:AC69.提升电网防灾抗灾能力,研究电网灾损与()等灾害之间的关联规律,优化电网运行策略并提高电网运行的可靠性,实现灾害风险预测与损失影响评估。A、台风B、火灾C、地震D、冰雪【正确答案】:ABCD70.大数据计算服务(MaxCompute,原ODPS)中,在做web日志分析时如果发现日志内容(对应字段log_content)中有’select’字符串,则有可能是恶意的sql注入攻击,可以使用()从日志表log中找出所有符合这种特征的访问。A、select*fromlogwheretolower(log_content)like"%select%’;B、select*fromlogwhereinstr(tolower(log_content,select')>0;C、select*fromlogwhere‘select’intolower(logcontent);D、select*fromlogwhereinstr(tolower(log_content)’select’,1)>0【正确答案】:ABD71.以下()是scipy中的模块。A、clusterB、constantsC、integrateD、io【正确答案】:ABCD72.下列关于ROC曲线和AUC说法正确的是:A、TPR=(TP)/(TP+FN)B、FPR=(FP)/(TP+FN)C、ROC曲线的纵轴是“真正确率”D、ROC曲线的横轴是“假正确率”【正确答案】:ABCD73.以下关于神经网络模型描述正确的是(__)。A、神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量B、神经网络模型建立在多神经元之上C、神经网络模型中,无中间层的神经元模型的计算可用来表示逻辑运算D、神经网络模型一定可以解决所有分类问题【正确答案】:ABC74.以下哪些是属于负面清单的数据()。A、商业秘密B、工作秘密C、个人信息D、统计数据【正确答案】:ABC75.对外发布特定数据产品和服务,需按照国家、行业相关法律法规要求,获得相应的(),根据《征信管理条例》,涉及提供征信服务的产品,须获得经营许可),并报业务部门和数据管理工作归口部门备案。A、备案B、授权C、资质D、牌照【正确答案】:ACD76.大数据成果应用管理,主要包括____、____、____等内容。A、成果共享B、成果应用C、成果交易D、成果推广【正确答案】:ABD77.数据故事化描述应遵循的基本原则A、忠于原始数据原则B、设定共同场景原则C、有效性利用原则D、3C精神原则【正确答案】:ABCD78.行存表相比于列存表的区别是()A、行存表面向百万级以下数据量,列存表面向千万级以上数据量。B、行存表适合数据更新,列存表适合做数据聚合。C、行存表按行存储数据,列存表按列存储数据。D、同样的数据,采用行存表存储比列存储所耗的时间更少【正确答案】:BCD79.在支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则导致该结果的原因有可能是(__)。A、其他参数保持不变,C值过大B、其他参数保持不变,λ值较少C、其他参数保持不变,σ较大D、其他参数保持不变,σ较小【正确答案】:ABD80.CNN相比于全连接的DNN有哪些优势()A、参数更少B、泛化更好C、训练更快D、更容易搭建;【正确答案】:ABC81.神经网络的拓扑结构可以分为()和随机型网络等。A、前向型B、后向型C、反馈型D、自组织竞争型【正确答案】:ACD82.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD83.关于降维说法正确的是()。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等【正确答案】:ACD84.关于激活函数以下说法正确的是A、sigmoid函数在深度神经网络中梯度反向传递时容易导致梯度消失B、tanh函数对于规模比较大的深度网络计算速度比较慢C、ReLU函数计算速度和收敛速度都比tan/sigmoid快D、ReLU函数的正区间存在梯度消失问题【正确答案】:ABC85.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】:AB86.下面是文件基本操作的函数()。A、closeB、readC、renameD、remove【正确答案】:ABCD87.动量梯度下降算法是通过()和()控制梯度下降的A、最小值B、指数加权平均值C、学习率D、标准差【正确答案】:BC88.Flink支持的时间操作类型包括:以下()选项。A、结束时间B、处理时间C、采集时间D、事件时间【正确答案】:BD89.在训练深度学习模型时,发现训练集误差不断减少,测试集误差不断增大,以下解决方法正确的是?A、数据增广B、增加网络深度C、提前停止训练D、添加Dropout【正确答案】:ACD90.大数据应用建设及运营过程中如发生数据安全问题,应()。A、立即暂停大数据应用建设或运营工作B、向互联网部、安保部、法规部及相关专业管理等部门报告C、由互联网部协同相关部门组织进行整改D、整改结果经评审合格后方可继续开展建设及运营工作【正确答案】:ABCD91.关于VACUUM,下列说法正确的是:A、可以使用VACUUMB、产生空间碎片的原因是因为进行了大量的更新或删除操作C、数据膨胀如果不加清理,会逐渐降低查询的效率D、VACUUM可以生成表的统计信息【正确答案】:ABC92.下面关于单样本Z检验的说法,正确的是()。A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量【正确答案】:BCD93.在Python中,执行importdatetimeasdt语句后,如下时间或日期定义方式正确的是()。A、dt.datetime(2019,12,12,23,23,23)B、dt.datetime(2019,0,0,23,23,23)C、dt.datetime(2019,12,12,0)D、dt.time(23,23,23)【正确答案】:ACD94.算法“歧视”现象可能出现在()。A、算法设计B、算法实现C、算法投入使用D、算法验证【正确答案】:ABC95.pandas中主要的数据结构是()。A、DataB、DataFrameC、FrameD、Series【正确答案】:BD96.根据训练数据是否拥有标记信息,学习任务可大致分为(___)和(___)。A、监督学习B、训练集C、无监督学习D、测试集【正确答案】:AC97.以下关于MapReduce1.0版本说法正确的是()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多种计算框架【正确答案】:ABCD98.以下跟图像处理相关的是()。A、图像识别B、人脸识别C、视频分析D、自然语言处理【正确答案】:ABC99.关于现阶段大数据技术体系,说法正确的是()。A、基础设施提供数据计算、数据存储、数据加工等服务B、流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与APP为数据科学和大数据产业生态系统提供数据内容【正确答案】:ABCD100.通过技术创新和管理变革交叉赋能,完成以客户为中心的快速迭代与创新,实现公司在客户、电网等核心业务能力提升及资源聚合。A、技术创新B、管理变革C、模式创新D、政策变革【正确答案】:AB1.互联网部依照数据质量管理评价标准对公司进行考核。A、正确B、错误【正确答案】:A2.基于数据中台组件和能力,研究枃构建数据应用研发平台,强化数据中台、联邦学习等前沿技术研究和落地,能够为促进数据共建共创、共用共享打下稳固基础。A、正确B、错误【正确答案】:B3.人工智能的研究途径是主张通过运用计算机科学的方法进行研究,实现人工智能在计算机的模拟。A、正确B、错误【正确答案】:A4.公司组织制定统一数据管理规章制度,各单位和部门落实数据管理要求,对本单位和本专业的数据负责,共同推进数据管理体系落地。A、正确B、错误【正确答案】:A5.从事数据交易中介服务的机构提供服务,应当要求数据提供方说明数据来源,审核交易双方的身份,但不能留存审核、交易记录。A、正确B、错误【正确答案】:B解析:

《中华人民共和国数据安全法》第三十三条:从事数据交易中介服务的机构提供服务,应当要求数据提供方说明数据来源,审核交易双方的身份,并留存审核、交易记录。6.数字化转型是推进公司战略目标落地、实现高质量发展的迫切需要。A、正确B、错误【正确答案】:A7.SparkJob默认的调度模式是FIFO。A、正确B、错误【正确答案】:A8.可信度带有较大的主观性和经验性,其准确性难以把握A、正确B、错误【正确答案】:A9.2021年公司数据增值服务工作的总体布局为“一体四翼”。A、正确B、错误【正确答案】:A解析:

国家电网公司2021年“两会”提出“一业为主、四翼齐飞、全要素发力”的总体布局,明确了公司改革发展的关键,确立了新形势下各项工作的战略方向。国网一体四翼指的是以电网业务为主体,以金融业务、国际业务、支撑产业、战略性新兴产业为四翼。10.公司组织制定数据共享负面清单管理规章制度,各单位和部门落实数据共享负面清单管理要求,对本单位和本专业的数据共享负面清单管理工作负责,做到职责明确、协同推进。A、正确B、错误【正确答案】:A11.国网大数据中心是公司数据管理的专业支撑机构,在总部互联网部和业务部门的委托和指导下,承担具体的数据管理和应用工作。A、正确B、错误【正确答案】:A12.统筹公司数据、知识、成果等资源围绕数据中台打造开放式的大数据应用发展模式,能够推动资源共享和跨界融合,主动融入新发展格局,带动产业链上下游共同发展构建互利共赢的能源数字新生态。A、正确B、错误【正确答案】:A13.开发实施类项目包括信息系统(平台)功能设计和利用各类编程语言进行开发(含需求分析、系统设计和开发等工作),以及开发工作完成或购买套装软件后的配套安装、配置调试和培训等工作的项目。A、正确B、错误【正确答案】:A14.大数据常见的计算方式有三种:离线计算、流计算以及在线计算,其中流计算是消息驱动的,数据更新一般是定时更新。A、正确B、错误【正确答案】:B15.逆向推理的缺点是若提出的假设目标不符合事实,但是不会降低系统效率。A、正确B、错误【正确答案】:B16.梳理一线业务岗位的数据责任需按照“坚持数据同源、一源一责、源头维护、一源多用”的原则。A、正确B、错误【正确答案】:A17.海伯伦定理可以在计算机上实现其证明过程。A、正确B、错误【正确答案】:B18.公司明确具有中国特色国际领先的能源互联网企业战略目标,提出“一业为主、两翼齐飞、全要素发力”发展布局,为公司数字化转型指明了方向、明确了目标。A、正确B、错误【正确答案】:B19.各业务部门参考互联网部评价标准对各二级单位的数据质量管理工作进行评价并制定考核规定。A、正确B、错误【正确答案】:A20.框架适合表达结构性的知识,概念、对象等知识最适于用框架表示A、正确B、错误【正确答案】:A21.做强做优现有产品和积极创新新业务、新模式是大数据应用的重点工作安排之一。A、正确B、错误【正确答案】:A22.依据国家相关法律法规和公司有关要求,对外提供数据中涉及国家秘密和公司商业秘密的,均按公司有关要求履行相应的审批手续A、正确B、错误【正确答案】:B23.结合业务发展情况,以及各单位在模型应用中发现的问题,大数据中心组织开展模型优化完善和维护。A、正确B、错误【正确答案】:A24.十四五期间,以“三融三化”为总体思路,全力推动公司全业务、全环节数字化转型。即主动融入电网业务、融入生产一线、融入产业生态,推进架构中台化、数据价值化、业务智能化,赋能电网和企业高质量发展。A、正确B、错误【正确答案】:A25.两个对象之间的相异度是这两个对象差异程度的数值度量。A、正确B、错误【正确答案】:A26.语义网络系统由两部分组成:由语义网络组成的知识库和用于求解问题的解释程序即推理机。A、正确B、错误【正确答案】:A27.公司数据中台初步建成,汇聚166套业务系统(137套二级部署系统、29套一级部署系统)核心数据、调控云和采集系统的实时数据,以及石油、煤炭、天然气、水资源、发电等企业外部数据。A、正确B、错误【正确答案】:A28.数据共享时,需坚持“一事一议”、层层审批的数据应用授权方式。A、正确B、错误【正确答案】:B29.国家支持开发利用数据提升公共服务的智能化水平。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第十五条:国家支持开发利用数据提升公共服务的智能化水平。提供智能化公共服务,应当充分考虑老年人、残疾人的需求,避免对老年人、残疾人的日常生活造成障碍。30.提供数据产品服务的社会公益类流程包括需求受理、保密合规审核、签订合同(协议)、提供服务四个环节A、正确B、错误【正确答案】:B31.公司各专业、各单位信息化基础不同、能力不一,对数字化转型的边界和目标认识有差异,导致对数字化转型的战略认知有区别。A、正确B、错误【正确答案】:A32.大数据计算服务(MaxCompute,原ODPS)中的日志表log是一张分区表,分区键是dt,每天产生一个分区用于存储当天新增的数据,现在共有dt=’20160101’至dt=’20160131’共31个分区的数据,为了删除20160101当天新增的数据,可以通过alter方式实现。A、正确B、错误【正确答案】:A33.Kafka通过每个Producer分配唯一ID避免任务重复执行。A、正确B、错误【正确答案】:A34.PCA的步骤包括构建协方差矩阵、矩阵分解得到特征值和特征向量、特征值排序、特征值归一化。A、正确B、错误【正确答案】:B35.推进新能源预测平台和碳市场交易辅助分析产品试点培育,试点开展火电企业碳排放监测与分析,探索碳排放诊断及对标模式等业务,加强技术与商业模式创新,推进市场应用拓展。A、正确B、错误【正确答案】:A36.专家系统的结构选择不需要根据系统的应用环境和所执行任务的特点就可以确定。A、正确B、错误【正确答案】:B37.DataHub数据源作为数据中枢,可提供完善的数据导入方案,能够快速解决海量数据的资源问题。()A、正确B、错误【正确答案】:B38.除政府监管类及公共开放类部分按法律、行政法规规定确需提供业务明细数据外,其余原则上不对外提供业务明细数据A、正确B、错误【正确答案】:A39.各单位要坚持维护数据安全和促进数据开发利用并重,以数据开发利用促进数据安全,以数据安全保障数据开发利用和产业发展。A、正确B、错误【正确答案】:A解析:

《中华人民共和国数据安全法》第十三条:国家统筹发展和安全,坚持以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展。40.数字化转型是数据业务化的过程,重点是挖掘数据价值,打造数字生态,赋能传统产业,拓展新兴产业,一般包括产业数字化和数字产业化两个方面。A、正确B、错误【正确答案】:A41.电网生产数字化转型方面,实现电网数据与业务数据融通共享,电网全景“一览无遗”、智能业务“一键生成”、协同作业“一线贯通”,有力提升湖南公司能源保障及系统运行可靠性。A、正确B、错误【正确答案】:A42.开展大数据应用成果年度征集遴选工作,印发大数据应用成果集,发布推介年度大数据应用优秀成果。A、正确B、错误【正确答案】:A43.ADS表存在主键,即可根据主键使用delete删除纪录。()A、正确B、错误【正确答案】:B44.启发式搜索一定比盲目式搜索好A、正确B、错误【正确答案】:B45.blink不包含PANGU组件。A、正确B、错误【正确答案】:A46.数字化转型可以看做是打造传统意义上的互联网企业。A、正确B、错误【正确答案】:B47.明细层中,公司维度模型数据主要依据九大业务主题分别整合,以此支撑自建统计分析类应用。A、正确B、错误【正确答案】:B48.RIPPER是一种基于规则的分类器。A、正确B、错误【正确答案】:A49.根据项目实际情況,可将结算并入竣工决算中一起编制。项目竣工决算报告应在项目竣工验收通过后三个月内完成。A、正确B、错误【正确答案】:A50.数据管理方面,健全规范公司数据管理标准,构建统一数据模型(SG-IMS)。A、正确B、错误【正确答案】:B51.政府监管类和公共开放类需求由相关业务部门承接,公益服务类和商务增值类需求由开展数据应用的业务部门(单位)承接A、正确B、错误【正确答案】:A52.数据授权流程包括需求提报、专业审核、授权实施三个环节。A、正确B、错误【正确答案】:A53.国网公司各分部和各单位可按要求自主决策推进数据开放事宜A、正确B、错误【正确答案】:B54.人工智能的研究长期目标是使现有的电子计算机更聪明,更有用,使它不仅能做一般的数值计算及非数值信息的数据处理,而且能运用知识处理问题,能模拟人类的部分智能行为。A、正确B、错误【正确答案】:B55.不确定性推理指推理所使用的知识和推出的结论可以是不确定的。所谓不确定性是真值为假。A、正确B、错误【正确答案】:A56.数据需求方对涉及本专业负面清单的数据共享需求进行专业审核与合规审查,明确敏感数据的脱敏要求。A、正确B、错误【正确答案】:B解析:

数据的共享应用要严格执行公司网络信息安全和保密有关规定,原则上只输出统计计算结果,明细数据不出中台,对涉及负面清单中个人信息等敏感数据的共享应用,由数据中台负责进行数据脱敏处理,保证数据应用安全。57.关联规则是反映事物之间的依赖关系,典型例子是购物篮分析,常见算法有Apriori关联算法和FP-growth关联算法。A、正确B、错误【正确答案】:A58.RDD中的数据被分区存储在集群中,使得任务可以并行执行。A、正确B、错误【正确答案】:A59.到“十四五”末,信息通信网络全面实现网络设备国产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论