大数据开发基础(习题卷23)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：66 大小：92.75KB 积分：3.6 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷23)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下面说法正确的是()。A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对[单选题]2.OTS的单表可以存储规模较大的数据。目前单表存储的限制为:（）。A)10TB)100TC)没有上限D)1T[单选题]3.以下print()命令编写错误的是（）A)print()B)print("abc")C)print('abc')D)print(1+'1')[单选题]4.一般情况下，若要提高ElasticSearch检索效率，可以采取什么操作?A)调整索引分片数B)使用Hive做底层存储C)压缩素引D)正价EsMaster节点[单选题]5.以下四个Hadoop预定义的Mapper实现类的描述错误的是A)IdentityMapper<K,V>实现Mapper<K,V,K,V>，将输入直接映射到输出B)InverseMapper<K,V>实现Mapper<K,V,K,V>，反转键/值对C)RegexMapper<K>实现Mapper<K,Text,Text,LongWritable>，为每个常规表达式的匹配项生成一个(match,1)对D)TokenCountMapper<K>实现Mapper<K,Text,Text,LongWritable>，当输入的值为分词时，生成(taken,1)对[单选题]6.以下表示返回系统当前日期的函数是()A)SystemDatetimeB)UnixtimeToDateC)DatepartD)FormatDate[单选题]7.HDFS数据写入流程描述错误的是?A)业务应用调用HDFSClient提供的APl,请求写入文件。B)业务调用close,flush后HDFSClient联系NameNode,确认数据写完成，DataNode持久化元数据。C)HDFSClient收到业务数据后，从NameNode获取到数据块编号.位置信息后，联系DataNode,并将需要写入数据的DataNode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNodel.再由DataNode1复制到DataNodeQ2DataNode3。D)HDFSClient联系NameNode,NameNode在元数据中创建文件节点。[单选题]8.在早期版本低的Hadoop中使用的是()方法来调度用户的作业。A)短作业优先B)高响应比优选C)基于时间片轮转D)先进先出[单选题]9.大数据解决方案中的哪一层可以帮助定义和分类各个必要的组件？A)业务层B)网络层C)服务层D)逻辑层[单选题]10.聚类分析的常见应用场景不包括：()A)发现关联购买行为B)目标用户的群体分类C)不同产品的价值组合D)探测发现离群点和异常值[单选题]11.针对MaxComputeSQL做逻辑分析的时候，会进行一些优化，不包括：（）优化。A)常量表达式（ConstantExpression)B)列映射（ColumnProjection)C)谓语动词下沉（PredictPushDown)D)扫描方式（ScanMethod)[单选题]12.下列关于计算机存储容量单位的说法中，错误的是（）。A)1KB<1MB<1GBB)基本单位是字节(Byte)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字符[单选题]13.某公司要建立资料库，该资料库要用ElasticSearch进行检索，请问下列哪些选项可以放到资料库中？A)Word文档B)公司宣传视频C)产品设计图D)以上全部正确[单选题]14.下列贝叶斯描述错误的是()。A)贝叶斯是概率框架下实施决策的基本方法B)贝叶斯基于概率和误判损失来选择最优的类别标记C)贝叶斯中期望损失定义为风险D)贝叶斯判定准则为最大化总体风险[单选题]15.表t中有1000万行数据，想要随意抽取10行数据，在odpscmd中执行消耗时间最短的方式是:（）。A)select*fromtwhererownum<=10B)gett10C)select*fromtlimit10D)readt10[单选题]16.HDFS中Namenode的主备仲裁，是由：（）组件控制的。A)HDFSClientB)NodeManagerC)ResourceManagerD)ZooKeeperFailoverController[单选题]17.关于降维算法中的主成分分析,()是错误的。A)有监督算法B)可以指定降维的维度C)基于方差来计算D)根据特征值大小来筛选特征[单选题]18.以下选项中关于HDFS的文件块的描述不准确的是（）。A)HDFS文件块的大小在1.0版本时是64M，在2.0的时候是128M.B)文件块（片）被存在哪个集群；谁有权限查看、修改这个文件等信息放在元数据Metadata中。C)文件块越大寻址时间越短。D)文件块的大小设置原则：最大化寻址开销。[单选题]19.在select语句的where子句中，使用正则表达式过滤数据的关键字是()A)likeB)againstC)matchD)regexp[单选题]20.在逻辑回归输出与日标对比的情况下，以下评估指标中()不适用A)AUC-ROCB)准确度C)LoglossD)均方误差[单选题]21.目前舆情分析产品中不包含以下哪类分析：()A)政务舆情B)商业舆情C)维稳舆情D)体坛舆情[单选题]22.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务、配置维护和命名服务等的工具是()。A)FlumeB)ZookeeperC)StormD)SparkStreaming[单选题]23.HDFS的命名空间不包含（）。A)字节B)文件C)块D)目录[单选题]24.下面()表示日期和时间的数据类型。--A)DECIMAL(6,2)B)DATEC)YEARD)TIMESTAMP[单选题]25.大数据元年是指（）。A)2012年B)2011年C)2013年D)2010年[单选题]26.下图所示的Map阶段,是描述哪个过程?A)PartitionB)SortC)Splill/MergeD)combine[单选题]27.()不是专门用于可视化时间空间数据的技术A)等高线图B)饼圈C)曲面图D)矢量场圈[单选题]28.不属于桌面虚拟化技术构架的选项是。A)SaaSB)PaaSC)IaaSD)HaaS[单选题]29.在回归模型中，()在权衡欠拟合和过拟合中影响最大。A)更新权重w时，使用的是矩阵求逆还是梯度下降B)使用常数项C)训练样本数量D)多项式阶数[单选题]30.下面不属于云计算特点的是（）A)超大规模B)私有化C)虚拟化D)高可靠性[单选题]31.聚合函数COUNT用于()A)计算元组个数B)计算属性的个数C)对一列中的非空值计算个数D)对一列中非空值和空值计算个数[单选题]32.（）完成HQL查询语句从词法分析、语法分析、编译、优化以及生成逻辑执行计划的生成。生成的逻辑执行计划存储在HDFS中，并随后由MapReduce调用执行。A)ParserB)YARNC)DriverD)Executor[单选题]33.DataFrame和RDD最大的区别是()。A)科学统计支持B)多了schemaC)存储方式不一样D)外部数据源支持[单选题]34.关于Flink的角色，下列哪-项说法是错误的?A)TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。B)Cient是Flink程序提交的客户端，对用户提交的Flink程序进行预处理，并提交到Flink集群中处理。C)JobManager扮演着集群中的管理者Master的角色，它是整个集群的协调者。D)TaskManager是实际负责执行计算的Worker.[单选题]35.()是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度A)DBSCANB)原型聚类C)密度聚类D)层次聚类[单选题]36.在神经网络学习中，感知机输出层中的M-P神经元通常被称为()A)闽值逻辑羊元B)激活函数C)挤压函数D)连接函数[单选题]37.当try语句中没有任何错误信息时，一定不会执行（）语句。A)tryB)elseC)finallyD)except[单选题]38.OTS单个分片下所有行的大小总和不能超过（）。A)无限制B)1GC)1MD)1T[单选题]39.下列关于气泡图的说法中,错误的是()A)气泡图中气泡的颜色是可以调整的B)气泡大小的不同意味着所代表的的数值的不同C)气泡图中的图形形状一定是圆形D)可以为每个气泡打上标签使其展示的数值更加直观化[单选题]40.信息情是度量()最常用的一种指标A)样本的个数B)样本的维皮C)样本的纯度D)样本的冗余皮[单选题]41.条件年龄BETWEEN15AND35表示年龄在15至35之间，且()A)不包括15岁和35岁B)包括15岁但不包括35岁C)包括15岁和35岁D)包括35岁但不包括15岁[单选题]42.HBaseShell是一个封装了Java客户端API的JRuby应用软件，有()和批处理模式这两种运行方式A)交互模式B)对象模式C)单例模式D)动态模式[单选题]43.在MapReduce中，哪个组件是用户不指定也不会有默认的()。A)CombinerB)OutputFormatC)PartitionerD)InputFormat[单选题]44.下列选项中，不属于字符串的是（）。A)"1"B)python'C)"""^"""D)1'.23[单选题]45.下面这条GaussDB200语句"calldbms_job.broken（1,true）:?的意思是（）?A)停止任务TD为1的Job.B)启动任务ID为1的Job.C)延时任务ID为1的Job.D)删除任务ID为1的Job.[单选题]46.Numpy中创建全为1的矩阵使用什么?A)np.zeros()B)np.ones()C)np.empty()D)np.arange()[单选题]47.大数据计算服务支持基于标签的安全，它是项目空间级别的一种强制访问控制策略，它的引入是为了让项目空间管理员能更加灵活地控制用户对敏感数据的访问。LabelSecurity可以对敏感数据的（）粒度进行控制。A)分区B)表C)列D)行[单选题]48.Python数据分析方向的第三方库是A)pdfminerB)beautifulsoup4C)timeD)numpy[单选题]49.TaskTracker使用?slot?等量划分本节点上的资源量，其中?slot?代表的是()。A)作业数量B)进程数量C)计算资源D)任务总数[单选题]50.将一副图像进行分割后，分割出的区域彼此之间()重叠A)可以B)不可以C)根据任务需要确定是否可以D)根据分割方法确定是否可以[单选题]51.我们常见的二维码标签属于物联网架构中的哪一层？A)感知层B)网络层C)处理层D)应用层[单选题]52.()计算框架源自一种分布式计算模型，其输入和输出值均为"键值对"结构。A)MahoutB)MapReduceC)SparkD)Sqoop[单选题]53.关于FusionlnsightHD安装流程正确的是A)安装Manager->执行pre,nstall->LLD工具进行配置->安装集群->安装后检查->安装后配置B)LLD工具进行安装＞执行pre1nstall->安装Manager->安装集群＞安装后检查＞安装后配置C)安装Manager->LLD工具进行安装－＞执行preinstall->安装集群－＞安装后检查->安装后配置D)LLD工具进行配置一＞执行preinstall->安装集群->安装Manager->安装后检查->安装后配置[单选题]54.在数据库技术中，产生数据不一致的根本原因是（）A)数据存储量太大B)没有严格数据保护C)未对数据进行完整性控制D)数据冗余[单选题]55.numpy中矩阵转成向量使用什么函数？A)np.shape()B)np.resize()C)np.arange()D)np.random()[单选题]56.当不知道数据所带标签时,可以使用()促使带同类标签的数据与带其他标签的数据相分离。A)分类B)聚类C)关联分析D)隐马尔可夫链[单选题]57.以下描述正确的是(__)。A)描述性分析等价于探索性数据分析B)相关关系等价于因果关系C)描述性分析是数据分析的第一步D)描述性分析是诊断性分析的进一步理解[单选题]58.关于L1、L2正则化,下列说法正确的是()。A)L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B)L2正则化技术又称为LassoRegularizationC)L1正则化得到的解更加稀疏D)L2正则化得到的解更加稀疏[单选题]59.()包含Spark的主要基本功能。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib[单选题]60.使用Maxcomputetunnel命令上传数据时，下列（）参数可以设定是否忽略脏数据。A)-dbrB)-fdC)-dfpD)-rd[单选题]61.某产品由甲乙两个工厂提供，甲工厂提供40%，乙工厂提供60%，甲工厂的次品率是1%，乙公司是2%，现在检测出一个次品，是甲工厂生产的概率是（）A)0.1B)0.75C)0.45D)0.25[单选题]62.不属于模型集成方法的是()A)直接集成法B)增强法C)堆叠法D)递归法[单选题]63.关于数据清洗，不正确的说法是（）A)单数据源，主键取值不能重复B)多数据源会存在数据重复，单位不一致的问题C)连续型数据不存在冗余问题D)缺失值可以采用删除和填补等方法处理[单选题]64.某BI系统构建在大数据计算服务上，某数据分析员在分析订单的地域分布时，需要把订单表order（占用存储空间约10G）与地狱维表region（占用存储空间100M）关联起来，两张表的结构如下：createtableorder(order_idstring,region_idstring,orderamtbigint);createtableregion(region_idstring,region_namestring)在运行时发现由于订单大量集中在上海地区，数据的倾斜导致整体运行时间较长，运行的SQL语句如下：selectregion_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id；此时可以考虑通过（）优化SQL的运行效率。A)使用mapjoinhint:select+mapjoin(t2)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;B)使用mapjoinhint:select+mapjoin(t1)*/region_name,sum(order_amt)amtfromordert1joinregiont2ont1.region_id=t2.region_id;C)调整两张表的位置：selectregion_name,sum(order_amt)amtfromregiont1joint2ont1.region_id=t2.region_id；D)减小SQL的splitsize，增加计算资源[单选题]65.Spark启用了()，出了能够提供交互式查询外，它还可以优化迭代工作负载。A)通用并行框架B)HiveC)分布式数据集D)Zookeeper[单选题]66.阅读下面程序>>>a=input("请输入一个数：")请输入一个数：56>>>print(a+10.5)运行的结果是A)66.5B)66C)出错D)以上都不对[单选题]67.Hadoop使用了一套独有的配置文件管理系统，并提供自己的API，即使用（）处理配置信息。A)org.apache.hadoop.conf.ConfigurationB)org.apache.hadoop.conf.ConfigC)org.apache.hadoop.fs.FileSystemD)org.apache.hadoop.fs.Path[单选题]68.执行以下代码段defdescribe_pet(animal_type,pet_name):print("Ihavea"+animal_type+".")print("My"+animal_type+"'snameis"+pet_name.title()+".")describe_pet('harry','hamster')时，输出为()。A)Ihaveaharry.Myharry'snameisHarry.B)Ihaveaharry.Myharry'snameisHamster.C)Ihaveahamster.Myhamster'snameisHamster.D)Ihaveahamster.Myhamster'snameisHarry.[单选题]69.下列不属于聚类性能度量外部指标的是（__）。A)Jaccard系数B)FM系数C)Rand指数D)DB指数[单选题]70.创建Loader作业时，可以在以下（）步骤中设置Map数。A)输出B)输入设置C)转换D)基本信息[单选题]71.当执行list('hello')时，输出是()。A)['h','e','l','l','o']B)[?hello?].C)[?olleh?]D)['h'][单选题]72.下列关于TF-IDF的说法正确的是（）。A)该值与特征项在文档中出现的频率成反比B)该值与特征项在文档中出现的频率成正比C)该值与在整个语料库中出现该特征项的文档库成正比D)该值与特征项在文档中出现的频率无关[单选题]73.数据安全不只是技术问题,还涉及()。A)人员问题B)管理问题C)行政问题D)领导问题[单选题]74.日前，多数NoSQL数据库是针对特定应用场景研发出来的，其设计遵循(原则，更强调读写效率、数据容量以及系统可扩展性。A)EASYB)READC)BASED)BASIC[单选题]75.Hadoop中Reducer执行阶段，同一时间执行()阶段。A)shuffle、sortB)shffle、reduceC)sort、reduceD)都不是同时进行[单选题]76.HiveSQL中DDL指定是哪一种语言？A)数据删除语言B)数据管理语言C)数据查询语言D)数据定义语言[单选题]77.数据使用的关键环节是:A)数据收集B)数据存储C)数据分析D)数据废弃[单选题]78.以下对非结构化数据描述不正确的是()。A)不能用关系数据库存储和管理的数据B)没有统一的结构C)图像是非结构化数据D)HTML是非结构化数据[单选题]79.中国自主研发、发布的首个人工智能平台叫做A)九天B)移娃C)大云D)OneNet[单选题]80.业务中台是将具有（）特征的业务沉淀形成企业级共享服务中心，各业务系统不再单独建设共性应用服务，直接调用业务中台服务。A)共性B)个性C)统一D)分散[单选题]81.若F_true=1000，N=50，则F=st.poisson(F_true).rvs(N)的含义是(__)。A)创建一个泊松分布的随机变量B)创建一个连续型随机变量C)创建一个泊松分布的有序变量D)创建一个离散型有序变量[单选题]82.HBase的物理存储单元是什么?A)RegionB)ColumnfamilC)ColumnD)Row[单选题]83.以下哪个不属于Hadoop中MapReduce组件的特点?A)高容错B)良好的扩展性C)实时计算D)易于编程[单选题]84.大数据计算服务提供了TunnelSDK，支持高速上传下载数据。实际使用的时候有两种方式，第一种是通过odpscmd客户端，调用封装好的tunnel命令，第二种是直接使用TunnelSDK进行编程，通过调用程序进行个性化的上传下载。目前SDK支持以下（）语言。A)javaB)C++C)PerlD)C#[单选题]85.以下哪种工作是Flume无法处理的？A)多个Flume级联合并B)按照用户定制采集数据C)直接写到Fink特定task中D)从固定目录下采日信息到目的地[单选题]86.下列描述中属于DMM（数据管理成熟度模型）中的关键过程域数据战略的是（）。A)数据战略制定B)业务术语表C)数据质量评估D)过程质量保障[单选题]87.在HBase的专用过滤器中，TimestampsFilter是（）A)时间戳过滤器B)包含结束的过滤器C)列计数过滤器D)首次行键过滤器[单选题]88.采用幂次变换进行灰度变换时，当幂次取大于1时，该变换是针对如下哪一类图像进行增强（）。A)图像整体偏暗B)图像整体偏亮C)图像细节淹没在暗背景中D)图像同事存在过亮和过暗背景[单选题]89.Python安装扩展库常用的是（）工具。A)pyinstallB)pipC)popD)post[单选题]90.()是指理解挖掘项目的目标业务需求。A)业务理解B)数据理解C)数据准备D)数据建模[单选题]91.情感信息抽取不包括以下哪些方法？（）A)基于命名实体识别的抽取方法B)基于重复段落的识别方法C)基于语义角色标注的抽取方法D)基于监督学习抽取的学习方法[单选题]92.你正在使用带有L1正则化的logistic回归做二分类，其中C是正则化参数，w1和w2是x1和x2的系数。当你把C值从0增加至非常大的值时，下面哪个选项是正确的?A)第一个w2成了0，接着w1也成了0B)第一个w1成了0，接着w2也成了0C)w1和w2同时成了0D)即使在C成为大值之后，w1和w2都不能成0[单选题]93.一幅512×512的图像，若灰度级数为16，则该图像大小为（）。A)32kBB)128kBC)1MBD)2MB[单选题]94.通过聚集多个分类器的预测来提高分类准确率的技术称为()A)组合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)[单选题]95.感知机只有（__）神经元进行激活函数处理，即只拥有一层功能神经元。A)输入层B)输出层C)第一层D)第二层[单选题]96.在以下代码片段中：i=1whileiA)10次B)9次C)0次D)以上都不对[单选题]97.如果想删除整个字符串使用A)listB)countC)delD)len[单选题]98.在大数据时代,尤其在数据科学中,人们对数据的认识与研究视角是()。A)、我能为数据做什么B)、如何设计算法和模型C)、数据能为我做什么D)、如何降低计算复杂度[单选题]99.中值滤波对(__)的表现较差。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声[单选题]100.Python对not、or、and求值的优先顺序是（）。A)andornotB)notandorC)orandnotD)ornotand[单选题]101.若视图是由调用视图的用户执行时,SQLSECURITY的值为()。--A)DEFINERB)INVOKERC)rootD)以上答案都不正确[单选题]102.Spark2.3.0集群搭建对jdk版本的要求是（__)。A)jdk1.5以上B)jdk1.6以上C)jdk1.7以上D)jdk1.8以上[单选题]103.大数据和算法关系以下描述正确的是:A)数据跟算法没有关系B)算法比数据更重要C)数据比算法更重要D)没有数据的算法没有意义,失去了算法的数据无法应用[单选题]104.下列不属于模型集成方法的是（）。A)直接集成法B)增强法C)堆叠法D)递归法[单选题]105.（）一般由信道不理想引起，它们与信号的关系是相乘的，信号在它在，信号不在时他也就不在了。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声[单选题]106.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？A)1B)2C)3D)4[单选题]107.聚类算法属于（__）。A)半监督学习B)有监督学习C)无监督学习D)一种分类方法[单选题]108.()不属于聚类性能度量外部指标。A)Jaccard系数B)FM系数C)Rand指数D)DB指数[单选题]109.下列关于常用模块功能的描述错误的是（）。A)datetime：datetime对象没有可将日期对象格式化为可读字符串的方法B)json：JS对象标记（JavaScriptobjectnotation，JSON）是一种轻量级的数据交换格式C)sys：这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数D)scipy：应用广泛的科学计算包277[单选题]110.下列关于HBase数据模型叙述不正确的一项是（）。A)表有单元格组成B)一个表可以包含若干个列族C)一个列族内可用列限定符来标志不同的列D)存于表中单元的数据尚需打上时间戳[单选题]111.()分类方法可以较好地避免样本的不平衡问题。A)KNNB)SVMC)BayesD)神经网络[单选题]112.关于Hive建表基本操作,描述正确的是A)一旦表建好,不可再修改表名B)一旦表建好,不可再增加新列C)创建外部表时需要制定external关键字D)一旦表创建好,不可再修改列名[单选题]113.（）与HDFS类似，均为分布式文件系统。A)NTFSB)FAT32C)GFSD)EXT3[单选题]114.下面不属于NoSQL的有(__)。A)ORACLEB)RedislabsC)couchbaseD)paradigm4[单选题]115.TF-IDF中的TF是指（）。A)某个词在文档中出现的次数B)文章的总次数C)某个词在文档中出现的次数/文章的总次数D)以上都不对[单选题]116.主节点程序（）。A)NameNodeB)DataNodeC)SecondaryNameNodeD)Jobtracker[单选题]117.使用给定模块的程序代码称为模块的()。A)客户端B)文档字符串C)接口D)模块化[单选题]118.以下（）组件负责生成和维护全局事务ID、事务快照、时间戳等全局唯一信息。A)GTMB)WLMC)CND)DN[单选题]119.下列关于云数据库的描述，哪个是错误的？（）A)云数据库是部署和虚拟化在云计算环境中的数据库B)云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法C)云数据库价格不菲，维护费用极其昂貴D)云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有发等特点[单选题]120.()不属于聚类性能度量外部指标A)Jacc缸d革数B)FM系数C)Rand指数D)DB指数[单选题]121.以下语句不正确的是()A)select*fromemp;B)selectename,hiredate,salfromemp;C)select*fromemporderdeptno;D)select*fromwheredeptno=1andsal<300;[单选题]122.在用户验证权限时，应当在?服务列表?中选择数据复制服务，进入DRS主界面，单击右上角（），尝试购创建迁移任务。A)修改迁移任务B)创建迁移任务C)查阅权限D)删除迁移任务[单选题]123.根据变量取名的规则，以下变量的命名，合乎规则的是（）A)6SB)S6C)whileD)123name[单选题]124.下面哪一项不是云数据库的特性？（）A)动态可扩展B)高成本C)易用性D)大规模并行处理[单选题]125.智能健康手环的应用，体现了（）数据采集技术的应用。A)统计报表B)网络爬虫C)传感器D)API接口[单选题]126.下列不属于基于图像灰度分布的阈值分割方法的是（）。A)类间最大距离法B)最大类间方差法C)Otsu方法D)区域生长法[单选题]127.回归方程判定系数的计算公式R2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A)式中的SSE指残差平方和B)式中的SSR指总离差平方和C)判定系数用来衡量回归方程的扰合优度D)判定系数R2等于相关系数的平方[单选题]128.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。A)中值滤波B)均值滤波C)最大值滤波D)最小值滤波[单选题]129.pynlpir是一种常用的自然语言理解工具包，其中进行分词处理的函数是（）。A)open（）B)segment（）C)AddUserWord（）D)generate（）[单选题]130.当训练集特征非常多，而实例非常少的时候，可以采用()A)sigmoid拔的支持向量机B)不带核的支持向量机C)高斯核的支持向量机D)多项式核的支持向量机[单选题]131.下列关于zookeeper描述正确的是：()A)无论客户端连接的是哪个Zookeeper服务器，其看到的服务端数据模型都是一致的B)从同一个客户端发起的事务请求，最终将会严格按照其发起顺序被应用到zookeeper中C)在一个5个节点组成的Zookeeper集群中，如果同时有3台机器宕机，服务不受影响D)如果客户端连接到Zookeeper集群中的那台机器突然宕机，客户端会自动切换连接到集群其他机器[单选题]132.以下哪些选项不属于大数据计算框架?A)tensorFlowB)ClouderaCDHC)ApacheHadoopD)FusionInsight[单选题]133.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变()。A)一个单位B)不变C)截距D)回归模型的尺度因子[单选题]134.下面哪种图matplotlib不可以绘制（）A)球体B)矩形C)折线D)散点[单选题]135.下列选项中，哪个方法可以一次性输出多个统计指标（）。A)describe()B)mean()C)median()D)sum()[单选题]136.HFile数据格式中的KeyValue数据格式中Value部分是（）。A)拥有复杂结构的字符串B)字符串C)二进制数据D)压缩数据[单选题]137.下列关于数据交易市场的说法中,错误的是()。A)数据交易市场是大数据产业发展到一定程度的产物B)商业化的数据交易活动催生了多方参与的第三方数据交易市场C)数据交易市场通过生产、研发和分析数据,为数据交易提供帮助D)数据交易市场是大数据资源化的必然产物[单选题]138.HBase交互模式中,创建命名空间的语法是（）A)createnamespace'自定义命名空间名称'B)create_namespace'自定义命名空间名称'C)alternamespace'自定义命名空间名称'D)alter_namespace'自定义命名空间名称'[单选题]139.下列代码中输出结果是False的是（）。A)>>>5isnot4B)>>>5！=4C)>>>False！=0D)>>>5is5[单选题]140.Hadoop中，Reducer的三个阶段是（）A)Shuffle--Sort--ReduceB)Shuffle--Reduce--SortC)Reduce--Shuffle--SortD)Sort--Shuffle--Reduce[单选题]141.用户数据归档，即存储冷数据（不经常访问的数据），适合选用哪种产品（）A)对象存储B)云备份C)云存储网关D)以上都不是[单选题]142.YARN中默认的资源调度器是?A)FIFO调度器B)容量调度器C)Fair调度器D)以上全不是[单选题]143.创建Loader作业中，可以在以下哪个步骤中设置过滤器类型？A)输入设置B)转换C)基本信息D)输出[单选题]144.数据故事话的?情景'不包括()。A)还原情景B)统计情景C)移植情景D)虚构情景第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的不属于哪类问题?A)聚类B)关联规则C)分类D)自然语言处理[多选题]146.以下些选项属示离线批处理的特点?A)数据吞吐量较大B)处理数据量相对较大C)处理时间相对较长D)数指不落地、存储量不大[多选题]147.下列说法中，哪些选项描述正确？A)Spark在借鉴HadoopMapReduce优点的同时，很好地解决了MapReduce所面临的问题B)Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作C)HadoopMapReduce编程模型比Spark更灵活D)HadoopMapReduce提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高[多选题]148.在Python中，执行importdatetimeasdt语句后，下列关于时间或日期的定义方式正确的有（）。A)dt.datetime（2019，12，12，23，23，23）B)dt.datetime（2019，0，0，23，23，23）C)dt.datetime（2019，12，12，0）D)dt.time（23，23，23）[多选题]149.HiveQL的查询语句中排序可以使用（）【选两项】A)orderbyB)sortbyC)distributebyD)countby[多选题]150.MapReduce支持的编程包括()。A)CB)C++C)JavaD)Python[多选题]151.在选择高斯函数作为核函数的支持向量机中，参数的选取会影响拟合的结果，如果出现过拟合的现象，则导致该结果的原因有可能是()A)其他参数保持不变，C值过大B)其他参数保持不变，C值较小C)其他参数保持不变，u较大D)其他，参数保持不变，σ较小[多选题]152.以下属于分类器评价或比较尺度的有:()A)预测准确度B)召回率C)模型描述的简洁度D)计算复杂度[多选题]153.下面属于训练集(Trainingdataset)和测试集(Testingdataset)区别表述的是()A)Testingdataset用于测试寻找到的函数的效果B)Trainingdataset用于寻找函数C)Trainingdataset用于挑选模D)Trainingdataset用于构建模型[多选题]154.基于Python语言的数据分析中常用于数据可视化的第三方包是()。A)NumpyB)MatplotlibC)PandasD)Seaborn[多选题]155.泛在电力物联网就是围绕电力系统各环节，充分应用（）等现代信息技术、先进通信技术，实现电力系统各个环节万物互联、人机交互A)移动互联B)创新应用C)人工智能D)高效技术[多选题]156.下面哪几项属于ElasticSearch的RESTful请求方式?A)GetB)DeleteC)UpdateD)Post[多选题]157.HBase中包含的典型的Filter有以下哪几项?A)RowFilterB)FilterListC)singleColumnValueFilterD)KeyOnlyFiter[多选题]158.可作为决策树选择划分属性的参数是()A)信息增益B)增益率C)基尼指数D)密度函数[多选题]159.根据《泛在电力物联网2019年建设方案》，2019年是泛在电力物联网建设?三年攻坚?战略突破期的开局之年，其总体目标是包括（）A)完成?2019-2021?三年规划编制和顶层设计，确定建设任务和保障措施；B)有序全面启动年度建设任务，完成所有专项方案设计和试点验证，在技术方案、实施策略、新兴业务和商业模式等方面探索形成典型成果和可推广模式；C)初步构建符合泛在电力物联网建设和发展需要的管理体系、组织架构和方法论。D)以上都不对[多选题]160.下列关于Python中的列表和字典的说法正确的有（）。A)字典和列表都可以通过?[]?操作符访问元素的值B)列表的索引必须是整型数或者切片C)字典不过是列表的另一个名字，二者没有区别D)字典的长度是动态的，而列表的长度是固定的[多选题]161.在聚类分析当中，（）等技术可以处理任意形状的簇。A)MIN（单链）B)MAX（全链）C)组平均D)Chameleon[多选题]162.对数据表进行连接操作,有哪些连接方法?()A)内部连接B)外部连接C)合并连接D)交叉连接[多选题]163.preprocessing.normalize()函数主要应用在(__)中。A)文本分类B)聚类C)图像分类D)图像分割[多选题]164.公司数据资产发展规划包括数据资产新增需求，以及（）等方面的工作目标、步骤和任务。A)自动采集需求B)数据资产应用C)大数据挖掘技术D)数据资产管理提升[多选题]165.KafkaConsumer跟踪消费记录需要以下哪几个选项的信息？A)productorB)topicC)partitionD)offset[多选题]166.Spark提交工作的方式有（）。A)ClientB)ClusterC)StandaloneD)YARN[多选题]167.信息时代的三大定律指的是（）。A)摩尔定律B)吉尔德定律C)麦特卡尔夫定律D)牛顿定律[多选题]168.医疗领域如何利用大数据？（）A)临床决策支持B)个性化医疗C)社保资金安全D)用户行为分析[多选题]169.ETL技术主要涉及()操作。A)抽取B)转换C)加载D)分析[多选题]170.可以创建一个ndarray的是（__)。A)np.zeros(10)B)np.eye(10)C)np.ones(10)D)array(10)[多选题]171.交叉验证可用于（__）、（__）和（__）。A)分类B)参数选择C)模型选择D)特征选择[多选题]172.避免?数据孤岛?的方法包括：A)关键匹配变量B)数据融合C)数据输入D)利用样本框[多选题]173.关于CREATE语句下列说法正确的是（）A)createtable表名(字段名1字段类型,字段名2字段类型,)B)createtables表名(字段类型,字段名1字段类型,字段名2)C)createtables表名(字段名1字段类型,字段名2字段类型,)D)createtable表名(字段类型,字段名1字段类型,字段名2)[多选题]174.图像识别的精度会受到以下那些因素的影响。A)数据类别数量不平衡B)输入图像尺寸不同C)图像中存在类标之外的环境干扰D)图像中存在随机噪声[多选题]175.大数据的主要特征()。A)容量大B)类型多C)存取速度快D)应用价值高[多选题]176.下列关于仪表盘图的说法中,正确的有()A)仪表盘主要用于直观地展示出某个指标的执行进度或完成的实际情况B)仪表盘图可以用于管理报告中,向管理者汇报当前指标的进展C)我们可以为一个仪表盘设置多个目标值D)仪表盘使用场景较窄,主要用于进度或占比的体现,不太适用于趋势、流程、速度等维度的可视化[多选题]177.对于ADS的索引说法正确的是:（）。A)一个列可以设置列属性disableIndex=true，用于屏蔽ADS的默认列索引B)ADS弱化了索引的概念，用户无需亲自为自己的数据表配置索引C)ADS拥有高度智能的自动化索引机制，会搜集相关信息，去自动创建索引D)用户需要对某列进行hashJoin时，无论是事实表之间的join还是事实表和维度表的join，都需要考虑手工处理索引问题。[多选题]178.下列属于范数规则化作用的有（）。A)保证模型尽可能的简单，避免过拟合B)约束模型特征C)最小化问题D)最大化问题[多选题]179.以下选项对GraphBase概念描述正确的是?A)Vertex:节点/顶点,用于表示现实世界中的实体对象。B)VertexLabel:节点的标签,用于表示现实世界中的实体类型。C)EdgeLabel:边的标签,用于表示现实世界中的关系类型D)Edge:边,用于表示关系度[多选题]180.数据安全检查内容着重公司重要数据在采集、传输、存储、处理、废弃过程中的合规性，以及（）A)相关管控机制是否落实到位B)相关技术措施是否应月得当C)相关访问权限是否合理规范D)相关责任主体是否履行义务[多选题]181.HadoopMapReduce主要文件输入格式有（）A)TextInputFormatB)InputFormatC)SequenceFormatD)KeyValueFormat[多选题]182.数据资产应用管理主要任务包括（）A)归集数据资产应用成果B)评估数据资产应用成效C)促进共享和应用D)促进共享和应用[多选题]183.网站个性化推荐的背后，可以使用哪些类型的数据实现A)半结构化B)结构化C)非结构化D)无结构化[多选题]184.大数据交易平台的类型主要包括哪两种：（）A)综合数据服务平台B)实时数据交易平时C)零散数据交易平台D)第三方数据交易平台[多选题]185.下列哪些指标可以用来评估线性回归模型（）？A)R-squaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE[多选题]186.在文件处理中，有哪些打开文件的模式()。A)tB)r+C)raD)ar[多选题]187.以下关于降维方法的叙述,正确的是()。A)主成分分析是一种常用的非线性降维方法B)核化线性降维是一种常用的线性降维方法C)流形学习是一种借鉴拓扑流形概念的降维方法D)度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习[多选题]188.计算10分钟内的单词，每5分钟更新次。若程序在12:00开始运行，在12:07收到的个数字。这个数字应该对应于以下哪些窗口的计数A)12:00-12:10B)11：55-12:05C)12:05-12:15D)12:10-12:20[多选题]189.以下（）方法可以支持Maxcompute中受保护项目空间的数据流出。A)使用owner通过policy授权B)设置例外（ExceptionPolicy）C)使用owner通过ACL授权D)设置项目互信（TrustedProject）[多选题]190.深度学习最常用的算法包含（）A)CNNB)RNNC)ANND)MPP[多选题]191.以下属于MySQL图形化管理工具的是（）。--A)phpMyAdminB)SQLyogC)MySQLWorkbenchD)Navicat[多选题]192.多融合发展重点是深入挖掘变电站资源价值，建设（）等设施A)运营充电站B)能源中心站C)储能站D)北斗基站[多选题]193.具体由创建世界一流能源互联网企业办公室统筹组织，下设()常设小组A)技术组B)运营组C)商务组D)管理优化组[多选题]194.云计算的优势体现在以下几个方面A)设备数量B)设备成本C)运维成本D)管理成本[多选题]195.以下有关特征数据归一化的说法,正确的是()。A)特征数据归一化加速梯度下降优化的速度B)特征数据归一化有可能提高模型的精度C)线性归一化适用于特征数值分化比较大的情况D)概率模型不需要做归一化处理[多选题]196.数据科学的(__)往往来自于统计学。A)理论B)方法C)技术D)工具[多选题]197.下列可用于处理由于光照不均带来的影响的图像处理方法有（）。A)同态滤波B)顶帽变换C)基于移动平均的局部阈值处理D)拉普拉斯算子[多选题]198.函数如下：defchanageList(list):list.append("end")print("list",list)#调用strs=['1','2']chanageList(strs)print("strs",strs)下面对strs和list的值输出正确的是()A)strs['1','2']B)list['1','2']C)list['1','2',?end?]D)strs['1','2',?end?][多选题]199.下面哪些是spark比Mapreduce计算快的原因（）A)基于内存的计算B)基于DAG的调度框架C)基于Lineage的容错机制D)基于分布式计算的框架[多选题]200.下列关于HLog工作原理的描述，哪些是正确的？A)分布式环境必须要考虑系统出错。HBase采用HLog保证B)HBase系统为每个Region服务器配置了一个HLog文件C)Zookeeper会实时监测每个Region服务器的状态D)Master首先会处理该故障Region服务器上面遗留的HLog文件[多选题]201.Hadoop中map输出结果说法正确的是()。A)<key，value>键值对B)输出中间临时结果C)输出最终计算结果D)输出结果永久保留[多选题]202.大数据的定义是：A)指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合B)任何超过了一台计算机处理能力的数据量C)技术D)商业[多选题]203.StructuredStreaming中通过什么机制，解决数据的无序和滞后问题？A)留连接B)持续查询C)Wartermark机制D)事件时间[多选题]204.(__)是?黑客精神和技能?。A)大胆创新B)喜欢挑战C)追求完美D)不断改进[多选题]205.根据《承德银行大数据贷后风险预警信号管理办法（试行）》，大数据贷后预警处置对象是指我行已开展授信业务的（）。A)自然人客户B)法人客户C)非法人组织D)以上都不对[多选题]206.互联网金融的管理涉及多个部门,要多部门协同合作管理,其中包括()A)工商总局B)人民银行C)银监会D)公安部E)工信部第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.大数据技术的解诀方案思路是聚焦在单台机器上，思考如何提升单机的性能，寻找更贵更好的服务器.A)正确B)错误[判断题]208.转义字符r?\n?的含义是回车换行。A)正确B)错误[判断题]209.数据产品开发涉及数据科学项目流程的部分活动。()A)正确B)错误[判断题]210.简单随机抽样，是从总体N个对象中任意抽取n个对象作为样本，最终以这些样本作为调查对象。在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差异。A)正确B)错误[判断题]211.x=[1,2,3]，那么执行xA)正确B)错误[判断题]212.HBase的scan方法读取数据时返回的数据保存在Result对象中？A)正确B)错误[判断题]213.在GBK和CP936编码中一个汉字需要2个字节。A)正确B)错误[判断题]214.Python中可以自定义函数，并且函数返回值类型是可变的。A)正确B)错误[判断题]215.在循环中continue语句的作用是跳出当前循环。A)正确B)错误[判断题]216.Flink采用checkpoint机制保障应用程序运行中的容错性。A)正确B)错误[判断题]217.大数据发展必须是数据、技术、思维三大要素的联动，缺一不可A)正确B)错误[判断题]218.大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。()A)正确B)错误[判断题]219.实时检索的金融场景应用中，可以查询交易凭证，追溯交易，以及查询客户信用记录，帮助客户快速借款。A)正确B)错误[判断题]220.任何完整的大数据平台，一般包括以下的几个过程，数据采集->数据存储>数据处理->数据展现（可视化，报表和监控）。其中，数据采集是所有数据系统必不可少的个环节，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。A)正确B)错误[判断题]221.SELECTBIN(2);的执行结果为11。--A)正确B)错误[判断题]222.Pandas和NumPy的本质区别：NumPy数组只有一种数据类型，DataFrame每列的数据类型各不相同。A)正确B)错误[判断题]223.存储过程可以没有返回值。--A)正确B)错误[判断题]224.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。A)正确B)错误[判断题]225.在采集数据的过程中，通过在滚动完文件的名称后添加一个标识的策略，不能避免因日志文件过大而导致上传效率低的问题。A)正确B)错误[判断题]226.集合支持双向索引，最后一个元素的索引是-1。A)正确B)错误[判断题]227.Loader的作业执行失败，则此作业运行过程中导入的数据不会被删除，必须手动删除。A)正确B)错误[判断题]228.用户自定义的reduce()函数接受一个中间key值和一个相关的value值的集合。A)正确B)错误[判断题]229.标准库os的rename()方法可以实现文件移动操作。A)正确B)错误[判断题]230.训练CNN时，可以对输入进行旋转、平移、缩放（增强数据）等预处理提高模型泛化能力。这么说是对，还是不对？A)正确B)错误[判断题]231.在IAM控制台创建用户组时，不应当授予数据复制服务管理员权限?DRSAdministrator?权限。A)正确B)错误[判断题]232.两个变量相关,它们的相关系数r可能为0。这句话()。A)正确B)错误[判断题]233.实时检查询只能查询结构化数据。A)正确B)错误[判断题]234.默认情况下,MySQL5.7不支持SSL加密连接。--A)正确B)错误[判断题]235.授予给everyone的权限，非项目空间内的用户也可以使用。A)正确B)错误[判断题]236.Flink是Apache社区孵化的项目。A)正确B)错误[判断题]237.Pandas与Numpy对象迭代的速度是一样的。A)正确B)错误[判断题]238.云计算这个概念继承自大数据的概念。A)正确B)错误[判断题]239.逻辑回归主要用来做回归。A)正确B)错误[判断题]240.用户权限管理基于角色的访问控制，提供可视化的多组统一的集群中用户权限管理。A)正确B)错误[判断题]241.在可视化模块中,我们可以通过在仪表板中创建文本组建的方式为最终可视化结果添加标题;()A)正确B)错误[判断题]242.实时流处理系统中，要求数据权限和资源隔离，多种流处理应用之间要进行资源控制和隔离，防止发生资源争抢。A)正确B)错误[判断题]243.多维数组操作索引时，可以将切片与整数索引混合使用。（）A)正确B)错误[判断题]244.Python的主程序文件pythonA)正确B)错误[判断题]245.聚类（clustering）是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。A)正确B)错误[判断题]246.SET类型只能从给定的列表中选择一个值使用。--A)正确B)错误[判断题]247.实时流处理系统中消费后的数据可以存储到关系型数据库中，便于实时查询。A)正确B)错误[判断题]248.Python类的构造函数是__init__()。A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.HDFS体系结构HDFS采用了主从()结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据4.hive内部表和外部表的区别。[问答题]250.在Streaming中,消息可靠性级别中精确一次是通过ACK机制来实现的。A)TRUEB)FALSE[问答题]251.在HDFS中，通过执行()命令查看HDFS根目录下的所有文件及文件夹。[问答题]252./var/hadoop/pids用于做什么？[问答题]253.单机（本地）模式中的注意点？[问答题]254.hdfs-site.xml的3个主要属性？[问答题]255.Zookeeper引入()机制实现分布式的通知功能。[问答题]256.server.channels.ch1.transactionCapacity表示事务大小,即当前channel支持事务处理的事件个数,可和source的batchsize设置为同样大小,但不能小于batchsize。A)TrueB)False[问答题]257.简述局部变量和全局变量的区别。[问答题]258.启动hdfs的shell脚本为()[问答题]259.格式化HDFS系统的命令为（hdfsnamenode-format）[单选题]260.HashPartitioner是MapReduce的默认artitioner，其计算方法是(),得到当前的Reducer。A)whichreducer=(key.hashCode()&Integer.MAX_VALUE)%numReduceTasksB)whichreducer=(key.hashCode()||Integer.MAX_VALUE)%numReduceTasksC)whichreducer=(key.hashCode()|Integer.MAX_VALUE)%numReduceTasksD)whichreducer=(key.hashCode()!Integer.MAX_VALUE)%numReduceTasks1.答案:C解析:根据训练样本误差为零,无法推断测试样本误差是否为零。如果测试样本集很大,则很可能发生过拟合,导致模型不具备很好的泛化能力。2.答案:C解析:3.答案:D解析:4.答案:A解析:5.答案:B解析:InverseMapper<K,V>实现Mapper<K,V,V,K>【吐槽：反转（对称），就是K,V变成V,K】6.答案:A解析:7.答案:B解析:8.答案:D解析:9.答案:D解析:10.答案:A解析:11.答案:D解析:12.答案:D解析:13.答案:D解析:14.答案:D解析:15.答案:D解析:16.答案:D解析:17.答案:A解析:主成分分析法属于无监督算法。18.答案:C解析:19.答案:D解析:20.答案:D解析:21.答案:D解析:22.答案:B解析:Zookeeper和Chubby均是分布式协调服务。23.答案:A解析:24.答案:D解析:25.答案:C解析:26.答案:D解析:27.答案:B解析:28.答案:D解析:29.答案:D解析:30.答案:B解析:31.答案:C解析:32.答案:C解析:33.答案:B解析:相比于RDD,DataFrame多了数据的结构信息,即schema。34.答案:A解析:35.答案:A解析:36.答案:A解析:37.答案:D解析:38.答案:B解析:39.答案:C解析:40.答案:C解析:41.答案:C解析:42.答案:A解析:43.答案:A解析:44.答案:D解析:45.答案:A解析:46.答案:B解析:47.答案:C解析:48.答案:D解析:49.答案:C解析:50.答案:B解析:51.答案:A解析:52.答案:B解析:53.答案:B解析:54.答案:D解析:55.答案:B解析:56.答案:B解析:聚类是一种典型的无监督学习任务,不要求样本集数据带标签。57.答案:C解析:58.答案:C解析:L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;L2正则化可以防止模型过拟合,一定程度上L1也可以防止过拟合,L1正则化又称LassoRegression。59.答案:A解析:60.答案:A解析:61.答案:D解析:62.答案:D解析:63.答案:C解析:64.答案:A解析:65.答案:C解析:66.答案:C解析:67.答案:A解析:68.答案:B解析:69.答案:D解析:70.答案:A解析:71.答案:A解析:72.答案:B解析:TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，TF是词频（TermFrequency），IDF是逆文本频率指数（InverseDocumentFrequency）。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。A中应是成正比，C中应是成反比，B正确。73.答案:B解析:数据安全不只是技术问题,还涉及管理问题。74.答案:C解析:75.答案:A解析:76.答案:D解析:77.答案:C解析:78.答案:D解析:79.答案:A解析:80.答案:A解析:81.答案:A解析:82.答案:B解析:83.答案:C解析:84.答案:A解析:85.答案:C解析:86.答案:A解析:数据战略制定属于DMM（数据管理成熟度模型）中的关键过程域?数据战略?。87.答案:A解析:88.答案:B解析:89.答案:B解析:略。90.答案:A解析:根据CRISP-DM(cross-industrystandardprocessfordatamining,跨行业数据挖掘标准流程)模型,业务理解是指从业务的角度了解项目的要求和最终目的,并将这些目的与数据挖掘的定义以及结果结合起来。91.答案:B解析:92.答案:C解析:93.答案:B解析:512×512表示像素个数，16级灰度用二进制表示需要4位，故存储图像所需的二进制位数为：512×512×4，即1024kbit，所需字节数除以8为128kB，注意单位的不同。94.答案:A解析:95.答案:B解析:96.答案:B解析:97.答案:C解析:98.答案:C解析:99.答案:B解析:100.答案:B解析:详见对比符优先级。101.答案:B解析:102.答案:D解析:103.答案:D解析:104.答案:D解析:模型集成方法包括直接集成法、自助法、随机森林、增强法和堆叠法等。105.答案:C解析:106.答案:B解析:常识题？107.答案:C解析:108.答案:D解析:聚类常用的外部指标包括Jaccard系数、FM指数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。109.答案:A解析:strftime（）是datetime库将日期对象格式化为可读字符串的方法。110.答案:A解析:111.答案:A解析:KNN只是取了最近的几个样本点做平均,离预测数据较远的训练数据对预测结果不会造成影响,但是SVM、Baves和KNN的每一个训练样本结果都会对预测结果产生影响。112.答案:C解析:113.答案:C解析:GFS也是分布式文件系统。114.答案:

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷23)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷23)

文档简介

温馨提示

最新文档

评论

相关文档