大数据开发基础(习题卷6)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：66 大小：74.04KB 积分：3.6 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷6)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.要级联删除用户创建的表等数据库对象，使用关键字（）。A)STRICTB)CASCADEC)USAGE[单选题]2.图灵奖获得者JimGray提出的"科学研究第四范式"的全称为()。A)数据密集型科学发现B)以数据为中心的科学发现,C)数据驱动型的科学发现D)大数据科学研究[单选题]3.互联网思维核心（）A)用户思维B)迭代思维C)流量思维D)平台思维[单选题]4.对数据可视化的作用说法不正确的一项是()A)数据分析B)数据过滤C)信息记录D)横纵对比[单选题]5.OLTP是什么意思（）A)面向过程的实时处理系统B)面向对象的实时处理系统C)面向事务的实时处理系统D)面向系统的实时处理系统[单选题]6.当用户输入abc时，下面代码的输出结果是:try:n=0n=input("请输入一个整数:")defpow10(n):returnn**10except:print("程序执行错误")A)输出：abcB)程序没有任何输出C)输出：0D)输出：程序执行错误[单选题]7.下面代码的输出结果是:forsin"HelloWorld":ifs=="W":continueprint(s,end="")A)HelloorldB)HelloC)WorldD)HelloWorld[单选题]8.在条件允许的前提下，（）对数据安全进行审计，（）进行一次全面审计。A)1年/3年B)1季度/1年C)1年/2年D)半年/1年[单选题]9.以下()不是NoSQL数据库。A)MongoDBB)BigTableC)HBaseD)Access[单选题]10.如果LASSO模型中的惩罚项变大，下列说法正确的是（）A)部分回归系数会变为0B)部分回归系数会趋近于0，但不会取值为0C)A和B的表述都正确D)以上说法都不正确[单选题]11.下列有关Hive和Impala的对比错误的是（）。A)Hive与Impala中对SQL的解释处理比较相似，都是通过词法分析生成执行计划B)Hive与Impala使用相同的元数据C)Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询D)Hive在内存不足以存储所有数据时，会使用外存，而Impala也是如此[单选题]12.以下关于KafkaPartition偏移量的描述不正确的是?A)每条消息在文件中的位置称为offset答案:偏移量B)消费者通过答案:offset.partition.topic跟踪记录C)唯一标记一条消息D)Offset是一个String型字符串[单选题]13.可以实现数组的除法是哪个函数？A)np.subB)np.addC)np.mulD)np.div[单选题]14.下列关键字中，用来引入模块的是()A)includeB)fromC)importD)continue[单选题]15.执行以下代码段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7*2self.b//=2classLastGraph(MyGraph):passg2=LastGraph()g2.action()print(g2.a)时，输出为()。A)22B)84C)16D)34[单选题]16.a和b为两个整数，以下关系表达式语法错误的是？A)a==bB)abC)a>=bD)a!=b[单选题]17.如果要将读写位置移动到文件开头，需要使用的命令是（）。A)closeB)seek（0）C)truncateD)write（'stuff'）[单选题]18.Python中statsmodel库和（）库关系密切。A)NumpyB)ScipyC)JiebaD)Pandas[单选题]19.可以对大数据进行深度分析的工具是（）。A)浅层神经网络B)ScalaC)深度学习D)MapReduce[单选题]20.plt.axvspan()函数中的参数alpha的作用是(__)。A)指定图表网格线的透明度B)指定图表参考区域透明度C)指定图表网格线颜色D)指定图表参考区域颜色[单选题]21.Hbase元数据MetaRegion路由器信息存放在（）。A)ZookeeperB)Meta表C)HMasterD)Root表[单选题]22.若arr=np.array([1,2,3,4,5,6,7,8])，则arr[5:8]=12的意义为（__)。A)将第5个和第8个元素改成12B)将第6、7、8个元素修改成12C)将第8个元素赋值给第5个元素D)创建一个全为12的数组[单选题]23.hadoop中什么类提供了连接到HDFS系统并执行文件操作的基本功能（）A)FSDirectoryB)DFSClientC)ClientProtocolD)FSInputStream[单选题]24.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A)0.82B)0.64C)0.8D)0.7[单选题]25.伪彩色处理和假彩色处理是两种不同的色彩增强处理方法，说出下面属于伪彩色增强的处理？A)将景象中的蓝天边为红色，绿草变为蓝色B)用自然色复制多光谱的景象C)将灰度图经频域高通/低通后的信号分别送入红/蓝颜色显示控制通道D)将红、绿、蓝彩色信号分别送入蓝、红、绿颜色显示控制通道[单选题]26.假设已经配置好PATH环境变量，启动Hadoop的命令是（）。A)start-hdfs.shB)start-fs.shC)start-dfs.shD)start-hadoop.sh[单选题]27.Flink中的DataStream数据流转不包含以下哪项?A)DatasourceB)TransformationsC)DatasinkD)Actions[单选题]28.HBase中需要根据某些因素来确定一个单元格，这些因素可以视为一个?四维坐标?，下面哪个不属于?四维坐标?？A)行键B)关键字C)列族D)时间戳[单选题]29.KafkaClusterMirroring工具可以实现以下哪些功能?A)Kafka跨集群数据同步方案B)Kafka单集群内数据备份C)Kafka但集群内数据恢复D)以上全不正确[单选题]30.阿里云MaxCompute中，用于在关系表达式中匹配任意一个字符的是:（）。A)'%'B)'#'C)*D)'\'[单选题]31.HAVING子句的位置放在GROUPBY子句之（）A)前后都可以B)前C)后D)以上都不对[单选题]32.HDFS的设计者采用了()的概念，实现了一个高度容错性的系统。A)机器学习B)数据挖掘C)集群计算D)块复制[单选题]33.下列选项中，执行哪一个命令查看Linux系统的IP配置A)ipconfigB)findC)ifconfigD)arp-a[单选题]34.执行以下代码段x=[i**2foriinrange(3)]print(x)时，输出为()。A)[0,1,2]B)[0,1,4]C)[1,2,3]D)[1,2,9][单选题]35.采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，推荐使用以下哪种channel类型？A)MemoryChannelB)FileChannelC)JDBCChannelD)HDFSChannel[单选题]36.关于Hadoop中MapReduce说法正确的是()。A)可以没有Reduce任务B)Reducer输入为随机输入C)Shuffie主要实现数据可视化功能D)一个Reducer只能从一个Map复制所需要的partition[单选题]37.下列选项中，用于删除缺失值的方法是（）A)isnull()B)delete()C)dropna()D)fillna()[单选题]38.np.sqrt(10)的结果是？A)3.1622776601684B)3C)10D)1[单选题]39.4A账号生命周期管理包括：（）A)账号开通B)账号变更C)用户维护、用户离职D)以上全部[单选题]40.以下关于机器学习，描述错误的是：（）A)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、.脑科学等诸多领域的交叉学科B)研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能C)机器学习强调三个关键词：算法、模型、训练D)基于数据的机器学习是现代智能技术中的重要方法之一[单选题]41.运行下面程序，输出的结果是（）。DefchanageInt（number2）：number2=number2+1print（"changeInt：number2="，number2）#调用Number1=2；ChanageInt（number1）print（"number："，number1）A)changeInt：number2=3number：3B)changeInt：number2=3number：2C)number：2changeInt：number2=2D)number：2changeInt：number2=3[单选题]42.在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量这一过程称为()。A)合并B)嘈数据聚合C)归一化D)数据处理[单选题]43.TF-IDF与一个词在文档中的出现次数成(__)。A)正比B)反比C)无关D)幂次[单选题]44.(__)是在不影响数据完整性和数据分析结果准确性的前提下，通过减少数据规模的方式减少数据量，进而提升数据分析的效果与效率。A)数据缩减B)数据加工C)数据清洗D)数据归约[单选题]45.主键的建立有()种方法A)一B)四C)二D)三[单选题]46.（）承担公司网络安全监督职能，负责公司网络安全工作监督、检查与评价，负责组织公司网络安全事件调查。A)国调中心B)国网安质部C)国网信通部D)网络安全和信息化领导小组[单选题]47.下面对?ORDERBYpno,level?描述正确的是()。--A)先按level全部升序后,再按pno升序B)先按level升序后,相同的level再按pno升序C)先按pno全部升序后,再按level升序D)先按pno升序后,相同的pno再按level升序[单选题]48.()是数据库管理系统运行的基本工作单位。A)事务B)数据仓库C)数据单元D)数据分析[单选题]49.物联网的核心和基础是（）A)RFIDB)计算机技术C)人工智能D)互联网[单选题]50.以下关于Saoop数据导入原理的描述中，错误的是哪-项?A)Sqoop会根据传入的num-mappers来确定划分几个区域。B)Saoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。C)num-mappers越大效率越高。D)Saoop在import时，需要指定split-by参数。[单选题]51.执行以下代码段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7self.b**=2classLastGraph(MyGraph):passg1=MyGraph()g2=LastGraph()g1.action()g2.action()print(g1.a)print(g2.b)时，输出为()。A)158B)1516C)1716D)916[单选题]52.下列哪种说法是错误的A)除字典类型外,所有标准对象均可以用于布尔测试。B)空字符串的布尔值是False。C)空列表对象的布尔值是False。D)值为0的任何数字对象的布尔值是False。[单选题]53.以下对Velocity相关描述不正确的是()。A)Velocity是指速度快B)实时分析数据处理要求速度快C)大数据中所说的?速度?包括两种：增长速度和处理速度D)通常而言，处理速度比增长速度快[单选题]54.在HBase数据模型中，不可以作为行键的是（）。A)字符串B)整数C)二进制串D)并行化的结构[单选题]55.以下关于字典类型的描述，正确的是：A)字典类型可迭代，即字典的值还可以是字典类型的对象B)表达式forxind:中，假设d是字典，则x是字典中的键值对C)字典类型的值可以是任意数据类型的对象D)字典类型的键可以是列表和其他数据类型[单选题]56.Flume数据采集的过程中,下列选项中能对数据进行过滤和修饰的是?A)SinkB)ChannelC)ChannelselectorD)Interceptor[单选题]57.使用（）关键字声明匿名函数。A)functionB)funcC)defD)lambda[单选题]58.()选择成为支持向量机的最大变数。A)核函数B)样本空间C)模型D)算法[单选题]59.将python中的.py文件转换为.pyc文件的组件为()。A)编辑器B)编译器C)虚拟机D)解释器[单选题]60.下列关于Hadoop中Shell类说法错误的是（）A)Shell类是一个继承类B)Shell类定义了如何在当前文件系统环境中，通过命令进行交互C)Shell类定义了静态的字符串命令D)Shell类定义了与实现命令的执行相关的属性[单选题]61.下列哪一个不属于大数据产业的产业链环节？A)数据循环层B)数据源层C)数据分析层D)数据应用层[单选题]62.下面哪个选项不是我们需要Hadoop的主要原因（）A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的[单选题]63.DRDS的读策略中不包含：（）A)主库读B)均衡C)自定义D)主库写[单选题]64.假设已从标准库functools导入reduce（）函数，那么表达式reduce（lambdax，y∶x+y，[1，2，3]）的值为（）。A)NoneB)6C)3D)9[单选题]65.下面（）函数不是字符串处理函数。A)TRUNCB)TO_CHARC)SUBSTRD)丨NSTR[单选题]66.以下（）不属于?加强人才队伍建设?的范畴。A)加强数据管理岗位培训，重点开展数据管理体系、数据管理理论、数据管理实践等知识培训。B)搭建数据管理交流平台，根据工作推进情况定期举办数据管理工作交流座谈。C)充分发挥大数据中心、科研产业单位作用，构建数据专业支撑团队。D)组织各种形式的数据知识竞赛等活动。[单选题]67.在HBase中，Scan类的（）方法设置时间戳范围A)setTimeRange()B)setTimeStamp()C)setMaxVersions()D)setRange()[单选题]68.启动HDFS上的垃圾回收机制只需要配置两个参数：一个是erval，另外一个是erval，若是erval的值设置为0，则表示（）A)表示垃圾检查点之间的分钟数为0分钟B)表示和erval的值相等C)表示自动开启垃圾回收功能D)表示禁用垃圾回收功能[单选题]69.在Flink技术架构中,以下哪项是流处理和批处理的计算引擎?A)StandaloneB)RuntimeC)FlinkCoreD)DataSteam[单选题]70.MacOS系统的开发者是（）A)微软公司B)惠普公司C)苹果公司D)IBM公司[单选题]71.文本向量的每个元素表示该词的（）。A)顺序B)频率C)含义D)语义关系[单选题]72.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。A)硬间隔支持向量机B)软间隔支持向量机C)线性核函数支持向量机D)多项式核函数支持向量机[单选题]73.一切皆可连，任何数据之间逻辑上都有可能存在联系，这体现了大数据思维维度中的()。A)定量思维B)相关思维C)因果思维D)检验思维[单选题]74.下面哪个Flume功能可以给Event添加Header信息。A)数仓与大数据的并行架构B)低成本高扩震性的传统数仓架构C)以数仓为核心,大数据平台为延伸的融合架构D)大数据平台为核心的架构[单选题]75.在Spark技术中，RDD实现了用户的逻辑，而（__）是Storage模块与其他模块交互最主要的类，它提供了读和写Block的接口。A)org.apache.spark.storage.BlockB)org.spark.storage.BlockManagerC)org.apache.spark.BlockManagerD)org.apache.spark.storage.BlockManager[单选题]76.实时处理的步骤中，实时计算的前一步是以下哪一项?.A)实时展示B)实时缓存存储C)实时采集D)实时落地[单选题]77.程序如下：i=0j=0while(iA)1B)0C)2D)4.5[单选题]78.以下哪项不是深度学习最近火热的原因（）A)神经网络是一个全新的领域B)需要处理的数据量急剧加大C)计算能力的不断提升D)深度学习在很多重要领域，例如语音识别和图像识别等方面取得了重大成就[单选题]79.对于随机森林和GBDT,下面说法正确的是()。A)在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D)GBDT训练模型的表现总是比随机森林好[单选题]80.F1参数的大小反映了模型的（__）。A)准确度B)误差C)稳定性D)偏差[单选题]81.下列关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述，正确的是（）A)隐藏层层数增加，模型能力增加B)Dropout的比例增加，模型能力增加C)学习率增加，模型能力增加D)都不正确[单选题]82.一幅灰度均匀分布的图像，其灰度范围在[0,255]，则该图像的信息量为（）。A)0B)6C)8D)255[单选题]83.给定词汇表如下:{"B、oB、","ok","like","footB、A、ll","C、A、r"}。则下面句子?B、otlikesfootB、A、ll"的词袋模型表示为:A)、[11100]B)、[10110]C)、[10010]D)、[01101][单选题]84.BI工具采用哪种分析方式？()A)自助式探索B)图表展示C)查询搜索D)人工互助[单选题]85.设计坐出租车收费程序，3公里内按10元收取，超3公里不超10公里按每公里1.5元收取，超过10公里按每公里1.3元收取,请问根据以上情况用什么语句合适A)ifB)if…elif…elseC)whileD)以上都不对[单选题]86.函数如下：defshowNnumber(numbers):forninnumbers:print(n)下面那些在调用函数时会报错（）A)showNumer([2,4,5])B)showNnumber(?abcesf?)C)showNnumber(3.4)D)showNumber((12,4,5))[单选题]87.假设你正在训练一个LSτM网络，你有一个10000词的词汇表，并且使用一个激活值维度为100的LSTM块，在每一个时间步中，几的维度是()A)lB)100C)300D)10000[单选题]88.数据科学是一门以（）为主要研究任务的独立学科。A)数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设B)数据研发C)数据处理D)数据洞见[单选题]89.下面程序的运行结果是（）deffunc(a,b):a=a+breturnab=func(10,30)print(b)A)10B)20C)30D)40[单选题]90.解决多重共线性的方法包括（）A)岭回归B)主成分回归C)偏最小二乘回归D)以上都是[单选题]91.智能数据湖运营平台指的是以下哪个选项?A)VAS（videoAnalysisService）B)ModelArtsC)cSSD)DAYU[单选题]92.以下哪些方法不可以直接来对文本分类（）A)KmeansB)决策树C)支持向量机D)KNN[单选题]93.调用自定义函数使用()。--A)CALLB)LOADC)CREATED)SELECT[单选题]94.(__)不是常用的噪声处理方法。A)聚类B)回归C)分类D)分箱[单选题]95.函数使用哪个关键字()。A)funB)defineC)defD)function[单选题]96.假设给定一个长度为n的不完整单词序列，希望预测下一个字母是什么，如输入是Predictio（9个字母组成），希望预测第十个字母是什么。适用于解决这个工作的是（）。A)循环神经网络B)全连接神经网络C)受限波尔兹曼机D)卷积神经网络[单选题]97.下列选项中，若是哪个节点关闭了，就无法访问Hadoop集群（）A)namenodeB)datanodeC)secondarynamenodeD)yarn[单选题]98.下面关于Region的说法，哪个是错误的？A)同一个Region不会被分拆到多个Region服务器B)为了加快访问速度，.META.表的全部Region都会被保存在内存中C)一个-ROOT-表可以有多个RegionD)为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题[单选题]99.以下关于隐马尔科夫模型中，叙述错误的是()。A)是一种有向图模型B)是一种无向图模型C)是一种结构简单的动态贝叶斯网络D)常被应用于时序数据建模[单选题]100.某工程师正在开发EasticSearch应用，请问下列代码可以帮助他实现什么功能?A)删除素引B)创建素引C)维护索引D)更新素引[单选题]101.过滤式特征选择、包裹式特征选择与学习器的关系分别是（）。A)相关，相关B)相关，不相关C)不相关，相关D)不相关，不相关[单选题]102.引用集合数据类型中的元素选择sub数组中第一个元素进行查询,正确的是（）A)selectname,subordinates[0]fromemplyees;B)selectname,subordinates[1]fromemplyees;C)selectname,subordinatesfromemplyees;D)以上都不正确[单选题]103.HDFS每个文件被划分成（）大小的多个block，属于同一个文件的blocks分散存储在不同DataNode上。A)32MBB)64MBC)128MBD)无法确定[单选题]104.()是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致。A)视觉假象B)视觉认知C)视觉感知D)数据可视[单选题]105.关于抽象类，下列说法错误的是()。A)抽象类中只能有抽象方法B)抽象类能被实例化C)抽象类既包括函数属性又包括数据属性D)抽象类同时具备普通类和接口类的部分特性[单选题]106.()情况下,LDA会失败。A)如果有辨识性的信息不是平均值,而是数据的方差B)如果有辨识性的信息是平均值,而不是数据方差C)如果有辨识性的信息是数据的均值和方差D)以上答案都不正确[单选题]107.基于Boosting的集成学习代表算法不包含()A)AdaboostB)GBDTC)XGBOOSTD)随机森林[单选题]108.下列哪个选项可以来判断Hbase表是否存在？A)table.containskey(tableName)B)admin.getTable(TableName)C)adminTableExists(TableNamevalueOf(tableName))D)adminTableExists(tableName)[单选题]109.下列哪个组件可以实现数据库的导入导出()。A)MahoutB)ZookeeperC)FlumeD)Sqoop[单选题]110.一切事物及事物运动的状态，不仅包括销售数据、价格数据可以形成大数据，甚至连顾客情绪（如色彩.空间的感知等）都可以测得，这体现了大数据思维维度中的（）A)定量思维B)相关思维C)因果思维D)实验思维[单选题]111.若X=np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])，X_scaled=preprocessing.scale(X)，则print(X_scaled.mean(axis=0))的输出结果是(__)。A)[1.0.0.33333333]B)[0.,0.,0.]C)0.444444444D)0[单选题]112.D刚常用的激活函数有()A)sigmoidB)tanhC)ReLUD)以上答案都正确[单选题]113.以下匹配'1ton'和'2ton'及'3ton'的正则表达式是()A)'123ton'B)'1,2,3ton'C)'[123]ton'D)'1|2|3ton'[单选题]114.请阅读下面一段程序：arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))执行上述程序后，最终输出的结果为（）。A)[[[25]][[03]][[14]]]B)[[[14]][[03]][[25]]]C)[[[03]][[14]][[25]]]D)[[[0][3]][[1][4]][[2][5]]][单选题]115.给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离，这说的是()算法A)PCAB)SVMC)K-meansD)LDA[单选题]116.下列数据中，不属于字符串的是（）。A)'ab'B)"perfect"'C)"52wo"D)abc[单选题]117.Python不支持的数据类型有A)charB)intC)floatD)list[单选题]118.在情感分析中，下面哪个词不属于影响词？A)识别B)开心C)难过D)无聊[单选题]119.下列有关HBase的跳转过滤器SkipFilter描述错误的是（）A)跳转过滤器可以对用户提供的过滤器进行包装B)当被包装的过滤器遇到某一行中某一列需要过滤时，那么整行数据都将被过滤掉C)被包装的过滤器必须实现filterKeyValue()方法，否则SkipFilter无法正常工作D)跳转过滤器不可以对用户提供的过滤器进行包装[单选题]120.优化内部管理，促进质效提升，重点围绕营配贯通和()体系变革两条主线，打破专业壁垒，打造业务中台。A)优化客户服务B)多维精益管理C)营销服务D)计量计费[单选题]121.下列关于线性模型的描述错误的是()。A)支持向量机的判别函数一定属于线性函数B)在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C)在一般情况下,线性分类器只能是次优分类器D)线性分类器简单而且在很多期情况下效果接近最优,所以应用比较广泛[单选题]122.Kafka集群中，Kafka服务端的角色是:（）。A)BrokerB)ConsumerC)ZookeeperD)Producer[单选题]123.ApacheHadoop可以在（___）平台上运行。A)UbuntuB)DebianC)WindowsD)跨平台[单选题]124.下面关于NewSQL数据库的描述，错误的是：（）A)NewSQL数据库保持了传统数据库支持ACID和SQL等特性B)不同的NewSQL数据库的内部结构基本相同C)都支持关系数据模型D)都使用SQL作为其主要的接口[单选题]125.Hive常被用来处理（）场景。A)事务性处理B)批量计算C)实时性计算D)流计算[单选题]126.指出下面正确的说法A)基于像素的图像增强方法是一种非线性灰度变换B)基于像素的图像增强方法是基于频域的图像增强方法的一种C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换，所以总比基于图像域的方法计算复杂较高D)基于频域的图像增强方法可以获得和基于空域的图像增强方法同样的图像增强效果[单选题]127.以下哪个框架可以同时满足实时分析、离线分析、实时检索的功能A)ApacheHadoopB)FusionInsightHDC)ApacheHBaseD)以上全都正确[单选题]128.以下关于HDPS适合做什么描述不正确的是？A)低延迟读取B)大文件存储与访问C)流式数据读取D)大数据量吞吐[单选题]129.Python使用（）关键字定义一个匿名函数A)functionB)funcC)defD)lambda[单选题]130.requests库的get()函数执行后会返回一个Response类型的对象,其text属性以()形式存储响应内容A)网页B)字符串C)整数D)文本[单选题]131.下列哪一个选项不是StructuredStreaming支持的sink输出源?A)HBaseB)ConsoleC)KafkaD)HDFS[单选题]132.以下()是对DMM(数据管理成熟度模型)中"已管理级"基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B)组织机构已用定量化的方式管理其关键过程的执行过程C)组织机构只有在项目管理过程中执行了D.M给出的关键过程，而缺乏机构层次的统筹与管理D)组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理其数据管理关键过程[单选题]133.Spark是用以下哪种编程语言实现的?A)CB)C++C)JAVAD)Scala[单选题]134.下列关于支持向量机的说法错误的是（__)。A)硬间隔支持向量机易出现过拟合的情况B)软间隔支持向量机的目标函数不是一个二次规划问题C)松弛变量可用来解决线性不可分问题D)支持向量机可用来进行数据的分类[单选题]135.以下关于异常处理try语句块的说法，不正确的是。（）A)finally语句中的代码段始终要被执行B)一个try块后接一个或多个except块C)一个try语句块后接一个或多个finally块D)try块必须与except或finally块一起用[单选题]136.下⾯哪个不是RDD的特点（）A)可分区B)可序列化C)可修改D)可持久化[单选题]137.使用sklearn库进行预测结果的交叉验证，需要导入一下哪个包()。A)sklearn.linear_modelB)sklearn.model_selectionC)sklearn.naive_bayesD)sklearn.ensemble[单选题]138.下列关于数据整合和分组的说法不正确的是（）。A)数据连接可以用concat或merge函数B)axis=1表示轴向连接C)数据分组可以使用mean函数D)使用agg可以自定义多个聚合函数[单选题]139.在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？（）A)Namenode,Datanode,TaskTrackerB)Namenode,Datanode,secondaryNameNodeC)Namenode,Datanode,HMasterD)Namenode,JobTracker,secondaryNameNode[单选题]140.下列哪个表达式在Python中是非法的（）。A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y[单选题]141.()不是HDFS的守护进程。A)SecondaryNameNodeB)DataNodeC)MRAppMaster/YarnChildD)NameNode[单选题]142.对银行业而言，做好大数据分析应用的前提是（）A)增加统计种类B)增加营业网点C)增加数据来源D)开展专项活动[单选题]143.以下关于数据科学相关描述不正确的是()。A)数据科学是数据，尤其是大数据背后的科学B)?数据?是一门科学，答案就在?大数据?手中C)在数据科学出现之前，我们关注的是数据主动的一面，而在数据科学中我们更加重视的是被动作用。D)数据科学的最终研究目标是实现数据、物质和能量之间的转换。[单选题]144.下列关于分布式数据库的说法中，错误的是A)分布式数据库系统通常使用较小的计算机系统B)分布式数据库是物理上分散的数据库C)分布式数据库是逻辑上统一的数据库D)每台计算机中都一定有DBMS的一份完整拷贝副本第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.Flink中的计算时间包含以下哪几种?（A)DelayTimeB)ProcessingTimeC)EventTimeD)IngestionTime[多选题]146.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法[多选题]147.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、鸡蛋A)面包、牛奶、尿布B)面包、啤酒C)尿布、啤酒D)啤酒、鸡蛋[多选题]148.在FusionInsight集群规划时，以下哪些集群命名是系统允许的？A)FusionInsight-123B)FusionInsight_123C)FusionInsight123D)123FusionInsight[多选题]149.以下哪些算子是窄依赖?A)unionB)mapC)filterD)groupBy[多选题]150.下列中属于MapReduce特征的有（）。A)以主从结构的形式运行B)容错机制的复杂性C)任务备份机制的必要性D)数据存储位置固定[多选题]151.以下关于性能度量，说法正确的是（__）A)聚类结果的?簇内相似度?低且?簇间相似度?高。B)性能度量内部指标包含JC、FM指数、Rand指数等C)外部指标度量结果均在0-1之间，且值越大越好。D)内部指数DBI值越小越好，而DI则相反，值越大越好。[多选题]152.公司组织制定《国家电网公司数据资产管理办法》是为了（）A)贯彻落实公司党组决策部署B)规范公司数据资产管理C)充分挖掘数据资产价值D)推动公司精益管理和创新发展[多选题]153.以下哪两个场景最适合使用Spark来代替MR？A)海量数据处理B)逐条实时计算C)迭代计算D)交互查询[多选题]154.卷积神经网络可以用于（)。A)图像分类B)目标提取C)图像分割D)中文分词[多选题]155.下列说法正确的是()。A)在Map阶段对输入文件的每个内容都解析成一个键值对B)在生成每个键值对时仅调用一次map函数C)在map函数中，接受一个键值对，并陈胜一组中间键值对D)在shuffle阶段将所有具有相同键的键值对发送给同一个reduce函数[多选题]156.大数据平台的业务目标为（）A)全面、客观、真实、及时反映业务运营情况，为各级领导提供企业经营的决策依据B)快速支撑精确管理、精准营销、精细服务等各类需求C)实现企业数据和应用的有效共享，降本增效D)建立数据全生命周期的安全保障体系，降低数据泄露的风险[多选题]157.下列哪种方法可以用来减小过拟合？()A)更多的训练数据B)L1正则化C)L2正则化D)减小模型的复杂度[多选题]158.影响基本K-均值算法的主要因素有(）A)样本输入顺序B)模式相似性测度C)聚类准则D)初始类中心的选取[多选题]159.决策树剪枝的基本策略有（___)。A)预剪枝B)前剪枝C)后剪枝D)下剪枝[多选题]160.关于FusionInsightManager功能说法错问题有哪些？A)通过FusionInsightManager的Audit设计界面可以查询每个重要操作B)通过FusionInsightManager不能下载单个组件的客户端C)集群部署完成后，通过FusionInsightManager不能进行集群扩容，只能通过卸载集群重新搭建来扩容集群D)通过FusionInsightManager的admin告警界面可以查询每个告警的具体信息[多选题]161.在Spark技术中，下面对Storage模块中各个类的的主要功能表述正确的是（__）。A)org.apache.spark.storage.BlockManagerMasterActor：在Driver节点上的Actor，负责track所有Slave节点的Block的信息B)org.apache.spark.storage.BlockManagerMaster：Block管理的接口类C)org.apache.spark.storage.BlockObjectWriter：一个抽象类，可以将任何的JVMobject写入外部存储系统。注意，它可以支持并发的写操作。D)org.apache.spark.storage.BlockStore：存储Block的抽象类。[多选题]162.项目空间（project）是大数据计算服务（MaxCompute，原ODPS）的基本组织单元，它类似于传统数据库的Database。以下关于项目空间的说法中正确的有:（）。A)所有的对象都会属于某个项目空间B)一个帐号可以拥有多个项目空间的权限C)一个帐号可以创建多个项目空间，最多不能超过10个D)通过安全授权，可以在一个项目空间中访问另一个项目空间中的数据[多选题]163.数据预处理的方法主要有（）。A)分类B)聚类C)回归D)清除[多选题]164.以下哪些选项属于集群资源规划设计?A)数据质量B)数据总规模C)容量预留D)单条数据大小[多选题]165.以下哪些不是ElasticSearch的特点?A)边写边读B)低性能C)倒排素引D)不可扩展伸缩[多选题]166.根据《泛在电力物联网2019年建设方案》，2019年开展基于?国网芯?的新型智能终端研发应用工作主要包括（）：A)实现泛在电力物联网边端及终端设备的硬件平台统一B)实现核心器件?国网芯?化C)推进自主化芯片规模化应用和产业化发展D)研制多形态边缘物联代理、能源路由器等智能终端并试点应用[多选题]167.Hive底层所依赖的计算引擎可以是：()A)FlinkB)MapReduceC)TezD)Spark[多选题]168.以下正确的语句是()。A)_a=1B)__a=1C)__str__=1D)__True_=1[多选题]169.下列选项是关系型数据库基本特征的是()A)与列的次序无关B)与行的次序无关C)不同的列应有不同的列名D)不同的列应有不同的数据类型[多选题]170.序列的分片[x:y:z]x,y,z分别表示A)起始索引B)终止索引（包含）C)终止索引（不包含）D)步长[多选题]171.下列属于无监督学习任务的还有（__）。A)密度估计B)异常检测C)聚类D)分类[多选题]172.下列属于位运算符的是()。--A)&&B)&C)>>D)<<[多选题]173.Redis使用场景包含以下哪些特点?A)支持持久化B)丰富数据结构在取C)低时延D)高性能[多选题]174.关干大数据的主要特征理解和描述正确的有A)来源多，格式多B)增长速度快，处理速度快C)存储量大计算量大D)数据的价值密度较低[多选题]175.需要维护的数据资产主要包括:（）A)业务人员未按照规定的数据格式和内容质量要求填写或录入，造成的不完整和不准确数据B)因系统更新、调整等原因，造成数据格式或者数据含义发生变化而导致无法应用的数据C)因业务变化或数据标准变更等原因，造成的原有数据与现有数据不一致而导致无法应用的数据D)其他因素造成的有问题数据[多选题]176.在Hive架构中支持对数据的操作有()。A)插入B)查询C)删除D)分析[多选题]177.执行HBase读数据业务，需要读取那几部分数据？A)HFileB)HLogC)MemStoreD)HDFS[多选题]178.Katka每个Partition在物理上对应的文件夹下存储哪些文件?A)素引文件B)用户文件C)消息文件D)配置文件[多选题]179.HDFS联邦环境下，NameSpace(命名空间)包含以下哪些内容？A)目录B)文件C)块D)以上全不正确[多选题]180.Hadoop的MapReduce的缺点包括：()A)表达能力有限B)磁盘IO开销大C)延迟高D)中间结果多[多选题]181.下列哪些情况下SQL自诊断可以识别,并上报告警信息?A)大表BroadcastB)SQL语句不下推。C)数据倾斜。D)HashJoin中大表做内表[多选题]182.回归分析有很多种类,常见的有()。A)线性回归B)系数回归C)逻辑回归D)曲线回归[多选题]183.下列关于Region服务器工作原理的描述，哪些是正确的？A)每个Region服务器都有一个自己的HLog文件B)每次刷写都生成一个新的StoreFile，数量太多，影响查找速度C)合并操作比较耗费资源，只有数量达到一个阈值才启动合并D)Store是Region服务器的核心[多选题]184.下面关于可视化图表的描述正确的是：()A)漏斗图适用于业务流程比较规范、周期长、环节多的流程分析B)树图是一种流行的、利用包含关系表达层次化数据的可视化方法C)桑基图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示D)词云对网络文本中出现频率较高的?关键词?给予视觉上的突出[多选题]185.关于MapReduce程序执行时的故障检测与容错处理，下面说法正确的是（）A)HadoopMapReduce采用心跳机制实现故障检测B)HadoopMApReduce会自动处理容错，主要方法是将失败的任务进行再次执行C)失效节点手动重启D)投机执行机制[多选题]186.可以在()定义函数。A)模块B)类C)函数D)以上都不对[多选题]187.下列选项中，关于Hadoop集群说法正确的是（）。A)Hadoop集群包含Worker节点B)Hadoop集群包含Master节点C)Hadoop集群包含Slave节点D)Hadoop集群包含HMaster节点[多选题]188.对RDD执行的操作有一下几种:A)创建B)转换C)控制D)执行[多选题]189.SortShuffleManage是Spark1.2及以上版本默认的ShuffleManage模式，具体包含（__）和（__）。A)简单模式B)普通模式C)bypass模式D)pass模式[多选题]190.一个FlumeAgent内部通常包含有哪三个模块？A)SourceB)DestinationC)ChannelD)Sink[多选题]191.以下关于MapReduce1.0版本说法正确的是()。A)扩展性差B)可靠性差C)资源利用率低D)无法支持多种计算框架[多选题]192.在Windows系统中通过Geany编写Python程序，运行Python程序的常用步骤有（）。A)菜单Build>ExecuteB)菜单Execute>BuildC)按F5D)按F10[多选题]193.MySQL可以运行在以下哪些平台上A)MacOSB)UbuntuC)RedHatD)Windows[多选题]194.主成分解析（PCA）是一种重要的降维技术，以下对于PCA的描述正确的是:A)主成分解析是一种无监督方法B)主成分数量一定小于等于特征的数量C)各个主成分之间相互正交D)原始数据在第一主成分上的投影方差最小[多选题]195.根据《大数据风控平台项目操作手册》，贷后风险预警提示共3种级别，其中，（）。A)红色为高风险B)紫色为中风险C)黄色为中风险D)提示为低风险[多选题]196.下列选项对ElasticSearchreplicas的描述，正确的是A)代表素引副本B)提高系统容传性C)压缩素引大小D)提高检素效率[多选题]197.大数据计算服务（MaxCompute，原ODPS）中的MapReduce是一种编程模型，用于大规模数据集的并行运算，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。其中，两个主要阶段Map和Reduce相互配合，可以完成对海量数据的处理。关于这两个阶段的关系，说法正确的有:（）。A)一个reduce的输入数据可能来自于多个map的输出B)一个MR处理可以不包括任何mapC)一个MR处理可以不包括任何reduceD)一个map的输出结果可能会被分配到多个reduce上去[多选题]198.消除数据孤岛对于政府具有哪些重要的意义：（）A)有助于提升资源利用率B)有助于推动政府转型C)有助于提高行政效率D)有助于促进跨部门合作[多选题]199.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面()。A)能够直观反映成对数据之间的空间关系B)能够直观反映多维数据之间的空间关系C)能够静态演化事物的变化及变化的规律D)能够动态演化事物的变化及变化的规律E.提供高性能并行计算技术的强力支撑[多选题]200.Flink运行模式有以下哪几项?A)Standalone模式B)Local模式C)YARN模式D)Spark模式[多选题]201.tunnelupload命令可以上传数据到大数据计算服务中去，请判断以下（）数据对象可以作为上传的目标。A)资源B)非分区表C)视图D)分区表[多选题]202.下列关于Worker答案:工作进程、Executor答案:线程、Task答案:任务说法正确的是?A)每个Executor答案:线程可以运行多个Task(任务)B)每个Worker可以运行多个Executor(线程)C)每个Worker只能为一个拓扑运行Executor(线程)D)每个Executor答案:线程可以运行不同组件答案:Spout或Bolt的Task(任务)[多选题]203.数据中台以需求为导向，基于统一数据模型，有针对性的按需开展数据接入与整合，逐步实现（）等各版块数据融通A)电网B)产业C)金融D)国际化[多选题]204.典型的数据采集方法包括：()A)系统日志采集B)分布式消息订阅分发C)ETLD)网络数据采集[多选题]205.Spark的技术架构可以分为哪几层？A)资源管理层B)Spark核心层C)应用层D)服务层[多选题]206.针对维数灾难，我们主要采用的降维方法有()A)多维缩放B)主成分分析C)核化线性降维D)流形学习E)度量学习第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.SQLonAnywhere的意思是GaussDB200的SQL可以运行在任何地方的数据库。A)正确B)错误[判断题]208.使用describe()方法会输出多个统计指标。（）A)正确B)错误[判断题]209.已知x为非空字符串，那么表达式''A)正确B)错误[判断题]210.Python内置的字典dict中元素是按添加的顺序依次进行存储的。A)正确B)错误[判断题]211.数据处理方式，可分为实时处理和离线处理。A)正确B)错误[判断题]212.启动Hadoop集群服务之前需要格式化文件系统。()A)正确B)错误[判断题]213.表达式3>5andmath.sin(0)的值为0。（）A)正确B)错误[判断题]214.一维数组的切片操作与Python列表的切片操作很相似。例如，我们可以用下标3~7来选取元素3~6。A)正确B)错误[判断题]215.()逻辑值的?真?和?假?可以用逻辑常量TRUE和FALSE表示。A)正确B)错误[判断题]216.在函数内部没有任何声明的情况下直接为某个变量赋值，这个变量一定是函数内部的局部变量。A)正确B)错误[判断题]217.企业级的数据中心，基于?集中、开放、云化?原则，按照平台与应用分离的设计思路，打造企业级的大数据平台，有序推进企业的大数据战略。A)正确B)错误[判断题]218.变量名可以以数字开头。（）A)正确B)错误[判断题]219.链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有个Mapper，但Reducer只能有一个。A)正确B)错误[判断题]220.Sqoop主要用来做实时流处理。A)正确B)错误[判断题]221.如果在函数中有语句return3，那么该函数一定会返回整数3。A)正确B)错误[判断题]222.配置Hadoop集群只需要修改core-site、xml配置文件就可以。()A)正确B)错误[判断题]223.函数和对象方法是一样的，内部实现和外部调用都没有任何区别。A)正确B)错误[判断题]224.核函数的主要作用是将样本从原始空间归纳为一个特征空间,使得样本在这个特征空间内线性不可分。()A)正确B)错误[判断题]225.一条SPU可以包含多个SKU的信息。--A)正确B)错误[判断题]226.BI工具中的数据集，被其他应用引用后可以强行删除()A)正确B)错误[判断题]227.为了让代码更加紧凑，减少占用空间，不应该在代码中任何位置增加空格和空行。（）A)正确B)错误[判断题]228.大数据应用涉及到采集、传输、存储、处理、交换和销毁等环节，每个环节都面临着不同的安全威胁A)正确B)错误[判断题]229.放在一对三引号之间的任何内容将被认为是注释。A)正确B)错误[判断题]230.包含列表的元组不可以作为集合的元素。（）A)正确B)错误[判断题]231.已知x=list(range(20))，那么语句x[::2]=[]可以正常执行。A)正确B)错误[判断题]232.在使用HBaseJavaAPI时，用户可以通过org.apache.hadoop.hbase.client.Admin实例的createTable快速建表，创建表后整张表只有一个Region，随着数据量的增加会自动分裂成多个Region。A)正确B)错误[判断题]233.每个查询会被Hive转化为多个阶段，当有些阶段关联性较大时，可以并行化执行，诚少整个任务的执行时间。A)正确B)错误[判断题]234.尽管可以使用import语句一次导入任意多个标准库或扩展库，但是仍建议每次只导入一个标准库或扩展库A)正确B)错误[判断题]235.在同一个作用域内，局部变量会隐藏同名的全局变量。A)正确B)错误[判断题]236.join()方法可以使用左连接和右连接两种方式连接数据。()A)正确B)错误[判断题]237.量化是一种把定性指标转换为定量指标的方法,用具体的数据表示出来。A)正确B)错误[判断题]238.在基本K均值算法里,当邻近度函数采用平方欧几里德距离的时候,合适的质心是簇中各点的中位数A)正确B)错误[判断题]239.不是所有的数据流节点都可以设置查看器是否正确()A)正确B)错误[判断题]240.数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分A)正确B)错误[判断题]241.fillna()方法处理缺失数据时可以使用Series对象填充，但不可以使用DataFrame对象填充。()A)正确B)错误[判断题]242.()!=和<>都代表不等于。A)正确B)错误[判断题]243.每个map槽就是一个线程。A)正确B)错误[判断题]244.大数据时代模型不再那么重要，要让数据说话。A)正确B)错误[判断题]245.数据湖需要高性能、Schema校验、事务型更新等能力，同时支持多个开源计算引擎生态。A)正确B)错误[判断题]246.Series与Index的类型是ExtensionArray时，to_numpy()会复制数据，并强制转换值。A)正确B)错误[判断题]247.大数据平台数据管理系统的功能为：为核心处理能力系统提供监控管理、调度管理等功能，并为采集系统和应用提供相应的数据质量、主数据管理等功能支持。A)正确B)错误[判断题]248.主键约束的字段值要同时满足非空和唯一性。--A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.一般关于日志文件产生都是根据()而决定。[问答题]250.假设HDFS在写入数据是只存2份,那么在写入过程中,HDFSClient先将数据写入DataNode1,再将数据写入DataNode2。A)TrueB)False[问答题]251.Flink处理数据可以是有状态的,处理一个事件取决于之前所有事件的累积效果。A)TRUEB)FALSE[问答题]252.Katka创建Topic时如何将分区放置到不同的Broker中，请选择正确的顺序。[问答题]253.使用drop_duplicates()函数【】重复数据时，默认会保留第一次出现的数据。[问答题]254.JavaAPI操作ElasticSearch有RestClient和（）等多种方式。[问答题]255.在Hadoop集群执行完MapReduce程序后，输出的结果文件()表示此次任务成功执行。[问答题]256.通常情况下,Hive以文本文件存储的表会以回车作为其行分隔符,在华为FusionInsightHive中,可以指定表数据的输入和输出格式处理。A)TRUEB)FALSE[问答题]257.Hbase的最小存储单元是Region。A)TRUEB)FALSE[问答题]258.简述Series和DataFrame的特点。[问答题]259.()是一个高可靠性、高性能、面向列、可伸缩的系统，可在廉价PC服务器上搭建起大规模结构化存储集群。[单选题]260.在HBase中，启用表的命令是（）A)go'my_ns:my_table'B)use'my_ns:my_table'C)start'my_ns:my_table'D)enable'my_ns:my_table'1.答案:B解析:2.答案:A解析:2007年,图灵奖获得者JimGray提出了科学研究的第四范式--数据密集型科学发现(Data-intensiveScientificDiscovery)。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的"实验科学范式"、以模型和归纳为特征的"理论科学范式"和以模拟仿真为特征的"计算科学范式"),目前正在从"计算科学范式"转向"数据密集型科学发现范式"。3.答案:A解析:4.答案:B解析:5.答案:C解析:6.答案:B解析:7.答案:A解析:8.答案:A解析:9.答案:D解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的NoSOL产品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。10.答案:A解析:11.答案:D解析:12.答案:D解析:13.答案:D解析:14.答案:C解析:15.答案:A解析:16.答案:B解析:17.答案:B解析:seek（0）指移动指针到0位置即开头。18.答案:D解析:statsmodels建立在Pandas之上。19.答案:C解析:20.答案:B解析:21.答案:B解析:22.答案:B解析:23.答案:B解析:A、FSDirectory【HDFS文件系统的整个命名空间是通过FSDirectory类来管理的】B、DFSClient【DFSClient会连接到HDFS，对外提供管理文件/目录、读写文件以及管理与配置HDFS系统等功能。】C、ClientProtocol【这个接口中有两类方法，一是操纵命名空间的方法，二是操纵文件流的方法】D、FSInputStream【在FSInputStream类中，通过Seekable接口的seek()方法实现了PositionedReadable接口中的read()方法】24.答案:C解析:一元回归分析中,自变量和因变量的相关系数的平方等于回归模型的判定系数。所以,相关系数=sqrt(0.64)=0.8。25.答案:C解析:26.答案:C解析:27.答案:D解析:28.答案:B解析:29.答案:A解析:30.答案:D解析:31.答案:C解析:32.答案:D解析:33.答案:C解析:34.答案:B解析:35.答案:B解析:36.答案:A解析:37.答案:C解析:38.答案:A解析:39.答案:D解析:40.答案:C解析:41.答案:B解析:按照程序执行，先运行changeInt（），然后再运行print。42.答案:C解析:43.答案:A解析:44.答案:D解析:45.答案:D解析:46.答案:B解析:47.答案:D解析:48.答案:A解析:49.答案:D解析:50.答案:C解析:51.答案:B解析:52.答案:A解析:53.答案:D解析:54.答案:D解析:55.答案:C解析:56.答案:D解析:57.答案:D解析:58.答案:A解析:在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间。于是,核函数选择成为支持向量机的最大变数。59.答案:B解析:60.答案:A解析:shell类是一个提供执行操作系统命令的类，只是提供一个shell命令执行的总体框架61.答案:A解析:62.答案:D解析:在一定情况下把一个任务分割成多个子任务的方式是有好处的63.答案:D解析:64.答案:B解析:reduce（）是聚合函数，该操作完成数组求和功能。65.答案:A解析:66.答案:D解析:67.答案:A解析:68.答案:D解析:69.答案:B解析:70.答案:C解析:71.答案:B解析:72.答案:B解析:软间隔允许某些样本不满足约束,可缓解过拟合。73.答案:B解析:74.答案:C解析:75.答案:D解析:76.答案:B解析:77.答案:B解析:78.答案:A解析:79.答案:B解析:组成随机森林的树可以并行生成;而GBDT只能是串行生成。80.答案:C解析:81.答案:A解析:82.答案:C解析:83.答案:B解析:84.答案:A解析:85.答案:B解析:86.答案:C解析:87.答案:B解析:88.答案:A解析:数据科学是一门以实现从数据到信息、从数据到知识和（或）从数据到智慧的转化为主要研究目的，以数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设为主要研究任务的独立学科。89.答案:D解析:90.答案:D解析:91.答案:D解析:92.答案:A解析:93.答案:D解析:94.答案:C解析:95.答案:C解析:96.答案:A解析:循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理（naturallanguageprocessing，NLP），例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。97.答案:A解析:98.答案:C解析:99.答案:B解析:100.答案:A解析:101.答案:C解析:过滤式特征选择先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征子集的评价准则。102.答案:A解析:103.答案:B解析:104.答案:A解析:视

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷6)

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷6)

文档简介

温馨提示

最新文档

评论

相关文档