大数据开发基础(习题卷7)VIP

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：67 大小：77.39KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷7)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.()属于Spark框架中的可扩展机器学习库。A)MLibB)GraphXStreamingC)SparkSQL[单选题]2.在支持向量机中，?间隔?是指（__)。A)非支持向量到划分超平面间的距离之和B)支持向量之间的距离C)支持向量和非支持向量之间的距离D)支持向量到超平面的距离之和[单选题]3.当大数据业务人员希望通过1ike关键字来查询Hive表中的某些数据时，需要添加以下哪个关键字符用于匹配数据?A)%B)AC)$D)&[单选题]4.列表对象的sort（）函数用来对列表元素进行原地排序，该函数返回值为（）。A)FalseB)NoneC)TrueD)报错[单选题]5.数据被称为信息时代的?石油?，正在成为企业的核心资产。下列说法不正确的是（）。A)企业应更加重视大数据技术应用推广B)企业需要培养和引进数据应用人才C)可以未经许可任意使用其它企业的数据D)核心数据必须通过加密备份等严密保护[单选题]6.下列哪项方法不属于图像分割方法（）。A)边缘检测法B)阈值分割法C)区域分割法D)特征提取法[单选题]7.输人图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波十器卷和提阵的大小是（）A)22x22B)21x21C)28x28D)7x7[单选题]8.下列哪一项不是大数据架构中需要考虑的要点？A)业务分解B)业务联动C)持续发展D)独立开发[单选题]9.根据泛在电力物联网建设战略安排，第二个阶段是到（）年，建成泛在电力物联网。A)2020B)2021C)2024D)2025[单选题]10.下列对于错误率的公式，解释正确的是（__）。A)统计分类器预测出来的结果与真实结果不相同的个数，然后除以总的样例集D的个数。B)先统计分类正确的样本数，然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确[单选题]11.python属于（）语言A)低级B)高级C)中级D)底层[单选题]12.为了保障流应用的快照存储的可靠性,快照主要存储在哪里?A)jobManager的内存中B)可靠性高的单机数据库中C)本地文件系统中D)hdfs中[单选题]13.假设precision='四'/(TP+FP)，reca11=TP/(回'+FN)，则在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案中()是相对不合理的A)Accuracy:(TP+τN)/a11B)F-va1ue:2reca11precisionJ(r，∞剧增r∞ision)C)G-mean:sq此(precision*reca11)D)AUC:曲线下面积[单选题]14.假设属性的取值范围是-957~924，当属性的值为426时，采用小数定标规范化方法对应的转换结果是：()A)0.421B)0.433C)0.426D)0.489[单选题]15.在Hadoop框架中()为大数据提供了存储。A)HDFSB)MapReduceC)YARND)Container[单选题]16.执行以下代码段i=0whilei<3:print(i,end='')i+=1else:print(0)时，输出为()。A)01230B)0120C)012D)Error[单选题]17.如果各因素之间数量级及单位不同，比如：温度10~20℃，产生热量300~400J。进行计算之前应进行何种操作？A)参数归一化B)参数平均值化C)参数二值化D)参数标准方差化[单选题]18.Jupyternotebook的记事本文件扩展名为：A)mB)pyC)pycD)ipynb[单选题]19.Hadoop的两大核心技术是（）。A)MapReduce和HBaseB)HDFS和HBaseC)HDFS和MapReduceD)GFS和MapReduce[单选题]20.如果想按照空格分隔字符串则使用A)lenB)splitC)lowerD)upper[单选题]21.数据产品开发的关键环节是()A)数据收集B)数据预处理C)数据学习D)数据加工[单选题]22.长短时记忆网络属于一种()A)全连接神经网络B)门控RNNC)BP神经网络D)现向RNN[单选题]23.文本信息往往包含客观事实和主观情感，对于文本的情感分析主要是识别文章中的主观类词语，其中（）不适用于情感分析。A)表达观点的关键词B)表达程度的关键词C)表达情绪的关键词D)表达客观事实的关键词[单选题]24.数据中台定位于为各专业提供数据共享和分析应用服务，以（）为基础，根据数据共享和分析应用的需求，沉淀共性数据服务能力，通过数据服务满足各类需求，支撑前端应用和业务中台服务构建。A)业务中台B)企业中台C)全业务统一数据中心D)物联管理平台[单选题]25.在机器学习中,不属于常用的冲突消解策略是()。A)投票法B)排序法C)元规则法D)加权法[单选题]26.()是一种建立在Hadoop之上的数据仓库架构。A)HDFSB)FlumeC)SqoopD)Hive[单选题]27.以下哪项属于DDL操作()A)updateB)createC)insertD)delete[单选题]28.下列对大数据4V特征的说法中，错误的是A)数据规模大B)数据价值密度高C)数据类型多样D)数据处理速度快[单选题]29.某电商使用ADS进行数据分析，其中商品信息表记录了商品的型号、价格、厂家等等信息，从数据分析角度来讲，它是一张维表，该表包含了超过2000万条的纪录，大小在5G左右，在ADS中该（）。A)建表时指定为ADS的维表，将分区数设置为1B)建表时指定为ADS的维表，即不进行拆分，可以和任意表关联C)必须建成ADS分区表，将会有一些限制，比如不能和不同普通表组上的表进行关联等D)可将该表直接打开到和该表关联的事实表中，做成一张宽表，减少join，提升性能[单选题]30.以下说法中:①一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的;②如果增加模型复杂度,那么模型的测试错误率总是会降低;③如果增加模型复杂度,那么模型的训练错误率总是会降低,正确的是()。A)1B)2C)3D)1、3[单选题]31.下列选项中，属于Python关键字的是（）。A)nameB)isC)ifD)and[单选题]32.当zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的?A)3B)4C)5D)以上全不正确[单选题]33.s=0n=int(input())foriinrange(1,n+1):a1=0forjinrange(1,i+1):a1+=ja=1.0/a1s+=aprint("s=%.1f"%s)当输入的n为4时，输出S=()。A)1.5B)1.4C)1.6D)1.7[单选题]34.下列关于漏斗图的说法中,错误的是()A)漏斗图往往适用于业务流程上的顺序关系B)漏斗图可以通过漏斗中梯形的大小,清晰地展示出不同数值的大小C)漏斗图与饼图同样适用于表示占比的情况D)漏斗图不适用于表示无逻辑顺序的分类对比情况[单选题]35.Hive创建（）时，会将数据移动到数据仓库指向的路径;创建（），仅记录数据所在的路径，不对数据的位置做任何改变A)内部表.外部表B)内部表.元数据C)原元数据.外部表D)外部表.托管表[单选题]36.向量空间模型的缺陷不包括()。A)维度灾难B)模型稀疏性C)语义信息缺失D)无法计算文本相似度[单选题]37.在Hadoop生态系统中，()可以将结构化的数据文件映射成一张数据库表，并提供简单的查询语言。A)pigB)HBaseC)HiveD)MapReduce[单选题]38.()可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。A)集合函数B)聚合函数C)窗口函数D)文本函数[单选题]39.数据可视化的方法论基础是()。A)统计图表B)视觉编码C)图论D)图形符号学[单选题]40.（）是一门以可视交互为基础,综合运用图形学、数据挖掘和人机交互等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理性学科。A)科学可视化B)可视分析学C)数据可视化D)信息可视化[单选题]41.()数据中台技术能力主要包括数据接入、存储计算、数据分析、数据服务、数据资产管理和数据运营管理六个方面,以下哪些不属于结构化数据存储。A)分布式关系型数据库B)分析型数据库C)分布式文件系统D)分布式数据仓库[单选题]42.以下关于云计算、大数据和物联网之间的关系，论述错误的是（）。A)云计算、大数据和物联网三者紧密相关，相辅相成B)云计算侧重于数据分析C)物联网可以借助于大数据实现海量数据的分析D)物联网可以借助于云计算实现海量数据的存储[单选题]43.图像分割是(__)的过程。A)改变图像大小B)将图像分成多个小区域C)去除干扰信号D)使图像变得更加丰富[单选题]44.当数据出现较多缺失值时，下面哪些处理方法不不够合理？A)把NaN直接作为一个特征，把变量映射到高维空间B)用均值、中值、分位数、众数、随机值填充C)用插值法填充D)把具有缺失值的样本删除掉[单选题]45.下列哪个不属于RDD中常用的TransformationA)map(func)B)reduce(func)C)groupByKey(numTasks)D)filter(func)[单选题]46.大数据的分布式计算使用下面哪项技术？()A)HDFSB)MapReduceC)NutchD)Hive[单选题]47.以下关于Zookeeper关键特性中的原子性说法正确的是:（）。A)客户端发送的更新会按照他们发送的顺序进行应用B)鞥新只能全部完成或失败，不会部分完成C)一条消息被一个server接受，将会被所有的server接受D)集群中无论那台服务器，对外展示的均是统一视图[单选题]48.在支持向量机中,()允许支持向量机在一些样本上出错。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法[单选题]49.为了检验连续变量x，y之间的线性关系，下列哪种图最合适？A)条形图B)散点图C)直方图D)都不对[单选题]50.Flume中的JDBCChanne1内置数据库是哪个?A)DerbyB)OracleC)sqlServerD)MySql[单选题]51.在MaxComputeSQL中，concat('a',null,'b')的执行结果是：（）。A)aB)anullbC)abD)null[单选题]52.对ElasticSearch描述正确的是?A)客户端必须把索引请求发给EsMasterB)客户端必须把索引请求发给shardC)客户端必须把索引请求发给EsNodeD)客户端必须把索引请求发给指定的EsNode[单选题]53.运行下面程序，可以获得两个数组元素匹配的位置的操作是（）。输入：a=np.array（[1，2，3，2，3，4，3，4，5，6]）B=np.array（[7，2，10，2，7，4，9，4，9，8]）期望输出：（array（[1，3，5，7]），）A)np.where（a！=b）B)np.where（a==b）C)np.where（a=b）D)np.where（a>b）[单选题]54.在Zookeeper和Yarn的协同工作中，当ActiveResourceManager产生故障时，StandbyResourceManager会从以下哪些目录中获取Application相关信息？A)metastoreB)StatestoreC)StoreageD)Warehouse[单选题]55.以下()是对DMM(数据管理成熟度模型)中"已管理级"基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B)组织机构已用定量化的方式管理其关键过程的执行过程C)组织机构只有在项目管理过程中执行了D.M给出的关键过程,而缺乏机构层次的统筹与管理D)组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程[单选题]56.以下关于文件的描述，错误的是：A)二进制文件和文本文件的操作步骤都是?打开-操作-关闭?B)open()打开文件之后，文件的内容并没有在内存中C)open()只能打开一个已经存在的文件D)文件读写之后，要调用close()才能确保文件被保存在磁盘中了[单选题]57.Matplotlib中的legend（）函数的作用是（）。A)设置标签文本B)绘制网格线C)标示不同图形的文本标签图例D)设置x轴的数值显示范围[单选题]58.以下程序输出的结果是（）。（提示：ord(:?a?)==97）list_demo=[1,2,3,4,5,'a','b']print(list_demo[1],list_demo[5])A)1,5B)2,aC)1,97D)2,97[单选题]59.在存储过程中有如下代码:DECLAREiD、INTDEFAULT0;REPEATSETid=id+1;UNTILid>=10;END、REPEAT;下面选项中,对于代码的功能描述正确的是()。--A)实现1~10之间的数字累加B)实现1~10之间的数字遍历C)当id=10时循环就会退出执行D)以上代码会出现语法错误[单选题]60.每种大数据产品都有特定的应用场景，以下（）是用于批处理的。A)MapReduceB)DremelC)StormD)Pregel[单选题]61.tf.nn.rnn_cell.BasicLSTMCell(n_hidden,forget_bias=1.0,state_is_tuple=True)函数中的参数forget_bias的含义是（）。A)神经元个数B)遗忘系数C)返回状态D)神经元类型[单选题]62.下列关于HBase的BloomFilter特性理解正确的是：（）。A)用来过滤数据B)用来优化随机读取的性能C)会增加存储的消耗D)可以准确判断某条数据不存在[单选题]63.关于?与/或?图表示法的叙述中，正确的是:（）。A)?与/或?图就是用?AND?与?OR?连续各个部分的图形，用来描述各部分的因果关系。B)?与/或?图就是用?AND?与?OR?连续各个部分的图形，用来描述各部分之间的不确定关系。C)?与/或?图就是用?与?节点与?或?节点组合起来的树形图，用来描述某类问题的层次关系。D)?与/或?图就是用?与?节点与?或?节点组合起来的树形图，用来描述某类问题的求解过程。[单选题]64.在Hadoop配置文件中，以下属于core-site.xml文件主要内容的是()A)用于定义系统级别的参数，如HDFSURL、Hadoop的临时目录等。B)名称节点和数据节点的存放位置、文件副本的个数文件读取权限等。C)配置ResourceManager，NodeManager的通信端口，web监控端口等。D)包括JobHistoryServer和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等。[单选题]65.Relief的扩展变体Relief-F能够处理（__)问题。A)二分类B)多分类C)回归D)降维[单选题]66.np.floor()函数的作用是（__)。A)计算每个元素的模B)计算每个元素的符号C)计算每个元素的最小整数值D)计算每个元素的小数部分[单选题]67.下列论据中，能够支撑?大数据无所不能?的观点的是（）。A)互联网金融打破了传统的观念和行为B)大数据存在泡沫C)大数据具有非常高的成本D)个人隐私泄露与信息安全担忧[单选题]68.下述说法错误的是()A)、关联规则属于半监督学习B)、有监督学习使用已知模式预测数据,其使用前提是训练集为带标签数据C)、当训练集中是不带标签的信息时,通常采用无监督学习算法D)、半监督学习算法有半监督分类方法(如生成式方法、判别式方法等)[单选题]69.数据管理成熟度模型中成熟度等级最高是哪一级()。A)已优化级B)已测量级C)已定义级D)已管理级[单选题]70.以下说法正确的是:A)一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的B)如果增加模型复杂度，那么模型的测试错误率总是会降低C)不可以使用聚类?类别id?作为一个新的特征项，用监督学习进行学习D)ABC全错[单选题]71.根据《大数据风控平台项目操作手册》，公司客户管理菜单下，新增（）按钮。A)数据补录、准入风险探测、最终受益人B)客户信息预警、准入风险探测、最终受益人C)影像操作、准入风险探测、最终受益人D)担保圈链、关联关系图谱、全景风险视图、企业信用智能分析报告、准入风险探测、最终受益人[单选题]72.现有如下代码：sum=0foriinrange(100):if(i%10):continuesum=sum+iprint(sum)若运行代码，输出的结果为（）A)5050B)4950C)450D)45[单选题]73.DELETE和TRUNCATE删除自动增长字段从1~4的所有值后,再次插入数据此字段的值分别为()。--A)1和1B)5和5C)1和5D)5和1[单选题]74.大数据时代的一大特征是万物互联与融合，下列说法错误的是（）。A)人均入网设备增加B)融入各个领域行业C)个人信息安全问题凸显D)信息安全领域影响不大[单选题]75.下面关于政府信息公开与政府数据开放的描述，错误的是：（）A)政府信息公开与政府数据开放是一对既相互区别又相互联系的概念B)信息是没有经过任何加工与解读的原始记录，没有明确的含义，而数据则是经过加工处理并被赋予一定含义的C)政府信息公开主要是为了对公众知情权的满足而出现的D)政府数据开放强调的是数据的再利用，公众可享数据利用创造的经济和社会价值[单选题]76.用机器代码表示的数据库模式称为（）A)物理模式B)逻辑模式C)源模式D)目标模式[单选题]77.万维网的实施国家是（）A)英国B)美国C)德国D)印度[单选题]78.某大数据业务人员在查询某张表的业务数据时，希望查询出来的数值结果保留两位小数，他应该使用哪个函数来实现?A)TrimB)roundC)absD)rand[单选题]79.卷积神经网络中池化层的作用是（）。A)寻找图像中的细节特征B)输入图片C)减少下一层的计算，防止过拟合D)输出图片[单选题]80.Kafka中数据从Producer到Broker和Broker到Consumer分别是那种传递方式A)pullpushB)pullpullC)pushpushD)pushpull[单选题]81.哪个模块是负责FusionInsightManbager用户数据存储的？A)CASB)AOSC)KerberosD)LDAP[单选题]82.国家电网有限公司数据管理办法规定，公司（）是数据管理工作的领导决策机构，A)规章制度管理委员会B)网络安全和信息化领导小组C)互联网部D)大数据中心[单选题]83.下列组件中MapReduce编程模型中最后执行的是（）。A)MapperB)PartitionerC)ReducerD)RecordReader[单选题]84.关于多层前馈神经网络的描述，错误的是()A)输出层与输入层之间包含隐含层，且隐含层和输出层都拥有激活函数的神经元B)神经元之间存在同层连接以及跨层连接C)输入层仅仅是接收输入，不进行函数处理十D)每层神经元上一层与下一层全互连[单选题]85.大数据在金融领域的应用不包括以下哪项？（）A)股票交易B)市场情绪分析C)信贷风险分析D)大数据征信[单选题]86.np.dot（[[1，2，3]，[1，2，3]，[1，2，3]]，[[2，1，1]，[2，1，1]，[2，1，1]]）的输出结果是（）。A)[[1，2，6，6]，[12，6，6]，[12，6，6]]B)[[2，2，3]，[2，2，3]，[2，2，3]]C)[[1，2，3]，[1，2，3]，[1，2，3]]D)[[2，1，1，]，[2，1，1]，[2，1，1]][单选题]87.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率为()。A)128(15)B)16(3)C)8(5)D)16(7)[单选题]88.数据产品开发工作之中需要特别注意的基本活动不包括()。A)创造性设计B)数据洞见C)虚拟化D)个性化描述[单选题]89.?啤酒与尿布?的故事，体现了哪种大数据思维方式：（）A)我为人人，人人为我B)全样而非抽样C)效率而非精确D)相关而非因果[单选题]90.字符串中，成员资格判断使用的关键字是（）A)limitB)toC)inD)len[单选题]91.以下选项中,不属于大数据对人才能力的要求是()A)业务能力B)数学统计能力C)IT技术能力D)逻辑思维能力[单选题]92.下列SQL语句中，修改表结构的是A)ALTERB)CREATEC)UPDATED)INSERT[单选题]93.下列关于文本图的说法中,错误的是()A)文本图不适合展示数据太少的数据集B)文本图不适用于展示无明显差异的数据集,因为无明显差异的数据集会使得出的文本图缺少关键词,无法带来突出感C)可以在文本图中添加标签以使可视化结果更为直观D)文本图又可称为词云图[单选题]94.（__）是常用的估计参数隐变量的利器，它是一种迭代的方法。A)边际似然B)EM算法C)贝叶斯决策D)贝叶斯分类器[单选题]95.MapReduce中哪一种文件输入格式可以自动切割并合并小文件?()A)NLinelmputFormatB)TextInputFormatC)CombineFileInputFormatD)KeyValueTextInputFormat[单选题]96.下列关于GaussDB200的局部聚簇技术说法正确的是（?A)局部聚簇技术可以应用在GaUssDB200的所有表中,B)局部聚簇在某些场景下可以提交检素效壑,所以在创建表时根据业务场旻应创建寥个PCKC)PCK通过min/max稀疏素引实现事实表快速过扫描D)PCK对应的列尽量不要为空值。[单选题]97.具体由创建世界一流能源互联网企业办公室统筹组织，下设（）个常设小组A)3B)4C)2D)5[单选题]98.教育大数据面临的安全风险中，影响范围最大的是（）。A)学生隐私保护B)学校OA数据C)云计算安全风险D)缺乏行业安全标准[单选题]99.()和假设检验又可归结为统计推断的范畴即对总体的数量特征做出具有一定可靠程度的估计和判断A)参数估计B)逻辑分析C)方差分析D)回归分析[单选题]100.下列语句执行的结果是()>>>a=1>>>b=2*a/4>>>a="one">>>print(a,b)A)one0B)10C)one0.5D)one,0.5[单选题]101.下列不属于RDBMS常用的数据库软件有（）A)OracleB)SQLServerC)MySQLD)redis[单选题]102.我国在大数据时代的国家信息安全需要用总体安全观进行认知，下列说法正确的是（）。A)以人民安全为宗旨B)以政治安全为根本C)以经济安全为基础D)以发达国家为榜样[单选题]103.一般将原始业务数据分为多个部分,()用于模型的构建。A)训练集B)测试集C)验证集D)全部数据[单选题]104.(__)是指对已有数据在尽量少的先验假设条件下进行探索，并通过作图，制表等手段探索数据结构和规律的一种方法。A)统计分析B)验证性分析C)数据洞见D)探索性数据分析[单选题]105.下列算法中:①KNN;②线性回归;③对数几率回归，可以用神经网络去构造的（）A)①②B)②③C)①②③D)以上答案都不正确[单选题]106.大数据是指不用随机分析法这样的捷径,而采用()的方法。A)所有数据B)部分数据C)少量数据D)抽样数据[单选题]107.多分类学习中，最经典的三种拆分策略不包括()A)一对一B)一对其余C)一对多D)多对多[单选题]108.下列关于仪表盘图的说法中,错误的是()A)仪表盘图可以直观地表现出某个指标的进度或实际情况B)一个可视化组建中只能创建多个仪表盘C)仪表盘中的仪表板最小值为目标值D)仪表盘中指针指向的位置为指针值,即当前值[单选题]109.使用CREATETABLE语句的()子句，在创建基本表时可以启用全文本搜索A)FULLTEXTB)ENGINEC)FROMD)WHRER[单选题]110.基于Bagging的集成学习代表算法有（）。A)AdaboostB)GBDTC)XGBOOSTD)随机森林[单选题]111.执行以下代码段pets=['dog','cat','dog','goldfish','cat','rabbit','cat']while'cat'inpets:pets.remove('cat')print(pets)时，输出为()。A)['dog','cat','dog','goldfish','cat','rabbit','cat']B)['dog','dog','goldfish','rabbit']C)['dog','dog','goldfish','cat','rabbit','cat']D)['dog','dog','goldfish','rabbit','cat'][单选题]112.下列关于DataFrame说法正确的是（）A)DataFrame结构是由索引和数据组成B)DataFrame的行索引位于最右侧C)创建一个DataFrame对象时需要指定索引D)DataFrame每列的数据类型必须是相同的[单选题]113.下面哪个RDD操作是窄依赖()A)joinB)filterC)groupByKeyD)sort[单选题]114.TF-IDF与该词在整个语言中的出现次数成(__)。A)正比B)反比C)无关D)幂次[单选题]115.Spark集群搭建中，配置集群免密登录时，需要用到的命令是（__）。A)ssh-key-trsaB)ssh-gen-trsaC)ssh-kygen-trsaD)ssh-keygen-trsa[单选题]116.tensorflow中的tf.nn.max_pool()函数中的padding参数，作用是（）。A)池化方法B)是否要在边缘补零C)是否要排序D)该层的名称[单选题]117.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A)在数据基础上倾向于全体数据而不是抽样数据B)在分析方法上更注重相关分析而不是因果分析C)在分析效果上更追究效率而不是绝对精确D)在数据规模上强调相对数据而不是绝对数据[单选题]118.在Hive的配置文件中()表示Hive的DDL语句的输出格式。A)hive.ddl.output.formatB)hive.exec.planC)press.outputD)hive.map.aggr[单选题]119.以下python代码运行结果为()。$;$defSum(a,b=3,c=5):$;$returnsum([a,b,c])$;$print(Sum(a=8,c=2))$;$print(Sum(8))$;$print(Sum(8,2))A)13，16，15B)10，8，10C)13，8，10D)10，16，10[单选题]120.Scipy中，线性模块是（）模块。A)fftpackB)signalC)linalgD)ndimage[单选题]121.关于ADS的权限模型，下列（）描述是正确的。A)每个权限级别能聚合其下面级别的所有权限B)导出数据时需要DUMPDATA、DESCRIBE和SELECT权限，同时需要数据导出目的地的数据写入相关权限C)查询表数据需要SELECT权限，最小级别是表D)ADS的授权模型和MySQL非常相似，比如ADS支持针对用户在host上授权[单选题]122.更新列表时可以使用以下哪几种方法来添加列表项()。A)append(),next(),pop()B)index(),clear(),extend()C)append(),extend(),insert()D)remove(),super(),pop()[单选题]123.任何一个核函数都隐式地定义了一个()空间。A)希尔伯特空间B)再生希尔伯特空间C)再生核希尔伯特空间D)欧式空间[单选题]124.下列语句打开文件的位置应该在()f=open('itheima.txt','w')A)C盘根目录下B)D盘根目录下C)Python安装目录下D)与源文件在相同的目录下[单选题]125.关于云主机登录方式描述对的是（）A)Windows通过远程桌面（MSTSC）方式登录B)Linux通过SSH方式登录C)通过控制台方式（VNC）登录D)以上描述均对[单选题]126.在很长一段时间内，下列关于人工智能研究领域的说法中错误的是（）A)一部分研究人员坚持采用传统的人工智能方法解决问题，简单来说就是模仿人。B)一部分研究人员倡导数据驱动。C)?模仿人?的原因之一是可获取的数据太多，无法处理D)大数据时代，强调以数据为中心[单选题]127.某公司计划上线新系统，数据库工程师使用Hive数据仓库进行数据分析，现在界面提示:"o:jdbc:hive2://86:2181/>"信息，现已完成数据库的创建工作，那么他将如何继续开始数据库的使用?A)usedatabaseB)startdatabaseC)restartdatabaseD)continuedatabase[单选题]128.matplotlib中的axvspan函数作用是什么（）A)在x轴标示不同图形的文本标签图例B)绘制垂直于x的参考区域C)添加x轴内容细节的指向性注释文本D)添加x轴标题[单选题]129.NumericToString是文本函数的一种,它的功能是()。A)把一个字符串转换为数值B)把二进制转换为字符串C)把一个CSN序列转换成字符串D)把一个数值数据转换为字符串[单选题]130.信息增益()，意味着使用属性进行划分所获得的纯度提升。A)越大B)越小C)不变D)无法确定[单选题]131.创建存储过程，CREATEORREPLACEPROCEDUREproc_whi1e_1oop（maxvalininteger）ASDECLARElint:=maxval/2;BEGINWHILEi<maxvalLOOPraiseinfo'%',i;i:=i+1;ENDLOOP:END:下面循环语句在Messages内的输出是（）CALLproc_while_loop（9）;A)5678B)456789C)56789D)45678[单选题]132.在【连接】面板,join条件中输入正确的一项是()A)`差旅费超额百分比`.userid=`用户`.idB)?差旅费超额百分比.userid=用户.id?C)?差旅费超额百分比.userid==用户.id?D)``差旅费超额百分比``.userid=``用户``.id[单选题]133.以下哪个不是大数据的数据计算引擎?A)SparkB)MapReduceC)FlumeD)Flink[单选题]134.Spark比MapReduce快的原因不包括()。A)Spark基于内存迭代,而MapReduce基于磁盘迭代B)DAG计算模型相比MapReduce更有效率C)Spark是粗粒度的资源调度,而MapReduce是细粒度的资源调度D)Spark支持交互式处理,MapReduce善于处理流计算[单选题]135.支持子程序调用的数据结构是A)队列B)二叉树C)树D)栈[单选题]136.假定训练了一个线性SVM并推断出这个模型出现了欠拟合现象，在下一次训练时，应该采取的措施是（）。A)增加数据点B)减少数据点C)增加特征D)减少特征[单选题]137.以下关于绘图标准流程说法错误的是（）。A)绘制最简单的图形可以不用创建画布B)添加图例可以在绘制图形之前C)添加x轴、y轴的标签可以在绘制图形之前D)修改x轴标签、y轴标签和绘制图形没有先后[单选题]138.以下关于人机交互，描述错误的是：（）A)人机交互是一门研究系统与用户之间的交互关系的学科B)人机交互界面通常是指用户不可见的C)系统可以是各种各样的机器.也可以是计算机化的系统和软件D)用户通过人机交互界面与系统交流.并进行操作[单选题]139.线性模型中的权重w值可以看做各个属性x的()。A)正则化系数B)对最终决策结果的贡献度C)高维映射D)取值[单选题]140.大数据的4V特性不包括()。A)Volume(大量)B)Velocity(高速)C)Visua1(可视.)D)Vi缸iety(多样)[单选题]141.语义网络的组成部分为:（）A)框架和弧线B)状态和算符C)节点和链D)槽和值[单选题]142.下列关于HBase的集群结构描述有误的是（）A)HBase的服务器体系结构遵从简单的主/从服务器架构，它由HRegionServer群和HBaseMasterServer构成。B)当表的大小超过设置的值时，HBase会自动地将表划分为不同的区域，每个区域包含所有行的子集。C)HBase逻辑上的表可能会被划分成多个HRegion，然后存储到HRegionServer群中。D)ZooKeeper本身并不存储HBase中的任何数据，它存储的是从数据到HRegionServer的映射，告诉每台HRegionServer它要维护哪些HRegion。[单选题]143.大数据计算服务（MaxCompute，原ODPS）的tunnel命令行工具对上传的数据有格式上的要求，它支持（）格式的数据。A)JSON文件B)xml文件C)xls文件D)csv文件[单选题]144.决策树中，同一路径上的所有属性之间是()关系A)因果B)相关C)逻辑或D)逻辑与第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.以下哪些选项关于决策树的说法是正确的()A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题[多选题]146.下列有关RDBMS的描述正确的是()。A)数据以表的形式出现B)每行为各种记录名称C)每列为记录名称所对应的的数据域D)许多的行和列组成一张表单[多选题]147.下列有关类的说法正确的是（___）。A)当类被实例化时自动执行的函数__init__()，如果没有写自定义的构造函数，则会执行默认构造函数B)析构函数_del__()也是可选的，如果不提供，则Python会在后台提供默认析构函数C)当使用del删除对象时，会调用他本身的析构函数D)当对象在某个作用域中调用完毕，在跳出其作用域的同时析构函数也会被调用一次，这样可以用来释放内存空间[多选题]148.在评价不平衡类问题分类的度量方法有如下几种:()A)F1度量B)召回率（recall）C)精度（precision）D)真正率（turepositiverate,TPR）[多选题]149.簇有效性的面向相似性的度量包括（）A)精度B)Rand统计量C)Jaccard系数D)召回率[多选题]150.Flink窗口按分割标准划分为以下哪几种?A)容量窗口B)时间窗口C)事件窗口D)滚动窗口[多选题]151.精准营销三要素是：A)人B)位置C)物D)性别[多选题]152.fusininsightHD平台中,那些组件支持对列表加密?A)HDFSB)FlinkC)hbaseD)hive[多选题]153.Flink窗口按分割标准划分为以下几种？A)容量窗口B)滚动窗口C)时间窗口D)事件窗口[多选题]154.Flume适用于以下哪些场景的数据收集？A)Thrift，Avro，Syslog，Kafka等数据源上收集数据B)本地文件数据采集C)应用系统产生的日志采集D)大量数据的实时数据采集[多选题]155.HDFS不适用于以下哪些场景?A)流式数据访问B)大量小文件存储C)大文件存储与访问D)随机写入[多选题]156.下列对ApplicationMaster的功能描述正确的是()。A)当用户作业提交时，ApplicationMaster与ResourceManger获取资源，ResourceManger会以容器的形式为ApplicationMaster分配资源B)把获取的资源进一步分配给各个任务C)定时向ResourceManger发送?心跳?消息，报告资源的使用情况和应用的进度消息D)当作业完成时，ApplicationMaster向ResourceManger注销容器，执行周期完成[多选题]157.在算术运算符、比较运算符、逻辑运算符，这三种符号中，它们的优先级排列不正确的是()A)算术/逻辑/比较B)比较/逻辑/算术C)比较/算术/逻辑D)算术/比较/逻辑[多选题]158.Flink能够通过哪几种方式提供容错机制A)窗B)事件时间C)流重放D)状态快照[多选题]159.SQL中SELECT语句的完整语法较复杂，但至少包含的有（）A)SELECTB)FROMC)GROUPD)INTO[多选题]160.下列有关Flume的描述正确的是()。A)Flume具有一定的容错性B)Flume使用Java编写C)Flume不支持failoverD)Flume是一个分布式的轻量级工具，适应各种方式的数据收集[多选题]161.以下属于决策树算法是：（）A)CLSB)ID3C)C4.5D)CART[多选题]162.以下关于模块的描述正确的是()。A)在?from-import?中，以两个下划线开头的标识符是私有的，不会导入B)dir()内置函数监视主模块命名空间中的项目C)以?from-import?导入的形式，所有标识符（无论它们是私有的还是公共的）均被导入D)加载模块后，将自动生成扩展名为.pyc的模块的编译版本[多选题]163.下列关于偏差、方差、均方差、泛化误差的作用表述正确的是（__）。A)偏差刻画了模型本身的拟合能力B)方差刻画了数据扰动所造成的影响C)噪声刻画了学习问题本身的难度D)泛化误差可分解为方差与噪音之和。[多选题]164.下面不属于数据分析平台的有(__)。A)uberB)datameerC)ArimoD)Farmers[多选题]165.下列对HDFS的特点描述正确的是()。A)HDFS可以存储超大文件B)HDFS采用流式数据访问模式存储数据C)HDFS具有低时间延迟的数据访问特点D)HDFS允许在文件尾部添加新的数据（追加）[多选题]166.完整性约束通常包括()A)实体完整性B)域完整性C)参照完整性D)用户定义完整性[多选题]167.下面哪几项属于ElasticSearch的扩展插件?A)bigdeskB)headC)IKAnalyzerD)hadoop[多选题]168.以下哪些属于大数据存储与管理技术?A)HDFSB)HBaseC)TezD)Durid[多选题]169.以下哪些选项是实时检索适用的场景?A)查询条件比较复杂的场景B)查询速度要求高的场景C)图片查询场景D)高并发的场景[多选题]170.自定义计数器有三部分组成分别是()。A)分组名B)时间C)计数器名D)计数器的值[多选题]171.Kafka每个Partition在物理上对应的文件夹下存储哪些文件?A)素引文件B)配置文件C)用户文件D)消息文件[多选题]172.Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，它主要提供什么服务？A)配置维护B)域名服务C)分布式同步D)负载均衡服务[多选题]173.逻辑回归的优点有哪些？（）A)形式简单B)模型效果不错C)训练速度快D)方便输出结果调整[多选题]174.ETL包含下列哪些过程A)数据抽取B)数据转换C)数据加载D)数据展现[多选题]175.从形式语言表达能力而言，规则可分为两类：（__)和（__)。A)命题规则B)一阶规则C)原子命题D)逻辑连接词[多选题]176.以下属于数据转换的方法的是（）。A)中心化变换B)标准化变换C)对数变换D)极差标准化变换[多选题]177.使用ADS可以很好的支持即席查询，对一些复杂的查询，也能在很短的时间内返回处理结果。以下关于ADS中查询涉及的说法正确的有:（）。A)如果用户的查询的条件会指定聚集列的内容或者范围，那么这样的查询性能便会有较大的提升B)处于关联方便的考虑，普通表可以放在维度表组上，这样该表和其他任意表关联都不在受表组的限制C)ADS中join会优先采用hashjoin，如果不满足hashjoin的条件，优化器才会选取其他的关联方法D)需要关联查询的普通表，需要放在同一个表组上[多选题]178.以下哪些模块是属于Spark组件的？A)StreamingB)MLLibC)GraphXD)Hive[多选题]179.HBase提供了Shell命令行，可以通过命令行模式进行（）【选三项】A)创建表B)重启HbaseC)更新D)删除和查询数据[多选题]180.HBase的三层结构中，三层指的是哪三层？A)Zookeeper文件B)-ROOT-表C)META.表D)数据类型[多选题]181.坚持（___）的原则，以企业级共享服务为核心，逐步沉淀共性业务和数据服务能力，打造企业中台，包括业务中台和数据中台。A)问题导向B)业务驱动C)闭环管理D)急用先行[多选题]182.以下哪些不是常见的时间序列算法模型?()A)RSIB)MACDC)ARMAD)KDJ[多选题]183.StructuredStreaming支持的数据源包括?A)HDFSB)KafkaC)SocketD)RateStream[多选题]184.以下属于聚类算法的是（）A)K均值B)DBSCANC)AprioriD)Jarvis-Patrick（JP）[多选题]185.传统循环神经网络的性质是什么？A)上一时刻的网络状态信息将会作用于下一时刻的网络状态B)并行处理序列中所有信息C)容易梯度爆炸/消失D)易于搭建[多选题]186.类的特点有（）。A)封装B)继承C)多态D)重复[多选题]187.下列关于数据流转和应用的说法正确的有（）。A)数据流转和应用过程中应确保可追溯、可复查B)前序环节应保证数据的真实、完整C)前序环节应及时传递到后序环节D)前后环节数据应保持衔接一致[多选题]188.以下选项中属于数据科学家必备的核心能力包括()。A)数据的ETL转换B)数据产品开发能力C)基于数据提出好的研究假设或问题，并完成对应的试验设计D)数据库/数据仓库的维护[多选题]189.以下（）方法可以支持MaxCompute中受保护项目空间的数据流出。A)使用owner通过ACL授权B)使用owner通过policy授权C)设置例外（ExceptionPolicy)D)设置项目互信（TrustedProject)[多选题]190.下列不属于无监督学习的是：()A)kmeansB)svmC)最大熵D)crf[多选题]191.下列关于Series说法正确的是（）。A)Series是一个类似一维数组的对象B)Series可以保存任何类型的数据C)Series由数据和索引构成D)Series结构的数据位于索引的左侧[多选题]192.下面数据是字符串的是A)"zhongguo"B)""C)"""a"""D)abc[多选题]193.管理非结构化数据常采用()。A)NoSQLB)NewSQLC)关系云技术D)关系数据库技术[多选题]194.下面与权限相关的数据表有()。--A)userB)dbC)tables_privD)columns_priv[多选题]195.下列关于交叉验证法描述正确的是（__）。A)交叉验证法先将数据集划分为k个大小相似的互斥子集B)交叉验证法将数据集划分成的k个子集应尽可能保持数据分布的一致性C)通常把交叉验证法称为k折交叉验证D)假定数据集D中包含m个样本，若令交叉验证法中的系数k=m，则得到了交叉验证法的一个特例：自助法[多选题]196.(__)是图像降噪的方法。A)空间域合成法B)中值滤波器C)最小值滤波D)非线性小波变换[多选题]197.以下（__)是一元通用函数。A)np.add()B)np.maximum()C)np.exp()D)np.sqrt()[多选题]198.列关于MapJoin说法有误的是（）A)两份数据data1和data2会被map分别读入，解析成以连接字段为key，以查询字段为value的key-value对，并标明数据来源是data1还是data2。B)reducetask会接收来自data1和data2的相同key的数据，在reduce端进行乘积连接。C)需要有一份数据比较小，在map端能够把它加载到内存，并进行join操作。D)大份数据作为MapTask的输入[多选题]199.大数据平台的计算组件主要有()。A)StormB)SparkC)MapReduceD)Sqoop[多选题]200.大数据计算框架Flink的支持哪些资源调度方式?A)StandaloneB)YARNC)MesosD)Docker[多选题]201.下列语句在python3中的结果为1.5的是()。A)3/2B)3//2C)3/2.0D)3//2.0[多选题]202.下列Hive的分区表描述正确的是（）A)Hive中的每个表都可以拥有一个或者多个分区，每个分区以文件的形式单独存在表文件夹的目录下。B)分区是以字段的形式在表结构中存在，通过desctable命令可以查看到字段存在。C)分区字段不存放实际的数据内容，仅仅是分区的表示。D)分区字段不能出现在表定义的列中[多选题]203.以下哪些是HDFS的核心组件?A)ClientB)NameNodeC)DataNodeD)Product[多选题]204.以下对HDFS中提供文件读写的类描述正确的是（）。A)FSDataOutputStream是HDFSAPI中提供文件写入文件的类。B)FSDataOutputStream是与DataNode交互的接口类。C)FSDataOutputStream是HDFSAPI中提供读取文件的类，通过FileSystemi的close方法获取读取数据流。D)FSDataOutputStreami通过FileSystem的create和append方法获取写入数据流。[多选题]205.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力，如下属于分布式存储组件的有()。A)MapReduceB)SparkC)HDFSD)HBase[多选题]206.下面属于数据集的一般特性的有:()A)连续性B)维度C)稀疏性D)分辨率E)相异性第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.表达式sum(range(10))的值为10。A)正确B)错误[判断题]208.HadoopHA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。()A)正确B)错误[判断题]209.字典可以作为集合的元素。A)正确B)错误[判断题]210.假设列表对象aList的值为[3,4,5,6,7,9,11,13,15,17]，那么切片aList[3:7]得到的值是[6,7,9]。A)正确B)错误[判断题]211.print("tianjin">"beijing")的运行结果为True。A)正确B)错误[判断题]212.0o12f是合法的八进制数字。A)正确B)错误[判断题]213.大数据平台安全管理系统的功能为：从各系统获取日志，同时为各系统提供安全控制策略。A)正确B)错误[判断题]214.深度学习是机器学习的一部分，机器学习又是人工智能的一部分。A)正确B)错误[判断题]215.一张数据表中最多只允许包含一个主键约束。--A)正确B)错误[判断题]216.某电商公司的一位数据分析师在使用Hive进行数据分析时，不慎删除了一个外部表，那么元数据和业务数据将一起都被删除，并且数据不可恢复。A)正确B)错误[判断题]217.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。以上说法()。A)正确B)错误C)无法确定D)模型效果差别不大[判断题]218.已知table=''A)正确B)错误[判断题]219.使用配置规划工具对FusioninsightHDV100R00C50集群进行规划时，可以用V100R002C60版本的配置规划工具来规划。A)正确B)错误[判断题]220.表达式{1,2}*2的值为{1,2,1,2}。A)正确B)错误[判断题]221.因为HDFS有多个副本，所以NameNode是不存在单点问题的。（）A)正确B)错误[判断题]222.数据挖掘的日的是发现数据集中的模式或规律，数据挖掘有监督学习和无监督学习两种方式。()A)正确B)错误[判断题]223.数据湖探索（DataLakeInsight，简称DLI）兼容标准SQL。A)正确B)错误[判断题]224.可视化技术对于分析的数据类型通常不是专用性的。A)正确B)错误[判断题]225.删除数据时若没有设置条件,则系统不会删除表中的任何记录。--A)正确B)错误[判断题]226.带有else子句的循环如果因为执行了break语句而退出的话，则会执行else子句中的代码。A)正确B)错误[判断题]227.随着数据时代的到来，数据量大小的指数递增，那么OLTP就会慢慢被OLAP所替代。A)正确B)错误[判断题]228.中国电信的疫情防控行程查询助手为翼知疫行，为政府及个人提供了包括区域风险查询、疫情预测查询、返程报告查询、行程查询和接触查询等功能。A)正确B)错误[判断题]229.决策树是一种基于树形结构的预测模型，每一个树形分叉代表一个分类条件，叶子节点代表最终的分类结果，其优点在于易于实现，决策时间短，并且适合处理非数值型数据。A)正确B)错误[判断题]230.通过对象不能调用类方法和静态方法。A)正确B)错误[判断题]231.在为企业的IT系统做架构设计时，成本是一个很重要的考虑因素。对于分析型数据库(AnalyticDB,原ADS)和大数据计算服务（MaxCompute,原ODPS),前者使用了SSD盘存储数据，价格比较责，因此在两个产品都能实现的场景下，优先选择大数据计算服务，会降低用户的整体使用成本。A)正确B)错误[判断题]232.计算机在人工管理阶段没有操作系统和管理数据的软件。--A)正确B)错误[判断题]233.Spark是以RDD概念为中心运行的。A)正确B)错误[判断题]234.Python中定义函数的关键字是def。A)正确B)错误[判断题]235.大数据平台专区是基于集团大数据平台为省公司打造的一站式数据应用开发平台，能够为各省开发者提供从底层（计算、存储、工具能力）、中间（OpenAPI、模型）到上层应用快速数据科学探索的一条龙服务。A)正确B)错误[判断题]236.Hive使用length()函数可以求出输出的数量。()A)正确B)错误[判断题]237.DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行?hadoopnamenode-format?操作格式化磁盘。（）A)正确B)错误[判断题]238.Series是一个类似于一维数组的对象。()A)正确B)错误[判断题]239.Python内置的集合set中元素顺序是按元素的哈希值进行存储的，并不是按先后顺序。A)正确B)错误[判断题]240.大数据可以用于流行病预测?A)正确B)错误[判断题]241.数据表中字段的创建顺序与其在数据库中存储的顺序相同。--A)正确B)错误[判断题]242.Map阶段处理数据时，是按照Key的哈希值与ReduceTask数量取模进行分区的规则。()A)正确B)错误[判断题]243.SET('RUNNING','SING')类型的字段允许插入空字符('')。--A)正确B)错误[判断题]244.表达式chr(ord('a')^32^32)的值为'a'。A)正确B)错误[判断题]245.布尔类型是特殊的浮点型。（）A)正确B)错误[判断题]246.用户可以跨项目空间读未保护的项目空间数据。A)正确B)错误[判断题]247.万维网之父是彼得.德鲁克。A)正确B)错误[判断题]248.在一个软件的设计与开发中，所有类名、函数名、变量名都应该遵循统一的风格和规范。A)正确B)错误第4部分：问答题，共11题，请在空白处填写正确答案。[问答题]249.数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。()A)错误B)正确[问答题]250.Hive中的?Groupby?指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理。A)TrueB)False[问答题]251.在Python中导入模块中的对象有哪几种方式？[问答题]252.在Flink中,checkpoint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的A)TRUEB)FALSE[问答题]253.Hadoop2.x版本中的HDFS是由（NameNode、DataNode和SecondaryNameNode）组成。[问答题]254.请简述Python中格式化字符串的几种方式。[问答题]255.HDFS文件写入流程是？()Client向NameNode发起文件写入的请求。()NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。()Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。[问答题]256.DataFrame类对象属于二维结构，它同时拥有【】索引和【】索引。[问答题]257.启动yarn的shell脚本为()[问答题]258.Hadoop发行版本分为开源社区版和()[问答题]259.Yarn-Client和Yarn-Cluster主要区别是ApplicationMaster进程的区别A)TRUEB)FALSE[单选题]260.Maxcompute的屏显行数可以通过管理控制台实现，最大的显示条数是：（）。A)100条B)10000条C)1000条D)5000条1.答案:A解析:2.答案:D解析:3.答案:A解析:4.答案:B解析:列表对象的sort（）函数用来对列表元素进行原地排序，该函数返回值为None。5.答案:C解析:6.答案:D解析:7.答案:A解析:8.答案:D解析:9.答案:C解析:10.答案:A解析:11.答案:B解析:12.答案:D解析:13.答案:A解析:14.答案:C解析:二、多选题15.答案:A解析:16.答案:B解析:17.答案:A解析:18.答案:D解析:19.答案:C解析:20.答案:B解析:21.答案:D解析:数据加工(DataWrangling或DataMunging)是数据产品开发的关键环节。22.答案:B解析:23.答案:D解析:表达客观事实的关键词是对事物的客观性描述，不带有感情色彩和情感倾向，即为客观性文本，不适用于情感分析。而主观性文本则是作者对各种事物的看法或想法，带有作者的喜好厌恶等情感倾向，如ABC中表观点、程度和情绪的关键词都是带有情感倾向的主观性文本，适用于情感分析。24.答案:C解析:25.答案:D解析:常用的冲突消解策略有投票法、排序法、元规则法等。26.答案:D解析:27.答案:B解析:28.答案:B解析:29.答案:C解析:30.答案:C解析:如果增加模型复杂度,那么模型的测试错误率总是会降低,训练错误率可能降低,也可能增高。31.答案:A解析:32.答案:D解析:33.答案:C解析:34.答案:C解析:漏斗图不适合表示无逻辑顺序的分类对比,如果要表示无逻辑顺序的分类对比情况,请使用柱状图。漏斗图也不适合表示占比情况,如果要表示占比情况,请使用饼图。35.答案:A解析:36.答案:D解析:无法计算文本相似度的原因有出现新词在向量模型中没有该词汇或分词工具对于词汇切分与上次不同等其他原因。37.答案:C解析:38.答案:C解析:39.答案:B解析:数据可视化的方法体系的方法论基础主要是指"视觉编码"。"视觉编码"为其他数据可视化方法提供了方法论基础,奠定了数据可视化方法体系的根基。40.答案:B解析:41.答案:C解析:42.答案:B解析:43.答案:B解析:44.答案:D解析:45.答案:B解析:46.答案:B解析:47.答案:B解析:48.答案:B解析:在支持向量机中,软间隔允许支持向量机在一些样本上出错。49.答案:B解析:50.答案:A解析:51.答案:D解析:52.答案:A解析:53.答案:B解析:np.where（）在只有一个参数时返回数值不为0元素的下标。29454.答案:B解析:55.答案:D解析:DMM(数据管理成熟度模型)中"已管理级"的基本特点是组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程。56.答案:C解析:57.答案:C解析:legend（）函数用于添加图例。58.答案:B解析:59.答案:D解析:60.答案:A解析:61.答案:B解析:62.答案:C解析:63.答案:D解析:64.答案:A解析:65.答案:B解析:66.答案:C解析:67.答案:A解析:68.答案:A解析:69.答案:A解析:已优化是数据管理成熟度模型中成熟度的最高等级。70.答案:D解析:71.答案:D解析:72.答案:C解析:73.答案:D解析:74.答案:D解析:75.答案:B解析:76.答案:D解析:77.答案:B解析:78.答案:B解析:79.答案:C解析:80.答案:D解析:81.答案:D解析:82.答案:B解析:83.答案:C解析:MapReduce编程模型中四个组件的执行顺序是RecordReader→Mapper→Partitioner→Reducer。84.答案:B解析:85.答案:A解析:86.答案:A解析:矩阵乘法运算，此处算第一个数就可以排除其他选项。87.答案:A解析:投篮只有两种结果;进或者不进,符合二项分布,二项分布概率的概率可以用公式P(X=k)=pk(1-p)n-k求得,其中n=10代表试验次数,k=3代表事件连续发生的次数,p=1/2代表事件发生的概率。88.答案:D解析:数据产品开发工作之中需要注意有创造性设计、数据洞见、虚拟化等基本活动。89.答案:D解析:90.答案:C解析:91.答案:C解析:92.答案:A解析:93.答案:C解析:94.答案:B解析:95.答案:C解析:96.答案:C解析:97.答案:A解析:98.答案:A解析:99.答案:A解析:100.答案:C解析:101.答案:D解析:102.答案:D解析:103.答案:A解析:训练集、测试集和验证集的功能分别为训练(构建)模型、测试模型以及模型选择与超级参数的调优。104.答案:D解析:105.答案:B解析:106.答案:A解析:大数据的一种表现形式为接近其总体的"所有数据"。107.答案:A解析:108.答案:C解析:仪表盘中的仪表板最小值为0，最大值为目标值。109.答案:A解析:110.答案:D解析:基于Boosting的集成学习算法的集成学习代表算法包含Adaboost、GBDT、XGBOOST，随机森林是基于Bagging。111.答案:B解析:112.答案:A解析:113.答案:B解析:114.答案:B解析:115.答案:D解析:116.答案:B解析:117.答案:B解析:本次分析主要分析了大风和洋流可能发生的地与安全航路的相关性。118.答案:A解析:119.答案:A解析:120.答案:C解析:fftpack是傅里叶变换模块，signal是信号处理模块，linalg是线性代数模块，Ndimage是多维图像处理模块。121.答

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷7)VIP

文档简介

温馨提示

最新文档

评论

大数据开发基础(习题卷7)VIP

文档简介

温馨提示

最新文档

评论

相关文档