大数据开发基础(习题卷67)_第1页
大数据开发基础(习题卷67)_第2页
大数据开发基础(习题卷67)_第3页
大数据开发基础(习题卷67)_第4页
大数据开发基础(习题卷67)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷67)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在表中设置外键实现的是哪一类数据完整性()。A)实体完整性B)用户定义完整性C)引用完整性D)以上全部答案:C解析:[单选题]2.下面关于反爬机制描述错误的是:()A)简单低级的网络爬虫,数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展B)反爬机制也是一把双刃剑,一方面可以保护企业网站和网站数据,但是,另一方面,如果反爬机制过于严格,可能会误伤到真正的用户请求C)如果既要和?网络爬虫?死磕,又要保证很低的误伤率,那么又会增加网站研发的成本D)反爬机制不利于信息的自由流通,不利于网站发展,应该坚决取消答案:D解析:[单选题]3.下列哪些操作可以设置一个监听器Watcher()A)getDataB)getChildrenC)existsD)setData答案:D解析:[单选题]4.通过()命令可以显示当前正在使用的数据库名称A)setmysql.cli.print.current.db=true;B)setmysql.cli.print.current.db=false;C)sethive.cli.print.current.db=true;D)sethive.cli.print.current.db=false;答案:C解析:[单选题]5.()模式,只适合于Hive简单试用及单元测试。A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:[单选题]6.SELECT语句的完整语法较复杂,但至少包括的部分是()A)仅SELECTB)SELECT,FROMC)SELECT,GROUPD)SELECT,INTO答案:B解析:[单选题]7.下列哪些语句对主键的说明正确()A)主键可重复B)主键不唯一C)在数据表中的唯一索引D)主键用foreignkey修饰答案:C解析:[单选题]8.下列有关HBase的跳转过滤器SkipFilter描述错误的是()A)跳转过滤器可以对用户提供的过滤器进行包装B)当被包装的过滤器遇到某一行中某一列需要过滤时,那么整行数据都将被过滤掉C)被包装的过滤器必须实现filterKeyValue()方法,否则SkipFilter无法正常工作D)跳转过滤器不可以对用户提供的过滤器进行包装答案:D解析:[单选题]9.如果Python程序执行时,产生了?unexpectedindent?的错误,其原因是:A)代码中使用了错误的关键字B)代码中缺少?:?符号C)代码里的语句嵌套层次太多D)代码中出现了缩进不匹配的问题答案:D解析:[单选题]10.为了调查与软件相关的影响响应时间的原因,审计师应该()A)进行跟踪并以图形描述B)开发一个集成测试环境C)使用嵌入的审计数据D)进行平行模拟答案:A解析:[单选题]11.下列一系列处理,在基本保持原始数据完整性的基础上,减小数据规模的是()A)数据清洗B)数据融合C)数据规约D)数据挖掘答案:C解析:[单选题]12.HBaseShell是一个封装了Java客户端API的JRuby应用软件,有()和批处理模式这两种运行方式A)交互模式B)对象模式C)单例模式D)动态模式答案:A解析:[单选题]13.平均值很容易受()影响A)平均值B)定变值C)极值D)以上说法都不对答案:C解析:[单选题]14.Numpy数组分割使用的函数是()。A)vstack()B)hstack()C)split()D)view()288答案:C解析:np.split()的作用是把一个数组从左到右按顺序切分。[单选题]15.如果把知识按照作用来分类,下述()不在分类的范围内。A)用控制策略表示的知识,即控制性知识。B)可以通过文字、语言、图形、声音等形式编码记录和传播的知识,即显性知识。C)用提供有关状态变化、问题求解过程的操作、演算和行动的知识,即过程性知识。D)用提供概念和事实使人们知道是什么的知识,即陈述性。答案:B解析:[单选题]16.机器学习和深度学习的关系是()。A)深度学习包含机器学习B)机器学习包含深度学习C)二者是独立的D)二者相互促进答案:B解析:[单选题]17.特征工程的目的是()。A)找到最合适的算法B)得到最好的输入数据C)减低模型复杂度D)加快计算速度答案:B解析:特征工程的目的是筛选出更好的特征,获取更好的训练数据。[单选题]18.某企业使用ADS分析数据,其中企业商品库存表(stock_detail)为一张超过20亿条纪录的事实表,描述了企业目前为止的库存情况,事实列仅包含库存数一列。商品信息表(time_detail)描述了商品的具体信息,包括商品信息标识、商品基本信息标识、商品通用信息属性等等20个属性信息,纪录条数在10万条左右,本表中的商品基本信息标识引用用另一张存在多个层级维度的维表商品基本信息表(basic_detail,包含30个属性)。以下设计方案中,综合成本和性能两个角度来看,()是不合理的。A)企业商品库存表设计为分区事实表,分区数选择100个B)将商品信息表打平到企业商品库存表,形成一张宽表,使用时可以减少joinC)商品信息表适合做成维度表,数据小,不需要建分区表D)将商品信息表和商品基本信息表关联取得相关信息后,打平为单张宽维度表解释:/document_detail/26425.html答案:B解析:[单选题]19.以下关于break,continue说法正确的是()A)continue语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环.在循环中break的作用是终止当前循环结构的后续操作,一旦程序运行了break,循环也就终止了!B)break语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环,在循环中continue的作用是终止当前循环结构的后续操作,一旦程序运行了continue,循环也就终止了!C)break,continue语句被用来告诉Python跳过当前循环块中的剩余语句,然后继续进行下一轮循环.D)在循环中break,continue的作用是终止当前循环结构的后续操作,一旦程序运行了break循环也就终止了!答案:A解析:[单选题]20.以下对Volume相关描述不正确的是()。A)Volume是指数据量大B)就目前而言,当数据量达到拍字节以上时,一般称为大数据C)大数据时间分布是均匀的D)数据量大是相对计算与存储能力而定的答案:C解析:[单选题]21.以下语句错误的是()A)altertableempdeletecolumnaddcolumn;B)altertableempmodifycolumnaddcolumnchar(10);C)altertableempchangeaddcolumnaddcolumnint;D)altertableempaddcolumnaddcolumnint;答案:A解析:[单选题]22.MapReduce适用于()A)任意应用程序B)任意可以在WindowsServer2008上的应用程序C)可以串行处理的应用程序D)可以并行处理的应用程序答案:D解析:[单选题]23.在HBase数据模型中,列必须用()来定义。A)键B)族C)单元格D)时间戳答案:B解析:[单选题]24.大数据正快速发展为对数量巨大.来源分散.格式多样的数据进行采集.存储和关联分析,从中发现新知识.创造新价值.提升新能力的()。A)新一代信息技术B)新一代服务业态C)新一代技术平台D)新一代信息技术和服务业态答案:D解析:[单选题]25.在一些算法中,为了进行属性之间的比较或运算,需要把不同属性的不同变量取值范围变换成同一范围,以免使得结果发生扭曲,偏向取值范围大的变量这一过程称为()。A)合并B)嘈数据聚合C)归一化D)数据处理答案:C解析:[单选题]26.下面关于假设检验相关描述不正确的有(__)。A)先对总体均值进行假设,然后利用样本来检验假设是否成立这属于假设检验B)区间估计不是假设检验C)非参数假设检验是假设检验D)点估计是假设检验答案:D解析:[单选题]27.下列选项中,关于dropna()方法描述正确的是()A)dropna()方法只会删除值为NaN的数据B)dropna()方法不会删除值为None的数据C)dropna()方法会删除值为None和NaN的数据D)dropna()方法只会检测缺失数据和空值答案:C解析:[单选题]28.假设文件不存在,如果使用open()方法打开文件会报错,那么该文件的打开方式是下列哪种?()A)rB)wC)aD)w+答案:D解析:[单选题]29.()主要提供内存计算框架。A)Spark核心层B)资源管理层C)服务层D)Spark层答案:A解析:Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。资源管理层主要提供资源管理功能;Spark核心层主要提供内存计算框架;服务层主要提供面向特定类型的计算服务。[单选题]30.数据清洗工作不包括()。A)删除多余重复的数据B)采用适当的方法补充缺失的数据C)纠正或者删除错误的数据D)更改过大和过小的异常数据答案:D解析:[单选题]31.下列做法中,对个人信息安全威胁最大的是()。A)课堂手工签到B)手机恶意APPC)钉钉共享编辑D)共享加密文件答案:B解析:[单选题]32.词汇表的增长将会导致文档向量不断的增长,表现为文档向量的()不断增加。A)个数B)维度C)集合D)元素答案:B解析:[单选题]33.给定词汇表如下:{"Bob","ok","like","football","car"}。则下面句子?Botlikesfootball"的词袋模型表示为:A)[11100]B)[10110]C)[10010]D)[01101]答案:B解析:[单选题]34.Spark是用以下()编程语言实现的。A)CB)C++C)JAVAD)Scala答案:D解析:[单选题]35.Spark比MapReduce快的原因不包括()。A)Spark基于内存迭代,而MapReduce基于磁盘迭代B)DAG计算模型相比MapReduce更有效率C)Spark是粗粒度的资源调度,而MapReduce是细粒度的资源调度D)Spark支持交互式处理.MapReduce善于处理流计算答案:D解析:[单选题]36.匹配是将两个知识模式进行()比较。A)相同性B)一致性C)可比性D)同类性答案:B解析:[单选题]37.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()A)2x-Y-4B)X"十2y=5C)x+2y=3D)2x-Y=0答案:C解析:[单选题]38.当我们构造线性模型时,我们注意变量间的相关性.在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我们可以得出什么结论:1.Var1和Var2是非常相关的2.因为Var1和Var2是非常相关的,我们可以去除其中一个3.Var3和Var1的1.23相关系数是不可能的A)1and3B)1and2C)1,2and3D)1答案:C解析:[单选题]39.以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:()。A)仅写入内存B)同时写入硬盘和内存C)先写入内存再写入硬盘D)先写入硬盘再写入内存答案:D解析:[单选题]40.下列哪个不是常用分词方法?A)基于Tiretree的分词方法B)基于HMM的分词方法C)基于CRF的分词方法D)基于Kmeans的分词方法答案:D解析:[单选题]41.下列选项中,用于上传文件的Shell命令是()A)-lsB)-mvC)-cpD)-put答案:D解析:[单选题]42.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A)一次写入、少次读取B)多次写入、少次读取C)多次写入、多次读取D)一次写入、多次读取答案:D解析:HDFS的设计以一次写入、多次读取为主要应用场景。[单选题]43.以下关于公共安全行业专题分析与查询业务场景描述错误的选项是()。A)临时交互式查询任务对数据进行精确或者模湖查询。B)适用标准SQL语句进行查询,根据查询结果筛选目标人群,侦动案件。C)数据湖内多个数据源只能单独访问再呈现结果。D)原始数据经过批处理后结果写入到指定的文件目录,供交互时查询。答案:C解析:[单选题]44.()函数的功能是使用训练完成的模型给出输入数据的预测值。A)CsvAssembleB)TokenizationC)NumAssembleD)Predict答案:D解析:[单选题]45.程序代码片段:a=int(input("请输入数值"))b=int(input("请输入数值"))c=int(input("请输入数值"))If(a>b):a=belse(a>c):a=cprint(a)在这个程序运行过程中,若从键盘上输入a、b、c的值分别是4、5、6,则最后一个语句在文本窗口中输出显示的是()A)4B)5C)6D)7答案:A解析:[单选题]46.世界一流能源互联网企业办公室统筹组织,下设技术组、商务组和管理优化组3个常设小组,技术组的组长部门是()A)国网人资部B)国网营销部C)国网财务部D)国网互联网部答案:D解析:[单选题]47.关于KNN说法错误的是()A)、为寻找k个最近的邻居B)、当一个样本在特征空间中的k个最相邻的样本中的大多数都属于某一个类别时,该29样本也属于这个类别,并具有这个类别上样本的特性。C)、该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别。D)、KNN算法主要靠判别类域的方法来确定所属类别。答案:D解析:[单选题]48.()是表示数据分布是否为对称性的统计量。A)方差B)中位数C)偏态D)峰态答案:C解析:[单选题]49.设置x轴的数值显示范围可以用(__)函数。A)plt.plot()B)plt.xlim()C)plt.xlabel()D)plt.show()答案:B解析:[单选题]50.面向对象程序设计的缺点是()。A)可扩展性B)编程复杂度C)共享性D)易维护性答案:B解析:[单选题]51.ADS的表进行实时插入、更新时,遵循()设计。A)强一致性B)最终一致性C)会话一致性D)因果一致性答案:B解析:[单选题]52.Project被设置了?保护模式?以后,以下()说法是正确。A)所有人都无法访问该Project中的数据B)只有管理员可以访问该Project中的数据C)用户可以在本Project中访问数据,但是不能将数据导出到外部。D)以上全部答案:C解析:[单选题]53.以下关于n刚说法不正确的是()A)层数多B)抽象能力强C)模拟更复杂模型D)广义上包含CNN、DBN、SVM等答案:D解析:[单选题]54.执行以下代码段a=21b=10print(a!=b)时,输出为()。A)TrueB)FalseC)NoneD)Error答案:A解析:第2部分:多项选择题,共26题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.Hadoop组件Zookeeper的设计目标和主要特点包括()。A)简单性B)自我复制C)顺序访问D)高速读取答案:ABCD解析:ZooKeeper的设计目标和特点包括简单性、自我复制、顺序访问和高速读取。[多选题]56.以下属于python数据可视化工具的是:A)matplotlibB)seabornC)javaD)C++答案:AB解析:[多选题]57.Hadoop的HDFS是一种分布式文件系统,其适合()的数据存储和管理。A)大量小文件存储B)高容错、高吞吐量C)低延迟读取D)流式数据访问答案:BD解析:HDFS不适合小文件存储,HDFS的读取操作相比于传统的数据库延迟较高,不适合低延迟读取。90[多选题]58.大数据计算服务(MaxCompute,原ODPS)中,在做web日志分析时如果发现日志内容(对应字段log_content)中有?select?字符串,则有可能是恶意的sql注入攻击,可以使用()从日志表log中找出所有符合这种特征的访问。A)select*fromlogwheretolower(log_content)like?%select%?;B)select*fromlogwhereinstr(tolower(log_content),?select?)>0;C)select*fromlogwhere?select?intolower(log_content);D)select*fromlogwhereregexp_instr(tolower(log_content),?select?,1)>0;答案:ABD解析:[多选题]59.HBase性能优化包含下面的哪些选项?A)读优化B)写优化C)配置优化D)JVM优化答案:ABCD解析:HBase性能优化包含:读优化、写优化、配置优化和JVM优化。[多选题]60.下列关于仪表盘图的说法中,正确的有()A)仪表盘主要用于直观地展示出某个指标的执行进度或完成的实际情况B)仪表盘图可以用于管理报告中,向管理者汇报当前指标的进展C)我们可以为一个仪表盘设置多个目标值D)仪表盘使用场景较窄,主要用于进度或占比的体现,不太适用于趋势、流程、速度等维度的可视化答案:ABD解析:[多选题]61.大数据人才整体上需要具备()等核心知识。A)数学与统计知识B)计算机相关知识C)马克思主义哲学知识D)市场运营管理知识答案:AB解析:[多选题]62.根据《大数据风控平台项目操作手册》,担保圈链模块,担保圈链页面右侧展示()、()按钮。A)担保筛选B)关联筛选C)全景风险视图D)企业信用智能分析报告答案:AB解析:[多选题]63.下列关于Python中标识符的命名规则的说法正确的有()。A)只能以下划线或者A-Z/a-z中的字母开头B)关键字不能作为标识符C)Python标识符区分大小写D)不能以数字开头答案:ABCD解析:变量名可以包含字母数字下划线,但不能以数字开头,避免使用关键字。[多选题]64.下列选项中基于核的机器学习算法有()A)最大期望算法B)径向基核函数C)线性判别分析法D)支持向量机答案:BCD解析:[多选题]65.属于数值函数的函数为()A)ArrayputB)ConstantC)PiD)Random答案:BCD解析:[多选题]66.根据《大数据风控平台项目操作手册》,财务智能分析中的财务科目异动分析模块,文字部分描述页面右侧表格中()的重点科目数值、增额、增幅情况,描述的文字内容随表格内容变动而变动。A)小幅异动B)有所异动C)大幅异动D)以上都不对答案:BC解析:[多选题]67.云计算包括哪3种典型的服务模式:()A)laaS(基础设施即服务)B)PaaS(平台即服务)C)MaaS(机器即服务)D)SaaS(软件即服务)答案:ABD解析:[多选题]68.F1ume中拦截器包含以下哪些?A)HostInterceptorB)TimestampInterceptorC)SearchandReplaceInterceptorD)RegexFilteringInterceptor答案:ABCD解析:[多选题]69.重点建立?横向协同,纵向贯通?和?()、全场景?的新能源管理体系,结合分布式光伏及新能源云服务生态圈建设,完成新能源云六大对内业务管理功能和五大对外服务中心建设。A)全覆盖B)全环节C)全贯通D)全生态答案:ABCD解析:[多选题]70.下列哪些选项不是HBase为null的列不占用存储空间的原因?A)列存储B)Key-Value结构C)Region分裂D)行存储答案:CD解析:[多选题]71.以下关于规则学习说法正确的是(___)A)规则学习有更好的可解释性,能使用户更直观地对判别过程有所了解。B)当同一个示例被判别结果不同的多条规则覆盖时,则发生了?冲突?。C)从形式语言表达能力而言,规则可分为两类:?命题规则?和?原子规则?D)规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。答案:ABD解析:[多选题]72.在数据科学中,计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A)HadoopYRN资源管理器B)GFS分布式存储系统C)MapRedue分布式处理技术D)BigTable分布式数据库答案:BCD解析:[多选题]73.Flume由哪三部分组成?A)MasterB)SinkC)SourceD)Channel答案:BCD解析:[多选题]74.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A)ClientB)JobTrackerC)TaskTrackerD)HDFS答案:ABCD解析:[多选题]75.MRV2中,使用()替代了MRV1中的JobTracker和TaskTrackerA)NodeManagerB)ApplicationManagerC)ResourceManagerD)ApplicationMaster答案:ACD解析:[多选题]76.下列哪些情况下可以采用数据分区操作()?A)当表中数据量比较多(千万级别以上)的时候B)需要执行大量的数据删除操作的时候C)需要执行大量的数据更新操作的时候D)需要执行大量的热点数据查询操作的时候答案:ABCD解析:[多选题]77.若在消息处理过程中允许部分信息丢失,关闭消息可靠性处理机制的方式有以下哪些?A)将参数Config.Topology_ACKKRS设置为0B)将参数Config.Topology_ACKKRS设置为FalseC)Spout发送消息时,使用不指定消息messageID的接口进行发送D)Bolt发送消息时使用Unanchor方式发送答案:ACD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.在条件表达式中不允许使用赋值运算符?=?,会提示语法错误。A)正确B)错误答案:对解析:[判断题]79.在函数内部,既可以使用global来声明使用外部全局变量,也可以使用global直接定义全局变量。A)正确B)错误答案:对解析:[判断题]80.基于大数据的数据真实性分析技术能够提高垃圾信息的鉴别能力。A)正确B)错误答案:对解析:[判断题]81.在安装部署Hadoop集群之前,不需要提前安装并配置好JDK。A)正确B)错误答案:错解析:由于Hadoop是由Java语言开发的,Hadoop集群的使用依赖于Java环境,因此在安装Hadoop集群前,需要先安装并配置好JDK。[判断题]82.Series可以保存任何数据类型。()A)正确B)错误答案:对解析:[判断题]83.数据核验可以通过自动和手动执行核验过程,可以选择sql或存储过程。A)正确B)错误答案:对解析:[判断题]84.()select语句的过滤条件既可以放在where子句中,也可以放在from子句中。A)正确B)错误答案:错解析:[判断题]85.字符串属于Python有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论