大数据开发基础(习题卷11)_第1页
大数据开发基础(习题卷11)_第2页
大数据开发基础(习题卷11)_第3页
大数据开发基础(习题卷11)_第4页
大数据开发基础(习题卷11)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷11)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.假设一种基因同时导致两件事情:一是使人喜欢抽烟,二是使这个人患肺癌。这句话种基因与抽烟.肺癌之间是()关系,而吸烟和肺癌则是()关系。A)因果;相关B)相关;因果C)并列;相关D)因果;并列答案:A解析:[单选题]2.下列哪一个不属于第三次信息化浪潮中新兴的技术?A)互联网B)云计算C)大数据D)物联网答案:A解析:[单选题]3.OTSpythonCLI工具需要()的python支持。A)2.3版B)2.7版C)2.6版D)3.0版答案:B解析:[单选题]4.数据源不会来自于()A)课程文件B)文件夹C)自定义D)FTP答案:C解析:[单选题]5.下面关于Flink的描述错误的是:()A)Flink是一个针对流数据和批数据的分布式计算框架B)Flink的设计思想主要来源于Hadoop、MPP数据库、流计算系统等C)Flink主要是由Python代码实现的D)Flink所要处理的主要场景是流数据,批数据只是流数据的一个特例而已答案:C解析:二、多选题[单选题]6.下列不是SVM核函数的是A)多项式核函数B)logistic核函数C)径向基核函数D)Sigmoid核函数答案:B解析:[单选题]7.大数据技术的4V特征不包括以下哪项?A)VirtualB)VelocityC)VarietyD)Volume、答案:A解析:[单选题]8.从优化角度来看,大数据计算服务的MapReduce对于哪个节点处理哪个分片这个问题,采用了()策略。A)本地性原理,即数据在哪台机器上,就在哪台机器上启动mapB)能者多劳原理,将数据移动到计算能力最强的节点上,启动mapC)基于历史处理信息的优化原理,即将数据移到从历史执行信息看处理效果最好的机器上,启动mapD)负载均衡原理,即将数据放在当前负载最小的节点上启动map答案:A解析:[单选题]9.网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。A)对数B)指数C)正比D)反比答案:B解析:[单选题]10.下面程序的输出应该是()enc=OneHotEncoder()enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])print(enc.transform([[0,1,1]]).toarray())A)[[1,0,0,1,0,0,1,0,0]]B)[[0,1,0,1,0,0,1,0,0]]C)[[1,0,0,1,1,0,1,0,0]]D)[[1,0,0,1,0,0,1,0,1]]答案:A解析:[单选题]11.在著名管理学家Thomas.H.Davernport在《哈佛商业论坛》上发表的题为《第兰代分析学(Analytics3.0)}的经典论文中,Analytics3.0时代是指()。A)商务智能时代B)唱大数据时代C)数据富足供给时代D)数据智能时代答案:C解析:[单选题]12.scipy中模块cluster的作用是什么?A)向量计算B)程序输入输出C)计算差值D)信号处理答案:A解析:[单选题]13.关于数据相关性,以下说法错误的是()A)相关性体现了大数据的灵魂B)相关性思维实现了从"为什么"到"是仲么"的思维转变C)相关性关注事物的因果关系D)相关性关注事物的相关关系答案:C解析:[单选题]14.执行以下代码段a=set('apple')b=set('orange')print(a^b)时,输出为()。A){'l','e','a','p'}B){'r','a','g','e','n','o'}C){'l','p','g','o','e','n','a','r'}D){'r','g','n','o','l','p'}答案:D解析:[单选题]15.下列选项中,描述不正确的是()。A)Pandas中只有Series和DataFrame这两种数据结构B)Series是一维的数据结构C)DataFrame是二维的数据结构D)Series和DataFrame都可以重置索引答案:A解析:[单选题]16.SQL语言中,实现数据检索的语句是A)SELECTB)INSERTC)UPDATED)DELETE答案:A解析:[单选题]17.idea中查看类的结构的快捷键是()。A)ctrl+0B)Shift+EnterC)Ctrl+DD)Shift+Enter答案:A解析:[单选题]18.()肯定是宽依赖操作。A)mapB)flatMapC)reduceByKeyD)sample答案:C解析:spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖操作包括reduceByKey、groupByKey、join等。[单选题]19.写入数据到HDFS的Sink组件是()。A)HiveB)HBaseC)HDFSD)Hadoop答案:C解析:[单选题]20.下列不是开源工具特点的是()。A)免费B)可以直接获取源代码C)用户可以修改源代码并不加说明用于自己的软件中D)开源工具一样具有版权答案:C解析:延伸的代码中(修改和有源代码衍生的代码中)需要带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包含一个Notice文件,则在Notice文件中需要带有开源工具的Licence。你可以在Notice中增加自己的许可,但不可以表现为对开源工具Licence构成更改。[单选题]21.(__)表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差答案:C解析:[单选题]22.HBase依靠()存储底层数据。A)HDFSB)HadoopC)MemoryD)MapReduce答案:D解析:[单选题]23.大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的()A)新一代技术平台B)新一代信息技术和服务业态C)新一代服务业态D)新一代信息技术答案:B解析:[单选题]24.HDFS创建目录过程中,通过调用FileSystem实例的()方法查看该目录是否存在。A)createB)MkdirsC)existsD)find答案:C解析:[单选题]25.LSM结构的数据首先存储在()。A)硬盘上B)内存中C)磁盘阵列中D)闪存中答案:B解析:LSM结构写数据时,首先将数据缓存到内存中的一个有序树结构中(称为memtable)[单选题]26.下面哪个配置是在mapred-site.xml中配置的()A)复制因子B)Java环境变量C)存储hdfs文件的目录名D)运行MapReduce作业的主机和端口答案:D解析:[单选题]27.若arr=np.array([1,2,3,4,5,6,7,8]),则arr[5:8]=12的意义为(__)。A)将第5个和第8个元素改成12B)将第6、7、8个元素修改成12C)将第8个元素赋值给第5个元素D)创建一个全为12的数组答案:B解析:[单选题]28.以下哪项不是深度学习最近火热的原因()A)神经网络是一个全新的领域B)需要处理的数据量急剧加大C)计算能力的不断提升D)深度学习在很多重要领域,例如语音识别和图像识别等方面取得了重大成就答案:A解析:[单选题]29.下列是正确的变量名的是()A)ifB)elseC)inputD)IF答案:D解析:[单选题]30.下面关于?WHEREiD、<>ANY(子查询语句)?描述正确的是()。--A)表示只有id不等于子查询语句的任意一个结果时才成立B)当?<>?替换为?<=>?时,ANY子查询的执行效果等价于IN关键字C)表示只有id不等于子查询语句的全部结果时才成立D)以上说法都不正确答案:A解析:[单选题]31.下列国家的大数据发展行动中,集中体现?重视基础、首都先行?的国家是()。A)美国B)日本C)中国D)韩国答案:D解析:[单选题]32.Spark诞生于哪所学院A)加州大学芝加哥分校B)哈佛大学加州分校C)加州大学伯克利分校D)斯坦福大学圣地亚哥分校答案:C解析:[单选题]33.假设有一个数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值的等高分箱方法对其进行平滑处理,则分箱处理结果是:()A){8,8,8,22,22,22,29,29,29}B){9,9,9,22,22,22,29,29,29}C){9,9,9,21,21,21,29,29,29}D){9,9,9,22,22,22,28,28,28}答案:B解析:[单选题]34.具有体量大、来源多样、生成极快和多变等特征并且难以用传统数据体系机构有效处理的包含大量数据集的数据是()。A)海量数据B)大数据C)厚数据D)异构数据答案:B解析:GB/T35295-2017《信息技术/大数据/术语》认为,大数据是具有体量大、来源多样、生成极快、多变等特征,并且难以用传统数据体系机构有效处理的包含大量数据集的数据。[单选题]35.(__)不属于机器学习理论基础。A)数据科学B)哲学C)心理学D)人工智能答案:A解析:[单选题]36.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。A)中值滤波B)均值滤波C)最大值滤波D)最小值滤波答案:A解析:[单选题]37.下列关于大数据特点的说法中,错误的是()A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高答案:D解析:[单选题]38.下列关于sklearn说法错误的是()。A)sklearn全称为scikit-learnB)sklearn在官网被分为7个大块C)sklearn的聚类算法几乎都已经放在cluster模块中了D)sklearn需要NumPy和SciPy库的支持答案:B解析:[单选题]39.下列说法错误的是()A)GROUPBY子句用来分组WHERE子句的输出B)WHERE子句用来筛选FROM子句中指定的操作所产生的行。C)聚合函数需要和groupby一起使用D)HAVING子句用来从FROM的结果中筛选行答案:D解析:[单选题]40.关于KNN最近邻分类算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离值进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票,得到最后的分类类别。正确的排序为A)①③②④B)②④③①C)①②③④D)①②④③答案:C解析:[单选题]41.下列关于k近邻算法,正确的是()A)k近邻算法对异常数据敏感B)k近邻算法是一种无监督学习C)k近邻算法需要占用大量内存空间D)k近邻算法包括训练和预测过程答案:C解析:[单选题]42.关于训练样本的描述中,正确的说法是哪些?()A)样本越多,模型训练越快,性能越好B)增加数据可以减少模型过拟合C)样本越少,模型的方差越大D)如果模型性能不佳,可增加样本多样性进行优化答案:B解析:[单选题]43.()模块中包含了插值运算的各种方法A)scipy.clusterB)scipy.fftpackC)egrateD)erpolate答案:D解析:[单选题]44.以下关于人工神经网络(ANN)的描述错误的有()A)神经网络对训练数据中的噪声非常鲁棒B)可以处理冗余特征C)训练ANN是一个很耗时的过程D)至少含有一个隐藏层的多层神经网络答案:A解析:[单选题]45.在SparkSQL中,()使用了新的编码器,其编码器的作用是将VM的对象与表结构进行转换,允许操作序列化数据,可以提高内存利用率。A)DataFrameB)TableC)DataSetD)RDD答案:C解析:[单选题]46.假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。下面的描述哪个表达了偏差和方差与λ的关系()。A)在λ非常小的情况下,偏差低,方差低B)在λ非常小的情况下,偏差低,方差高C)在λ非常小的情况下,偏差高,方差低D)在λ非常小的情况下,偏差低,方差低答案:B解析:λ很小,则意味着模型比较复杂,在这种情况下,会产生偏差低且方差高的结果,模型会对数据过拟合。[单选题]47.下列选项中,运行后会输出1、2、3的是()A)foriinrange(3):print(i)B)foriinrange(2):print(i+1)C)nums=[0,1,2]foriinnums:print(i+1)D)i=1whilei<3:print(i)i=i+1答案:C解析:[单选题]48.Hive最重视的性能是可测量性、延展性、()和对于输入格式的宽松匹配性A)较低恢复性B)容错性C)快速查询D)可处理大量数据答案:B解析:[单选题]49.条件年龄BETWEEN15AND35表示年龄在15至35之间,且()A)不包括15岁和35岁B)包括15岁但不包括35岁C)包括15岁和35岁D)包括35岁但不包括15岁答案:C解析:[单选题]50.关于Hive在FusionInsightHD中的架构描述错误的是:()。A)只要有一个HiveServer不可用,整个Hive集群便不可用B)MotaStore用于提供元数据服务,依赖于DBServiceC)在同一时间点、HiveServer只要一个处于Active状态,另一个则处于Standby状态D)HiveServer负责接收客户端请求.解析.执行HQL命令并返回查询结果答案:A解析:[单选题]51.()操作属于预剪枝。A)信息增益B)计算最好的特征切分点C)限制树模型的深度D)可视化树模型答案:C解析:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。[单选题]52.基于哪种的分词算法是应用最广泛,分词速度最快A)词典B)理解C)统计的机器学习D)其他答案:A解析:[单选题]53.明细表的横纵轴区域中,唯一的维度是()A)行维度B)列维度C)指标D)数据答案:D解析:[单选题]54.想要获取HBase表student的所有行的数据,使用表访问类Table对象的()A)table.get(xxx);B)table.getScan(xxx);C)table.getScanner(xxx);D)table.scan(xxx);答案:C解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.Hive中表的类型可以简单的分为()【选三项】A)内部表B)外部表C)分库表D)分桶表答案:ABD解析:[多选题]56.可以用于判断数组中的元素是否有限的函数有(__)。A)np.floor()B)np.isnan()C)np.isinf()D)np.isfinite()答案:CD解析:[多选题]57.以下关于机器学习发展历程说法正确的是()A)二十世纪五十年代到七十年代初,人工智能研究处于?推理期?B)二十世纪八十年代开始,人工智能研究进入了?知识期?C)在六七十年代,基于逻辑表示的?符号主义?学习技术蓬勃发展D)1986年,第一本机器学习专业期刊创刊答案:ACD解析:[多选题]58.以下哪些方法可以直接来对文本分类?()A)KmeansB)决策树C)支持向量机D)KNN答案:BCD解析:[多选题]59.下列属于可视化高维数据技术的有()。A)矩阵B)平行坐标系C)星形坐标系D)散布图答案:ABC解析:矩阵、平行坐标系和星形坐标系都属于可视化高维数据的常用技术,而散布图又叫相关图,只能处理二维数据。[多选题]60.以下哪些选项是容易造成Hive数据倾斜的原因?A)distinctcountB)droptableC)joinD)droupby答案:ACD解析:[多选题]61.(__)是preprocessing.OneHotEncoder的重要接口。A)fitB)transformC)get_frature_namesD)next答案:ABC解析:[多选题]62.在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤有()。A)菜单Build>ExecuteB)菜单Execute>BuildC)按F5D)按F10答案:AC解析:在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤有菜单Build>Execute或按F5。[多选题]63.HFile是HBase存储数据的文件组织形式,由六部分组成,除了数据块、元数据块、文件信息块还包括()【选三项】A)文件尾块B)数据索引块C)元数据索引块D)HFile文件尾答案:BCD解析:[多选题]64.下列关于Hive的复杂数据类型说法有误的是()A)ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问,需要注意的是Hive中ARRAY类型的下标是从1开始的。B)MAP包含key->value键值对,key可以是任意类型,value必须是基本数据类型,我们可以通过key来访问元素。C)STRUCT可以包含不同数据类型的元素。这些元素可以通过?点语法?的方式来得到所需要的元素。D)我们可以使用COLLECTIONITEMSTERMINATEDBY来指定Array中的各元素、Map中的key与value、Struct中的各元素间的分隔符。答案:ABD解析:[多选题]65.下面的选项是关系数据库基本特征的是()。A)与列的次序无关B)不同的列应有不同的数据类型C)不同的列应有不同的列名D)与行的次序无关答案:ACD解析:[多选题]66.关于MapReduce模型中Map函数与Reduce函数的描述不正确的是A)一个Map函数就是对一部分原始数据进行指定的操作B)一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作C)Map与Map之间不是相互独立的D)Reduce与Reduce之间不是相互独立的答案:BCD解析:[多选题]67.以下选项中属于数据的作用的是()。A)沟通B)验证假设C)建立信心D)欣赏答案:ABC解析:[多选题]68.关于groupby以下语句正确的是()A)SELECTstore_nameFROMStore_InformationGROUPBYstore_nameB)SELECTSUM(sales)FROMStore_InformationGROUPBYsalesC)SELECTstore_name,priceSUM(sales)FROMStore_InformationGROUPBYstore_name,priceD)SELECTstore_name,SUM(sales)FROMStore_InformationGROUPBYstore_name答案:BCD解析:[多选题]69.收集个人信息的合法性要求对个人信息控制者的要求包括()A)不得欺诈、诱骗、强迫个人信息主体提供其个人信息B)不得隐瞒产品或服务所具有的收集个人信息的功能C)不得从非法渠道获取个人信息D)不得收集法律法规明令禁止收集的个人信息答案:ABCD解析:[多选题]70.Scala具有以下哪几个主要特点?A)Scala的优势是提供了REPL(Read-Eval-PrintLoop,交互式解释器),提高程序开发效率B)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中C)Scala具备强大的并发性,支持函数式编程D)Scala可以更好地支持分布式系统答案:ABCD解析:[多选题]71.数据增值存在于哪些过程中()。A)数据对象的封装B)数据系统的研发C)数据的集成应用D)基于数据的创新答案:ABCD解析:[多选题]72.以下选项对GES概念描述正确的是()。A)EdgeLabel:边的标签,用于表示现实世界中的关系类型B)Vertex:节点/顶点,用于表示现实世界中的实体对象C)Edge:边,用于表示关系度D)VertexLabel:节点的标签,用于表示现实世界中的实体类型答案:ABD解析:[多选题]73.关于select语句下列说法正确的是()A)select(name)fromtableperson:所有记录的name字段的值B)select(name)frompersonwhereage=12orname="aa";or或者C)select(name)fromtablepersonwhereage=12;查找age=12的记录的那个字段的值D)select(name,age)frompersonwhereage=12andname="aa";and并且答案:BD解析:[多选题]74.RDD有哪些缺陷?()A)不支持细粒度的写和更新操作(如网络爬虫)B)基于内存的计算C)拥有schema信息D)不支持增量迭代计算答案:AD解析:[多选题]75.在mysql提示符下,输入____命令,可以查看由mysql自己解释的命令()A)\?B)?C)helpD)\h答案:BCD解析:[多选题]76.下面对union的描述不正确的是()A)union只连接结果集完全一样的查询语句B)union可以连接结果集中数据类型个数相同的多个结果集C)union是筛选关键词,对结果集再进行操作D)任何查询语句都可以用union来连接答案:ACD解析:[多选题]77.商业秘密数据脱离本单位时,所提供商业秘密载体处理一般流程为()。A)业务部门拟定B)分管领导审批C)保密办审核、备案D)接收方审核答案:ABC解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.两个DataFrame相加,除非两个DataFrame里同一个位置都有缺失值,其相加的和仍为NaN,如果只有一个DataFrame里存在缺失值,则可以用fill_value指定一个值来替代NaN。A)正确B)错误答案:对解析:[判断题]79.AnalyticDB是一个RealtimeOLAP系统。A)正确B)错误答案:对解析:[判断题]80.Ganglia不仅可以进行监控,也可以进行告警。()A)正确B)错误答案:对解析:此题的目的是考Ganglia的了解。严格意义上来讲是正确。ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有了部分这方面的功能。但是更擅长做警告的还有Nagios。Nagios,就是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起来,把Ganglia采集的数据作为Nagios的数据源,然后利用Nagios来发送预警通知,可以完美的实现一整套监控管理的系统。[判断题]81.CTID的值是增量增加的。A)正确B)错误答案:对解析:[判断题]82.抽样又称取样,从预研究的全部样品中抽取一部分样品单位。数据抽样是一种选择数据对象子集进行分析的常用方法。()A)正确B)错误答案:对解析:[判断题]83.《基于面部图像的自动犯罪概率推断》一文结论正确A)正确B)错误答案:错解析:[判断题]84.MySQL5.7中只有InnoDB存储引擎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论