![大数据技术基础-复习题_第1页](http://file4.renrendoc.com/view9/M03/07/3F/wKhkGWcc88aAWJvZAAIZUG3HmB8396.jpg)
![大数据技术基础-复习题_第2页](http://file4.renrendoc.com/view9/M03/07/3F/wKhkGWcc88aAWJvZAAIZUG3HmB83962.jpg)
![大数据技术基础-复习题_第3页](http://file4.renrendoc.com/view9/M03/07/3F/wKhkGWcc88aAWJvZAAIZUG3HmB83963.jpg)
![大数据技术基础-复习题_第4页](http://file4.renrendoc.com/view9/M03/07/3F/wKhkGWcc88aAWJvZAAIZUG3HmB83964.jpg)
![大数据技术基础-复习题_第5页](http://file4.renrendoc.com/view9/M03/07/3F/wKhkGWcc88aAWJvZAAIZUG3HmB83965.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2/2复习题一当前大数据技术的基础是由(C)首先提出的。A:微软B:百度C:谷歌D:阿里巴巴(D)反映数据的精细化程度,越细化的数据,价值越高。A:规模B:活性C:关联度D:颗粒度数据清洗的方法不包括(D)。A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理智能健康手环的应用开发,体现了(D)的数据采集技术的应用。A:统计报表B:网络爬虫C:API接口D:传感器下列关于数据重组的说法中,错误的是(A)。A:数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B)。A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据在数据生命周期管理实践中,(B)是执行方法。A:数据存储和备份规范B:数据管理和维护C:数据价值发觉和利用D:数据应用开发和管理下列关于网络用户行为的说法中,错误的是(C)。A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参考C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是(D)。A:美国B:日本C:中国D:韩国万维网之父是(C)。A:彼得·德鲁克B:舍恩伯格C:蒂姆·伯纳斯-李D:斯科特·布朗MacOS系统的开发者是(C)。A:微软公司B:惠普公司C:苹果公司D:IBM公司大数据时代,数据使用的关键是(D)。A:数据收集B:数据存储C:数据分析D:数据再利用下列关于数据交易市场的说法中,错误的是(C)。A:数据交易市场是大数据产业发展到一定程度的产物B:商业化的数据交易活动催生了多方参与的第三方数据交易市场C:数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助D:数据交易市场是大数据资源化的必然产物数据仓库的最终目的是(D)。A:收集业务需求B:建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持支撑大数据业务的基础是(B)。A:数据科学B:数据应用C:数据硬件D:数据人才scala中valpa=(40,"Foo")如果要访问40,正确的访问语句是(B)A.pa._0B.pa._1C.pa._2D.pa._scala中importjava.util.{HashMap=>_,_}是(B)A.引入java.util包内的HashMapB.引入java.util包内除了HashMap之外的所有成员C.引入java.awt包内所有成员且把引入的成员变为函数D.引入java.awt包内的所有返回值是HashMap的函数Worker是(B)A.主节点B.从节点C.执行器D.上下文scala反编译后是(D)A.C语言B.C++C.JAVAD.字节码文件以下对hive操作描述不正确的是(D)A.Hive是在数据查询时进行模式验证,而不是加载的时候验证B.数据加载时,overwrite关键字不是必须的C.hive的内表和外表都可以修改location属性D.删除表时,表中的数据可以同时删除掉在网络爬虫的爬行策略中,应用最为基础的是(AB)。A:深度优先遍历策略B:广度优先遍历策略C:高度优先遍历策略D:反向链接策略当前,大数据产业发展的特点是(AC)。A:规模较大B:规模较小C:增速很快D:增速缓慢下列关于数据生命周期管理的核心认识中,正确的是(ABC)。A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B:在不同的数据存在阶段,数据的价值是不同的C:根据数据价值的不同应该对数据采取不同的管理策略D:数据生命周期管理旨在产生效益的同时,降低生产成本下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是(AB)。A:传统营销模式比基于大数据的营销模式投入更小B:传统营销模式比基于大数据的营销模式针对性更强C:传统营销模式比基于大数据的营销模式转化率低D:基于大数据的营销模式比传统营销模式实时性更强下列关于脏数据的说法中,正确的是(ABCD)。A:格式不规范B:编码不统一C:意义不明确D:与实际业务关系不大数据再利用的意义在于(ABC)。A:挖掘数据的潜在价值B:实现数据重组的创新价值C:利用数据可扩展性拓宽业务领域D:优化存储设备,降低设备成本按照涉及自变量的多少,可以将回归分析分为(CD)。A:线性回归分析B:非线性回归分析C:一元回归分析D:多元回归分析传统数据密集型行业积极探索和布局大数据应用的表现是(BC)。A:投资入股互联网电商行业B:打通多源跨域数据C:提高分析挖掘能力D:自行开发数据产品大数据人才整体上需要具备(AB)等核心知识。A:数学与统计知识B:计算机相关知识C:马克思主义哲学知识D:市场运营管理知识下列关于大数据的说法中,错误的是(AD)。A:大数据具有体量大、结构单一、时效性强的特征B:处理大数据需采用新型计算架构和智能算法等新技术C:大数据的应用注重相关分析而不是因果分析D:大数据的应用注重因果分析而不是相关分析在噪声数据中,波动数据比离群点数据偏离整体水平更大。(F)对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。(F)一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(T)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(T)政府2.0、政府3.0,与政府以后的治理改革和服务型政府建设的目标是完全不一致的。(F)大数据能帮助教师改进教学。利用大数据方法,教师通过学生反馈回来的作业,就可以发现到底是哪些学生并没有真正听懂,进而有针对性地加以辅导。(T)治理理论认为,现代社会的发展必然要求公共服务多元化的供给。(T)习近平总书记指出,网信事业代表着新的生产力、新的发展方向,应该也能够在践行新发展理念上先行一步。(T)根据涂子沛先生所讲,因为数据的内涵发生了改变,计算的内涵也发生了改变。(T)大数据的思维会把原来销售的概念变成服务的概念。(T)Hadoop中RecordReader的作用是什么?(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader(3)LineRecordReader是用每行的偏移量作为map的key,每行的内容作为map的value;(4)应用场景:自定义读取每一条记录的方式;自定义读入key的类型,如希望读取的key是文件的路径或名字而不是该行在文件中的偏移量。有可能使Hadoop任务输出到多个目录中么?如果可以,怎么做?1)可以输出到多个目录中,采用自定义OutputFormat。2)实现步骤:(1)自定义outputformat,(2)改写recordwriter,具体改写输出数据的方法write()论述大数据开发与大数据平台开发各自含义及特点首先,大数据开发通常指的是基于大数据产业链的一系列开发任务,涉及到大数据平台开发、大数据应用开发、大数据分析等,另外还包括数据采集产品的开发、数据整理产品的开发等等,如果向上延伸的话,部分大数据开发任务与人工智能开发任务也具有密切的联系。大数据平台开发通常有两层含义:一层是进行大数据平台自身的开发,这属于研发级开发任务,比如大数据平台Hadoop就是采用Java语言开发的。整个大数据平台还涉及到一系列产品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,开发这些产品也需要一个庞大的团队。进行大数据平台研发的程序员往往需要具备丰富的开发经验,同时具备较强的研发能力,能够搭建出一个稳定的分布式计算体系。另一层含义是在大数据平台下进行应用开发,比如在Hadoop、Spark平台下进行具体的大数据应用开发等,这部分开发通常属于应用级开发,难度要相对小一些,但是往往需要与具体的场景进行紧密的联系,需要开发者具备一定的行业背景知识。目前大数据应用开发主要的任务有两个,其一是进行已有软件产品的大数据改造;其二是针对于具体的大数据需求进行全新的大数据应用开发,目前由于是大数据落地应用的初期,所以大数据改造的开发任务会相对多一些,未来新的大数据开发任务会逐渐增加。
复习题二下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高下列关于大数据的分析理念的说法中,错误的是(D)A.在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据下列关于普查的缺点的说法中,正确的是(A)A.工作量较大,容易导致调查内容有限、产生重复和遗漏现象B、误差不易被控制C、对样本的依赖比较强D、评测结果不够稳定下列关于聚类挖掘技术的说法中,错误的是(B)A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B、要求同类数据的内容相似度尽可能小C、要求不同类数据的内容相似度尽可能小D、与分类挖掘技术相似的是,都是要对数据进行分类处理大数据的起源是(C)A.金融B、电信C、互联网D、公共管理智慧城市的智慧之源是(C)A.数字城市B、物联网C、大数据D、云计算假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是(A)关系,而吸烟和肺癌则是(A)关系A.因果相关B、相关因果C、并列相关D、因果并列下列演示方式中,不属于传统统计图方式的是(D)A.柱状图B、饼状图C、曲线图D、网络图当前社会中,最为突出的大数据环境是(A)A.互联网B、物联网C、综合国力D、自然资源可以对大数据进行深度分析的平台工具是(C)A、传统的机器学习和数据分析肛具B、第二代机器学习工具C、第二代机器学习工具D、未来机器学习工具面向用户提供大数据一站式部署方案,包括数据中心和服务器等硬件、数据分析应用软件及技术运维支持等多方面内容的大数据商业模式是(A)A.大数据解决方案模式B、大数据信息分类模式C、大数据处理服务模式D、大数据资源提供模式根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种(C)A.数据管理人员B、数据分析员C、研究科学家D、软件开发工程师下列论据中,能够支撑“大数据无所不能”的观点的是(A)A.互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧
大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。A、
新一代信息技术B、
新一代服务业态C、
新一代技术平台D、
新一代信息技术和服务业态
可以对大数据进行深度分析的工具是(C)。
A、浅层神经网络
B、Scala
C、深度学习
D、MapReduceSparkContext是(D)A.主节点B.从节点C.执行器D.上下文scala中valx,y=100意味着(A)A.x,y都是100B.x没有赋值,y是100C.x是0,y是100D.以上说法都不对Executor是(C)A.主节点B.从节点C.执行器D.上下文以下不属于线程安全的数据结构是(A)A.HashMapB.HashTableC.CopyOnWriteArrayListD.ConcurrentHashMaphadoop2.x采用什么技术构建源代码(C)A.antB.ivyC.mavenD.makefile下列各国大数据发展路径的描述中,对应关系正确的是(ACD)A.日本:走尖端IT路线B、英国:视大数据为新的自然资源C、韩国:重视基础、首都先行D、印度:以IT外包转型为突破口若悬河按照服务目的不同,数据流通平台可分为(AC)A.政府数据开放平台B、企业数据开放平台C、数据交易市场D数据研发市场大数据的价值体现在(ABCD)A.大数据给思维方式带来了冲击B、大数据为政策制定提供科学论据C、大数据助力智慧城市提升公共服务水平D、大数据实现了精准营销72.当前大数据技术的基础包括(ABD)A.分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作(BD)A.能够直观反映成对数据之间的空间关系B、能够直观反映多维数据之间的空间关系C、能够静态演化事物的变化及变化的规律D、能够动态演化事物的变化及变化的规律云计算的优势体现在以下哪些方面?(ABCD)A、云计算服务更加安全可靠B、云计算可以真正实现按需服务C、云计算可以有效提高资源利用率D、云计算可以大大降低成本和能耗医疗领域如何利用大数据?(ABCD)A、临床决策支持B、个性化医疗C、社保资金安全D、用户行为分析SparkContext可以从哪些位置读取数据(ACD)A.本地磁盘B.webC.hdfsD.内存scala语言中一个函数可以定义在(ABCD)A.构造函数里B.class内C.object内D.main函数内MLlib包括(ABCD)A.分类模型B.聚类模型C.特征抽取D.统计模型下列选项中,你认为属于贵州发展大数据的先天优势的是(ABCD)。A.空气清新B.远离地震带C.气候凉爽D.电力资源充沛决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。(T)信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。(F)简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。(F)第三方数据处理模式表现为:服务商通过软件即服务或平台即服务形式主义为用户提供自己的数据上服务商的平台上,由平台进行分析处理,用户可以在线查看相应的结果(F)在美国的大数据大棋中,“五眼”是指配合美国进行全球监控的包含美国、英国、加拿大、澳大利亚、新西兰在内的五个国家(T)当前,企业提供的大数据解决方案大多基于Hadoop开源项目(T)Hadoop支持数据的随机读写。(错)NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。(错误)Slave节点要存储数据,所以它的磁盘越大越好。(错误)Hadoop默认调度器策略为FIFO(正确)概述FileInputFormat切片机制(1)简单地按照文件的内容长度进行切片(2)切片大小,默认等于block大小(3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片MapReduce怎么实现TopN?(排序取前10)可以自定义groupingcomparator,或者在map端对数据进行排序,然后再reduce输出时,控制只输出前n个数。就达到了topn输出的目的。select*fromtableorderbyfielddesclimit10;什么是分布式计算答:分布式计算是一门计算机科学,主要研究分布式系统。一个分布式系统包括若干通过网络互联的计算机。这些计算机互相配合以完成一个共同的目标(我们将这个共同的目标称为“项目”)。具体的过程是:将需要进行大量计算的项目数据分割成小块,由多台计算机分别计算,再上传运算结果后统一合并得出数据结论。在分布式系统上运行的计算机程序称为分布式计算程序;分布式编程就是编写上述程序的过程。
复习题三从大量数据中提取知识的过程通常称为(A)。A、
数据挖掘B、
人工智能C、
数据清洗D、
数据仓库大数据的4V特征中的Volume是指(D)。
A、价值密度低
B、处理速度快
C、数据类型繁多
D、数据体量巨大SecondaryNamenode的作用是(C)A.监控NamenodeB.管理DatanodeC.合并fsimage和editlogsD.支持NamenodeHA表示主机名与IP地址映射关系的文件是(C)A./etc/host.confB./etc/hostnameC./etc/hostsD./etc/resolv.conf以下属于oozie作用的是(C)A.作业监控B.日志收集C.工作流调度D.集群管理以下7层OSI网络模型按照正确顺序排序的是(C)A.物理层数据链路层传输层网络层会话层表示层应用层B.物理层数据链路层会话层网络层传输层表示层应用层C.物理层数据链路层网络层传输层会话层表示层应用层D.网络层传输层物理层数据链路层会话层表示层应用层以下描述错误的是(A)A.MapFile的key是Writable类型B.SequenceFile中如果采用记录压缩方式,key是不压缩的C.SequenceFile.Writer类支持append方法D.SequenceFile中如果采用块压缩方式,key也要被压缩以下说法的错误是(B)A.使用Writable序列化方法不满足可扩展的需求B.BytesWritable是不可变长度的C.VIntWritable是可变长度的D.使用protocobuffer需要自定义消息类型大数据的4V特征中的Variety是指(C)。
A、价值密度低
B、处理速度快
C、数据类型繁多
D、数据体量巨大
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行(B)。
A、数据信息
B、专业化处理
C、速度处理
D、内容处理
大数据的核心就是(B)。
A、告知与许可
B、预测
C、匿名化
D、规模化下列关于计算机存储容量单位的说法中,错误的是(C)A、1KB<1MB<1GBB、基本单位是字节(Byte)C、一个汉字需要一个字节的存储空间D、一个字节能够容纳一个英文字符经过一系列处理,在基本保持原始数据完整性的基础上,减小数据规模的是(C)A、数据清洗B、数据融合C、数据规约D、数据挖掘下列关于大数据预测的说法中,错误的是(D)A、人类的生活正在被大数据预测深刻改变B、预测性分析是大数据最核心的功能C、分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据的最大区别D、大数据预测则是基本大数据和预测模型去预测过去某件事情的概率一切事物及事物运动的状态,不仅销售数据、价格这些客观标准可以形成大数据,甚至连顾客情绪(如色彩、空间的感知等)都可以测得,这体现了大数据思维维度中的(A)A、定量思维B、相关思维C、因果思维D、实验思维下列国家的大数据发展行动中,坚持原则先行、谨慎发展的国家是(D)A、英国B、韩国C、印度D、澳大利亚下列论据中,体现“冷眼”看大数据的观点是(B)A、互联网金融打破了传统的观念和行为B、大数据医疗正在走进平民百姓C、数据资产型企业前景光明D、个人隐私泄露与信息安全担忧下列国家的大数据发展行动中,视大数据为新的自然资源的国家是(D)A、中国B、韩国C、印度D、新加坡scala反编译后(C)A.可读但不可执行B.不可读可以执行C.可读可执行D.不可读不可执行scala中defmul(x:Int)(y:Int)=x*y称作(A)A.柯里化函数B.匿名函数C.高阶函数D.偏应用函数中国大数据产业特征包括(BCD)A大数据整体解决方案成熟B.区域产业集聚现雏形C.大数据基础研究受到重视D.互联网企业表现强势GBCP和谐三角指的是哪三个角色(ACD)A.政府B.社会组织C.企业D.公众回答正确下面关于数据开放的陈述哪些是正确的(ABD)A.要提供应用程序开放接口B.允许公众免费查询、下载C.要提供全部的原始数据D.允许公民要求数据开放数据大数据作为一种数据集合,它的含义包括(ACD)。A.数据很大B.很有价值C.构成复杂D.变化很快我国的贵州发展大数据的顶层设计是要逐步建成三个中心,即(BCD)。A.大数据人才中心B.大数据金融中心C.大数据内容中心D.大数据服务中心大数据带来的挑战有哪些(
ABCD)
A.会导致数据盲点
B.危及个人隐私
C.造成群体歧视
D.产生庞大能耗
要消除信息孤岛,需要从以下哪几个方面着手(
ABCD)
A.进行纵向信息系统整合
B.进行水平的电子政务信息系统整合
C.改变内部管理观念和态度
D.建立跨系统、跨平台的政府综合信息处理平台
单纯依据大数据预测做出决策需要遵循哪些原则(
ABC)
A.公开原则
B.公正原则
C.可反驳原则
D.确保个人动因能防范数据独裁的危害
大数据的特征包含(ABCD
)
A.规模性
B.多样性
C.高速性
D.价值密度低
大数据处理流程可以概括为以下哪几步(
ABCD)
A.数据分析与挖掘
B.数据采集
C.数据储存
D.结果展示
对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 运动与心理健康如何通过锻炼提升幸福感
- 教育科技下的道德与法治教育融合探讨
- 运动场地安全检查与整改措施汇报
- 上市公司线上线下营销合同范本
- 上海市建筑钢材采购合同样本
- 中外合作项目劳动合同
- 上海中学教师聘用合同
- 交通银行国际信用证开证合同
- 中医院校实习合同范本
- 个人就业合同协议书
- 博鳌BNCT硼中子治疗中心 环评报告
- 湘教版七年级下册地理第七章《了解地区》检测卷(含答案解析)
- (完整版)4.19天体运动综合习题(带答案)
- 工法培训课件
- 液压式随钻震击器设计
- 空气能热泵系统设计与安装融资计划书
- 2021中考地理真题试卷 山东省烟台地理含答案
- 非法捕捞水产品罪
- 新概念第一册单词汇总带音标EXCEL版
- 作用于血液及造血器官的药 作用于血液系统药物
- 心肺复苏(最全版)完整版
评论
0/150
提交评论