大数据基础 习题及答案 秦华伟_第1页
大数据基础 习题及答案 秦华伟_第2页
大数据基础 习题及答案 秦华伟_第3页
大数据基础 习题及答案 秦华伟_第4页
大数据基础 习题及答案 秦华伟_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据基础》参考答案模块一大数据概述一、选择题(1)B (2)C (3)A二、简答题1.简述信息技术发展史上的三次信息化浪潮。答:在信息技术发展史上,有三次信息化浪潮。第一次信息化浪潮是以信息处理为核心的个人计算机时代,发生在1980年左右。第二次信息化浪潮是以信息传输为核心的互联网时代,发生在1995年左右。第三次信息化浪潮就是现在以信息获取为核心的大数据时代,在2010年前后兴起。2.简述大数据的5V特征。答:大数据的5V特征:Volumn(数据量大)、Variety(多样性)、Velocity(速度快)、Value(价值密度低)、Veracity(真实性)。3.简述数据产生方式变化的三个阶段。答:人类社会的数据产生方式大致经历了三个阶段。第一个阶段是运营式系统阶段。这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中。这种数据的产生方式是被动的。第二个阶段是用户原创内容阶段。Web2.0的重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性增长。这个阶段数据的产生方式是主动的。第三个阶段是感知式系统阶段。由于感知式系统的广泛使用,会源源不断的产生新数据,这种数据的产生方式是自动的。4.举例说明大数据的应用领域。答:大数据在应用领域非常广泛,比如,电子商务领域的广告推送、金融领域的贷款风险管控、医疗领域的电子病例系统、交通领域的智慧交通服务平台、电信领域的客户精准营销、电子政务领域的公共信息平台等。5.简述大数据的处理流程。答:大数据处理流程一般分为五个步骤:数据采集、数据预处理、数据存储、数据分析与挖掘、数据可视化。6.简述大数据的四层堆栈式技术架构。答:大数据的四层堆栈式技术架构,包括:基础层、管理层、分析层、应用层。基础层涵盖计算资源、内存与存储和网络互联等。管理层包括数据的存储和管理,也涉及数据的计算。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集。应用层包括为企业和终端用户提供服务的应用。7.简述大数据的发展趋势。答:(1)数据资源化(2)科学理论的突破(3)大数据在更多行业落地应用(4)数据将越来越开放(5)大数据安全越来越受重视(6)催生新的学科和岗位(7)大数据多方位改善我们的生活模块二大数据思维一、选择题(1)C (2)B (3)A (4)D (5)B 二、简答题1.简述大数据思维有哪些方面。答:大数据思维有数据核心思维、数据全样思维、数据容错思维和数据相关思维等。数据核心思维,是以数据为核心、数据驱动的思维方式。数据全样思维,是指需要全部数据样本而不是抽样。数据容错思维,是指更追求效率,而不是精确性。数据相关思维,是指关注相关性,而不是因果关系。2.举例说明大数据思维的典型案例。略。3.分析谷歌流感趋势预测所体现的大数据思维方式。答:谷歌通过分析人们在网上的搜索记录预测冬季流感的传播,利用海量数据进行预测。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。谷歌预测流感趋势,并不是依赖于对随机抽样的分析,而是分析了整个美国几十亿条互联网检索记录而得到的结论。这个案例体现了数据全样思维的运用。4.分析“啤酒与尿布”故事所蕴含的大数据思维方式。答:“啤酒与尿布”是沃尔玛的一个经典案例。,沃尔玛研究人员在数据分析中发现跟尿布一起搭配购买最多的商品竟是啤酒。经过调查,在美国有孩子的家庭中,太太们经常嘱咐丈夫们下班后为孩子买尿布,而丈夫们在买完尿布后常常会顺便买点啤酒来犒劳自己。因此,啤酒和尿布销量一起增长。搞清原因后,沃尔玛的工作人员尝试将啤酒和尿布摆在一起,不出意料,啤酒和尿布的销售量双双增加,为商家带来了大量的利润。“啤酒与尿布”故事蕴含了数据相关思维。5.列举自己生活实践中的大数据思维案例。略。模块三大数据支撑技术一、选择题(1)A (2)B (3)B (4)B (5)C(6)A 二、简答题1.大数据与云计算的关系是什么。答:云计算和大数据息息相关,云计算是大数据的基础,大数据的分析能力帮助云计算更好、更合理地利用资源。大数据离不开云计算,云计算的处理能力为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,随着物联网、移动互联网、人工智能等新兴计算形态兴起,都将助力大数据变革,让大数据营销发挥出更大的影响力。2.hadoop的优势有哪些?答:(1)高可靠性。Hadoop采用冗余数据存储方式,当其中一个副本发生故障时,其他副本可以保证集群正常对外提供服务。(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。(5)低成本。Hadoop可以使用廉价计算机搭建集群,从而大大降低了硬件成本,普通用户也可以使用自己的个人计算机搭建和运行Hadoop。(6)多平台运行。Hadoop能够较好地运行在Linux平台,用户也可以在Windows和MacOS等平台上搭建Hadoop。(7)支持多种编程语言。Hadoop带有用Java语言编写的框架,主要使用Java语言开发。用户也可以使用其他语言(如C++、Python)开发Hadoop应用程序。3.列举大数据目前的应用场景,思考其未来还可以应用在哪些方面。答:(1).Hadoop在互联网领域的应用Yahoo将Hadoop技术应用在数据仓库、反垃圾邮件系统、广告系统、Web搜索、用户行为分析及个性化推荐等方面。(2)Hadoop在通信领域的应用1)中国移动。中国移动的“大云”1.5版本产品的总体架构中包括PaaS层和IaaS层,PaaS层是基于Hadoop构建的,用于数据存储和分析。2)中国电信。中国电信发布的大数据业务品牌“天翼大数据”推出了精准营销、风险防控、区域洞察、咨询报告四类数据型产品和大数据云平台型产品。。3)中国联通。中国联通大数据产品体系包括征信产品、沃指数、精准营销产品、用户标签、开放平台和智慧足迹等。4.简述HDFS和MapReduce的主要功能。答:HDFS是针对GFS的开源实现,其冗余存储的方式使得数据的安全性得到了保证。它支持廉价计算机搭建的服务器集群,从而获得了海量数据的分布式存储能力,这使得整个系统具备了高吞吐率、高容错性和高扩展性。MapReduce是针对GoogleMapReduce的开源实现,它是一种海量数据集的分布式并行计算编程模型。它可以将大作业拆分成小作业进行作业调度和容错管理,适用于数据的批量处理。MapReduce将复杂的并行计算过程高度抽象为Map函数和Reduce函数,这使得用户开发并行应用程序时无需了解分布式系统的底层实现细节,就可以完成海量数据的分布式并行计算工作三、实操题见教材实训部分。模块四大数据采集与预处理一、选择题(1)C (2)D (3)D (4)B 二、简答题1.大数据采集方法有哪几大类?答:(1)数据库采集(2)系统日志采集(3)感知设备数据采集(4)网络数据采集2.简述网络爬虫的工作原理及工作流程。答:网络爬虫是一种通过既定规则,自动获取网页信息的程序或脚本。爬虫的目的在于将目标网页的数据下载至本地,以便进行数据分析。爬虫的工作流程:(1)发送请求。通过HTTP库向目标站点发起请求,然后等待服务器响应。这个请求的过程就像用户打开浏览器,在浏览器地址栏输入网址“”,然后按“Enter”键。即浏览器作为客户端向服务器端发送了一次请求。(2)获取响应内容。如果服务器能正常运行,用户会得到一个响应,响应的内容便是所要获取的内容,可能包括HTML、Json字符串、二进制数据(图片、视频等)等类型。(3)解析内容。解析得到的内容可能是HTML,可以使用正则表达式、网页解析库进行解析;也可能是Json,可以直接转为Json对象解析;如果是二进制数据,则可以保存起来或者进行进一步处理。(4)保存数据。保存数据的形式很多,可以保存为文本,也可以保存到数据库,或者保存为特定的格式文件(如jpg、mp4格式)。3.大数据预处理包括哪些内容?答:数据的预处理是指对采集的数据进行分类,或分组前所做的审核、筛选、排序等必要的处理。数据审核,可以分为准确性审核、适用性审核、及时性审核和一致性审核四个方面;数据筛选,对审核过程中发现的错误应尽可能予以纠正;数据排序,按照一定顺序将数据进行排列。4.大数据预处理的方法有哪些?答:数据预处理方法主要包括数据清洗、数据集成、数据转换和数据规约等。通过这些预处理方法,可以有效地清除冗余的数据、纠正错误的数据、完善不完整的数据,从而筛选出有效的数据,达到数据挖掘的目的。模块五大数据分析与挖掘一、选择题(1)D (2)A (3)A (4)C 二、简答题1.典型的数据分析包括哪些步骤?答:典型的数据分析包含以下3个步骤:(1)探索性分析。刚取得的数据可能杂乱无章,看不出规律,可以通过作图、制表、用各种形式的方程拟合、计算某些特征量等手段探索隐藏在数据中的规律。(2)模型选定分析。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步分析从中挑选一定的模型。(3)推断分析。通常使用数理统计方法推断选定的模型或估计可靠程度和精确程度。2.常见的大数据分析工具有哪些?答:常见的大数据分析工具有:FineBI、Tableau、Smartbi、亿信ABI、QuickBI等。3.大数据挖掘的定义是什么?答:大数据挖掘是指通过算法在大量的数据中搜索隐藏其中的有价值的信息的过程。大数据挖掘是一个决策支持过程,可以高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险。4.大数据挖掘的关键技术有哪些?答:大数据挖掘的关键技术主要有:分类、回归分析、聚类分析、关联规则、特征分析以及变化和偏差分析等。模块五大数据分析与挖掘一、选择题(1)D (2)A (3)A (4)C 二、简答题1.典型的数据分析包括哪些步骤?答:典型的数据分析包含以下3个步骤:(1)探索性分析。刚取得的数据可能杂乱无章,看不出规律,可以通过作图、制表、用各种形式的方程拟合、计算某些特征量等手段探索隐藏在数据中的规律。(2)模型选定分析。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步分析从中挑选一定的模型。(3)推断分析。通常使用数理统计方法推断选定的模型或估计可靠程度和精确程度。2.常见的大数据分析工具有哪些?答:常见的大数据分析工具有:FineBI、Tableau、Smartbi、亿信ABI、QuickBI等。3.大数据挖掘的定义是什么?答:大数据挖掘是指通过算法在大量的数据中搜索隐藏其中的有价值的信息的过程。大数据挖掘是一个决策支持过程,可以高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险。4.大数据挖掘的关键技术有哪些?答:大数据挖掘的关键技术主要有:分类、回归分析、聚类分析、关联规则、特征分析以及变化和偏差分析等。第六章深度学习与人工智能1.谈谈你对深度学习的认识。答:深度学习(DeepLearning,DL)的概念源于人工神经网络的研究,是机器学习的一个新领域,旨在学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对解释文字、图像和声音等数据有很大帮助。包含多隐藏层的多层感知器就是一种深度学习结构,通过多层处理,将初始的低层特征表示转化为高层特征表示后,用简单模型即可完成复杂的分类等学习任务。简单地说,就是通过构建的具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而提升分类或预测的准确性。2.常用的深度学习工具有哪些?答:常用的深度学习工具有TensorFlow、PyTorch、Keras等。3.人工智能与大数据的区别是什么?答:人工智能是一种计算形式,它允许机器执行认知功能,支持人工智能的机器旨在分析和解释数据,然后根据这些解释解决问题。通过机器学习,计算机会学习如何对某个输入采取行动或做出反应,并在遇到相同问题时知道采取相同的行动,类似人类的做法。与人工智能相比,大数据是一种传统计算模式。它不会根据结果采取行动,只是寻找结果。它定义了非常大的数据集或极其多样的数据。大数据集中可以存在结构化数据、半结构化数据和非结构化数据,分析数据之前需要进行预处理操作。人工智能与大数据在应用上也有差异。大数据的应用主要是通过对数据的对比分析来掌握和推演更优方案。而人工智能的开发则是为了辅助和代替人类更快、更好地完成某些任务或做出决定。4.深度学习在生活中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论