大数据导论-习题及答案汇总-黄源 第1-9章_第1页
大数据导论-习题及答案汇总-黄源 第1-9章_第2页
大数据导论-习题及答案汇总-黄源 第1-9章_第3页
大数据导论-习题及答案汇总-黄源 第1-9章_第4页
大数据导论-习题及答案汇总-黄源 第1-9章_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.5习题(1)请阐述什么是大数据。(2)大数据有什么价值?(3)大数据有哪些意义?(1)大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(2)大数据是一种新的非物质生产要素,蕴含巨大的经济和社会价值,并将导致科学研究的深刻变革,对国家的经济发展、社会发展、科学进展具有战略性、全局性和长远性的意义。(3)数据成为当今社会生产力的重要因素,只有将现有的数据进行归类整理,将零散的、不规范的数据进行清洗关联,创建数据模型,进行分析探索。才能挖掘数据背后的价值,发现事物运行的规律,找到问题出现的根源所在,从而掌握业绩增长的钥匙。2.6习题(1)请阐述什么是云计算。(2)请阐述什么是人工智能。(3)请阐述什么是区块链。(4)请阐述大数据与云计算、人工智能以及区块链的区别和联系。(1)云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需要投入管理工作,或与服务供应商进行很少的交互。(2)人工智能(ArtificialIntelligence,Al)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。(3)区块链在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。(4)云计算与大数据之间又有着非常紧密的联系,大数据是云计算非常重要的应用场景,而云计算则为大数据的处理和数据挖掘都提供了最佳的技术解决方案。大数据技术的发展为人工智能打造了坚实的素材基础。大数据具有体量大、多样性、价值密度低、速度快等特点,大数据技术能够通过数据采集、预处理、存储及管理、分析及挖掘等方式,从各种各样类型的海量数据中,快速获得有价值信息,为深度学习等人工智能算法提供坚实的素材基础。人工智能的发展也需要学习大量的知识和经验,而这些知识和经验就是数据、人工智能需要有大数据支撑,反过来人工智能技术也同样促进了大数据技术的进步,两者相辅相成,任何一方技术的突破都会促进另外一方的发展。通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石。3.5习题(1)请阐述什么是数据采集。(2)请阐述大数据采集平台有哪些。(3)请阐述什么是数网络爬虫。(4)请阐述什么是robots协议。(1)数据采集又称数据获取,是指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头、麦克风以及各类传感器等都是数据采集工具。(2)目前常用的开源日志采集平台包含有:ApacheFlume、Fluentd、Logstash>Chukwa>Scribe以及SplunkForwarder等。这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。(3)网络爬虫是一种按照一定的规则,自动地抓取Web信息的程序或者脚本。网络爬虫可以自动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源。(4)robots协议全称叫作“网络爬虫排除标准。该协议是互联网中的道德规范,主要用于保护网站中的某些隐私。网站可以通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。4.6习题(1)请阐述什么是大数据存储。(2)请阐述什么是分布式存储。(3)请阐述什么是Hadoop。(4)请阐述什么是NoSQL。(5)请阐述什么是数据仓库。(1)大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。(2)分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并发场景下的Web访问问题。与常见的集中式存储技术不同,分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(Hadoopdistributedfilesystem,HDFS)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。NoSQL数据库又叫作非关系数据库,和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。(5)数据仓库(DataWarehouse)简称DW,顾名思义,数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,并对多样的业务数据进行筛选与整合。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。5.5习题(1)请阐述什么是数据清洗。(2)请阐述什么是数据质量。(3)请阐述什么是数据缺失值。(4)请阐述什么是异常数据。(1)在大数据时代,数据清洗通常是指把“脏数据”彻底洗掉,所谓“脏数据”是指不完整、不规范、不准确的数据,只有通过数据清洗才能从根本上提高数据质量。(2)数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用。(3)在数据集中,若某记录的属性值被标记为空白或等,则认为该记录存在缺失值(空值),它也常指不完整的数据。(4)异常值也叫做离群值,通常是指采集数据时可能因为技术或物理原因,数据取值超过数据值域范围。值得注意的是:异常值是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。异常值常分为两种:伪异常和真异常。6.5习题(1)请阐述什么是大数据分析。(2)大数据分析有什么价值?(3)大数据分析有哪些步骤?(4)请阐述什么是数据挖掘。(5)请阐述决策树算法的原理。(1)大数据分析就是利用一些数据分析工具、手段、方法或者思维,从海量和异构的数据中发现规律,从而揭示出数据背后的真相,为人们提供决策的依据,指导业务发展。一般来讲,大数据分析是通常是指对规模巨大的数据进行分析,其目的是提取海量数据中的有价值的内容,找出内在的规律,从而帮助人们做出最正确的决策。一般来讲,典型的大数据分析包含六个步骤,分别是明确需求、收集数据、处理数据、分析数据、展现数据以及撰写报告。(4)数据挖掘(DataMining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。(5)决策树算法最早产生于上世纪60年代,该算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。7.5习题(1)请阐述什么是数据可视化。(2)请阐述数据可视化的应用有哪些。(3)请阐述什么是文本可视化。(4)请阐述什么是社交网络可视化。(1)数据可视化,是关于数据视觉表现形式的科学技术研究,它为大数据分析提供了一种更加直观的挖掘、分析与展示当代手段,从而让大数据更有意义。(2)数据可视化越来越普及,在工业物联网、电信、智慧医疗、智能交通、现代农业等多个行业都有广泛的应用。(3)文本可视化是指将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,同时向人们提供与视觉信息进行快速交互的功能,使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的的关键信息。(4)社交网络可视化通常是展示数据在网络中的关联关系,一般用于描绘互相连接的实体。8.4习题(1)请阐述什么是数据安全。(2)大数据有什么特点?(3)大数据安全的关键技术有哪些?(4)请阐述什么是数据治理。(5)请阐述数据治理的思路。(1)数据即资产,对企业单位业务深度和广度的扩展具有重要的意义,数据安全则是企业单位生存和发展的根基。数据安全中涉及到的数据不仅包括静态的、存储层面的数据,也包括流动的、使用中的数据。(2)大数据的广泛应用对数据安全的定义与防护带来了根本性的变革。首先,传统数据全生命周期安全保障被扩展至了近乎无限的开放空间中,互联网的每个节点和用户都成为数据保障与泄露的攻防点,数据保障体系的涵盖范围空前扩大;其次,数据种类海量导致信息泄露渠道的多元化与高几率,多条低敏感度泄露数据的关联综合可能会组合成一条高敏感度数据,分布式的存储机制使数据泄露位置更加分散和随机,这导致控制与查找数据泄露来源的难度空前提高;最后,高速的海量数据处理速度,也使原始数据被重复和多种维度利用的成本更加降低,原始数据被反复泄露、售卖的几率与次数更高,数据安全问题所造成的影响更加巨大。(3)数据加密技术、身份认证技术、访问控制技术、安全审计、数据脱敏、数据溯源(4)数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。(5)在进行数据治理时,常常包含以下几步:数据采集、数据标准管理、主数据管理、元数据管理、数据仓库建模、数据集成、数据清洗以及架构治理等。9.6习题(1)请阐述什么是农业大数据。(2)农业大数据有什么特点?(3)请阐述什么是工业大数据。(4)请阐述什么是金融大数据。(5)请阐述什么是交通大数据。(6)请阐述什么是智慧交通。(1)农业大数据,一般指利用现代信息技术和信息系统为农业产供销及相关的管理和服务提供有效的信息支持,并提高农业的综合生产力,促进农业结构战略性调整和经营管理效率的总称。(2)农业大数据主要具有复杂性和不平衡性两大特点。(3)工业大数据即难以通过传统的分析工具进行有效分析的工业数据的集合,具备明显的大数据的容量大、数据类型多、数据价值高、数据更新快的特性。(4)金融大数据内涵,可以理解为大数据中蕴含的反映人们金融交易行为互动的基本信息,这是一种依据“信息来源于大数据”的认知而得出的理论考量。金融大数据内涵具有极大量、多维度和完备性等特征,人们根据金融大数据进行决策,需要有处理这些特征的新科技手段。(5)o大数据对于智能交通的意义,在于人们可以应用大数据解决跨越行政区域的限制,实现数据信息的共享,在信息集成优势和组合效率上,有助于建立综合性立体的交通信息体系;另外在车辆安全、交通资源配置以及利用大数据的快速性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论