大数据应用基础_第1页
大数据应用基础_第2页
大数据应用基础_第3页
大数据应用基础_第4页
大数据应用基础_第5页
已阅读5页,还剩168页未读 继续免费阅读

付费阅读全文

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高等学校大数据技术与应用规划教材

大数据应用基础

主编娄岩

副主编徐东雨

编委郑琳琳刘尚辉李静

马瑾丁林曹阳

庞东兴张志常霍妍

内容简介

本书是将大数据基本理论与基本应用有机结合的教材按照定义特征技术流程和典型

,、、

案例分析的方式编写抽丝剥茧由易到难有助于读者理解和掌握大数据技术

,,,。

本书的一大亮点是每章中都使用图表对大数据与传统数据处理方式进行对比另外本

。,

书注重启发式的学习策略便于读者理解和掌握全书在每一章均附有实际应用案例与关键

,。

词注释方便读者查阅和自学同时配备了习题和参考答案

,,。

本书适合作为普通高校大数据技术的基础教材也可以作为职业培训教育及相关技术人

,

员的参考用书

图书在版编目数据

(CIP)

大数据应用基础娄岩主编北京中国铁道出版社

/.—:,

2018.10

高等学校大数据技术与应用规划教材

ISBN9787113248543

大娄数据处理高等学校教材

Ⅰ.①…Ⅱ.①…Ⅲ.①

Ⅳ.①TP274

中国版本图书馆数据核字第号

CIP(2018)235759

书名:大数据应用基础

作者:娄岩主编

策划:周海燕读者热线:

(010)63550836

责任编辑:周海燕徐盼欣

封面设计:穆丽

责任校对:张玉华

责任印制:郭向伟

出版发行:中国铁道出版社北京市西城区右安门西街号

(100054,8)

网址::////

http51eds

印刷:三河市宏盛印务有限公司

版次:年月第版年月第次印刷

20181012018101

开本:印张:字数:千

787mm×1092mm1/1610.5232

书号:

ISBN9787113248543

定价:元

32.00

版权所有侵权必究

凡购买铁道版图书如有印制质量问题请与本社教材图书营销部联系调换电话

,,。:(010)63550836

打击盗版举报电话

:(010)51873659

前言

习近平总书记在党的十九大报告中提出要推动互联网大数据人工智能和实体

“、、

经济深度融合强调贯彻新发展理念建设现代化经济体系大数据虚拟

”,“,”。、VR(

现实增强现实和人工智能等信息技术必将为社会发展和时代进步注入新的生

)、AR()

机和血液

为此本书围绕大数据应用从理论相关技术和实际应用三个层面进行简明扼要

,,、

的阐述目的是让广大师生对大数据的应用方法和相关知识有所了解更好地把握科学

,,

发展的方向

大数据技术教学在中国医科大学已经连续开展五年已经成为大学计算机教育的重

,

要组成部分为国家培养了一批掌握最新发展动态和技能的医学人才同时也积累

。IT,

了一定的教学经验

在编写原则上本书注重知识的系统性针对性理论性和应用性本书倡导启发

,、、。

式的学习策略通过案例启发学生的学习兴趣检验其学习效果提高其学习能力

,,,。

本书内容包括章第章大数据概论主要讲解了大数据技术概念架构整体

12:1、、

技术第章大数据采集及预处理主要讲解了大数据采集的概念数据来源和技术方

;2、

法第章大数据分析概论主要讲解了大数据分析的方法流程主要技术第章大

;3、、;4

数据可视化主要讲解了大数据可视化的过程和可视化工具第章概

Tableau;5Hadoop

论主要讲解了的架构第章和概论主要讲解了的体

Hadoop;6HDFSCommonHDFS

系结构工作原理和模块第章概论主要讲解了的

、Common;7MapReduceMapReduce

架构原理和工作流程第章概论主要讲解了的基本知识和典型工

、;8NoSQLNoSQL

具第章概论主要讲解了生态系统的组成第章云计算与大数据主

;9SparkSpark;10

要讲解了云计算的服务模式部署模式第章典型大数据解决方案主要讲解了各种

、;11

大数据解决方案第章大数据应用案例分析医疗领域主要讲解了大数据在医疗

;12()

领域的应用案例

本书由娄岩任主编由徐东雨任副主编郑琳琳刘尚辉李静马瑾丁林

,,、、、、、

曹阳庞东兴张志常霍妍参与编写具体编写分工如下第章由娄岩编写第

、、、。:1,2

1

大数据应用基础

章由郑琳琳编写第章由刘尚辉编写第章由李静编写第章由马瑾编写第

,3,4,5,6

章由丁林编写第章由徐东雨编写第章由曹阳编写第章由庞东兴编写第

,7,8,9,10

章由张志常编写第章第章由霍妍编写

,11、12。

中国铁道出版社对本书的出版做了充分论证精心策划在此向所有参加编写的同

,。

事们帮助和指导过我们工作的朋友们和参考文献的作者前辈们表示衷心的感谢

、!

由于编者水平有限加之时间仓促书中难免存在疏漏之处恳请广大读者批评

,,,

斧正

!

娄岩

年月

20186

2

目录

本章小结……………

第1章大数据概论……12

1习题………………

112

大数据技术简介………………

1.12第2章大数据采集及预处理………

产业的发展简史………14

1.1.1IT2

大数据的主要来源………数据采集简介…

1.1.232.115

数据生成的三种主要数据采集…

1.1.32.1.115

方式………数据采集的数据来源……

42.1.215

大数据的特点……………数据采集的技术方法……

1.1.442.1.317

大数据的处理流程………大数据的预处理………………

1.1.542.218

大数据的数据格式………数据采集及预处理的主要

1.1.652.3

大数据的基本特征………工具……………

1.1.7620

大数据的应用领域………本章小结……………

1.1.8628

大数据的技术架构……………习题………………

1.27229

大数据的整体技术……………

1.38第3章大数据分析概论……………

大数据分析的四种典型工具30

1.4

简介……………大数据分析简介………………

93.130

大数据未来发展趋势…………大数据分析………………

1.593.1.131

数据资源化………………大数据分析的基本

1.5.1103.1.2

数据科学和数据联盟的方法………

1.5.231

成立………大数据处理流程…………

103.1.333

大数据隐私和安全大数据分析的主要技术………

1.5.33.235

问题………深度学习………………

103.2.135

开源软件成为推动大数知识计算…

1.5.43.2.236

据发展的动力……………大数据分析处理系统简介……

113.337

大数据在多方位改善人批量数据及处理系统……

1.5.53.3.137

们的生活…流式数据及处理系统……

113.3.238

1

大数据应用基础

交互式数据及处理

3.3.3第7章概论……………

系统………MapReduce75

38

图数据及处理系统………简介……………

3.3.4387.1MapReduce75

大数据分析的应用…………

3.4397.1.1MapReduce75

本章小结……………功能、特征和

417.1.2MapReduce

习题………………局限性……

34277

和任务…………

第4章大数据可视化………………7.2MapReduce78

43架构和工作

7.3MapReduce

大数据可视化简介……………流程………

4.14380

大数据可视化工具的架构……

4.27.3.1MapReduce80

………的工作

Tableau477.3.2MapReduce

本章小结……………流程………

5380

习题………………本章小结……………

45481

习题………………

第5章概论………………781

Hadoop55

第8章概论…

简介…NoSQL83

5.1Hadoop55

简史……………简介…

5.1.1Hadoop568.1NoSQL83

应用和发展的含义…………

5.1.2Hadoop8.1.1NoSQL83

趋势………的产生…………

578.1.2NoSQL84

的架构与组成………的特点…………

5.2Hadoop588.1.3NoSQL85

架构介绍………技术基础……………

5.2.1Hadoop588.2NoSQL85

组成模块………大数据的一致性策略……

5.2.2Hadoop598.2.185

应用分析……………大数据的分区与放置

5.3Hadoop618.2.2

本章小结……………策略………

6286

习题………………大数据的复制与容错

5638.2.3

技术………

第6章和概论……87

HDFSCommon64大数据的缓存技术………

8.2.488

简介…的类型………………

6.1HDFS648.3NoSQL89

的相关概念………键值存储…

6.1.1HDFS648.3.189

特性………………列存储……

6.1.2HDFS658.3.289

体系结构…………面向文档存储……………

6.1.3HDFS668.3.390

的工作原理………图形存储…

6.1.4HDFS678.3.491

的相关技术………典型的工具…………

6.1.5HDFS698.4NoSQL92

简介……

6.2Common718.4.1Redis92

本章小结………………

728.4.2Bigtable93

习题………………

6738.4.3CouchDB93

2

目录

本章小结……………虚拟化软件及应用……

9410.2.2113

习题………………资源池技术……………

89510.2.3114

云计算部署模式………

第9章概论…10.2.4116

Spark97云计算应用案例……………

10.3117

平台……本章小结……………

9.1Spark97120

简介………………习题……………

9.1.1Spark9810120

发展………………

9.1.2Spark98第11章典型大数据解决方案……

语言………………122

9.1.3Scala98

与……………大数据………………

9.2SparkHadoop9911.1Intel123

的局限与不足……大数据解决

9.2.1Hadoop11.1.1Intel

………方案……

99123

的优点……………大数据相关

9.2.2Spark9911.1.2Intel

速度比快的案例……

9.2.3SparkHadoop124

原因分析………………百度大数据…

10011.2125

处理架构及其生态百度大数据引擎………

9.3Spark11.2.1125

系统……百度大数据平台……

10111.2.2+126

底层的相关应用………………

9.3.1ClusterManager11.2.3127

和………百度预测的使用

DataManager10111.2.4

中间层的方法……

9.3.2Spark128

………………腾讯大数据…

Runtime10111.3130

高层的应用模块………腾讯大数据解决

9.3.310211.3.1

的应用………………方案……

9.4Spark104130

的应用场景……相关实例………………

9.4.1Spark10411.3.2132

应用的成功本章小结……………

9.4.2Spark132

案例……习题……………

10411133

本章小结……………

105第12章大数据应用案例分析医疗

习题………………(

9106领域………

)134

第10章云计算与大数据…………

108大数据在临床领域的

12.1

云计算简介…应用…………

10.1108134

云计算…基于大数据的比较效

10.1.110912.1.1

云计算与大数据的果研究…

10.1.2135

关系……基于大数据的临床决

10912.1.2

云计算基本特征………策系统…

10.1.3110135

云计算服务模式………医疗数据透明化………

10.1.411012.1.3136

云计算核心技术……………病人的远程监控………

10.211212.1.4137

虚拟化技术……………基于大数据的电子

10.2.111212.1.5

3

大数据应用基础

病历分析………………基于大数据的疾病

13812.3.4

大数据在医药支付领域的模式分析………………

12.2143

应用…………大数据在医疗商业模式

13812.4

基于大数据的多种领域的应用…

12.2.1143

自动化系统……………基于大数据的患者临床记录

13912.4.1

基于大数据和卫生和医疗保险数据集……

12.2.2143

经济学的定价计划……基于大数据的网络

12.4.2

140平台和社区……………

大数据在医疗研发领域的143

12.3大数据在公共健康领域的

应用…………12.5

140应用…………

基于大数据的预测144

12.3.1本章小结……………

建模……145

140习题……………

临床试验及其数据12146

12.3.2

分析……习题参考答案…………

141147

基于大数据的个性参考文献………………

12.3.3159

化治疗…

142

4

第1章

大数据概论

导学

【内容与要求】

本章主要对大数据的技术架构、大数据的整体技术、大数据分析的四种典型工具以及

大数据未来发展趋势进行介绍,使读者更好地了解什么是大数据技术。

“大数据技术简介”一节介绍产业的发展简史、大数据的主要来源、数据生成的三

IT

种主要方式、大数据的特点、大数据的处理流程、大数据的数据格式、基本特征和应用

领域。

“大数据的技术架构”一节介绍四层堆栈式技术架构,包括基础层、管理层、分析层和

应用层。

“大数据的整体技术”一节介绍数据采集、数据存取、基础架构、数据处理、统计分析、

数据挖掘、模型预测和结果呈现等。

“大数据分析的四种典型工具简介”一节介绍、、和。

HadoopSparkStormApacheDrill

“大数据未来发展趋势”一节介绍数据资源化,随着大数据应用的发展,大数据资源成

为重要的战略资源,数据成为新的战略制高点。

【重点与难点】

本章的重点是了解大数据的特点、特征和大数据未来发展趋势;本章的难点是了解大

数据技术架构和整体技术。

大数据是指无法在一定时间范围内用常规软件工具进行捕捉管理和处

(BigData)、

理的数据集合是需要新处理模式才能具有更强的决策力洞察发现力和流程优化能力的

,、

海量高增长率和多样化的信息资产

、。

1

大数据应用基础

大数据究竟是什么有哪些相关技术对普通人的生活会有怎样的影响大数据未

???

来的发展趋势如何本章将一一介绍这些问题

?。

1.1大数据技术简介

早在年著名未来学家阿尔文托夫勒便在第三次浪潮一书中将大数据

1980,·《》,

热情地赞颂为第三次浪潮的华彩乐章从技术层面上看大数据无法用单台计算机

“”。,

进行处理而必须采用分布式计算架构其特色在于对海量数据的挖掘但它又必须依

,。,

托一些现有的数据处理方法如云式处理分布式数据库云存储与虚拟化技术等

,、、。

大数据是继物联网之后产业又一次颠覆性的技术变革其核心在于为客户从数据

IT,

中挖掘出蕴藏的价值而不是软硬件的堆砌因此针对不同领域的大数据应用模式商

,。,、

业模式的研究和探索将是大数据产业健康发展的关键

1.1.1IT产业的发展简史

可以说产业的每一个发展阶段都是由新兴的供应商主导的虽然起因可能是

,ITIT,

由于军事方面或科学发展的需要它们改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论