版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术原理与应用(第2版)读书笔记模板01思维导图读书笔记目录分析内容摘要精彩摘录作者介绍目录0305020406思维导图第版原理技术大数据技术数据概念框架图小结第章习题大数据应用实验编程数据库领域管理生态系统本书关键字分析思维导图内容摘要内容摘要(1)概念篇:介绍当前紧密关联的最新IT领域技术云计算、大数据和物联网。(2)大数据存储与管理篇:介绍分布式数据存储的概念、原理和技术,包括HDFS、HBase、NoSQL数据库、云数据库。(3)大数据处理与分析篇:介绍MapReduce分布式编程框架、基于内存的分布式计算框架Spark、图计算、流计算、数据可视化。(4)大数据应用篇:介绍基于大数据技术的推荐系统。读书笔记读书笔记天呐,我居然看完了。这是一本偏专业的书籍。值得一看,个中内容,源代码及实践部门太专业而跳过,但原理及详述部分,非常详细,搭配:百度+其他同内容书,一起食用,真香!作为半业务半技术的数据分析师,值得好好了解,体会开发和大数据同行的处理思维!。四颗星。大数据技术发展日新月异,这本书中的一些内容已经有点过时了,不过通篇读下来还是能对大数据领域有一个整体认识。没记错的话这本书是学校“大数据开发技术基础”的教材,上这门课前的寒假2021年2月初读完了这本书。还记得这门课上课也没怎么听,就平时做做实验,然后临近期末考试才买了纸质书从头一页一页的复习备考。精彩摘录精彩摘录大数据的4个“V”,或者说是大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。HBase是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。目录分析第2章大数据处理架构Hadoop第1章大数据概述第一篇大数据基础第1章大数据概述1.1大数据时代1.2大数据的概念1.3大数据的影响1.4大数据的应用1.5大数据关键技术1.6大数据计算模式1.7大数据产业1.8大数据与云计算、物联网1.9本章小结第2章大数据处理架构Hadoop2.1概述2.2Hadoop生态系统2.3Hadoop的安装与使用2.4本章小结2.5习题实验1安装Hadoop第3章分布式文件系统HDFS第4章分布式数据库HBase第5章NoSQL数据库第6章云数据库第二篇大数据存储与管理第3章分布式文件系统HDFS3.1分布式文件系统3.2HDFS简介3.3HDFS的相关概念3.4HDFS体系结构3.5HDFS的存储原理3.6HDFS的数据读写过程3.7HDFS编程实践3.8本章小结3.9习题第4章分布式数据库HBase4.1概述4.2HBase访问接口4.3HBase数据模型4.4HBase的实现原理4.5HBase运行机制4.6HBase编程实践4.7本章小结4.8习题实验3熟悉常用的HBase操作第5章NoSQL数据库5.1NoSQL简介5.2NoSQL兴起的原因5.3NoSQL与关系数据库的比较5.4NoSQL的四大类型5.5NoSQL的三大基石5.6从NoSQL到NewSQL数据库5.7本章小结5.8习题第6章云数据库6.1云数据库概述6.2云数据库产品6.3云数据库系统架构6.4云数据库实践6.5本章小结6.6习题实验4熟练使用RDSforMySQL数据库第7章MapReduce第9章Spark第8章Hadoop再探讨第三篇大数据处理与分析第10章流计算第12章数据可视化第11章图计算第三篇大数据处理与分析第7章MapReduce7.1概述7.2MapReduce的工作流程7.3实例分析:WordCount7.4MapReduce的具体应用7.5MapReduce编程实践7.6本章小结7.7习题实验5MapReduce编程初级实践第8章Hadoop再探讨8.1Hadoop的优化与发展8.2HDFS2.0的新特性8.3新一代资源管理调度框架YARN8.4Hadoop生态系统中具有代表性的功能组件8.5本章小结8.6习题第9章Spark9.1概述9.2Spark生态系统9.3Spark运行架构9.4Spark的部署和应用方式9.5Spark编程实践9.6本章小结9.7习题第10章流计算10.1流计算概述10.2流计算的处理流程10.3流计算的应用10.4开源流计算框架Storm10.5SparkStreaming10.6本章小结10.7习题第11章图计算11.1图计算简介11.2Pregel简介11.3Pregel图计算模型11.4Pregel的C++API11.5Pregel的体系结构11.6Pregel的应用实例11.7Pregel和MapReduce实现PageRank算法的对比11.8本章小结11.9习题第12章数据可视化12.1可视化概述12.2可视化工具12.3可视化典型案例12.4本章小结12.5习题第13章大数据在互联网领域的应用第15章大数据的其他应用第14章大数据在生物医学领域的应用第四篇大数据应用第13章大数据在互联网领域的应用13.1推荐系统概述13.2协同过滤13.3协同过滤实践13.4本章小结13.5习题第14章大数据在生物医学领域的应用14.1流行病预测14.2智慧医疗14.3生物信息学14.4案例:基于大数据的综合健康服务平台14.5本章小结14.6习题第15章大数据的其他应用15.1大数据在物流领域中的应用15.2大数据在城市管理中的应用15.3大数据在金融行业中的应用15.4大数据在汽车行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024专属委托代理协议样本版A版
- 2024年专业项目融资促成协议样本版B版
- 2024届校园暑期实习代理合作合同版
- 2024年协议主体过渡期补充协议版B版
- 2024年中医院医疗日用百货供应协议版B版
- 2024年小产权房产买卖详细协议版
- 2024年度保险合同保险范围和保险条件
- 2024年小产权房买卖详细协议范本版B版
- 2024安全生产标准化实施协议版B版
- 2024年住宅购买销售协议样本版
- 家校同心家校共育+高二上学期期中家长会
- 工程项目审核现场踏勘记录表
- 保山2024年云南保山市市直事业单位遴选管理人员和专业技术人员30人笔试历年典型考题及考点附答案解析
- 2024年陕西省中考数学真题试卷及答案
- 20231210建设工程实际施工人法律问题解析
- 现场急救实训总结与反思
- 评剧《秦香莲》剧本
- 在线网课知慧《商科专业写作(南工大)》单元测试考核答案
- 静女复习市公开课一等奖省赛课微课金奖课件
- 循证医学-临床指南
- 维修人员绩效考核制度
评论
0/150
提交评论