版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop构建数据仓库实践读书笔记模板01思维导图读书笔记目录分析内容摘要精彩摘录作者介绍目录0305020406思维导图数据仓库数据仓库数据处理相关使用小结第章数据数据仓库维度表模型简介装载分析技术事实作业关键字分析思维导图内容摘要内容摘要本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。读书笔记读书笔记内容多,不够详细,适合有一定基础的同学查看。前半部分可以做复习数仓大纲,后半部分的内容相对过时了,粗略看看即可。结合Google早年发布的GFS、MapReduce、Bigtable等论文能够对大数据分布式架构的发展历程有更深入的理解。我刚开始了解大数据,本来想找一本专门讲Hadoop的书,不过阅读的过程发现这本书理论讲得很好,从数据仓库的背景出发,帮助我更好地理解了Hadoop在数据仓库中的位置。精彩摘录精彩摘录Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。常用的变化数据捕获方法有时间戳、快照、触发器和日志四种TDS(TRANSFORMEDDATASTORES)意为转换后的数据存储。这是真正的数据仓库中的数据。事实和维度是两个维度模型中的核心概念。事实表示对业务数据的度量,而维度是观察数据的角度。事实通常是数字类型的,可以进行聚合和计算,而维度通常是一组层次关系或描述信息,用来定义事实。粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。RDS(RAWDATASTORES)是原始数据存储的意思数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型维度模型通常以一种被称为星型模式的方式构建。所谓星型模式,就是以一个事实表为中心,周围环绕着多个维度表。目录分析1.1什么是数据仓库1.2操作型系统与分析型系统1.3数据仓库架构1.4抽取-转换-装载第1章数据仓库简介1.6小结1.5数据仓库需求第1章数据仓库简介2.1关系数据模型2.3DataVault模型2.2维度数据模型第2章数据仓库设计基础2.4数据集市2.6小结2.5数据仓库实施步骤第2章数据仓库设计基础3.1大数据定义3.3Hadoop基本组件3.2Hadoop简介第3章Hadoop生态圈与数据仓库3.4Hadoop生态圈的其他组件3.6小结3.5Hadoop与数据仓库第3章Hadoop生态圈与数据仓库4.1Hadoop主要发行版本4.2安装ApacheHadoop4.3配置HDFSFederation4.4离线安装CDH及其所需的服务4.5小结12345第4章安装Hadoop5.1Kettle概述5.2Kettle连接Hadoop5.3导出导入Hadoop集群数据5.4执行Hive的HiveQL语句5.5MapReduce转换示例12345第5章Kettle与Hadoop5.7小结5.6Kettle提交Spark作业第5章Kettle与Hadoop6.1业务场景6.2Hive相关配置6.3Hive表分类6.4向Hive表装载数据6.5建立数据库表12345第6章建立数据仓库示例模型6.7小结6.6装载日期维度数据第6章建立数据仓库示例模型7.1逻辑数据映射7.2数据抽取方式7.3导出成文本文件7.4分布式查询7.5使用Sqoop抽取数据7.6小结010302040506第7章数据抽取8.1数据清洗8.2Hive简介8.3初始装载8.4定期装载第8章数据转换与装载8.6小结8.5Hive优化第8章数据转换与装载9.1crontab9.2Oozie简介9.3建立定期装载工作流9.4建立协调器作业定期自动执行工作流第9章定期自动执行ETL作业9.6小结9.5Oozie优化第9章定期自动执行ETL作业10.1增加列10.3角色扮演维度10.2维度子集第10章维度表技术10.4层次维度10.5退化维度10.6杂项维度10.7维度合并10.8分段维度10.9小结010302040506第10章维度表技术11.1事实表概述11.2周期快照11.3累积快照11.4无事实的事实表第11章事实表技术11.5迟到的事实11.7小结11.6累积度量第11章事实表技术12.1联机分析处理简介12.3Hive、SparkSQL、Impala比较12.2Impala简介第12章联机分析处理12.4联机分析处理实例12.6小结12.5ApacheKylin与OLAP第12章联机分析处理13.1数据可视化简介13.2Hue简介1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年沪科版选择性必修3历史上册月考试卷含答案
- 公司财务知到智慧树章节测试课后答案2024年秋北京第二外国语学院
- 2025年度美术品艺术品展览与技术支持合同4篇
- 技术服务合同(2篇)
- 2025版农业大棚种子繁育基地合作合同范本4篇
- 承包生产销售生物天燃气的合同(2篇)
- 二零二五年度出渣车辆废旧利用回收处理合同4篇
- 2025年度文化产业园门面租赁及项目合作合同3篇
- 二零二五年度医疗行业普通员工劳动合同规范文本2篇
- 二零二五年度传统工艺木雕艺术品进出口代理合同2篇
- 化学-河南省TOP二十名校2025届高三调研考试(三)试题和答案
- 智慧农贸批发市场平台规划建设方案
- 林下野鸡养殖建设项目可行性研究报告
- 2023年水利部黄河水利委员会招聘考试真题
- Python编程基础(项目式微课版)教案22
- 01J925-1压型钢板、夹芯板屋面及墙体建筑构造
- 欠电费合同范本
- 2024年新高考地区数学选择题填空压轴题汇编十八含解析
- 网易云音乐用户情感画像研究
- 小学四年级奥数题平均数问题习题及答案
- 工作违纪违规检讨书范文
评论
0/150
提交评论