avro数据序列化系统2课程大纲_第1页
avro数据序列化系统2课程大纲_第2页
avro数据序列化系统2课程大纲_第3页
avro数据序列化系统2课程大纲_第4页
avro数据序列化系统2课程大纲_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Hadoop 大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)课程讲师:课程分类:大数据适合人群:初级数量:230用到技术:部署 Hadoop 集群涉及项目:京东商城、阿里巴巴第一阶段:Hadoop 基础篇(50) - 千里之行,始于足下(课程)课程一、基于 Linux 操作系统下的 Java 语言开发(20)本套课程主要介绍了Linux 系统下的 Java 环境搭建及最基础的 Java 语法知识。学习 Linux操作系统下 Java 语言开发的好处 好处一:不再在 Windows 操作系统下,开阔眼界。好处二:熟练 Linux 操作系统的指令,走出“指指点点”的开发,成为真正

2、的代码程序员。好处三:增加自己的竞争实力,为自己应聘时加上浓浓的一笔。第一讲安装虚拟机以及 Linux 操作系统第二讲Linux 桌面系统第三讲Linux 文件和目录管理第四讲VIM 的使用(上)第五讲VIM 的使用(下)第六讲Linux 终端常用命令第七讲Java 开发环境的搭建第八讲Java 语言基础(上)第九讲Java 语言基础(下)第十讲Java 中 IO 详解(上)第十一讲Java 中 IO 详解(下)第十二讲Java 中容器详解(上)第十三讲Java 中容器详解(下)第十四讲Java 中Swing 详解(上)第十五讲Java 中Swing 详解(下)第十六讲JSP 开发环境的搭建第

3、十七讲JSP 语法详解(上)第十八讲JSP 语法详解(下)第十九讲开发用户登陆,用户系统课程二、零基础实战数据库应用开发(30)通过本课程的学习,用户可在最短的时间内掌握的安装配置与使用DML特性的高级用法、常见内置函数的高级用法、中过程写法、视图、用户自定义函数、触发器等高级用法、中的事务功能。并了解图形化管理工具的使用、字符集及乱码处理、的数据备份与还原技术、的安全技术、的系统管理、集群的配置。第一部分:安装配置数据库(1)第二部分:图形化管理工具(2)第三部分:引擎及数据库基本操作(2)第四部分:字符集及乱码处理(2)第五部分:DML 特性的高级用法(5)第六部分:内置函数(1)第七部分

4、:中的过程、触发器高级应用(2)第八部分:中视图与事务高级应用(3)第九部分:中索引的使用(1)第十部分:数据库的安全技术(1)第十一部分:系统管理(1)第十二部分:备份和还原操作(1)第十三部分:性能优化(1)第十四部分:集群的配置及应用(1)第二阶段:Hadoop 全面深入篇(96) - 十年寒窗苦,成名天下知课程一、 Greenplum 分布式数据库开发入门到精通(41)Greenplum 的架构采用了 MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量 DML 处理快。而且性能可以随着硬件

5、的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级 ODS/EDW,或者数据集市等等。本课程全面深入地介绍了 Greenplum 数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。一、 Greenplum 架构GreenplumGreenplum 体系结构Greenplum 高可用性架构二、安装 Greenplum配置环境安装并初始化 GPDB 系统启停数据库配置 GP 系统三、分布式数据库数据是如何的分布策略四、 GBDB 查询处理查询命令的执行SQL 查询处理机制并行查询计划五、角色权限及客户

6、端认证管理客户端认证管理用户和组六、客户端接口和程序pgAdmiIPSQL七、定义数据库对象创建并管理数据库创建并管理表空间创建并管理模式创建并管理表分区表数据分布与分区压缩与行列序列、索引与视图八、管理数据、更新、删除事务管理空间回收和统计九、查询数据定义查询使用函数和运算符查询分析十、工作负载及资源管理GP 工作负载管理概述配置工作负载管理创建资源队列分配资源队列检查资源队列状态十一、装载和卸载数据GP 装载命令概述装载数据到GP从 GP 卸载数据格式化数据文件十二、备份恢复串行备份和恢复并行恢复和恢复十三、性能调优如何进行调优常见的性能问题十四、GP 系统配置参数关于 GP 的 Mast

7、er 参数与本地化参数设置配置参数配置参数种类十五、开启高可用性GP 高可用概述开启 GP 的 Mirror获知 Segment 何时失败恢复失败的 Segment恢复失败的Master十六、GP MapReduceMapReduce 基础GP MapReduce 编程MapReduce 作业执行和故障课程二、全面深入 Greenplum Hadoop 大数据分析(55)大量的半结构化和非结构化信息无法管理和,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据。EMC 收购了 Greenplum 之后,推出的针对 Hadoop 的Greenplum 的数据库。采用 G

8、reenplum HD 技术管理半结构化和非结构化信息,整体 TCO 更低,除了进行有效和管理,可以通过 MapReduce 技术进行并行的分析和挖掘,把大量的数据变成有价值的数据资产。本课程深入阐述了Hadoop 的架构原理,Hadoop 整体技术架构,包括HBase、 Hivg、ZooKeeper、Chukwa 等实战运用。另外还介绍了云计算的基础知识和 Hadoop 在云计算领域的运用,以及剖析了 Hadoop 在各个互联网巨头商业环境的运用。一、 Hadoop 的和体系:HadoopHadoop 子项目Hadoop 的架构二、 Hadoop 的安装与配置准备和配置环境三种运行模式完全分

9、布式模式安装三、 HDFS-大数据HDFS 概念与体系结构HDFS 的可靠性HDFS 文件操作HDFS API四、 关于MapReduceMapReduce 编程模型MapReduce 的集群行为MapReduce 任务的优化MapReduce 工作机制错误处理及作业调度机制五、 MapReduce 应用开发Hadoop Eclipse 插件开发数据筛选程序开发倒排索引程序开发六、 Hadoop与管理页面hadoop 备份七、 HBase 数据库Hbase 体系结构HBase sHBase API 应用实例HBase 场景应用HBase 模式设计八、 Hive 数据仓库Hive 组件与体系架构

10、Hive 安装配置Hive 的服务接口HiveQL 常用操作Hive 的优化Hive UDF 编程Hive 综合实战九、 Pig 数据分析Pig 框架Pig 安装配置Pig 的使用Pig 的数据模型常用 Pig Latin 操作Pig UDF 编程Pig 数据分析实战十、ZooKeeper 分布式服务框架ZooKeeper 工作原理ooKeeper 设计目标ZooKeeper 的数据结构和组成ZooKeeper 的安装配置ZooKeeper 命令行工具ZooKeeper APIZooKeeper 实战:Hadoop 任务调度十一、 Chukwa 集群系统Chukwa 的组成Chukwa 架构和

11、设计Chukwa 安装与配置常用 Chukwa 命令实现自定义数据处理十二、 Hadoop 商业应用案例云计算概念和特征云计算服务模式和形态Hadoop 在云计算的运用京东商城阿里巴巴腾讯十三、 Greenplum Hadoop 集群集成架构的特征集成架构的优势配置 gphdfs 协议使用环境使用 HDFS 外部表第三阶段:Hadoop 高阶应用篇(81)- 会当临绝顶,一览众山小课程一:Hadoop2.0/YARN 深入浅出(21)详细讲解了 Hadoop 2.0 架构、部署以及 YARN,并讲解了运行在 YARN 上主要的计算框架,包括 Spark、Storm 和 Tez一、Hadoop

12、2.0(6)Hadoop 2.0 产生背景Hadoop 2.0 基本二、HDFS 2.0MapReduce 2.0Hadoop 2.0 安装配置集群测试三、YARN 资源管理系统(4)YARN 产生背景YARN 基本设计YARN 基本架构YARN 工作流程YARN 通信协议YARN 容错YARN 资源调度机制四、YARN 支持的计算框架(Storm,Tez,Spark)(11)以 YARN 为的生态系统Storm 基本概念Storm 流式计算框架基于 YARN 的 Storm 架构YARN-Storm 部署Storm On YARN 服务Apache Tez 介绍Tez 特点Tez 数据处理引

13、擎DAGAppMaster 实现Tez 优化机制Tez 应用场景Tez 部署SparkSpark 生态系统Spark 的-RDD 和 LineageRDD 的、容错机制、设计及数据模型Spark 调度框架Spark 的分布式部署方式基于 Mesos 的 Spark 模式基于 YARN 的 Spark 模式Spark 的独立模式部署Spark 的 YARN 模式部署课程二:MapReduce/Hbase 进阶(29)本部分内容主要针对MapReduce 和 HBase 的高阶应用做深入的讲解和实战演练一、MapReduce 多语言编程(5)MapReduce 编程接口Java 编程接口实例Had

14、oop Streaming 实现方式Hadoop Streaming 编程实战(C+,)Hadoop Streaming 原理剖析Hadoop Pipes 的编程实例Hadoop Pipes 的原理剖析二、MapReduce 高阶实现(14)复杂的 MapReduce 应用K-means 聚类、分类等工作流编程实例及原理剖析JobControl、Chaapper/ChainReducerHadoop 工作流引擎常用 MapReduce 优化技巧配置多个 reducer设置 Stream 的处理格式控制分片的大小避免分片输入格式:文本输入、多种类型输入输出控制:多个输出、延迟输出实战:数据分区

15、?MapReduce 高级特性计数器、内置计数器实例:用户自定义计数器MapReduce 部分排序的实现实例:MapReduce 全排序Terasort 算法分析实例:MapReduce 实现二次排序连接、Map 端连接的实现实例:Reduce 端连接连接类型、连接策略介绍重分区连接框架的实现连接框架的实现实例:半连接全局作业参数/数据文件传递三、HBase 编程实践及案例分析(10)HBase 基础精讲HBase Java 编程实例HBase 多语言编程Thrift 安装、服务配置HBase C+编程实例编程实例HBaseHBase MapReduce 编程基础实战:HBase MapRed

16、uce 编程Hbase 案例:OpenTSDB 的实现基于 HBase 的爬虫调度库基于 HBase 的爬虫索引库查询系统课程三:Hadoop Sqoop/Flume/Avro 实战(14)Hadoop Sqoop、Flume、Avro 重要子项目的技术实战一、Sqoop(6)Sqoop 产生背景、基本Sqoop1 和 Sqoop2 架构及特点Sqoop1 安装配置(版本 1.4.4)Sqoop 导入介绍实战:从导入数据到 HDFS实战:从导入数据到 HiveSqoop 导出介绍实战:将 Hive 数据导出到Sqoop 与 Hbase 结合Sqoop 作业操作Sqoop 作业安全配置Sqoop

17、2 安装配置(版本 1.99.3)Sqoop2 使用综合实战二、Flume 日志收集系统(7)Flume 概念和特点Flume OG 架构、组成、特点、容错机制设计日志收集系统综合比较Flume NG 架构、概念Flume OG 的安装Flume OG 的配置(Web 端、Flume s)Flume NG 的安装配置、测试Flume NG 模块配置(Source、Channel、Sink)三、Avro 数据序列化系统(1)Avro 介绍Avro 特性、主要作用RPC 使用 AvroAvro 与其他序列化系统的区别课程四:深入浅出 Hadoop Mahout 数据挖掘实战(17)1、Mahout

18、 数据挖掘工具2、Hadoop 实现系统的综合实战,涉及到 MapReducg 和Mahout 的综合实战一、Mahout 数据挖掘工具(10)数据挖掘概念、系统组成数据挖掘常用方法及算法(回归分析、分类、聚类等)数据挖掘分析工具Mahout 支持的算法Mahout和特点Mahout 安装、配置及测试实战:Mahout K-means 聚类分析Mahout 实现 Canopy 算法Mahout 实现分类算法实战:Mahout 逻辑回归分类实战:Mahout 朴素分类系统的概念及分类协同过滤算法概念、分类及应用实战:实现基于 Mahout 的系统二、Hadoop 综合实战-文本挖掘项目(7)文本挖掘的概念及应用场景项目背景项目流程中文分词技术分词器的使用MapReduce 并行分词程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论