大数据开发实战教程目录_第1页
大数据开发实战教程目录_第2页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据开发实战教程录数据开发实战教程录、 课程性质、的和任务1. 本课程的是让学了解并掌握四个领域(1)数据系统的起源及系统特征(2)数据系统的架构设计及功能标设计(3)数据系统程序开发、企业数据案例分析的内容2. 利真机实验环节以及数据实训体机来提升学对数据开发的实践能;3. 本课程重点让学掌握五个的内容:(1)HDFS 使操作;(2)MapReduce 开发;(3)HBase 数据库的开发;(4)Hive 数据仓库开发;(5)数据案例分析;、 教学内容及要求第节 数据概述授课学时:1基本要求:1. 了解数据概念、特征、数据计量单位以及数据的类型;2. 了解数据系统的设计背景、以及当前数据系统

2、存在的不;3. 了解数据系统的设计思想、设计标和设计原则;4. 了解数据系统的整体逻辑架构设计及运逻辑,了解当前数据系统的主流架构;第节 数据应开发思路和开发环境配置授课学时:1基本要求:5. 掌握数据系统应读写操作的开发流程;6. 掌握分析数据开发技术及思路;7. 掌握数据 Java 开发的环境配置、Plugin 插件的安装,Hadoop 环境配置;第三节 HDFS 分布式件系统授课学时:4基本要求:1. 了解 MapReduce 的设计思想、基本概念;2. 了解 MapReduce 的系统架构、作业运机制和关键技术;3. 掌握 MapReduce 的数据类型的定义以及数据类型的使;4. 掌

3、握 MapReduce 开发,定制输输出的数据格式;5. 掌握将 HDFS 件系统中整个件作为输数据的开发;6. 掌握利 MapReduce 完成件聚合成个件的开发;7. 掌握压缩数据处理程序开发;8. 掌握任务组合过程,掌握迭代组合、并组合及串组合;9. 掌握任务的前后链式组合;10. 掌握多数据源连接的开发,包含 Map 端开发以及 Reduce 端开发;11. 掌握 Hadoop 全局参数的使,全局件的使;12. 掌握与关系型数据库的访问连接;13. 真机实操训练(实验环节 2);第五节 HBase 分布式数据库授课学时:4基本要求:1. 了解 HBase 分布式数据库的设计标、基本概念

4、;2. 了解 HBase 逻辑架构以及物理架构;3. 掌握 HBase 分布式数据库Shell命令操作;4. 掌握HBase 数据库系统的 Java 开发,包含创建表、删除表,查询所有表操作;5. 掌握HBase 数据库系统的 Java 开发,包含插记录、查询数据,组合查询、修改删除记录等开发;6. 真机实操训练(实验环节 3);第六节 Hive 数据仓库开发授课学时:6基本要求:1. 了解Hive 数据仓库的作原理及特点;2. 了解Hive 架构设计,包含数据类型、数据存储式以及查询式;3. 掌握Hive 数据仓库系统的 HQL 语语法;4. 掌握 HQL 的创建表、查看表及查询有结构,修改

5、表以及删除表;5. 掌握利 HQL 语句将 HDFS 的件导数据仓库;6. 掌握分区表、桶表、外部表的使;7. 掌握 HQL 语句的联合查询、查询、创建视图等操作;8. 掌握利 Java 开发 UDF 定义函数,以及定义函数的使;9. 掌握 Java 连接 Hive 数据仓库进数据查询;10. 真机实操训练(实验环节 4);第七节 Spark 数据挖掘授课学时:4基本要求:1. 了解数据挖掘的基本概念和段,介绍数据挖掘的常算法、编程语等;2. 了解常的数据挖掘具;3. 了解最新数据处理技术 Spark 平台,包括 RDD 基础及编程接介绍,以及 SparkSQL 逻辑架构, 流式处理技术 Sp

6、arkStream等;4. 了解介绍 Spark 平台下机器学习(Machine Learning)架构解析,以及 Spark MLlib 经典算法解析和案例;5. 案例详解,解析通过 Spark MLlib 的协同过滤算法,来分析某型电商的商品推荐过程,并说明实现法和代码;第节 综合案例分析1、 某站访问志分析授课学时:2基本要求:1. 了解站访问志的数据结构;2. 了解站访问志的分析法以及本次分析志需要完成的录;3. 了解分析过程以及分析具的使;4. 数据环境实验(实验环节 5);2、某搜索引擎站志分析授课学时:2基本要求:1. 了解搜狐站对关键词搜索记录的数据结构;2. 了解关键词搜索的

7、分析标及预期完成分析结果;3. 了解分析流程、分析具以及重点代码的介绍;4. 数据环境实验(实验环节 6);3、某型电商数据分析授课学时:2基本要求:1. 了解本案例中电商数据的字段结构;2. 了解本次电商数据预期完成分析的指标以及分析结果的再利介绍;3. 了解分析流程、分析具以及重点代码的介绍;4. 数据环境实验(实验环节 7);实验环节介绍实验环节 1:HDFS 操作命令操作实验标及要求:让学掌握分布式件系统 HDFS 的件操作,包含导导出件、列表、查找、删除件等。实验环节 2:MapReduce 开发(单词计数)实验标及要求:让学掌握在 HDFS 件系统内的 Map 及 Reduce 的

8、 Java 开发,实现对指定本件的单词计数,将统计结果输出控制台。实验环节 3:HBase 数据库命令操作实验标及要求:让学掌握分布式件数据库系统 HBase 的数据库操作,包含创建表、删除表、增加列、导记录、删除记录等。实验环节 4:Hive 数据仓库基础使实验标及要求:让学掌握在 Hive 数据仓库的基本命令的操作,包含创建数据仓库、创建表、删除表、导及导出数据,统计查询等在 CLI模式下的使操作。实验环节 5:分析站访问志实验标及要求:实践在企业应中的互联站访问志的分析案例,利 Hive 具完成对每时内的访问 PV 及 IP 数据,同时将统计结果输出页。实验环节 6:分析搜索引擎站志数据

9、实验标及要求:分析关键字的统计志的数据,利 Hive 具完成对关键词的统计,包含搜索关键词排、户习惯点击第个连接、访问标站排等,同时将统计结果输出页。实验环节 7:分析电商站数据实验标及要求:对此型电商数据进实践分析,利 Hive 具完成对商品销售统计,同类商品推荐等分析指标,将分析结果导出关系型数据库Mysql。附录 2:教材录第章 数据概述 71.1. 数据的起源 71.1.1. 豌杂交实验 71.1.2. 曹冲称象启 71.1.3. 歌的三项核元素 91.2. 数据的概念 91.2.1. 数据概念 101.2.2. 数据的特征 101.2.3. 数据计量单位 111.2.4. 数据来源

10、111.2.5. 数据类型 121.3. 数据系统 121.3.1. 系统设计背景 121.3.2. 设计标和原则 131.3.3. 系统的设计思想 141.3.4. 系统的逻辑架构 161.3.5. 与现有系统的关系 171.3.6. 当前的数据系统 191.4. 企业的数据观 251.4.1. 企业临的挑战 251.4.2. 企业数据从哪来 251.4.3. 企业数据如何存储 271.4.4. 企业数据如何加 311.4.5. 企业的数据到哪去 351.4.6. 企业数据观总结 37第章 数据系统应开发思路及环境 382.1. 总体思路 382.1.1. 数据读写应的开发 382.1.2.

11、 数据分析应的开发 382.2. 开发环境 392.2.1. Plugin 插件的安装 392.2.2. Hadoop 开发环境的配置 392.2.3. 例程序验证 41第三章 HDFS 分布式件系统 483.1. 设计标 483.2. 基本概念 493.2.1. 块 493.2.2. 名称节点与数据节点 493.3. 系统架构 503.3.1. 逻辑架构 503.3.2. 物理架构 513.4. 运机制 513.4.1. 件读取 523.4.2. 件写 533.4.3. 特别关注 543.5. 系统功能 573.5.1. 多件系统 573.5.2. 录管理 583.5.3. 件管理 593.

12、5.4. 件归档 593.5.5. 并复制 603.6. 系统 I/O 特性 613.6.1. 完整性校验 613.6.2. 压缩与编码解码 623.6.3. 序列化 643.6.4. 特殊件结构 653.7. Java 访问接 663.8. 系统性能 673.8.1. 可靠性措施 673.8.2. 性能优化 683.9. 程序开发 693.9.1. 件列表 693.9.2. 件读取 713.9.3. 件上传 723.9.4. 件创建 743.9.5. 件写 753.9.6. 件压缩与解压 763.9.7. 压缩写 773.9.8. 解压读取 783.9.9. 录创建 803.9.10. 件重

13、命名 813.9.11. 删除件 833.9.12. 查看件时间 843.9.13. 查看件是否存在 863.9.14. 查找件位置 873.9.15. 查找集群所有的节点 893.9.16. SequenceFile 件格式转换 903.9.17. 读取 SequenceFile 格式的件 923.9.18. MapFile 件格式转换 953.9.19. 读取 MapFile 格式的件 97第四章 MapReduce 分布式编程 994.1. 不同于传统 994.2. 设计思想 1004.3. 基本概念 1004.3.1. map()函数 1014.3.2. reduce()函数 1014

14、.3.3. 键值对 1024.3.4. 中间结果 1024.3.5. 移动代码 1034.3.6. 作业和任务节点 1044.4. 系统架构 1044.4.1. 逻辑架构 1044.4.2. 物理架构 1064.5. 运机制 1064.5.1. 作业运 1064.5.2. 作业调度 1094.5.3. 任务执 1094.5.4. 状态更新 1104.5.5. 作业完成 1114.5.6. 故障处理 1114.6. 关键技术 1124.6.1. 计数器 1124.6.2. 排序 1134.6.3. 连接 1134.6.4. shuffle 1144.6.5. 内存处理 1154.6.6. 分布式

15、缓存 1164.7. 类型与格式 1174.7.1. MR 的类型 1174.7.2. 输格式 1194.7.3. 输出格式 1214.8. MapReduce 程序开发 1224.8.1. 定制数据类型 1224.8.2. 定制输格式 1264.8.3. 定制输出格式 1314.8.4. 将整个件作为输 1374.8.5. 件聚合成个件 1434.8.6. 多集合件输出 1454.8.7. 对压缩数据处理 1484.8.8. 定制 partitioner 1514.8.9. 定制 combiner 1554.8.10. MapReduce 组合 1594.8.11. 多数据源连接 1754.

16、8.12. 全局参数应 1894.8.13. 全局件应 1924.8.14. 关系数据库访问 195第五章 HBase 分布式数据库 2045.1. 设计标 2045.2. 基本概念 2055.2.1. 逻辑模型 2055.2.2. 物理模型 2065.2.3. 区域 2075.2.4. 基本单元 2075.2.5. Region 服务器 2085.2.6. Master 主服务器 2095.2.7. 元数据表.META 2105.2.8. 元数据表ROOT 2115.3. 系统架构 2125.3.1. 逻辑架构 2125.3.2. 物理架构 2135.4. 运机制 2145.5. 系统功能

17、2155.5.1. 户界 2155.5.2. Shell 操作 2185.6. 库表设计 2205.7. 访问接 2215.8. 程序开发 2225.8.1. 创建表 2225.8.2. 删除表 2255.8.3. 查询表 2265.8.4. 插记录 2285.8.5. 查询记录 2295.8.6. 修改记录 2405.8.7. 删除记录 242第六章 Hive 数据仓库开发 2446.1. Hive 介绍 2446.1.1. Hive 作原理 2446.1.2. Hive 数据类型 2456.1.3. Hive 的特点 2466.2. Hive 架构 2486.2.1 Hive 户接 248

18、6.2.2 Hive 元数据库 2506.2.3 Hive 的数据存储 2516.2.4 Hive 解析器 2526.3. Hive 件格式 2536.3.1 TextFile 格式 2546.3.2 SequenceFile 格式 2546.3.3 RCFile 件格式 2546.4. HiveQL 语 2576.5. HiveQL 表操作 2576.5.1. 内部表 2576.5.2. 外部表 2646.5.3. 分区表 2656.5.4. 桶表 2696.5.5. 视图 2716.6. HiveQL 查询 2726.6.1. 连接 2726.6.2. 查询 2756.7. UDF 编码 2766.7.1. 加 jar 包 2776.7.2. 命名函数 2776.7.3. 调测试函数 2776.7.4. 移除 jar 包 2786.8. UDAF 编码 2786.8.1. 在 Hive 中加 jar 包。 2796.8.2. 命名成个函数。 2806.8.3. 调测试函数 2806.8.4. 在 Hive 中移除 jar 包 2806.9. 客服端编码 2806.9.1. 与 hive 服务器端连接建 2816.9.2. 与 hive 进指令交互 2826.9.3. 客户端命令组织

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论