大数据课程分类

上传人：q*** IP属地：江苏上传时间：2022-11-24 格式：DOC 页数：39 大小：69KB 积分：15 举报 版权申诉

已阅读5页，还剩34页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据

课程：

基础时期：Linux、Docker、KVM、MySQL基础、

Oracle基础

、MongoDB、redis。

hadoopmapreducehdfsyarn：hadoop：Hadoop概念、版本、历史，HDFS工作原理，YARN介绍及组件介绍。

大数据

存储时期：hbase、hive、sqoop。

大数据

架构设计

时期：Flume分布式、Zookeeper、Kafka。

大数据实时计算时期：Mahout、Spark、storm。

大数据数据采集时期：Python、Scala。

大数据商业实战时期：实操企业大数据处理业务场景，分析需求、解决方案实施，综合技术实战应用。

大数据之Linux+大数据开发篇

Java

Linux基础

Shell编程

Hadoop2.x

HDFS

YARN

MapReduce

ETL数据清洗Hive

Sqoop

Flume/Oozieo

大数据WEB工具Hue

HBase

Storm

ScalaSpark

Spark核心源码剖析

CM5.3.x治理

CDH5.3.x集群

大数据之数据挖掘\分析&机器学习篇

Lucene

爬虫技术

Solr集群

KI分词

Apriori算法

Tanagra工具

决策树

贝叶斯分类器人工神经网络

K均值算法

层次聚类

聚类算法

SPSSModeler

R语言

数据分析模型统计算法

回归

聚类

数据降维

关联规则

决策树

Mahout->Python金融分析

大数据之运维、云计算平台篇

Zookeeper

Docker

OpenStack云计算

大数据之PB级不网站性能优化篇

CDN镜像技术

虚拟化云计算

共享存储

海量数据

队列缓存

Memcached+Redis\No-SqlLVS负载均

Nginx

大数据之Java企业级核心技术篇

Java性能调优

Tomcat、Apache集群

数据库集群技术

分布式技术

WebLogic企业级技术

时期一、大数据、云计算-Hadoop大数据开发技术

课程一、大数据运维之Linux基础

本部分是基础课程，帮大伙儿进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等众多课程。因为企业中的项目差不多上差不多上使用Linux环境下搭建或部署的。

1）Linux系统概述

2）系统安装及相关配置

3）Linux网络基础

4）OpenSSH实现网络安全连接

5）vi文本编辑器

6）用户和用户组治理

7）磁盘治理

8）Linux文件和目录治理

9）Linux终端常用命令

10）linux系统监测与维护

课程二、大数据开发核心技术-Hadoop2.x从入门到精通

本课程是整套大数据课程的基石：其一，分布式文件系统HDFS用于存储海量数据，不管是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源治理框架YARN，是Hadoop云操作系统（也称数据系统），治理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控；分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop2.x的编译、环境搭建、HDFSShell使用，YARN集群资源治理与任务监控，MapReduce编程，分布式集群的部署治理（包括高可用性HA）必须要掌握的。

一、初识Hadoop2.x

1）大数据应用进展、前景

2）Hadoop2.x概述及生态系统

3）Hadoop2.x环境搭建与测试

二、深入Hadoop2.x

1）HDFS文件系统的架构、功能、设计

2）HDFSJavaAPI使用

3）YARN架构、集群治理、应用监控

4）MapReduce编程模型、Shuffle过程、编程调优

三、高级Hadoop2.x

1）分布式部署Hadoop2.x

2）分布式协作服务框架Zookeeper

3）HDFSHA架构、配置、测试

4）HDFS2.x中高级特性

5）YARNHA架构、配置

6）Hadoop要紧发行版本（CDH、HDP、Apache）

四、实战应用

1）以【北风网用户扫瞄日志】数据进行实际的分析2）原数据采集3）数据的预处理（ETL）4）数据的分析处理（MapReduce）

课程三、大数据开发核心技术-大数据仓库Hive精讲

hive是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，能够将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，能够通类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

一、Hive初识入门

1）Hive功能、体系结构、使用场景

2）Hive环境搭建、初级使用

3）Hive原数据配置、常见交互方式

二、Hive深入使用

1）Hive中的内部表、外部表、分区表

2）Hive数据迁移

3）Hive常见查询（select、where、distinct、join、groupby）

4）Hive内置函数和UDF编程

三、Hive高级进阶

1）Hive数据的存储和压缩

2）Hive常见优化（数据倾斜、压缩等）

四、结合【北风网用户扫瞄日志】实际案例分析

1）依据业务设计表

2）数据清洗、导入（ETL）

3）使用HiveQL，统计常见的网站指标

课程四、大数据协作框架-Sqoop/Flume/Oozie精讲

Sqoop是一款开源的工具，要紧用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，能够将一个关系型数据库（例如：MySQL

,Oracle,Postgres等）中的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

一、数据转换工具Sqoop

1）Sqoop功能、使用原则

2）将RDBMS数据导入Hive表中（全量、增量）

3）将HDFS上文件导出到RDBMS表中

二、文件收集框架Flume

1）Flume设计架构、原理（三大组件）

2）Flume初步使用，实时采集数据

3）如何使用Flume监控文件夹数据，实时采集录入HDFS中4）任务调度框架Oozie

三、Oozie功能、安装部署

1）使用Oozie调度MapReduceJob和HiveQL

2）定时调度任务使用

课程五、大数据Web开发框架-大数据WEB工具Hue精讲

Hue是一个开源的ApacheHadoopUI系统，最早是由ClouderaDesktop演化而来，由Cloudera贡献给开源社区，它是基于PythonWeb框架Django实现的。通过使用Hue我们能够在扫瞄器端的Web操纵台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduceJob等等。

1）Hue架构、功能、编译

2）Hue集成HDFS

3）Hue集成MapReduce

4）Hue集成Hive、DataBase

5）Hue集成Oozie

课程六、大数据核心开发技术-分布式数据库HBase从入门到精通

HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群

一、HBase初窥使用

1）HBase是什么、进展、与RDBMS相比优势、企业使用

2）HBaseSchema、表的设计

3）HBase环境搭建、shell初步使用（CRUD等）

二、HBase深入使用

1）HBase数据存储模型

2）HBaseJavaAPI使用（CRUD、SCAN等）

3）HBase架构深入剖析

4）HBase与MapReduce集成、数据导入导出

三、HBase高级使用

1）如何设计表、表的预分区（依据具体业务分析讲解）

2）HBase表的常见属性设置（结合企业实际）

3）HBaseAdmin操作（JavaAPI、常见命令）

四、【北风网用户扫瞄日志】进行分析

1）依据需求设计表、创建表、预分区

2）进行业务查询分析

3）关于密集型读和密集型写进行HBase参数调优

课程七、Spark技术实战之基础篇-Scala语言从入门到精通

什么缘故要学习Scala？源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采纳Scala语言实现，各大公司都在使用Spark：IBM宣布承诺大力推进ApacheSpark项目，并称该项目为：在以数据为主导的，以后十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台，Scala具有数据处理的天然优势，Scala是以后大数据处理的主流语言

1)-Spark的前世今生

2)-课程介绍、特色与价值

3)-Scala编程详解：基础语法

4)-Scala编程详解：条件操纵与循环

5)-Scala编程详解：函数入门

6)-Scala编程详解：函数入门之默认参数和带名参数

7)-Scala编程详解：函数入门之变长参数

8)-Scala编程详解：函数入门之过程、lazy值和异常

9)-Scala编程详解：数组操作之Array、ArrayBuffer以及遍历数组

10)-Scala编程详解：数组操作之数组转换

11)-Scala编程详解：Map与Tuple

12)-Scala编程详解：面向对象编程之类

13)-Scala编程详解：面向对象编程之对象

14)-Scala编程详解：面向对象编程之继承

15)-Scala编程详解：面向对象编程之Trait

16)-Scala编程详解：函数式编程

17)-Scala编程详解：函数式编程之集合操作

18)-Scala编程详解：模式匹配

19)-Scala编程详解：类型参数

20)-Scala编程详解：隐式转换与隐式参数

21)-Scala编程详解：Actor入门

课程八、大数据核心开发技术-内存计算框架Spark精讲

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点。启用了内存分布数据集，除了能够提供交互式查询外，它还能够优化迭代工作负载。SparkStreaming:构建在Spark上处理Stream数据的框架，差不多的原理是将Stream数据分成小的时刻片断（几秒），以类似batch批量处理的方式来处理这小部分数据

1）Spark初识入门

2）Spark概述、生态系统、与MapReduce比较

3）Spark编译、安装部署（StandaloneMode）及测试

4）Spark应用提交工具（spark-submit，spark-shell）

5）Scala差不多知识讲解（变量，类，高阶函数）

6）Spark核心RDD

7）RDD特性、常见操作、缓存策略

8）RDDDependency、Stage常、源码分析

9）Spark核心组件概述

10）案例分析

11）Spark高阶应用

12）SparkonYARN运行原理、运行模式及测试

13）SparkHistoryServer历史应用监控

14）SparkStreaming流式计算

15）SparkStreaming原理、DStream设计

16）SparkStreaming常见input、out

17）SparkStreaming与Kafka集成

18）使用Spark对【北风网用户扫瞄日志】进行分析

课程九、大数据核心开发技术-Spark深入剖析

本课程要紧讲解目前大数据领域热门、火爆、有前景的技术——Spark。在本课程中，会从浅入深，基于大量案例实战，深度剖析和讲解Spark，同时会包含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程.

1）Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优

2）Spark源码剖析

课程十、大数据核心开发技术-Storm实时数据处理（赠送-选修）

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推举系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。按照storm作者的讲法，Storm关于实时计算的意义类似于Hadoop关于批处理的意义。Hadoop提供了map、reduce原语，使我们的批处理程序变得简单和高效。同样，Storm也为实时计算提供了一些简单高效的原语，而且Storm的Trident是基于Storm原语更高级的抽象框架，类似于基于Hadoop的Pig框架，让开发更加便利和高效。本课程会深入、全面的讲解Storm，并穿插企业场景实战讲述Storm的运用。淘宝双11的大屏幕实时监控效果冲击了整个IT界，业界为之惊叹的同时更是引起对该技术的探究。学完本课程你能够自己开发升级版的“淘宝双11”，还等什么？

1）Storm简介和课程介绍

2）Storm原理和概念详解

3）Zookeeper集群搭建及差不多使用

4）Storm集群搭建及测试

5）API简介和入门案例开发

6）Spout的Tail特性、storm-starter及maven使用、Grouping策略

7）实例讲解Grouping策略及并发

8）并发度详解、案例开发（高并发运用）

9）案例开发——计算网站PV，通过2种方式实现汇总型计算。

10）案例优化引入Zookeeper锁操纵线程操作

11）计算网站UV(去重计算模式)

12）【运维】集群统一启动和停止shell脚本开发

13）Storm事务工作原理深入讲解14）Storm事务API及案例分析

15）Storm事务案例实战之ITransactionalSpout

16）Storm事务案例升级之按天计算

17）Storm分区事务案例实战

18）Storm不透明分区事务案例实战

19）DRPC精解和案例分析

20）StormTrident入门

21）TridentAPI和概念

22）StormTrident实战之计算网站PV

23）ITridentSpout、FirstN(取TopN)实现、流合并和Join

24）StormTrident之函数、流聚合及核心概念State

25）StormTrident综合实战一（基于HBase的State）

26）StormTrident综合实战二

27）StormTrident综合实战三

28）Storm集群和作业监控告警开发

课程十一、企业大数据平台高级应用

本时期要紧就之前所学内容完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析，要紧包括有：企业大数据平台概述、搭建企业大数据平台、真实服务器手把手环境部署、使用CM5.3.x治理CDH5.3.x集群

1）企业大数据平台概述

2）大数据平台差不多组件

3）Hadoop发行版本、比较、选择

4）集群环境的预备（系统、差不多配置、规划等）

5）搭建企业大数据平台

6）以实际企业项目需求为依据，搭建平台

7）需求分析（要紧业务）

8）框架选择（Hive\HBase\Spark等）

9）真实服务器手把手环境部署

10）安装ClouderaManager5.3.x

11）使用CM5.3.x安装CDH5.3.x

12）如何使用CM5.3.x治理CDH5.3.x集群

13）差不多配置，优化

14）差不多性能测试

15）各个组件如何使用

课程十二、项目实战：驴妈妈旅游网大型离线数据电商分析平台

离线数据分析平台是一种利用hadoop集群开发工具的一种方式，要紧作用是关心公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏等领域有特不广泛，因为这些领域对数据和用户的特性把握要求比较高，因此关于离线数据的分析就有比较高的要求了。本课程讲师本人之前在游戏、旅游等公司专门从事离线数据分析平台的搭建和开发等，通过此项目将所有大数据内容贯穿，并前后展示！

1）Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析，SpringMVC，Highchat

2）Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts实现的电商离线数据分析

3）日志收集系统、日志分析、数据展示设计

课程十三、项目实战：基于1号店的电商实时数据分析系统

课程基于1号店的业务及数据进行设计和讲解的，要紧涉及

1、课程中完整开发3个Storm项目，均为企业实际项目，其中一个是完全由StormTrident开发。项目源码均能够直接运行，也可直接用于商用或企业。

2、每个技术均采纳最新稳定版本，学完后会员能够从Kafka到Storm项目开发及HighCharts图表开发一个人搞定！让学员身价剧增！

3、搭建CDH5生态环境完整平台，且采纳ClouderaManager界面化治理CDH5平台。让Hadoop平台环境搭建和维护都变得轻而易举。

4、分享实际项目的架构设计、优劣分析和取舍、经验技巧，陡直提升学员的经验值

1）全面掌握Storm完整项目开发思路和架构设计

2）掌握StormTrident项目开发模式

3）掌握Kafka运维和API开发、与Storm接口开发

4）掌握HighCharts各类图表开发和实时无刷新加载数据

5）熟练搭建CDH5生态环境完整平台

6）灵活运用HBase作为外部存储

7）能够做到以一己之力完成从后台开发（Storm、Kafka、Hbase开发）

到前台HighCharts图表开发、Jquery运用等，所有工作一个人搞定！

能够一个人搞定淘宝双11大屏幕项目！

课程十四、项目实战：基于美团网的大型离线电商数据分析平台

本项目使用了Spark技术生态栈中最常用的三个技术框架，SparkCore、SparkSQL和SparkStreaming，进行离线计算和实时计算业务模块的开发。实现了包括用户访问session分析、页面单跳转化率统计、热门商品离线统计、广告点击流量实时统计4个业务模块。过合理的将实际业务模块进行技术整合与改造，该项目完全涵盖了SparkCore、SparkSQL和SparkStreaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。仅一个项目，即可全面掌握Spark技术在实际项目中如何实现各种类型的业务需求！在项目中，重点讲解了实际企业项目中积存下来的宝贵的性能调优、troubleshooting以及数据倾斜解决方案等知识和技术

1）真实还原完整的企业级大数据项目开发流程：

项目中采纳完全还原企业大数据项目开发场景的方式来讲解，

每一个业务模块的讲解都包括了数据分析、需求分析、方案设计、数据库设计、编码实现、功能测试、性能调优、troubleshooting与解决数据倾斜（后期运维）等环节

，真实还原企业级大数据项目开发场景。

让学员掌握真实大数据项目的开发流程和经验！

2）现场Excel手工画图与写笔记：所有复杂业务流程、架构原理

、Spark技术原理、业务需求分析、技术实现方案等知识的讲解

，采纳Excel画图或者写详细比较的方式进行讲解与分析，

细致入微、形象地透彻剖析理论知识，关心学员更好的理解、经历与复习巩固。

课程十五、大数据高薪面试剖析

本时期通过对历来大数据公司企业真实面试题的剖析，讲解，让学员真正的一个菜鸟转型为具有1年以上的大数据开发工作经验的专业人士，也是讲师多年来大数据

企业开发的经验之谈。

1）大数据项目

2）企业大数据项目的类型

3）技术架构（如何使用各框架处理数据）

4）冲刺高薪面试

5）面试简历编写（把握重点要点）

6）面试中的技巧

7）常见面试题讲解

8）如何快速融入企业进行工作（关于大数据公司来讲特不关键）

9）学员答疑

10）针对普遍问题进行公共解答

11）一对一的交流

时期二、Python基础与爬虫实战分析

课程十六、Python基础与网络爬虫实战析

如何快速有效的处理海量数据，并从中分析出宝贵的信息内容是每一个架构师和开发者梦寐以求的目标；关于运维人员来讲，如何样部署维护庞大复杂的集群系统也是一个特不现实的问题。本课程将向您详细介绍阿里云的DRDS、RDS、OTS、ODPS、ADS及DPC等相关数据处理和分析服务。课程由专业的阿里云讲师主讲，结合丰富的实验资源，对阿里云产品、技术、解决方案等进行专业讲解和引导。

1）Python语言开发要点详解

2）Python数据类型

3）函数和函数式编程

4）面向对象编程

5）网页爬虫

时期三、大数据、云计算-Java企业级核心应用

课程十七、深入Java性能调优

国内关于Java性能调优的课程特很多，如此全面深入介绍Java性能调优，北风确实是，Special讲师，十余年Java方面开发工作经验，资深软件开发系统架构师，本套课程系多年工作经验与心得的总结，课程有着专门高的含金量和有用价值，本课程专注于java应用程序的优化方法，技巧和思想，深入剖析软件设计层面、代码层面、JVM虚拟机层面的优化方法，理论结合实际，使用丰富的示例关心学员理解理论知识。

课程十八、JAVA企业级开放必备高级技术（WeblogicTomcat集群Apach集群）

Java自面世后就特不流行，进展迅速，对C++语言形成有力冲击。在全球云计算和移动互联网的产业环境下，Java更具备了显著优势和宽敞前景，那么滋生的基于java项目也越来越多，对java运行环境的要求也越来越高，专门多java的程序员只明白对业务的扩展而不明白对java本身的运行环境的调试，例如虚拟机调优，服务器集群等，因此也滋生本门课程的产生。

时期四、大数据、云计算-分布式集群、PB级不网站性能优化

课程十九、大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存)

随着互联网的进展，高并发、大数据量的网站要求越来越高。而这些高要求差不多上基础的技术和细节组合而成的。本课程就从实际案例动身给大伙儿原景重现高并发架构常用技术点及详细演练。通过该课程的学习，一般的技术人员就能够快速搭建起千万级的高并发大数据网站平台,课程涉及内容包括:LVS实现负载均衡、Nginx高级配置实战、共享存储实现动态内容静态化加速实战、缓存平台安装配置使用、mysql主从复制安装配置实战等。

课程二十、大数据高并发服务器实战教程（Linux+Nginx+Java+Memcached+Redis）

随着Web技术的普及，Internet上的各类网站第天都在雪崩式增长。但这些网站大多在性能上没做过多考虑。因此,它们情况不同。有的是Web技术本身的缘故（要紧是程序代码问题）,还有确实是由于Web服务器未进行优化。不管是哪种情况，一但用户量在短时刻内激增，网站就会明显变慢，甚至拒绝放访问。要想有效地解决这些问题，就只有依靠不同的优化技术。本课程确实是要紧用于来解决大型网站性能问题，能够承受大数据、高并发。要紧涉及技术有：nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术

课程二十一、项目实战：PB级通用电商网站性能优化解决方案

本部分通过一个通用电商订单支付模块，外加淘宝支付接口的实现（可用于实际项目开发），剖析并分析过程中可能遇到的各种性能瓶颈及相关的解决方案与优化技巧。最终目标，让有具有PHP基础或Java基础的学员迅速掌握Linux下的开发知识，并对涉及到nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术有一个全面的了解

时期五、大数据、云计算-数据挖掘、分析&机器学习

课程二十二、玩转大数据：深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)

本课程名为深入浅出数据挖掘技术。所谓“深入”，指得是从数据挖掘的原理与经典算法入手。其一是要了解算法，明白什么场景应当应用什么样的方法；其二是学习算法的经典思想，能够将它应用到其他的实际项目之中；其三是理解算法，让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”，指得是将数据挖掘算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用：一是微软公司的SQLServer与Excel等工具实现的数据挖掘；二是闻名开源算法的数据挖掘，如Weka、KNIMA、Tanagra等开源工具；三是利用C#语言做演示来完成数据挖掘算法的实现。

依照实际的引用场景，数据挖掘技术通常分为分类器、关联分析、聚类算法等三大类不。本课程要紧介绍这三大算法的经典思想以及部分闻名的实现形式，并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法

课程二十三、Lucene4.X实战类baidu搜索的大型文档海量搜索系统

本课程由浅入深的介绍了Lucene4的进展历史，开发环境搭建，分析lucene4的中文分词原理，深入讲了lucenne4的系统架构，分析lucene4索引实现原理及性能优化，了解关于lucene4的搜索算法优化及利用java结合lucene4实现类百度文库的全文检索功能等相对高端有用的内容，市面上一般专门难找到同类具有相同深度与广度的视频，集原理、基础、案例与实战与一身，不可多得的一部高端视频教程。

课程二十四、快速上手数据挖掘之solr搜索引擎高级教程（Solr集群、KI分词、项目实战）

本教程从最基础的solr语法开始讲解，选择了最新最流行的开源搜索引擎服务框架solr5.3.1，利用Tomcat8搭建了solr的集群服务；本教程能够关心学员快速上手solr的开发和二次开发，包括在hadoop集群的是利用，海量数据的索引和实时检索，通过了解、学习、安装、配置、集成等步骤引导学员如何将solr集成到项目中。

课程二十五、项目实战：SPSSModeler数据挖掘项目实战培训

SSModeler是业界极为闻名的数据挖掘软件，其前身为SPSSClementine。SPSSModeler内置丰富的数据挖掘模型，以其强大的挖掘功能和友好的操作适应，深受用户的喜爱和好评，成为众多知名企业在数据挖掘项目上的软件产品选择。本课程以SPSSModeler为应用软件，以数据挖掘项目生命周期为线索，以实际数据挖掘项目为例，讲解了从项目商业理解开始，到最后软件实现的全过程。

课程二十六、数据层交换和高性能并发处理(开源ETL大数据治理工具）

ETL是数据的抽取清洗转换加载的过程，是数据进入数据仓库进行大数据分析的载入过程，目前流行的数据进入仓库的过程有两种形式，一种是进入数据库后再进行清洗和转换，另外一条路线是首先进行清洗转换再进入数据库，我们的ETL属于后者。大数据的利器大伙儿可能普遍讲是hadoop，然而大伙儿要明白假如我们不做预先的清洗和转换处理，我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析，垃圾数据会导致我们的磁盘占用量会相当大，如此无形中提升了我们的硬件成本（硬盘大，内存小处理速度会专门慢，内存大cpu性能低速度也会受阻碍），因此尽管hadoop理论上解决了烂机器拼起来解决大问题的问题，然而事实上假如我们有更好的节点速度必定是会普遍提升的，因此ETL在大数据环境下仍然是必不可少的数据交换工具。

课程二十七、零基础数据分析与挖掘R语言实战

本课程面向从未接触过数据分析的学员，从最基础的R语法开始讲起，逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元。基础部分包括R语法和统计思维两个主题，R语法单元会介绍R语言中的各种特色数据结构，以及如何从外部抓去数据，如何使用包和函数，关心同学快速通过语法关。统计思维单元会指导如何用统计学的思想快速的发觉数据特点或者模式，并利用R强大的绘图能力做可视化展现。在实战部分选择了回归、聚类、数据降维、关联规则、决策树这5中最基础的数据分析模型，详细介绍其思想原理，并通过案例讲解R中的实现方案，尤其是详细的介绍了对各种参数和输出结果的解读，让学员真正达到融会贯穿、举一反三的效果。并应用到自己的工作环境中

课程二十八、深入浅出HadoopMahout数据挖掘实战(算法分析、项目实战、中文分词技术)

Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在关心开发人员更加方便快捷地创建智能应用程序。课程包括：Mahout数据挖掘工具及Hadoop实现推举系统的综合实战，涉及到MapReduce、Pig和Mahout的综合实战

课程二十九、大数据项目实战之Python金融应用编程(数据分析、定价与量化投资)

近年来，金融领域的量化分析越来越受到理论界与实务界的重视，量化分析的技术也取得了较大的进展，成为备受关注的一个热点领域。所谓金融量化，确实是将金融分析理论与计算机编程技术相结合，更为有效的利用现代计算技术实现准确的金融资产定价以及交易机会的发觉。量化分析目前差不多涉及到金融领域的方方面面，包

括基础和衍生金融资产定价、风险治理、量化投资等。随着大数据技术的进展，量化分析还逐步与大数据结合在一起，对海量金融数据实现有效和快速的运算与处理。在量化金融的时代，选用一种合适的编程语言关于金融模型的实现是至关重要的。在这方面，Python语言体现出了不一般的优势，特不是它拥有大量的金融计算库，同时能够提供与C++，java等语言的接口以实现高效率的分析，成为金融领域快速开发和应用的一种关键语言，由于它是开源的，降低了金融计算的成本，而且还通过广泛的社交网络提供大量的应用实例，极大的缩短了金融量化分析的学习路径。本课程在量化分析与Python语言快速进展的背景下介绍二者之间的关联，使学员能够快速掌握如何利用Python语言进行金融数据量化分析的差不多方法。

课程三十、项目实战：云计算处理大数据深度、智能挖掘技术+地震数据挖掘分析

本课程介绍了基于云计算的大数据处理技术，重点介绍了一款高效的、实时分析处理海量数据的强有力工具——数据立方。数据立方是针对大数据处理的分布式数据库，能够可靠地对大数据进行实时处理，具有即时响应多用户并发请求的能力，通过对当前主流的大数据处理系统进行深入剖析，阐述了数据立方产生的背景，介绍了数据立方的整体架构以及安装和详细开发流程，并给出了4个完整的数据立方综合应用实例。所有实例都通过验证并附有详细的步骤讲明，不管是关于云计算的初学者依旧想进一步深入学习大数据处理技术的研发人员、研究人员都有专门好的参考价值。

时期六、大数据、云计算-大数据运维&云计算技术篇

课程三十一、Zookeeper从入门到精通（开发详解，案例实战，Web界面监控）

ZooKeeper是Hadoop的开源子项目（GoogleChubby的开源实现），它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、命名服务、分布式同步、组服务等。Zookeeper的FastFail和Leader选举特性大大增强了分布式集群的稳定和健壮性，同时解决了Master/Slave模式的单点故障重大隐患，这是越来越多的分布式产品如HBase、Storm（流计算）、S4（流计算）等强依靠Zookeeper的缘故。Zookeeper在分布式集群（Hadoop生态圈）中的地位越来越突出，对分布式应用的开发也提供了极大便利，这是迫切需要深入学习Zookeeper的缘故。本课程要紧内容包括Zookeeper深入、客户端开发（Java编程，案例开发）、日常运维、Web界面监控，“一条龙”的实战平台分享给大伙儿。

课程三十二、云计算Docker从零基础到专家实战教程

Docker是一种开源的应用容器引擎，使用Docker能够快速地实现虚拟化，同时实现虚拟化的性能相关于其他技术来讲较高。同时随着云计算的普及以及对虚拟化技术的大量需求，使得云计算人才供不应求，因此一些大型企业对Docker专业技术人才需求较大。本教程从最基础的Dokcer原理开始讲起，深入浅出，同时全套课程均结合实例实战进行讲解，让学员能够不仅能了解原理，更能够实际地去使用这门技术。

课程三十三、项目实战：云计算Docker全面项目实战（Maven+Jenkins、日志治理ELK、WordPress博客)

2013年，云计算领域从此多了一个名词“Docker”。以轻量著称，更好的去解决应用打包和部署。之前我们一直在构建Iaas，但通过Iaas去实现统一功能依旧相当复杂得，同时维护复杂。将专门性封装到镜像中实现几乎一致得部署方法，它确实是“Docker”，以容器为技术核心，实现了应用的标准化。企业可以快速生成研发、测试环境，同时能够做到快速部署。实现了从产品研发环境到部署环境的一致化。Docker让研发更加专注于代码的编写，同时以“镜像”作为交付。极大的缩短了产品的交付周期和实施周期。

课程三十四、深入浅出OpenStack云计算平台治理

OpenStack是一个由Rackspace发起、全球开发者共同参与的开源项目，旨在打造易于部署、功能丰富且易于扩展的云计算平台。OpenStack企图成为数据中心的操作系统，即云操作系统。从项目发起之初，OpenStack就几乎赢得了所有IT巨头的关注，在各种OpenStack技术会议上人们激情澎湃，几乎所有人都成为OpenStack的信徒。那个课程重点放在openstack的部署和网络部分。课程强调实际的动手操作，使用vmware模拟实际的物理平台，让大伙儿能够自己动手去实际搭建和学习openstack。课程内容包括云计算的差不多知识，虚拟网络基础，openstack部署和应用，openstack网络详解等。

时期七、人工智能&机器学习&深度学习&推举系统

课程三十五、机器学习及实践

本课程先基于PyMC语言以及一系列常用的Python数据分析框架，如NumPy、SciP

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据课程分类

文档简介

温馨提示

最新文档

评论

大数据课程分类

文档简介

温馨提示

最新文档

评论

相关文档