版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章大数据分析概述关于大数据分析第一部分什么是大数据分析大数据分析可视化大数据分析工具学习目标和要求1、了解大数据分析的概念、特点、类别、优缺点。2、知道大数据分析的相关工具。3、了解大数据分析可视化的概念及相关工具。什么是大数据分析12345Volume(容量)Velocity(速度)Variety(种类)Value(价值)Veracity(真实性)1、大数据的“5V”特征大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据分析就是指对规模巨大的数据进行数据分析。什么是大数据分析2、大数据分析概念数据分析量大1234数据处理速度快数据分析类型多数据价值密度低3、大数据分析的特点BigDataAnalysis5数据的可靠性低什么是大数据分析什么是大数据分析4、大数据分析类别预测分析关注的是对未来事件的预测。预测性分析规范性分析是指在发生问题之后,根据问题诊断性分析之后,结合预测性分析,做出相应的优化建议和行动。规范性分析针对过去已经发生的事情,分析该事件产生的原因。诊断性分析描述性分析是描述过去的数据,基于历史数据描述发生了什么,对过去的大量历史数据进行汇总分析描述,以简单可读的方式进行呈现。描述性分析为优质决策提供参考;提高产品开发创新力;改善客户服务体验;提升风险管理优势缺点信息透明化成本高数据质量低技术更新变化快什么是大数据分析5、大数据分析的优势与缺点大数据分析工具(1)ApacheSpark:具有SparkSQL、Streaming实时计算、机器学习和SparkGraphX图计算的内置功能。(2)Hbase:HBase是一个基于HDFS的面向列的分布式数据库。(3)Storm:Storm是流处理的代表性实现之一。Storm具有低延迟、高性能、分布式、可扩展、容错、可靠性、快速等特点。(4)Flink:
Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。1、Hadoop生态圈中的大数据分析工具123编程语言Scala语言:Scala语言是基于JVM运行环境、面向对象和函数式编程的完美结合Python语言:Python在数据分析领域也是一个强大的语言工具。R语言:是大数据分析工具之一,可用于科学计算、统计分析、数据可视化等。大数据分析工具2、大数据分析编程语言RapidMiner其特点是拖拽操作,无需编程,运算速度快,具有丰富数据挖掘分析和算法功能,常用于解决各种商业关键问题。12MongoDB是一个基于分布式文件存储的数据库。旨在为WEB应用提供可扩展的高性能数据存储解决方案。大数据分析工具3、其他工具
数据可视化是利用计算机以图形图表的形式将原始的抽象信息和数据直观的表示出来。
大数据分析可视化工具有很多,比如Zeppelin、PowerBI、Tableau、Spass等等。大数据分析可视化认识SparkSQL第二部分SparkSQL背景简介SparkSQL运行原理学习目标和要求1、了解SparkSQL的背景、特点。2、知道SparkSQL的运行架构。3、掌握Catalyst查询编译器的工作流程。4、掌握SparkSQL运行流程。HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook开发的构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语句的HQL语句作为数据访问接口脱离了Hive的依赖,SparkSQL在数据兼容、组件扩展、性能优化方面都得到了极大的提升。Shark是使用Scala语言开发的开源SQL查询引擎。其设计目标是作为Hive的补充,性能比Hive提高了10-100倍。但是Shark对于Hive依旧存在很多的依赖。SparkSQL背景简介1、SparkSQL的背景多种性能优化技术组件扩展性用户可以对SQL的语法解析器、分析器以及优化器进行重新定义和开发,并动态扩展。采用内存列存储(In-MemoryColumnarStorage),字节码生成技术(byte-codegeneration),CostModel对查询操作进行动态评估、获取最佳物理计划等。支持多种数据源可以在Hive上运行SQL或者HQL;可以从RDD、parquet文件、JSON文件中获取数据。SparkSQL背景简介2、SparkSQL的特点SparkSQL背景简介多种性能优化技术内存列存储(In-MemoryColumnarStorage)JVM对象存储和内存列存储对比SparkSQL背景简介多种性能优化技术字节码生成技术(byte-codegeneration)例如执行selecta+bfromtable这条命令通用的SQL方法:首先将生成一个表达式,并多次调用虚函数。SparkSQL:在其catalyst模块的expressions中增加了codegen模块。使用动态字节码生成技术来优化其性能,对匹配的表达式采用特定的代码动态编译,然后运行。SparkSQL运行原理1、SparkSQL的运行架构SparkSQL的整体架构SparkSQL是由Catalyst,Core,Hive和Hive-Thriftserver四个子项目组成。SparkSQL运行原理(1)Catalyst:负责处理整个查询过程,包括解析、绑定、优化等,将SQL语句转换成物理执行计划。(2)Core:用于将Catalyst的逻辑查询计划转换为SparkRDD代码。(3)Hive:Hive组件包括HiveContext和SQLContext,允许用户使用HiveQL的子集编写查询。(4)Hive-Thriftserver:支持HiveServer和CLI。SparkSQL运行原理2、Catalyst查询编译器(1)Catalyst的组成:Parser、Analyzer、Optimizer、Planner(2)Catalyst的工作流程Catalyst运行流程SparkSQL运行原理3、SparkSQL的运行原理(1)传统SQL的运行流程词法和语法解析(Parse)绑定(Bind)优化(Optimize)执行(Execute)SparkSQL运行原理(2)SparkSQL运行流程SessionCatalog保存元数据ANTLR生成未绑定的逻辑计划Analyzer绑定逻辑计划Optimizer优化逻辑计划SparkPlanner生成可执行的物理计划CostModel选择最佳物理执行计划execute执行物理计划小结
本章首先对大数据分析进行了介绍,详细阐述了大数据分析的相关概念、特点、类别及优缺点;简单介绍了大数据分析的常用工具;并对大数据分析可视化的优势价值等进行了分析。然后对大数据分析工具中的SparkSQL展开了详尽的描述,包括SparkSQL的发展演变历程、特点、运行架构原理等内容。THANKS!第2章实践环境准备Hadoop集群环境搭建第一部分环境准备启动Hadoop集群运行经典案例wordcount安装Hadoop学习目标和要求1、掌握Hadoop集群环境搭建的环境准备工作,包括配置主机名、防火墙设置、免密登录设置、Java环境设置。2、掌握安装Hadoop的过程、配置文件设置及启动集群的方法。3、会在Hadoop集群运行经典案例wordcount。环境准备1、集群节点规划此集群由三个节点构成,分别是master、slaver01、slaver02。集群搭建部署均在虚拟机中完成,使用VMwareWorkstation16Pro虚拟计算机软件。环境准备2、配置主机名和IP(1)修改对应虚拟机的IP地址:
vi/etc/sysconfig/network-scripts/ifcfg-ens33(2)将三台虚拟机的主机名修改为master、slaver01、slaver02。
hostnamectlset-hostname主机名(3)重启网络,使网络配置生效。
systemctlrestartnetwork环境准备3、连接MobaXterm终端工具使用MobaXterm终端工具,为master、slaver01和slaver02创建SSH连接。环境准备4、关闭防火墙
防火墙是对服务器进行保护的一种服务,但有时候会带来很多麻烦,它会妨碍Hadoop集群间的相互通信,所以我们要关闭防火墙。关闭master、slaver01和slaver02主机的防火墙,并设置开机不自启。systemctlstatusfirewalldsystemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalld环境准备5、关闭SElinuxSELINUX是对系统安全级别更细粒度的设置。关闭master、slaver01和slaver02主机的SElinux。vi/etc/sysconfig/selinux环境准备6、修改/etc/hosts文件修改master、slaver01和slaver02主机的/etc/hosts文件,建立主机和ip地址之间的映射关系。vi/etc/hosts7、配置免密登录首先在master节点创建生成密钥。将密钥拷贝到slaver01和slaver02两个节点,完成免密登录配置。环境准备8、配置Java环境在master节点上传JDK软件包并解压。在.bash_profile文件中配置环境变量。使用source.bash_profile命令,使.bash_profile文件配置生效。查看Java版本,验证安装成功。使用scp命令将jdk解压安装相关文件分发到slaver01和slaver02节点。安装Hadoop
由于三个节点都需要安装Hadoop,为了提高部署效率,先在master节点进行部署安装,然后将相关的文件和配置拷贝分发到另外两个节点中。上传Hadoop安装包并解压。修改环境变量。使环境变量生效。修改hadoop的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers。分发Hadoop和环境变量文件到slaver01和slaver02。格式化HDFS文件系统。启动Hadoop集群1、启动Hadoop集群只需要在master节点输入start-all.sh。接着查看各节点的服务进程。2、打开Google浏览器,输入地址30:8088,可以打开Yarn页面。3、输入地址30:9870,可以打开HDFS页面。案例wordcount通过经典案例wordcount,体验Hadoop运行MapReduce计算。1、在本地root目录下创建一个txt文件,输入一段自定义文字。2、上传文本到到hdfs。案例wordcount3、运行命令并查看结果hadoopjarhadoop-mapreduce-examples-3.2.1.jarwordcount/input/outputSpark集群部署与使用第二部分Spark安装启动SparkSpark集群测试学习目标和要求1、掌握Spark集群安装配置方法。2、会启动关闭Spark集群。3、能使用Spark-shell进行简单编程测试。Spark安装1、上传软件包使用MobaXterm工具,将软件包上传至master节点的root目录下,然后将其解压到/usr/local目录中。Spark安装2、在.bash_profile文件中修改环境变量执行source.bash_profile使环境变量生效Spark安装3、修改Spark配置文件(1)配置spark-env.sh文件(2)配置workers文件4、复制修改spark启动脚本,避免和hadoop的启动脚本冲突。5、分发Spark安装文件到slaver01和slaver02。启动Spark1、在master节点输入start-spark-all.sh,启动Spark。2、查看各节点服务进程状态(此处已经启动Hadoop集群)启动Spark3、Web查看Spark主页情况在浏览器中输入地址30:8080/,进行查看。Spark集群测试1、使用spark-submit工具提交Spark作业spark-submit提交任务及参数说明:--class:应用程序的主类,仅针对java或scala应用。--master:master的地址,提交任务到哪里执行,例如spark://host:port,yarn,local。--driver-memory:driver进程所使用的内存数量,以字节为单位。可以指定不同的后缀如“512m”或“15g”,默认是1G。--executor-memory:executor使用的内存数量,以字节为单位。可以指定不同的后缀如“512m”或“15g”,默认是1G。--total-executor-cores:所有executor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行员工福利待遇制度
- 酒店餐饮服务规范制度
- 八年级英语Ontheradio课件
- 教师扎根乡村奉献青春演讲稿(31篇)
- 《试模问题处理》课件
- 2025届北京市第101中学高三第五次模拟考试数学试卷含解析
- 山西省静乐县第一中学2025届高考英语考前最后一卷预测卷含解析
- 2025届上海市6校高三下学期第五次调研考试语文试题含解析
- 2025届安徽省六安市高三压轴卷英语试卷含解析
- 10.1《劝学》课件 2024-2025学年统编版高中语文必修上册-1
- 【安井食品公司偿债能力存在的问题及对策9000字】
- 2024年茶空间运营工作计划
- 食品进销存台账【模板】
- 大额采购监督方案
- 提高感染性休克集束化治疗达标率
- 《外科护理》第二十章 第一节 骨折病人的护理课件
- 电气设备安全操作培训
- 计算机专业大学生职业生涯发展展示
- 门诊护士长年终工作总结
- 变压器油箱制造工艺
- 政治单招考试重点知识点
评论
0/150
提交评论