版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章大数据分析概述关于大数据分析第一部分什么是大数据分析大数据分析可视化大数据分析工具学习目标和要求1、了解大数据分析的概念、特点、类别、优缺点。2、知道大数据分析的相关工具。3、了解大数据分析可视化的概念及相关工具。什么是大数据分析12345Volume(容量)Velocity(速度)Variety(种类)Value(价值)Veracity(真实性)1、大数据的“5V”特征大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据分析就是指对规模巨大的数据进行数据分析。什么是大数据分析2、大数据分析概念数据分析量大1234数据处理速度快数据分析类型多数据价值密度低3、大数据分析的特点BigDataAnalysis5数据的可靠性低什么是大数据分析什么是大数据分析4、大数据分析类别预测分析关注的是对未来事件的预测。预测性分析规范性分析是指在发生问题之后,根据问题诊断性分析之后,结合预测性分析,做出相应的优化建议和行动。规范性分析针对过去已经发生的事情,分析该事件产生的原因。诊断性分析描述性分析是描述过去的数据,基于历史数据描述发生了什么,对过去的大量历史数据进行汇总分析描述,以简单可读的方式进行呈现。描述性分析为优质决策提供参考;提高产品开发创新力;改善客户服务体验;提升风险管理优势缺点信息透明化成本高数据质量低技术更新变化快什么是大数据分析5、大数据分析的优势与缺点大数据分析工具(1)ApacheSpark:具有SparkSQL、Streaming实时计算、机器学习和SparkGraphX图计算的内置功能。(2)Hbase:HBase是一个基于HDFS的面向列的分布式数据库。(3)Storm:Storm是流处理的代表性实现之一。Storm具有低延迟、高性能、分布式、可扩展、容错、可靠性、快速等特点。(4)Flink:
Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。1、Hadoop生态圈中的大数据分析工具123编程语言Scala语言:Scala语言是基于JVM运行环境、面向对象和函数式编程的完美结合Python语言:Python在数据分析领域也是一个强大的语言工具。R语言:是大数据分析工具之一,可用于科学计算、统计分析、数据可视化等。大数据分析工具2、大数据分析编程语言RapidMiner其特点是拖拽操作,无需编程,运算速度快,具有丰富数据挖掘分析和算法功能,常用于解决各种商业关键问题。12MongoDB是一个基于分布式文件存储的数据库。旨在为WEB应用提供可扩展的高性能数据存储解决方案。大数据分析工具3、其他工具
数据可视化是利用计算机以图形图表的形式将原始的抽象信息和数据直观的表示出来。
大数据分析可视化工具有很多,比如Zeppelin、PowerBI、Tableau、Spass等等。大数据分析可视化认识SparkSQL第二部分SparkSQL背景简介SparkSQL运行原理学习目标和要求1、了解SparkSQL的背景、特点。2、知道SparkSQL的运行架构。3、掌握Catalyst查询编译器的工作流程。4、掌握SparkSQL运行流程。HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook开发的构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语句的HQL语句作为数据访问接口脱离了Hive的依赖,SparkSQL在数据兼容、组件扩展、性能优化方面都得到了极大的提升。Shark是使用Scala语言开发的开源SQL查询引擎。其设计目标是作为Hive的补充,性能比Hive提高了10-100倍。但是Shark对于Hive依旧存在很多的依赖。SparkSQL背景简介1、SparkSQL的背景多种性能优化技术组件扩展性用户可以对SQL的语法解析器、分析器以及优化器进行重新定义和开发,并动态扩展。采用内存列存储(In-MemoryColumnarStorage),字节码生成技术(byte-codegeneration),CostModel对查询操作进行动态评估、获取最佳物理计划等。支持多种数据源可以在Hive上运行SQL或者HQL;可以从RDD、parquet文件、JSON文件中获取数据。SparkSQL背景简介2、SparkSQL的特点SparkSQL背景简介多种性能优化技术内存列存储(In-MemoryColumnarStorage)JVM对象存储和内存列存储对比SparkSQL背景简介多种性能优化技术字节码生成技术(byte-codegeneration)例如执行selecta+bfromtable这条命令通用的SQL方法:首先将生成一个表达式,并多次调用虚函数。SparkSQL:在其catalyst模块的expressions中增加了codegen模块。使用动态字节码生成技术来优化其性能,对匹配的表达式采用特定的代码动态编译,然后运行。SparkSQL运行原理1、SparkSQL的运行架构SparkSQL的整体架构SparkSQL是由Catalyst,Core,Hive和Hive-Thriftserver四个子项目组成。SparkSQL运行原理(1)Catalyst:负责处理整个查询过程,包括解析、绑定、优化等,将SQL语句转换成物理执行计划。(2)Core:用于将Catalyst的逻辑查询计划转换为SparkRDD代码。(3)Hive:Hive组件包括HiveContext和SQLContext,允许用户使用HiveQL的子集编写查询。(4)Hive-Thriftserver:支持HiveServer和CLI。SparkSQL运行原理2、Catalyst查询编译器(1)Catalyst的组成:Parser、Analyzer、Optimizer、Planner(2)Catalyst的工作流程Catalyst运行流程SparkSQL运行原理3、SparkSQL的运行原理(1)传统SQL的运行流程词法和语法解析(Parse)绑定(Bind)优化(Optimize)执行(Execute)SparkSQL运行原理(2)SparkSQL运行流程SessionCatalog保存元数据ANTLR生成未绑定的逻辑计划Analyzer绑定逻辑计划Optimizer优化逻辑计划SparkPlanner生成可执行的物理计划CostModel选择最佳物理执行计划execute执行物理计划小结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度大数据中心建设贷款合同
- 2025年国际能源开发项目借款合同
- 2025年度5G通信技术研发与产业化合同协议书意向书
- 2025年度户外广告牌租赁与广告创意设计合同
- 2025年度购房居间合同:保障性住房申购代理协议范本
- 二零二五年度大学生实习期间实习成果分享与传播合同3篇
- 2025年度跨国婚姻介绍与担保合同
- 2025年度国际贸易税收筹划合同
- 2025年度IT技术顾问费合同范本
- 2025年度海上货物运输保险合同范本(船舶责任险)
- 2024-2025学年北京市丰台区高三语文上学期期末试卷及答案解析
- 2021年全国高考物理真题试卷及解析(全国已卷)
- 建设用地土壤污染风险评估技术导则(HJ 25.3-2019代替HJ 25.3-2014)
- JJG 692-2010无创自动测量血压计
- 徐州市2023-2024学年八年级上学期期末地理试卷(含答案解析)
- 饮料对人体的危害1
- 数字经济学导论-全套课件
- 中考记叙文阅读
- 产科沟通模板
- 2023-2024学年四川省成都市小学数学一年级下册期末提升试题
- GB/T 21709.13-2013针灸技术操作规范第13部分:芒针
评论
0/150
提交评论