下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据知识点总结1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
2、Hadoop实现了一个分布式文件系统硬件上;而且它提供高吞吐量,它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点Sqoop:在HADOOP与传统的数据库间进行数据的传递。
Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。
10、Hadoop1.x与Hadoop2.x的区别:
Hadoop2.x中有两个重要的变更:
2、DataDiscovery来创建和访问表单。
j、支持协同开发,Zeppelin的notebook,可以被多人同时使用,任何一个人的改动都会被实时的同步到其他协作者的页面上。
k、Zeppelinnotebook上产生的图表,可以被独立发布,通过iframe,可以嵌入到别的网页上。
l、100%开源的Apache项目。
15、Ambari是一个开源的分布式Hadoop集群安装,部署,监控和管理的平台。
16、Ambari主要由三个部分组成,AmbariServer,AmbariWeb和AmbariAgent。
AmbariServer:AmbariServer是整个Ambari的统一入口,只能运行在集群中的一台机器上。负责管理所有的AmbariAgent。
AmbariWeb:AmbariWeb和AmbariServer运行在同一台机器上,作为AmbariServer的一部分功能存在,提供Web和RestAPI的方式访问AmbariServer。
AmbariAgent:AmbariAgent需要在集群中的每个节点上都运行一个,负责监控宿主机器的状态信息,执行从AmbariServer上发送过来的操作指令。
17、Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
18、Spark与Hadoop的对比,每组任务被称为Stage,也称TaskSet
RDD:ResilientDistributedDatasets的简称,弹性分布式数据集,是Spark最核心的模块和类
Transformation/Action:SparkAPI的两种类型;Transformation返回值还是一个RDD,Action返回值不少一个RDD,而是一个Scala的集合;所有的Transformation都是采用的懒策略,如果只是将Transformation提交是不会执行计算的,计算只有在Action被提交时才会被触发。
DataFrame:带有Schema信息的RDD,主要是对结构化数据的高度抽象。
DataSet:结合了DataFrame和RDD两者的优势,既允许用户很方便的操作领域对象,又具有SQL执行引擎的高效表现。
28、RDD提供了两种类型的操作:transformation和action
1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD
2,action是得到一个值,或者一个结果和宽依赖。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的,那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如,map就是一种窄依赖,而join则会导致宽依赖
依赖关系分类的特性:
第一,窄依赖可以在某个计算节点上直接通过计算父RDD的某块数据计算得到子RDD对应的某块数据;
第二,数据丢失时,对于窄依赖只需要重新计算丢失的那一块数据来恢复;
35、数据分析常见模式:
1、IterativeAlgorithms,
2、RelationalQueries,
3、Map
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度安全总结(32篇)
- 新教材高考地理二轮复习一8类识图技法专项训练技法3原理示意图判读含答案
- 《必修二 技术与设计二》 复习提纲
- 云南省保山市智源高级中学2024-2025学年高一上学期11月期中化学试卷
- 辽宁省沈阳市南昌中学2024-2025学年八年级上学期期中地理试题(含答案)
- 广东省韶关市2025届高三综合测试一地理试卷( 含答案)
- 2025年高中思想政治教师资格考试学科知识与教学能力试题及解答参考
- 重庆市高考语文五年试题汇编-古诗词赏析
- 履约保证函格式及范本
- 建设工程施工合同补充保证书格式
- 北师大版(2024新版)七年级上册数学第三章《整式及其加减》测试卷(含答案解析)
- 2024年新人教版地理七年级上册全册课件
- 护理文献检索步骤
- 2024年有子女无财产离婚协议参考范文(四篇)
- 2024欠款还款协议书
- 阿米巴巴长知识竞赛考试题库(含答案)
- 2024-2025学年部编版(2024)七年级历史上册知识点提纲
- 2024至2030年中国鸡蛋行业市场发展现状及投资规划建议报告
- 小学三年级下一字多义(答案)
- 六年级上册道德与法治全册教学课件
- XX集团内部审计人才库管理办法(专业完整格式模板)
评论
0/150
提交评论