版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1231231
什么是大数数据
传统数GB
大数TBPB 多样
集 数据规模巨大生成和处理速度极快
数据类型多样价值巨大但密度较低
基于大数据的数据仓
什么是大数 1.2基于大数据的实时流处
什么是大数 2
大数据技术概阶时阶时事前DougCutting、MikeCafarella创建了开源网页爬虫项目了FileDougCutting、MikeCafarella在Nutch中实现了GFS的功了MikeCafarella在Nutch中实现了MapReduce的功DougCutting加入Yahoo,将Hadoop发展成一个可ApacheHadoop项目正式启动,并支持MapReduce和HDFS独立发Yahoo的网格计算团队采用Hadoop技Yahoo建立了第一个用于开发的Hadoop集第一个ApacheHadoop版本发了YahooHadoop集展成两个1000个节点的集Hadoop成为Apache顶级项Yahoo运行了世界最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有一万个内核的Hadoop集群上
大数据技术概阶时阶时事时代Hadoop的第一个SQL框架Hive成为Hadoop子项第一个Hadoop商业化公司Cloudera成ApachePig的第一个版本发Cloudera推出世界上首个Hadoop版——CDH,并完全开放源MapReduce和HDFS成为Hadoop子项HBase脱离Hadoop项目,成为Apache顶级项Hive脱离Hadoop项目,成为Apache顶级项Pig脱离Hadoop项目,成为Apache顶级项ZooKeeper脱离Hadoop项目,成为Apache顶级项HDFSNameNodeHA加入Hadoop主版YARN成为Hadoop子项星环科技发布了国内首个全面支持Spark和Hadoop2.0的大数据基础平台软件——Spark代替MapReduce成为Hadoop的缺省计算引擎,并成为Apache顶级项Cloudera公布继HBase以后的第一个Hadoop原生替代方案——
大数据技术概ElasticSerach/Search/
Impala/Holodesk/ SparkMLlib/Discover/
Hive/SparkSQL/
SparkStreaming/Slipstream/Storm/Flink(分
YARN/Mesos(资源管理框架)、DC/OS/Kubernetes/TOS(数据中心操作系统) 协服 服 )
概-Hadoop分布式文件系统(HadoopDistributedFile特 -大规模数据集:典型文件大小GB~TB级,百万以上文件数量,PB以上数据规
大数据技术概 概-编程模型:将MapReduce程序分为Map、Reduce两个阶思特-
大数据技术概 由加州大学伯克利分校的 开高性能分布式通用计算-SparkCore:基础计算框架(批处理、交互式分析)-SparkSQL:SQL引擎(海量结构化数据的高性能查)-SparkStreaming:实时流处理(微批-SparkMLlib采用Scala语言开特
大数据技术概 概-为了解决Hadoop1.x中MapReduce 组特-高可用:ResourceManager高可用、HDFS高可
大数据技术概 概-SQL引擎:对海量结构化数据进行高性能的SQL查-采用MapReduce或Spark为计算框特
大数据技术概 概-Hadoop -列 系特-高扩展:数据自动切分和分布,可动态扩容,无需停-海
大数据技术概 开源的分布式全文检索引基于Lucene实现全文数据的快 、搜索和分处理大规模数据:PB级以具有较强的扩展性,集群规模可达上百首选的分布式搜索引
大数据技术概 33.1
大数据产业生Docker/ 大数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件标题模板教学课件
- 南京工业大学浦江学院《食品添加剂》2022-2023学年第一学期期末试卷
- 都江堰某希望小学教学楼及综合楼施工组织设计
- jqx第课时说课稿
- 南京工业大学浦江学院《金庸小说欣赏》2021-2022学年第一学期期末试卷
- 《小小旅行家》说课稿
- 南京工业大学《自动化》2022-2023学年第一学期期末试卷
- 南京工业大学《药物商品学》2023-2024学年第一学期期末试卷
- 南京工业大学《水工程施工》2022-2023学年第一学期期末试卷
- 南京工业大学《企业战略管理》2022-2023学年第一学期期末试卷
- 度湖南省建设工程造价参考指标
- 《如何说孩子才会听 怎么听孩子才肯说》读书分享PPT
- 园林植物花卉育种学课件第5章-杂交育种
- 六年级上册数学课件-6. 百分数(一)1-人教版(共11张PPT)
- HSK5级100题看图写作练习
- 地下建筑结构:第3章 地下建筑结构及设计1
- 公司售后维修记录表
- 四年级数学上册苏教版《认识射线、直线和角》教案(公开课)
- 微软Azure 与阿里云的对比分析
- 承台施工工艺标准
- 《分物游戏》说课
评论
0/150
提交评论