说明分布式系统_第1页
说明分布式系统_第2页
说明分布式系统_第3页
说明分布式系统_第4页
说明分布式系统_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Hadoop&hypertable2008.10主要内容HDFS基本框架Map-reduce计算模型鲁谷日志平台简介Hypertable基本框架Hadoop简介起源:Google的集群系统1、GFS(Google File System)。2、MapReduce。3、BigTable。Hadoop简介由Apache基金会开发开源项目。包括分布式文件系统和map-reduce计算引擎。用户可以在不了解分布式底层细节的情况下,开发分布式程序进行计算。1. HDFS基本框架1.1 主要模块与功能1.2 优点:容错,可靠,易维护1.3 使用方法:DFSShell介绍 主要模块及功能主要模块及功能元数据

2、节点-NameNode 1 负责存储整个名字空间和目录结构;2 任务分配和调度主要模块及功能数据节点-DataNode 1.存储数据块及副本2.进行map或reduce计算容错和可靠性:1 读数据时,发现读超时或数据校验有误,会尝试从其他备份读取。2 写数据时,当出现写数据异常时,会把整个的写流程重试。3 当发现数据块份数小于指定份数时,会启动数据拷贝。4 当发现数据块份数多于指定份数时,会删除可用容量最小的DataNode上的数据块。使用方法:DFSShellHDFS(Hadoop Distributed Filesystem)允许用户数据以文件和目录的方式组织管理,它提供一个叫DFSShe

3、ll的命令接口,让用户和HDFS中的数据交互。该命令集的语法跟其他的shells(如 bash, csh)相似。DFSShell创建目录/lxn : ./hadoop dfs -mkdir /lxn查看文件 /lxn/1 : ./hadoop dfs -cat /lxn/1将本地的文件上传到hdfs机群中指定目录下:./hadoop dfs -copyFromLocal 查看目录结构:./hadoop dfs lsr 查看空间占用 ./hadoop dfs dus 2.Map-reduce2.1基本概念2.2 优势、特点2.3 示例Map-reduce计算模型Map-reduce计算模型Map

4、过程:Map(k1,v1)-list(k2,v2)Eg(word count):/key: 文档 /value: 文档内容 map(String key,String value)for each word w in value: echo(w,1);Map-reduce计算模型Reduce过程:Reduce(k2,list(v2))-list(v2)Eg (word count):/key: 一个单词/values: 一系列计数 reduce(String key,Iterator values) int result = 0; for each v in values: result +=

5、 ParseInt(v); echo(key,result); Map-reduce特点提供一个编程框架向上层应用隐藏并行化,数据分布,容错,负载均衡等功能使应用开发者更多的关注业务逻辑 一个示例Word count:目标:统计一个文件中每个单词出现的次数Map程序:待统计的文件从标准输入读入,map程序分离出单词,输出,(在map末尾可加上combine)Reduce程序:从标准输入读入key=value对,将相同key的value累加后输出到标准输出3.鲁谷日志平台1. 简介2. 监控 (1)人工 (2)自动鲁谷日志平台简介主要用来存储日志并对日志进行分析,需要较高的可靠性。40台hp18

6、0G5(2路4核CPU,共8GB内存,12*750GB硬盘)作为数据及计算节点 2台Dell 2950作为元数据节点(提供双机冗余备份).三季度处理数据1299TB,计算任务51200个监控系统鲁谷日志平台监控网页集群状态监控: 任务状态监控: 监控系统计算语义监控节点状态及服务监控各节点磁盘占用监控邮件报警 手机报警容量、流量及任务统计各线上项目空间使用统计Hadoop日志统计4 hypertable基本原理BigTableGoogle分布式基础平台的核心组成部分。高性能的、用于存储和访问大规模结构化数据的分布式服务。 Hypertable & HBaseBigTable的开源实现C+ vs

7、 JavaWhy C+: CPU与内存密集型应用主要模块及功能Hyperspace (Chubby in BigTable)独立通用模块:提供分布式锁服务小文件系统 (vs HDFS)Master任务分配负载均衡当机恢复Range Servers底层劳动人民DFS BrokerHDFS Java-C+接口、DFS抽象层Table结构API接口C+Client对象:创建、打开、删除、枚举表Table对象:扫描(读)、修改表(写)内容HQL类似SQL但有很多限制用来建表比较方便,例如:CREATE TABLE Pages ( date, refer-url, http-code,ACCESS GR

8、OUP default ( date, refer-url, http-code );C+接口读(Select)一次只读一行响应时间扫描(Scan)通常涉及全部RS吞吐率修改(Mutation)Set (Insert / Update)Delete单行操作满足事务性扫描约束条件Start RowEnd Row / Row LimitTime Range/ Max VersColumns修改约束条件Key, column, time, valueRange与Range Server一张巨大的表:如何分工?Range:按行划分的子表(Tablet)范围:StartRow, EndRow每张表切成n

9、多个Range大小:200MRange Server一台物理主机,一个集群可以有几K个RS可以服务多个表的多个Range (几K个)Range到RS的分配:Master完成表中数据存放每个Range: 多个Access Group每个Access Group:CellCache (Memtable)Range Server的内存中大小有上限(50M),达到上限就持久化为CellStoreCellStore (SSTable)文件(默认最多10个,保存在HDFS中)合并(Compaction)事务日志(HDFS中)CellCache与CellStoreCellCache与CellStore一经写入文件就不再更改本质上是一系列补丁读的时候需要在内存中合并元数据的存放Table Schema、权限信息、Server列表等数据量小:存放于Hyperspace中Range信息Range的划分位置:在哪个Range Server上包含的数据文件、日志等数据量大:每个Range占1K,1PB的表就有5G Range信息,一个节点管不过来METADATA表用于存放所有用户表的Range信息数据量比较大本身包含多个Range,分布在多个RS上METADATA的Range信息ROOT表:METADATA的METADATA只有一个Range位置信息存放在H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论