分布式表格系统_第1页
分布式表格系统_第2页
分布式表格系统_第3页
分布式表格系统_第4页
分布式表格系统_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式表格系统一、分布式表格系统云计算的分布式表格系统依赖于下层的分布式文件系统(如Google的GFS)提供可靠和高效的数据存储,也是分布式文件系统的主要使用者。以Google的Bigtable为例,其数据模型是:(row:string,column:string,time:int64)->value:string2一、分布式表格系统行(row)行(row)是二进制串,最大长度为64KB(实际应用中,大部分行字符串为10~100字节)。对统一行内的数据的读或写总是原子的。分布式表格系统总是把整个表格按行(row)排序(字典序),然后按整行动态切分,每个切分后的块称为一个子表(tablet,在Google的Bigtable中,每个子表一般不超过256MB),子表也是分布式表格系统的worker加载/卸载和负载平衡的基本单元。在网页库表格中,行(row)是网页的URL,但其中的域名部分被颠倒了,例如/index.html变成了com.google.maps/index.html,这样使得域名相似的网页聚集在一起,由于域名相似的网页在内容上往往有一定的相似性,因此可以产生更高的压缩倍率,并使得一些应用程序更加高效。3一、分布式表格系统列(column)列按列族(columnfamily)分组,同一列族内的单元格的内容常常相同,并用修饰词(qualifier)区分不同的单元格,即column=“family:qualifier”。一个表格内的列族个数是有限的(例如最多上百个)且一般由可打印字符组成,但修饰词(qualifier)的个数没有任何限制且可以是任意字符。例如,网页库表格中,content(网页内容)可以是一个列族,language(语言)可能是另外一个列族。出于进一步的性能优化的考虑,Bigtable还允许用户把内容相似或相关的列族组成局部群组(localitygroup),同一局部群组内的列族的数据常常存放在一起,这样可以加快它们的访问速度;用户还可以把某些局部群组设定为装入内存,这样访问这些群组时就不需要访问磁盘。4一、分布式表格系统列族是权限控制的基本单元:有些用户可以添加新数据、修改已经存在的数据,有些用户只能读已经存在的数据,还有一些用户连已经存在的数据都不能读。局部群组则是数据压缩的基本单元,用户可以对不同的局部群组指定不同的压缩算法或者同一压缩算法的不同参数。5一、分布式表格系统时间戳时间戳是64位整数,可以用来表示真正的时间(例如网页抓取的时间),这时它的单位是微秒,时间戳也可以是用户指定的任意值。Bigtable允许用户(针对列族)指定保存最新的多少个时间戳版本或者从现在起多长时间内的版本(如一周以内所有版本),例如,在网页库表格中设置为保留最新的3个版本,超出的版本则被垃圾回收;6一、分布式表格系统Bigtable采用了3层B+树结构来存储表格数据,第三层为用户数据层(userdatatablets),第二层为元数据索引层(metadatatablets),用来索引用户数据tablets,第一层为根索引层(roottablet),用来索引第二层数据。根索引层和元数据索引层的主要数据被设置为装入内存,应用程序需要访问用户数据时,Bigtab

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论