QConShanghai-刘海锋-京东文件系统简介_第1页
QConShanghai-刘海锋-京东文件系统简介_第2页
QConShanghai-刘海锋-京东文件系统简介_第3页
QConShanghai-刘海锋-京东文件系统简介_第4页
QConShanghai-刘海锋-京东文件系统简介_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

京东文件系统简介刘海锋QConShanghai2013CopyrightofJD.com为什么自主研发实现技术与经验正在进行的工作问题与挑战商品订单365*数亿*~10KB商品图片几十亿*(20~200KB)库房记录365*十亿*(KB~MB)各种方案关系数据库OracleExadata,…Pains–没法扩容、定期删除开源存储系统HDFS、FastDFS、…Pains–难以选型、定制、维护自主研发核心软件系统可以自主研发Ifyoubelieveyoucan注意事项紧扣业务需求高度定制分期开展第一期不做大而全缩短开发周期,提高ROI系统定位V1:ScalableSystemKey-FileStore特别针对海量小文件强可靠、强一致、高可用Key由系统本身生成可满足很多业务需求

–Really?V2:supportuser-definedkeysandmore为什么自主研发实现技术与经验正在进行的工作编程语言的选择Go写系统框架,C写单机存储引擎各取所长WhyGo?良好性能,高开发效率适合小团队开发总体架构客户端Java,C/C++,nginx-based,Go,..ClusterCoordinatorZooKeeperDatanode3datanodes

formareplicagroup1leader+2followers一致、持久的存储单元通常每磁盘部署一个实例ClustercoordinatordatanodeJavaclientreplicagroupmonitorchecker集群视图replica-groupId->memberaddresses&weightsWeight标识可读可写状态/jfs-root/datanodes/replicagroup-1/:20130;0:20130;

0:20130;-1…replicagroup-5/

:20130;1758

:20130;

0

:20130;0

…客户端实现读写路由等关键逻辑JFSKey举例jfs/t5/8/10240/10000/A5B8FC33-YReplicaGroup-5Internalkey-8/10240/10000ChunkId/Offset/SizeCRC-A5B8FC33Y-已压缩JFS复制协议Paxos算法的变体固定成员角色–oneprimary+2followers不做majority-basedleaderelectionFull-quorumreplication二元状态机-ReplGroupReadyorReplGroupSplitprimaryfollowerfollowerclient单机存储引擎一组Append-Only文件,无内存索引chunkId/offset/sizeasinternalkey便于Crash-Recovery操作就是做文件同步如何做Garbage-Collection?利用lseek()compact故障处理与恢复两种类型Fail-RestartFail-Replace统一处理ChunkfilesynchronizationPrimary(corrupted)Follower(restarted)FollowerPrimary(new)PrimaryFollowerBFollowerA可靠性与一致性强一致各个成员均写入才返回写成功同一复制组保持数据一致每个数据文件的每个字节强可靠集群宕机、磁盘损坏文件误删除或截断若某个或某两个数据文件被误删,系统自动恢复可用性定义给定一个复制组

若某成员在线则读可用仅当全体成员在线才可写整个系统的写可用性至少一个复制组可写除非IDC断网断电,JFS集群总是可写可读因为总是部署很多复制组在不同网段离线模块Monitor各个datanode的运行时metricsChecker各个复制组的一致性核对磁盘故障的主动检测datanodemonitorchecker持续优化流水线写支持大文件透明压缩针对文本对象,节省带宽与机器资源客户端压缩vs服务端压缩多数据中心异步复制,客户端就近读取通过ErasureCoding降低存储成本利用访问时效性性能数字应用举例商品订单每年500TB库房流水记录每年超过1PB商品图片近百TB,持续增长消息队列服务开发中相关工作类似系统Facebook’sHaystackTaobao’sTFSFastDFS、Weed-FS、…JingdongFilesystemV1更重要的数据强一致性无单点故障无内存索引透明压缩,etal.为什么自主研发实现技术与经验正在进行的工作重新审视需求核心业务的海量小文件交易订单、商品图片、库房记录、消息队列…云存储服务面向私有/公有云的对象存储服务针对IaaS平台的持久块设备存储对象存储基本架构ServiceGatewayLoadBalancerDatastoragesubsystemMetadatasubsystemConsistencyMaintainerAccountManagerobjectstorageevolutioninsideJD.com之前版本HDFS作为数据存储子系统Pains:85%容量是小于1MB的对象MySQLsharding负责元数据管理Pains:manualpartitioning现在版本JFS替换HDFS负责小文件存储下一版本JFSastheONLYbackendJFS-v2:ScalableDirectories作为对象存储服务的完整后端Bucket->DirectoryJFSDirectory特性单级目录,自定义文件名与属性单个目录内文件数不限支持目录内prefix/range查询、有序遍历JFSasthecompletebackend(tinyfiles,bigfiles,directories)ServiceGatewayLoadBalancerConsistencyMaintainerAccountManagerJFS-v3:Block-deviceFiles预分配、定长、独占写在此基础上提供持久块存储服务JFSasthebackendPhysicalHostVMVMVMVolumeManager愿景统一的存储后端,提供不同产品抽象内部各子系统有独立的复制协议与存储引擎JingdongFilesystemBlockdeviceinterfacePrivateClientLibrariesPublicobject

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论