2023学年完整公开课版Hadoop和OS页面缓存_第1页
2023学年完整公开课版Hadoop和OS页面缓存_第2页
2023学年完整公开课版Hadoop和OS页面缓存_第3页
2023学年完整公开课版Hadoop和OS页面缓存_第4页
2023学年完整公开课版Hadoop和OS页面缓存_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朱佳目录0102缓存策略管道恢复的三个阶段缓存策略1缓存策略

通常,应用程序会频繁访问几个文件,例如小型Hive事实表。可以使用Hadoop的集中式缓存管理来显式缓存特定路径。可以在文件或目录级别缓存数据。当缓存路径时,NameNode会指定拥有该文件块的DataNode将这些块从磁盘缓存起来,实质上是将这些块缓存至内存中。缓存策略

当工作集的总量大于RAM时,服务器会从内存中置换出数据,为新数据腾出空间。缓存大数据集用于查询效率不高的情况,因为很可能不会重复读取这些相同的数据集。可以考虑使用严格的SLA缓存关键工作负载的数据,以防止这些数据集竞争磁盘I/O。缓存在磁盘争用的集群中特别有用。缓存策略

HadoopDataNode使用操作系统的页面缓存,该缓存策略会缓存最近访问的所有数据到本地文件系统。但是,在像Hadoop这样的分布式系统中,仅使用操作系统页面缓存是不够的。由于没有每个DataNode的内存状态的全局信息,因此当提供多个HDFS副本时,客户端无法根据局部缓存性进行任务调度。所以性能有损失,因为客户端是在,不知道局部缓存的情况下进行任务调度的。缓存策略

当客户端运行查询时,应用调度程序选择一个数据块副本位置,并在该DataNode上运行任务,且将副本拉入操作系统页面缓存。但是,调度程序不知道存储在页面缓存中的副本,因而不能利用局部缓存来分配任务。另一个问题是,由于大多数操作系统的页面缓存使用LRU(最近最少使用)算法的修改版本来确定它们应该保留在内存中的数据,因此它们可能会从缓存中置换出用户的工作数据集。操作系统页面缓存不好的另一个原因是,它比直接从内存中读取效率低,因为直接从内存读取提供了“零读取复制”性能。管道恢复三个阶段2管道恢复三个阶段管道设置阶段是指客户端通过管道发送写请求并接收来自管道中所有节点的确认,指示管道已准备好供客户端开始写入这个阶段。如果管道在此阶段遇到错误,并且客户端正在写入新块,则客户端会询问NameNode是否有新块和DataNode列表,以便在其中找到块。因此,将会开启一个新的管道而不是使用失败的管道。另一方面,如果管道是为附加到块而创建的,则客户端将使用幸存的DataNode重建管道。管道恢复三个阶段客户端缓冲数据包(数据块)中的数据,并在数据包被填满后通过管道发送数据。如何处理数据流阶段期间的故障取决于客户端或DataNode是否检测到故障。如果客户端检测到故障,它将构建一个新的管道,并保留好的DataNode,且开始使用新的GS发送数据包。如果是DataNode检测到故障,它将通过关闭连接将其自身从管道中删除。管道恢复三个阶段关闭阶段是副本完成并且管道关闭的阶段。当客户端发送关闭请求时,管道中的所有DataNode都会将副本转换为Finalized状态。它们将此报告给NameNode,如果正确数量的DataNode(基于配置的复制因子)报告了它们副本的Finalized状态,它将块的状态转换为Co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论