有状态转换操作_第1页
有状态转换操作_第2页
有状态转换操作_第3页
有状态转换操作_第4页
有状态转换操作_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

有状态转换操作

DStream转换操作介绍DStream有状态转换操作/01Dstream有状态转换介绍Dstream有状态转换介绍DStream转换操作包括无状态转换和有状态转换。

有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。前者以一个时间阶段为滑动窗口进行操作,后者则用来跟踪每个键的状态变化(例如构建一个代表用户会话的对象)。Dstream的有状态转化操作是跨时间区间跟踪数据的操作;也就是说,一些先前批次的数据也被用来在新的批次中计算结果。

Dstream有状态转换介绍有状态转化操作需要在StreamingContext中打开检查点机制来确定容错性。/02DStream有状态转换操作基于窗口的转化操作

基于窗口的操作会在一个比StramingContext的批次间隔更长的时间范围内,通过整合多个批次的结果,计算出整个窗口的结果。  基于窗口的转化操作需要两个参数,分别是窗口时长和滑动时长。两者都是批次间隔的整数倍。窗口时长:控制每次计算最近的windowDuration/batchInterval个批次的数据。滑动步长:默认值与批次间隔相等。用来控制对新DStream进行计算的时间间隔。DStream有状态转换操作(一)UPdateStateByKey转化操作

需要在DStream中跨批次维护状态。针对这种情况,udpateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的DStream。

给定一个由(键、事件)对构成的DStream,并传递一个指定如何根据新的事件更新每个键对应状态的函数,它可以构建出一个新的DStream,其内部数据为(键,状态)对。

例如,在网络服务器日志中,事件可能是对网站的访问,此时键是用户的ID。使用updateStateByKey()可以跟踪每个用户最近访问的10个页面。这个列表就是“状态”对象,我们会在每个事件到来时更新这个状态。DStream有状态转换操作(二)Hive数据库介绍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论