大数据分析原理与实践ch13流式计算平台_第1页
大数据分析原理与实践ch13流式计算平台_第2页
大数据分析原理与实践ch13流式计算平台_第3页
大数据分析原理与实践ch13流式计算平台_第4页
大数据分析原理与实践ch13流式计算平台_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量数据计算研究中心Massive

Data

Computing

Lab

@

HIT大数据分析·原理与实践13、流式计算平台王宏志哈尔滨工业大学目录流式计算概述Storm分布式流处理系统SamzaCloud

Dataflow1234目录流式计算概述Storm分布式流处理系统SamzaCloud

Dataflow1234什么是流式计算流式计算概述流式计算常规的批量计算–

首先进行数据的存储,然后对存储的静态数据进行集中计算。流式计算无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来。因此,不进行流式数据的存储,而是当流动的数据到来后,在内存中直接进行数据的实时计算。什么是流式计算流式计算概述不确定速率事件流的流入速率是不确定,系统的处理能力必须与事件流量匹配,或者使用近似算法。实时对数据流能够做出实时响应。DBMS是主动的用户是被动的,而DBMS是主动的。常规的批量计算确定速率确定速率的事件流流入系统,单位时间处理的数据量可以确定。非实时在做数据库查询时,里面的数据其

实是过去某个时刻数据的一个快照。用户是主动的用户主动发出查询,DBMS系统是被动应对查询的。流式计算流式计算的应用流式计算概述风险管理包括信用卡诈骗、保险诈骗、证券交易诈骗、程序交易等,需要实时跟踪发现。营销管理如根据客户信用卡消费记录,预测客户未来的消费需求,并为其推荐个性化的金融产品和服务。商业智能如掌握金融银行系统内部各系统的实时数据,实现对全局状态的监控和优化,并提供决策支持。金融银行业的应用往往会产生大量数据在金融银行领域的日常运营过程中,往往会产生大量数据。这些数据时效性很强。流式计算最早的应用领域这一领域是大数据流式计算最典型的应用场景之一,也是最早的应用领域。流式计算的应用流式计算概述搜索引擎搜索页面往往包含广告。这些广告根据用户的查询偏好、浏览历史、地理位置等进行确定。社交网站需要实时分析用户的状态信息,及时提供最新的用户分享信息到相关的朋友。准确地推荐朋友,推荐主题,提升用户体验,并能及时发现和屏蔽各种欺骗行为。互联网领域的应用用户实时分享和提供数据随着互联网技术的发展,特别是

Web2.0时代的到来,用户可以实时分享和提供各类数据。半结构化和非结构化数据目前互联网中75%的数据来自个人,主要是以图片、音频、视频等形式存在。流式计算的应用流式计算概述智能交通通过传感器实时感知车辆、道路

的状态,并分析和预测一定范围、一段时间内的道路流量情况,以便有效地进行分流、调度和指挥。环境监控通过传感器和移动终端,对一个

地区的环境综合指标进行实时监

控、远程查看、智能联动、远程

控制,系统地解决综合环境问题。物联网领域的应用传感器产生大量数据在物联网环境中,各个传感器产生大量数据。这些数据通常包含时间、位置、环境和行为等内容,具有明显的颗粒性。所产生的数据量之密集、实时性

之强、价值密度之低是前所未有

的,需要进行实时、高效的计算。流式计算平台的发展流式计算概述“万能的”MapReduceMapReduce计算模型打开了分布式计算的大门,极大地降低了非实时分布式计算的门槛。一时间,人们拿着MapReduce这把“榔头”去敲各种各样的“钉子”。人们也试图用MapReduce计算模型来解决流式计算想要解决的问题。使用MapReduceMapReduce流式计算平台的发展流式计算概述数据需要分段输入数据需要分割为固定大小的片段。这带来了额外延时和附加开销。需要合适的分段大小小的分段会降低延时,但增加附加开销,并且分段之间的依赖管理更加复杂;反之,大的分段会增加延时。带来的三个缺点3.

框架复杂度大大增加为了支持流式处理,MapReduce需要被改造成Pipeline的模型。考虑效率,中间结果最好只保存在内存中。这使得原有的框架复杂度大大增加。流式计算流式计算概述流式计算平台的发展MapReduce慢慢地,人们意识到改良MapReduce并不适合流处理。流式计算平台的发展流式计算概述金融领域等传统行业比较知名的有StreamBase、Borealis。针对大数据流式计算的需求雅虎的S4推特的Storm领英的Samza目录流式计算概述Storm分布式流处理系统SamzaCloud

Dataflow1234Storm简介StormStorm是由Twitter开发并开源功能流处理:可用于处理消息和更新数据库持续计算:在数据流上进行持续查询,并以流的形式返回结果到客户端分布式的RPC:并行化一个类似实时查询的热点查询优点Storm每秒可以处理数以百万计的消息可以使用任意编程语言开发Storm的结构Storm目录流式计算概述Storm分布式流处理系统SamzaCloud

Dataflow1234Samza简介SamzaSamza是由LinkedIn开发并开源特点使用Apache

Kafka和ApacheHadoop

YARN工作原理执行层(YARN):进行任务处理流式消息层(Kafka):持久化和流转处理任务所产生的流式数据处理层(Samza

API):负责进程管理和任务监控、外部结构等特性与Storm的对比Samza比较项StormSamza运行环境只依赖ZooKeeperKafka、YARN、ZooKeeper灵活性更灵活延迟低较低,取决于Kafka的吞吐能力并行机制多线程每个Job一个进程,进程中仅有一个线程资源隔离依赖CGGroup实现,无法对CPU、内存进行资源隔离依赖YARN,可以对CPU、内存进行隔离,目前无法对磁盘、网络隔离语言支持实现语言为Clojure和Java,对非JVM语言支持良好实现语言为Scala和Java,只支持非

JVM语言成熟度比较成熟孵化中目录流式计算概述Storm分布式流处理系统SamzaCloud

Dataflow1234Cloud

Dataflow简介Cloud

Dataflow它是Google云计算主推的一种技术采用了Google内部的技术Flume和MillWhellFlume用于数据的高效并行化处理MillWhell则用于互联网级别的带有很好容错机制的流处理功能及特点可用于ETL、批量数据处理、流数据分析等可以自动地优化部署开发者代码所需要的资源简单易用,开发者能够更加聚焦于数据逻辑本身Cloud

Dataflow开发模型Cloud

Dataflow1.流水在CloudDataflow服务中,每个流水表示一个从开始到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论