内容成果笔记spark day_第1页
内容成果笔记spark day_第2页
内容成果笔记spark day_第3页
内容成果笔记spark day_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SparkStreaming+Kafkazookeeperspark.streaming.receiver.writeAheadLog.enablespark.streaming.receiver.writeAheadLog.enable默认falsespark.streaming.blockIntervalspark.streaming.blockInterval默认spark.streaming.backpressure.enabledspark.streaming.backpressure.enabled默认spark.streaming.receiver.maxRatespark.streaming.receiver.maxRate默认没有设置①flume将数据直接爬取放入HDFS中。②每天每时每刻在产生数据,数据直接放在HBase或者HDFS中。或者日志数据直接使用flume导入分布式文件中。假设数据放在了HDFS集群中之后,一般下一步就要数据,可以将数据通过Hive,当然这里Hive一般使用外表,这样做的目的是可以将相同的数据只在HDFS中存入一份,避免过多的重复数据。完HiveHDFS到后的数据后一般会使用MR+Mahout或者使用Spark+Mllib来对数据进行分析处理,也可以对后的数据使用SparkSQL来进行处理分析。之后,将分析完成的数据放入数据库中,如Redis,Mysql,Oracle中,供前端查询展示。flumesinkkafka类放入不同的topic中。然后对打入kafka中的数据进行流式处理,一般可以使用storm或者SparkStreaming对数据进行,分析处理,然后将结果放到数据库中,如Redis,Mysql,Oracle中,以供前端页面SparkSpark最次也是化执行Spark任务SparkSparksubmitMysql,task任务失败后,下次retry时方便执行。submit后可以使用java调用liunx系统,通过taskId得到系统中的的内容:sparkmasterurlclassjarPathtomcattomcatjava代码中如何执行liunxProcessproc=Runtime.getRuntime().exec(“shsh如何传参test.sh od755monitor_flow_action表,车流量的数 日期天monitor_id卡camera_id头编号car车牌action_time某个头拍摄时间ssp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论