Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别-项目实施V1.0_第1页
Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别-项目实施V1.0_第2页
Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别-项目实施V1.0_第3页
Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别-项目实施V1.0_第4页
Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别-项目实施V1.0_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目7

基于Spark开发环境实现广告流量检测违规识别项目实施开发环境下实现流量数据违规识别模型应用开发环境下实现流量数据违规识别在项目4~6中,分步实现了广告流量数据的检测违规识别,代码分散,为便于他人使用,通过IDEA工具进行代码封装。集群连接参数设置由于流量数据保存在Hive,要使用Scala工程访问操作Hive表数据,则需要准备好如下配置。切换至Hadoop安装目录的/sbin目录,执行命令“./start-all.sh”启动Hadoop集群,如图所示。集群连接参数设置启动Hive的元数据服务。新建一个名为SparkSQL的Scala工程,创建好后,右键单击SparkSQL,依次选择“New”→“Directory”,创建名为“resources”的文件夹,将Hive安装目录的/conf目录将hive-site.xml复制到SparkSQL工程下的resources文件夹中,并参考本项目第(三)小节,添加Spark开发依赖,SparkSQL工程结构界面如图所示。封装代码在SparkSQL工程里,右键单击SparkSQL工程下的src文件夹,依次选择“New”→“Package”选项,新建一个包,包名为“com.tipdm.demo”,在com.tipdm.demo包里编写Spark程序实现以下功能。连接到Hive数据库,并读取流量检测数据。对读取的数据进行清洗操作,包括数据预处理、缺失值处理等。使用随机森林算法对清洗后的数据进行建模和训练。封装代码封装代码的实现步骤如下。右键单击com.tipdm.demo包,依次选择“New”→“ScalaClass”选项,在包下新建一个Scala类,并指定类型为Object,新建Data_Preprocessing类,实现数据清洗步骤。右键单击com.tipdm.scalaDemo包,依次选择“New”→“ScalaClass”选项,在包下新建一个Scala类,并指定类型为Object,新建Building_Features类,实现特征构建步骤。右键单击com.tipdm.scalaDemo包,依次选择“New”→“ScalaClass”选项,在包下新建一个Scala类,并指定类型为Object,新建Building_Model类,实现搭建模型步骤。运行Spark程序将Spark程序提交到spark-submit中运行,其步骤如下。在IntelliJIDEA中打包工程生成的SparkSQL.jar包输出。将SparkSQL.jar包上传至Linux的/opt目录下,进入Spark安装目录的/bin目录下,使用spark-submit提交Spark程序至集群中运行,运行结果如图所示。运行Spark程序需要注意的是,由于随机森林是一种基于集成学习的算法,在构建每个决策树时会进行随机特征选择和随机样本选择。因此,每次构建不同的决策树,最终的模型结构和性能可能会有所不同,模型评估的准确度/率会存在一些细微差别。开发环境下实现流量数据违规识别模型应用模型应用在应用分类器进行虚假流量识别时,首先需要对得到的流量监测数据进行模型数据处理,得到可以输入分类器的模型数据,再加载分类器对这些数据进行预测,将预测结果返回即可。右键单击src,依次选择“New”→“ScalaClass”选项,在包下新建一个Scala类,并指定类型为Object,新建Application类,通过加载存储好的随机森林分类模型,进行虚假流量预测。模型应用将程序打包上传至/opt目录下,执行“./spark-submit--classApplication/opt/SparkSQL.jar”命令运行程序,运行结果如图所示。真实场景中后期训练的数据没有label标签的,但是由于在模拟情况下,所使用的数据依旧包含了标签列,因此可以对新数据的预测结果进行准确率计算,通过图所示的计算的结果可以了解到,保存的模型再次加载后并不会损失模型的效果。项目总结本项目首先介绍了如何搭建Java开发环境以及Spark开发环境,通过开发环境搭建,实现Spark程序在集成开发环境下运行。然后对广告流量检测数据的数据预处理、特征构建以及模型搭建代码进行封装。最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论