Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估-项目实施V1.0_第1页
Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估-项目实施V1.0_第2页
Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估-项目实施V1.0_第3页
Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估-项目实施V1.0_第4页
Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估-项目实施V1.0_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SparkMLlib实现广告流量检测违规识别模型构建与评估项目实施数据归一化构建建模样本使用spark.ml.classification模块构建分类模型使用评估器实现模型评估数据归一化由特征数据之间的差值较大,因此将使用最小——最大值归一化进行处理,调用SparkML的MinMaxScaler实现,标准化建模数据如下表。scaledFeatures列为归一化后的数据,将应用于下一步模型构建中。labelfeaturesscaledFeatures0.0[1.0,3.0,10.0,10.0][0.0,0.00211864406779661,0.0011539941018079243,0.0017956903431763768]1.0[1.0,52.0,229.0,207.0][0.0,0.05402542372881356,0.029234517245800746,0.04110135674381485]1.0[1.0,11.0,526.0,503.0][0.0,0.01059322033898305,0.06731632260546225,0.10015961691939346]1.0[97.0,1.0,1392.0,106.0][0.18147448015122875,0.0,0.17835619951275805,0.020949720670391064]1.0[1.0,29.0,1204.0,1166.0][0.0,0.029661016949152543,0.15425054494165918,0.23244213886671988]数据归一化构建建模样本使用spark.ml.classification模块构建分类模型使用评估器实现模型评估构建建模样本进行数据归一化后,对数据集进行划分,使用randomSplite()方法将数据按7:3比例进行划分,并分别保存为trainingData模型构建数据和testData模型加载数据,trainingData用于后续的模型构建与评估,testData则用于模拟真实的模型应用的阶段,运行结果如下图。数据归一化构建建模样本使用spark.ml.classification模块构建分类模型使用评估器实现模型评估使用spark.ml.classification模块构建分类模型通过观察label标签可以看出,广告流量违规识别为经典的二分类问题,即该广告访问记录是否为违规访问记录。虚假流量识别可通过构建分类预测模型来实现,分别采用逻辑回归和随机森林构建虚假流量识别模型。使用逻辑回归算法实现广告流量检测违规识别逻辑回归是二分类问题上的一个经典模型,而且逻辑回归原理简单,对于二分类的预测准确率也较高。使用广告流量检测数据,构建逻辑回归模型与预测类别。模型对测试数据集中的样本进行了预测如下图,其中label列为实际类别,prediction为预测类别。下图中的5条流量检测数据的预测有正确的,也有错误的,预测的结果的效果还需要结合所有预测的结果进行进一步的评价。使用随机森林算法实现广告流量检测违规识别使用SparkML中提供的随机森林算法包RandomForestClassifier,构建随机森林模型。模型构建完成后,对测试集中的数据进行了预测,预测结果如下图,label为实际类别,prediction为预测类别。数据归一化构建建模样本使用spark.ml.classification模块构建分类模型使用评估器实现模型评估使用评估器实现模型评估在广告流量检测数据集上已经训练得到逻辑回归模型和随机森林模型之后,需要评估该模型的效果,即所获得的模型对于数据的拟合程度,因此需要使用评估器实现模型评估。模型评估对任务三训练得到的逻辑回归算法和随机森林构建分类模型进行模型评估,即对测试数据进行识别,计算其分类精确率、召回率和F1值。逻辑回归模型评价结果如下图。模型评估随机森林评价结果如下图。模型评估结果对比综合逻辑回归算法模型与随机森林算法模型的评价结果,如下表。从下表可以看出,针对流量检测数据的预测,随机森林模型的分类效果与逻辑回归模型的分类效果相差不大,但随机森林模型的预测效果略优于逻辑回归,这里选择效果略优的随机森林作为最终的分类模型。后期可对模型参数进行调优,进一步优化模型的效果。模型准确度F值精确度召回率逻辑回归0.870.870.870.87随机森林0.900.900.900.90小结本项目首先介绍了SparkMLlib算法库,并介绍了SparkMLlib中的算法与算法包,详细举例介绍了MLlib的数据类型、特征提取,回归算法以及分类算法。最后介绍了SparkMLlib的评估器以及对模型的评估。基于知识点介绍,对广告流量检测数据进行数据标准化后,划分训练集和测试集通过逻辑回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论