版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于TipDM大数据挖掘建模平台实现广告流量检测违规识别知识准备教学目标知识目标了解TipDM大数据挖掘建模平台的相关概念和特点。技能目标能够使用TipDM大数据挖掘建模平台完成广告流量检测违规识别项目总体流程的设计、配置。能够使用TipDM大数据挖掘建模平台完成项目流程的实现。教学目标素质目标具备快速学习能力,能够快速上手使用TipDM大数据挖掘建模平台。具有总结概括信息能力,能够根据项目4~7的项目流程,配置可用于TipDM大数据挖掘建模平台的总体流程。具有学以致用的实践能力,能够使用TipDM大数据挖掘建模平台的组件实现具体问题。思维导图项目背景在本书中介绍了使用Spark来实现广告流量检查违规识别项目,相较于传统Spark解析器,TipDM大数据挖掘建模平台具有流程化、去编程化等特点,满足不懂编程的用户使用数据分析技术的需求。本项目将介绍如何使用TipDM大数据挖掘建模平台,然后通过该平台实现广告流量检查违规识别。项目目标根据项目4~7的内容,设计广告流量检测违规识别项目的总体流程,通过TipDM大数据挖掘建模平台实现广告流量检测的违规识别。目标分析使用TipDM大数据挖掘建模平台实现广告流量检测数据的获取。使用TipDM大数据挖掘建模平台实现广告流量检测数据的处理。使用TipDM大数据挖掘建模平台实现模型的构建与评估。平台简介TipDM大数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发,面向大数据挖掘项目的工具。平台使用Java语言开发,采用B/S结构(Browser/Server,浏览器/服务器模式),用户不需要下载客户端,可通过浏览器进行访问。平台简介平台具有支持多种语言、操作简单、无须编程语言基础等特点,以流程化的方式将数据输入/输出、统计分析、数据预处理、挖掘与建模等环节进行连接,从而实现大数据挖掘的目的。平台界面如下图。平台简介读者可通过访问平台查看具体的界面情况。微信搜索公众号“泰迪学社”或“TipDataMining”,关注公众号。关注公众号后,回复“建模平台”,获取平台访问方式。平台简介在介绍如何使用平台实现项目分析之前,需要引入平台的几个概念,其基本介绍如下表。概念基本介绍组件将建模过程中涉及的输入/输出、数据探索、数据预处理、绘图、建模等操作分别进行封装,每一个封装好的模块称之为组件。组件分为系统组件和个人组件。(1)系统组件可供所有用户使用(2)个人组件由个人用户编辑,仅供个人账号使用工程为实现某一数据挖掘目标,将各组件通过流程化的方式进行连接,整个数据流程称为一个工程参数每个组件都有提供给用户进行设置的内容,这部分内容称为参数共享库用户可以将配置好的工程、数据集,分别公开到模型库、数据集库中作为模板,分享给其他用户,其他用户可以使用共享库中的模板,创建一个无须配置组件便可运行的工程平台简介TipDM大数据挖掘建模平台主要有以下几个特点。平台组件基于Python、R以及Hadoop/Spark分布式引擎,用于数据分析。Python、R以及Hadoop/Spark是常见的用于数据分析的语言或工具,高度契合行业需求。用户可在没有Python、R或Hadoop/Spark编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程。提供公开可用的数据分析示例实训,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。平台包含Python、Spark、R三种工具的组件包,用户可以根据实际需求灵活选择不同的语言进行数据挖掘建模。平台简介下面将对平台的这5个模块进行介绍:共享库数据连接数据集我的工程个人组件共享库登录平台后,用户即可看到“共享库”模块系统提供的示例工程(模板)。“共享库”模块主要用于标准大数据挖掘建模案例的快速创建和展示。通过“共享库”模块,用户可以创建一个无须导入数据及配置参数就能够快速运行的工程。用户可以将自己搭建的工程公开到“共享库”模块,作为工程模板,供其他用户一键创建。同时,每一个模板的创建者都具有模板的所有权,能够对模板进行管理。数据连接“数据连接”模块支持从DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用关系数据库导入数据,导入数据时的“新建连接”对话框如下图。数据集“数据集”模块主要用于数据挖掘建模工程中数据的导入与管理。支持从本地导入任意类型的数据。导入数据时的“新增数据集”对话框如下图。我的工程“我的工程”模块主要用于数据挖掘建模流程化的创建与管理,工程示例流程如下图。通过单击“工程”栏下的(“新建工程”)按钮,用户可以创建空白工程并通过“组件”栏下的组件进行工程配置,将数据输入/输出、预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据挖掘与分析的目的。对于完成度优秀的工程,可以将其公开到“共享库”中,作为模板让其他使用者学习和借鉴。我的工程在“组件”栏下,平台提供了输入/输出组件、Python组件、R语言组件、Spark组件等算法系统组件,如下图,用户可直接使用。输入/输出组件提供工程输出与输出组件,包括输入源、输出源、输出到数据库等。我的工程1.Python组件Python组件包含Python脚本、预处理、统计分析、时间序列、分类、模型评估、模型预测、回归、聚类、关联规则、文本分析、深度学习和绘图,共13大类。Python组件的类别介绍如下表。类别介绍Python脚本“Python脚本”类提供一个Python代码编辑框。用户可以在代码编辑框中粘贴已经写好的程序代码并直接运行,无须再额外配置成算法预处理“预处理”类提供对数据进行预处理的组件,包括数据标准化、缺失值处理、表堆叠、数据筛选、行列转置、修改列名、衍生变量、数据拆分、主键合并、新增序列、数据排序、记录去重和分组聚合等统计分析“统计分析”类提供对数据整体情况进行统计的常用组件,包括因子分析、全表统计、正态性检验、相关性分析、卡方检验、主成分分析和频数统计等我的工程类别介绍时间序列“时间序列”类提供常用的时间序列组件,包括ARCH、AR模型、MA模型、灰色预测、模型定阶和ARIMA等分类“分类”类提供常用的分类组件,包括朴素贝叶斯、支持向量机、CART分类树、逻辑回归、神经网络和K最近邻等模型评估“模型评估”类提供了用于模型评价的组件,包括模型评估模型预测“模型预测”类提供了用于模型预测的组件,包括模型预测回归“回归”类提供常用的回归组件,包括CART回归树、线性回归、支持向量回归和K最近邻回归等我的工程类别介绍聚类“聚类”类提供常用的聚类组件,包括层次聚类、DBSCAN密度聚类和K-Means等关联规则“关联规则”类提供常用的关联规则组件,包括Apriori和FP-Growth等文本分析“文本分析”类提供对文本数据进行清洗、特征提取与分析的常用组件,包括情感分析、文本过滤、TF-IDF、Word2Vec等深度学习“深度学习”类提供常用的深度学习组件,包括循环神经网络、ALS(AlternatingLeastSquares,交替最小二乘)和卷积神经网络绘图“绘图”类提供常用的画图组件,可以绘制柱形图、折线图、散点图、饼图和词云图等我的工程2.R语言组件R语言组件包含R语言脚本、预处理、统计分析、分类、时间序列、聚类、回归和关联分析,共8大类。R语言组件的类别介绍如下表。类别介绍R语言脚本“R语言脚本”类提供一个R语言代码编辑框。用户可以在代码编辑框中粘贴已经写好的代码并直接运行,无须额外配置组件预处理“预处理”类提供对数据进行预处理的组件,包括缺失值处理、异常值处理、表连接、表合并、数据标准化、记录去重、数据离散化、排序、数据拆分、频数统计、新增序列、字符串拆分、字符串拼接、修改列名等统计分析“统计分析”类提供对数据整体情况进行统计的常用组件,包括卡方检验、因子分析、主成分分析、相关性分析、正态性检验和全表统计等我的工程类别介绍分类“分类”类提供常用的分类组件,包括朴素贝叶斯、CART分类树、C4.5分类树、BP神经网络、KNN、SVM和逻辑回归等时间序列“时间序列”类提供常用的时间序列组件,包括ARIMA和指数平滑等聚类“聚类”类提供常用的聚类组件,包括K-Means、DBSCAN密度聚类和系统聚类等回归“回归”类提供常用的回归组件,包括CART回归树、C4.5回归树、线性回归、岭回归和KNN回归等关联分析“关联分析”类提供常用的关联规则组件,包括Apriori等我的工程3.Spark组件Spark组件包含预处理、统计分析、分类、聚类、回归、降维、协同过滤和频繁模式挖掘,共8大类。Spark组件的类别介绍如下表。类别介绍预处理“预处理”类提供对数据进行预处理的组件,包括数据去重、数据过滤、数据映射、数据反映射、数据拆分、数据排序、缺失值处理、数据标准化、衍生变量、表连接、表堆叠和数据离散化等统计分析“统计分析”类提供对数据整体情况进行统计的常用组件,包括行列统计、全表统计、相关性分析和重复值缺失值探索分类“分类”类提供常用的分类组件,包括逻辑回归、决策树、梯度提升树、朴素贝叶斯、随机森林、线性支持向量机和多层感知神经网络等我的工程类别介绍聚类“聚类”类提供常用的聚类组件,包括K-Means、二分K-Means聚类和混合高斯模型等回归“回归”类提供常用的回归组件,包括线性回归、广义线性回归、决策树回归、梯度提升树回归、随机森林回归和保序回归等降维“降维”类提供常用的数据降维组件,包括PCA降维等协同过滤“协同过滤”类提供常用的智能推荐组件,包括ALS算法、ALS推荐和ALS模型预测频繁模式挖掘“频繁模式挖掘”类提供常用的频繁项集挖掘组件,包括FP-Growth等个人组件“个人组件”模块主要是为了满足用户的个性化需求。用户在使用过程中,可根据自己的需求定制组件,方便使用。目前个人组件支持通过Python和R语言进行个人组件的定制,定制个人组件如下图。基于TipDM大数据挖掘建模平台实现广告流量检测违规识别项目实施快速构建广告流量检测违规识别工程在TipDM大数据挖掘建模平台上配置广告流量检测违规识别项目,主要包括以下3个步骤。配置数据源,导入广告流量检测数据到TipDM大数据挖掘建模平台。对数据进行数据处理。基于处理好的数据,利用随机森林算法建立分类模型,预测广告流量是否违规,实现模型构建与评估。在平台上配置得到的广告流量检测违规识别的最终流程总流程如右图。数据源配置使用TipDM大数据挖掘建模平台进行数据源配置的基本步骤如下图。数据源配置1.导入数据本章的数据为广告流量检测数据,该数据文件为CSV文件,使用TipDM大数据挖掘建模平台导入数据,步骤如下。新增数据集。单击“数据集”模块,在“数据集”中选择“新增”,如下图。数据源配置设置新增数据集参数。任意选择一张封面图片,在“名称”中输入“广告流量检测数据”,在“有效期(天)”中选择“永久”,单击“点击上传”选择“case_data_new.csv”文件,如右图,等到数据载入成功后,单击“确定”按钮,即可上传数据。数据源配置2.创建空白工程数据上传完成后,新建一个命名为“广告流量检测违规识别”的空白工程新建空白工程。单击“我的工程”模块,单击按钮,新建一个空白工程。在新建工程页面填写相关的信息,包括名称和描述,如下图。数据源配置3.配置输入源在“广告流量检测违规识别”工程中配置一个“输入源”组件,操作步骤如下。拖曳“输入源”组件。在“我的工程”模块的“组件”栏中,搜索“输入源”,拖曳“输入源”组件至画布中。数据源配置配置“输入源”组件。单击画布中的“输入源”组件,然后单击画布右侧“参数配置”栏中的“数据集”下的框,输入“广告流量检测数据”,在弹出的下拉框中选择“广告流量检测数据”,在“文件列表”中勾选“case_data_new.csv”,如下图。数据源配置加载数据。右键单击“输入源”组件,选择“运行该节点”。运行完成后,可看到“输入源”组件变为绿色,如下图。数据源配置查看日志。右键单击运行完成后的“输入源”组件,选择“查看日志”,可看到“数据载入成功”的信息,如下图,说明已成功将广告流量检测数据加载到平台上。数据处理本项目数据处理主要是对广告流量检测数据进行缺失值处理、特征构建、数据合并、数据标准化等操作。数据处理1.缺失值处理基于项目4的缺失值统计结果,需将缺失率过高的mac、creativeid、mobile_os、mobile_type、app_key_md5、app_name_md5、os_type等属性进行删除,实现缺失值处理。对加载后的广告流量检测数据进行缺失值处理,步骤如下。拖曳一个“Spark脚本”组件至工程画布中,连接“输入源”组件和“Spark脚本”组件。单击右键“Spark脚本”组件,在跳出来的快捷菜单中选择“重命名”并输入“缺失值处理”,再单击“确定”按钮。数据处理配置“缺失值处理”组件。单击画布中的“缺失值处理”组件,删除缺失率过高的7个属性代码,在【代码编辑】中填入本书配套资料中“删除缺失率过高的属性.scala”文件中的内容,如下图(注意:由于平台限制了各框架的大小,所以可能会导致一些输入内容显示不全);“运行参数”保持默认选择。数据处理预览数据。右键单击“缺失值处理”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看日志”,其结果如下图。由“缺失值处理”组件的日志可以看到,处理前的属性个数22个,处理后的属性个数为15个,已成功删除7个属性。数据处理2.特征构建基于处理好缺失值的数据,进行构建N、N1、N2、N3特征,步骤如下。拖曳一个“Spark脚本”组件至工程画布中,连接“缺失值处理”组件和“Spark脚本”组件。单击右键“Spark脚本”组件,选择“重命名”并输入“特征构建”。数据处理配置“特征构建”组件。单击画布中的“特征构建”组件,构建N、N1、N2、N3特征的代码,在【代码编辑】中填入本书配套资料中“特征构建.scala”文件中的内容,配置如下图;数据处理“运行参数”中“内存大小”填入“32”,“核心数”填入“32”,如下图。数据处理预览数据。右键单击“特征构建”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看数据”,其结果如下图。由“特征构建”组件的日志可以看到,处理后的数据字段存在N、N1、N2、N3特征。数据处理3.数据合并经过特征构建后的数据只存在5个属性,不包含label属性,label属性存在于完整数据集中,因此需要将4个特征属性和label属性进行数据合并,步骤如下。拖曳一个“表连接”组件至工程画布中,连接“特征构建”组件、“缺失值处理”组件和“表连接”组件。数据处理配置“表连接”组件。单击画布中的“表连接”组件,在“字段设置”中,单击“左表特征”旁的按钮后,勾选所有属性,单击“右表特征”旁的按钮后,勾选“rank”“label”属性,“选择连接函数”选择“根据相同字段连接”如右图。数据处理在“根据相同字段连接参数设置”中,单击“连接主键”旁的按钮后,勾选“rank”属性,“选择连接方式”选择“inner”,如下图;其余保持默认选择。数据处理预览数据。右键单击“表连接”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看数据”,其结果如下图。数据处理4.数据标准化如果特征之间的值存在很大的差异,那么可能会导致某一特征对模型的预测结果有着更大且不合理的影响,因此需要对特征数据进行标准化处理。由于特征数据之间的差值较大,因此将使用最小——最大值归一化方法进行处理,步骤如下。拖曳一个“数据标准化”组件至工程画布中,连接“表连接”算法和“数据标准化”算法。数据处理配置“数据标准化”组件。单击画布中的“数据标准化”组件,在“字段设置”中,单击“特征列”旁的按钮后,勾选“rank”以外的所有属性,如下图;数据处理在“字段设置”中,在“标准化方式”中选择“最大-最小规范化”,如下图;“运行参数”保持默认设置。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新职业服务协议模板(2024年)
- DB11∕T 1705-2019 农业机械作业规范 青饲料收获机
- 2024年企业新员工劳动协议细则
- 2024电子商务平台服务居间协议
- 2024美发沙龙个人聘用协议样本
- 2024挖掘机购销协议范本
- 2024智能家居设备安装服务协议
- 2024年度纪录片后期制作服务协议
- 夫妻双方房产分割自愿离婚协议格式
- 2024物业管理室内装修协议
- 大唐之美通用模板
- ABS装置湿法挤出机系统存在的问题研究及对策的中期报告
- 《肉牛营养需要》教学课件
- 网易云音乐用户满意度调查问卷
- 雪佛兰爱唯欧说明书
- 经营分析报告案例-麦肯锡风格
- 2023春国开会计实务专题形考任务1-4题库及答案汇总
- 可疑值的取舍-Q检验法
- 生物信息学(上海海洋大学)知到章节答案智慧树2023年
- 核磁共振T临床应用
- 文件与文件夹测试题(含参考答案)
评论
0/150
提交评论