基于tipdm数据挖掘建模平台实现餐饮企业综合分析_第1页
基于tipdm数据挖掘建模平台实现餐饮企业综合分析_第2页
基于tipdm数据挖掘建模平台实现餐饮企业综合分析_第3页
基于tipdm数据挖掘建模平台实现餐饮企业综合分析_第4页
基于tipdm数据挖掘建模平台实现餐饮企业综合分析_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于TipDM数据挖掘建模平台实现餐饮企业综合分析1平台简介目录背景2快速构建餐饮企业综合分析工程3小结4本案例将介绍使用一种工具——TipDM数据挖掘建模平台,通过该平台实现餐饮企业综合分析。相较于传统Python解析器,TipDM数据挖掘建模平台具有流程化、去编程化等特点,满足不懂编程的用户使用数据分析技术的需求。案例背景TipDM与Python1平台简介目录背景2快速构建餐饮企业综合分析工程3小结4TipDM数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发、基于Python引擎、用于数据分析的开源平台。平台提供数量丰富的数据分析组件,用户可在没有编程基础的情况下,通过拖曳的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,帮助用户快速建立数据分析工程,提升数据处理的效能。TipDM数据挖掘建模平台平台的界面平台的界面如下图所示。组件:将建模过程涉及的输入/输出、数据探索及预处理、建模、模型评估等算法分别进行封装,每一个封装好的算法模块称为组件。工程:为实现某一数据分析目标,将各组件通过流程化的方式进行连接,整个数据分析流程称为一个工程。模板:分享建好的数据分析工程,其他用户可以直接创建并运行,这样的工程称之为模板。概念平台算法基于Python引擎,用于数据分析。Python是目前最为流行的用于数据分析的语言之一,高度契合行业需求。平台已对所有用户实现开源,用户可在本地部署平台,或对平台进行二次开发,满足个人使用需求。用户可在没有Python编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程。特点提供公开可用的数据分析示例工程,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。提供十大类数十种算法组件,包括数据预处理、统计分析、分类、聚类、关联、推荐等常用数据分析算法,支持查看算法组件源代码(需本地化部署)。同时提供Python脚本与SQL脚本,快速粘贴代码即可运行。提供算法组件自定义功能(需本地化部署),用户可将个人本地编写的代码配置到平台中,成为算法组件。特点下面将对平台【首页】【数据源】【工程】和【系统组件】4个模块进行介绍,并对平台的本地化部署方式进行介绍。平台简介登录平台后,用户即可看到【首页】模块系统提供的示例工程(模板)。首页【模板】模块主要用于常用数据分析与建模案例的快速创建和展示。通过【模板】模块,用户可以创建一个无须导入数据及配置参数就能够快速运行的工程。同时,用户可以将自己搭建的数据分析工程生成为模板,显示在【首页】模块,供其他用户一键创建。首页【数据源】模块主要用于数据分析工程的数据导入与管理,根据情况用户可选择【CSV文件】或者【SQL数据库】。【CSV文件】支持从本地导入CSV类型的数据。数据源【SQL数据库】支持从DB2、SQLServer、MySQL、Oracle、PostgreSQL等关系型数据库导入数据。数据源数据上传成功后,用户可以使用数据分享功能,将搭建工程涉及到的数据分享给其他用户。数据源其他用户可在【共享数据源】选项卡内查看到分享给自己的数据,并使用该数据进行数据分析。数据源【工程】模块主要用于数据分析流程化的创建与管理,通过【工程】模块,用户可以创建空白工程,进行数据分析工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据分析的目的。工程【系统组件】模块主要用于数据分析常用算法组件的管理。组件包括输入/输出、脚本、数据预处理、统计分析、分类、回归、聚类、时序模型、模型评估和模型预测,共十大类。系统组件【输入/输出】类提供配置数据分析工程的输入和输出组件,包括输入源、输出源。【脚本】类提供一个代码编辑框,用户可以在代码编辑框中粘贴已经写好的程序代码,直接运行,无须再额外配置成组件,包括Python脚本、SQL脚本。【数据预处理】类提供对数据进行清洗的组件,包括特征构造、表堆叠、记录选择、表连接、新增序列、数据集划分、类型转换、缺失值处理、记录去重、异常值处理、数据标准化、数学类函数、排序、分组聚合、修改列名。系统组件【统计分析】类提供对数据整体情况进行统计的常用组件,包括数据探索、纯随机性检验、相关性分析、单样本T检验、正态性检验、双样本T检验、主成分分析、频数统计、全表统计、平稳性检验、因子分析、卡方检验。【分类】类提供常用的分类算法组件,包括CART分类树、ID3分类树、最近邻分类、朴素贝叶斯、支持向量机、逻辑回归、多层感知神经网络。【回归】类提供常用的回归算法组件,包括CART回归树、线性回归、支持向量回归、最近邻回归、LASSO回归。系统组件【聚类】类提供常用的聚类算法组件,包括层次聚类、DBSCAN密度聚类、K-Means聚类。【时间模型】类提供常用的时间序列算法组件,包括ARIMA、GM(1,1)、差分。【模型评估】类提供对通过分类算法或回归算法训练得到的模型进行评价的组件。【模型预测】类提供对通过分类算法或回归算法训练得到的模型进行预测的组系统组件通过开源TipDM数据挖掘建模平台官网(),进入Github或码云开源网站,同步平台程序代码到本地,按照说明文档进行配置部署。平台简介平台官网还提供了详细的帮助资料,包含【操作文档】【常见问题】【操作视频】选项卡,用户可以根据这些资料,轻松入门平台的使用。TipDM数据挖掘建模平台的本地化部署平台官网提供了数量丰富的不同行业的解决方案,主要介绍使用平台搭建数据分析工程的不同行业的案例,包含【电子商务】【智能设备】【金融保险】类等,用户可以根据步骤提示,动手搭建数据分析工程。TipDM数据挖掘建模平台的本地化部署1平台简介目录背景2快速构建餐饮企业综合分析工程3小结4在TipDM数据挖掘建模平台上配置餐饮企业综合分析案例的总体流程,主要包括以下4个步骤。导入餐饮企业综合分析的数据到TipDM数据挖掘建模平台。对数据进行日期提取、统计每日用餐人数与营业额和绘制用餐人数折线图。对数据进行记录选择操作。对数据构建RFM关键特征,构建K-Means模型对餐饮客户进行客户分群。总体流程总体流程图餐饮企业综合分析建模工程配置总流程最终流程图最终流程如图所示本章的数据是CSV文件,使用TipDM数据挖掘建模平台导入该数据,步骤如下。单击【数据源】模块,在【新建数据源】下拉项中选择【CSV文件】。获取数据单击选择文件,选择案例的数据,在【新建目标表名】框中填入“meal_order_info”,【预览设置】项选择【分页显示】,然后单击【下一步】按钮。获取数据在【预览数据】框中,观察每个字段的类型及精度,然后单击【下一步】按钮。将【use_start_time】字段和【lock_time】字段的类型选择为【字符】,单击【确定】按钮,即可上传。获取数据数据上传完成后,新建一个命名为【餐饮企业综合分析】的空白工程,配置一个【输入源】组件,步骤如下。在【工程】模块左下方的【组件】栏中,找到【系统组件】类下的【输入/输出】类。拖曳【输入/输出】类中的【输入源】组件至工程画布中。获取数据单击画布中的【输入源】组件,然后单击工程画布右侧【字段属性】栏中的【数据表】框,输入“meal_order_info”,在弹出的下拉框中选择【meal_order_info】。获取数据右键单击【输入源】组件,选择【查看数据】。由图可得,该数据共有945条记录。获取数据日期提取拖曳【数据预处理】类中的【日期提取】组件至工程画布中,并与【选择订单状态为1的数据】组件相连接。单击画布中的【日期提取】组件,在工程画布右侧【字段属性】栏中,单击【日期提取标签】项下的图标,选择“use_start_time”字段。探索性分析右键单击【日期提取】组件,选择【运行该节点】。运行完成后,右键单击【日期提取】组件,选择【查看数据】。探索性分析统计每日用餐人数与营业额拖曳【数据预处理】类中的【分组聚合】组件至工程画布中,并与【日期提取】组件相连接。单击画布中的【分组聚合】组件,在工程画布右侧【字段属性】栏中,单击【特征】项下的图标,勾选“number_consumers”,“accounts_payable”字段。单击【分组组件】项下的图标,勾选“day”字段。探索性分析单击工程画布右下方的【参数设置】栏,在【聚合方法】项中选择【sum】,【新列名】项中输入“用餐时间,人数,销量”。探索性分析右键单击【分组聚合】组件,选择【运行该节点】。运行完成后,右键单击【缺失值处理】组件,选择【查看数据】。数据已对每日用餐人数与营业额进行统计,其中字段“人数”为每日用餐人数,字段“销量”为每日营业额。右键单击【分组聚合】组件,选择【重命名】项输入“就餐日期分组聚合”进行组件名称修改。探索性分析绘制用餐人数折线图拖曳【绘图】类中的【折线图】组件至工程画布中,并与【就餐日期分组聚合】组件相连接。单击【绘制数据】项下的图标,勾选“人数字段”字段,单击【绘制标签】项下的图标,勾选“用餐时间”字段。探索性分析运行【折线图】组件。运行完成后,右键单击【折线图】组件,选择【查看报告】。探索性分析运行【折线图】组件。运行完成后,右键单击【折线图】组件,选择【查看报告】。右键单击【折线图】组件,选择【重命名】项输入“每日就餐人数折线图”进行组件名称修改。探索性分析订单表中订单状态为1的记录为完成订单的记录,所以本章数据预处理为选取订单状态为1的数据,步骤如下。拖曳【数据预处理】类中的【记录选择】组件至工程画布中,并与【输入源】组件相连接。单击【特征】项下的图标,勾选全部字段。数据预处理单击工程画布右下方的【参数设置】栏,然后单击【条件】项下方的

图标,添加1个筛选条件。单击【条件】项下方的

图标。在【条件】项第2列中,筛选条件的字段选择【order_status】;在【条件】项第3列中,筛选条件选择【=】;在【条件】项第4列中,筛选条件填入【1】。数据预处理运行【记录选择】组件。右键单击【记录选择】组件,选择【查看数据】。右键单击【记录选择】组件,选择【重命名】项输入“选择订单状态为1的数据”进行组件名称修改。数据预处理本章利用RFM模型,构建餐饮企业客户价值分析的关键特征,步骤如下。拖曳【数据预处理】类中的【表连接】组件至工程画布中,并分别于与【表连接】组件、【构造R特征】组件相连接。单击【左表特征】项下的图标,勾选“emp_id”,“f”,“m”字段。单击【右表特征】项下的图标,勾选“emp_id”,“r”字段。分别单击【左表主键】、【右主键】项下的图标,选择“emp_id”字段。构建模型构建关键特征单击工程画布右下方的【参数设置】栏,【连接方法】选择【内连接】。构建模型运行【表连接】组件,运行完成后,右键单击【表连接】组件,选择【查看数据】查看组件数据。由图所示,字段“r”“f”“m”为餐饮企业客户价值分析的关键特征。构建模型特征构造完成后,使用K-Means聚类算法对餐饮客户数据进行客户分群,聚成3类,步骤如下。拖曳【聚类】类中的【K-Means】组件至工程画布中,并与【数据标准化】组件相连接。单击【特征】项下的

图标,勾选全部字段。构建模型构建K-Means模型单击工程画布右下方的【基础参数】栏,在【聚类数】项中填入【3】,【最大迭代次数】项中填入【100】。构建模型运行【K-Means】组件。右键单击【K-Means】组件,选择【查看数据】。构建模型运行【K-Means】组件。右键单击【K-Means】组件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论