




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章供应链大数据分析基本方法本章内容3.1数据预处理方法3.2数据挖掘方法3.3数据可视化方法本章小结本章练习供应链大数据分析方法,是指一种供应链领域下在不使用传统随机理论进行数据分析的情况下对供应链数据进行集成分析和处理的方法,主要是在数据处理方面面临挑战。由于实际的生产和寿命,会生成并存储大量数据,这些数据可以表征该过程。你会看到使用科学合理的数据处理方法时,会挖掘它们的唯一值并将其用于优化。制定控制和决策方案从而加深数据的价值。大数据由于其样本量大,准确性高和出色的科学质量而受到人们的欢迎。同时,大数据处理技术具有高速,多样化,高价值和可靠性。
3.1.1数据预处理背景在数据采集的过程中会出现一些问题,例如测量采集设备的精度不足,数据传输过程中的环境干扰,数据中的环境噪声以及对手动输入数据的篡改,会形成不需要的或者错误的数据。这些原始数据存在以下问题集:(1)混乱数据仅存储在数据集中,缺乏统一的定量和转换标准,因此无法进行数据的定量视觉分析。(2)重复数据具有多个相同的物理描述和特征,尤其是在分析数据的方向上存在重复,这构成了数据重复和冗余数据的累积。这对样品的分析是有害的。例如,如果输入数据,则多次输入同一实体将导致重复数据。3.1.1数据预处理背景(3)模糊实验模型或实际系统设计必定会存在一些漏洞和缺陷,从而使其物理特性不清楚或混乱。(4)丢失发送或记录数据时发生错误,并且数据丢失。由于数据集的复杂性,数据的准确性和有效性极大地影响了挖掘学习的准确性和有效性。因此,对数据进行预处理成为一项重要的预分析任务。有很多预处理数据的方法,包括清除数据,选择数据和转换数据。3.1.1数据预处理背景具体处理技术主要包括以下几点:1)数据结构及数据字典、词条库的模块化。2)制定多标准数据采集接口。3)重点构建数据智能化过滤机制。4)预加工统计规律的有效基础数据。5)质量管理与控制处理。6)数据安全生产控制。7)分区节拍协同。8)调整数据加工条件参数。3.1.2数据预处理目的数据预处理方法可以大致分为四类:数据清理、数据集成、数据变换和数据规约3.1.3数据预处理流程数据清洗缺失值处理离群和噪声值处理异常范围及类型值处理数据集成主要是增大样本数据量,其中较为典型的方式为数据拼接。数据拼接在数据库操作中较为常见,它将多个数据集合为一个数据集。数据拼接依赖的是不同数据集间有相同的属性(如关键字或其他的特征)(不同类型数据库下拼接的原则可能不同,如关系型数据库、半关系型数据库和非关系型数据库下)。3.1.3数据预处理流程数据集成3.1.3数据预处理流程数据变换离散化二元化规范化特征转化与创建函数变换数据转换的目的是将数据转换为特定挖掘所需的格式。通常需要将其与实际数据挖掘算法结合起来以执行特定的数据转换。3.2.1聚类分析方法聚类概述聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。也就是说,聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小。其中,对聚类的特点,可以用以下指标予以描述:聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示聚类中心是一个簇中所有样本点的均值(质心)簇大小表示簇中所含样本的数量簇密度表示簇中样本点的紧密程度簇描述是簇中样本的业务特征聚类的过程主要包括以下几步:数据准备:包括特征标准化和降维;特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中;特征提取:通过对所选择的特征进行转换形成新的突出特征;聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数,如马氏距离或者欧氏距离)进行接近程度的度量,而后执行聚类或分组;聚类结果评估:是指对聚类结果进行评估,评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。3.2.1聚类分析方法聚类分析的要求算法名称算法类型可伸缩性适合的数据类型高维性异常数据的抗干扰性聚类形状算法效率ROCK层次聚类很高混合型很高很高任意形状一般BIRCH层次聚类较高数值型较低较低球形很高CURE层次聚类较高数值型一般很高任意形状较高CLARANS划分聚类较低数值型较低较高球形较低DENCLUE密度聚类较低数值型较高一般任意形状较高DBSCAN密度聚类一般数值型较低较高任意形状一般WaveCluster网格聚类很高数值型很高较高任意形状很高OptiGrid网格聚类一般数值型较高一般任意形状一般CLIQUE网格聚类较高数值型较高较高任意形状较低不同的聚类算法有不同的应用背景,有的适合于大数据集,可以发现任意形状的聚簇;有的算法思想简单,适用于小数据集。3.2.1聚类分析方法聚类分析算法分类聚类方法的分类较多,但一般会根据聚类的效果提出分类标准。因此,聚类方法一般分为以下五类:基于划分的聚类方法,如k‐均值算法、k‐medoids算法、k‐prototype算法等;基于层次的聚类方法;基于密度的聚类方法,如DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的聚类方法;基于模型的聚类方法,如模糊聚类、Kohonen神经网络聚类等。3.2.2关联规则分析法关联规则的定义和属性可信度支持度期望可信度作用度在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。3.2.2关联规则分析法关联规则的挖掘在关联规则的四个属性中,支持度和可信度能够比较直接形容关联规则的性质。从关联规则定义可以看出,任意给出事务中的两个物品集,它们之间都存在关联规则,只不过属性值有所不同。如果不考虑关联规则的支持度和可信度,那么在事务数据库中可以发现无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。因此,为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度,前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则(StrongRules)。发现关联规则要经过以下三个步骤:1)连接数据,作数据准备;2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;3)显示、理解、评估关联规则。3.2.2关联规则分析法关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。关联规则的分类(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则(3)基于规则中涉及的数据的维数,关联规则可以分为单维的和多维的3.2.2关联规则分析法关联规则挖掘的相关算法Apriori算法:使用候选项集找频繁项集基于划分的算法FP-树频集算法3.2.3决策树分析方法决策树模型分类决策树模型是一种对实例进行分类的树形结构,其由结点(node)和有向边组成,而结点也分成内部结点和叶结点两种,内部结点表示的是一个特征和一个属性,叶结点表示具体的一个分类。3.2.3决策树分析方法决策树学习本质构建决策树修建决策树生成原则决策树分类3.2.3决策树分析方法集卡港区内作业状态集装箱码头社会集卡作业关系示意图3.2.3决策树分析方法集卡港区内作业状态社会集卡作业状态分类决策树3.2.3决策树分析方法集卡港区内作业状态数据提前一小时的社会集卡作业状态分类决策树3.2.4回归分析方法回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。目前的回归算法中,只要有以下几种算法:线性回归(LinearRegression)普通最小二乘回归(OrdinaryLeastSquaresRegression,OLSR)逻辑回归(LogisticRegression)逐步回归(StepwiseRegression)岭回归(RidgeRegression)LASSO回归(LeastAbsoluteShrinkageandSelectionOperator)ElasticNet回归3.2.4回归分析方法面对如此多的回归模型,最重要的是根据自变量因变量的类型、数据的维数和其他数据的重要特征去选择最合适的方法。以下是我们选择正确回归模型时要主要考虑的因素:1)数据探索是建立预测模型不可或缺的部分。它应该是在选择正确模型之前要做的。2)为了比较不同模型的拟合程度,我们可以分析不同的度量,比如统计显著性参数、R方、调整R方、最小信息标准、BIC和误差准则。另一个是Mallow’sCp准则。3)交叉验证是验证预测模型最好的方法。你把你的数据集分成两组:一组用于训练,一组用于验证。4)如果你的数据集有许多让你困惑的变量,请不要使用自动模型选择方法,以免混入不需要的变量。5)不强大的模型往往容易建立,而强大的模型很难建立。6)回归正则方法在高维度和多重共线性的情况下表现得很好。3.2.5预测方法定性预测方法专家会议法德尔菲法类推预测法3.2.5预测方法定量预测方法趋势外推预测回归预测卡尔曼滤波预测组合预测BP神经网络3.2.6机器学习与启发式算法定量预测方法得到知识已知事实新的事实学习方法指导未来Carbonell,1989Dietterich,1999注解
符号机器学习符号机器学习保留:发生本质变化,转变成符号数据分析连接机器学习统计机器学习分为:基于Barlow提出的功能单细胞假设为依据集成机器学习分为:基于Hebb提出的神经集合体假设为依据遗传机器学习增强机器学习扩展:强调反馈的作用,以及动态规划的解决方案分析机器学习—放弃:问题过于复杂3.3.1数据表格统计分析数据表格介绍表格通常放在带有编号和标题的浮动区域内,以此区别于文章的正文部分表格应用于各种软件中,有表格应用软件也有表格控件创建数据表可以使用相应的数据表格构造函数创建数据表格对象初次创建数据表格时,是没有架构(即结构)的数据表格架构定义表的架构(即结构)由列和约束表示按名称引用表中的列、关系和约束是区分大小写的在数据表格中处理数据在数据组中创建数据表格之后,执行的活动可以与使用数据库中的表时执行的活动相同。可以添加、查看、编辑和删除表中的数据;可以监视错误和事件;并且可以查询表中的数据。在修改数据表格中的数据时,也可以验证更改是否正确,并决定是否以编程方式接受更改或拒绝更改。3.3.2数据统计图表分析一般情况下,将数据制作成图表需经历如下过程:制作图表前应首先对数据进行整理和分析。对数据进行有效的整理,是为了得到有用的信息,为了方便地解读数据;选择适当的图表类型;适当地修饰图表,使它能更好地传递信息;结合图表分析数据,找到数据间的比例关系及变化趋势,对研究对象做出合理的推断和预测。常用图表类型:柱形图(直方图)、折线图、饼图、条形图、雷达图等,近年来比较酷炫的图表有词云、漏斗图、数据地图、瀑布图等3.3.3数据输出UI设计数据可视化UI设计发展的关键点在插件库,因为框架是不同插件库组装的框架,然而数据可视化只是其中的一部分,大部分后台就是数据可视化后台,各方面数据都可以一览,方便产品、运营对数据的监控,在框架上更上一层楼。动作更快以建设性方式讨论结果理解运营和结果之间的连接接受新兴趋势与数据交互创建新的讨论3.3.4地理信息数据可视化地理信息系统(GIS,GeographicInformationSystem)是一种基于计算机的工具,它可以对在地球上存在的东西和发生的事件进行成图和分析。GIS技术把地图这种独特的视觉化效果和地理分析功能与一般的数据库操作(例如查询和统计分析等)集成在一起。这种能力使GIS与其他信息系统相区别,从而使其在广泛的公众和个人企事业单位中解释事件、预测结果、规划战略等中具有实用价值。GIS针对特定的应用任务,存储事物的空间数据和属性数据,记录事物之间的关系和演变过程。它可根据事物的地理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业网络攻击防范及安全维护方案研究
- 教育信息化平台建设及推广方案手册
- 节能减排技术应用方案
- 桥面系现浇施工方案
- 酒店宾客满意度提升培训
- 防溺水安全案例与总结
- 血细胞形态检验及临床意义
- 防爆应急预案培训
- 2025年中学教师资格考试《综合素质》核心考点深度解析模拟试卷及答案解析
- 龙门吊上刷标识施工方案
- 部编版六年级上册第一单元道德与法治考试题(含答案)
- 新形势下加强边疆民族地区国防教育的思考
- 2024年同等学力申硕-同等学力(新闻传播学)历年考试高频考点试题附带答案
- 《小学数学课程标准与教材教学研究》课件 12图形的运动
- INSAR技术在城市地面沉降监测中的应用
- 【人力资源管理工具】员工奖惩审批表(表格版)
- 综合自动化在35kV6kV变电站设计和应用的中期报告
- 商事纠纷解决的法律框架
- 小学语文学生学情分析报告4篇
- 自助洗头商业计划书
- 静载施工方案
评论
0/150
提交评论