版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用 IBM SPSS Modeler 建立线性回归预测模型Modeler 线性回归模型示例线性回归模型是一种常用的统计学模型。IBM SPSS Modeler 是一个强大的数据挖掘分析工具, 本文将介绍如何用它进行线性回归预测模型的建立和使用。 在本文中,将通过建立一个理赔欺诈检测模型的实例来展示如何利用 IBM SPSS Modeler 建立线性回归预测模型以及如何解释及应用该模型。1 评论:廖志刚, 软件工程师, IBM陈刚, 软件工程师, IBM杨家飞, 软件工程师, IBM2011 年 10 月 27 日· 内容简介回归分析(Regression Analysis)
2、是一种统计学上对数据进行分析的方法, 主要是希望探讨数据之间是否有一种特定关系。线性回归分析是最常见的一种回归分析, 它用线性函数来对因变量及自变量进行建模(自变量和因变量都必须是连续型变量), 这种方式产生的模型称为线性模型。线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点, 在实践中应用最为广泛,也是建立预测模型的重要手段之一。IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型, 并将其应用于商业活动,从而改进决策过程。在后面的文章中,将通过一个理赔欺诈检测的实际 商业应用来介绍如何用 IBM SPSS Modeler 建立、分
3、析及应用线性回归分析模型。用线性回归建立理赔欺诈检测模型在本例中,用于建立模型的数据存放在 InsClaim.dat 中,该文件是一个 CSV 格式的数据文件, 存储了某医院以往医疗保险理赔的历史记录。该文件共有 293 条记录,每条记录有 4 个字段, 分别是 ASG(疾病严重程度)、AGE(年龄)、LOS(住院天数)和 CLAIM(索赔数额)。 图 1 显示了该数据的部分内容。图 1. 历史理赔数据文件任务与计划基于已有的数据,我们的任务主要有如下内容:· 建立理赔金额预测模型,该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。· 假设模型匹配良好,分析那些
4、与预测误差较大的病人资料。· 通过模型来进行索赔欺诈预测。根据经验及对数据进行的初步分析(这个数据初步分析可以通过 IBM SPSS Modeler 的功能实现,此处不是重点, 故不做深入介绍),可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系,因此我们将首先 选用线性回归模型进行建模,因此可以得到下面这样一个初步计划:· 应用线性回归分析来建立模型。· 如果模型匹配度不佳,则可能应用更加复杂的模型,例如神经网络、规则推导等。基于上面的分析,我们容易得到目标模型的因变量为 CLAIM,自变量为 ASG、AGE 和 LOS。在建立模型之前,我们可以
5、对该模型进行一些猜测,以下是根据经验能想到的一些假设:· 随着住院天数的增加,索赔金额增加· 随着疾病严重程度的增加,索赔金额增加· 随着年龄的增加,索赔金额增加在建立好模型后,我们会根据模型来验证或推翻这些假设。用 IBM SPSS Modeler 创建 stream 文件根据任务要求,我们在 IBM SPSS Modeler 中建立如图 2 所示的 stream 文件。在该 stream 中,InsClaim.dat 作为数据源节点, 它通过一个类型节点(type)进行数据处理后输入到模型节点(CLAIM),在本例中,输出节点(table)作为一个测试节 点,
6、可以用于查看类型节点处理后产生的数据。图 2. 理赔预测模型 stream 示例图设置类型(type)节点从前面的分析可见,CLAIM 是因变量,在类型节点中须作为目标变量(Target),而其余三个字段(ASG、AGE 和 LOS) 则是自变量,在类型节点中须设置为输入变量(Input)。需要注意的是,在线性回归分析模型中,要求所有变量(包括自变量和因变量)都是连续类型。 如果数据中有非数字类型,比如 Category 或者 Flag,则需要预先转换为数字型。图 3 显示了类型节点设置的具体情况。图 3. 类型节点设置图模型节点设置在设置好类型节点后,我们可以双击 CLAIM 节点,对模型节
7、点进行设置。首先设置 Model 标签页中的选项。 从图 4 可以看到设置的具体信息,Model Name 有自动和定制两种类型,在自动方式下,模型名称自动设置 为目标变量的名字(CLAIM)。本模型的输入信息并没有分组,因此 Use partitioned data 和 Build model for each split 的选择与否并无关系。Method 选项将选择输入字段的选择方式,由于本例中的输入字段较少,可以使用默认的 Enter 模式。 在字段较多的情况下,可以选择 StepWise、Forward 和 Backward 中的一种,它们会采用不同的统计学方式对输入字段进行筛选。 I
8、nclude constant in equation 选项表示模型中是否包含常量(即截距),在本例中,由于每次理赔会有一个起始额度,因此选中该选项。图 4. 模型节点的 Model 页设置图在 Expert 页中可以设置一些模型的高级选项。在我们选择了专家模式后,可以设置两个选项内容:· Missing Values 当选中该选项,会忽略那些含有 Missing Value 的记录。 (默认选项,通常应该使用这个选项,除非你非常有经验,清楚知道 Missing Value 对该模型的影响)· Singularity tolerance 用来防止相关变量影响模型准确度。 该
9、值越小,表示相似性越高,也就说明排除的可能性越低。有些统计师倾向于把 该值设置的稍大,比如 .05(在本例中是 .0001)在点击 output 按钮后还可以选择输出的选项,这里不加以详细描述。运行模型在模型节点的编辑页面中点击 Run 按钮即可运行(也可以关闭设置后通过菜单和工具栏运行), 运行后将产生一个 Nugget,Nugget 是 IBM SPSS Modeler 对生成模型的称呼。双击该 Nugget 即可查看生 成模型的信息。图 5 显示了 stream 中产生的 Nugget 图。图 5. 运行模型生成的 Nugget模型分析结果双击 Nugget 打开的生成模型信息中,首先查
10、看 Analysis Summary 窗口,这里可以看到模型的分析结果。 我们可以看到该模型的方程已经建立。但是在关注模型方程之前,应该首先看看该生成模型是否是统计学显著的。 从该模型的显著性分析可以看出(见图 6),该模型的显著几率 < 0.0005,可以说非常显著,因此生成的模型具有统计学意义。图 6. 生成模型的显著性结果让我们回头再看所生成的模型方程(见图 7),可以看出理赔预测模型方程为:CLAIM(E) = ASG*417.2 - AGE*33.41 + LOS*1105.6 + 3026.8图 7. 生成模型的模型方程模型解释还记得我们在建模之前提出的假设么?让我们对之一一
11、进行验证:· 随着住院天数的增加,索赔金额增加 - YES· 随着疾病严重程度的增加,索赔金额增加 - YES· 随着年龄的增加,索赔金额增加 - NO!从模型方程可以看出,索赔的金额随着住院天数和疾病严重程度的增加会相应增加,然而,当年龄增加时, 理赔金额反而会下降。可能的原因是:1)年龄越小,疾病越严重,因此理赔额越高;2)不同年龄段的医疗保 险政策不同,年龄越长的客户保险公司给出的理赔金额越低。当然,具体的真正原因,还要找领域专家确定。预测因子之间的重要性也不尽相同,在统计学中,该重要性通过图 8 中的 Beta 检验值来确定,具体规则是, 根据
12、Beta 值的绝对值排序,值越大,越重要。由图 8 中可见,在理赔金额中,最重要的因素是住院天数,而 年龄因素的重要性最低。这也是符合一般的常识的。图 8. 预测因子重要性及误差区间另外一个需要考量的因素是误差区间,该区间决定了应该怎样去预测未来的索赔金额是否合理。在图 8 中的 Unstandardized Coefficients 的 B 和 Std. Error 两列表示了一个预测区间,它的含义是 B-Std.Error, B+Std.Error 的区间具有 95% 的可信性。以住院天数(LOS)为例,它的 B 为 1105.646,Std. Error 为 103.6,这意味着如果住院
13、天数每增加一天,那么理赔增加的金额将落在 1105.646-103.6, 1105.646+103.6 区间上, 即增加约 1000 到 1200 元之间,其可信性度为 95%。反之,若碰到的客户索赔增加的金额没有落在这个区间之内,那么 这种客户就有较大可能是索赔欺诈,那么工作人员就应该仔细审查。在做完了这些之后,我们还可以对已有的历史记录进行分析,找出以往数据中的奇异点,以供领域专家进行分析。找出奇异点为了找出奇异点,我们可以创建一个 Derive 节点,让它的前向数据源为生成的 Nugget,它要衍生出来的字段名称为 DIFF,其数据值为实际的理赔额和预测的理赔额之差,即:DIFF = C
14、LAIM - '$E-CLAIM'具体设置参见图 9。图 9. Derive 节点设置图观察 DIFF 数据,可以找出奇异点的数据,为了方便找出奇异点,可以使用直方图来帮助查找,从图 10 中, 可以看出,实际理赔额处在 5000-7500 之间的数据为明显奇异点,应找领域专家来对这些数据进行具体分析。图 10. 用直方图帮助查找奇异点回页首结束语通过本文,您了解了如何通过 IBM SPSS Modeler 创建基于线性回归分析的预测分析模型,并了解到如何设置、 创建、分析、理解和应用模型。这样,您就可以通过 IBM SPSS Modeler 简易的数据流风格方便快速地创建和应
15、用一个模型。本文中的理赔欺诈预测模型示例,用一个完整的流文件演示了怎样设置数据数据;怎样设置模型参数; 怎样通过 IBM SPSS Modeler 提供的数据分析和理解模型;并介绍了如何分析奇异点。通过此示例,您可以立刻就动手创建自己的模型。IBM SPSS Statistics多变量预测建模2014-04-11 11:05来源:IBM 作者:焦龙 点击:715次 我要评论 TAG标签: IBM SPSS Statistics 预测建模 多变量 1. 应用背景 1.1 解决的问题 1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试。如何保证测试的有效性?如何通过测试
16、的结果推测其在生产环境上的表现? 2)随着资源使用的增长,CPU、内存、硬盘、I/O 等资源互相影响并存在潜在关联。如何洞察其关联来指导企业做出合理的容量规划? 3)伴随业务扩展,企业生产环境的负载日益增加。 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估? 4)如何提供自动化、自适应的建模过程与预测分析,为企业用户打造针对个性化场景自动建立、自动调整的预测模型来降低使用复杂度? 如何保证预测分析的有效性和准确性? 1.2 商业价值 1)避免过多地投入测试资源,最大化测试资源价值,实现测试与生产的资源整合。 2)优化企业数据中心资源利用率,各项资源合理配比,提供更精准的性能
17、分析和容量规划方案以节约成本。 3)合理预测业务增长,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。 4)提升业务可持续性与用户体验,为企业提供基于源数据的自动化选型、建模、调整、验证的全生命周期解决方案。 2. 数据准备 应用某网站在新业务上线前,通过测试环境的结果预测其生产环境上线后的资源利用率场景。从小范围入手,首先针对一台服务器,选取相关指标数据进行关联分析与预测建模的研究。例如在众多的服务器中,选取其中的一台 web 服务器(192.168.119.9)。对该台服务器在 2013 年 1 月 1 日 00:0024:00 的各项指标,采集单位为分钟,共 1440
18、 条数据进行量化分析。 本文的主要目的是预测用户访问频率 Frequency_User 的未来发展趋势。因此,需要考虑用户访问频率 Frequency_User、内存利用率 MEM、硬盘利用率 DISK 与 CPU 利用率的关系。将数据文件的信息合并为一个新的数据文件,数据整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 1 所示,其中包含以下字段:日期 DATE、时间 TIME(采集单位:分钟)、用户访问频率 Frequency_User(单位 : 次)、内存利用率 MEM(单位:%)、硬盘利用率 DISK(单位:%)、用户 CPU 利用率 CP
19、U(单位:%)。 图 1. 数据文件变量 3. IBM SPSS Statistics 使用过程 3.1 多变量关联分析 本文通过偏相关分析,判断用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的关联关系。偏相关分析是当两个变量同时与其他多个变量相关时,将其他多个变量的影响剔除,只分析另外两个变量之间相关程度的过程 。因此,针对于本文中包含的多个变量的关联分析,可利用偏相关分析展开研究。例如分析其中的两个变量访问频率 Frequency_User 与 CPU 利用率的关联关系,需要剔除内存利用率 MEM 与硬盘利用率 DISK 的影
20、响,只针对于访问频率 Frequency_User 与 CPU 利用率进行偏相关分析。通过相关系数 r,判断 Frequency_User 与 CPU 是否线性相关。若线性相关,则可得出关联关系。若不线性相关,则利用回归判断出目标变量与其他多个变量间的影响关系,即判断预测变量的重要性对于目标变量。多变量关联分析流程图,如下图 2 所示 。 图 2. 多变量关联分析流程图 3.1.1 偏相关分析 1) 偏相关分析步骤 打开 IBM SPSS Statistics,在菜单中选择:分析 > 相关 > 偏相关, 就进入“偏相关” 模块方法界面,如图 3 所示。 图 3. 偏相关分析界面 在
21、“偏相关”对话框中,选择 Frequency_User 与 CPU 进入“变量”框,选择 MEM 与 DISK 进入“控制”框。在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验, 本文选双侧检验,如图 4 所示。 图 4. 选择变量与参数 点击“选项”按钮弹出“偏相关性:选项”对话框,可设置相关统计量,如图 5 所示。本文设置 Frequency_User、CPU、MEM 与 DISK 输出“均数与标准差”以及“零阶相关系数”,点击“继续”按钮返回“偏相关”对话框。 图 5. 偏相关性选项 2)结果描述 根据偏相关分析的结果,Frequency_
22、User 的均值为 85778.15992,标准差为 43387.93355;CPU 的均值为 33.84895%,标准差为 9.304364;MEM 的均值为 36.93768%,标准差为 6.954192;DISK 的均值为 30.71943%,标准差为 13.372261,如图 6 所示。 图 6. 描述性统计量 以下展示了两种偏相关关系的结果,如图 7 所示。首先,在没有控制变量的情况下,展示了 Frequency_User、CPU、MEM 与 DISK 两两对应的相关系数、双侧检验的概率与自由度。其次,在设定 MEM 与 DISK 为控制变量情况下,展示了 Frequency_Use
23、r 与 CPU 两两对应的相关系数、双侧检验的概率与自由度。根据两种偏相关情况下的结果可以看出,若不剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.622;若剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.771。 图 7. 相关性 其中,相关性的值为通常所指的相关系数 r。相关系数 r 较好地度量了两变量间的线性相关程度,相关系数 r 属于 1,+1。若 0<r 1,表明变量之间存在正相关关系;若 1 r
24、<0,表明变量之间存在负相关关系。r 1 完全正相关;r 1:完全负相关;这两种情况说明变量之间存在函数关系。r 0 无线性关系。|r|>0.8:强相关;|r|<0.3:弱相关,可视为不相关。本文中 Frequency_User 与 CPU 的相关性的值为 0.771,还需利用回归分析进一步研究。 3.1.2 回归分析 1)回归分析步骤 打开 IBM SPSS Statistics,在菜单中选择:分析 > 回归 > 自动线性建模,就进入“自动线性 建模”模块方法界面,如图 8 所示。 图 8. 自动线性建模界面 在“自动线性建模”对话框中,选择 Frequency
25、_User 为目标,CPU、DISK 与 MEM 为预测变量(输入),进行自动线性建模,如图 9 所示。 图 9. 自动线性建模界面 2)结果描述 根据预测变量的重要性,关联分析出 CPU 对 Frequency_User 的重要性达到 80% 以上,DISK 与 MEM 的重要性均没有超过 20%,如图 10 所示。充分表明 CPU 与 Frequency_User 的相关性最强,对其的解释能力最高。 图 10. 预测变量重要性 3.2 预测建模 本文选取用户访问频率 Frequency_User 进行预测模型的研究。首先,判断出目标预测变量 Frequency_User 与其他多个变量 C
26、PU 利用率、内存利用率 MEM、硬盘利用率 DISK 间的影响关系。根据 3.1 节中多变量关联分析的结果,确定 Frequency_User 预测过程中的相关变量为 CPU 利用率。其次,筛选出最优预测模型。利用专家预测模型与 ARIMA 预测模型进行建模。再次,进行模型参数调整。最后,根据预测结果,判断用户的满意度。若用户满意预测结果,则选取此模型为最优模型;若用户不满意预测结果,则将专家预测模型与 ARIMA 预测模型的所有参数提供给用户,允许用户进行预测模型选择及参数调整,不断循环以上步骤,直到用户对预测结果满意为止。预测模型的建模流程图,如图 11 所示。 图 11. 预测模型的建
27、模流程图 筛选出最优预测模型 1) 建模步骤 打开 IBM SPSS Statistics,在菜单中选择:分析 > 预测 > 创建模型,就进入 “时间序列建模器”模块方法界面,如图 12 所示。在“时间序列建模器”对话框中,选择 Frequency_User 为因变量,CPU 为自变量,建立多种预测模型。 图 12. 时间序列建模器 在“统计量”标签中选择输出的拟合度量指标,例如:R 方,均方根误差,平均绝对误差百分比。在“图表”标签中选择每张图显示的内容为:观察值,预测值和拟合值。在“保存”标签中,一方面,设置保存预测模型的预测结果在 SAV 文件中;另一方面,将预测模型保存为
28、xml 格式,当有新的数据需要预测时,可直接使用此保存结果,不用重新构造模型,如图 13 所示。在“选项”标签中指定未来希望预测到的时间点,例如本文有 1 至 1440 分钟的观测值,指定预测值为 1500 分钟即可获得 1441 至 1500 分钟的预测值。 图 13. 保存预测模型 2)结果描述 根据拟合结果,选取最优的 ARIMA(1,1,0)预测模型进行建模,如图 14 所示。 图 14. 模型描述 输出的拟合度量指标,例如:R 方,均方根误差(RMSE),平均绝对误差百分比(MAPE),如图 15 所示。本文选取指标 R 方,RMSE,MAPE 对预测结果进行评价:R 方越接近于 1
29、,MAPE 越接近于 0 表明模型的拟合程度越好;均方根误差说明了样本的离散程度。 图 15. 模型统计量 Frequency_User 的观察值、预测值和拟合值,如图 16 所示。其中,横坐标代表时间(间隔:分钟),纵坐标代表用户访问频率 Frequency_User(单位:次)。 图 16. 预测模型的预测结果 模型参数调整 在“时间序列建模器”对话框,点击“条件”按钮,如图 17 所示。将进行预测模型的参数调整。 图 17. 模型参数调整 进入“时间序列建模器:ARIMA 条件”。ARIMA(p,d,q)称为差分自回归移动平均模型,AR 是自回归,p 为自回归项;MA 为移动平均,q 为
30、移动平均项数,d 为时间序列成为平稳时所做的差分次数。 p、d、q 取值范围一般均为 0,2,如图 18 所示。可设置不同的参数值进行预测建模。 图 18.ARIMA 预测模型的分类 结束语 智能容量规划管理解决方案通过使用 IBM SPSS Statistics 中的分析功能,对用户访问频率 Frequency_User 进行预测。一方面,充分考虑了用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的影响,精确的分析出了用户增长与资源之间的关联关系,利用关联关系来指导企业做出可靠的容量分析;另一方面,合理预测用户访问频率 Frequ
31、ency_User 的业务发展趋势,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。IBM SPSS Modeler 在电力负荷预测中的应用IBM SPSS Modeler 提供了强大的数据挖掘和预测分析算法与技术,支持数据挖掘的整个过程。将其用于电力负荷预测分析中,可以针对各种负荷预测类型选择最优的建模技术,提高负荷预测的准确性和时效性,也可以采用自动建模技术,建立具有广泛适应性的预测模型。1 评论:季 振峰, 软件工程师, IBM薛 鹏, 软件工程师, IBM孙 晓斌, 软件开发经理, IBM2013 年 8 月 15 日· 内容电力负荷预测是电力系
32、统调度、用电、计划、规划等管理部门的重要工作之一。提高负荷预测水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电网建设规划,有利于提高电力系统的经济效益和社会效益。因此,负荷预测已成为实现电力系统管理和现代化的重要内容之一。IBM SPSS Modeler 简介IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用计算机技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。IBM SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生
33、成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。CRISP-DM 过程模型IBM SPSS Modeler 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。通用的 CRISP-DM 过程模型包括六个用来解决数据挖掘主要问题的阶段。这六个阶段拟合在一个为将数据挖掘应用于较大业务实践而设计的循环过程中。· 商业理解:确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。· 数据理解:收集初始数据、描述数据、探索数据和验证数据质量。· 数据准备:选择、清理、构建、集成数据以及格式化数据。
34、3; 建模:选择建模技术、生成测试设计,以及构建和评估模型。· 评估:评估结果、查看数据挖掘过程,以及确定后续步骤。· 部署:计划部署、监视和维护、生成最终报告,以及复查该工程。图 1. CRISP-DM 模型IBM SPSS Modeler 丰富的模型为电力负荷预测提供支持IBM SPSS Modeler 数据挖掘工具,提供了多种数据挖掘算法,支持数据挖掘的完整过程,将其用于电力负荷预测,可以有效地提高负荷预测的准确性和时效性。时间序列模型时间序列是以规律的时间间隔采集的测量值的有序集合,例如,每日的股票价格或每周的销售数据。时间序列建模方法假定历史总会自我重演即使不是完
35、全一样也会非常接近,足以通过研究过去对将来作出更好的决策。时间序列模型可以分为指数平滑模型和综合自回归移动平均 (ARIMA) 。· 指数平滑模型:是一种使用以前的序列观察的加权值来预测未来值的预测方法。因此,指数平滑不是以对数据的理论理解为基础的。· ARIMA 模型:比起指数平滑模型在对趋势和季节组件建模方面可提供更成熟的方法,特别是,增加了可在模型中包括自变量(预测变量)的优势。这包括明确指定自回归阶数和移动平均阶数以及差分次数。可以包含预测变量并为任意或所有预测变量定义变换函数以及指定对离群值的自动检测或精确设置。神经网络模型神经网络是神经系统运转方式的简单模型。其
36、基本单元是神经元,通常将其组织到层中,如下面的图所示。图 2. 神经网络模型神经网络是模拟人类大脑处理信息方式的简化模型。此模型通过模拟大量类似于神经元的抽象形式的互连处理单元而运行。神经网络可以近似多种预测模型,而对模型结构和假设只有最小需求,关系形式在学习过程中确定。如果目标与预测变量间的线性关系适当,神经网络结果会非常接近传统线性模型的结果。如果非线性关系更为适当,神经网络会自动接近“正确”的模型结构。自动建模模型自动建模模型估算和比较多个不同的建模方法,在一次建模运行中即可尝试各种方法。可以选择所使用的建模算法,以及每个建模算法的具体选项,包括可能互斥的组合。自动建模模型研究选项的每个
37、可能组合,根据指定的测量为每个候选模型排序,并保存最佳模型用于评分或将来的分析。IBM SPSS Modeler 在电力负荷预测中的应用实例某电力公司希望通过历史负荷数据和一些额外数据预测日最大负荷值。历史数据包括一年内每半小时的负荷数据,当天的平均气温,以及一年内的假期时间,需要预测下一年 1 月份 31 天的最大负荷值。商业理解电力负荷预测是电力系统调度、用电、计划、规划等管理部门的重要工作之一。提高负荷预测水平,有利于计划有点管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电源建设规划,有利于提高电力系统的经济效益和社会效益。电力负荷按照用
38、电部门属性通常可以分为工业用电、农业用电、城市民用电、商业用电和交通运输用电;按照负荷的大小可以分为最大负荷、最小负荷和平均负荷等。电力负荷的预测通常可以根据时间划分为· 超短期负荷预测:未来 1 小时或一小时以内的负荷预测。· 短期负荷预测:未来一天内或者一天为单位的一周至一个月内的负荷预测。· 中期负荷预测:未来 5 年左右以年为单位的负荷预测。· 长期负荷预测:未来 10 年以上以年为单位的负荷预测。影响电力负荷的因素有很多,比如说负荷类别、时间、气候、政策法规、产业规划、电价、活动和事件等等,但进行预测的时候通常没有办法获取所有的相关数据,同时过
39、多的相关因素也使得电力负荷预测更加的复杂,却不一定会提高预测精度。根据给定的信息,可以知道需要解决的商业问题是短期电力负荷最大值预测,相关的因素有平均气温和假期信息。负荷预测的误差通常要求不大于 5%,以此误差值作为预测精度目标。数据理解和数据准备数据理解和数据准备在真实的数据挖掘项目中将占很大的比重。根据 IBM SPSS 执行数据挖掘项目的经验,这一工作在全部数据挖掘过程中常常要占到 6070% 的工作量。在此案例中,数据来源主要包括三个方面,负荷数据、平均气温数据和假期数据。数据结构如下:表 1. 负荷数据字段名称字段类型字段描述字段值域DatetimeString负荷数据采集时间Tot
40、al Load (KW)Float总负荷表 2. 平均气温字段名称字段类型字段描述字段值域DateString日期TemperatureFloat平均气温表 3. 假期信息字段名称字段类型字段描述字段值域HolidayString假期只包含是假期的日期数据准备之前首先分析理解一下现有数据,使用 IBM SPSS Modeler 对负荷数据和温度数据分析的结果如下图所示:图 3. 2012 年日最大负荷曲线图 4. 2012 年日平均温度曲线图 5. 2012 年 1 月份负荷曲线可以看出来负荷数据跟平均气温有明显关系。从月负荷曲线也可以看出来负荷数据有明显的周周期性。基于以上分析,可以按照以下
41、步骤进行数据准备:· 找出每天负荷最大值· 将 30 分钟负荷数据过滤· 将温度数据与负荷数据合并· 将假期数据与负荷数据合并· 增加一个字段表明是一周中的第几天准备好的数据如下图所示:图 6. 数据准备结果建模时间序列和神经网络是常用的负荷预测算法,其它可用的算法包括回归分析、决策树等,IBM SPSS Modeler 支持自动建模技术,可以估算和比较多个不同的建模方法,在一次建模运行中即可尝试各种方法。时间序列模型首先基于时间序列模型建立预测工作流:图 7. 时间序列模型工作流数据字段的类型设置如下图所示:图 8. 时间序列模型字段类型设置
42、模型参数设置如下图所示:图 9. 时间序列模型参数设置时间序列模型的预测结果如下图所示:图 10. 时间序列模型预测结果自动建模模型下面基于自动建模模型建立工作流,自动建模模型可以同时指定多个模型。图 11. 自动建模模型工作流自动建模节点的选项如下图所示:图 12. 自动建模模型参数设置自动建模模型根据用户设置尝试和比较多个模型,并返回指定个数的优选模型,最终预测结果由三个模型的结果加权平均得到:图 13. 自动建模模型下图是自动建模模型的预测结果:图 14. 自动建模模型预测结果评估这个阶段需要评估数据挖掘结果在多大程度上能实现业务目标。如果预测结果能够帮助实现业务目标,则进入部署阶段,否
43、则需要重新评估商业理解,然后重新进行 CRISP-DM 过程的其余部分。下面将建模阶段两种模型的预测值与 2003 年 1 月份实际负荷值做比较 , 结果下图所示:图 15. 模型预测结果评估预测精度如下图所示:图 16. 模型预测精度评估可以看出来总体来说时间序列的预测结果要好于自动建模模型的预测结果,这在很大程度上是因为时间序列参数过仔细调整,而在自动建模过程中用的都是默认参数,但是两种模型的预测精度基本上都在 95% 以内,预测结果达到目标要求。部署建立模型和评估模型并不是数据挖掘的目的。只有把模型发布到相关决策者手中,才能使我们通过数据挖掘提高企业利润或降低企业成本。模型的部署包括两个
44、方面:· 预测结果输出:将负荷预测结果以报告、图表、导入数据库等方式输出,作为电力运营和调度等部门生成运营的依据。· 部署与集成:与电力企业原有系统或者 IBM 解决方案集成,以便为电力负荷预测和生成运营提供持续的支持。模型部署的意义绝不仅仅是把数据挖掘的方案放入一个计算机自动化系统了事。在发布数据挖掘项目时,最重要的一点是决策者如何根据数据挖掘产生的结果采取相应的活动,从而使建立的模型得到充分的利用。总结电力负荷有多重分类,在时间和空间上呈现复杂的负荷特性,影响电力负荷变化的因素也很多,用单一模型来支持各种负荷预测是很难办到的,通常需要针对不同的负荷预测类型建立不同的预测
45、模型;另一方面,随着时间推移,负荷预测模型也需要根据实际数据更新,以保证预测精度能满足实际业务需求。IBM SPSS Statistics 智能容量规划解决方案,第二部分:多变量预测建模本文提出的智能容量规划管理解决方案旨在帮助企业更精准有效匹配测试和生产环境,寻找性能指标的潜在关联,分析业务负载对容量的影响,建立预测模型,并进行实时验证。使企业科学地实施容量改革,合理地规划与配置资源,大量地节约企业成本,提高资源的可用性与可持续性。0 评论:焦 龙, 高级软件工程师, IBM张 婧, 软件工程师, IBM2014 年 4 月 10 日· 内容1. 应用背景1.1 解决的问
46、题1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试。如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现?2)随着资源使用的增长,CPU、内存、硬盘、I/O 等资源互相影响并存在潜在关联。如何洞察其关联来指导企业做出合理的容量规划?3)伴随业务扩展,企业生产环境的负载日益增加。 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估?4)如何提供自动化、自适应的建模过程与预测分析,为企业用户打造针对个性化场景自动建立、自动调整的预测模型来降低使用复杂度? 如何保证预测分析的有效性和准确性?1.2 商业价值1)避免过多地投入测试资源,最大化测
47、试资源价值,实现测试与生产的资源整合。2)优化企业数据中心资源利用率,各项资源合理配比,提供更精准的性能分析和容量规划方案以节约成本。3)合理预测业务增长,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。4)提升业务可持续性与用户体验,为企业提供基于源数据的自动化选型、建模、调整、验证的全生命周期解决方案。回页首2. 数据准备应用某网站在新业务上线前,通过测试环境的结果预测其生产环境上线后的资源利用率场景。从小范围入手,首先针对一台服务器,选取相关指标数据进行关联分析与预测建模的研究。例如在众多的服务器中,选取其中的一台 web 服务器(192.168.119.9)。对该台
48、服务器在 2013 年 1 月 1 日 00:0024:00 的各项指标,采集单位为分钟,共 1440 条数据进行量化分析。本文的主要目的是预测用户访问频率 Frequency_User 的未来发展趋势。因此,需要考虑用户访问频率 Frequency_User、内存利用率 MEM、硬盘利用率 DISK 与 CPU 利用率的关系。将数据文件的信息合并为一个新的数据文件,数据整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 1 所示,其中包含以下字段:日期 DATE、时间 TIME(采集单位:分钟)、用户访问频率 Frequency_User(单位 :
49、 次)、内存利用率 MEM(单位:%)、硬盘利用率 DISK(单位:%)、用户 CPU 利用率 CPU(单位:%)。图 1. 数据文件变量回页首3. IBM SPSS Statistics 使用过程3.1 多变量关联分析本文通过偏相关分析,判断用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的关联关系。偏相关分析是当两个变量同时与其他多个变量相关时,将其他多个变量的影响剔除,只分析另外两个变量之间相关程度的过程 。因此,针对于本文中包含的多个变量的关联分析,可利用偏相关分析展开研究。例如分析其中的两个变量访问频率 Freq
50、uency_User 与 CPU 利用率的关联关系,需要剔除内存利用率 MEM 与硬盘利用率 DISK 的影响,只针对于访问频率 Frequency_User 与 CPU 利用率进行偏相关分析。通过相关系数 r,判断 Frequency_User 与 CPU 是否线性相关。若线性相关,则可得出关联关系。若不线性相关,则利用回归判断出目标变量与其他多个变量间的影响关系,即判断预测变量的重要性对于目标变量。多变量关联分析流程图,如下图 2 所示 。图 2. 多变量关联分析流程图3.1.1 偏相关分析1) 偏相关分析步骤打开 IBM SPSS Statistics,在菜单中选择:分析 &g
51、t; 相关 > 偏相关, 就进入“偏相关” 模块方法界面,如图 3 所示。图 3. 偏相关分析界面在“偏相关”对话框中,选择 Frequency_User 与 CPU 进入“变量”框,选择 MEM 与 DISK 进入“控制”框。在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验, 本文选双侧检验,如图 4 所示。图 4. 选择变量与参数点击“选项”按钮弹出“偏相关性:选项”对话框,可设置相关统计量,如图 5 所示。本文设置 Frequency_User、CPU、MEM 与 DISK 输出“均数与标准差”以及“零阶相关系数”,点击“继续”按钮返
52、回“偏相关”对话框。图 5. 偏相关性选项2)结果描述根据偏相关分析的结果,Frequency_User 的均值为 85778.15992,标准差为 43387.93355;CPU 的均值为 33.84895%,标准差为 9.304364;MEM 的均值为 36.93768%,标准差为 6.954192;DISK 的均值为 30.71943%,标准差为 13.372261,如图 6 所示。图 6. 描述性统计量以下展示了两种偏相关关系的结果,如图 7 所示。首先,在没有控制变量的情况下,展示了 Frequency_User、CPU、MEM 与 DISK 两两对应的相关系数、双侧检验的概率与自由
53、度。其次,在设定 MEM 与 DISK 为控制变量情况下,展示了 Frequency_User 与 CPU 两两对应的相关系数、双侧检验的概率与自由度。根据两种偏相关情况下的结果可以看出,若不剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.622;若剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.771。图 7. 相关性其中,相关性的值为通常所指的相关系数 r。相关系数 r 较好地度量了两变量间的线性相关程度,相
54、关系数 r 属于 1,+1。若 0<r 1,表明变量之间存在正相关关系;若 1 r<0,表明变量之间存在负相关关系。r 1 完全正相关;r 1:完全负相关;这两种情况说明变量之间存在函数关系。r 0 无线性关系。|r|>0.8:强相关;|r|<0.3:弱相关,可视为不相关。本文中 Frequency_User 与 CPU 的相关性的值为 0.771,还需利用回归分析进一步研究。3.1.2 回归分析1)回归分析步骤打开 IBM SPSS Statistics,在菜单中选择:分析 > 回归 > 自动线性建模,就进入“自动线性 建模”模块方法界面,如图 8 所示。
55、图 8. 自动线性建模界面在“自动线性建模”对话框中,选择 Frequency_User 为目标,CPU、DISK 与 MEM 为预测变量(输入),进行自动线性建模,如图 9 所示。图 9. 自动线性建模界面2)结果描述根据预测变量的重要性,关联分析出 CPU 对 Frequency_User 的重要性达到 80% 以上,DISK 与 MEM 的重要性均没有超过 20%,如图 10 所示。充分表明 CPU 与 Frequency_User 的相关性最强,对其的解释能力最高。图 10. 预测变量重要性3.2 预测建模本文选取用户访问频率 Frequency_User 进行预测模型的研究。首先,判
56、断出目标预测变量 Frequency_User 与其他多个变量 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 间的影响关系。根据 3.1 节中多变量关联分析的结果,确定 Frequency_User 预测过程中的相关变量为 CPU 利用率。其次,筛选出最优预测模型。利用专家预测模型与 ARIMA 预测模型进行建模。再次,进行模型参数调整。最后,根据预测结果,判断用户的满意度。若用户满意预测结果,则选取此模型为最优模型;若用户不满意预测结果,则将专家预测模型与 ARIMA 预测模型的所有参数提供给用户,允许用户进行预测模型选择及参数调整,不断循环以上步骤,直到用户对预测结果满意为止。
57、预测模型的建模流程图,如图 11 所示。图 11. 预测模型的建模流程图筛选出最优预测模型1) 建模步骤打开 IBM SPSS Statistics,在菜单中选择:分析 > 预测 > 创建模型,就进入 “时间序列建模器”模块方法界面,如图 12 所示。在“时间序列建模器”对话框中,选择 Frequency_User 为因变量,CPU 为自变量,建立多种预测模型。图 12. 时间序列建模器在“统计量”标签中选择输出的拟合度量指标,例如:R 方,均方根误差,平均绝对误差百分比。在“图表”标签中选择每张图显示的内容为:观察值,预测值和拟合值。在“保存”标签中,一方面,设置保存预测模型的预测结果在 SAV 文件中;另一方面,将预测模型保存为 xml 格式,当有新的数据需要预测时,可直接使用此保存结果,不用重新构造模型,如图 13 所示。在“选项”标签中指定未来希望预测到的时间点,例如本文有 1 至 1440 分钟的观测值,指定预测值为 1500 分钟即可获得 1441 至 1500 分钟的预测值。图 13. 保存预测模型2)结果描述根据拟合结果,选取最优的 ARIMA(1,1,0)预测模型进行建模,如图 14 所示。图 14. 模型描述输出的拟合度量指标,例如:R
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年AI智能营销技术合作合同样本
- 二零二五年度生态环保木工加工厂合作合同4篇
- 2025年医疗护士协议
- 2025年增资协议书面详细约定内容文本
- 2025年产品分销渠道协定书
- 2025年家装风水合同
- 2025年埋头竞业禁止合同
- 2025版智能家居灯具音响设备一体化采购合同4篇
- 2025年媒介环境分析协议
- 2025版学校食堂猪肉食品安全风险评估与监控合同2篇
- 2024人教版高中英语语境记单词【语境记单词】新人教版 选择性必修第2册
- 能源管理总结报告
- 挖掘机售后保养及维修服务协议(2024版)
- 充电桩巡查记录表
- 阻燃材料的阻燃机理建模
- CJT 511-2017 铸铁检查井盖
- 配电工作组配电网集中型馈线自动化技术规范编制说明
- 2024高考物理全国乙卷押题含解析
- 介入科围手术期护理
- 青光眼术后护理课件
- 设立工程公司组建方案
评论
0/150
提交评论