版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章
商业运营与规划学习目标1.掌握线性规划问题、运输问题、整数规划的数学模型及模型特征。2.能利用线性规划、整数规划解决实际问题。3.能熟练运用软件求解线性规划、运输问题、整数规划。4.掌握用不同软件求解整数问题的技巧。目录CONTENTS01线性规划问题02整数规划问题03运输问题04本章习题线性规划问题01一、问题提出
线性规划是运筹学的一个重要分支,是帮助决策者做出决策的有效方法之一。在经济管理活动中,针对有限的资源通常需要寻求最佳的利用或分配方式。任何资源,如劳动力、原材料、设备或资金等都是有限的,所以必须进行合理的配置,寻求最佳的分配方式。所谓最佳的分配方式,必须有一个标准或目标,在单一目标问题中,就是使利润最高或成本最低,由此可以把有限资源的合理配置归纳为两类问题:一类是如何合理地使用有限资源,使得效益最大化;另一类是在经济管理的任务确定的条件下,如何合理地组织、安排活动,使所消耗的资源数最少,这是最常见的两类规划问题。与规划问题有关的数学模型主要由以下两部分内容组成:一部分是约束条件,反映有限资源对经济管理活动的种种约束,或者必须完成的任务;另一部分是目标函数,反映决策者在有限资源条件下希望实现的目标。一、问题提出
例6-1-1XY公司计划生产Ⅰ、Ⅱ两种产品。已知各生产一种产品时分别占用的设备台时、工时和资源总量,各售出一种产品时的收益情况,如下表所示。问该公司应如何组织生产,以使获取的总收益最大。这是一个合理使用有限资源产生最大收益的问题。资源信息表III资源总量/元设备台时/(小时/件)23300工时/(小时/件)21.5150收益/(元/件)100120
一、问题提出
例6-1-2某加工厂要制作100套钢架,每套要用长为2.9m、2.1m和1.5m的圆钢各一根。已知原料长为7.4m,问应如何下料可使所用材料最省。这是一个典型的在生产任务确定的条件下,合理组织生产(下料),以使所消耗资源数量最少的问题。日期所需营业员人数星期日28星期一15星期二24星期三25星期四19星期五31星期六28表6.1.2工作需求表二、线性规划问题的数学模型
数学模型的约束条件中的第一个式子表示产品Ⅰ、产品Ⅱ的制造数量受设备的限制,第二个式子表示产品Ⅰ、产品Ⅱ的制造数量受人工能力的限制,第三个式子称为变量的非负约束,表示产品Ⅰ、产品Ⅱ的制造数量不可能取负值。二、线性规划问题的数学模型
例6-1-2可以这样理解:在长度一定的原材料上截三种不同长度的圆钢,有多种下料方案,基本原则是按各种下料方案下料以后剩下的余料要足够少,即剩下的余料已不能再截下任何一种规格的圆钢,即余料的长度必须小于1.5m。按照这样的原则,可以归纳出8种不同的下料方案,按余料长度逐步递增排序,如下表所示。下料方案表下料方案12345678圆钢/m2.9120101002.1002211301.531203104余料/m00.10.20.30.80.91.11.4至此,此问题则变为如何混合使用表中这8种不同的下料方案来制造100套钢架,并且使剩余余料的总长度最短。二、线性规划问题的数学模型
二、线性规划问题的数学模型
二、线性规划问题的数学模型
此数学模型可简写为
二、线性规划问题的数学模型
如果用向量表示,该数学模型则可写为式中,;该数学模型用矩阵和向量来表示可写为式中,A被称为约束方程组(约束条件)的系数矩阵。
三、线性规划问题数学模型的标准形式
;
因为目标函数和约束条件在内容和形式上存在差异,所以线性规划问题数学模型的表达方式可以有很多种。为了便于讨论和制定统一的求解方法,因此统一规定线性规划问题数学模型的标准形式如下:如果用矩阵和向量来表示可以写为在标准形式的数学模型中,必须符合以下四个条件:目标函数为极大化型。约束条件全为等式。约束条件右端常数项𝒃_𝒊全为非负值。决策变量𝒙_𝒋的取值全为非负值。四、标准型线性规划解的概念
;
max z=CX四、标准型线性规划解的概念
;;
五、线性规划问题的图解法
图解法是一种只能求解两个决策变量的线性规划问题的方法,不能解决多个决策变量的问题。但它有助于直观了解线性规划问题,并有助于后面章节介绍的单纯形法的理解。(一)图解法的基本步骤例6-1-7利用图解法求解下列线性规问题;
五、线性规划问题的图解法
图6-1-2可行域图6-1-1五、线性规划问题的图解法
;
图6-1-3目标函数
图6-1-4图解法求解
五、线性规划问题的图解法
(二)图解法的几种可能结果在使用图解法求解线性规划问题的过程中,除了存在上述唯一最优解的情况,还可能存在其他情况,如存在多个最优解,存在无界解或无可行解,下面分别进行讨论与总结。(1)可行域为封闭的有界区域。①存在唯一的最优解,如图6-1-5所示。②存在无穷多的最优解,如图6-1-6所示。
图6-1-5存在唯一的最优解(1)
图6-1-6存在无穷多的最优解(1)五、线性规划问题的图解法
(2)可行域为非封闭的无界区域。①存在唯一的最优解,如图6-1-7所示。②存在无穷多的最优解,如图6-1-8所示。③存在无界解,如图6-1-9所示。(3)可行域为空集。可行域为空集,即约束条件不存在公共部分,这种情况下是无可行解的,如图6-1-10所示。图6-1-7存在唯一的最优解(2)
图6-1-8存在无穷多的最优解(2)
图6-1-9存在无界解
图6-1-10无可行解
五、线性规划问题的图解法
(三)图解法基本结论对于只有两个决策变量的线性规划问题,可以利用图解法求解,从几何的角度得出以下几个结论。(1)线性规划问题的可行域为一个有界或无界的凸多边形,其顶点个数是有限个,且对应该问题的基可行解。(2)若线性规划问题有唯一的最优解,那么最优解一定可在可行域的某个顶点(基可行解)上找到。(3)求解线性规划问题时,解的可能情况有唯一最优解、无穷多最优解、无界解、无可行解等。;
六、线性规划的对偶问题与灵敏度分析
(一)对偶问题的提出对偶理论是线性规划问题中最重要和有意义的概念。它的基本思想是每个线性规划问题都有一个对偶问题,求出一个问题的解时,也同时给出了对偶问题的解。通过实际例子可以看出对偶问题的意义。在例6-1-1中,XY公司利用现有的资源生产两种产品时,其线性规划问题为;
六、线性规划的对偶问题与灵敏度分析
现在从另一角度提出问题。假如某个公司想购买XY公司的资源,它至少应付出多大代价,才能使XY公司愿意放弃其目前的生产活动,出售自己的资源?很显然,如果要使XY公司出让自己的资源,其基本条件应当是出让代价不低于自己用相同数量的资源组织生产活动时所能够获取的赢利。如果单位设备台时和工时的出让代价分别用y1和y2来代表,因为XY公司生产一件产品Ⅰ需要用到2单位的设备台时和2单位的工时,可以赢利100元;生产一件产品Ⅱ需要用3单位的设备台时和1.5单位的工时,可以赢利120元,所以y1、y2的取值应该要满足这家公司希望用最小代价把XY公司的全部资源收买过来,故有显然,yi
≥0(i=1,2),再综合上式有
对于上述的两个线性规划问题,通常称前者为原问题,称后者为前者的对偶问题。六、线性规划的对偶问题与灵敏度分析
(二)对称形式下对偶问题的一般形式定义6.1.1满足下列条件的线性规划问题称为具有对称形式:其变量均具有非负约束;其约束条件为当目标函数求极大值时均取“≤”号,当目标函数求极小值时均取“≥”号[20]。对称形式下,线性规划原问题的一般形式为;
六、线性规划的对偶问题与灵敏度分析
;
六、线性规划的对偶问题与灵敏度分析将上述对称形式下线性规划问题的原问题与对偶问题进行比较,如下表所示。原问题与对偶问题的对比;
原问题对偶问题A约束系数矩阵其约束系数矩阵的转置b约束条件的右端常数项向量目标函数中的价格系数向量C目标函数中的价格系数向量约束条件的右端常数项向量目标函数约束条件六、线性规划的对偶问题与灵敏度分析
六、线性规划的对偶问题与灵敏度分析将上述对称形式下线性规划问题的原问题与对偶问题进行比较,如下表所示。
原问题与对偶问题的对比;
原问题对偶问题A约束系数矩阵其约束系数矩阵的转置b约束条件的右端常数项向量目标函数中的价格系数向c量C目标函数中的价格系数向量约束条件的右端常数项向量目标函数约束条件六、线性规划的对偶问题与灵敏度分析
;
六、线性规划的对偶问题与灵敏度分析
;
七、线性规划软件求解(一)用Excel求解线性规划模型例6-1-10用Excel求解线性规划模型:;
七、线性规划软件求解先将线性规划模型数据输入Excel表格中点击“数据”→“规划求解”按钮,弹出上图所示的“规划求解参数”对话框,依次添加规划求解参数。点击“求解”按钮,根据计算提示可知,得到了一个最优解,满足所有的约束条件及目标函数值的最大化要求,在“规划求解结果”对话框中选中“保存规划求解结果”单选按钮,然后点击“确定”按钮,可以得到求解的结果;
模型数据输入求解结果(Excel)求解步骤七、线性规划软件求解(二)用LINGO软件求解线性规划问题LINGO(LinearInteractiveandGeneralOptimizer)即“交互式的线性和通用优化求解器”,可用于求解线性规划和非线性规划的大规模优化问题,其建模和输入方便,执行速度快。例6-1-11有如下线性规划问题,请用Lingo软件求解。;
七、线性规划软件求解对于决策变量少、约束条件不多的线性规划模型,只需按照LINGO程序书写规则,将线性规划模型直接输入。;
点击“Run”按钮
输入线性规划模型
求解结果(LINGO)七、线性规划软件求解(三)用管理运筹学软件求解线性规划问题例6-1-12某工厂在计划期内要安排Ⅰ、Ⅱ两种产品的生产,已知生产单位产品所需的设备台时及A、B两种原材料的消耗、资源限制,如下表所示。产品信息表
问题:工厂应分别生产多少单位Ⅰ、Ⅱ产品才能使工厂获利最大?;
III资源限制设备台时/小时11300原料A/kg21400原料B/kg01250单位产品获利/元50100
七、线性规划软件求解
软件求解过程如下1234七、线性规划软件求解;
整数规划问题02一、整数规划的一般形式
整数规划的一般形式如下:例6-2-1某公司拟用集装箱托运甲、乙两种货物,货物信息(每箱的体积、质量、利润及托运限制)如下表所示。两种货物各托运多少箱,可使所获利润最大?货物信息一、整数规划的一般形式
二、含0-1变量的整数规划0-1变量作为逻辑变量(LogicalVariable),常用于表示系统是否处于某一特定状态或者决策时是否采取某个方案,因此提供选择的功能,即整数规划建模上的灵活性在很大程度上是由于使用了0-1变量(又称为二进制变量)。例6-2-2背包问题:一个登山队员需要携带的物品有食品、氧气、冰镐、绳索、帐篷、照相器材、通信器材等,物品的质量和重要性系数如下表所示。设登山队员可携带的最大质量为25kg,试选择该队员应携带的物品。表6.2.2物品质量和重要性函数
三、混合整数规划
例6-2-4高压容器公司制造小、中、大三种尺寸的容器,所需资源为金属板、劳动力和机器设备,制造一个容器所需的各种资源的数量如下表所示。不考虑固定费用,每种容器售出一只所得的利润分别为4万元、5万元、6万元,可使用的金属板有500吨,劳动力有300人/月,机器设备有100台/月,此外不管每种容器制造的数量是多少,都要支付一笔固定的费用:小号容器是100万元,中号容器为150万元,大号容器为200万元。请制定一个生产计划,使获得的利润最大。
制造一个容器所需的各种资源的数量资源小号容器中号容器大号容器金属板/吨248劳动力/(人/月)234机器设备/(台/月)123三、混合整数规划
三、混合整数规划
四、整数规划模型求解方法
五、指派问题及其解法
(一)指派问题的数学模型例6-2-6有5个工人,要指派他们分别完成5项工作,各人完成各项工作所需时间如下表所示。指派哪个人去完成哪项工作,才能使得消耗的总时间最短?各人完成各项工作所需的时间工作工人ABCDE甲56841乙73579丙18656丁63785戊97268五、指派问题及其解法
为了解决这个问题,首先引入0-1变量xij,令用z表示5个工人分别完成5项工作所消耗的总时间,该问题的目标函数为约束条件为五、指派问题及其解法
五、指派问题及其解法
六、整数规划软件求解
(一)Excel求解用Excel对整数规划问题进行建模就是在对线性规划问题进行建模的基础上,如果要求所有决策变量取整数,则在约束条件中进行变量设置。对于例6-2-1,用Excel对其建模。对例6-2-1建模其中,约束条件格F2的命令为“=sumproduct(B2:B3,E2:E3)”;约束条件格F3的命令为“=sumproduct(C2:C3,E2:E3)”;目标函数格F5的命令为“=sumproduct(D2:D3,E2:E3)”。
规划求解选项设置点击“规划求解选项”对话框中的“确定”按钮,再点击“规划求解参数”对话框中的“求解按钮”,得到最优解。例6-2-1的求解结果(Excel)六、整数规划软件求解
(二)LINGO软件求解对例6-2-1进行求解。LINGO程序如下:MODEL:MAX=600*x1+400*x2;2*x1+4*x2<=13;200*x1+100*x2<=700;@gin(x1);!变量x1为整数;@gin(x2);!变量x2为整数;End例6-2-1的求解结果(LINGO)
运输问题03一、运输问题的数学模型
一、运输问题的数学模型
销售地B1B2…Bn生产地A1c11c12…c1nA2c21c22…c2n
Amcm1cm2…cmn单位运价表销售地B1B2…Bn生产地A1…A2…
Am…平衡表
一、运输问题的数学模型
一、运输问题的数学模型
二、运输问题的基本性质
三、运输问题软件求解
(一)运输问题Excel求解1.产销平衡运输问题Excel求解例6-3-1某公司有3个生产同类产品的加工厂(生产地),生产的产品由4个销售点(销售地)出售,各生产地的产量、各销售地的销量(假定单位均为吨)及将产品由各生产地运往各销售地的单位运价(元/吨)如表所示,应如何调运才能使总费用最小?
产量、销量单位运价表(1)
销售地产量/吨B1B2B3B4生产地A14124118A2210395A38511611销量/吨4767
三、运输问题软件求解
用Excel对运输问题建模类似于用Excel对线性规划问题建模。其中,约束条件格F12、F13、F14的命令分别为“=sum(B12:E12)”“=sum(B13:E13)”“=sum(B14:E14)”;约束条件格B15、C15、D15、E15的命令分别为“=sum(B12:B14)”“=sum(C12:C14)”“=sum(D12:D14)”“=sum(E12:E14)”;目标函数格C17的命令为“=sumproduct(B5:E7,B12:E14)”。给定可变单元格与约束条件后,点击“选项”按钮进行规划求解选项设置。对例6-3-1建模规划求解选项设置(1)三、运输问题软件求解
2.产销不平衡运输问题Excel求解利用Excel求解产销不平衡的运输问题时
,我们可以不用将其转变为产销平衡运输问题而直接进行求解。例6-3-1的求解结果(Excel)三、运输问题软件求解
(二)运输问题管理运筹学软件求解例6-3-3某公司从三个生产地A1、A2、A3将产品运往四个销售地B1、B2、B3、B4,各生产地的产量、各销售地的销量和将产品由各生产地运往各销售地的单位运价(万元/吨)所示,问:应如何调运使总运输费用最小?产量、销量、单位运价表设xij为从生产地Ai运往销售地Bj的运输量,得到运输量表所示。运输量表
销售地产量/吨B1B2B3B4生产地A1675314A2842727A35910619销量/吨22131213
销售地产量/吨B1B2B3B4生产地A114A227A319三、运输问题软件求解
整理可得三、运输问题软件求解
将上述问题用单位运价表表示产量、销量、单位运价表(4)运行管理运筹学软件,选择“运输问题”模块,点击“新建”按钮,设置目标函数,输入产地个数、销地个数,点击“确定”按钮后,工作区中会出现单位运价表。按照各个生产地到销售地的运价情况完善单位运价表。点击“解决”按钮,输出求解结果。求解结果显示:此运输问题的成本为232万元,最佳运输方案为:从生产地A1向销售地B1和B4分别运输1吨和13吨的产品;从生产地A2分别向销售地B1、B2、B3运输2吨、13吨、和12吨产品;从生产地A3向销售地B1运输19吨产品,只有这样,才能够使总运输费用最低,且能保障各个销售地的产品需求。
销售地产量/吨B1B2B3B4生产地A1675314A2842727A35910619销量/吨22131213
三、运输问题软件求解
求解结果显示:此运输问题的成本为232万元,最佳运输方案为:从生产地A1向销售地B1和B4分别运输1吨和13吨的产品;从生产地A2分别向销售地B1、B2、B3运输2吨、13吨、和12吨产品;从生产地A3向销售地B1运输19吨产品,只有这样,才能够使总运输费用最低,且能保障各个销售地的产品需求。本章习题04一、单选题
一、单选题
4.对于总产量大于总销量的运输问题,在增加一个虚设的销售地后转化为产销平衡问题,此时各生产地到虚设的销售地的单位运价应设为(
)。A.M(足够大的数) B.0 C.现有单位运价的最大值 D.以上都不对5.有甲、乙、丙三个城市,每年分别需要煤320万吨、250万吨、350万吨,由A、B两个煤矿供应。已知煤矿年产量:A为400万吨,B为450万吨,从两煤矿至各城市的单位运价表如下表所示。由于需求量大于产量,经协商平衡,甲城市的供应量可减少0~30万吨,乙城市的需求量必须全部被满足,丙城市的供应量不少于270万吨。问:若将甲城市的需求量拆分成甲和甲',则B运往甲'的单位运价为(
)。
从两煤矿至各城市的单位运价表A.M(足够大的数) B.21 C.0 D.以上都不是
甲乙丙A151822B212516谢谢第七章商业预测目录CONTENTS01潜在客户识别预测02商业时间序列预测问题潜在客户识别预测011.了解潜在客户识别的定义。2.掌握潜在客户识别的方法。3.掌握潜在客户识别的模型,重点掌握潜在客户识别预测模型。4.了解时间序列预测模型的基本理论。5.了解时间序列预测模型的分析流程。6.掌握时间序列预测模型在R中的实现及其交叉精度检验。学习目标
现代企业要想增加其利润,不仅要对现有的有价值客户进行维护,还要对那些具有潜在价值的客户,即潜在客户进行不断的挖掘。(一)潜在客户与客户价值
经济全球化和信息技术的快速发展使企业的生存环境发生了很大改变。企业为了能够在激烈的竞争环境中求得生存和发展,把自己的经营理念从以提高产品或服务质量为核心转向了以客户为核心。因此,将客户关系管理思想运用到企业的经营管理中,是企业生存环境的必然要求。然而,许多企业在努力研究如何不让现有客户流失的情况下,忽略了对潜在客户的挖掘,如果企业能够提前预测一些潜在客户,并对其进行相应的营销工作,就可能在很大程度上增加企业的利润,为企业创造更多的价值。所以,潜在客户识别具有非常重要的现实意义。潜在客户其实就是这些客户:他们虽然现在还不是企业的有价值客户,但将来有可能成为企业的有价值客户,从而给企业带来巨大的利润。所谓的客户价值,就是指客户能为企业带来的价值,其大小等于企业过去、现在、未来从客户身上获得的收益与吸引、发展、维护客户所需的成本之差。一、潜在客户识别理论(二)客户价值的分类
客户价值包括客户的当前价值和潜在价值。与客户的当前价值相比,客户的潜在价值关系到企业的长远利益,对企业的将来更加重要,也是客户价值不可缺少的重要方面。正是由于这个原因,对客户潜在价值的研究越来越受到企业的重视。(三)潜在客户识别方法
由于数据挖掘技术迎合了企业在营销和服务业务中涉及的客户数据的量大、细节化、分布广泛等特点,因此它在海量数据处理、潜在客户识别等方面发挥了重要作用。现有的潜在客户识别方法可以归纳为以下几种,数据挖掘技术能够有效地支持这些方法的应用。1.基于客户统计学特征的潜在客户识别方法2.基于客户交易行为的潜在客户识别方法(四)数据挖掘理论
数据挖掘理论和方法是潜在客户识别的核心方法。企业可以根据客户信息、历史行为记录等资料对客户进行分析,并利用数据挖掘技术建立相应的预测模型。此后,企业可以根据模型结果把握潜在客户的特征,并进行相应的营销活动。在数据爆炸的网络时代,企业希望能够对数据进行更高层次的分析,以便更好地利用这些数据,数据挖掘技术应运而生,并显示出强大的生命力。1.数据挖掘的基本概念
从1989年至今,数据挖掘的定义随着人们研究的不断深入而不断完善,目前获得认可的定义是由Fayyad等人提出的:数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程,它从数据集中识别出用模式来表示的知识。数据挖掘的过程是一个多步骤的处理过程,多个步骤之间相互影响、反复调整,形成一种螺旋式上升的态势。2.数据挖掘的常用技术
数据挖掘技术大致可分为描述式数据挖掘技术和预测式数据挖掘技术,具体来讲,数据挖掘技术可分为以下五类。(1)人工神经网络。
人工神经网络是由大量的简单神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,其具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。目前,人工神经网络主要应用于分类、优化、模式识别、预测和控制等领域。(2)决策树。
决策树根据不同的特征,以树状结构表示分类或决策集合,产生规则和发展规律。利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立决策树的分支,在每个分支子集中,重复建立决策树的下层节点和分支,即可建立决策树。(3)遗传算法。
遗传算法基于进化论中的基因重组、基因突变和自然选择等概念,利用复制(自然选择)、交叉(基因重组)和变异(基因突变)3个基本算子进行求解。遗传算法的最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强。目前,遗传算法已发展成一种自组织、自适应的综合技术,而且其应用领域很广,如工程技术、计算机科学等。(4)粗糙集算法。
粗糙集算法的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属函数等,其直接从给定的问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该问题的内在规律。它的理论核心是基于“知识源于对对象的分类”这一思想的,其通过分类找出属性间的关联规则。(5)关联规则。
关联规则主要针对事物型数据库,是与大多数人想象的数据挖掘过程最相似的一种数据挖掘形式。根据关联规则中所处理的值的类型,关联规则可以分成布尔关联规则和量化关联规则两种;根据关联规则集所涉及的不同抽象层次,关联规则可以分成多层关联规则和单层关联规则。特别是对于销售数据,如果利用关联规则对历史交易数据进行分析,可为预测客户未来的购买行为提供极有价值的信息。
下面重点讲解关于决策树的内容。决策树是一种建立分类模型的技术。由于模型结构和生成规则具有简洁性,因此决策树一直以来很受欢迎。(1)决策树的定义。
决策树是一种基于贪心算法的分类方法,采用自顶向下递归的思想进行构造。其中一个内部节点代表一个属性上的测试,一个分支代表一个测试输出,而一个叶节点代表一个类或类分布。以使用条件属性I和条件属性J来预测决策属性的取值是否为真为例,典型的决策树如图所示。(2)决策树的基本算法。①ID3算法:由J.RossQuinlan于1975年提出的一种基于信息熵的决策树算法,他把信息论引入决策树算法中,把信息熵作为选择测试属性的标准,对训练集进行分类,并构造决策树来预测如何利用测试属性对整个实例空间进行划分。ID3算法的建树时间和任务的困难程度呈线性递增关系,计算量相对小,但存在的问题是信息增益的计算依赖于属性取值较多的特征,而属性取值较多的属性不一定最优;ID3算法是非递增学习算法,抗噪性差,训练例子中的正例和反例较难控制。②C5.0算法:由ID3算法改进两次而成的,先由ID3算法改进成C4.5算法,它在ID3算法的基础上增加了连续属性的离散化,再在C4.5算法的基础上改进成C5.0算法,其根据提供最大信息增益的字段分割样本数据,并通过对决策树各子叶进行裁剪或合并来提高分类精度,最后确定各子叶的最佳阈值。C5.0算法通常无须花费大量的训练时间即可构造决策树,且容易对构造的决策树进行解释。C5.0算法中还增加了强大的Boosting算法以提高分类精度,Boosting算法依次构造一系列决策树,构造的决策树重点考虑以前被错分和漏分的数据,最后生成更准确的决策树。③CART算法:是ClassificationAndRegressionTree的英文缩写,CART算法可以处理高度倾斜或多态的数值型数据,也可以处理顺序或无序的类属性数据。CART算法选择具有最小基尼系数Gini的属性作为测试属性,Gini越小,样本的“纯净度”越高,划分效果越好。与C5.0算法类似,CART算法也是先建树后剪枝,但在具体实现上有所不同。④CHAID算法:J.A.Hartigan在1975年首次提出了CHAID算法,该算法是一种基于卡方检验的决策树算法,它可以处理离散型特征,适用于分类问题。CHAID算法和CART算法最大的不同之处在于CHAID算法只能处理分类变量。⑤SLIQ算法:是一种快速可伸缩的适合处理较大规模数据的决策树分类算法。它能够同时处理连续变量和分类变量,在决策树生成过程中采用“预先排序”和“宽度优先”的策略,对于每个变量,首先扫描相应的属性排序表,同时计算每个变量值在当前树的所有叶节点中的熵值,计算完成后,为当前决策树中的每个叶节点选择一个属性进行分支,然后再次扫描属性排序表,对类表中的节点名称进行更新。⑥SPRINT算法:进一步改进了决策树算法实现时的数据结构,去掉了SLIQ算法需要存储在内存中的类别列表,将它的类别列表合并到每个属性列表中。此算法是一种可扩展、可并行的归纳决策树算法,它完全不受内存限制,运行速度快,且允许多个处理器协同创建一个决策树模型。⑦PUBLIC算法:基于SPRINT方法,剪枝基于MDL原则,但MDL原则不能直接应用。因为生长不完全的决策树提供的信息不安全,所以对于仍要扩展的叶节点,估算的编码代价偏高,这会导致过度剪枝,从而降低预测精确度。PUBLIC算法采用低估策略来矫正过高的编码代价,即对于将要扩展的叶节点,计算编码代价的较低阈值;而对于另两类叶节点(剪枝形成的、不能被扩展的),估算方法不变。
本节主要讲解保险业在潜在客户识别方面的研究,保险公司的目标客户是指保险产品的提供对象,包含潜在客户和现有客户两部分。(1)潜在客户分析。
在保险业这个特定领域中,保险产品的可能购买者就是潜在客户,包括以前没听过或没购买过保险产品的人、以前不需要购买保险产品的人等。在对潜在客户进行分析时,由于数据量受限,要想利用数据挖掘技术,可以采用两种解决方案。
第一种解决方案:对于这些潜在客户,保险公司对他们的了解较少,掌握的客户信息数据有限,因此难以利用数据挖掘技术对其进行建模分析。针对此种情况,保险公司应采取某些必要措施来获取地址、年龄、收入、职业、教育程度和购买行为等方面的客户信息数据。在掌握相关数据后,保险公司可以根据实际情况进行一定规模的实验,进而通过实验观察这些潜在客户对保险产品的态度,然后根据反馈信息建立数据挖掘预测模型,寻找本公司保险产品的优势,实现成功销售。
第二种解决方案:从节约时间和成本的角度考虑,首先保险公司可以通过对现有客户基本信息数据的挖掘,找到已购买某类保险产品的客户具备的基本特征;然后以发现的基本特征为依据,找出那些具有同样特征的人群,这些人群就是保险公司的潜在客户;最后将潜在客户转化为实际客户。(2)现有客户分析。
对现有客户的分析其实就是对有价值客户的分析,有价值客户就是指能给保险公司带来利润增长的客户。保险公司要想知道某些客户是否能带来盈利,就必须对客户进行盈利率分析。通过盈利率分析,就可以找到保险公司的有价值客户。这些有价值客户包括三类:第一类是目前给保险公司带来最大利润的客户,也称之为高价值客户,即保险公司对其投入较少成本就可以获得高收益的客户,保险公司可以针对高价值客户进行更深层、更细致的客户关系管理;第二类是现在给保险公司带来丰厚利润,且未来可能成为最大利润贡献者的客户;第三类是现在能为保险公司做出利润贡献,但正在逐渐失去价值的客户。二、案例分析(一)案例介绍
近年来,中国保险业在迅速发展的同时,也面临着更加严峻的考验。据《中国保险年鉴(2022年)》统计,经过12年的不断发展,保险业市场竞争激烈。截至2021年年底,全国已有保险集团公司10家,保险公司139家,保险资产管理公司11家;全国共有省级(一级)分公司1619家,中支和中支以下营业性机构68968家。保险从业人员高达353.83万人,其中营销员有279.6万人。对保险公司的资本结构进行分析后发现:中资保险公司共有79家,其中产险公司、寿险公司、再保险公司分别为39家、37家、3家;外资保险公司共有51家,其中产险公司、寿险公司、再保险公司分别为21家、25家、5家。快速增多的保险市场主体使中国保险业不得不面临国内、国际两方面的竞争。保险公司对客户资源的争夺已到白热化阶段,对新市场空间的开发变得越发困难。
本案例从定量角度出发,通过历史数据对车辆保险产品的潜在客户展开研究,建立基于决策树算法的车辆保险产品的潜在客户识别模型,根据保险公司提供的有关数据进行特征选取,建立相应的决策树模型,进而分析出车辆保险产品的潜在客户画像,以提高保险公司营销推荐的成功率和经营效率,为保险公司提供潜在客户识别模型的设计思路,进一步丰富车辆保险产品的相关研究。(二)实证分析1.数据来源
本案例所使用的数据来源于Kaggle网站。为了预测保险公司客户是否会对该公司的车辆保险产品感兴趣,数据集包含人口统计信息(性别、年龄、区域代码)、车辆(车龄、车辆是否损坏)、保单(年度保险费、保单销售渠道)等11个相关信息。现将这11个相关信息定义为自变量,利用这些自变量去预测客户是否对该公司的车辆保险产品感兴趣,因变量是Response字段,表示是否感兴趣,对车辆保险产品感兴趣的客户用1作为标签,对车辆保险产品不感兴趣的客户用0作为标签,因此这个模型属于有监督的二分类模型,单个变量的含义如表7.1.1所示。
该数据集共有381109个车辆保险产品购买者(客户)的相关信息,其中12.26%的客户对该公司的车辆保险产品感兴趣,87.74%的客户对该公司的车辆保险产品不感兴趣,对车辆保险产品感兴趣的客户与对车辆保险产品不感兴趣的客户的比例约为1∶7,客户兴趣状态饼图如图7-1-3所示。由上述分析可知,对车辆保险产品感兴趣的客户群体数量较少,属于少数类样本,也称为正样本;对车辆保险产品不感兴趣的客户群体数量较多,属于多数类样本,也称为负样本。它们之间存在明显的不平衡现象。2.数据预处理
数据的质量决定了模型的预测与泛化能力,所以在数据建模之前有一个非常关键的步骤,就是数据预处理。为了使数据达到适应模型、匹配模型的要求,一般会对数据进行预处理来解决数据类型不同、数据有缺失等问题。通过查看数据集的信息,我们可以大致了解数值列、字符列、不同变量的取值范围。通过对数据格式、结构等进行转换,将数据转换为适合处理的形式进行建模来发现其中隐藏的潜在信息规则。变量类型与描述性统计如表7.1.2所示。
由表7.1.2可知,在数据集的12个变量中,有10个整数型变量,2个字符型变量。从取值范围可以看出不同变量之间的差别相对较大,存在量纲不一致的问题。另外,经过缺失值检验发现,数据集中的12个变量都不存在缺失值。对数据的主要处理如下。(1)字符型变量处理。
对数据集中的2个字符型变量进行如下处理:对于Gender(性别)这个变量,本案例将Male(男性)设置为0,将Female(女性)设置为1;对于Vehicle_Age(车龄)这个变量,将车龄>2years(大于2年)设置为2,将车龄1~2years(1~2年)设置为1,将车龄<1year(小于1年)设置为0。(2)无效值处理。
无效值处理就是对无意义的特征变量或可能破坏模型稳定性的数据进行删除处理。在保险公司的数据集中,ID这个变量为客户序号,没有实际意义,且可能影响模型稳定性,因此将这个变量删除。(3)数据标准化处理。
数据标准化处理是非常有必要的,不同特征变量往往具有不同的量纲,而且各变量值的取值范围也有很大差异,虽然决策树模型对数据的量纲非常不敏感,但是有些模型对此比较敏感,如KNN、支持向量机等要求数据具有一致的量纲。为了统一,本案例选用max-min标准化来消除量纲的影响,提高模型准确性。(4)样本的均衡化处理。
不平衡数据是指数据集样本中标签的比例明显不平衡,不同类别样本的样本量差异非常大,通常来说标签的比例大于1∶3就可以称为不平衡数据。本案例的数据集中对车辆保险产品感兴趣的客户与对车辆保险产品不感兴趣的客户的比例约为1∶7,所以此数据为不平衡数据。样本分布不平衡,即正、负样本的数量差别较大,主要出现在与分类相关的建模问题上。样本分布不平衡将导致样本量少的样本中包含的特征过少,从样本量少的样本中提取特征规律难度较大,也会导致过拟合等问题,且得到的结果准确性和稳定性较差。
目前,解决样本分布不平衡问题的方法主要有两种:一种是从算法角度出发的方法;另一种是从数据角度出发的方法。前者对传统的分类算法进行改进,分类算法大多是依据平衡数据集进行设计的,因而从算法角度对其进行优化的难度较大;后者采用重采样技术改进不平衡数据集类别的比例,从而使数据集中正、负样本平衡,相对比较简单。本案例使用过采样法中的随机过采样法来平衡训练集,将正、负样本的比例调整为1∶1,经过测试,采用经随机过采样法处理的数据训练出来的模型比采用未经处理的数据训练出来的模型在AUC(曲线下面积)等指标上有所提升。3.模型评价指标
进行上述一系列处理之后,建立模型之前,先介绍本案例所用的模型评价指标,以判断模型的优劣。(1)准确率。准确率反映了模型结果相对于实际结果的准确程度。(2)查准率、召回率。在实际情况中,模型的准确率只能对模型进行大概的评价,因此定义查准率(Precision)表示模型预测为正样本且其真正为正的比例,召回率(Recall)表示所有正样本中被模型预测成功的比例。(3)ROC曲线与AUC。
ROC曲线关注两个指标:一是真正类率(TPR=TP/(TP+FN));二是假正类率(FPR=FP/(FP+TN))。直观上,TPR代表能将正类正确分类的可能性,FPR代表将负类错误地分为正类的可能性。在ROC曲线上,每个点的横坐标为FPR,纵坐标为TPR,这也显示了分类器在TP与FP之间的取舍,而将(FPR,TPR)连接起来就形成了ROC曲线。
AUC为ROC曲线的起点、终点与垂直坐标轴所围成的面积,一般来说,AUC的值越大越好,根据经验,AUC的值介于0.5与1.0之间,AUC的值越大代表模型的分类效果越好。4.建模前的准备
在训练模型和预测之前,为了更好地评价和比较不同模型之间的分类预测效果,应该尽可能保证使用的训练集和测试集样本成分相似,先将381109个样本进行样本均衡化和数据标准化,再划分数据集的训练集和测试集,最后利用R语言随机抽取数据集中70%的样本为训练集,其余的30%为测试集,如表7.1.3所示。由表7.1.3可知,训练集和测试集的切分基本均匀,训练集用于构建模型,测试集用于评估模型。为了更好地构建模型,对训练集进行均衡化处理。5.构建模型(1)ID3模型的构建。利用R语言在RStudio平台上建立ID3模型,使用rpart()函数建立ID3模型,对测试集进行预测,ID3模型测试集的混淆矩阵如表7.1.4所示。ID3模型的AUC值约为0.783,准确率约为0.783,召回率约为0.977,说明ID3模型可以较好地区分正、负样本,整体分类预测结果较好。ID3模型的ROC曲线如图7-1-4所示。(2)CART模型的构建。利用R语言在RStudio平台上建立CART模型,对测试集进行预测。CART模型测试集的混淆矩阵如表7.1.5所示。CART模型的AUC值约为0.783,准确率约为0.783,召回率约为0.977,整体来说,CART模型的分类预测结果也较好,可以较好地区分正、负样本。CART模型的ROC曲线如图7-1-5所示。(3)C5.0模型的构建。先利用R语言在RStudio平台上使用C5.0算法进行C5.0模型构建,再计算C5.0模型的AUC、召回率、准确率等,评价C5.0模型在该问题中的分类预测效果。C5.0模型测试集的混淆矩阵如表7.1.6所示。C5.0模型的AUC值约为0.852,准确率约为0.852,召回率约为0.982,该模型对正、负样本有很好的区分能力,整体分类预测结果非常优秀。C5.0模型的ROC曲线如图7-1-6所示。(4)模型结果对比分析。
将ID3模型、CART模型、C5.0模型三个模型的相关评价指标汇总,如表7.1.7所示。由表7.1.7可知,三个模型的AUC值均大于或等于0.783,处于良好水平,而三个模型的准确率和召回率也非常优秀,准确率均大于或等于0.783,召回率均大于或等于0.977,说明分类预测结果可以覆盖绝大多数车辆保险产品的潜在客户。但是综合来看,C5.0模型的AUC值、准确率和召回率都高于其他两个模型,说明C5.0模型最合适,各项评价指标均最佳,在车辆保险产品潜在客户识别问题上有很好的可行性,因此最终选取C5.0模型对车辆保险产品潜在客户进行预测识别。(5)特征重要性分析。
从表7.1.7中可以发现,C5.0模型对车辆保险产品潜在客户的预测识别效果最好,同时C5.0模型可以在模型构建中展现特征的重要性。一般来说,特征重要性不仅可以衡量特征在模型构建中的作用,还反映了特征对潜在客户预测的影响。由C5.0模型的特征重要性排序可知,不同变量对模型预测结果的重要性是不同的,因此可以进一步分析得出哪些变量对车辆保险潜在客户识别比较重要,从而提醒保险公司重点关注客户的这些特征,制定合理的营销策略。本案例使用的C5.0模型的特征重要性排序依据是使用不同特征进行分割带来的总信息增益,如图7-1-7所示。从图7-1-7中可以看出,车辆是否损(Vehicle_Damage)、以前是否购买过车辆保险产品(Previously_Insured)、保单销售渠道(Policy_Sales_Channel)是排名前三的变量,年龄(Age)、区域代码(Region_Code)、车龄(Vehicle_Age)也是对识别潜在客户影响较大的因素,保险公司应该重点关注这些因素,从而制定更加精准的营销方案,挖掘出更多潜在客户,进而将其转变为真正的客户,创造收益,提高竞争能力。6.总结
本案例通过对某保险公司车辆保险客户数据进行数据分析,介绍了数据集的基本特征并对数据集进行了样本均衡化和数据标准化,保证了决策树模型的准确性和健壮性;同时为了保证决策树模型的分类预测效果,构建了三种不同的决策树模型,通过各种评价指标比较三种决策树模型的分类预测性能,最后得出C5.0模型是表现最佳的模型,并且在此基础上对C5.0模型的特征重要性进行了排序分析。商业时间序列预测问题02常用的时间序列预测模型如表7.2.1所示。一、时间序列预测模型的基础理论除以上模型外,常用于时间序列预测的还有平滑预测法。平滑预测法常用于时间序列的趋势分析和预测,通过修匀技术削弱短期随机波动对时间序列的影响,使得时间序列更加平滑,具体分为移动平滑法和指数平滑法。一、时间序列预测模型的基础理论(一)时间序列预处理一、时间序列预测模型的基础理论1.时间序列定义时间序列就是一组按照时间顺序排列的数据,记录了一个随机事件在不同时刻的表现。换句话说,按照时间顺序记录的某随机事件的发展过程构成一个时间序列。其中,时间序列的n个有序观察值称为序列长度为n的观察值序列,对时间序列进行观察、研究,寻找随机事件变化发展的规律,预测其未来走势即为时间序列分析。时间序列是商业分析中很常见的一种数据形式,如把某店铺2019年至2021年每个月的销量记录下来就构成了一个长度为36期的时间序列。进行时间序列研究的目的是揭示随机时序的性质,即通过分析它的观察值序列的性质来推断随机时序的性质。2.时间序列平稳性时间序列分析是统计学中的一个重要分支,它涉及到对时间序列数据进行建模和预测。在进行时间序列建模之前,通常需要对数据进行平稳性检验和纯随机性检验,这是因为很多时间序列模型都是建立在数据具有平稳性的基础之上的。平稳性的定义:平稳性是指时间序列的统计特性不随时间变化而变化。具体来说,平稳性分为两种类型:严平稳(StrongStationarity):时间序列的所有阶矩(均值、方差、偏度、峰度等)都不随时间变化,且任意时间点的联合概率分布与任何其他时间点的联合概率分布相同。宽平稳(WeakStationarity):通常指的是二阶平稳,即时间序列的均值和方差不随时间变化,且自协方差只依赖于时间间隔,不依赖于时间的起点。一、时间序列预测模型的基础理论
平稳时间序列的性质:均值为常数:整个序列的均值是恒定的。自协方差和自相关系数只依赖于时间的平移长度:与时间序列的起始点无关。方差也为常数:整个序列的方差是恒定的。平稳性检验的目的:简化模型参数估计:由于平稳时间序列的均值和方差恒定,可以使用整个样本数据来估计这些参数,简化了参数估计过程。一、时间序列预测模型的基础理论平稳性检验的方法:图检法:通过绘制时间序列图和自相关图来直观判断序列是否平稳。时间序列图:观察数据是否围绕一个常数值上下波动,波动是否有界。自相关图:观察自相关系数随滞后阶数的增减情况。统计检验法:构造检验统计量来判断序列的平稳性,常用的方法包括单位根检验(如ADF检验)等。自协方差和自相关系数:自协方差:衡量时间序列在不同时间点的值的协方差,对于平稳时间序列,自协方差只与时间间隔有关。自相关系数:自协方差与同时点的方差的比值,衡量时间序列在不同时间点的相关程度。一、时间序列预测模型的基础理论协方差可以通俗地理解为两个变量在变化过程中是同方向变化还是反方向变化,同向或反向程度如何。而相关系数研究的是变量之间线性相关程度如何,相关系系的计算公式如下:
式中,COV(X,Y)为两个变量间的协方差;
、
分别为两个变量的标准差。将协方差和相关系数应用到时间序列中,即为自协方差和自相关系数。自协方差表示不同时刻两个观察值之间的变化关系,计算公式为
式中,
为时间序列在t时刻的均值;
为时间序列在s时刻的均值。一、时间序列预测模型的基础理论自相关系数衡量的是不同时刻两个观察值之间的相关程度,计算公式为
式中,
为时间序列t、s时刻的自协方差;
分别为时间序列t、s时刻的方差。根据平稳时间序列自协方差和自相关系数只依赖于时间的平移长度,而与时间的起止点无关这一性质,定义平稳时间序列的自协方差函数
:
相应的延迟k阶的自相关系数等于除以序列标准差,即平稳时间序列具有短期相关的特点是指随着延迟阶数k趋于n-1,自相关系数在短期内快速衰减到0附近小幅度振荡,这也是利用自相关图进行平稳性检验的依据。一、时间序列预测模型的基础理论时间序列分析中,除了平稳性检验外,纯随机性检验也是非常重要的一步。纯随机性检验主要用于判断一个平稳时间序列是否为纯随机序列,即白噪声序列。白噪声序列是一种理想化的随机序列,其中各个时刻的值之间相互独立,没有相关性。纯随机序列(白噪声序列)的特点:对于任意观察时刻𝑡,期望为常数。对于任意不同的观察时刻𝑡和𝑠,当𝑡=𝑠时,协方差(方差)为常数。当𝑡≠𝑠时,协方差为零,即自相关系数为零。纯随机性检验的必要性:纯随机序列没有可预测的模式或趋势,因此无法从中提取有用信息进行进一步分析。对于纯随机序列,过去的行为对将来的发展没有影响,因此不需要进行复杂的时间序列分析。一、时间序列预测模型的基础理论自相关图分析:观察自相关系数是否在0附近小幅度振荡,但由于样本长度限制,可能难以准确判断。统计学假设检验:原假设(H0):时间序列是纯随机序列,除0阶外的所有延迟阶数的自相关系数全为0。备择假设(H1):时间序列不是纯随机序列,至少有一个延迟阶数的自相关系数不为0。统计量构建:常用的统计量包括Q统计量和Ljung-Box(LB)统计量。Q统计量适用于大样本情况。LB统计量是对Q统计量的修正,适用于小样本情况。一、时间序列预测模型的基础理论一、时间序列预测模型的基础理论检验步骤:计算统计量的值。确定临界值和显著性水平(α)。比较统计量的值和临界值,或P值与显著性水平,做出决策。决策:如果P值小于显著性水平α,则拒绝原假设,认为时间序列不是纯随机序列。一、时间序列预测模型的基础理论单位根检验是构造统计量进行时间序列平稳性检验最常用的方法。若时间序列是平稳的,那么该时间序列的所有特征根都应该在单位圆内。基于这个性质构造的时间序列平稳性检验方法叫作单位根检验。随着学科的发展,后续又产生了很多种单位根检验,如DF检验、ADF检验、PP检验、kpss检验等单位根检验的步骤:确定自回归模型:假定时间序列由自回归模型描述,模型阶数𝑝可以根据序列特性确定。构建特征方程:从自回归模型得到特征方程,解出特征根。检验特征根位置:如果所有非零特征根都在单位圆内,则序列是平稳的。(二)时间序列平稳性的单位根检验
一、时间序列预测模型的基础理论DF检验:最早的单位根检验方法,基于一阶自回归模型
。原假设H0:时间序列具有单位根,是非平稳的
。备择假设H1:时间序列没有单位根,是平稳的
。检验形式的分类:第一种类型:无常数项、无趋势项。第二种类型:有常数项、无趋势项。第三种类型:有常数项、有趋势项。一、时间序列预测模型的基础理论ADF检验:增广的DF检验,允许时间序列的确定性部分由过去𝑝期的历史数据描述。适用于时间序列的确定性部分不仅仅受到上一期历史数据的影响。检验决策:如果统计量小于临界值或P值小于显著性水平,则拒绝原假设,认为序列是平稳的。如果统计量大于临界值或P值大于显著性水平,则接受原假设,认为序列是非平稳的。趋势平稳时间序列:如果检验结果显示时间序列是趋势平稳的,这意味着序列具有趋势项,但去除趋势项后序列是平稳的。平稳时间序列分析常用的模型有三个:自回归模型(AR模型)、移动平均模型(MA模型)、ARMA模型。1.AR模型p阶AR模型具有以下结构:式中,限制条件
要求随机扰动项
为零均值白噪声序列。用延迟算子可将中心化AR模型写为AR模型常见的统计量有常数均值和方差、自相关系数、偏自相关系数。二、时间序列分析方法介绍(一)平稳时间序列分析方法
2.MA模型q阶MA模型具有以下结构:
和AR模型一样,限制条件
仍然要求随机扰动项为零均值白噪声序列。用延迟算子可将中心化MA模型写为
MA模型常见的统计量有常数均值和方差、自相关系数、偏自相关系数,其中自相关系数截尾,偏自相关系数拖尾。二、时间序列分析方法介绍(一)平稳时间序列分析方法
3.ARMA模型
用延迟算子可将中心化ARMA模型写为
ARMA模型的自相关系数和偏自相关系数都表现为拖尾。二、时间序列分析方法介绍(一)平稳时间序列分析方法
平稳时间序列建模步骤:(1)时间序列预处理。(2)模型识别定阶。(3)参数估计。(4)模型检验。(5)模型优化。(6)模型预测。二、时间序列分析方法介绍(一)平稳时间序列分析方法
非平稳时间序列在自然界和社会科学中非常普遍,因此对它们的分析尤为重要。非平稳时间序列的分析方法主要分为确定性分析方法和随机分析方法两大类:确定性分析方法原理简单,操作方便,易于解释,但是只提取确定性信息,对随机信息浪费严重,且对各因素之间确切的作用关系没有明确有效的判断方法;随机分析方法深入时间序列内部去寻找观察值之间的相关关系,借助自相关系数、偏自相关系数等统计量的特征进行时间序列相关信息的提取,弥补了确定性分析方法的不足,为人们提供更加丰富、更加精确的时序分析工具。随机分析方法包括ARIMA模型、残差自回归模型、条件异方差(GARCH)模型等,确定性分析方法主要有季节调节模型、平滑法和随机方法结合的季节ARIMA模型等。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
二、时间序列分析方法介绍(二)非平稳时间序列分析方法
1.非平稳时间序列的随机分析(1)差分运算。在时间序列分析中,为了将非平稳时间序列转换为平稳时间序列以便于建模,通常采用差分技术,包括一次差分去除线性趋势和高次差分处理曲线趋势,随后通过平稳性检验确认转换效果。一旦序列平稳,便可应用ARMA模型进行深入分析和预测,确保模型的准确性和可靠性。差分实质:自回归,是一种非常简便有效的确定性信息提取方法。差分类型:包括阶数差分和步数差分。一阶差分:d阶差分:k步差分:(2)ARIMA模型。ARIMA模型,即自回归积分滑动平均模型,是时间序列分析中用于处理非平稳数据并转换为平稳序列的核心方法。这种模型通过差分d次将原始序列转换为平稳形式,然后应用自回归部分p和移动平均部分q进行建模。当q=0时,简化为AR模型;当p=0时,简化为MA模型。ARIMA模型的关键在于假设随机波动为具有0均值和常数方差的纯随机序列,确保模型能够准确捕捉并预测时间序列的统计特性。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
ARIMA模型的建模步骤:第一步,进行时间序列预处理,检验其是否为平稳时间序列,若是,则进入第三步,若为非平稳时间序列,则进行第二步;第二步,差分处理,将非平稳时间序列转换为平稳时间序列,继续检验平稳时间序列的纯随机性,若为纯随机序列,则停止分析,若为非纯随机序列,则继续分析;第三步,模型识别定阶,绘制自相关图和偏自相关图,判断模型及阶数;第四步,参数估计;第五步,残差序列纯随机性检验,若不通过,则返回第三步;第六步,模型优化;第七步,时间序列预测。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
(1)因素分解方法。因素分解方法是时间序列分析中的一种技术,它将时间序列的波动分解为长期趋势(Tt)、循环波动(Ct)、季节性效应(St)和随机波动(It)四个组成部分。这种方法在经济、商业和社会领域有广泛应用,但存在挑战,特别是在区分长期趋势和循环波动方面,因为如果观察时期不够长,它们的影响可能难以准确分离。康德拉季耶夫周期等循环波动的周期可能非常长且不固定,导致在较短的观察期内难以捕捉其完整影响。因素分解方法的目的是:1.排除其他因素的干扰,单独测量某个确定性因素的影响。2.根据时间序列的确定性特征选择合适的方法进行综合预测,例如LOESS季节分解模型和指数平滑预测模型。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
因素分解模型根据各因素之间的关系有不同的形式,包括加法模型和乘法模型。如果各时间序列之间是相互独立的,表现在时序图中季节性效应和长期趋势相互独立,季节效应的周期振幅不随长期趋势发生变化,维持相对稳定,用加法模型: 若时间序列各因素之间互相影响,也就是说季节性效应的周期振幅随着长期趋势的递增发生变化,则用乘法模型:
二、时间序列分析方法介绍(二)非平稳时间序列分析方法
二、时间序列分析方法介绍(二)非平稳时间序列分析方法
(2)利用LOESS方法的季节分解模型(STL)。LOESS方法的思想在估计的每个点处利用低阶多项式进行加权最小二乘拟合,离拟合目标点越近的点给予的权重越大。利用
LOESS
方法进行时间序列的季节分解(SeasonaldecompositionofTimeseriesbyLOESS,简称STL)是Cleveland等于1990年提出的分解时间序列的常用方法,是一种局部加权多项式回归分解的方法。模型可写成式中,Yt为数据;Tt为长期趋势;St为季节性效应;Rt为随机波动。该模型对于离群点STL季节分解也是稳健的,少数的离群观测值不会影响长期趋势和季节性效应的估计。STL季节分解由外循环及嵌套在外循环之中的内循环组成,每进行一次内循环都更新长期趋势和季节性效应一次。在内循环中,记
和
为第k步的迭代结果,第k+1步进行如下操作。步骤一:去掉趋势成分
。步骤二:用LOESS对去掉趋势成分后的序列进行d=1,q取季节周期的平滑,记作
。步骤三:平滑后
的先做两次周期长度的移动平均和3期移动平均,接着进行d=1,某个q的LOESS平滑,记作
。步骤四:去掉平滑后的循环子序列的趋势成分得到季节成分
。步骤五:去掉季节成分
。步骤六:去掉季节成分的趋势做LOESS平滑,剩余部分
。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
二、时间序列分析方法介绍(二)非平稳时间序列分析方法
(3)指数平滑。在实际生活中,对大多数随机事件而言,一般都是近期的结果对现在的影响会大些,远期的结果对现在的影响会小些。为了更好地反映这种影响作用,考虑到时间间隔对事件发展的影响,各期权重随时间间隔的增大而呈指数衰减,这就是指数平滑法的基本思想。指数平滑包括简单指数平滑、Holt-Winters两参数指数平滑、Holt-Winters三参数指数平滑。具体应用场景如表7.2.3所示。二、时间序列分析方法介绍(二)非平稳时间序列分析方法
(3)指数平滑。季节加法ARIMA模型通过趋势差分和季节差分将时间序列转化为平稳序列,适用于季节效应、长期趋势效应和随机波动之间存在简单线性关系的情况。季节乘法ARIMA模型适用于复杂交互影响的时间序列,其原理基于使用低阶ARIMA模型提取长期趋势效应,并通过周期步长的差分操作提取具有季节相关性的季节效应,最终构建为ARIMA(p,d,q)和ARIMA(P,D,Q)S的乘积模型,即ARIMA(p,d,q)×(P,D,Q)S。季节加法ARIMA模型的数学形式:季节乘法ARIMA模型的数学形式:二、时间序列分析方法介绍(三)时间序列的交叉验证时间序列有以下两种交叉验证方法[27]。①随机选取N个训练集和N个测试集,类似于截面数据的N折交叉验证,训练集和测试集都是固定的原始序列的完整窗口,而且所有折的训练集和测试集的滞后间隔固定。②固定长度或者改变长度的训练集每次向前移动一个时间或者一段固定时间,如季节周期,后面是固定长度的测试集。交叉验证的目的主要有以下三点。①对不同时间段比较不同的精度度量。②对不同的方法比较不同的精度度量。③对不同的预测前景比较不同的精度度量。二、时间序列分析方法介绍交叉验证中度量精度的误差如下:①平均绝对误差为②均方误差为③均方根误差为④平均绝对百分比误差为⑤平均绝对标准化误差为针对非季节性时间序列:针对季节性时间序列:(三)时间序列的交叉验证二、时间序列分析方法介绍(四)时间序列预测R语言算法函数用R语言实现时间序列分析的主要模型是ARIMA模型、STL季节分解、指数平滑模型,在使用这些模型时需要进行数据预处理、差分等操作,主要包括绘制时序图、ACF图、PACF图、平稳性检验、纯随机性检验、各类差分、参数估计、模型检验、AIC优化、BIC优化、模型预测、交叉验证等过程,常用函数如表7.2.4所示。三、案例分析(一)案例背景糖尿病是全球性日益严重的公共卫生问题,2019年全球成人患者已达4.63亿,预计到2030年和2045年将分别增至5.78亿和7.002亿。中国以1.164亿患者位居世界第一,预计2030年将增至1.41亿。随着患者人数增长、医疗保险制度推广和新药推出,中国抗糖尿病药物市场自2017年的512亿元增长至2022年的978亿元,并预计2028年将达到1739亿元,公立医院数据显示2015至2019年间销售总金额复合增长率为9.55%,预计市场增速将保持在10%以上,突显了抗糖尿病药物市场的广阔前景和持续增长潜力。现有某医药企业1992年1月至2008年12月的抗糖尿病药物销售历史数据,分析目标包括:研究每月抗糖尿病药物销售的长期趋势及季节性影响。选择合适的模型预测未来每月的销售情况。三、案例分析(二)问题分析采用时间序列分析法研究每月抗糖尿病药物销售序列的建模分析过程主要包括以下步骤:①数据预处理:缺失值、异常值处理,形成建模数据,绘制时序图探索序列特点。②因素分解:使用因素分解方法来识别并分离出时间序列中的趋势和季节效应,特别是分析不同季节对销售的影响。③模型选择与评估:应用STL季节分解、指数平滑和季节ARIMA模型对销售序列进行建模,并通过交叉验证来评估各模型的预测性能。④预测与指导:利用选定的模型预测未来每月的销售情况,为药物销售策略和库存管理提供数据支持和建议。三、案例分析(三)数据探索分析每月抗糖尿病药物销售序列的数据格式整洁,经检查没有缺失值、异常值,故不必作数据清洗处理,直接可以进行建模分析。首先对每月抗糖尿病药物销售序列进行时间序列格式转换,设置时间起止为1992年1月至2008年12月,时间频率为月度,紧接着对每月抗糖尿病药物销售序列绘制时序图,如图7-2-6所示。三、案例分析(三)数据探索分析观察图7-2-6,可以看到每月抗糖尿病药物销售序列有着明显上升的趋势,并且每一年都有从低谷到高峰再到低谷的周期循环,周期长度为12个月。显然每月抗糖尿病药物销售序列非平稳,并且同时受到趋势效应、季节效应和随机扰动的影响,在构建模型的时候需要考虑到上述因素的影响。三、案例分析(四)模型建模为预测抗糖尿病药物销售,分析流程包括:序列因素分解以识别趋势和季节效应,使用1992至2007年数据训练季节ARIMA、STL分解和指数平滑模型,预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年个人旧车转让协议范本
- 2024高效化妆品委托加工协议范例
- 事业单位考试计算机基础知识大纲和试题
- 2024年度医疗用品购销协议模板
- 2024年度住宅楼施工项目协议目录
- 2024年股票投资合作协议模板
- 2024年重庆市区住宅租赁协议
- 2024年软件服务行业协议样本
- 2024专项彩妆产品代理销售协议
- 文书模板-《临时劳务安全免责协议书》
- 超越指标:存量时代降本增效的利器
- 《中小学书法教育指导纲要》解读
- 住院医师规范化培训临床技能核课件
- 青岛版五四制五年级上册数学应用题216道
- 工程造价鉴定十大要点与案例分析
- 2024年金融行业发展趋势
- 印刷设计行业档案管理制度完善
- 地热资源勘查与开发利用规划编制规程
- 三年级上海市沪版英语第一学期上学期期中考试试卷
- 临床见习教案支气管哮喘地诊疗教案
- 2023年云南昆明市西山区碧鸡街道社区青年人才招考笔试历年高频考点(难、易错点荟萃)附带答案详解
评论
0/150
提交评论