商业数据分析理念与方法 课件 第七章 商业预测_第1页
商业数据分析理念与方法 课件 第七章 商业预测_第2页
商业数据分析理念与方法 课件 第七章 商业预测_第3页
商业数据分析理念与方法 课件 第七章 商业预测_第4页
商业数据分析理念与方法 课件 第七章 商业预测_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章商业预测目录CONTENTS01潜在客户识别预测02商业时间序列预测问题潜在客户识别预测011.了解潜在客户识别的定义。2.掌握潜在客户识别的方法。3.掌握潜在客户识别的模型,重点掌握潜在客户识别预测模型。4.了解时间序列预测模型的基本理论。5.了解时间序列预测模型的分析流程。6.掌握时间序列预测模型在R中的实现及其交叉精度检验。学习目标

现代企业要想增加其利润,不仅要对现有的有价值客户进行维护,还要对那些具有潜在价值的客户,即潜在客户进行不断的挖掘。(一)潜在客户与客户价值

经济全球化和信息技术的快速发展使企业的生存环境发生了很大改变。企业为了能够在激烈的竞争环境中求得生存和发展,把自己的经营理念从以提高产品或服务质量为核心转向了以客户为核心。因此,将客户关系管理思想运用到企业的经营管理中,是企业生存环境的必然要求。然而,许多企业在努力研究如何不让现有客户流失的情况下,忽略了对潜在客户的挖掘,如果企业能够提前预测一些潜在客户,并对其进行相应的营销工作,就可能在很大程度上增加企业的利润,为企业创造更多的价值。所以,潜在客户识别具有非常重要的现实意义。潜在客户其实就是这些客户:他们虽然现在还不是企业的有价值客户,但将来有可能成为企业的有价值客户,从而给企业带来巨大的利润。所谓的客户价值,就是指客户能为企业带来的价值,其大小等于企业过去、现在、未来从客户身上获得的收益与吸引、发展、维护客户所需的成本之差。一、潜在客户识别理论(二)客户价值的分类

客户价值包括客户的当前价值和潜在价值。与客户的当前价值相比,客户的潜在价值关系到企业的长远利益,对企业的将来更加重要,也是客户价值不可缺少的重要方面。正是由于这个原因,对客户潜在价值的研究越来越受到企业的重视。(三)潜在客户识别方法

由于数据挖掘技术迎合了企业在营销和服务业务中涉及的客户数据的量大、细节化、分布广泛等特点,因此它在海量数据处理、潜在客户识别等方面发挥了重要作用。现有的潜在客户识别方法可以归纳为以下几种,数据挖掘技术能够有效地支持这些方法的应用。1.基于客户统计学特征的潜在客户识别方法2.基于客户交易行为的潜在客户识别方法(四)数据挖掘理论

数据挖掘理论和方法是潜在客户识别的核心方法。企业可以根据客户信息、历史行为记录等资料对客户进行分析,并利用数据挖掘技术建立相应的预测模型。此后,企业可以根据模型结果把握潜在客户的特征,并进行相应的营销活动。在数据爆炸的网络时代,企业希望能够对数据进行更高层次的分析,以便更好地利用这些数据,数据挖掘技术应运而生,并显示出强大的生命力。1.数据挖掘的基本概念

从1989年至今,数据挖掘的定义随着人们研究的不断深入而不断完善,目前获得认可的定义是由Fayyad等人提出的:数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程,它从数据集中识别出用模式来表示的知识。数据挖掘的过程是一个多步骤的处理过程,多个步骤之间相互影响、反复调整,形成一种螺旋式上升的态势。2.数据挖掘的常用技术

数据挖掘技术大致可分为描述式数据挖掘技术和预测式数据挖掘技术,具体来讲,数据挖掘技术可分为以下五类。(1)人工神经网络。

人工神经网络是由大量的简单神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,其具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。目前,人工神经网络主要应用于分类、优化、模式识别、预测和控制等领域。(2)决策树。

决策树根据不同的特征,以树状结构表示分类或决策集合,产生规则和发展规律。利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立决策树的分支,在每个分支子集中,重复建立决策树的下层节点和分支,即可建立决策树。(3)遗传算法。

遗传算法基于进化论中的基因重组、基因突变和自然选择等概念,利用复制(自然选择)、交叉(基因重组)和变异(基因突变)3个基本算子进行求解。遗传算法的最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强。目前,遗传算法已发展成一种自组织、自适应的综合技术,而且其应用领域很广,如工程技术、计算机科学等。(4)粗糙集算法。

粗糙集算法的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属函数等,其直接从给定的问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该问题的内在规律。它的理论核心是基于“知识源于对对象的分类”这一思想的,其通过分类找出属性间的关联规则。(5)关联规则。

关联规则主要针对事物型数据库,是与大多数人想象的数据挖掘过程最相似的一种数据挖掘形式。根据关联规则中所处理的值的类型,关联规则可以分成布尔关联规则和量化关联规则两种;根据关联规则集所涉及的不同抽象层次,关联规则可以分成多层关联规则和单层关联规则。特别是对于销售数据,如果利用关联规则对历史交易数据进行分析,可为预测客户未来的购买行为提供极有价值的信息。

下面重点讲解关于决策树的内容。决策树是一种建立分类模型的技术。由于模型结构和生成规则具有简洁性,因此决策树一直以来很受欢迎。(1)决策树的定义。

决策树是一种基于贪心算法的分类方法,采用自顶向下递归的思想进行构造。其中一个内部节点代表一个属性上的测试,一个分支代表一个测试输出,而一个叶节点代表一个类或类分布。以使用条件属性I和条件属性J来预测决策属性的取值是否为真为例,典型的决策树如图所示。(2)决策树的基本算法。①ID3算法:由J.RossQuinlan于1975年提出的一种基于信息熵的决策树算法,他把信息论引入决策树算法中,把信息熵作为选择测试属性的标准,对训练集进行分类,并构造决策树来预测如何利用测试属性对整个实例空间进行划分。ID3算法的建树时间和任务的困难程度呈线性递增关系,计算量相对小,但存在的问题是信息增益的计算依赖于属性取值较多的特征,而属性取值较多的属性不一定最优;ID3算法是非递增学习算法,抗噪性差,训练例子中的正例和反例较难控制。②C5.0算法:由ID3算法改进两次而成的,先由ID3算法改进成C4.5算法,它在ID3算法的基础上增加了连续属性的离散化,再在C4.5算法的基础上改进成C5.0算法,其根据提供最大信息增益的字段分割样本数据,并通过对决策树各子叶进行裁剪或合并来提高分类精度,最后确定各子叶的最佳阈值。C5.0算法通常无须花费大量的训练时间即可构造决策树,且容易对构造的决策树进行解释。C5.0算法中还增加了强大的Boosting算法以提高分类精度,Boosting算法依次构造一系列决策树,构造的决策树重点考虑以前被错分和漏分的数据,最后生成更准确的决策树。③CART算法:是ClassificationAndRegressionTree的英文缩写,CART算法可以处理高度倾斜或多态的数值型数据,也可以处理顺序或无序的类属性数据。CART算法选择具有最小基尼系数Gini的属性作为测试属性,Gini越小,样本的“纯净度”越高,划分效果越好。与C5.0算法类似,CART算法也是先建树后剪枝,但在具体实现上有所不同。④CHAID算法:J.A.Hartigan在1975年首次提出了CHAID算法,该算法是一种基于卡方检验的决策树算法,它可以处理离散型特征,适用于分类问题。CHAID算法和CART算法最大的不同之处在于CHAID算法只能处理分类变量。⑤SLIQ算法:是一种快速可伸缩的适合处理较大规模数据的决策树分类算法。它能够同时处理连续变量和分类变量,在决策树生成过程中采用“预先排序”和“宽度优先”的策略,对于每个变量,首先扫描相应的属性排序表,同时计算每个变量值在当前树的所有叶节点中的熵值,计算完成后,为当前决策树中的每个叶节点选择一个属性进行分支,然后再次扫描属性排序表,对类表中的节点名称进行更新。⑥SPRINT算法:进一步改进了决策树算法实现时的数据结构,去掉了SLIQ算法需要存储在内存中的类别列表,将它的类别列表合并到每个属性列表中。此算法是一种可扩展、可并行的归纳决策树算法,它完全不受内存限制,运行速度快,且允许多个处理器协同创建一个决策树模型。⑦PUBLIC算法:基于SPRINT方法,剪枝基于MDL原则,但MDL原则不能直接应用。因为生长不完全的决策树提供的信息不安全,所以对于仍要扩展的叶节点,估算的编码代价偏高,这会导致过度剪枝,从而降低预测精确度。PUBLIC算法采用低估策略来矫正过高的编码代价,即对于将要扩展的叶节点,计算编码代价的较低阈值;而对于另两类叶节点(剪枝形成的、不能被扩展的),估算方法不变。

本节主要讲解保险业在潜在客户识别方面的研究,保险公司的目标客户是指保险产品的提供对象,包含潜在客户和现有客户两部分。(1)潜在客户分析。

在保险业这个特定领域中,保险产品的可能购买者就是潜在客户,包括以前没听过或没购买过保险产品的人、以前不需要购买保险产品的人等。在对潜在客户进行分析时,由于数据量受限,要想利用数据挖掘技术,可以采用两种解决方案。

第一种解决方案:对于这些潜在客户,保险公司对他们的了解较少,掌握的客户信息数据有限,因此难以利用数据挖掘技术对其进行建模分析。针对此种情况,保险公司应采取某些必要措施来获取地址、年龄、收入、职业、教育程度和购买行为等方面的客户信息数据。在掌握相关数据后,保险公司可以根据实际情况进行一定规模的实验,进而通过实验观察这些潜在客户对保险产品的态度,然后根据反馈信息建立数据挖掘预测模型,寻找本公司保险产品的优势,实现成功销售。

第二种解决方案:从节约时间和成本的角度考虑,首先保险公司可以通过对现有客户基本信息数据的挖掘,找到已购买某类保险产品的客户具备的基本特征;然后以发现的基本特征为依据,找出那些具有同样特征的人群,这些人群就是保险公司的潜在客户;最后将潜在客户转化为实际客户。(2)现有客户分析。

对现有客户的分析其实就是对有价值客户的分析,有价值客户就是指能给保险公司带来利润增长的客户。保险公司要想知道某些客户是否能带来盈利,就必须对客户进行盈利率分析。通过盈利率分析,就可以找到保险公司的有价值客户。这些有价值客户包括三类:第一类是目前给保险公司带来最大利润的客户,也称之为高价值客户,即保险公司对其投入较少成本就可以获得高收益的客户,保险公司可以针对高价值客户进行更深层、更细致的客户关系管理;第二类是现在给保险公司带来丰厚利润,且未来可能成为最大利润贡献者的客户;第三类是现在能为保险公司做出利润贡献,但正在逐渐失去价值的客户。二、案例分析(一)案例介绍

近年来,中国保险业在迅速发展的同时,也面临着更加严峻的考验。据《中国保险年鉴(2022年)》统计,经过12年的不断发展,保险业市场竞争激烈。截至2021年年底,全国已有保险集团公司10家,保险公司139家,保险资产管理公司11家;全国共有省级(一级)分公司1619家,中支和中支以下营业性机构68968家。保险从业人员高达353.83万人,其中营销员有279.6万人。对保险公司的资本结构进行分析后发现:中资保险公司共有79家,其中产险公司、寿险公司、再保险公司分别为39家、37家、3家;外资保险公司共有51家,其中产险公司、寿险公司、再保险公司分别为21家、25家、5家。快速增多的保险市场主体使中国保险业不得不面临国内、国际两方面的竞争。保险公司对客户资源的争夺已到白热化阶段,对新市场空间的开发变得越发困难。

本案例从定量角度出发,通过历史数据对车辆保险产品的潜在客户展开研究,建立基于决策树算法的车辆保险产品的潜在客户识别模型,根据保险公司提供的有关数据进行特征选取,建立相应的决策树模型,进而分析出车辆保险产品的潜在客户画像,以提高保险公司营销推荐的成功率和经营效率,为保险公司提供潜在客户识别模型的设计思路,进一步丰富车辆保险产品的相关研究。(二)实证分析1.数据来源

本案例所使用的数据来源于Kaggle网站。为了预测保险公司客户是否会对该公司的车辆保险产品感兴趣,数据集包含人口统计信息(性别、年龄、区域代码)、车辆(车龄、车辆是否损坏)、保单(年度保险费、保单销售渠道)等11个相关信息。现将这11个相关信息定义为自变量,利用这些自变量去预测客户是否对该公司的车辆保险产品感兴趣,因变量是Response字段,表示是否感兴趣,对车辆保险产品感兴趣的客户用1作为标签,对车辆保险产品不感兴趣的客户用0作为标签,因此这个模型属于有监督的二分类模型,单个变量的含义如表7.1.1所示。

该数据集共有381109个车辆保险产品购买者(客户)的相关信息,其中12.26%的客户对该公司的车辆保险产品感兴趣,87.74%的客户对该公司的车辆保险产品不感兴趣,对车辆保险产品感兴趣的客户与对车辆保险产品不感兴趣的客户的比例约为1∶7,客户兴趣状态饼图如图7-1-3所示。由上述分析可知,对车辆保险产品感兴趣的客户群体数量较少,属于少数类样本,也称为正样本;对车辆保险产品不感兴趣的客户群体数量较多,属于多数类样本,也称为负样本。它们之间存在明显的不平衡现象。2.数据预处理

数据的质量决定了模型的预测与泛化能力,所以在数据建模之前有一个非常关键的步骤,就是数据预处理。为了使数据达到适应模型、匹配模型的要求,一般会对数据进行预处理来解决数据类型不同、数据有缺失等问题。通过查看数据集的信息,我们可以大致了解数值列、字符列、不同变量的取值范围。通过对数据格式、结构等进行转换,将数据转换为适合处理的形式进行建模来发现其中隐藏的潜在信息规则。变量类型与描述性统计如表7.1.2所示。

由表7.1.2可知,在数据集的12个变量中,有10个整数型变量,2个字符型变量。从取值范围可以看出不同变量之间的差别相对较大,存在量纲不一致的问题。另外,经过缺失值检验发现,数据集中的12个变量都不存在缺失值。对数据的主要处理如下。(1)字符型变量处理。

对数据集中的2个字符型变量进行如下处理:对于Gender(性别)这个变量,本案例将Male(男性)设置为0,将Female(女性)设置为1;对于Vehicle_Age(车龄)这个变量,将车龄>2years(大于2年)设置为2,将车龄1~2years(1~2年)设置为1,将车龄<1year(小于1年)设置为0。(2)无效值处理。

无效值处理就是对无意义的特征变量或可能破坏模型稳定性的数据进行删除处理。在保险公司的数据集中,ID这个变量为客户序号,没有实际意义,且可能影响模型稳定性,因此将这个变量删除。(3)数据标准化处理。

数据标准化处理是非常有必要的,不同特征变量往往具有不同的量纲,而且各变量值的取值范围也有很大差异,虽然决策树模型对数据的量纲非常不敏感,但是有些模型对此比较敏感,如KNN、支持向量机等要求数据具有一致的量纲。为了统一,本案例选用max-min标准化来消除量纲的影响,提高模型准确性。(4)样本的均衡化处理。

不平衡数据是指数据集样本中标签的比例明显不平衡,不同类别样本的样本量差异非常大,通常来说标签的比例大于1∶3就可以称为不平衡数据。本案例的数据集中对车辆保险产品感兴趣的客户与对车辆保险产品不感兴趣的客户的比例约为1∶7,所以此数据为不平衡数据。样本分布不平衡,即正、负样本的数量差别较大,主要出现在与分类相关的建模问题上。样本分布不平衡将导致样本量少的样本中包含的特征过少,从样本量少的样本中提取特征规律难度较大,也会导致过拟合等问题,且得到的结果准确性和稳定性较差。

目前,解决样本分布不平衡问题的方法主要有两种:一种是从算法角度出发的方法;另一种是从数据角度出发的方法。前者对传统的分类算法进行改进,分类算法大多是依据平衡数据集进行设计的,因而从算法角度对其进行优化的难度较大;后者采用重采样技术改进不平衡数据集类别的比例,从而使数据集中正、负样本平衡,相对比较简单。本案例使用过采样法中的随机过采样法来平衡训练集,将正、负样本的比例调整为1∶1,经过测试,采用经随机过采样法处理的数据训练出来的模型比采用未经处理的数据训练出来的模型在AUC(曲线下面积)等指标上有所提升。3.模型评价指标

进行上述一系列处理之后,建立模型之前,先介绍本案例所用的模型评价指标,以判断模型的优劣。(1)准确率。准确率反映了模型结果相对于实际结果的准确程度。(2)查准率、召回率。在实际情况中,模型的准确率只能对模型进行大概的评价,因此定义查准率(Precision)表示模型预测为正样本且其真正为正的比例,召回率(Recall)表示所有正样本中被模型预测成功的比例。(3)ROC曲线与AUC。

ROC曲线关注两个指标:一是真正类率(TPR=TP/(TP+FN));二是假正类率(FPR=FP/(FP+TN))。直观上,TPR代表能将正类正确分类的可能性,FPR代表将负类错误地分为正类的可能性。在ROC曲线上,每个点的横坐标为FPR,纵坐标为TPR,这也显示了分类器在TP与FP之间的取舍,而将(FPR,TPR)连接起来就形成了ROC曲线。

AUC为ROC曲线的起点、终点与垂直坐标轴所围成的面积,一般来说,AUC的值越大越好,根据经验,AUC的值介于0.5与1.0之间,AUC的值越大代表模型的分类效果越好。4.建模前的准备

在训练模型和预测之前,为了更好地评价和比较不同模型之间的分类预测效果,应该尽可能保证使用的训练集和测试集样本成分相似,先将381109个样本进行样本均衡化和数据标准化,再划分数据集的训练集和测试集,最后利用R语言随机抽取数据集中70%的样本为训练集,其余的30%为测试集,如表7.1.3所示。由表7.1.3可知,训练集和测试集的切分基本均匀,训练集用于构建模型,测试集用于评估模型。为了更好地构建模型,对训练集进行均衡化处理。5.构建模型(1)ID3模型的构建。利用R语言在RStudio平台上建立ID3模型,使用rpart()函数建立ID3模型,对测试集进行预测,ID3模型测试集的混淆矩阵如表7.1.4所示。ID3模型的AUC值约为0.783,准确率约为0.783,召回率约为0.977,说明ID3模型可以较好地区分正、负样本,整体分类预测结果较好。ID3模型的ROC曲线如图7-1-4所示。(2)CART模型的构建。利用R语言在RStudio平台上建立CART模型,对测试集进行预测。CART模型测试集的混淆矩阵如表7.1.5所示。CART模型的AUC值约为0.783,准确率约为0.783,召回率约为0.977,整体来说,CART模型的分类预测结果也较好,可以较好地区分正、负样本。CART模型的ROC曲线如图7-1-5所示。(3)C5.0模型的构建。先利用R语言在RStudio平台上使用C5.0算法进行C5.0模型构建,再计算C5.0模型的AUC、召回率、准确率等,评价C5.0模型在该问题中的分类预测效果。C5.0模型测试集的混淆矩阵如表7.1.6所示。C5.0模型的AUC值约为0.852,准确率约为0.852,召回率约为0.982,该模型对正、负样本有很好的区分能力,整体分类预测结果非常优秀。C5.0模型的ROC曲线如图7-1-6所示。(4)模型结果对比分析。

将ID3模型、CART模型、C5.0模型三个模型的相关评价指标汇总,如表7.1.7所示。由表7.1.7可知,三个模型的AUC值均大于或等于0.783,处于良好水平,而三个模型的准确率和召回率也非常优秀,准确率均大于或等于0.783,召回率均大于或等于0.977,说明分类预测结果可以覆盖绝大多数车辆保险产品的潜在客户。但是综合来看,C5.0模型的AUC值、准确率和召回率都高于其他两个模型,说明C5.0模型最合适,各项评价指标均最佳,在车辆保险产品潜在客户识别问题上有很好的可行性,因此最终选取C5.0模型对车辆保险产品潜在客户进行预测识别。(5)特征重要性分析。

从表7.1.7中可以发现,C5.0模型对车辆保险产品潜在客户的预测识别效果最好,同时C5.0模型可以在模型构建中展现特征的重要性。一般来说,特征重要性不仅可以衡量特征在模型构建中的作用,还反映了特征对潜在客户预测的影响。由C5.0模型的特征重要性排序可知,不同变量对模型预测结果的重要性是不同的,因此可以进一步分析得出哪些变量对车辆保险潜在客户识别比较重要,从而提醒保险公司重点关注客户的这些特征,制定合理的营销策略。本案例使用的C5.0模型的特征重要性排序依据是使用不同特征进行分割带来的总信息增益,如图7-1-7所示。从图7-1-7中可以看出,车辆是否损(Vehicle_Damage)、以前是否购买过车辆保险产品(Previously_Insured)、保单销售渠道(Policy_Sales_Channel)是排名前三的变量,年龄(Age)、区域代码(Region_Code)、车龄(Vehicle_Age)也是对识别潜在客户影响较大的因素,保险公司应该重点关注这些因素,从而制定更加精准的营销方案,挖掘出更多潜在客户,进而将其转变为真正的客户,创造收益,提高竞争能力。6.总结

本案例通过对某保险公司车辆保险客户数据进行数据分析,介绍了数据集的基本特征并对数据集进行了样本均衡化和数据标准化,保证了决策树模型的准确性和健壮性;同时为了保证决策树模型的分类预测效果,构建了三种不同的决策树模型,通过各种评价指标比较三种决策树模型的分类预测性能,最后得出C5.0模型是表现最佳的模型,并且在此基础上对C5.0模型的特征重要性进行了排序分析。商业时间序列预测问题02常用的时间序列预测模型如表7.2.1所示。一、时间序列预测模型的基础理论除以上模型外,常用于时间序列预测的还有平滑预测法。平滑预测法常用于时间序列的趋势分析和预测,通过修匀技术削弱短期随机波动对时间序列的影响,使得时间序列更加平滑,具体分为移动平滑法和指数平滑法。一、时间序列预测模型的基础理论(一)时间序列预处理一、时间序列预测模型的基础理论1.时间序列定义时间序列就是一组按照时间顺序排列的数据,记录了一个随机事件在不同时刻的表现。换句话说,按照时间顺序记录的某随机事件的发展过程构成一个时间序列。其中,时间序列的n个有序观察值称为序列长度为n的观察值序列,对时间序列进行观察、研究,寻找随机事件变化发展的规律,预测其未来走势即为时间序列分析。时间序列是商业分析中很常见的一种数据形式,如把某店铺2019年至2021年每个月的销量记录下来就构成了一个长度为36期的时间序列。进行时间序列研究的目的是揭示随机时序的性质,即通过分析它的观察值序列的性质来推断随机时序的性质。2.时间序列平稳性时间序列分析是统计学中的一个重要分支,它涉及到对时间序列数据进行建模和预测。在进行时间序列建模之前,通常需要对数据进行平稳性检验和纯随机性检验,这是因为很多时间序列模型都是建立在数据具有平稳性的基础之上的。平稳性的定义:平稳性是指时间序列的统计特性不随时间变化而变化。具体来说,平稳性分为两种类型:严平稳(StrongStationarity):时间序列的所有阶矩(均值、方差、偏度、峰度等)都不随时间变化,且任意时间点的联合概率分布与任何其他时间点的联合概率分布相同。宽平稳(WeakStationarity):通常指的是二阶平稳,即时间序列的均值和方差不随时间变化,且自协方差只依赖于时间间隔,不依赖于时间的起点。一、时间序列预测模型的基础理论

平稳时间序列的性质:均值为常数:整个序列的均值是恒定的。自协方差和自相关系数只依赖于时间的平移长度:与时间序列的起始点无关。方差也为常数:整个序列的方差是恒定的。平稳性检验的目的:简化模型参数估计:由于平稳时间序列的均值和方差恒定,可以使用整个样本数据来估计这些参数,简化了参数估计过程。一、时间序列预测模型的基础理论平稳性检验的方法:图检法:通过绘制时间序列图和自相关图来直观判断序列是否平稳。时间序列图:观察数据是否围绕一个常数值上下波动,波动是否有界。自相关图:观察自相关系数随滞后阶数的增减情况。统计检验法:构造检验统计量来判断序列的平稳性,常用的方法包括单位根检验(如ADF检验)等。自协方差和自相关系数:自协方差:衡量时间序列在不同时间点的值的协方差,对于平稳时间序列,自协方差只与时间间隔有关。自相关系数:自协方差与同时点的方差的比值,衡量时间序列在不同时间点的相关程度。一、时间序列预测模型的基础理论协方差可以通俗地理解为两个变量在变化过程中是同方向变化还是反方向变化,同向或反向程度如何。而相关系数研究的是变量之间线性相关程度如何,相关系系的计算公式如下:

式中,COV(X,Y)为两个变量间的协方差;

分别为两个变量的标准差。将协方差和相关系数应用到时间序列中,即为自协方差和自相关系数。自协方差表示不同时刻两个观察值之间的变化关系,计算公式为

式中,

为时间序列在t时刻的均值;

为时间序列在s时刻的均值。一、时间序列预测模型的基础理论自相关系数衡量的是不同时刻两个观察值之间的相关程度,计算公式为

式中,

为时间序列t、s时刻的自协方差;

分别为时间序列t、s时刻的方差。根据平稳时间序列自协方差和自相关系数只依赖于时间的平移长度,而与时间的起止点无关这一性质,定义平稳时间序列的自协方差函数

相应的延迟k阶的自相关系数等于除以序列标准差,即平稳时间序列具有短期相关的特点是指随着延迟阶数k趋于n-1,自相关系数在短期内快速衰减到0附近小幅度振荡,这也是利用自相关图进行平稳性检验的依据。一、时间序列预测模型的基础理论时间序列分析中,除了平稳性检验外,纯随机性检验也是非常重要的一步。纯随机性检验主要用于判断一个平稳时间序列是否为纯随机序列,即白噪声序列。白噪声序列是一种理想化的随机序列,其中各个时刻的值之间相互独立,没有相关性。纯随机序列(白噪声序列)的特点:对于任意观察时刻𝑡,期望为常数。对于任意不同的观察时刻𝑡和𝑠,当𝑡=𝑠时,协方差(方差)为常数。当𝑡≠𝑠时,协方差为零,即自相关系数为零。纯随机性检验的必要性:纯随机序列没有可预测的模式或趋势,因此无法从中提取有用信息进行进一步分析。对于纯随机序列,过去的行为对将来的发展没有影响,因此不需要进行复杂的时间序列分析。一、时间序列预测模型的基础理论自相关图分析:观察自相关系数是否在0附近小幅度振荡,但由于样本长度限制,可能难以准确判断。统计学假设检验:原假设(H0):时间序列是纯随机序列,除0阶外的所有延迟阶数的自相关系数全为0。备择假设(H1):时间序列不是纯随机序列,至少有一个延迟阶数的自相关系数不为0。统计量构建:常用的统计量包括Q统计量和Ljung-Box(LB)统计量。Q统计量适用于大样本情况。LB统计量是对Q统计量的修正,适用于小样本情况。一、时间序列预测模型的基础理论一、时间序列预测模型的基础理论检验步骤:计算统计量的值。确定临界值和显著性水平(α)。比较统计量的值和临界值,或P值与显著性水平,做出决策。决策:如果P值小于显著性水平α,则拒绝原假设,认为时间序列不是纯随机序列。一、时间序列预测模型的基础理论单位根检验是构造统计量进行时间序列平稳性检验最常用的方法。若时间序列是平稳的,那么该时间序列的所有特征根都应该在单位圆内。基于这个性质构造的时间序列平稳性检验方法叫作单位根检验。随着学科的发展,后续又产生了很多种单位根检验,如DF检验、ADF检验、PP检验、kpss检验等单位根检验的步骤:确定自回归模型:假定时间序列由自回归模型描述,模型阶数𝑝可以根据序列特性确定。构建特征方程:从自回归模型得到特征方程,解出特征根。检验特征根位置:如果所有非零特征根都在单位圆内,则序列是平稳的。(二)时间序列平稳性的单位根检验

一、时间序列预测模型的基础理论DF检验:最早的单位根检验方法,基于一阶自回归模型

。原假设H0:时间序列具有单位根,是非平稳的

。备择假设H1:时间序列没有单位根,是平稳的

。检验形式的分类:第一种类型:无常数项、无趋势项。第二种类型:有常数项、无趋势项。第三种类型:有常数项、有趋势项。一、时间序列预测模型的基础理论ADF检验:增广的DF检验,允许时间序列的确定性部分由过去𝑝期的历史数据描述。适用于时间序列的确定性部分不仅仅受到上一期历史数据的影响。检验决策:如果统计量小于临界值或P值小于显著性水平,则拒绝原假设,认为序列是平稳的。如果统计量大于临界值或P值大于显著性水平,则接受原假设,认为序列是非平稳的。趋势平稳时间序列:如果检验结果显示时间序列是趋势平稳的,这意味着序列具有趋势项,但去除趋势项后序列是平稳的。平稳时间序列分析常用的模型有三个:自回归模型(AR模型)、移动平均模型(MA模型)、ARMA模型。1.AR模型p阶AR模型具有以下结构:式中,限制条件

要求随机扰动项

为零均值白噪声序列。用延迟算子可将中心化AR模型写为AR模型常见的统计量有常数均值和方差、自相关系数、偏自相关系数。二、时间序列分析方法介绍(一)平稳时间序列分析方法

2.MA模型q阶MA模型具有以下结构:

和AR模型一样,限制条件

仍然要求随机扰动项为零均值白噪声序列。用延迟算子可将中心化MA模型写为

MA模型常见的统计量有常数均值和方差、自相关系数、偏自相关系数,其中自相关系数截尾,偏自相关系数拖尾。二、时间序列分析方法介绍(一)平稳时间序列分析方法

3.ARMA模型

用延迟算子可将中心化ARMA模型写为

ARMA模型的自相关系数和偏自相关系数都表现为拖尾。二、时间序列分析方法介绍(一)平稳时间序列分析方法

平稳时间序列建模步骤:(1)时间序列预处理。(2)模型识别定阶。(3)参数估计。(4)模型检验。(5)模型优化。(6)模型预测。二、时间序列分析方法介绍(一)平稳时间序列分析方法

非平稳时间序列在自然界和社会科学中非常普遍,因此对它们的分析尤为重要。非平稳时间序列的分析方法主要分为确定性分析方法和随机分析方法两大类:确定性分析方法原理简单,操作方便,易于解释,但是只提取确定性信息,对随机信息浪费严重,且对各因素之间确切的作用关系没有明确有效的判断方法;随机分析方法深入时间序列内部去寻找观察值之间的相关关系,借助自相关系数、偏自相关系数等统计量的特征进行时间序列相关信息的提取,弥补了确定性分析方法的不足,为人们提供更加丰富、更加精确的时序分析工具。随机分析方法包括ARIMA模型、残差自回归模型、条件异方差(GARCH)模型等,确定性分析方法主要有季节调节模型、平滑法和随机方法结合的季节ARIMA模型等。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

二、时间序列分析方法介绍(二)非平稳时间序列分析方法

1.非平稳时间序列的随机分析(1)差分运算。在时间序列分析中,为了将非平稳时间序列转换为平稳时间序列以便于建模,通常采用差分技术,包括一次差分去除线性趋势和高次差分处理曲线趋势,随后通过平稳性检验确认转换效果。一旦序列平稳,便可应用ARMA模型进行深入分析和预测,确保模型的准确性和可靠性。差分实质:自回归,是一种非常简便有效的确定性信息提取方法。差分类型:包括阶数差分和步数差分。一阶差分:d阶差分:k步差分:(2)ARIMA模型。ARIMA模型,即自回归积分滑动平均模型,是时间序列分析中用于处理非平稳数据并转换为平稳序列的核心方法。这种模型通过差分d次将原始序列转换为平稳形式,然后应用自回归部分p和移动平均部分q进行建模。当q=0时,简化为AR模型;当p=0时,简化为MA模型。ARIMA模型的关键在于假设随机波动为具有0均值和常数方差的纯随机序列,确保模型能够准确捕捉并预测时间序列的统计特性。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

ARIMA模型的建模步骤:第一步,进行时间序列预处理,检验其是否为平稳时间序列,若是,则进入第三步,若为非平稳时间序列,则进行第二步;第二步,差分处理,将非平稳时间序列转换为平稳时间序列,继续检验平稳时间序列的纯随机性,若为纯随机序列,则停止分析,若为非纯随机序列,则继续分析;第三步,模型识别定阶,绘制自相关图和偏自相关图,判断模型及阶数;第四步,参数估计;第五步,残差序列纯随机性检验,若不通过,则返回第三步;第六步,模型优化;第七步,时间序列预测。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

(1)因素分解方法。因素分解方法是时间序列分析中的一种技术,它将时间序列的波动分解为长期趋势(Tt)、循环波动(Ct)、季节性效应(St)和随机波动(It)四个组成部分。这种方法在经济、商业和社会领域有广泛应用,但存在挑战,特别是在区分长期趋势和循环波动方面,因为如果观察时期不够长,它们的影响可能难以准确分离。康德拉季耶夫周期等循环波动的周期可能非常长且不固定,导致在较短的观察期内难以捕捉其完整影响。因素分解方法的目的是:1.排除其他因素的干扰,单独测量某个确定性因素的影响。2.根据时间序列的确定性特征选择合适的方法进行综合预测,例如LOESS季节分解模型和指数平滑预测模型。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

因素分解模型根据各因素之间的关系有不同的形式,包括加法模型和乘法模型。如果各时间序列之间是相互独立的,表现在时序图中季节性效应和长期趋势相互独立,季节效应的周期振幅不随长期趋势发生变化,维持相对稳定,用加法模型: 若时间序列各因素之间互相影响,也就是说季节性效应的周期振幅随着长期趋势的递增发生变化,则用乘法模型:

二、时间序列分析方法介绍(二)非平稳时间序列分析方法

二、时间序列分析方法介绍(二)非平稳时间序列分析方法

(2)利用LOESS方法的季节分解模型(STL)。LOESS方法的思想在估计的每个点处利用低阶多项式进行加权最小二乘拟合,离拟合目标点越近的点给予的权重越大。利用

LOESS

方法进行时间序列的季节分解(SeasonaldecompositionofTimeseriesbyLOESS,简称STL)是Cleveland等于1990年提出的分解时间序列的常用方法,是一种局部加权多项式回归分解的方法。模型可写成式中,Yt为数据;Tt为长期趋势;St为季节性效应;Rt为随机波动。该模型对于离群点STL季节分解也是稳健的,少数的离群观测值不会影响长期趋势和季节性效应的估计。STL季节分解由外循环及嵌套在外循环之中的内循环组成,每进行一次内循环都更新长期趋势和季节性效应一次。在内循环中,记

为第k步的迭代结果,第k+1步进行如下操作。步骤一:去掉趋势成分

。步骤二:用LOESS对去掉趋势成分后的序列进行d=1,q取季节周期的平滑,记作

。步骤三:平滑后

的先做两次周期长度的移动平均和3期移动平均,接着进行d=1,某个q的LOESS平滑,记作

。步骤四:去掉平滑后的循环子序列的趋势成分得到季节成分

。步骤五:去掉季节成分

。步骤六:去掉季节成分的趋势做LOESS平滑,剩余部分

。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

二、时间序列分析方法介绍(二)非平稳时间序列分析方法

(3)指数平滑。在实际生活中,对大多数随机事件而言,一般都是近期的结果对现在的影响会大些,远期的结果对现在的影响会小些。为了更好地反映这种影响作用,考虑到时间间隔对事件发展的影响,各期权重随时间间隔的增大而呈指数衰减,这就是指数平滑法的基本思想。指数平滑包括简单指数平滑、Holt-Winters两参数指数平滑、Holt-Winters三参数指数平滑。具体应用场景如表7.2.3所示。二、时间序列分析方法介绍(二)非平稳时间序列分析方法

(3)指数平滑。季节加法ARIMA模型通过趋势差分和季节差分将时间序列转化为平稳序列,适用于季节效应、长期趋势效应和随机波动之间存在简单线性关系的情况。季节乘法ARIMA模型适用于复杂交互影响的时间序列,其原理基于使用低阶ARIMA模型提取长期趋势效应,并通过周期步长的差分操作提取具有季节相关性的季节效应,最终构建为ARIMA(p,d,q)和ARIMA(P,D,Q)S的乘积模型,即ARIMA(p,d,q)×(P,D,Q)S。季节加法ARIMA模型的数学形式:季节乘法ARIMA模型的数学形式:二、时间序列分析方法介绍(三)时间序列的交叉验证时间序列有以下两种交叉验证方法[27]。①随机选取N个训练集和N个测试集,类似于截面数据的N折交叉验证,训练集和测试集都是固定的原始序列的完整窗口,而且所有折的训练集和测试集的滞后间隔固定。②固定长度或者改变长度的训练集每次向前移动一个时间或者一段固定时间,如季节周期,后面是固定长度的测试集。交叉验证的目的主要有以下三点。①对不同时间段比较不同的精度度量。②对不同的方法比较不同的精度度量。③对不同的预测前景比较不同的精度度量。二、时间序列分析方法介绍交叉验证中度量精度的误差如下:①平均绝对误差为②均方误差为③均方根误差为④平均绝对百分比误差为⑤平均绝对标准化误差为针对非季节性时间序列:针对季节性时间序列:(三)时间序列的交叉验证二、时间序列分析方法介绍(四)时间序列预测R语言算法函数用R语言实现时间序列分析的主要模型是ARIMA模型、STL季节分解、指数平滑模型,在使用这些模型时需要进行数据预处理、差分等操作,主要包括绘制时序图、ACF图、PACF图、平稳性检验、纯随机性检验、各类差分、参数估计、模型检验、AIC优化、BIC优化、模型预测、交叉验证等过程,常用函数如表7.2.4所示。三、案例分析(一)案例背景糖尿病是全球性日益严重的公共卫生问题,2019年全球成人患者已达4.63亿,预计到2030年和2045年将分别增至5.78亿和7.002亿。中国以1.164亿患者位居世界第一,预计2030年将增至1.41亿。随着患者人数增长、医疗保险制度推广和新药推出,中国抗糖尿病药物市场自2017年的512亿元增长至2022年的978亿元,并预计2028年将达到1739亿元,公立医院数据显示2015至2019年间销售总金额复合增长率为9.55%,预计市场增速将保持在10%以上,突显了抗糖尿病药物市场的广阔前景和持续增长潜力。现有某医药企业1992年1月至2008年12月的抗糖尿病药物销售历史数据,分析目标包括:研究每月抗糖尿病药物销售的长期趋势及季节性影响。选择合适的模型预测未来每月的销售情况。三、案例分析(二)问题分析采用时间序列分析法研究每月抗糖尿病药物销售序列的建模分析过程主要包括以下步骤:①数据预处理:缺失值、异常值处理,形成建模数据,绘制时序图探索序列特点。②因素分解:使用因素分解方法来识别并分离出时间序列中的趋势和季节效应,特别是分析不同季节对销售的影响。③模型选择与评估:应用STL季节分解、指数平滑和季节ARIMA模型对销售序列进行建模,并通过交叉验证来评估各模型的预测性能。④预测与指导:利用选定的模型预测未来每月的销售情况,为药物销售策略和库存管理提供数据支持和建议。三、案例分析(三)数据探索分析每月抗糖尿病药物销售序列的数据格式整洁,经检查没有缺失值、异常值,故不必作数据清洗处理,直接可以进行建模分析。首先对每月抗糖尿病药物销售序列进行时间序列格式转换,设置时间起止为1992年1月至2008年12月,时间频率为月度,紧接着对每月抗糖尿病药物销售序列绘制时序图,如图7-2-6所示。三、案例分析(三)数据探索分析观察图7-2-6,可以看到每月抗糖尿病药物销售序列有着明显上升的趋势,并且每一年都有从低谷到高峰再到低谷的周期循环,周期长度为12个月。显然每月抗糖尿病药物销售序列非平稳,并且同时受到趋势效应、季节效应和随机扰动的影响,在构建模型的时候需要考虑到上述因素的影响。三、案例分析(四)模型建模为预测抗糖尿病药物销售,分析流程包括:序列因素分解以识别趋势和季节效应,使用1992至2007年数据训练季节ARIMA、STL分解和指数平滑模型,预测2008年销售;通过交叉验证评估模型准确性;选择最稳健的模型应用于销售监控。(1)因素分解通过R语言对每月抗糖尿病药物销售数据进行因素分解,揭示了销售量受到趋势和季节效应的共同影响,其中趋势呈上升趋势,表明需求不断增长,而季节效应则表现为7月份销售最旺盛、8月份最低迷,季节指数显示8月份销售量通常为7月份的59%,反映了季节变化对销售的显著影响。三、案例分析(四)模型建模趋势序列的时序图三、案例分析(四)模型建模季节效应的时序图三、案例分析(四)模型建模data<-read.csv("E:\\chapter8\\drugsales.data.csv")data<-ts(data[,2],start=c(1992,1),frequency=12)plot(data,main="抗糖尿病药物销售")##首先,用filter()函数进行简单中心移动平滑,分解趋势序列m12<-filter(data/12,rep(1,12),sides=2)#做周期长度为12的第一次移动平均m2_12<-filter(m12/2,rep(1,2),sides=1)#做2次移动平均,得到趋势序列Trenddata1<-data.frame(data,m12,m2_12)plot(data,lty=2,type="o")#绘制原始序列时序图lines(m2_12,col=2)#添加趋势序列图##在原始序列中剔除趋势序列,得到残差序列(包含季节效应和随机扰动)x_T<-data/m2_12plot(x_T,col=2)##将残差序列整理成以年为行,以季度为列的矩阵结构数据x_T<-matrix(x_T,ncol=12,byrow=T)##剔除缺失值,计算残差序列的整体均值m<-mean(x_T,na.rm=T)##循环计算每个季度的均值ms<-0for(kin1:12)ms[k]=mean(x_T[,k],na.rm=T)##每个季度均值除以总均值得到各季度的季节指数S<-ms/mMonth<-c(1:12)plot(Month,S,type="o",col=2,main="季节效应")三、案例分析(四)模型建模根据每月抗糖尿病药物销售序列的时序图可知,该时间序列受到趋势效应、季节效应和随机扰动的综合影响,并且综合影响为乘法形式,可以建立的预测模型有LOESS季节分解模型、三参数指数平滑模型(乘法形式)、季节ARIMA乘法模型。季节ARIMA乘法模型的构建过程如下:第一步,平稳性检验。这一步可以直接用时序图检验,若有着明显的趋势和季

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论