




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本次模型采用时间序列分析模型与回归分析模型进行组合训练,以此来对经济指标进行时间序列预测发现其自身的规律性, 据此预测未来一段时间内经济数 据的变化。同时采用回归分析对经济指标间的相关性进行分析,确定指标间的函数变动,探究指标之间的联系。一、回归分析线性回归和逻辑回归通常是人们学习预测模型的第一个算法。 由于这二者的 知名度很大,许多分析人员以为它们就是回归的唯一形式了。 而了解更多的学者 会知道它们是所有回归模型的主要两种形式。事实是有很多种回归形式,每种回归都有其特定的适用场合。在这篇文章中, 我将以简单的形式介绍 7中最常见的回归模型。通过这篇文章,我希望能够帮 助大家对回归有更广泛和全
2、面的认识,而不是仅仅知道使用线性回归和逻辑回归 来解决实际问题。1 .什么是回归分析?回归分析是一种预测建模技术的方法,研究因变量(目标)和自变量(预测 器)之前的关系。这一技术被用在预测、时间序列模型和寻找变量之间因果关系。 例如研究驾驶员鲁莽驾驶与交通事故发生频率之间的关系,就可以通过回归分析 来解决。回归分析是进行数据建模、分析的重要工具。下面这张图反映的是使用一条 曲线来拟合离散数据点。其中,所有离散数据点与拟合曲线对应位置的差值之和 是被最小化了的,更多细节我们会慢慢介绍。2 .为什么使用回归分析?如上面所说,回归分析能估计两个或者多个变量之间的关系。下面我们通过一个简单的例子来理解
3、:比如说,你想根据当前的经济状况来估计一家公司的销售额增长。你有最近 的公司数据,数据表明销售增长大约是经济增长的2.5倍。利用这种洞察力,我们就可以根据当前和过去的信息预测公司未来的销售情况。使用回归模型有很多好处,例如:揭示了因变量和自变量之间的显著关系揭示了多个自变量对一个因变量的影响程度大小回归分析还允许我们比较在不同尺度上测量的变量的影响, 例如价格变化的 影响和促销活动的数量的影响。这样的好处是可以帮助市场研究者 /数据分析 家/数据科学家评估选择最佳的变量集,用于建立预测模型。3 .有哪些回归类型?有许多回归技术可以用来做预测。这些回归技术主要由三个度量(独立变量 的数量、度量变
4、量的类型和回归线的形状)驱动。我们将在下面的章节中详细讨 论。对于有创造力的人来说,可以对上面的参数进行组合,甚至创造出新的回归。但 是在此之前,让我们来看一看最常见的几种回归。4 )线性回归(Linear Regression线性回归是最为人熟知的建模技术, 是人们学习如何预测模型时的首选之一。 在此技术中,因变量是连续的,自变量可以是连续的也可以是离散的。 回归的本 质是线性的。线性回归通过使用最佳的拟合直线(又被称为回归线),建立因变量(Y)和 一个或多个自变量(X)之间的关系。它的表达式为:Y=a+b*X+e,其中a为直线截距,b为直线斜率,e为误差 项。如果给出了自变量 X,就能通过
5、这个线性回归表达式计算出预测值, 即因变 量Y。Relation a/w Weight & Height元线性回归和多元线性回归的区别在于,多元线性回归有大于1个自变量,而一元线性回归只有1 个自变量。接下来的问题是“如何获得最佳拟合直线?”如何获得最佳拟合直线(确定 a和b值)?这个问题可以使用最小二乘法(Least Square Method)轻松解决。最小二乘 法是一种拟合回归线的常用算法。它通过最小化每个数据点与预测直线的垂直误 差的平方和来计算得到最佳拟合直线。因为计算的是误差平方和,所有,误差正 负值之间没有相互抵消。自变量和因变量之间必须满足线性关系。多元回归存在多重共线
6、性,自相关 性和异方差性。线性回归对异常值非常敏感。异常值会严重影响回归线和最终的 预测值。多重共线性会增加系数估计的方差, 并且使得估计对模型中的微小变化 非常敏感。结果是系数估计不稳定。在多个自变量的情况下,我们可以采用正向选择、向后消除和逐步选择的方 法来选择最重要的自变量。2)逻辑回归逻辑回归用来计算事件成功(Success或者失败(Failure)的概率。当因变 量是二进制(0/1 , True/False, Yes/NO)时,应该使用逻辑回归。这里, Y的取 值范围为0,1,它可以由下列等式来表示。odds= p/ (1-p) = probability of event occu
7、rrence / probability of not event occurrenceln(odds) = ln(p/(1-p)logit(p) = ln(p/(1-p) = b0+b1X1+b2X2+b3X3.+bkXk其中,p是事件发生的概率。你可能会有这样的疑问“为什么在等式中使用 对数log呢?"因为我们这里使用的二项分布(因变量),所以需要选择一个合适的激活函 数能够将输出映射到0,1之间,Logit函数满足要求。在上面的等式中,通过 使用最大似然估计来得到最佳的参数,而不是使用线性回归最小化平方误差的方 法。逻辑回归广泛用于分类问题。逻辑回归不要求因变量和自变量之间是线
8、性关 系,它可以处理多类型关系,因为它对预测输出进行了非线性log变换。为了避免过拟合和欠拟合,我们应该涵盖所有有用的变量。实际中确保这种 情况的一个好的做法是使用逐步筛选的方法来估计逻辑回归。训练样本数量越大越好,因为如果样本数量少,最大似然估计的效果就会比 最小二乘法差。自变量不应相互关联,即不存在多重共线性。然而,在分析和建模中,我们 可以选择包含分类变量相互作用的影响。如果因变量的值是序数,则称之为序数逻辑回归。如果因变量是多类别的,则称之为多元逻辑回归。3)多项式回归(Polynomial Regression对应一个回归方程,如果自变量的指数大于1,则它就是多项式回归方程,如下所示
9、:y=a+b*xA21在多项式回归中,最佳的拟合线不是直线,而是拟合数据点的曲线。虽然可能会有一些诱导去拟合更高阶的多项式以此来降低误差,但是这样容易发生过拟合。应该画出拟合曲线图形,重点放在确保曲线反映样本真实分布上。 下图是一个例子,可以帮助我们理解。尤其要注意曲线的两端,看看这些形状和趋势是否有意义。更高的多项式可以产 生怪异的推断结果。4)逐步回归(Stepwise Regression当我们处理多个独立变量时,就使用逐步回归。在这种技术中,独立变量的 选择是借助于自动过程来完成的,不涉及人工干预。逐步回归的做法是观察统计值,例如R-square、t-stats、AIC指标来辨别重要的
10、变量。基于特定标准,通过增加/删除协变量来逐步拟合回归模型。常见的 逐步回归方法如下所示:标准的逐步回归做两件事,每一步中增加或移除自变量。前向选择从模型中最重要的自变量开始,然后每一步中增加变量。反向消除从模型所有的自变量开始,然后每一步中移除最小显著变量。这种建模技术的目的是通过使用最少的自变量在得到最大的预测能力。它也是处理高维数据集的方法之一。5)岭回归(Ridge Regression岭回归是当数据遭受多重共线性(独立变量高度相关)时使用的一种技术。在多重共线性中,即使最小二乘估计(OLS是无偏差的,但是方差很大,使得 观察智远离真实值。岭回归通过给回归估计中增加额外的偏差度,能够有
11、效减少方差。之前我们介绍过线性回归方程,如下所示:y=a+b?x这个方程也有一个误差项,完整的方程可表示成:y=a+b*x+e (error term), error term is the value needed to correct for a prediction error between the observed and predicted value=> y=a+y= a+ b1x1+ b2x2+.+e, for multiple independent variables.在线性方程中,预测误差可以分解为两个子分量。首先是由于偏颇,其次是由于方差。预测误差可能由于这两个或
12、两个分量中的任何一个而发生。这里,我们将讨论由于方差引起的误差。岭回归通过收缩参数 入(lambda)解决了多重共线性问题。请看下面的方 程式:=argmin |y-+A |网后隧Rp 7xkjgEnmity上面这个公式中包含两项。第一个是最小平方项,第二个是系数 B的平方 和项,前面乘以收缩参数 入。增加第二项的目的是为了缩小系数 B的幅值以 减小方差。6)套索回归(Lasso Regression类似于岭回归,套索(Least Absolute Shrinkage and Selection Operatedr 回归 惩罚的是回归系数的绝对值。止匕外,它能够减少变异性和提高线性回归模型的准
13、 确性。请看下面的方程式:=argmin |j/ - X3的 + > 口训夹咐p *- v、7LottsPenalty套索回归不同于岭回归,惩罚函数它使用的是系数的绝对值之和,而不是平 方。这导致惩罚项(或等价于约束估计的绝对值之和),使得一些回归系数估计 恰好为零。施加的惩罚越大,估计就越接近零。实现从 n个变量中进行选择。7)弹性回归(ElasticNet Regression弹性回归是岭回归和套索回归的混合技术,它同时使用L2和L1正则化。当有多个相关的特征时,弹性网络是有用的。套索回归很可能随机选择其中一个, 而弹性回归很可能都会选择。3 ="部曲(旧+刖牍十九|叫J权
14、衡岭回归和套索回归的一个优点是它让弹性回归继承了一些岭回归在旋 转状态下的稳定性。4 .如何选择合适的回归模型?当你只知道一两种技巧时,生活通常是简单的。我知道的一个培训机构告诉 他们的学生:如果结果是连续的,使用线性回归;如果结果是二值的,使用逻辑 回归!然而,可供选择的选项越多,选择合适的答案就越困难。类似的情况也发 生在回归模型选择中。二、时间序列分析时间序列(time series)是同一现象在不同时间上的相继观察值排列而成的 序列。根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份 或其他任何时间形式。时间序列:(1)平稳序歹!J ( stationary series
15、)是基本上不存在趋势的序列,序列中的各观察值基本上在某个固定的水平上是包含趋势、季节性或周期性的序列,只含有其中一种成分,也可能是几种 成分的组合。可分为:有趋势序列、有趋势和季节性序列、几种成分混合而成的 复合型序列。趋势(trend):时间序列在长时期内呈现出来的某种持续上升或持续下降的 变动,也称长期趋势。时间序列中的趋势可以是线性和非线性。季节性(seasonaHty):季节变动(seasonal fluctuation),是时间序列在一年内重复出现的周期波动。销售旺季,销售淡季,旅游旺季、旅游淡季,因季节不 同而发生变化。季节,不仅指一年中的四季,其实是指任何一种周期性的变化。周期性
16、(cyclidty):循环波动(cyclical fluctuation ),是时间序列中呈现出来 的围绕长期趋势的一种波浪形或振荡式波动。周期性是由商业和经济活动引起的, 不同于趋势变动,不是朝着单一方向的持续运动,而是涨落相间的交替波动;不 同于季节变动,季节变动有比较固定的规律,且变动周期大多为一年,循环波动 则无固定规律,变动周期多在一年以上,且周期长短不一。周期性通常是由经济 环境的变化引起。除此之外,还有偶然性因素对时间序列产生影响,致使时间序列呈现出某种 随机波动。时间序列除去趋势、周期性和季节性后的偶然性波动,称为随机性(random), 也称不规贝 U波动(irregular
17、 variations) 0时间序列的成分可分为4种:趋势(T)、季节性或季节变动(S)、周期性或 循环波动(C)、随机性或不规则波动(I)。传统时间序列分析的一项主要内容就 是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式 予以表达,而后分别进行分析。按4种成分对时间序列的影响方式不同,时间序列可分解为多种模型:加法模型(additive model),乘法模型(multiplicative model)。 乘法模型:二、描述性分析1、增长率分析:是对现象在不同时间的变化状况所做的描述。由于对比的 基期不同,增长率有不同的计算方法。(1)增长率(growth rate)
18、:增长速度,是时间序列中报告期观察值与基期 观察值之比减1后的结果,用表示。由于对比的基期不同,可分为环比增长率 和定基增长率。环比增长率:是报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度;定基增长率是报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。(2)平均增长率(average rate of increase):平均增长速度,是时间序列中 逐期环比值(环比发展速度)的几何平均数减1的结果数(3)增长率分析中应注意的问题i:当时间序列中的观察出现0或负数时,不宜计算增长率。这种序列计算增长率,要么不符合数学公理,要么无法解释其实际意义。可
19、用绝对数进行分析11: 有些情况下,不能单纯就增长率论增长率,注意增长率与绝对水平结合 起来。增长率是一个相对值,与对比的基数值的大小有关。这种情况,计算增长 1%的绝对值来克服增长率分析的局限性:增长1%的绝对值表示增长率每增长一个百分点而增加的绝对数量:增长 1% 的绝对值=前期水平/100三、时间序列预测的程序时间序列分析的主要目的之一是根据已有的历史数据对未来进行预测。时间序列含有不同的成分,如趋势、季节性、周期性和随机性。对于一个具体的时间 序列,它可能含有一种成分,也可能同时含有几种成分,含有不同成分的时间序 列所用的预测方法是不同的。预测步骤:第一步:确定时间序列所包含的成分,确
20、定时间序列的类型第二步:找出适合此类时间序列的预测方法第三步:对可能的预测方法进行评估,以确定最佳预测方案第四步:利用最佳预测方案进行预测1、确定时间序列成分(1)确定趋势成分确定趋势成分是否存在,可绘制时间序列的线图,看时间序列是否存在趋势, 以及存在趋势是线性还是非线性。利用回归分析拟合一条趋势线,对回归系数进行显著性检验。回归系数显著, 可得出线性趋势显著的结论。(2)确定季节成分确定季节成分是否存在,至少需要两年数据,且数据需要按季度、月份、周 或天来记录。可绘图,年度折叠时间序列图(folded annual time series plot),需 要将每年的数据分开画在图上,横轴只
21、有一年的长度,每年的数据分别对应纵轴。 如果时间序列只存在季节成分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成分又含有趋势,则年度折叠时间序列图中的折线将不会有 交叉,若趋势上升,后面年度的折线将会高于前面年度的折线,若下降,则后面 年度的折线将会低于前面年度的折线。2、选择预测方法确定时间序列类型后,选择适当的预测方法。利用时间数据进行预测,通常 假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行 预测。时间序列的预测方法:传统方法:简单平均法、移动平均法、指数平滑法 等,现代方法:BoxJenkins的自回归模型(ARMA)。一般来说,任何时间序列都
22、会有不规则成分存在,在商务和管理数据中通常不含趋势和季节成分的时间序列,即平稳时间序列只含随机成分,只要通过 平滑可消除随机波动。因此,这类预测方法也称平滑预测方法。3、预测方法的评估在选择某种特定的方法进行预测时,需要评价该方法的预测效果或准确性。评价方法是找出预测值与实际值的差距, 即预测误差。最优的预测方法就是预测 误差达到最小的方法。预测误差计算方法:平均误差,平均绝对误差、均方误差、平均百分比误差、 平均绝对百分比误差。方法的选择取决于预测者的目标、对方法的熟悉程度。ME,MAD,MSE的大小受时间序列数据的水平和计量单位的影响,有时并不能 真正反映预测模型的好坏,只有在比较不同模型
23、对同一数据的预测时才有意义。 平均百分比误差(mean percentage error, MPE)和平均绝对百分比误差(mean absolute percentage error,MAPE)则不同,它们消除了时间序列数据的水平和计 量单位的影响,是反映误差大小的相对值。4、平稳序列的预测平稳时间序列只含有随机成分,预测方法:简单平均法、移动平均法、指数 平滑法。主要通过对时间序列进行平滑以消除随机波动,又称平滑法。平滑法可用于对时间序列进行短期预测,也可对时间序列进行平滑以描述序列的趋势(线性趋势和非线性趋势)。(1)简单平均法:根据已有的t期观察值通过简单平均法来预测下一期的数 值。简单
24、平均法适合对较为平稳的时间序列进行预测,即当时间序列没有趋势时,用该方法比较好。但如果时间序列有趋势或季节成分,该方法的预测则不够准确。 简单平均法将远期的数值和近期的数值看作对未来同等重要。从预测角度,近期的数值比远期的数值对未来有更大的作用,因此简单平均法预测的结果不够准确。(2)移动平均法(moving average):通过对时间序列逐期递移求得平均数 作为预测值的一种预测方法,有简单移动平均法(simple moving average和加 权移动平均法(weighted moving average .简单移动平均将最近k期数据加以平 均,作为下一期的预测值。对时间序列的平滑结果,
25、通过这些平滑值可描述出时间序列的变化形态或趋势。也可以用来预测。移动平均法只使用最近k期的数据,在每次计算移动平均值时,移动的间隔 都为k,也适合对较为平稳的时间序列进行预测。 应用关键是确定合理的移动平均 间隔ko对于同一个时间序列,采用不同的移动间隔,预测的准确性是不同的。 可通过试验的方法,选择一个使均方误差达到最小的移动间隔。移动间隔小,能快速反映变化,但不能反映变化趋势;移动间隔大,能反映变化趋势,但预测值 带有明显的滞后偏差。移动平均法的基本思想:移动平均可以消除或减少时间序列数据受偶然性因 素干扰而产生的随机变动影响,适合短期预测。(3)指数平滑法(exponential smo
26、othing)是通过对过去的观察值加权平均 进行预测,使t+1期的预测值等t期的实际观察值与t期的预测值的加权的平均 值。指数平滑法是从移动平均法发展而来,是一种改良的加权平均法,在不舍弃历史数据的前提下,对离预测期较近的历史数据给予较大权数, 权数由近到远接 指数规律递减,因此称指数平滑。指数平滑有一次指数平滑法、二次指数平滑法、 三次指数平滑法等。一次指数平滑法也称单一指数平滑法(single exponential smoothing),只有 一个平滑系数,且观察值离预测时期越久远,权数变得越小。5、趋势型序列的预测时间序列的趋势可分为线性趋势和非线性趋势, 若这种趋势能够延续到未来,
27、就可利用趋势进行外推预测。有趋势序列的预测方法主要有线性趋势预测、非线 性趋势预测和自回归模型预测。(1)线性趋势预测线性趋势(linear trend)是指现象随着时间的推移而呈现稳定增长或下降的 线性变化规律。趋势方程:时间序列的预测值;是趋势线斜率,表示时间t变动一个单位,观察值的平均变动数量(2)非线性趋势预测序列中的趋势通常可认为是由于某种固定因素作用同一方向所形成的。若这种因素随时间推移按线性变化,则可对时间序列拟合趋势直线;若呈现出某种非 线性趋势(non-linear trend),则需要拟合适当的趋势曲线。6、复合型序列的分解预测复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预 测方法是将时间序列的各个因素依次分解出来,然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论