OK卢瑜-期货从业-期货投资分析-精讲-第三章(美工版2013420)_第1页
OK卢瑜-期货从业-期货投资分析-精讲-第三章(美工版2013420)_第2页
OK卢瑜-期货从业-期货投资分析-精讲-第三章(美工版2013420)_第3页
OK卢瑜-期货从业-期货投资分析-精讲-第三章(美工版2013420)_第4页
OK卢瑜-期货从业-期货投资分析-精讲-第三章(美工版2013420)_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

期货从业期货投资分析精讲班主讲老师:卢瑜第三章数理方法一、概率与随机变量(一)事件和概率随机试验——试验时,会出现什么结果,是不确定的。样本点——每一种可能的结果。样本空间——全体样本点集合。事件——样本空间子集。第一节概率基础1.集合、事件与概率。概率——对某个事件发生可能性的度量。事件运算——子事件、事件并(和)、事件交(积)、事件补(余事件)。(1)概率主观定义。依据各自的经验和自信,三人分别对于事件A发生的可能性有不同的看法,分别给出的估计概率。第一节概率基础

(2)概率的公理化定义。样本空间s上的概率测度P满足以下概率公理:①对于任意的事件A属于S,0≤P(A)≤1,表示一个事件的概率必定在0和1之间;②P(S)=1,表示样本空间s包含所有可能的结果,事件s的概率应该为1;③如果对于任意的i≠j,Ai∩Ai=Φ那么P(A1∪A2∪…)=P(A1)+P(A2)+…,表示如果事件A和事件B不相交,那么它们并集的概率等于两个事件概率和。第一节概率基础2.条件概率与事件独立。在给定事件B已经发生的条件下事件A发生的概率记为P(A/B)。在给定事件B已经发生的条件下事件A发生的概率为:

如果说事件A和事件B是相互独立的,则P(A/B)=P(A),表示事件B的发生对事件A发生的机会不产生任何影响。如果P(A∩B)=P(A/B)P(B)=P(A)P(B),我们说事件A和事件B是相互独立的。否则,我们说事件A和事件B是相互依赖的。第一节概率基础例题:考虑掷骰子的试验。样本空间S是六个样本点,出现点数为1的概率,记为集合A={1},则P(A)=1/6。但是,如果考虑奇数点出现的条件下点数1出现的概率,则在给定信息影响下,使得样本空间从S={1,2,3,4,5,6}缩小到B={1,3,5},此条件概率记为P(A丨B)=1/3。第一节概率基础(二)随机变量和概率分布随机变量——从样本空间到实数集的一个函数,一般我们用大写字母表示它,它的取值用小写字母表示。1.离散随机变量及其概率分布函数。设随机变量X取值为有限个或者可数多个值,则:P(X=xi)=pii=i,2,…,n称为随机变量X的(概率)分布。第一节概率基础2.连续随机变量与概率密度函数。概率分布函数——随机变量取值范围在一个区间或者整个实数轴。设X是随机变量,其值小于等于x的事件{X≤x}发生概率用F(x)表示,我们称F(x)=P(X≤x)为随机变量X的分布函数。某个连续的随机变量X的概率密度函数满足的三条性质:(1)对于所有的x∈R,有f(x)≥0;(2)第一节概率基础(3)对于任何两个实数a、b,-∞<a<b<∞有:P(a≤X≤b)=连续的随机变量X的累计分布函数为:F(x)=P(X≤x)=并且第一节概率基础3.常用分布。二项分布、正态分布、对数正态分布、t分布和F分布。(1)二项式分布。B(n,P)。其中n和P是两个参数,n是正整数,0≤p≤1。考虑一个仅有两个结果的试验,比如价格上涨或下跌,随机变量X的值为0或1。随机变量X服从贝努利分布的假设为P(X=1)=p,P(X=0)=1-p,这里0≤p≤1如果X1,X2,...,Xn是相互独立,且服从贝努利分布,那么是一个取值为0,1,2,…,n的离散的随机变量。第一节概率基础假定所有的X1是同一个随机试验的随机变量,并且取值为1表示成功,那么X的值就表示在这n试验中成功的次数。它的概率密度函数为:第一节概率基础小概率概念——一个事件发生概率小于0.05假定小概率事件在一次实验中不会发生,如果该事件发生,说明该事件发生的前提不对。第一节概率基础例题:在著名的心灵感应试验中,两个试验者A、B分在两个房间,裁判给A分发了4红4黑的8张扑克牌,每发一张,要求B说出什么颜色的牌,B只知道共发了4红4黑的8张牌。问题:①如果一次试验中,乙至少说对了6张牌,B是否有心灵感应?②如果10次试验,至少有5次乙说对了6或6张以上的牌,是否有心灵感应?③如果10次试验,至少有6次乙说对了6或6张以上的牌,是否有心灵感应?第一节概率基础分析:①如果A与B没有心灵感应B说对6张的有利场合为B说对8张(全部猜对)的有利场合为1种合计为17种全部发4红和4黑的8张牌的构成70种不同顺序B猜对6或8张的概率P=17/70=0.243。说明了没有心灵感应,B猜对6或8张的概率近1/4,这完全可以用随机性解释,因此不能说A和B有心灵感应。第一节概率基础②如果独立重复10次,以X表示乙猜对6或8张的次数,在没有心灵感应的前提下,随机变量X服从二项分布B(10,0.243),故:说明有超过6%的概率猜对5次以上,不能说明A与B有心灵感应.第一节概率基础③如果猜对了6次以上,则概率为:说明不到2%的概率猜对6次以上,A与B没有心灵感应的假定是有问题的,可以说明A与B有心灵感应。第一节概率基础(2)正态分布。连续的随机变量X的概率密度函数为:分位点——对于给定的概率P(如5%),使得P≤F(XP)=成立的最小实数xp称为随机变量X的p-分位点。第一节概率基础(三)随机变量的数字特征(随机变量的矩)1.数学期望。一般地,如果X是一个离散的随机变量,它的分布为P(X=xi)=pi,i=1,2,…n…,它的期望值为E[X]=

第一节概率基础如果X是一个连续的随机变量,它的概率密度函数为f(x),那么它的期望值为:第一节概率基础数学期望的结论:第一节概率基础2、矩一个随机变量X的r阶原点矩阵定义为E[Xr]记为则所以x的数学期望就是它的一阶原点矩。简单地记它为μ。一个随机变量X的r阶中心矩被定义为E[(X-μ)r]

记为μr第一节概率基础3.方差与标准差。如果r=2,E[(X-μ)2]被称为X的分布的方差或x的方差。常常记它为σ2或var(X)。σ2的正平方根σ被称为x的标准差,反映了随机变量波动程度的量。关于方差,常用公式:第一节概率基础例题:计算贝努利分布和二项分布的均值与方差。对于贝努利分布,很容易获得E[X]=p,var(X)=p(1-P)。对于二项分布,也容易得到:如果X服从二项分布,一个相关的随机变量是y=X/n,它的值表示在这n试验中成功的次数占总试验次数的比例。它的均值和方差分E[Y]=p,var(Y)=P(1-p)/n。第一节概率基础例题:正态分布的基本性质如下:(1)随机变量X服从均值为μ,方差为σ2的正态分布。记为X~N(μ,σ2)(2)正态分布关于参数μ对称,其中μ是位置参数,σ是刻度参数。(3)一个正态随机变量的线性函数仍然服从正态分布,也即是如果X~N(μ,σ2)

,Y=aX+b,a≠0,b是常数,那么Y~N(aμ+b,a2σ2)(4)如果X~N(μ,σ2),特别地我们称z是一个标准正态随机变量。第一节概率基础4.偏度与峰度。(1)偏度。衡量分布是否有偏(用来描述随机变量的对称程度),如果X的概率密度函数关于期望值是对称的,比如正态分布,μ3=E[X—E(X)]3=0是无偏的,对于u3>0,说明分布是正偏或者右偏,反之为负偏或者左偏。第一节概率基础偏度系数:负的偏度系数,揭示了分布有很长的左尾(概率),反映了出现大负值的概率高。如果组合资产的收益率分布是负(左)偏的,则出现巨额损失的概率增加。第一节概率基础(2)峰度。衡量分布在均值附近的陡峭程度,如果x取值在概率上集中在均值附近,则u4

将倾向于小,否则就倾向于大。峰度系数为β2=u4/u22超额峰度=β2-3正态分布的峰度=3正态随机变量的超额峰度=0。第一节概率基础厚尾——分布有正的超额峰度,分布在其支撑的尾部有比正态分布更多的“质量”。意味着来自于这样一个分布的随机样本会有更多的极端值,故称这样的分布为尖峰的。轻尾——具有负的超额峰度的分布,也称为低峰的。第一节概率基础5.契比雪夫定理(不等式)。随机变量和它的均值的差的绝对值超过它的标准差K倍的概率小于1/K2

该定理给出了任一随机变量取值的界限。在判断程序化投机(趋势)交易或者价差(套利)交易中触发条件的发生概率较为有效。第一节概率基础例题:下列关于正态分布的结论哪个是不正确的?A.峰度为3.B.偏度为1.C.整个分布特性可由均值和方差描述。D.正态分布的密度函数表示如下:

答案:B第一节概率基础二、多元分布函数(一)联合分布第一节概率基础第一节概率基础联合累计分布函数:X和Y是相互独立的,当且仅当:f(x,y)=g(x)h(y)第一节概率基础第一节概率基础第一节概率基础(二)协方差、相关关系和协方差矩阵1.协方差。σXY,或COV(X,Y)σXY=E[(X-EX)(Y-EY)]=E[XY]-E[X]E[Y]

X于Y相关的一个测度。如果X和Y是相互独立的,那么cov(X,Y)=0。第一节概率基础2.相关关系。第一节概率基础3.协方差矩阵。一个随机向量的期望值等于它的各个分量的期望值组成的向量第一节概率基础随机向量X的协方差矩阵如下第一节概率基础例题:给定随机变量X、Y,常数a、b、c、d,下列哪个结论是错误的。A.若x和Y是相关的,则E(ax+by+c)=aE(x)+bE(y)+cB.若x和Y是相关的,则Var(ax+by+c)=Var(ax+6y)+cC.若x和Y是相关的,则Cov(ax+by,cx+dy)=acVar(X)+bdVar(Y)+(ad+bc)Coy(x,Y)D.若x和Y是不相关的,则Var(x—Y)=Var(x+y)=Var(x)+Var(y)答案:B第一节概率基础三、随机变量的函数1.随机变量的线性组合。对于以人民币计价的投资组合中现金为1000万元,组合中美元资产为1000万美元,美元汇率为X,其均值为0.01,标准差为0.001,这个组合可以被表示为Y=a+bX,其期望、方差和标准差分别为:E(a+bX)=a+bE(X),var(a+bX)=b2var(X),

第一节概率基础y的均值:E(Y)=E(1+1000X)=1+1000×0.01=11y的标准差=1000×0.001=1第一节概率基础第一节概率基础例题:已知:Cov(X,Y)=3,Var(X)=9,Var(Y)=4,求Var(2X-Y)。

VAR(ax+by)=a^2Var(x)+b^2Var(y)-2abcov(x,y)

Var(2X-Y)=Var(2X)+Var(Y)-2Cov(2X,Y)=4Var(x)+Var(Y)-4Cov(X,Y)=4*4+9+4*3=37第一节概率基础2、随机变量的加权和随机变量乘积Y=X1Y2,其期望为:E(X1X2)=E(X1)E(X2)+Cov(X1,X2)当这些变量相互独立时,乘积期望就是均值的积。4.随机变量变换(函数)的分布。假设X是一个连续随机变量,概率密度函数为f(x),g(x)是一个单调函数,那么Y=g(X)是一个新的随机变量。我们把x表述成y的函数为X=W(y),那么y的概率密度函数h(y)为:第一节概率基础例题:对于债券价格因素包含了债券收益率的概率分布信息中,对于某一零息债券的市场价值V为:V=100/(1+r)T其中,r是收益率。其逆函数为:V=100/V1/T-1如果我们希望能够估测债券价格低于收盘价V=40元的概率。对于一个20年期的零息债,其收益率r=(100/40)1/20-1=4.688%。收盘价低于40元德尔概率表示为:P(V≤40)=P(r≥4.668%)第一节概率基础四、几个重要分布(一)对数正态分布与三大统计分布1.对数正态分布。如果一个随机变量x的对数形式Y=ln(X)是正态分布,则可以称这一变量服从对数正态分布。第一节概率基础例题:下列哪个结论描述正态分布与对数正态分布间的关系?A.对数正态分布是正态分布的对数B.如果随机变量X的自然对数是对数正态分布的,则X是正态分布C.如果X是对数正态分布的,则X的自然对数是正态分布D.这两种分布相互之间毫无关系答案:C第一节概率基础对数正态分布的密度函数如下表示:则X的均值和方差分别为:第一节概率基础例题:对于一个服从对数正态分布的随机变量X,ln(X)是一个均值为0,标准差为0.5的正态分布。下面哪个是X的期望值和方差?A.1.025和0.187B.1.126和0.217C.1.133和0.365D.1.203和0.399答案:C第一节概率基础如果资产的对数收益率是独立同分布,且都正态分布,那么在此假定下,简单收益率是独立同分布的对数正态分布的随机变量,均值和方差分别为:第一节概率基础反之,假设简单收益率Rt服从对数正态分布,均值为m1,方差为m2,则对应的对数收益率rt的均值和方差分别为:第一节概率基础2.卡方(χ2)分布。一个标准正态随机变量的平方服从自由度为1的χ2分布。即如果Z~N(0,1),那么Z2~χ2(1)。如果Z1,Z2,…,Zn是相互独立的标准正态分布,那么第一节概率基础T的概率密度函数可通过变量替换方法得到,基本性质如下:(1)它是关于0对称的;(3)当r趋于无穷大时,T的分布趋于标准正态分布。第一节概率基础第一节概率基础例题:有着相同均值和标准差的正态分布和t分布,下列哪个结论正确?A.它们有着相同的偏度和峰度B.t分布有着更大的偏度和峰度C.随着自由度增加,t分布的峰度逐渐收敛到正态分布峰度D.当自由度相对较小的时候,对t分布而言,正态分布是一个较好的近似估计答案:C第一节概率基础(二)尾概率分布特点

1.尾分布。极值理论(EVT)——x超过某个阀值点U的极限分布服从以下分布族:F(y)=1-exp(-y),ξ=0当y=(x-u)/β时。简单而言就是通过刻度(Scale)参考β和形状(Shape)参数ξ确定,其中参数ξ决定了尾概率中尾巴趋于零(消失)的速度第一节概率基础正态分布对应于ξ=0,则尾巴概率以指数速度消失(趋于0)。但是,经典的金融数据,基本都有ξ>0,这就是著名的厚尾(肥尾或者重尾)现象。第一节概率基础统计推断——由总体抽取一个样本(样本大小为n)来推知总体的某一性质。可信度问题——有多大把握说明统计推断结论精度——在区间估计中可信度依赖区间的长度影响统计推断的基本因素包括:样本大小、总体的波动规律(分布)、我们希望的可靠程度(置信水平)。第二节统计基础一、总体、样本和统计量总体——研究对象的全体,称为X个体——组成总体的每个成员总体分布函数——x的分布函数抽样——依照一定的规则抽取n个个体,对个体进行测试或观察得到一组数据x1,x2,…,xn。样本——随机向量(X1,X2…,Xn)。样本容量——n。样本观测值——(x1,x2,…,xn)第二节统计基础2.统计量。(1)样本均值:用来估计总体的均值:μ第二节统计基础(2)样本方差:用于估计总体方差:σ2

第二节统计基础例题:关于市场回报的随机游走假设的基本前提是认为一期回报与下一期回报在统计上是独立的。这一假设暗含着:A.从一期到下一期回报是不可能相等的B.从一期到下一期回报是不相关的C.有关一期回报的信息对预测下一期回报是没有帮助的D.上述B和C都是正确的。答案:D第二节统计基础例题:考虑一只日回报率服从随机游走的股票。其年波动率为34%。假设一年有52周,估计该股票的周波动率:A.6.80%B.5.83%C.4.85%D.4.71%答案:D解析:由于是随机游走的情况,我们可以使用时间规则的平方跟。其周波动率为第二节统计基础例题:考虑一个40%投资于X资产和60%投资于Y的投资组合。资产X回报率的均值和方差分别为0和25,资产Y回报率的均值和方差分别为1和12.1,x和y相关系数为0.3.下面哪一个值最接近该组合的波动率?A.9.51B.8.60C.13.38D.7.45答案:D

解析:组合的方差=(0.4)2x25+(0.6)2×121+2×0.4×0.6×0.3×=55.48。其波动率为7.45。第二节统计基础二、统计推断之参数估计(点估计、区间估计和假设检验)(一)点估计——使用样本数据以及一些非样本的先验信息为未知参数提供一个估计值。设(X1,X2,…,Xn。)是来自总体x的样本,

θ是总体的未知参数,若用一个统计量第二节统计基础点估计方法——矩估计和最大似然估计1.矩估计法。——用样本的各阶原点矩去估计对应的各阶总体的原点矩第二节统计基础第二节统计基础称在所有的g(θ)无偏估计中,方差最小的那一个为一致最小方差无偏估计。第二节统计基础(二)区间估计

1.区间估计中的统计思想。以总体均值为例,一般以点估计为中心的一个区间

,d是估计的精度,对于给定的小正数α,比如5%,1%等(显著性),1-α

是置信水平(置信度),我们希望:第二节统计基础我们称

为总体均值μ的(1-α)×100%的置信区间。第二节统计基础第二节统计基础第二节统计基础2.区间估计的数学定义。设X1,···,Xn是来自总体f(x,θ)的样本,θ∈Θ未知,对于任意θ<α<1,若统计量第二节统计基础3.求置信区间的一般步骤:(1)先求出θ的一个点估计(通常为最大似然估计)第二节统计基础第二节统计基础4.给定α及d时,样本大小的确定。在区间估计中,我们知道置信度和精度是一对矛盾,如果在保证置信度的前提下还要满足精度的要求,我们只能增加样本大小n。由于一般σ2可以通过前一阶段数据的积累来估计,即用s估计σ。由这一公式,就可以由给定的置信度和精度给出最小的样本大小n以同时满足置信度和精度的要求。第二节统计基础【例3-15】正态总体下参数估计置信区间设X1,···,Xn是取自正态总体N(μ,σ2)的一个样本,置信水平为1-α,第二节统计基础第二节统计基础第二节统计基础例题:百分比的估计。由中心极限定理(或正态逼近定理)一个二项分布随机变量x~B(n,P)的分布,当n充分大(通常为n>30)时,可以用正态分布来近似。因此百分比的估计

的分布也可以用正态分布N(p,p(1-p)/n)来近似,这里n为样本大小,r为n次试验中事件发生的次数。由此可以得到百分比的近似区间估计:第二节统计基础例题:考虑一只初始股价为100元的股票。其一年后的股价由公式S=100·exp(r)所决定,其中收益率r表现为均值为0.1,标准差为0.2的正态分布。考虑95%的置信区间,四舍五人后,S将会处于哪个区间:A.67.57和147.99B.70.80和149.20C.74.68和163.56D.102.18和119.53答案:C第二节统计基础三、统计推断之假设检验(一)假设检验基本概念1.假设检验问题与假设检验的处理思路。(1)假设检验问题提出。H0

原假设(也称为零假设)H1对立假设或备择假设(2)假设检验基本思路。先假定原假设成立,如果导致观察数据的表现与此假定矛盾,则否定原假设。第二节统计基础2.两类错误概率。第一类错误(概率)即原假设成立,而错误地加以拒绝(的弃真概率);第二类错误(概率)即原假设不成立,而错误地接受它(的取伪概率)。3.显著水平。理想的检验规则是使得弃真概率和取伪概率都很小

Neyman—Pearson原则:在控制弃真概率的条件下,使得取伪概率尽量小,有时把原则简化为控制第一类错误的概率α(也称为“显著性水平”)。第二节统计基础在原假设成立条件下,样本落入拒绝域的概率不超过事先设定的,则称该拒绝域所代表的检验为显著水平α的检验,而α称为显著水平。第二节统计基础4.假设检验的数学概念。假设检验需要显著性水平(定义的小概率),依据这个小概率,确定否定H0的空间——拒绝域,利用样本计算的统计量落在了拒绝域,就说明小概率事件发生了,这时对于H0的否决就是显著的。P[第Ⅰ类型的错误]=P[拒绝H0丨H0为真]≤α第Ⅱ类型的错误是指H1为真时而接受了H0。所以,如果θ∈Ω1,P[第Ⅱ类型的错误]=P[接受H0丨H0为真]=1-Π(θ)第二节统计基础第二节统计基础由于上述规则,对给定的一个很小的数α(称为显著性水平,一般为查表方便起见α=0.1,0.05,0.01等),要求:第二节统计基础第二节统计基础第二节统计基础2.参数检验的步骤。对于上述的σ2已知时,单正态总体均值的参数检验步骤如下:(1)列出问题,即明确原假设和备选假设。先设σ2已知,检验:H0:μ=μ0↔H1:μ≠μ0其中,μ0已知。Z满足如下要求:①在H0下,Z的分布完全已知,此处Z~N(0,1);②由Z可诱导出与H0背离的准则,此处当︱Z︱偏大时与H0背离。(3)对给定水平α,构造水平α检验的拒绝域:W1={(χ1,…,χn):︱Z︱>uα/2}其中,ua为标准正态分布的a分位点。

第二节统计基础(4)基于数据,算出z的观察值2,如z∈Wl则拒绝H0,否则只能接受H0.因此,检验使用统计量Z,称之为Z-检验。3.σ2未知,单正态总体参数μ检验。总体X~N(µ,σ2)时,单正态总体均值μ检验。当σ2未知时,改检验统计量Z为:其中,S*为修正样本标准差。相应的拒绝域为:W1={(χ1,…,χn):︱T︱>tα/2(n-1)}tα(n-1)为自由度n-1的t分布的α-分位点。其他的检验步骤相同。例题:假设检验在5%显著性水平意味着()。A.P(接受H0丨H0为真)=0.05%B.P(接受H0丨H0为假)=0.05%C.P(拒绝H0丨H0为真)=0.05%D.P(拒绝H0丨H0为假)=0.05%答案:C

第二节统计基础例题:下面哪个关于假设检验的论述是不正确的?A.第二类错误指在原假设错误时,未能拒绝原假设的错误B.假设检验是依据来自某总体的样本计算的统计量,推断总体参数C.在其他条件相同的时候,降低犯第一类错误的代价是增加犯第二类错误的概率D.对于P值决策规则,就是说如果p值大于显著性水平,则拒绝原假设答案:D解析:当所观察到的p值低于(不高于)显著性水平时,我们可以拒绝原假设。第二节统计基础步骤:(1)理论模型设计(2)对模型的参数进行估计。(3)回归方程、参数估计显著性检验,确定模型的有效性。(4)利用回归方程进行分析、预测。第三节回归分析(一)模型基本假定与OLS估计1.模型假定。

只有一个因变量和一个自变量的线性回归模型,叫一元线性回归模型。一元线性回归模型可表示为y=0+1

x+y是x的线性函数(部分)加上误差项第三节回归分析+E(yi)=α+βxiYi~N(α+βxi

,σu

2)第三节回归分析2.回归参数的0LS估计。1)散点图:描述变量之间关系的一种直观方法,从相关图中大体上可以看出变量之间的关系形态及关系强度。线性相关——变量之间的关系近似地表现为一条直线非线性相关或者曲线相关——变量之问的关系近似地表现为一条曲线完全相关——如果一个变量的取值完全依赖于另一个变量,各个观测点落在一条直线上,相无相关关系——两个变量的观测点很分散,无任何规律。第三节回归分析正相关——在线性相关关系中,若两个变量的变动方向相同,一个变量的数值增加(减少),另一个变量数值也随之增加(减少);负相关——若两个变量的变动方向相反,一个变量数值增加(减少),另一个变量数值随之减少(增加)。第三节回归分析散点图图例:完全正线性相关完全负线性相关正线性相关负线性相关零相关第三节回归分析沪铜与LME三月期铜价格散点图第三节回归分析LME三月期铜价格美元/吨沪铜连续合约价格元/吨LME三月期铜价格与美元指数散点图第三节回归分析LME三月期铜价格美元/吨美元指数LME三月期铜价格与美元指数散点图主要运用EXCELL软件生成散点图,再根据散点图分析变量间存在怎样的相关关系第三节回归分析LME三月期铜价格美元/吨美元指数例题:从下图可以看出,沪铜期货价格与3月份伦铜表现出较强的()。A.负向相关关系B.负向线性相关关系C.零相关性D.正向线性相关性答案:D沪铜期货价格第三节回归分析第三节回归分析回归线残差可以看作量ui的估计量,而εi完全由样本数据,yi和xi构成,是可以计算的,因此,我们可以用εi的方差来估计ui的方差

。便有的无偏估计量:

第三节回归分析例题:关于回归方程

,下列说法错误的是(

)A.如果β1=0,表明因变量不依赖于自变量,两个变量之间没有线性关系B.如果β1≠0,即可得出两个变量之间存在线性关系的结论C.回归系数β1,检验是常用的检验方法是正态分布下的t检验方法D.在检验回归系数β1的显著性时,t的正负并不重要,关注t的绝对值答案:B第三节回归分析例题:一般地,在作一元线性回归复习过程中,回归分析是建立一系列假设的基础上的,这些假设为()。A.回归模型因变量y与自变量x之间具有线性关系B.在重复抽样中,自变量x的取值是固定的C.误差项ε的均值为零D.误差项ε是独立随机变量且服从正态分布,误差项ε的分差为常数答案:ABCD第三节回归分析(二)回归参数显著性检验和回归参数区间估计

1.回归参数的t检验得到回归方程后,还需要对回归系数进行显著性检验:◎以确认自变量x对因变量y的影响是否显著◎如果r=0,回归直线是条水平线,表明因变量与自变量无线性关系;◎如果反之,两个变量之间可能存在线性关系,还需进行统计的显著性检验。第三节回归分析★回归系数的检验步骤(正态分布下的t检验法)1.

提出假设–H0:β1=0(没有线性关系)–H1:β1≠0(有线性关系)2.

计算检验的统计量3.

确定显著性水平α,并进行计算丨t丨>ta/2,拒绝H0;丨t丨<ta/2,不拒绝H02.回归参数的区间估计。(三)回归方程显著性检验与拟合优度1.总离差平方和分解。因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面①由于自变量x的取值不同造成的②除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。第三节回归分析(xi;yi)总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)★总平方和(SST):反映因变量的n个观察值与其均值的总离差★回归平方和(SSR):反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和★残差平方和(SSE):反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和第三节回归分析2.拟合优度(样本决定系数)。★R2——回归平方和占总离差平方和的比例★反映回归直线的拟合程度★取值范围在[0,1]之间★R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差★判定系数等于相关系数的平方,即R2=r2第三节回归分析例题:沪铜现货价格对沪铜期货价格的回归方程为y=2231.051+0.944410x。下列说法正确的是()。A.当︱t︱=14.12166>t0.025(25),沪铜现货价格对沪铜期货价格有显著影响B.当︱t︱=14.12166>t0.025(25),沪铜现货价格对沪铜期货价格没有影响C.当︱t︱=14.12166<t0.025(25),沪铜现货价格对沪铜期货价格有显著影响D.当R2=1-=0.8886,说明沪铜现货价格对沪铜期货价格有着较强的线性关系AD第三节回归分析3.回归方程的显著性F检验——判断回归方程的解释变量x对于被解释变量Y的影响的显著性,实际上是对于回归方程拟合优度的检验。

第三节回归分析步骤:(1)设定假设H0:β=0,备择假设H0:β≠0。(2)构造统计量第三节回归分析(3)当风成立时,F~F(1,n-2)。(4)给定显著性水平α,确定临界值Fα(5)判定方程显著性:①若F>Fa,则拒绝假设H0,即解释变量总体对于Y的影响是显著的,方程可靠。②若F<Fa,则接受假设H0,说明解释变量对于Y的影响不显著,方程估计不可靠。第三节回归分析F与R2成正比,拟合优度越大,F值越大,总体的F检验越显著。第三节回归分析方差分析表:

离差名称

平方和自由度

均方差F值

回归

(因素x)1

剩余(随机因素)

n-2

总计

n-1第三节回归分析(四)利用模型进行预测预测——通过自变量x的取值来预测因变量y的取值,分为点预测与区间预测。(一)点预测点预测就是将x的一个特定值x0代入样本回归方程,计算得出就是对应y0的点预测值。第三节回归分析【例】根据教材上面例子中,沪铜期货价格与沪铜现货价格一元线性回归方程,当铜现货报价为60000元/吨时,预测沪铜期货价格的季度收盘价。将x0=60000带入样本回归方程yi=2213.051+0.9441xi,即得到沪铜期货季度收盘价格预测结果:=2213.051+0.9441×60000=58859.051(元/吨)第三节回归分析

(二)区间预测1、预测的潜在误差:(1)均值误差。不会等于样本均值(2)斜率误差。在总体真正的回归系数β与拟合直线斜率β之间也存在一些误差。(3)随机误差。即使已知真正的总体回归直线,仍然会产生误差。

第三节回归分析

2、区间预测——在给定显著性水平α的条件下,找到一个区间(T1,T2),使对应于特定x0的y0包含在这个区间(T1,T2)的概率为1-α。用式子表示为:P(T1<y0<T2)=1-α预测值的标准误差由下式得出:

第三节回归分析

在置信水平为1-α的置信区间为:其中,s为估计的标准误差。由上式可知,x0越靠近,越小,置信区间的长度越小,预测精度越高。因此,在预测时要注意预测点‰与估计模型时用的样本x1,x2,…,x0的距离,如果x0与所估计模型的样本偏离太大,预测效果会很差。一般地:第三节回归分析

(1)样本容量n越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信区间的宽度在x均值处最小,预测点x0离x均值越小精度越高;越远精度越低。当x0=时,的置信区间为:

第三节回归分析【例】由上述沪铜期货价格与现货价格回归分析例子,如果要预测x0=60000时,显著性水平α=0.05下的置信区间。由前面计算的结果知:

=2213.051+0.9441×60000=58859.051n=27,x=46462.37,s=5639.879,查t分布表得到:t0.025(27-2)=2.0639,则:第三节回归分析沪铜期货价格95%的预测区间为:58859.051±2.0639×5639.879×=58859.051±12938.43即:的预测区间为(45920.62,71797.49)第三节回归分析例题:沪铜期货价格对沪铜期货价格的回归方程为y=2213.051+0.944410X,如果要预测x0=60000时,显著水平α=0.05下的置信区间,下列计算过程错误的是()A.=2213.051+0.9441×60000=58859.051B.当n=27,=46462.37,s=5639.879,查t分布表得到:t0.025(27-2)=2.0639C.沪铜期货价格95%的预测区间为:58859.051±2.0639×5639.879×=58859.051±12938.43D.的预测区间为(0,58859.051)或(58859.051,71797.49)答案:D二、多元线性回归模型多元线性回归方程——简单线性回归方程的扩展,主要描述因变量与两个或两个以上自变量之间的线性关系。回归方程——线性方程Z=5x+2y+1非线性方程Z=x2+4y2

,Z=㏒x+㏒y第三节回归分析(一)多元线性回归模型假定1.模型:y=β1x1+β2x2+…+βkxk+μ描述被解释变量y的期望值与解释变量x1,x2,…,xk线性关系的方程为:

βi:偏回归系数——如果所有其他自变量保持不变,xi中的单位变化引起因变量y的变化。残差——因变量的观测值yi与拟合值间的差额,它包括除x1,x2,…,xk影响之外的其他因素对因变量y的影响。第三节回归分析2.模型假定。(1)被解释变量和解释变量之间具有一种线性关系。(2)解释变量之间不存在线性关系。(3)随机扰动条件在观察值X上的期望值为零,也即是E[εi|X]=0表明所有的x的观察值都不能为随机扰动的期望值提供任何信息。(4)关于随机扰动的方差和协方差的。假设:(5)xi是非随机的。或x是一个T×K的常数矩阵。第三节回归分析(二)参数估计——最小二乘法(借助统计分析软件估计)1、参数β0,β1,β2,…βk是未知的,需要用样本数据去估计估计的多元线性回归方程,一般形式如下:是参数β0,β1,β2,…βk的估计值,是因变量y的估计值2.估计参数σ2和b的协方差矩阵第三节回归分析【例】实际研究中,发现国内铜期货价格受英国伦敦LME铜期货价格X1、美元指数X2、道琼斯工业指数X3、原油期货价格X4、国内铜现货价格X5影响较大,拟建立多元线性回归方程对国内铜期货价格进行分析。仍然采用例6-1中数据。以下采用统计分析软件Eviews得到输出结果,其他统计软件输出结果基本类似。具体结果见表6-9。第三节回归分析表6-9应用Eviews输出结果第三节回归分析续表多元线性回归方程为:=-44822.6032+7.644x1+447.4331x2+1.0967x3-45.8511x4+0.0946x5第三节回归分析(三)解释度与预测1、预测问题利用给定的自变量,求出因变量均值的置信区间及个别值的预测区间,完全依赖于计算机已有的统计软件。但是必须学习统计软件的使用,考试不会涉及软件的使用题目,但实际工作中必须掌握

第三节回归分析2、拟合优度和决定系数(与一元线性回归大致相同)(1)总平方和分解SST=SSR+SSE(2)R2

与修正的R2

R2——多元线性回归方程的拟合优度多元样本可决系数R2R2=1最好0最差第三节回归分析调整的R2——用样本量与自变量的个数去调整R2,避免增加自变量而高估R2修正的R2第三节回归分析例题:国内铜期货价格受英国伦敦LME铜期货价格x1、美元指数x2、道琼斯工业指数x3,原油期货价格x4,国内铜现货价格x5影响较大,采用统计分析软件Eviews得到线性回归方程为:

=-44822.6032+7.6444x1+447.4331x2+1.0967x3-45.8511x5+0.0946x5,针对该方程,下列说法正确的是()A.回归方程中的参数是根据最小二乘法估计出来的B.回归方程除Eviews外,还可利用SPSS,SAS,Excel软件C.国内铜期货价格受英国伦敦LME铜期货价格,美元指数,道琼斯工业指数,国内铜现货价格的影响为正影响D.判定系数R2=0.9889=98.89%,实际意义实在沪铜期货价格的变差中,能被英国伦敦LME铜期货价格、美元指数、道琼斯工业指数、原油期货价格、国内铜现货价格的多元线性回归方程所解释的比例为98.89%答案:ABCD三、非线性模型的线性化——通过变量的替换,转化为线性的回归模型处理。第三节回归分析【例3—21】可以线性化的模型有y=α+β/X+ε,这个例子中,只要将z=1/x代人变换即可线性化。【例3—22】y=α+βlnx+ε是可以线性化的模型。典型的对数线性模型是我们经常用的一个模型,它的表达式为:两边取自然对数可得:lny=β1+β2lnX2+β3lnX3+...+βklnXk+ε第三节回归分析四、回归模型常见问题及处理(一)多重共线性1.多重共线性概念与产生原因。多重共线性——解释变量之间存在严格或近似的线性关系。多重共线性产生的原因:自变量之间有相同和相反的趋势;数据取样过少;自变量之间具有某种类型的近似线性关系等

第三节回归分析2.多重共线性后果★参数估计值不精确不稳定。样本观测值稍微变化,增加或者减少解释变量等都会使参数估计值产生较大的变化。★估计量的方差很大★t检验失效;估计量的方差很大,相应标准差增大,进行t检验时,接受零假设的可能性增大,从而舍去对被解释变量有显著影响的解释变量。★区间估计预测精度降低

第三节回归分析3.多重共线性的判别。——方差扩大因子法、特征根分析法等。(1)多重共线性是否存在问题。①对两个解释变量的模型,采用简单相关系数法。相关系数r,若lrl接近l,则说明两变量存在较强的多重共线性②对多个解释变量的模型,采用综合统计检验法多元线性回归方程的R2值较大,F值较大,但t检验值较小,回归系数在统计上几乎均不显著,说明存在多重共线性。

第三节回归分析(2)判明存在多重共线性的范围。①判定系数检验法。每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。Xji=α1X1i+α2X2i+...+αkXki回归的判定系数较大,说明Xj与其他x间存在共线性第三节回归分析②逐步回归法。以y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其他变量之问存在共线性关系。第三节回归分析4.消除多重共线性影响的方法。(1)剔除一些不重要的解释变量,使用逐步回归法找出引起多重共线性的解释变量,将它排除;(2)差分法。对于时间序列数据,将原模型变换为差分模型:ΔYi=β1ΔX1i+β2ΔX2i+...+βkΔXki+Δεi(3)增加样本容量;

第三节回归分析(二)异方差问题。1、异方差的概念和后果异方差:由于实际问题是错综复杂的,因而建立的回归分析模型偶尔也会出现某一因素或者一些因素随着解释变量观测值的变化而对解释变量产生不同的影响,导致随机误差项产生不同的方差。异方差的出现会降低回归方程的可靠性。第三节回归分析异方差的后果:(1)参数估计量非有效:OLS估计量仍然具有无偏性,但不具有有效性(2)变量的显著性检验失去意义(3)模型的预测失效:当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对y的预测误差变大,降低预测精度,预测功能失效。第三节回归分析

2.异方差的检验方法。(1)散点图判断。同方差与异方差散点图:第三节回归分析用X-ε2残差图判断异方差性,看是否形成一斜率为零的直线第三节回归分析(2)统计检验方法

G—Q检验的思想:先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验。该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之,就会等于1(同方差)或小于1(递减方差)。第三节回归分析G—Q检验的步骤:①将n对样本观察值(Xi,Yi)按观察值墨的大小排队。②将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n—c)/2第三节回归分析③对每个子样分别进行OLS回归,并计算各自的残差平方和;分别和用和表示较大和较小的样本残差平方和。④在同方差性假定下,构造如下满足F分布的统计量:⑤给定显著性水平α,确定临界值Fα(v1,v2),若F>Fα(v=,v2)则拒绝同方差性假设,表明存在异方差第三节回归分析3、异方差的处理对回归模型存在异方差问题的主要处理方法:有加权最小二乘法与改变模型的数学形式两种方法。①加权最小二乘法。对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。②改变模型的数学形式。改变模型的数学表达形式可以有效改善异方差问题。比如将线性模型改为对数线性模型,异方差的情况将有所改善。第三节回归分析(三)序列相关性问题1.自相关概念及后果。自相关——模型的误差项间存在相关性。自相关的来源①经济变量的惯性。如国民生产总值、固定资产投资、国民消费、物价指数、股票收益率等随时间缓慢地变化,从而建立模型时导致误差项自相关。第三节回归分析②回归模型的形式设定存在错误。比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。③回归模型中漏掉了重要解释变量。④因对数据加工整理而导致误差项之间产生自相关。比如对季度数据的消除季节性影响的处理,有时会带来序列的自相关陛。

第三节回归分析后果:①不影响参数估计量的线性和无偏性,但是参数估计量失去有效性;②变量的显著性检验失去意义;③模型的预测失效。第三节回归分析2.序列相关的检验。(1)检验思路和常用方法。首先采用0LS对模型做估计,获得随机干扰项的近似估计量。然后,通过分析这些“近似估计量”之间的相关性,以判断随机误差项是否具有序列相关性。图示法、回归检验法、杜宾一瓦森(Durbin—Watson)检验法、拉格朗日乘数(LagrangeMultiplier)检验

第三节回归分析图示法:用随机项的近似估计量的变化图判断随机项的序列相关性。第三节回归分析(2)DW检验。DW统计量——德宾一沃森统计量,是检验模型是否存在自相关的一种简单有效的方法,其公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论