版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
建立实际回归模型的过程实际问题设置指标变量解释变量的重要性;不相关性;用相近的变量代替或几个指标复合;个数适当——这个过程需反复试算收集整理数据时间序列数据:随机误差项的序列相关,如人们的消费习惯横截面数据:随机误差项的异方差性,如居民收入与消费样本容量的个数应比解释变量个数多缺失值,异常值处理构造理论模型绘制yi
与xi的样本散点图,如生产函数、投资函数、需求函数估计模型参数——最小二乘,偏最小二乘,主成分回归等,依靠软件.模型检验——统计检验和模型经济意义检验,从设置指标变量修改模型运用经济因素分析、经济变量控制、经济决策预测1线性回归实例选讲--牙膏的销售量
1.问题建立牙膏销售量与价格、广告投入之间的模型;预测在不同价格和广告费用下的牙膏销售量.收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价.9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其他厂家价格(元)本公司价格(元)销售周期2明确问题一牙膏的销售量确定关系:牙膏销售量——价格、广告投入内部规律复杂数据统计分析常用模型回归模型×数学原理软件30个销售周期数据:销售量、价格、广告费用、同类产品均价销售周期公司价(元)它厂价(元)广告(百万元)价差(元)销售量(百万支)13.853.805.50-0.057.3823.754.006.750.258.51………………293.803.855.800.057.93303.704.256.800.559.2632.基本模型x2yx1yy~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用解释变量(回归变量,自变量)被解释变量(因变量)
多元回归模型4Matlab
统计分析rcoplot(r,rint)残差及其置信区间作图MATLAB7.0版本s增加一个统计量:剩余方差s2[b,bint,r,rint,stats]=regress(y,X,alpha)statisticstoolbox解释变量:矩阵显著性水平:0.05
系数估计值
置信区间
残差向量y-xb
置信区间
被解释变量:列检验统计量:R2,F,p随机误差:正态分布均值为零回归系数x=3.模型求解由数据y,x1,x2估计x=[ones(size(x1)),x1,x2,x2.^2];[b,bint,r,rint,stats]=regress(y,x)程序54.结果分析参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p<0.0001s2=0.04900123,故x22项显著但可将x2保留在模型中即:y的90.54%可由模型确定、F远超过F检验的临界值、p远小于=0.05显著性:整体显著x2
:2置信区间包含零点,但右端点距零点很近
——x2对因变量y的影响不太显著;3
显著6控制价格差x1=0.2元,投入广告费x2=6.5百万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7(百万支)销售量预测价差x1=它厂价x3-公司价x4估计x3,调整x4控制x1预测y得则可以95%的把握知道销售额在7.83203.729(百万元)以上75.模型改进x1和x2对y的影响独立
参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p<0.0001s2=0.04260123参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p<0.0001s2=0.049030124x1和x2对y的影响有交互作用比较:置信区间,R28比较:两模型销售量预测控制价格差x1=0.2元,投入广告费x2=6.5百万元(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592](百万支)预测区间长度更短
略有增加
9x2=6.5x1=0.2x1x1x2x26.比较:两模型与x1,x2的关系10讨论:交互作用影响价格差x1=0.1价格差x1=0.3广告投入y
(x2大于6百万元)价格差较小时增加的速率更大x2价格优势y
价格差较小广告作用大x1x211多元二项式回归命令:rstool(x,y,’model’,alpha)nm矩阵显著性水平(缺省时为0.05)n维列向量12完全二次多项式模型MATLAB中有命令rstool直接求解从输出Export可得鼠标移动十字线(或下方窗口输入)可改变x1,x2,左边窗口显示预测值及预测区间Rstool(x,y,’model’,alpha,’xname’,’yname’)13牙膏的销售量建立统计回归模型的基本步骤根据已知数据从常识和经验分析,辅之以作图,
决定回归变量及函数形式(先取尽量简单的形式).用软件(如MATLAB统计工具箱)求解.对结果作统计分析:R2,F,p,s2是对模型整体评价,
回归系数置信区间是否含零点检验其影响的显著性.
模型改进,如增添二次项、交互项等.对因变量进行预测.14非线性回归实例选讲--酶促反应
问题研究酶促反应(酶催化反应)中——嘌呤霉素(处理与否)——对反应速度与底物(反应物)浓度之间关系的影响.酶促反应由酶作为催化剂催化进行的化学反应生物体内的化学反应绝大多数属于酶促反应酶促反应中酶作为高效催化剂使得反应以极快的速度(103~1017倍)或在一般情况下无法反应的条件下进行酶是生物体内进行各种化学反应最重要的因素15建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系设计了两个实验酶经过嘌呤霉素处理酶未经嘌呤霉素处理实验数据:底物浓度(ppm)0.020.060.11反应速度处理764797107123139未处理6751848698115底物浓度(ppm)0.220.561.10反应速度处处理131124144158160/方案16经嘌呤霉素处理xy未经嘌呤霉素处理xyxy011/222
(半速度点)分析Michaelis-Menten模型待定系数=(1
,2)基本模型酶促反应的速度底物浓度酶促反应的基本性质底物浓度较小时,反应速度大致与浓度成正比;底物浓度很大、渐进饱和时,反应速度趋于固定值数据分析17解决方案一:线性化模型
经嘌呤霉素处理后实验数据的估计结果
参数参数估计值(×10-3)置信区间(×10-3)15.107[3.5396.676]20.247[0.1760.319]R2=0.8557F=59.2975p<0.0001对1
,2非线性
对1,2线性
18线性化模型结果分析
x较大时,y有较大偏差1/x较小时有很好的线性趋势,1/x较大时出现很大的起落
1/y1/xxy线性化:参数估计时x较小(1/x很大)的数据控制了回归参数的确定改进:非线性模型19beta的置信区间[beta,R,J]=nlinfit(x,y,’model’,beta0)
回归分析:非线性statisticstoolbox解释变量:矩阵模型的函数M文件名参数估计值残差参数初值被解释变量:列估计预测误差的Jacobi矩阵betaci=nlparci(beta,R,J)解决方案二:非线性化模型
MATLAB统计工具箱
20[beta,R,J]=nlinfit(x,y,’model’,beta0)%beta的置信区间MATLAB统计工具箱
functiony=f1(beta,x)y=beta(1)*x./(beta(2)+x);x==…………;y=…………;beta0=[195.80270.04841];[beta,R,J]=nlinfit(x,y,’f1’,beta0);betaci=nlparci(beta,R,J);beta,betaci
beta0~线性化模型估计结果Matlab
程序21半速度点(达到最终速度一半时的底物浓度x值
)为o~原始数据+~拟合结果
非线性模型结果分析参数参数估计值置信区间1212.6819[197.2029,228.1609]20.0641[0.04570.0826]其他输出命令nlintool
给出交互画面最终反应速度为给出交互画面拖动画面的十字线,得y的预测值和预测区间画面左下方的Export输出其它统计结果。剩余标准差s=10.933722在同一模型中考虑嘌呤霉素处理的影响,用未经嘌呤霉素处理的模型附加增量的方法。混合反应模型底物浓度示性变量x2示性变量:x2=1表示经过处理,x2=0表示未经处理未经处理的最终反应速度经处理后最终反应速度增长值未经处理的反应的半速度点经处理后反应的半速度点增长值23用nlinfit
和nlintool命令参数初值:基于对数据的分析
o~原始数据+~拟合结果估计结果和预测剩余标准差s=10.4000参数估计值置信区间1160.2802[145.8466174.7137]20.0477[0.03040.0650]152.4035[32.413072.3941]20.0164[-0.00750.0403]2置信区间包含零点,表明2对因变量y的影响不显著经嘌呤霉素处理的作用不影响半速度点参数未经处理经处理混合模型求解24简化的混合模型
估计结果和预测参数估计值置信区间1166.6025[154.4886178.7164]20.0580[0.04560.0703]142.0252[28.941955.1085]简化的混合模型形式简单参数置信区间不含零点剩余标准差s=10.5851,比一般混合模型略大o~原始数据+~拟合结果未经处理经处理25实际值一般模型预测值Δ(一般模型)简化模型预测值Δ(简化模型)6747.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478……………191190.83299.1484189.05748.8438201190.83299.1484189.05748.8438207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效.预测区间为预测值Δ一般混合模型与简化混合模型预测比较.结果分析26酶促反应评注注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R2
与s仍然有效。反应速度与底物浓度的关系非线性关系求解线性模型求解非线性模型机理分析嘌呤霉素处理与否对反应速度与底物浓度关系的影响混合模型发现问题,得参数初值引入0-1变量简化模型检查参数置信区间是否包含零点27先用线性模型来简化参数估计,但由于变量的代换已经隐含了误差扰动项的变换,因此,除非变换后的误差项仍具有常数方差,一般情况下我们还需要采用原始数据做非线性回归,而把线性化模型的参数估计结果作为非线性模型参数估计的迭代初值。28模型三软件开发人员的薪金薪金——资历、岗位、学历建立模型:分析人事策略的合理性,作为新聘用人员薪金的参考资历~从事专业工作的年数;管理~1=管理人员,0=非管理人员;教育~1=中学,2=大学,3=更高程度46名软件开发人员的档案资料
编号薪金资历管理教育01138761110211608103……………451920717024619346200129模型假设假设:y~薪金,x1~资历(年)
x2=1~管理人员,0~非管理人员1~中学2~大学3~更高?假设:资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用教育=模型:线性回归回归系数随机误差中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=030模型求解
x1~资历(年)
x2=
1~管理,0~非管理中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0Matlab程序:xinjindata.m
xinjin.m
xinjindata.m:序号、工资y、资历x1、管理x2、学历、x3、x4、xx
xinjin.m
:M=dlmread('xinjindata.m');x1=M(:,3);x2=M(:,4);x3=M(:,6);x4=M(:,7);y=M(:,2);x=[ones(size(x1))x1x2x3x4][b,bi,r,ri,s]=regress(y,x)31R2,F,p模型整体上可用资历增加1年薪金增长546管理人员薪金多6883中学程度薪金比更高的少2994大学程度薪金比更高的多148
a4置信区间包含零点解释不可靠!结果参数估计值置信区间a011032[1025811807]a1546[484608]a26883[62487517]a3-2994[-3826-2162]a4148[-636931]R2=0.957F=226p=0.00032结果分析残差分析法残差
与资历x1的关系残差大概分成3个水平6种管理—教育组合混在一起,未正确反映33
与管理x2—教育x3、x4的关系残差全为正,或全为负,管理—教育组合处理不当应在模型中增加管理x2与教育x3,x4的交互项组合123456管理010101教育112233管理与教育的组合残差分析34模型改进增加管理x2与教育x3,x4的交互项R2,F有改进回归系数置信区间不含零点模型可用参数估计值置信区间a011204[1104411363]a1497[486508]a27048[68417255]a3-1727[-1939-1514]a4-348[-545–152]a5-3071[-3372-2769]a61836[15712101]R2=0.999F=554p=0.000Matlab:xinjin3.m35消除了不正常现象异常数据(33号)去掉残差分析e~x1
e~组合36去掉异常数据后的结果模型改进R2:0.9570.9990.9998F:226
55436701置信区间长度更短参数估计值置信区间a011200[1113911261]a1498[494503]a27041[69627120]a3-1737[-1818-1656]a4-356[-431–281]a5-3056[-3171–2942]a61997[18942100]R2=0.9998F=36701p=0.000037残差分析残差图正常模型的结果可以应用~x1
~组合38模型应用制订基础薪金资历为0:x1=
0管理—教育组合:6种大学程度管理人员比更高程度管理人员的薪金高大学程度非管理人员比更高程度非管理人员的薪金略低组合管理教育系数基础薪金101非管理+中学a0+a39463211管理+中学a0+a2+a3+a513448302非管理+大学a0+a410844412管理+大学a0+a2+a4+a619882503非管理+更高a011200613管理+更高a0+a218241教育1中学:x3=1,x4=02大学:x3=0,x4=13更高:x3=0,x4=039评注
对定性因素:如管理、教育可以引入0-1变量处理0-1变量的个数应比定性因素的水平少1残差分析:可以发现模型的缺陷引入交互作用项常常能够改善模型剔除:异常数据有助于得到更好的结果另:可以直接对6种管理—教育组合引入5个0-1变量40随机过程是研究随机动态系统演变过程规律性的学科广泛地应用于通信、控制、生物、地质、经济、管理、能源、气象等许多领域马氏链(MarkovChain)模型:时间、状态均为离散的随机转移过程系统在每个时期所处的状态是随机的从一时期到下时期的状态按一定概率转移下时期状态只取决于本时期状态和转移概率已知现在,将来与过去无关(无后效性)随机过程实例选讲--马氏链模型41模型一健康与疾病人的健康状态随着时间的推移会随机地发生转变保险公司要对投保人未来的健康状态作出估计,以制订保险金和理赔金的数额人的健康状况分为健康和疾病两种状态设对特定年龄段的人今年健康、明年保持健康状态的概率为0.8今年患病、明年转为健康状态的概率为0.7若某人投保时健康,问10年后他仍处于健康状态的概率问题142在一个离散时间集合T={0,1,2,…}和一个有限或可列无穷的状态空间S={1,2,…}上,一个随机过程在任一时刻从一个状态以一定的概率向其他状态转移(或保持原状态不变)。记Xn为时刻n时时刻过程所处的状态,n=1,2,…,假定:在时刻0,过程所处的状态X0是S上的一个随机变量;在任一时刻n,给定X0,…
,
Xn-1,
Xn时,Xn+1的条件分布只与Xn有关,而与X0,…
,
Xn-1无关。满足上述条件的随机过程为马尔可夫链,简称马氏链。马氏链43醉鬼在路中央,向前一步的概率为p,向后退一步的概率为1-p,他的运动是一种随机走动,是一种马尔可夫链。状态空间S={0,±1,±2,…}无限状态马氏链。一只荷兰猪在一个分成四个房间的笼子里随机运动,当它在任一时刻、处于任一房间是地,在下一时刻的概率为1/3,是一种马尔可夫链。状态空间S={1,2,3,4}44状态与状态转移模型给定a(0)预测
a(n),n=1,2…0.80.20.30.7健康患病状态:转移:转移方程状态概率转移概率今年健康、明年保持健康状态的概率为0.8今年患病、明年转为健康状态的概率为0.7p11=0.8,p12=0.2p21=0.7,p22=0.31~健康2~疾病45状态符号分析已知状态概率转移概率转移方程可见:
Xn+1只取决于Xn
和pij,与Xn-1,…无关状态转移具有无后效性46n=input('n=')A=zeros(2,n+1);A(1,1)=input('a01=');A(2,1)=1-A(1,1);fori=1:nA(1,i+1)=0.8*A(1,i)+0.7*A(2,i);A(2,i+1)=0.2*A(1,i)+0.3*A(2,i);endA数值分析p11=0.8,p12=0.2p21=0.7,p22=0.31~健康2~疾病47n时:状态概率趋于稳定值稳定值与初始状态无关设投保时n0123……∞健康a1(n)10.80.780.778……7/9a2(n)00.20.220.222……2/9疾病a1(n)00.70.770.777……7/9a2(n)10.30.230.223……2/9结果状态概率转移概率48状态健康和疾病:Xn=1~健康,Xn=2~疾病第3种状态:死亡Xn=3已知:p11=0.8,p12=0.18,p13=0.02p21=0.65,p22=0.25,p23=0.1p31=0,p32=0,p33=1若某人投保时健康,问n年后各状态的概率问题249状态与状态转移模型0.10.0210.80.180.250.65状态:转移:转移方程状态概率转移概率健康患病死亡50n=input('n=')A=zeros(3,n+1);A(1,1)=input('a01=');A(2,1)=input('a02=');A(3,1)=1-A(1,1)-A(2,1);fori=1:nA(1,i+1)=0.8*A(1,i)+0.65*A(2,i)+0*A(3,i);A(2,i+1)=0.18*A(1,i)+0.25*A(2,i)+0*A(3,i);A(3,i+1)=0.02*A(1,i)+0.1*A(2,i)+1*A(3,i);endA51设投保时处于健康状态,预测a(n),n=1,2…分析初始状态最终都要转到状态3
一旦a1(k)=a2(k)=0,a3(k)=1n>k,a1(n)=0,a2(n)=0,a3(n)=1从状态3不会转移到其它状态。n0123……50……∞a1(n)10.80.7570.7285……0.1293……0a2(n)00.180.1890.1835……0.0326……0a3(n)00.020.0540.0880……0.8381……152理论状态基本方程马氏链的基本方程状态概率转移概率53
1、正则链马氏链的两个重要类型任一状态出发经有限次转移以正概率到达另外任一状态w~稳态概率例1:特征向量定义
对于马氏链,若存在一正整数N,使其转移矩阵的N次幂MN>0(每一分量均大于0),则称此马尔链为一正则(regular)链。54存在吸收状态一旦到达就不会离开的状态且从任一非吸收状态出发经有限次转移能以正概率到达吸收状态
2、吸收链有非零元素yi~从第i个非吸收状态出发,被某个吸收状态吸收前的平均转移次数转移矩阵:n-r个非吸收状态有r个吸收状态55模型二钢琴销售的存贮策略钢琴销售售量很小商店的库存量不大以免积压资金一家商店根据经验估计:平均每周的钢琴需求为1架存贮策略每周末检查库存量仅当库存量为零时,才订购3架供下周销售否则,不订购。问题:估计在这种策略下失去销售机会的可能性有多大,以及每周的平均销售量是多少。背景与问题56分析与假设需求:顾客的到达相互独立需求量近似服从波松分布,其参数由需求均值为每周1架确定计算不同的需求概率失去销售机会:需求超过库存动态过程概率存贮策略:周末库存量为零时订购3架,周初到货;否则,不订购周末的库存量:0,1,2,3周初的库存量:1,2,3共三种状态用马氏链描述不同需求导致的周初库存状态的变化以每周初的库存量作为状态变量状态转移具有无后效性在稳态情况下——时间充分长以后计算该存贮策略失去销售机会的概率、每周的平均销售量动态过程中每周销售量不同,失去销售机会(需求超过库存)的概率不同.57状态转移规律模型Dn~第n周需求量:泊松分布
状态变量:Sn~第n周初库存量均值为1需求量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44762-2024氯化镧
- 2024年度工程建设项目电梯设备采购及安装合同3篇
- 《厂用电保护讲义》课件
- 04版特许经营协议包含加盟店管理细节
- 《食品营养小知识》课件
- 《n小脑间脑》课件
- 《供应商审核讲义》课件
- 2024年度房地产销售代理合同-关于某房地产项目销售代理的详细合同2篇
- 2024年度环保项目投资与建设技术服务合同
- 篮球课基础教案教育课件
- 国电南自-ps6000工程设计
- 初中语文人教八年级上册《八下单元复习教学设计》PPT
- 骨科常见周围神经卡压综合征课件
- 部编版六年级上册第五单元写作《写感受最深的人或事》课件
- 润滑基础知识培训讲座
- 五年级上册语文课件- 鸟的天堂 人教部编版(共39张PPT)
- 儿科先天性心脏病见习教案
- 《生物力学》配套教学课件
- 保密管理-公司脱离涉密岗位人员物品移交清单
- 中国新生儿复苏指南解读(2021修订)
- 六年级上册音乐教案 第六单元《手拉手》《巴塞罗那》《意大利之夏》人教新课标(2014秋)
评论
0/150
提交评论