版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章第十章 统计回归模型统计回归模型10.1 牙膏的销售量牙膏的销售量10.2 软件开发人员的薪金软件开发人员的薪金10.3 酶促反应酶促反应10.4 投资额与生产总值和物价指数投资额与生产总值和物价指数10.5 教学评估教学评估10.6 冠心病与年龄冠心病与年龄回归模型回归模型是用统计分析方法建立的最常用的一类模型是用统计分析方法建立的最常用的一类模型. 数学建模的基本方法数学建模的基本方法机理分析机理分析测试分析测试分析通过对数据的通过对数据的统计分析统计分析,找出与数据拟合最好的模型,找出与数据拟合最好的模型. 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 . 通过通过
2、实例实例讨论如何选择不同类型的模型讨论如何选择不同类型的模型 . 对软件得到的结果进行对软件得到的结果进行分析分析,对模型进行,对模型进行改进改进. 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型律的数学模型. 10.1 牙膏的销售量牙膏的销售量 问问题题建立建立牙膏销售量与价格、广告投入之间的牙膏销售量与价格、广告投入之间的模型模型;预测预测在不同价格和广告费用下的牙膏在不同价格和广告费用下的牙膏销售量销售量. 收集了收集了30个销售周期本公
3、司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价广告费用,及同期其他厂家同类牙膏的平均售价 .9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其他厂家其他厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其他厂家与本公司其他厂家与本公司价格差价格差x2公司广告费用公司广告费用
4、110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变量自变量) y被解释变量(因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 输入输入 x= n 4数数据矩阵据矩阵, 第第1列为全列为
5、全1向量向量1 2221xxxalpha(置信置信水平水平,0.05) 22322110 xxxyb 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F, p,s2 yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.00
6、01 s2=0.0490 0 1 2 3结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0490 0 1 2 322322110 xxxyF值远超过值远超过F检验的临界值检验的临界值 p值远小于值远小于 =0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近) x2对因变量对因变量
7、y 的的影响不太显著影响不太显著x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整体上看成立模型从整体上看成立22322110 xxxy销售量预测销售量预测 价格差价格差x1=其他厂家其他厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可
8、以95%的把握的把握知道销售额在知道销售额在 7.8230 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1, x2预测预测y2933.822322110 xxxy(百万支百万支)模型改进模型改进x1和和x2对对y的的影响独立影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0426
9、0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p0.0001 s2=0.0490 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy22322110 xxxy预测区间预测区间 7.8230,8.7636预测区间预测区间 7.8953
10、,8.7592 控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 y 2933. 8 y预测值预测值3272. 8 y预测值预测值x2=6.5x1=0.2 -0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy两模型两模型 与与x1, ,x2关系的关系的比较比较y 交互作用影响的讨论交互作用影响的讨论2221 .
11、 06712. 07558. 72267.301xxyx价格差价格差 x1=0.1 价格差价格差 x1=0.32223 . 06712. 00513. 84535.321xxyx21422322110 xxxxxy5357. 72x加大广告投入使销售量增加加大广告投入使销售量增加 ( x2大于大于6百万元)百万元)价格差较小时增价格差较小时增加的速率更大加的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1 . 03 . 011xxyy价格优势会使销售量增加价格优势会使销售量增加 价格差较小时更需要靠价格差较小时更需要靠广告来吸引顾客的眼球广告来吸引顾客的眼
12、球 完全二次多项式模型完全二次多项式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57y ),(543210从输出从输出 Export 可得可得鼠标移动十字线鼠标移动十字线(或下方窗口输入或下方窗口输入)可改变可改变x1, x2, 左边窗口显示预测值左边窗口显示预测值 及预测区间及预测区间y 牙膏的销售量牙膏的销售量 建立统计回归模型的基本步骤建立统计回归模型的基本步骤 根据已知数据从常识和经验分析根据已知数据从常识和经验分析, 辅之以作图辅之以作图, 决定回归变量及函数形式决定回归
13、变量及函数形式(先取尽量简单的形式先取尽量简单的形式). 用用软件软件(如如MATLAB统计工具箱统计工具箱)求解求解. 对结果作对结果作统计分析统计分析: R2,F, p, s2是对模型整体的评价是对模型整体的评价, 回归系数置信区间是否含零点,用于检验回归变量回归系数置信区间是否含零点,用于检验回归变量 对因变量的对因变量的影响是否显著影响是否显著. 模型改进模型改进, 如增添二次项、交互项等如增添二次项、交互项等. 对因变量进行对因变量进行预测预测.10.2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1= =管理人员管理人员, ,0=
14、 =非管理人员;非管理人员;教育教育 1= =中学,中学,2= =大学,大学,3= =更高程度更高程度. .建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系. .分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考. . 编编号号薪金薪金资资历历管管理理教教育育0113876111021160810303187011130411283102编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的
15、档案资料名软件开发人员的档案资料 分析与假设分析与假设 y 薪金,薪金,x1 资历(年)资历(年)x2 = = 1 管理人员,管理人员,x2 = = 0 非管理人员非管理人员1= =中学中学2= =大学大学3= =更高更高其他中学,013x其他大学,014x 资历每加一年资历每加一年, ,薪金的增长是常数;薪金的增长是常数; 管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用. . 教教育育443322110 xaxaxaxaay线性回归模型线性回归模型 a0, a1, , a4是待估计的回归系数,是待估计的回归系数, 是随机误差是随机误差 中学:中学:x3=1, x4=0 ;大学:
16、大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 假设假设模型求解模型求解443322110 xaxaxaxaay参数参数参数估计值参数估计值置信区间置信区间a011033 10258 11807 a1546 484 608 a26883 6248 7517 a3-2994 -3826 -2162 a4148 -636 931 R2=0.9567 F=226 p0.0001 s2=106R2,F, p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员薪金管理人员薪金多多6883 中学程度薪金比中学程度薪金比更高的少更高的少2994 大学程度薪金比
17、大学程度薪金比更高的多更高的多148 a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠! !中学:中学:x3=1, x4=0;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0. x2 = = 1 管理,管理,x2 = = 0 非管理非管理x1资历资历( (年年) )残差分析方法残差分析方法 结果分析结果分析443322110 xaxaxaxaay残差残差yyee 与资历与资历x1的关系的关系 05101520-2000-1000010002000 e与管理与管理教育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正残差全为正,
18、 ,或全为负或全为负, ,管管理理教育组合处理不当教育组合处理不当. . 残差大概分成残差大概分成3个水平个水平, ,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映.应在模型中增加管理应在模型中增加管理x2与与教育教育x3, x4的交互项的交互项 .组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合426325443322110 xxaxxaxaxaxaxaay进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3, x4的交互项的交互项参数参数参数估计值参数估计值置信区间置信区间a01120411044 11363a14
19、97486 508a270486841 7255a3-1727-1939 -1514a4-348-545 152a5-3071-3372 -2769a618361571 2101R2=0.9988 F=554 p0.0001 s2=3 104 R2, ,F有改进有改进, ,所有回归系数置所有回归系数置信区间不含零点信区间不含零点, ,模型完全可用模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据( (33号号) )应去掉应去掉! ! 05101520-1000-5000500e x1 123456-1000-5000500e 组合组合去掉异常数据后去掉异常数据后的结果的结果参数参
20、数参数估计值参数估计值置信区间置信区间a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2= 0.9998 F=36701 p0.0001 s2=4 10305101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2: 0.9567 0.99880.9998F:226 554 36701 s2: 104 3 104 4 103置信区间长度更短置信区间长度更短残差残差图十分正
21、常图十分正常最终模型的结果可以应最终模型的结果可以应用用模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金( (资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241426325443322110 xxaxxaxaxaxaxaay中学:中学:x3=1, x4=0 ;大学:;大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 x1= = 0; x2 = = 1 管
22、理,管理,x2 = = 0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高. . 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低. . 对定性因素对定性因素( (如管理、教育如管理、教育) )可以可以引入引入0- -1变量变量处理,处理,0- -1变量的个数可比定性因素的水平少变量的个数可比定性因素的水平少1. 软件开发人员的薪金软件开发人员的薪金残差分析方法残差分析方法可以发现模型的缺陷,可以发现模型的缺陷,引入交互作用项引入交互作用项常常能够改善模型常常能够改善模型. . 剔除异常数据剔除异
23、常数据,有助于得到更好的结果,有助于得到更好的结果. .注:可以直接对注:可以直接对6种管理种管理教育组合引入教育组合引入5个个0- -1变量变量. . 10.3 酶促反应酶促反应 问问题题研究酶促反应(研究酶促反应(酶催化反应)酶催化反应)中嘌呤霉素对反中嘌呤霉素对反应速度与底物应速度与底物(反应物)(反应物)浓度之间关系的影响浓度之间关系的影响. 建立数学模型,反映该酶促反应的速度与底建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系物浓度以及经嘌呤霉素处理与否之间的关系. 设计了两个实验设计了两个实验 :酶经过嘌呤霉素处理;:酶经过嘌呤霉素处理;酶未经嘌呤霉素处
24、理酶未经嘌呤霉素处理. 实验数据见下表实验数据见下表. 方方案案底物浓度底物浓度(ppm)0.020.060.110.220.561.10反应反应速度速度处理处理764797107123 139 159 152 191 201 207 200未处理未处理6751848698115 131 124 144 158 160/基本模型基本模型 Michaelis-Menten模型模型y 酶促反应的速度酶促反应的速度, x 底物浓度底物浓度 xxxfy21),( 1 , 2 待定待定系数系数 底物浓度较小时,反应速度大致与浓度成正比;底物浓度较小时,反应速度大致与浓度成正比;底物浓度很大、渐进饱和时,
25、反应速度趋于固定值底物浓度很大、渐进饱和时,反应速度趋于固定值.酶促反应的基本性质酶促反应的基本性质 xyO 1实验实验数据数据00.511.5050100150200250经嘌呤霉经嘌呤霉素处理素处理xy00.511.5050100150200250未经嘌呤未经嘌呤霉素处理霉素处理xy线性化模型线性化模型 经嘌呤霉素处理后实验数据的估计结果经嘌呤霉素处理后实验数据的估计结果 参数参数参数估计值(参数估计值(10-3)置信区间(置信区间(10-3) 15.10723.5386 6.6758 20.24720.1757 0.3188R2=0.8557 F=59.2975 p0.0001 s2=3
26、.5806 10-68027.195/11104841. 0/122xxy21xy111121对对 1 , 2非线性非线性 对对 1, 2线性线性 x121线性化模型结果分析线性化模型结果分析 x较大时,较大时,y有较大偏差有较大偏差 1/x较小时有很好的较小时有很好的线性趋势,线性趋势,1/x较大较大时出现很大的起落时出现很大的起落. . 参数估计时,参数估计时,x较小较小( (1/x很大很大) )的数据控的数据控 制了回归参数的确定制了回归参数的确定. . 0102030405000.0050.010.0150.020.0251/y1/xxy112100.511.5050100150200
27、250 xxy21xybeta,R,J = nlinfit (x,y,model,beta0) beta的置信区间的置信区间MATLAB 统计工具箱统计工具箱 输入输入 x自变量自变量数据矩阵数据矩阵y 因变量数据向量因变量数据向量beta 参数的估计值参数的估计值R 残差,残差,J 估计预估计预测误差的测误差的Jacobi矩阵矩阵 model 模型的函数模型的函数M文件名文件名beta0 给定的参数初值给定的参数初值 输出输出 betaci =nlparci(beta,R,J) 非线性模型参数估计非线性模型参数估计function y=f1(beta, x)y=beta(1)*x./(bet
28、a(2)+x);xxy21x= ; y= ;beta0=195.8027 0.04841;beta,R,J=nlinfit(x,y,f1,beta0);betaci=nlparci(beta,R,J);beta, betaci beta0线性化线性化模型估计结果模型估计结果 非线性模型结果分析非线性模型结果分析参数参数参数估计值参数估计值置信区间置信区间 1212.6819197.2029 228.1609 20.06410.0457 0.0826 画面左下方的画面左下方的Export 输出其他统计结果输出其他统计结果.拖动画面的十字线,得拖动画面的十字线,得y的预测值和预测区间的预测值和预测
29、区间剩余标准差剩余标准差s= 10.9337xxy21最终反应速度为最终反应速度为6831.2121其他输出其他输出命令命令nlintool 给出交互画面给出交互画面00.511.5050100150200250o 原始数据原始数据+ 拟合结果拟合结果 00.20.40.60.81-500501001502002500641. 02半速度点半速度点(达到最终速度达到最终速度一半时的一半时的x值值 )为为混合反应模型混合反应模型 x1为底物浓度,为底物浓度, x2为一示性变量为一示性变量 x2=1表示经过处理,表示经过处理,x2=0表示未经处理表示未经处理 1是未经处理的最终反应速度是未经处理的
30、最终反应速度 1是经处理后最终反应速度的增长值是经处理后最终反应速度的增长值 2是未经处理的反应的半速度点是未经处理的反应的半速度点 2是经处理后反应的半速度点的增长值是经处理后反应的半速度点的增长值 在同一模型中考虑嘌呤霉素处理的影响在同一模型中考虑嘌呤霉素处理的影响xxy2112221211)(xxxxy)(o 原始数据原始数据+ 拟合结果拟合结果 混合模型求解混合模型求解用用nlinfit 和和 nlintool命令命令,17001,6001,05. 00201. 002估计结果和预测估计结果和预测剩余标准差剩余标准差s=10.4000 参数参数参数估计值参数估计值置信区间置信区间 11
31、60.2802145.8466 174.7137 20.04770.0304 0.0650 152.403532.4130 72.3941 20.0164-0.0075 0.0403 2置信区间包含零点,置信区间包含零点,表明表明 2对因变量对因变量y的影响不显著的影响不显著12221211)(xxxxy)(参数初值参数初值(基于对数据的分析基于对数据的分析)经嘌呤霉素处理的作用不影响半速度点参数经嘌呤霉素处理的作用不影响半速度点参数未经未经处理处理经处理经处理o 原始数据原始数据+ 拟合结果拟合结果 未经未经处理处理经处理经处理简化的混合模型简化的混合模型 简化的混合模型简化的混合模型形式简
32、单,形式简单,参数置信区间参数置信区间不含零点不含零点.剩余标准差剩余标准差 s = 10.5851,比一般混合模型略大,比一般混合模型略大. 12221211)(xxxxy)(121211xxxy)(估计结果和预测估计结果和预测参参数数参数估参数估计值计值置信区间置信区间 1166.6025 154.4886 178.7164 20.05800.0456 0.0703 142.025228.9419 55.1085一般混合模型与简化混合模型预测比较一般混合模型与简化混合模型预测比较实际值实际值一般模型预测值一般模型预测值(一般一般模型模型)简化模型预测值简化模型预测值(简化简化模型模型)67
33、47.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478191190.83299.1484189.05748.8438201190.83299.1484189.05748.8438207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效简化混合模型的预测区间较短,更为实用、有效.12221211)(xxxxy)(121211xxxy)(预测区间为预测区间为预测值预测值 注
34、:非线性模型拟合程度的评价无法直接利用注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但线性模型的方法,但R2 与与s仍然有效仍然有效.酶促反应酶促反应 反应速度与底物浓度的关系反应速度与底物浓度的关系非线性非线性关系关系求解求解线性模型线性模型 求解非线性模型求解非线性模型机理分析机理分析嘌呤霉素处理对反应速度与底物浓度关系的影响嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型混合模型 发现问题,发现问题,得参数初值得参数初值引入引入0-1变量变量简化模型简化模型 检查检查参数置信区间参数置信区间是否包含零点是否包含零点10.4 投资额与生产总值和物价指数投资额与生产总值和物价指数
35、 问问题题建立投资额模型,研究建立投资额模型,研究某地区某地区实际投资额与国实际投资额与国民生产总值民生产总值 ( GNP ) 及物价指数及物价指数 ( PI ) 的关系的关系.2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145 992.7144.281.63422417.8423.0170.8679 944.0149.371.50422163.9386.6160.8254 873.4133.361.40051918.3324.1150.7906
36、 799.0122.851.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价物价指数指数国民生国民生产总值产总值投资额投资额年份年份序号序号物价物价指数指数国民生产国民生产总值总值投资额投资额年份年份序号序号根据对未来根据对未来GNP及及PI的估计,预测未来投资额的估计,预测未来投资额. . 该地区该地区连续连续20年的统计数据年的统计数据 时间序列
37、中同一变量的顺序观测值之间存在时间序列中同一变量的顺序观测值之间存在自相关自相关.以时间为序的数据,称为以时间为序的数据,称为时间序列时间序列. .分分析析许多经济数据在时间上有一定的许多经济数据在时间上有一定的滞后滞后性性. . 需要诊断并消除数据的自相关性,建立新的模型需要诊断并消除数据的自相关性,建立新的模型.若采用普通回归模型直接处理,将会出现不良后果若采用普通回归模型直接处理,将会出现不良后果. . 投资额与国民生产总值和物价指数投资额与国民生产总值和物价指数 1.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436
38、 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价物价指数指数国民生国民生产总值产总值投资额投资额年份年份序号序号物价物价指数指数国民生产国民生产总值总值投资额投资额年份年份序号序号基本回归模型基本回归模型投资额与投资额与 GNP及物价指数间均有很强的线性关系及物价指数间均有很强的线性关系ttttxxy22110t 年份,年份, yt 投资额,投资额,x1t GNP, x2t 物价指数物价指数 0, 1, 2 回归系数回归系数 x1tytx2tyt t 对对t相互相互独
39、立的零均值正态随机变量独立的零均值正态随机变量基本回归模型的结果与分析基本回归模型的结果与分析 tttxxy21479.8596185. 0725.322MATLAB 统计工具箱统计工具箱 参数参数参数估计值参数估计值置信区间置信区间 0322.7250224.3386 421.1114 10.61850.4773 0.7596 2-859.4790-1121.4757 -597.4823 R2= 0.9908 F= 919.8529 p 0 0如何估计如何估计 如何消除自相关如何消除自相关性性D-W统计量统计量D-W检验检验 ut 对对t相互相互独立的零均值正态随机变量独立的零均值正态随机变
40、量存在负存在负自相关性自相关性存在正存在正自相关性自相关性广义差分法广义差分法 D-W统计量与统计量与D-W检验检验 nttnttteeeDW22221)(检验水平检验水平, ,样本容量,样本容量,回归变量数目回归变量数目D-W分布分布表表nttnttteee222112)(12n较大较大nttnttteee2221/4011DWDW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能能确确定定不不能能确确定定无无自自相相关关20DW01DW41DW检验检验临界值临界值dL和和dU由由DW值的大小确定值的大小确定自相关性自相关性广义差分变换广义差分变换 )1 (0*0以以 0
41、*, 1 , 2 为为回归系数的普通回归模型回归系数的普通回归模型原模型原模型 DW值值 D-W检验检验无自相关无自相关 有自相关有自相关 广义广义差分差分继续此继续此过程过程原模型原模型 新模型新模型 新模型新模型 ttttuxxy*22*11*0*步骤步骤 原模型原模型tttttttuxxy122110,1*tttyyy2, 1,1,*ixxxtiitit变换变换)(12DW21DW不能确定不能确定增加数据量;增加数据量;选用其他方法选用其他方法.投资额新模型的建立投资额新模型的建立 DWold dL 作变换作变换 原模型原模型残差残差et样本容量样本容量n=20, 回归回归变量数目变量数
42、目k=3, =0.05 查表查表临界值临界值dL=1.10, dU=1.54DWold=0.8754原模型有原模型有正自相关正自相关1*5623. 0tttyyy2 , 1,5623. 01,*ixxxtiititnttnttteeeDW22221)(5623. 02/1DWDW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能能确确定定不不能能确确定定无无自自相相关关参数参数参数估计值参数估计值置信区间置信区间 *0163.49051265.4592 2005.2178 10.69900.5751 0.8247 2-1009.0333-1235.9392 -782.1274
43、R2= 0.9772 F=342.8988 p0.0001 s2=96.58ttttuxxy*22*11*0*21*0*2*1*,,估计系数由数据tttxxy总体效果良好总体效果良好 剩余标准差剩余标准差 snew= 9.8277 sold=12.7164投资额新模型的建立投资额新模型的建立 1*5623. 0tttyyy2 , 1,5623. 01,*ixxxtiitit新模型的自相关性检验新模型的自相关性检验dU DWnew 4-dU 新模型新模型残差残差et样本容量样本容量n=19, 回归回归变量数目变量数目k=3, =0.05 查表查表临界值临界值dL=1.08, dU=1.53DWn
44、ew=1.5751新模型无自相关性新模型无自相关性DW4-dU44-dLdUdL20正正自自相相关关负负自自相相关关不不能能确确定定不不能能确确定定无无自自相相关关1,2,21, 1, 113794.5670333.10093930. 0699. 05623. 04905.163ttttttxxxxyy*2*1*033.1009699.04905.163tttxxy新模型新模型还原为还原为原始变量原始变量一阶自回归模型一阶自回归模型一阶自回归一阶自回归模型残差模型残差et比比基本回归基本回归模型要小模型要小.05101520-30-20-1001020新模型新模型 et *,原模型原模型 et
45、 +残差图比较残差图比较051015200100200300400500新模型新模型 t *,新模型新模型 t +拟合图比较拟合图比较模型结果比较模型结果比较tttxxy21479.8596185. 0725.322基本回归模型基本回归模型一阶自回归模型一阶自回归模型1, 2, 21, 1, 113794.5670333.10093930. 0699. 05623. 04905.163ttttttxxxxyy投资额预测投资额预测对未来投资额对未来投资额yt 作预测,需先作预测,需先估计出未来的国民估计出未来的国民生产总值生产总值x1t 和物价指数和物价指数 x2t设已知设已知 t=21时,时,
46、 x1t =3312,x2t=2.19387638.469 ty一阶自回归模型一阶自回归模型2.06883073.0424.5201.95142954.7474.9191.78422631.7401.9180.7436 691.1113.530.7277 637.7 97.420.7167 596.7 90.91物价物价指数指数国民生国民生产总值产总值投资额投资额年份年份序号序号物价物价指数指数国民生产国民生产总值总值投资额投资额年份年份序号序号一阶自回归模型一阶自回归模型7638.469 ty基本回归模型基本回归模型6720.485 tyt 较小是由于较小是由于yt-1=424.5过小所致过
47、小所致10.5 教学评估教学评估为了考评教师的教学质量,教学研究部门对学生为了考评教师的教学质量,教学研究部门对学生进行问卷调查进行问卷调查 ,得到,得到15门课程各项评分的平均值门课程各项评分的平均值. 问问题题X1 内容组织的合理性;内容组织的合理性;X2 问题展开的逻辑性;问题展开的逻辑性;X3 回答学生的有效性;回答学生的有效性;X4 课下交流的有助性;课下交流的有助性;X5 教材的帮助性;教材的帮助性;X6 考试的公正性;考试的公正性;Y 总体评价总体评价.编号编号X1X2X3X4X5X6Y2014.464.424.234.104.564.374.112244.113.823.293
48、.603.993.823.384244.244.384.354.484.154.504.33建立建立Y 与与X1 X6间简单、有效的模型,间简单、有效的模型,给教师提出建议给教师提出建议. rxdtdx从从X1 X6中挑选出对中挑选出对Y影响显著的变量建立回归模型影响显著的变量建立回归模型.将所有对将所有对Y影响显著的影响显著的X都选入模型,而影响不显著都选入模型,而影响不显著的的X都不选入模型,使模型中自变量个数尽可能少都不选入模型,使模型中自变量个数尽可能少. 问题分析问题分析 继续进行,直到不能引入和移出为止继续进行,直到不能引入和移出为止 . 确定一个包含若干确定一个包含若干X的初始集
49、合的初始集合S0 . 从从S0外的外的X中引入一个对中引入一个对Y影响最大的影响最大的, S0 S1 . 对对S1中的中的X进行检验,移出一个影响最小的进行检验,移出一个影响最小的, S1 S2 . 引入和移出都以给定的显著引入和移出都以给定的显著 性水平为标准性水平为标准. 解决办法解决办法利用利用逐步回归逐步回归rxdtdx MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归输入输入x自变量集合的自变量集合的nk 数据矩阵(数据矩阵(n是数据容量是数据容量, k是变量数目),是变量数目), y因变量数据向量(因变量数据向量(n维)维) stepwise (x,y,inmodel,pe
50、nter,premove) Inmodel初始模型初始模型S0中包括的自变量集合的指标中包括的自变量集合的指标(即矩阵(即矩阵x的列序数,缺省时为无自变量)的列序数,缺省时为无自变量) penter引入变量的显著性水平(缺省时为引入变量的显著性水平(缺省时为0.05) premove移出移出变量的显著性水平(缺省时为变量的显著性水平(缺省时为0.10) 输出几个交互式画面,供使用者人工选择变量,输出几个交互式画面,供使用者人工选择变量,进行统计分析进行统计分析. MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归stepwise (x,y) 其中其中x为为X1 X6数据矩阵数据矩阵, y
51、为为Y 向量向量0123X1X2X3X4X5X6Coefficients with Error Bars C o e f f . t - s t a t p - v a l 0 . 8 8 3 3 4 9 7 . 3 3 1 2 0 . 0 0 0 0 1 . 0 6 3 8 9 9 . 6 1 3 2 0 . 0 0 0 0 1 . 2 4 5 7 5 7 . 9 9 5 1 0 . 0 0 0 0 1 . 2 0 8 0 3 5 . 2 0 2 9 0 . 0 0 0 2 0 . 1 6 0 3 6 5 0 . 6 5 3 5 0 . 5 2 4 8 1 . 9 8 2 4 7 5 . 2
52、 5 5 4 0 . 0 0 0 21-1012Model HistoryRMSE输出交互式画面输出交互式画面按照提示点击按照提示点击x2的热点引入的热点引入x2 MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归依次按照提示依次按照提示: Move x3 in, Move x1 in, Move x2 out -0.500.51X1X2X3X4X5X6Coefficients with Error Bars C o e f f . t - s t a t p - v a l 0 . 5 0 9 9 0 6 8 . 7 2 4 1 0 . 0 0 0 0 - 0 . 1 1 3 7 1
53、8 - 0 . 6 3 3 0 0 . 5 3 9 7 0 . 7 6 7 7 9 4 9 . 4 6 2 7 0 . 0 0 0 0 0 . 0 8 3 2 9 9 7 0 . 7 4 0 9 0 . 4 7 4 3 - 0 . 0 1 7 9 9 7 6 - 0 . 4 1 6 2 0 . 6 8 5 3 0 . 1 1 0 8 9 6 0 . 5 2 9 8 0 . 6 0 6 81234500.51Model HistoryRMSE按照提示按照提示, 包含包含x1,x3的模型是最终结果的模型是最终结果最终模型最终模型2471. 17678. 05099. 031XXYrxdtdx模型解
54、释模型解释计算计算X1 X6, Y 的相关系数矩阵的相关系数矩阵(MATLAB的的corrcoef ): 1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973 0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363 0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116 0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219 0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783 0.
55、6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246 0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000 与与Y的相关系数大于的相关系数大于0.85的是的是X1, X2, X3 . X2与与X1, X3 的相关系数大于的相关系数大于0.85.为什么只有为什么只有X1, X2 进入最终模型进入最终模型?X1提高提高1分分Y提高提高0.5分分, X3提高提高1分分Y提高提高0.77分分.模型解释模型解释X1 内容组织的合理性;内容组织的合理性;X2 问题展开的逻辑性;问题展开的逻辑性;X3 回答学生的有效性回答学
56、生的有效性;X4 课下交流的有助性;课下交流的有助性;X5 教材的帮助性;教材的帮助性;X6 考试的公正性;考试的公正性;Y 总体评价总体评价.2471. 17678. 05099. 031XXY 逐步回归是从众多变量中挑选出影响显著变量逐步回归是从众多变量中挑选出影响显著变量 的有效方法的有效方法. 原有变量的平方项、交互项等也可以作为新变量原有变量的平方项、交互项等也可以作为新变量 加入到候选行列,用逐步回归处理加入到候选行列,用逐步回归处理. 逐步回归逐步回归10.6 冠心病与年龄冠心病与年龄 冠心病是一种常见的心脏疾病冠心病是一种常见的心脏疾病, 严重危害人类的健康严重危害人类的健康.
57、 多项研究表明多项研究表明, 冠心病冠心病发病率随着发病率随着年龄年龄的增加而上升的增加而上升. 在冠心病流行病学研究中在冠心病流行病学研究中年龄年龄是最常见的混杂因素之一是最常见的混杂因素之一. 100名被观察者的名被观察者的年龄年龄及他们是否及他们是否患冠心病患冠心病的数据的数据 根据以上数据建立数学模型根据以上数据建立数学模型, ,分析发病率与年龄的关系分析发病率与年龄的关系, ,并进行统计预测并进行统计预测. . 序序号号年年龄龄冠心冠心病病序序号号年年龄龄冠心冠心病病序序号号年年龄龄冠心冠心病病序序号号年年龄龄冠心冠心病病1200263505144176551253405044075
58、551100691分析与假设分析与假设 被观察者独立选取被观察者独立选取 x被观察者被观察者年龄年龄, Y患病情况患病情况 (Y=1患病患病, Y=0不患病不患病) 202530354045505560657000.10.20.30.40.50.60.70.80.91AgeCHD202530354045505560650.10.20.30.40.50.60.70.8AgeProportion of CHD年龄段年龄段段中点段中点人数人数患病人数患病人数患病比例患病比例20-2924.51010.130-34321520.1360-6964.51080.80合计合计100430.43按年龄段按年
59、龄段分组分组统计患病人数及统计患病人数及比例比例 患病比例随年龄增大而递增患病比例随年龄增大而递增,是介于是介于0与与1之间的之间的S型曲线型曲线. 无法建立前面那样的回归模型无法建立前面那样的回归模型,需要对数据进行预处理需要对数据进行预处理. 患病比例患病比例y是是年龄段中点年龄段中点x时时Y的平均值的平均值分析与假设分析与假设 Y取值取值 0, 1 ; y 取值取值 0, 1 332210 xxxy用普通方法建立回归方程用普通方法建立回归方程 202530354045505560657000.10.20.30.40.50.60.70.80.91AgeProportion of CHD y
60、取值不一定在取值不一定在0,1中中. 误差项误差项只能取值只能取值0,1, 不具不具有正态性有正态性, 且具有异方差性且具有异方差性.违反普通回归分析的前提条件违反普通回归分析的前提条件! 当因变量当因变量Y为一个为一个二分类二分类(或多分类或多分类)变量时,需变量时,需要用到要用到新的回归模型新的回归模型.)|(xYEy Y的的条件期望条件期望Logit 模型模型 )|1()(xYPx)|(xYEy Y的的(条件条件)期望期望(x)年龄年龄x的患病概率的患病概率(患病比例患病比例y)(1)()|(xxxYD方差方差 (x) S型曲线型曲线, 取值取值0,1 0101e( )1 exxxxxx
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准暂缓就业协议
- 2024年个人融资合同样本
- 2024员工股权激励计划协议书
- 整车运输合作协议模板
- 2024年司法考试培训合作合同模板
- 农村私人住宅土地租赁合同
- 房屋买卖合同全文模板
- 旧机器销售合同样本
- 房产中介加盟合同范本
- 房屋建筑施工合同模板示例
- 鼻腔冲洗专业知识讲座课件
- 高压氧质量控制中心工作职责
- 一年级《劳动实践指导手册》《学习用品我整理》教案
- 小学数学北师大三年级上册整理与复习新北师大版三年级上册数学《整理和复习》
- NCCN癌痛指南更新解读专家讲座
- 大学英语口语课件
- 二维动画课件
- 国开电大软件工程形考作业3参考答案
- 广东食品安全管理人员抽查考核题库(含答案)
- 2022年全国高中数学联赛福建赛区预赛模拟试题及参考答案
- 2023届吉林省吉林大学附属中学化学高一第一学期期中复习检测试题含解析
评论
0/150
提交评论