方差分析与回归分析_第1页
方差分析与回归分析_第2页
方差分析与回归分析_第3页
方差分析与回归分析_第4页
方差分析与回归分析_第5页
已阅读5页,还剩133页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于方差分析与回归分析第一页,共一百三十八页,2022年,8月28日方差分析(Analysisofvariance,简称:ANOVA),是由英国统计学家费歇尔(Fisher)在20世纪20年代提出的,可用于推断两个或两个以上总体均值是否有差异的显著性检验.第二页,共一百三十八页,2022年,8月28日29.1单因素方差分析例1.1

为了比较三种不同类型日光灯管的寿命(小时),现将从每种类型日光灯管中抽取8个,总共24个日光灯管进行老化试验,根据下面经老化试验后测算得出的各个日光灯管的寿命(小时),试判断三种不同类型日光灯管的寿命是不是有存在差异.第三页,共一百三十八页,2022年,8月28日3日光灯管的寿命(小时)类型寿命(小时)类型I52906210574050005930612060805310类型II58405500598062506470599054705840类型.III71306660634064707580656072906730引起日光灯管寿命不同的原因有二个方面:其一,由于日光灯类型不同,而引起寿命不同.其二,同一种类型日光灯管,由于其它随机因素的影响,也使其寿命不同.第四页,共一百三十八页,2022年,8月28日4在方差分析中,通常把研究对象的特征值,即所考察的试验结果(例如日光灯管的寿命)称为试验指标.对试验指标产生影响的原因称为因素,“日光灯管类型”即为因素.因素中各个不同状态称为水平,如日光灯管三个不同的类型,即为三个水平.第五页,共一百三十八页,2022年,8月28日5单因素方差分析仅考虑有一个因素A对试验指标的影响.假如因素A有r个水平,分别在第i水平下进行了多次独立观测,所得到的试验指标的数据第六页,共一百三十八页,2022年,8月28日6各个总体相互独立.因此,可写成如下的数学模型:第七页,共一百三十八页,2022年,8月28日7

方差分析的目的就是要比较因素A

的r个水平下试验指标理论均值的差异,问题可归结为比较这r个总体的均值差异.第八页,共一百三十八页,2022年,8月28日8检验假设不全相等.第九页,共一百三十八页,2022年,8月28日9假设等价于不全为零.第十页,共一百三十八页,2022年,8月28日10为给出上面的检验,主要采用的方法是平方和分解。即假设数据总的差异用总离差平方和分解为二个部分:

一部分是由于因素A引起的差异,即效应平方和;另一部分则由随机误差所引起的差异,即误差平方和

.第十一页,共一百三十八页,2022年,8月28日11第十二页,共一百三十八页,2022年,8月28日12证明:

第十三页,共一百三十八页,2022年,8月28日13第十四页,共一百三十八页,2022年,8月28日14第十五页,共一百三十八页,2022年,8月28日15第十六页,共一百三十八页,2022年,8月28日16第十七页,共一百三十八页,2022年,8月28日17定理第十八页,共一百三十八页,2022年,8月28日18方差来源平方和自由度均方F因素Ar-1误差n-r总和n-1单因素试验方差分析表第十九页,共一百三十八页,2022年,8月28日19第二十页,共一百三十八页,2022年,8月28日20

例1.2设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)第二十一页,共一百三十八页,2022年,8月28日21药物类型治愈所需天数x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6第二十二页,共一百三十八页,2022年,8月28日22这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。

第二十三页,共一百三十八页,2022年,8月28日23第二十四页,共一百三十八页,2022年,8月28日24方差来源平方和自由度均方F因素A36.46749.1173.90误差58.500252.334总和94.96729第二十五页,共一百三十八页,2022年,8月28日25未知参数的估计第二十六页,共一百三十八页,2022年,8月28日26第二十七页,共一百三十八页,2022年,8月28日27置信区间第二十八页,共一百三十八页,2022年,8月28日28第二十九页,共一百三十八页,2022年,8月28日29第三十页,共一百三十八页,2022年,8月28日30假设检验第三十一页,共一百三十八页,2022年,8月28日31第三十二页,共一百三十八页,2022年,8月28日32例1.4(续1.2)(1)判断第一种、第二种药物的差异;

(2)判断第一种、第三种药物的差异;

(3)判断第三种、第五种药物的差异;解:仅检验(1),(2)和(3)留作思考题.第三十三页,共一百三十八页,2022年,8月28日33第三十四页,共一百三十八页,2022年,8月28日34在Excel上实现方差分析先加载''数据分析"这个模块,方法如下:在excel工作表中点击主菜单中“工具”点击下拉式菜单中“加载宏”就会出现一个“加载宏”的框.

在“分析工具库”前的框内打勾点击“确定”.这时候再点击下拉式菜单会新出现“数据分析”.然后就可以进行统计分析了.第三十五页,共一百三十八页,2022年,8月28日35以下面的例子来说明用Excel进行方差分析的方法:保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示.试判断在四个不同地区索赔额有无显著的差异?第三十六页,共一百三十八页,2022年,8月28日36保险索赔记录地区索赔额(万元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.60第三十七页,共一百三十八页,2022年,8月28日37在Excel工作表中输入上面的数据点击主菜单中“工具”点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框.

点击菜单中“方差分析:单因素方差分析”点击“确定”,出现“方差分析:单因素方差分析”框.第三十八页,共一百三十八页,2022年,8月28日38在“输入区域”中标定你已经输入的数据的位置(本例为$B$3:$I$6),根据你输入数据分组情况(是按行分或按列分,本例点击“行”)确定分组.选定方差分析中F检验的显著水平选定输出结果的位置点击“确定”.

在你指定的区域中出现如下两张表:第三十九页,共一百三十八页,2022年,8月28日39组观测数求和平均方差行1行2行3行4758611.727.9913.199.371.6741.5981.6491.5620.00380.02100.00670.0026表一:摘要第四十页,共一百三十八页,2022年,8月28日40方差来源平方和自由度均方FP-valueFcrit组间0.049230.01642.16590.12083.0491

组内0.1666220.0076总计0.215825表二:方差分析表第四十一页,共一百三十八页,2022年,8月28日41根据Excel给出的方差分析表,假设H0的判别有二种方法:第四十二页,共一百三十八页,2022年,8月28日42第四十三页,共一百三十八页,2022年,8月28日43第四十四页,共一百三十八页,2022年,8月28日44方差分析的前提进行方差分析必须具备三个基本的条件:(1)独立性.数据是来自r个独立总体的简单随机样本;(2)正态性.r个独立总体均为正态总体;(3)方差齐性.r个独立总体的方差相等.如何判断这些条件是否成立?这些条件对于方差分析的结论影响又是如何?第四十五页,共一百三十八页,2022年,8月28日45方差分析和其它统计推断一样,样本的独立性对方差分析是非常重要的,在实际应用中会经常遇到非随机样本的情况,这时使用方差分析得出的结论不可靠.因此,在安排试验或采集数据的过程中,一定要注意样本的独立性问题.第四十六页,共一百三十八页,2022年,8月28日46在实际中,没有一个总体真正服从正态分布的,而方差分析却依赖于正态性的假设.不过由经验可知,方差分析F检验对正态性的假设并不是非常敏感,即,实际所得到的数据,若没有异常值和偏性,或者说,数据显示的分布比较对称的话,即使样本容量比较小(如每个水平下的样本容量仅为5左右),方差分析的结果仍是值得信赖的.第四十七页,共一百三十八页,2022年,8月28日47方差齐性对于方差分析是非常重要的,因此在方差分析之前往往要进行方差齐性的诊断,检验方差齐性假设通常采用Barlett检验.不过,也可采用如下的经验准则:当最大样本标准差不超过最小样本标准差的两倍时,方差分析F检验结果近似正确.第四十八页,共一百三十八页,2022年,8月28日489.4一元线性回归一、确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:

变量与变量之间的关系

第四十九页,共一百三十八页,2022年,8月28日49二、相关性关系:

变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。为统一记号,后面一律用y表示因变量.第五十页,共一百三十八页,2022年,8月28日50如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。第五十一页,共一百三十八页,2022年,8月28日51我们以一个例子来建立回归模型某户人家打算安装太阳能热水器.为了了解加热温度与燃气消耗的关系,记录了16个月燃气的消耗量,数据见下表.第五十二页,共一百三十八页,2022年,8月28日52

月份平均加热温度燃气用量

月份平均加热温度燃气用量Nov.246.3Jul.01.2Dec.5110.9Aug.11.2Jan.438.9Sep.62.1Feb.337.5Oct.123.1Mar.265.3Nov.306.4Apr.134Dec.327.2May.41.7Jan.5211Jun.01.2Feb.306.9第五十三页,共一百三十八页,2022年,8月28日53第五十四页,共一百三十八页,2022年,8月28日54如果以加热温度作为横轴,以消耗燃气量作为纵轴,得到散点图的形状大致呈线性.如果假设中间有一条直线,这些点均匀地散布在直线的两侧.表示除了温度外还有其它的因素影响燃气消耗量.第五十五页,共一百三十八页,2022年,8月28日55在回归分析时,我们称“燃气消耗量”为响应变量记为y,“加热温度”为解释变量记为x,由所得数据计算相关系数得r=0.995,表明加热温度与燃气消耗之间有非常好的线性相关性.第五十六页,共一百三十八页,2022年,8月28日56加热温度x的变化是引起燃气消耗量y变化的主要因素,还有其他一些因素对燃气消耗量y也起着影响,但这些因素是次要的.从数学形式来考虑,由于加热温度x的变化而引起燃气消耗量y变化的主要部分记为β0+β1x,其中β0,β1是未知参数,另一部分是由其他随机因素引起的记为ε,即y=β0+β1x+ε.第五十七页,共一百三十八页,2022年,8月28日57对从总体(x,y)中抽取的一个样本(x1,y1),(x2,y2),…,(xn,yn)一元线性回归模型:第五十八页,共一百三十八页,2022年,8月28日58在模型假定下yi(i=1,2,…,n)也是相互独立,服从正态分布N(β0+β1xi,σ2)

.由所得样本可给出未知参数β0,β1的点估计,分别记为称为y关于x的一元线性回归方程.第五十九页,共一百三十八页,2022年,8月28日59第六十页,共一百三十八页,2022年,8月28日60一元线性回归要解决的问题:第六十一页,共一百三十八页,2022年,8月28日61参数估计第六十二页,共一百三十八页,2022年,8月28日62整理得正规方程系数行列式第六十三页,共一百三十八页,2022年,8月28日63第六十四页,共一百三十八页,2022年,8月28日64第六十五页,共一百三十八页,2022年,8月28日65

在误差为正态分布假定下,的最小二乘估计等价于极大似然估计。第六十六页,共一百三十八页,2022年,8月28日66采用最大似然估计给出参数的估计与最小二乘法给出的估计完全一致。采用最大似然估计给出误差的估计如下:此估计不是的无偏估计。第六十七页,共一百三十八页,2022年,8月28日67例3.1K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.26665.566.967.167.468.370.170求y关于x的线性回归方程。第六十八页,共一百三十八页,2022年,8月28日68第六十九页,共一百三十八页,2022年,8月28日69参数性质第七十页,共一百三十八页,2022年,8月28日70即为正态随机变量的线性组合,所以服从正态分布。证明(1)第七十一页,共一百三十八页,2022年,8月28日71(2)类似可得。第七十二页,共一百三十八页,2022年,8月28日72(3)回归方程显著性检验

采用最小二乘法估计参数,并不需要事先知道y与x之间一定具有相关关系。因此μ(x)是否为x的线性函数:一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。第七十三页,共一百三十八页,2022年,8月28日73(1)影响y取值的,除了x,还有其他不可忽略的因素;(2)E(y)与x的关系不是线性关系,而是其他关系;(3)y与x不存在关系。若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:第七十四页,共一百三十八页,2022年,8月28日74第七十五页,共一百三十八页,2022年,8月28日75第七十六页,共一百三十八页,2022年,8月28日76回归方程的检验采用方差分析方法:令描述之间的总的差异大小,称SST为总平方和。第七十七页,共一百三十八页,2022年,8月28日77将总平方和分解为两部分:可以证明:SST=SSR+SSE称为回归平方和称为残差平方和第七十八页,共一百三十八页,2022年,8月28日78第七十九页,共一百三十八页,2022年,8月28日79第八十页,共一百三十八页,2022年,8月28日80第八十一页,共一百三十八页,2022年,8月28日81第八十二页,共一百三十八页,2022年,8月28日82采用t检验回归系数的检验第八十三页,共一百三十八页,2022年,8月28日83例3.2检验例3.1中回归效果是否显著,取α=0.05。第八十四页,共一百三十八页,2022年,8月28日84(4)回归系数的置信区间由第八十五页,共一百三十八页,2022年,8月28日85第八十六页,共一百三十八页,2022年,8月28日86回归参数估计和显著性检验的Excel实现

例3.3(续)前面我们已经分析了加热温度与燃气消耗量之间的关系,认为两者具有较好的线性关系,下面我们进一步建立燃气消耗量(响应变量)与加热温度(解释变量)之间的回归方程.采用Excel中的“数据分析”模块.第八十七页,共一百三十八页,2022年,8月28日87平均加热温度燃气用量接前行

平均加热温度燃气用量1246.3901.225110.91011.23438.91162.14337.512123.15265.313306.4613414327.2741.7155211801.216306.9在Excel的A1:C17输入下标:

第八十八页,共一百三十八页,2022年,8月28日88在Excel工作表中输入上面的数据点击主菜单中“工具”点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框,点击菜单中“回归”,点击“确定”,出现“回归”框.第八十九页,共一百三十八页,2022年,8月28日89在“Y值输入区域”中标定你已经输入的响应变量数据的位置(本例为$C$2:$C$17),在“X值输入区域”中标定你已经输入的解释变量数据的位置(注意:数据按“列”输入)(本例为$B$2:$B$17),“置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定”.在指定位置输出相应的方差分析表和回归系数输出结果,例3.3的输出结果如下所示,第九十页,共一百三十八页,2022年,8月28日90

自由度平方和均方F值P_值

回归1168.581168.5811467.5511.415E-15显著!误差141.6080.115总的15170.189方差分析表第九十一页,共一百三十八页,2022年,8月28日91

Coef.标准误差tStatPvalueLower95%Upper95%Intercept1.0890.1397.8411.729E-060.7911.387X0.1890.00538.3091.415E-150.1780.200与方差分析中P-值一致!第九十二页,共一百三十八页,2022年,8月28日92预测预测一般有两种意义.第九十三页,共一百三十八页,2022年,8月28日93(5)E(y0)的点估计及置信区间故作为E(y0)的点估计,是无偏估计.E(y0)的置信水平为1-α的置信区间为第九十四页,共一百三十八页,2022年,8月28日94因此,根据观测结果,点预测为(6)y0的点预测及区间预测第九十五页,共一百三十八页,2022年,8月28日95第九十六页,共一百三十八页,2022年,8月28日96第九十七页,共一百三十八页,2022年,8月28日97第九十八页,共一百三十八页,2022年,8月28日98第九十九页,共一百三十八页,2022年,8月28日99Excel只能输出预测值,无法输出预测区间.预测区间计算如下:上例中x值置于B2:B17,y值置于C2:C17,在Excel第18行,B18,C18,D18,E18,F18,G18分别为52.034222.313299.7234719.4382.145第一百页,共一百三十八页,2022年,8月28日10052.034222.313299.7234719.4382.145第一百零一页,共一百三十八页,2022年,8月28日101例3.5合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量(%)y:钢的强度(kg/mm2)数据见右表:yxx240.50.030.000939.50.040.0016410.050.002541.50.070.0049430.090.0081420.10.01450.120.014447.50.150.0225530.170.0289560.20.04第一百零二页,共一百三十八页,2022年,8月28日102(1)画出散点图;(2)设μ(x)=β0+β1x,求β0,β1的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数β1是否为零(取α=0.05);(5)求回归系数β1的95%置信区间;(6)求在x=0.06点,回归函数的点估计和95%置信区间;(7)求在x=0.06点,y的点预测和95%区间预测。(8)模型还可以改进吗?第一百零三页,共一百三十八页,2022年,8月28日103(1)合金钢的强度y与钢材中碳的含量x的散点图第一百零四页,共一百三十八页,2022年,8月28日104方差分析

dfSSMSFSignificanceF回归1255.4116255.411674.332892.54E-05残差827.488413.436051显著总计9282.9

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept35.45061.2429228.52222.47E-09显著32.584438.3168XVar.192.641110.74528.621652.54E-05显著67.8627117.420第一百零五页,共一百三十八页,2022年,8月28日105第一百零六页,共一百三十八页,2022年,8月28日106第一百零七页,共一百三十八页,2022年,8月28日107显著水平为0.05第一百零八页,共一百三十八页,2022年,8月28日108第一百零九页,共一百三十八页,2022年,8月28日109方差分析

dfSSMSFSignificanceF回归分析2276.3151138.1576146.86691.92E-06残差76.5848940.940699显著总计9282.9

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept40.6441.2793231.76997.91E-0937.618843.6691XVar.1-30.48326.7175-1.140950.29142-93.6632.6935XVar.2550.475116.7764.713940.00217274.344826.606不显著第一百一十页,共一百三十八页,2022年,8月28日110方差分析

dfSSMSFSignificanceF回归分析1275.0905275.0905281.80221.61E-07残差87.8094650.976183总计9282.9

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept39.27740.4580485.75093.82E-1338.221240.3337XVar.1420.22325.032716.78701.61E-07362.497477.948第一百一十一页,共一百三十八页,2022年,8月28日111回归函数线性的诊断误差方差齐性诊断误差的独立性诊断误差的正态性诊断9.6回归诊断第一百一十二页,共一百三十八页,2022年,8月28日112一、回归函数线性的诊断第一百一十三页,共一百三十八页,2022年,8月28日113第一百一十四页,共一百三十八页,2022年,8月28日114第一百一十五页,共一百三十八页,2022年,8月28日115第一百一十六页,共

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论