新编-概率论与数理统计第九章方差分析与回归分析课件_第1页
新编-概率论与数理统计第九章方差分析与回归分析课件_第2页
新编-概率论与数理统计第九章方差分析与回归分析课件_第3页
新编-概率论与数理统计第九章方差分析与回归分析课件_第4页
新编-概率论与数理统计第九章方差分析与回归分析课件_第5页
已阅读5页,还剩147页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022/12/19版权所有BY张学毅1第九章第一节单因素试验的方差分析2022/12/17版权所有BY张学毅1第九章第12022/12/19版权所有BY张学毅2一、方差分析的有关概念1.方差分析(AnalysisofVariance,ANOVA)是一种检验多

个正态总体均值是否相等的统计方法。

2.因素的水平:指试验因素的某种特定状态或数量等级,简

称水平。3.试验指标:衡量实验结果好坏程度的试验数据。在单因素方差分析中,将因素的任何一个水平看作是一个总体,该水平下试验得到的数据可看成是从总体中抽出的一个样本。若方差分析中考察的因素只有一个时,称为单因素方差分析;若同时研究两个因素对试验指标的影响时,则称为两因素试验。同时针对两个因素进行,则称为双因素方差分析。

2022/12/17版权所有BY张学毅2一、方差分析的有22022/12/19版权所有BY统计学课程组3二、单因素方差分析的数据结构

2022/12/17版权所有BY统计学课程组3二、单因素32022/12/19版权所有BY张学毅4因素A水平A1水平A2…水平As12:2022/12/17版权所有BY张学毅4因素A水平A142022/12/19版权所有BY张学毅5表中:为第i个水平的第j个观测值。记第j个水平观测值的均值为,则有记所有观测值的均值为,则有2022/12/17版权所有BY张学毅552022/12/19版权所有BY张学毅6三、方差分析中的三个基本假设(1)各个总体都服从正态分布;(2)各个总体的方差都相等;(3)各个观测值之间是相互独立的。2022/12/17版权所有BY张学毅6三、方差分析中的62022/12/19版权所有BY张学毅7四、单因素方差分析的数学模型由于则有单因素方差分析的数学模型1:2022/12/17版权所有BY张学毅7四、单因素方差分72022/12/19版权所有BY张学毅8四、单因素方差分析的数学模型记,为Aj的效应。

则有单因素方差分析的数学模型2:2022/12/17版权所有BY张学毅8四、单因素方差分82022/12/19版权所有BY张学毅9从散点图上可以看出:不同的水平的数据是有明显差异的;同一个水平的数据也明显不同;不同水平的观察值与试验指标值之间可能有一定的关系。3.仅从散点图上观察还不能提供充分的证据证明不同水平与试验指标值之间有显著差异。这种差异可能是由于抽样的随机性所造成的,也有可能是系统性影响因素造成的。五、方差分析的基本思想2022/12/17版权所有BY张学毅9从散点图上可以看92022/12/19版权所有BY张学毅104.需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。5.随机误差

因素的同一水平(总体)下,样本各观察值之间的差异,可以看成是随机因素的影响,称为随机误差;6.系统误差

因素的不同水平(不同总体)下,各观察值之间的差异可能是由于抽样的随机性所造成的,也可能是由于水平本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。2022/12/17版权所有BY张学毅104.需要有更准102022/12/19版权所有BY张学毅11方差分析的基本思想7.若不同水平对试验指标值没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1;8.若不同水平对试验指标值有影响,则在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1;9.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。

2022/12/17版权所有BY张学毅11方差分析的基本11总离差平方和(

sumofsquaresfortotal)1)全部观察值与总均值的离差平方和;2)反映全部观察值的离散状况。其计算公式为:六、离差平方和与自由度的分解总离差平方和1)全部观察值与总均值12效应平方和(组间平方和):SumofsquaresforfactorA1)各组平均值与总平均值的离差平方和;2)反映各总体的样本均值之间的差异程度,又称组间平方和;3)该平方和既包括随机误差,也包括系统误差。计算公式为:

效应平方和(组间平方和)1)各组平均值13误差平方和(组内平方和):Sumofsquaresforerror1)每个水平或组的各样本数据与其组平均值的离差平方和;2)反映每个样本各观察值的离散状况,又称组内离差平方和;3)该平方和反映的是随机误差的大小。计算公式为:误差平方和(组内平方和)1)每个水平或组的各样本数据与其组14三个离差平方和的关系总离差平方和=组间平方和+组内平方和

三个离差平方和的关系总离差平方和=组间平方和+组内平方和15三个离差平方和的自由度之间的关系:均方三个离差平方和的自由度之间的关系:162022/12/19版权所有BY张学毅17七、的统计特征P228根据概率论与数理统计学知识:1)是总体方差的无偏估计量,且与原假设成立与否无关。即2)是否是总体方差的无偏估计量,与原假设成立与否有关。当且仅当原假设成立时,才是总体方差的无偏估计量。2022/12/17版权所有BY张学毅17七、17八、方差分析表通常将上述计算过程列成一张表格,称为方差分析表。变差源平方和自由度均方F比因素A(组间)s-1误差(组内)n-s-总和n-1-

-

八、方差分析表通常将上述计算过程列成一张表格,称为方差分析表182022/12/19版权所有BY张学毅19例9.1热带雨林一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平α=0.05。

2022/12/17版权所有BY张学毅19例9.1热192022/12/19202、提出零假设和备择假设H0:u1=u2=u3H1:u1,u2,u3不全相等。从未采伐过1年前采伐过8年前采伐过2712182212429152221915192018331819161722201412241412272281719192022/12/17202、提出零假设和备择假设从未采伐过1202022/12/19版权所有BY张学毅21方差分析表结论:F值=11.43>3.32,p-值=0.0002<0.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueFcrit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832

2022/12/17版权所有BY张学毅21方差分析表变差212022/12/19版权所有BY张学毅22【例9.2】某市消费者协会为了评价该地旅游业、居民服务业、公路客运业和保险业的服务质量,从这4个行业中分别抽取了不同数量的企业。经统计,最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异?如果有,究竟是在哪些行业之间?2022/12/17版权所有BY张学毅22【例9.2】22解(1)建立假设

(2)列方差分析表(3)统计决策因为,所以拒绝。即有99%的把握认为不同行业之间的服务质量有高度显著的差异。解(1)建立假设232022/12/19版权所有BY张学毅24第二节两因素试验数据的方差分析一、无交互作用的双因素方差分析

若记一因素为因素A,另一因素为因素B,对A与B同时进行分析,就属于双因素方差分,即判断是否有某一个或两个因素对试验指标有显著影响,两个因素结合后是否有新效应。在统计学中将各个因素的不同水平的搭配所产生的新的影响称为交互作用。我们先讨论无交互作用的双因素方差分析问题,对于有交互作用的双因素方差分析问题稍后再讨论。2022/12/17版权所有BY张学毅24第二节两因242022/12/19版权所有BY张学毅25无交互作用的双因素方差分析数据结构2022/12/17版权所有BY张学毅25无交互作用的双252022/12/19版权所有BY张学毅26双因素无交互作用的方差分析,又称为双因素无重复试验的方差分析;双因素有交互作用的方差分析,又称为双因素等重复试验的方差分析;判断因素A的影响是否显著等价于检验假设:判断因素B的影响是否显著等价于检验假设:其中,表示A的第i个水平所构成的总体均值,表示的B第j个水平所构成的总体均值。2022/12/17版权所有BY张学毅26双因素无交互作26

对离差总平方和进行分解。与单因素情况类似,能够证明下列公式成立:总离差平方和的自由度分解为:F统计量:

对离差总平方和进行分解。与单因素情况类似,能够272022/12/19版权所有BY张学毅282022/12/17版权所有BY张学毅2828

例9.3为提高某种产品的合格率,考察原料来源地和用量对其是否有影响。原料来源地有三个:甲、乙、丙;原料用量有三种:现有量、增加5%、增加8%。每个水平组合各作一次试验,得到的数据如下表所示。试分析原料来源地和用量对产品合格率的影响是否显著?例9.3为提高某种产品的合格率,考察原料来292022/12/19版权所有BY张学毅30【例题】解:(1)建立假设(2)列方差分析表2022/12/17版权所有BY张学毅30【例题】解:(302022/12/19版权所有BY张学毅31(3)统计决策对于显著性水平0.05,查表得临界值因为,,故不拒绝,拒绝。即根据现有数据,有95%的把握可以推断原料来源地对产品合格率的影响不大,而原料用量对合格率有显著影响。由于为最优水平。既然原料来源地对产品合格率的影响不显著,在保证质量的前提下,可以选择运费最省的地方作为原料来源地选择时的首选。如果丙地的运费最省,则最优方案为。

2022/12/17版权所有BY张学毅31312022/12/19版权所有BY张学毅32【例9.4】某种火箭使用了四种燃料,三种推进器做试验。每种燃料和每种推进器的组合各做一次试验,得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著影响?2022/12/17版权所有BY张学毅32【例9.4】322022/12/19版权所有BY张学毅33列方差分析表:2022/12/17版权所有BY张学毅33332022/12/19版权所有BY张学毅342022/12/17版权所有BY张学毅34342022/12/19版权所有BY张学毅352022/12/17版权所有BY张学毅35352022/12/19版权所有BY张学毅36二、有交互作用的双因素方差分析

所谓交互作用,简单来说就是不同因素对试验指标的复合作用,因素A和B的综合效应不是二因素效应的简单相加。为了能分辨出两个因素的交互作用,一般每组试验至少作两次。2022/12/17版权所有BY张学毅36二、有交互作用362022/12/19版权所有BY张学毅37

有交互作用的双因素方差分析数据结构2022/12/17版权所有BY张学毅37有交互372022/12/19版权所有BY张学毅382.建立假设2022/12/17版权所有BY张学毅382.建立假设382022/12/19版权所有BY张学毅39这就是有交互作用的双因素方差分析的数学模型。2022/12/17版权所有BY张学毅39392022/12/19版权所有BY张学毅40对这一模型可设如下三个假设:2022/12/17版权所有BY张学毅40对这一模型可设402022/12/19版权所有BY张学毅413.方差分析与单因素方差分析的平方和分解类似,有2022/12/17版权所有BY张学毅413.方差分析与412022/12/19版权所有BY张学毅422022/12/17版权所有BY张学毅42422022/12/19版权所有BY张学毅43双因素(有交互作用)方差分析表2022/12/17版权所有BY张学毅43双因素(有交互432022/12/19版权所有BY张学毅44

例9.5某公司想将橡胶、塑料和软木的板材冲压成密封垫片出售。市场上有两种不同型号的冲压机可供选择。为了能对冲压机每小时所生产的垫片数进行比较,并确定哪种机器使用何种材料生产垫片的能力更强,该公司使用每台机器对每一种材料分别运行三段时间,得到的试验数据(每小时生产的垫片数)如下表所示,试运用方差分析确定最优方案。2022/12/17版权所有BY张学毅44442022/12/19版权所有BY张学毅452022/12/17版权所有BY张学毅45452022/12/19版权所有BY张学毅46解(1)建立假设:(2)计算相应的均值和平方和:2022/12/17版权所有BY张学毅46解462022/12/19版权所有BY张学毅472022/12/17版权所有BY张学毅47472022/12/19版权所有BY张学毅48(3)列方差分析表2022/12/17版权所有BY张学毅48(3)列方差482022/12/19版权所有BY张学毅49(4)统计决策由于

,说明不仅冲压机的型号和垫片材料对垫片数量有显著影响,而且其交互作用也是显著的。由结构均值表可知,在冲压机中,第一种的均值较大;垫片材料中,软木的均值较大,故最优方案是。2022/12/17版权所有BY张学毅49(4)统计决492022/12/1950第三节一元线性回归一、一元线性回归二、a,b的估计三、总体方差的估计四、线性假设的显著性检验五、系数b的置信区间六、回归预测七、可化为一元线性回归的例子(自学)2022/12/1750第三节一元线性回归一、一元线性回50回归模型的类型回归模型的类型51一、一元线性回归只涉及一个自变量的回归;因变量y与自变量x之间为线性关系。被预测或被解释的变量称为因变量(dependentvariable),用y表示;用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示。因变量与自变量之间的关系用一个线性方程来表示。一、一元线性回归只涉及一个自变量的回归;52一元线性回归模型的基本形式①描述因变量y如何依赖于自变量x和误差项

的方程称为理论回归模型②一元线性回归模型可表示为y是x的线性函数(部分)加上随机误差项线性部分反映了由于x的变化而引起的y的变化;误差项

是随机变量(未纳入模型但对y有影响的诸多因素的综合影响),反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。a和b称为模型的参数理论回归模型一元线性回归模型的基本形式①描述因变量y如何依赖于自变53●在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y是随机的。

即当解释变量X取某固定值时,Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。回归线,描述的是Y的条件期望E(Y/xi)与之对应xi,代表这些Y的条件期望的点的轨迹所形成的直线或曲线。如注意:

由于单个数据点是从y的分布中抽出来的,可能不在这条回归线上,因此必须包含随机误差项e来描述模型数据点.

xy回归线●在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y54回归模型的基本假设假设1:误差项的期望值为0,即对所有的i有假设2:误差项的方差为常数,即对所有的i有假设3:误差项之间不存在自相关关系,其协方差为0,即当时,有;假设4:自变量是给定的变量,与随机误差项线性无关;假设5:随机误差项服从正态分布。即ε~N(0,σ2)以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。回归模型的基本假设假设1:误差项的期望值为0,即对所有的i有55回归方程(regressionequation)

描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下:方程的图示是一条直线,也称为直线回归方程。a是回归直线在y轴上的截距,是当x=0时y的期望值;b是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。回归方程(regressionequation)描56.估计的回归方程(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量,代替回归方程中的未知参数和,就得到了估计的回归方程.总体回归参数和

是未知的,必须利用样本数据去估计;其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值。.估计的回归方程(estimatedregression57.二、a,b的估计(

普通最小二乘估计法)

(ordinaryleastsquaresestimators)使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小平方法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线的误差都小。.二、a,b的估计(普通最小二乘估计法)

(ordinar582022/12/1959参数的最小二乘估计P246-2472022/12/1759参数的最小二乘估计P246-247592022/12/1960例9.6【例10.7】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2019年的有关业务数据2022/12/1760例9.6【例10.7】一家大型商业银602022/12/19612022/12/1761612022/12/1962不良贷款对其他变量的散点图2022/12/1762不良贷款对其他变量的散点图622022/12/1963用Excel计算相关系数2022/12/1763用Excel计算相关系数63SUMMARYOUTPUT回归统计MultipleR0.849736RSquare0.722051AdjustedRSquare0.709966标准误差4.45116观测值25方差分析

dfSSMSFSignificanceF回归分析11183.7951183.79559.748967.69E-08残差23455.694919.81282总计241639.49

Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept-1.384731.625488-0.851890.40306-4.747311.977845-4.747311.977845XVariable10.0874110.0113087.7297457.69E-080.0640180.1108040.0640180.1108042022/12/1964SUMMARYOUTPUT回归统计MultipleR0.642022/12/1965经验回归方程的求法回归方程为:y=-1.38473

+0.087411

x回归系数=0.087411表示,贷款余额每增加1亿元,不良贷款平均增加0.087411亿元

^2022/12/1765经验回归方程的求法回归方程为:^652022/12/1966估计回归方程的求法不良贷款对贷款余额回归方程的图示2022/12/1766估计回归方程的求法不良贷款对贷款余额662022/12/1967用Excel进行回归分析第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时

在“Y值输入区域”设置框内键入Y的数据区域在“X值输入区域”设置框内键入X的数据区域在“置信度”选项中给出所需的数值在“输出选项”中选择输出区域在“残差”分析选项中选择所需的选项2022/12/1767用Excel进行回归分析第1步:选择672022/12/1968三、

的估计P249-250

称为残差平方和,则2022/12/1768三、的估计682022/12/1969

四、线性假设的显著性检验P2512022/12/1769四、线性假设的显著性检验P25692022/12/1970

五、系数b的置信区间P2522022/12/1770五、系数b的置信区间P252702022/12/1971六、回归函数函数值的点估计和置信区间回归函数的点估计值为

的置信水平为的置信区间为2022/12/1771六、回归函数712022/12/1972七、Y的观测值的点预测和预测区间2022/12/1772七、Y的观测值的点预测和预测区间722022/12/1973八、可化为一元线性回归的例子P255自学。2022/12/1773八、可化为一元线性回归的例子P255732022/12/1974第四节多元线性回归P257因为客观现象非常复杂,现象之间的联系方式和性质各不相同,影响因变量变化的自变量往往是多个而不只是一个,其中既有主要因素也有次要因素。如果仅仅进行一元回归分析,不一定能得到满意的结果。因此,有必要将一个因变量与多个自变量联系起来进行分析。2022/12/1774第四节多元线性回归P742022/12/1975多元线性回归在线性相关条件下,研究两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学表达式则称为多元线性回归方程或多元线性回归模型。2022/12/1775多元线性回归在线性相关条件下752022/12/1976多元线性回归2022/12/1776多元线性回归762022/12/19版权所有BY张学毅77第九章第一节单因素试验的方差分析2022/12/17版权所有BY张学毅1第九章第772022/12/19版权所有BY张学毅78一、方差分析的有关概念1.方差分析(AnalysisofVariance,ANOVA)是一种检验多

个正态总体均值是否相等的统计方法。

2.因素的水平:指试验因素的某种特定状态或数量等级,简

称水平。3.试验指标:衡量实验结果好坏程度的试验数据。在单因素方差分析中,将因素的任何一个水平看作是一个总体,该水平下试验得到的数据可看成是从总体中抽出的一个样本。若方差分析中考察的因素只有一个时,称为单因素方差分析;若同时研究两个因素对试验指标的影响时,则称为两因素试验。同时针对两个因素进行,则称为双因素方差分析。

2022/12/17版权所有BY张学毅2一、方差分析的有782022/12/19版权所有BY统计学课程组79二、单因素方差分析的数据结构

2022/12/17版权所有BY统计学课程组3二、单因素792022/12/19版权所有BY张学毅80因素A水平A1水平A2…水平As12:2022/12/17版权所有BY张学毅4因素A水平A1802022/12/19版权所有BY张学毅81表中:为第i个水平的第j个观测值。记第j个水平观测值的均值为,则有记所有观测值的均值为,则有2022/12/17版权所有BY张学毅5812022/12/19版权所有BY张学毅82三、方差分析中的三个基本假设(1)各个总体都服从正态分布;(2)各个总体的方差都相等;(3)各个观测值之间是相互独立的。2022/12/17版权所有BY张学毅6三、方差分析中的822022/12/19版权所有BY张学毅83四、单因素方差分析的数学模型由于则有单因素方差分析的数学模型1:2022/12/17版权所有BY张学毅7四、单因素方差分832022/12/19版权所有BY张学毅84四、单因素方差分析的数学模型记,为Aj的效应。

则有单因素方差分析的数学模型2:2022/12/17版权所有BY张学毅8四、单因素方差分842022/12/19版权所有BY张学毅85从散点图上可以看出:不同的水平的数据是有明显差异的;同一个水平的数据也明显不同;不同水平的观察值与试验指标值之间可能有一定的关系。3.仅从散点图上观察还不能提供充分的证据证明不同水平与试验指标值之间有显著差异。这种差异可能是由于抽样的随机性所造成的,也有可能是系统性影响因素造成的。五、方差分析的基本思想2022/12/17版权所有BY张学毅9从散点图上可以看852022/12/19版权所有BY张学毅864.需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。5.随机误差

因素的同一水平(总体)下,样本各观察值之间的差异,可以看成是随机因素的影响,称为随机误差;6.系统误差

因素的不同水平(不同总体)下,各观察值之间的差异可能是由于抽样的随机性所造成的,也可能是由于水平本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。2022/12/17版权所有BY张学毅104.需要有更准862022/12/19版权所有BY张学毅87方差分析的基本思想7.若不同水平对试验指标值没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1;8.若不同水平对试验指标值有影响,则在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1;9.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。

2022/12/17版权所有BY张学毅11方差分析的基本87总离差平方和(

sumofsquaresfortotal)1)全部观察值与总均值的离差平方和;2)反映全部观察值的离散状况。其计算公式为:六、离差平方和与自由度的分解总离差平方和1)全部观察值与总均值88效应平方和(组间平方和):SumofsquaresforfactorA1)各组平均值与总平均值的离差平方和;2)反映各总体的样本均值之间的差异程度,又称组间平方和;3)该平方和既包括随机误差,也包括系统误差。计算公式为:

效应平方和(组间平方和)1)各组平均值89误差平方和(组内平方和):Sumofsquaresforerror1)每个水平或组的各样本数据与其组平均值的离差平方和;2)反映每个样本各观察值的离散状况,又称组内离差平方和;3)该平方和反映的是随机误差的大小。计算公式为:误差平方和(组内平方和)1)每个水平或组的各样本数据与其组90三个离差平方和的关系总离差平方和=组间平方和+组内平方和

三个离差平方和的关系总离差平方和=组间平方和+组内平方和91三个离差平方和的自由度之间的关系:均方三个离差平方和的自由度之间的关系:922022/12/19版权所有BY张学毅93七、的统计特征P228根据概率论与数理统计学知识:1)是总体方差的无偏估计量,且与原假设成立与否无关。即2)是否是总体方差的无偏估计量,与原假设成立与否有关。当且仅当原假设成立时,才是总体方差的无偏估计量。2022/12/17版权所有BY张学毅17七、93八、方差分析表通常将上述计算过程列成一张表格,称为方差分析表。变差源平方和自由度均方F比因素A(组间)s-1误差(组内)n-s-总和n-1-

-

八、方差分析表通常将上述计算过程列成一张表格,称为方差分析表942022/12/19版权所有BY张学毅95例9.1热带雨林一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平α=0.05。

2022/12/17版权所有BY张学毅19例9.1热952022/12/19962、提出零假设和备择假设H0:u1=u2=u3H1:u1,u2,u3不全相等。从未采伐过1年前采伐过8年前采伐过2712182212429152221915192018331819161722201412241412272281719192022/12/17202、提出零假设和备择假设从未采伐过1962022/12/19版权所有BY张学毅97方差分析表结论:F值=11.43>3.32,p-值=0.0002<0.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueFcrit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832

2022/12/17版权所有BY张学毅21方差分析表变差972022/12/19版权所有BY张学毅98【例9.2】某市消费者协会为了评价该地旅游业、居民服务业、公路客运业和保险业的服务质量,从这4个行业中分别抽取了不同数量的企业。经统计,最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异?如果有,究竟是在哪些行业之间?2022/12/17版权所有BY张学毅22【例9.2】98解(1)建立假设

(2)列方差分析表(3)统计决策因为,所以拒绝。即有99%的把握认为不同行业之间的服务质量有高度显著的差异。解(1)建立假设992022/12/19版权所有BY张学毅100第二节两因素试验数据的方差分析一、无交互作用的双因素方差分析

若记一因素为因素A,另一因素为因素B,对A与B同时进行分析,就属于双因素方差分,即判断是否有某一个或两个因素对试验指标有显著影响,两个因素结合后是否有新效应。在统计学中将各个因素的不同水平的搭配所产生的新的影响称为交互作用。我们先讨论无交互作用的双因素方差分析问题,对于有交互作用的双因素方差分析问题稍后再讨论。2022/12/17版权所有BY张学毅24第二节两因1002022/12/19版权所有BY张学毅101无交互作用的双因素方差分析数据结构2022/12/17版权所有BY张学毅25无交互作用的双1012022/12/19版权所有BY张学毅102双因素无交互作用的方差分析,又称为双因素无重复试验的方差分析;双因素有交互作用的方差分析,又称为双因素等重复试验的方差分析;判断因素A的影响是否显著等价于检验假设:判断因素B的影响是否显著等价于检验假设:其中,表示A的第i个水平所构成的总体均值,表示的B第j个水平所构成的总体均值。2022/12/17版权所有BY张学毅26双因素无交互作102

对离差总平方和进行分解。与单因素情况类似,能够证明下列公式成立:总离差平方和的自由度分解为:F统计量:

对离差总平方和进行分解。与单因素情况类似,能够1032022/12/19版权所有BY张学毅1042022/12/17版权所有BY张学毅28104

例9.3为提高某种产品的合格率,考察原料来源地和用量对其是否有影响。原料来源地有三个:甲、乙、丙;原料用量有三种:现有量、增加5%、增加8%。每个水平组合各作一次试验,得到的数据如下表所示。试分析原料来源地和用量对产品合格率的影响是否显著?例9.3为提高某种产品的合格率,考察原料来1052022/12/19版权所有BY张学毅106【例题】解:(1)建立假设(2)列方差分析表2022/12/17版权所有BY张学毅30【例题】解:(1062022/12/19版权所有BY张学毅107(3)统计决策对于显著性水平0.05,查表得临界值因为,,故不拒绝,拒绝。即根据现有数据,有95%的把握可以推断原料来源地对产品合格率的影响不大,而原料用量对合格率有显著影响。由于为最优水平。既然原料来源地对产品合格率的影响不显著,在保证质量的前提下,可以选择运费最省的地方作为原料来源地选择时的首选。如果丙地的运费最省,则最优方案为。

2022/12/17版权所有BY张学毅311072022/12/19版权所有BY张学毅108【例9.4】某种火箭使用了四种燃料,三种推进器做试验。每种燃料和每种推进器的组合各做一次试验,得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著影响?2022/12/17版权所有BY张学毅32【例9.4】1082022/12/19版权所有BY张学毅109列方差分析表:2022/12/17版权所有BY张学毅331092022/12/19版权所有BY张学毅1102022/12/17版权所有BY张学毅341102022/12/19版权所有BY张学毅1112022/12/17版权所有BY张学毅351112022/12/19版权所有BY张学毅112二、有交互作用的双因素方差分析

所谓交互作用,简单来说就是不同因素对试验指标的复合作用,因素A和B的综合效应不是二因素效应的简单相加。为了能分辨出两个因素的交互作用,一般每组试验至少作两次。2022/12/17版权所有BY张学毅36二、有交互作用1122022/12/19版权所有BY张学毅113

有交互作用的双因素方差分析数据结构2022/12/17版权所有BY张学毅37有交互1132022/12/19版权所有BY张学毅1142.建立假设2022/12/17版权所有BY张学毅382.建立假设1142022/12/19版权所有BY张学毅115这就是有交互作用的双因素方差分析的数学模型。2022/12/17版权所有BY张学毅391152022/12/19版权所有BY张学毅116对这一模型可设如下三个假设:2022/12/17版权所有BY张学毅40对这一模型可设1162022/12/19版权所有BY张学毅1173.方差分析与单因素方差分析的平方和分解类似,有2022/12/17版权所有BY张学毅413.方差分析与1172022/12/19版权所有BY张学毅1182022/12/17版权所有BY张学毅421182022/12/19版权所有BY张学毅119双因素(有交互作用)方差分析表2022/12/17版权所有BY张学毅43双因素(有交互1192022/12/19版权所有BY张学毅120

例9.5某公司想将橡胶、塑料和软木的板材冲压成密封垫片出售。市场上有两种不同型号的冲压机可供选择。为了能对冲压机每小时所生产的垫片数进行比较,并确定哪种机器使用何种材料生产垫片的能力更强,该公司使用每台机器对每一种材料分别运行三段时间,得到的试验数据(每小时生产的垫片数)如下表所示,试运用方差分析确定最优方案。2022/12/17版权所有BY张学毅441202022/12/19版权所有BY张学毅1212022/12/17版权所有BY张学毅451212022/12/19版权所有BY张学毅122解(1)建立假设:(2)计算相应的均值和平方和:2022/12/17版权所有BY张学毅46解1222022/12/19版权所有BY张学毅1232022/12/17版权所有BY张学毅471232022/12/19版权所有BY张学毅124(3)列方差分析表2022/12/17版权所有BY张学毅48(3)列方差1242022/12/19版权所有BY张学毅125(4)统计决策由于

,说明不仅冲压机的型号和垫片材料对垫片数量有显著影响,而且其交互作用也是显著的。由结构均值表可知,在冲压机中,第一种的均值较大;垫片材料中,软木的均值较大,故最优方案是。2022/12/17版权所有BY张学毅49(4)统计决1252022/12/19126第三节一元线性回归一、一元线性回归二、a,b的估计三、总体方差的估计四、线性假设的显著性检验五、系数b的置信区间六、回归预测七、可化为一元线性回归的例子(自学)2022/12/1750第三节一元线性回归一、一元线性回126回归模型的类型回归模型的类型127一、一元线性回归只涉及一个自变量的回归;因变量y与自变量x之间为线性关系。被预测或被解释的变量称为因变量(dependentvariable),用y表示;用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示。因变量与自变量之间的关系用一个线性方程来表示。一、一元线性回归只涉及一个自变量的回归;128一元线性回归模型的基本形式①描述因变量y如何依赖于自变量x和误差项

的方程称为理论回归模型②一元线性回归模型可表示为y是x的线性函数(部分)加上随机误差项线性部分反映了由于x的变化而引起的y的变化;误差项

是随机变量(未纳入模型但对y有影响的诸多因素的综合影响),反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。a和b称为模型的参数理论回归模型一元线性回归模型的基本形式①描述因变量y如何依赖于自变129●在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y是随机的。

即当解释变量X取某固定值时,Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。回归线,描述的是Y的条件期望E(Y/xi)与之对应xi,代表这些Y的条件期望的点的轨迹所形成的直线或曲线。如注意:

由于单个数据点是从y的分布中抽出来的,可能不在这条回归线上,因此必须包含随机误差项e来描述模型数据点.

xy回归线●在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y130回归模型的基本假设假设1:误差项的期望值为0,即对所有的i有假设2:误差项的方差为常数,即对所有的i有假设3:误差项之间不存在自相关关系,其协方差为0,即当时,有;假设4:自变量是给定的变量,与随机误差项线性无关;假设5:随机误差项服从正态分布。即ε~N(0,σ2)以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。回归模型的基本假设假设1:误差项的期望值为0,即对所有的i有131回归方程(regressionequation)

描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下:方程的图示是一条直线,也称为直线回归方程。a是回归直线在y轴上的截距,是当x=0时y的期望值;b是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。回归方程(regressionequation)描132.估计的回归方程(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量,代替回归方程中的未知参数和,就得到了估计的回归方程.总体回归参数和

是未知的,必须利用样本数据去估计;其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值。.估计的回归方程(estimatedregression133.二、a,b的估计(

普通最小二乘估计法)

(ordinaryleastsquaresestimators)使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小平方法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线的误差都小。.二、a,b的估计(普通最小二乘估计法)

(ordinar1342022/12/19135参数的最小二乘估计P246-2472022/12/1759参数的最小二乘估计P246-2471352022/12/19136例9.6【例10.7】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论