版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第七章第七章 回归分析与方差分析初步回归分析与方差分析初步7.1一元线性回归有一类变量间有关系,但不能用函数形式来表示。例如人的体重 与身高 有关,又如居民的储蓄存款额 与它的收入 有关,但同样的收入的人储蓄存款额也不会相同。这样的变量间的关系在统计上称为。X自变量(一般变量,非随机变量)Y随机变量yxyx2一、模型一、模型收集数据 niyxii, 2 , 1),(例7.1 我们知道营业税收总额与社会零售总额有关。为了能从社会商品零售总额去预测税收总额,需要了解两者的关系,现收集了如下几组数据(表7.1.1) 表7.1.1社会商品零售总额与税收总额 单位:亿元序号社会商品零售总额 x营业税税
2、收总额 y 1 14208393 2 17730 596 3 20468 785 4 24288 982 5 31624 1250 6 34199 1555 7 33269 1579 8 38929 1639 9 45340 17.453 画散点图4观测散点图如果 个点 在某直线附近波动,但不完全在一直线上,认为 由两部分构成,各 之间独立,可得一元线性回归的数学模型:ny.).(,10vrxyxxy变动的其它部分随随机因素及变动的趋势随),(iiyx), 0(. ., 2 , 1,210Ndi inixyiiii(7.1.1)5回归函数: xyE10)(反映 与 的相关关系 yx的估计为 ,
3、回归方程为 10,10,xy10考虑如何根据 去估计 ;对回归方程的可信度作检验;回归方程的作用:预测,控制。niyxii, 2 , 1),(10,6二、参数的最小二乘法估计二、参数的最小二乘法估计(一) LSE的求法1.准则: niiniiixyyy121012)()(记 niixyQ121010)(),(为残差平方和。),(),(10),(10min10QQ72.求法: ,又 是 的可微函数,有极值。0),(10QQ10,正规方程组: 00110010QQiiiiiiiiiiiiiiiiiiyxxxyxnxxyxy2101010100)(20)(28从而 代入得xyyx1010iixxii
4、ixyxxxyiiiiixxlyyxxlllxnxyxnyx2221)(, )(,得到的LSE为 10,xyllxxxy1019回归方程有两种形式: )(110 xxyxy回归直线过 两点。),(), 0(0yx10(二) 估计量的分布及有关性质xxiiixxxyiiiiilyxxllxnxyxnyx)(221iixxiyxlxxnxy)1(1012),(211xxlN)1( ,(2200 xxlxnN3 ,当 时, 与 独立210),cov(xxlx0 x01114 仍服从正态分布,xy10 xyE10) (222222210120)(1)(21)1(),cov(2)()() (xxxxxx
5、xxlxxnlxxlxlxnxDxDyD)(1 ,(2210 xxlxxnxNy12定理定理7.1.1 7.1.1 在模型(在模型(7.1.17.1.1)下有)下有(1 1)(2 2) 相互独立相互独立)2()2(2nnSEySE,1137. 2 单因子方差分析单因子方差分析 实践例子:美国的Burke市场调查公司是一家最富经验的市场调研机构之一。在一次研究中,一家Anon公司要评价儿童干谷类食品的潜在的新品种。Anon产品开发者认为可能改善食品味道的四类关键因素为:141.食品中小麦与玉米的比例。2.甜味剂的类型:白糖、蜂蜜或人工制剂。3.果味香料的有无。4.加工时间的长短。15用于研究由品
6、尝得来的数据的统计方法是。分析结果如下:*食品成分及甜味剂的类型对味道影响很大。*果味香精事实上破坏了食品的味道。*加工时间对味道没有影响。这些信息帮助Anon识别出了可能产生最佳口味食品的因素。从而在生产方案中起了很大的作用。167.2.1 问题的提出问题的提出在实际中常会遇到比较多个总体均值是否相等的问题。 例如:某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品的质量是否一致? 再如:某工厂有三个联营厂,生产同一产品,生产工艺也相同,那么这几个联营厂的产品质量是否一致? 17类似问题有许多,今后我们称所要比较的地区、联营厂等为因子,因子所处的状态称为水平,如四个地区是地区这个因
7、子的四个水平。我们一般用大写字母A、B、C等表示因子,用大写字母加下标 表示该因子的水平,如A的水平用 等表示。,21AA18下面用一个例子来说明问题的提法。例7.2.1 国民计算机公司(NCP)在亚特兰大、达拉斯以及西雅图的工厂生产计算机与传真机。为确定这些工厂中有多少员工了解全面质量管理,从每个工厂选取了一个由6名员工组成的随机样本,并对他们进行质量意识考试。18名员工的考分列在下表中。管理者想用这些数据来检验假设:三个工厂的平均考分相同。19表7.2 员工的考分1A2A3A 观察值亚特兰大(工厂1)达拉斯(工厂2)西雅图(工厂3) 1 85 71 59 2 75 75 64 3 82 7
8、3 62 4 76 74 69 5 71 69 75 6 85 82 6720在本例中我们要比较三个工厂的考分是否相同,为此把工厂看成一个因子,记为A,它有三个工厂,就看成因子A的三个水平,记为 , , 。我们将第 个工厂的第 个工人的考分记为 。 在本例中, 1A2A3Aijiijmjiy, 2 , 1; 3 , 2 , 1,6321mmm由于在每个工厂选的是随机样本,(工人间的差异控制在最小范围)因此一个工厂的工人的不同考分可看成是在一个工厂的若干次重复观察。所以可把一个工厂的考分看成一个总体。为比较三个工厂的平均考分是否相同,相当要比较三个总体的均值是否一致。为简化起见,需要提出若干假定
9、,把所要回答的问题归结为一个统计问题,然后设法解决它。217.2.2 7.2.2 单因子方差分析的统计模型单因子方差分析的统计模型一、假定一、假定在单因子试验中,设因子A有 个水平, 在每一水平下考察的指标可以看成一个总体,现有 个水平,故有 个总体,并假定:rrAAA,21rr22(1)每一总体均服从正态分布;(2)每一总体的方差相同;(3)从每一总体中抽取的样本独立。要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第 个总体的均值为 ,那么要检验的假设为: (7.2.1)iirH210:其备择假设为: 不全相同。通常 可以省略不写。rH,:2111H23当 为真时,A的 个
10、水平的均值相同,这时称因子A的各水平间无显著差异,简称因子因子A不显著不显著;反之,当 不真时,各 不全相同,这时称因子A的各水平间有显著差异,简称因子因子A显著。显著。用于检验假设(7.2.1)的统计方法称为方差分析法,其实质是检验若干个具有相同方差的正态总体的均值是否相等的一种统计方法。若考察的因子只有一个时,称为单因子方差分析。0Hr0Hi24二、数据结构及统计模型二、数据结构及统计模型设从第 个总体获得容量为 的样本, iimriyyyiimii, 2 , 1,11在水平 下获得的 与 不会一致,记 称 为随机误差 ,有 (7.2.2)iAijyiiijijyijijiijy这是 的数
11、据结构式 ijy25), 0(, 2 , 1., 2 , 1,2Nmjriyijiijiij相互独立且服从各在方差分析中引入一般平均与效应的概念,称 为一般平均一般平均,其中 。称 为A的第 水平的主效应主效应, 简称为 的效应。显然有,统计模型可以改写成:riiimn11riimn1riuuaii, 2 , 1,iiAriiiam1026(7.2.4)), 0(0, 2 , 1., 2 , 1,21Nammjriayijriiiiijiij相互独立且服从各从而假设(7.2.1)可写成:0:210raaaH277.2.3 检验方法检验方法一、误差来源一、误差来源1A11y12y11my2A21
12、y22y22myrA1ry2ry 试 验数据 rrmy28造成各 差异的原因可能有两个:ijy(1)原假设 不真,即各水平下总体均值不同;(2)差异是由于随机误差引起的。0H记 表示水平 下的数据和, imjijiyy1iA表示水平 下数据的平均值 iiiymy1iA为所有数据的总平均值。 rimjijiyny111imjijiim11rimjijin11129每一数据与总平均的偏差可以分解成两部分: (7.2.5))()(yyyyyyiiijij称为组内偏差,仅反映随机误差: (7.2.6)iijyyiijiiijiiijyy)()( 称为组间偏差,除随机误差之外还有第 个水平的效应: (7
13、.2.7)yyiiiiiiiayy)()(30二、平方和分解二、平方和分解rimjijTiyyS112)(称为总偏差平方和总偏差平方和。 2112112)(ynyyySrimjijrimjijTii, 称为误差偏差平方和误差偏差平方和 rimjiijeiyyS112)(,称为因子因子A的偏差平方和的偏差平方和 riiiAyymS12)(31三、检验统计量与拒绝域三、检验统计量与拒绝域有计算公式: 21212)(ynmyyymSriiiriiiA可以证明有:eATSSSiijmjriN, 2 , 1, 2 , 1), 0(2), 0(, 2 , 1), 0(22nNrimNii32(1)求:)(
14、eSE利用正态总体中的结论(见第一章)有:) 1()(12122imjiijmyyi又由 分布的可加性知:2)() ) 1()(121211222rnmyySriirimjiijei则有 2)()(rnSEe33从而有 )(ASEriiiiriiiAamyymS1212)()(riiiriiiiriiimamam12112)()(2riiiriiiiriiiAEmEamamSE1212)()(2)(212221122121212212)1()()()2(ramnnmmamnEEmammEamriiiiriiriiiriiiriiiriiiiriii2122211)1(,)(riiiAeamrrSErnSE(2) 求34当原假设为真时,各 相等且为 ,则取检验统计量为: (7.2.8)ia02) 1()( rSEA)() 1(rnSrSFeA比较合理的拒绝域形式为: cFW对给定的显著性水平 , 应满足 c )(cFP3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宠物健康管理与专业人才培训方案
- 二零二五年度花岗岩石材矿山资源整合开发合同3篇
- 鹤壁汽车工程职业学院《自动化专业实验Ⅰ》2023-2024学年第一学期期末试卷
- 专项承揽工程协议范本2024年版版B版
- 2025年度重点消防安全隐患排查整治承揽施工合同3篇
- 2024年简化版动产抵押融资协议样本版B版
- 二零二五年度跨区域能源供应与配送合同2篇
- 2025年统编版选修6地理下册阶段测试试卷
- 2025年教科新版九年级语文上册月考试卷含答案
- 2025年人教A新版选择性必修1物理下册月考试卷
- 天车租赁合同范例
- 多任务并行处理中的计算资源分配
- 第二单元《第8课循环结构-for循环》教学实录 -2023-2024学年浙教版(2020)初中信息技术八年级上册
- 侘寂风的色彩搭配艺术
- 2025年中考道德与法治二轮复习:主观题 答题模板与技巧(含练习题及答案)
- 公卫科科长述职报告范文(6篇)
- 广西南宁市2023-2024学年七年级上学期期末数学试卷
- 大学《保险学》期末复习重点及考试试题(单选、多选、名词解释、简答题等)
- 2024年考研(英语一)真题及参考答案
- 2024年质量工作总结(3篇)
- 山东省济南市2023-2024学年高二上学期期末考试物理试题 附答案
评论
0/150
提交评论