版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章 一元回归及简单相关分析10.1 回归与相关的基本概念10.2 一元线性回归方程10.3 一元线性回归的检验10.4 一元非线性回归10.5 相关一元线性回归一元线性回归多元线性回归多元线性回归回归分析回归分析数学模型及定义数学模型及定义*模型参数估计模型参数估计* *检验、预测与控制检验、预测与控制可线性化的一元非线可线性化的一元非线性回归(曲线回归性回归(曲线回归)数学模型及定义数学模型及定义*模型参数估计模型参数估计*多元线性回归中的多元线性回归中的检验与预测检验与预测逐步回归分析逐步回归分析10.1 回归与相关的基本概念 生物界中,大量存在的情况是,一种变量受另一种变量的影响,两
2、者之间既有关系,但又不存在完全确定的函数关系。知道其中一种关系,并不能精确求出另一变量。 如果对于变量X的每一个可能的值xi,都有随机变量Y的一个分布相对应,则称随机变量Y对变量X存在回归关系。X称为自变量自变量,Y称为因因变量变量。Y的条件平均数的条件平均数: 当X=xi时Y的平均数回归问题:估计条件平均数相关关系相关关系: X和Y都是随机变量,对于任一随机变量的每一个可能的值,另一个变量都有一个确定的分布与之对应xiXY.XY.10.2 一元线性回归方程2.1 散点图 散点图散点图: 用自变量X为横轴,因变量Y为纵轴,在XY平面内标出这些点。 例:土壤内NaCl含量对植物的生长有很大的影响
3、,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。表10-1中的数据,是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。下页图10-1是用表中的7对数据所作出的散点图。 干物重与NaCl含量间呈直线关系,但这些点并不在一条直线上。 若增加在每一NaCl含量下的观测次数,这种直线关系可以更明朗些。表10-2是每一NaCl含量下的10次重复值。 图10-2是用以上数据绘成的散点图。可以看出,增加观察次数,求出每一处Y的平均数,用这些平均数作出来的点比图10-1中的7个散点更接近于直线。在散点图上,只能作出少数有限个点。在点少的情况下,表示两变量间关系
4、的直线可以画出多条,哪一条最好呢?2.2一元正态线性回归模型 若X是可控制的变量,在实验无限重复之后,则可以得到在各 上的Y的条件平均数 ,这些平均数构成一条直线: 10.1 其中为直线的截距,为斜率。10.1式的含义是,对于变量X的每一个值,都有一个Y的分布,这个分布的平均数是10.1式所给出的线性函数。Y的每一个分布的方差都必须是2,它完全独立于X。对于每一个给定的X, Y始终服从正态分布。另外记为对于给定的X, Y的观测值与直线 的离差。归纳为:ixYXXY.XY. 10.2 由10.2式所得出的回归模型回归模型,只包含一个自变量X且具有正态性,所以称为一元正态一元正态线性回归模型线性回
5、归模型2.3参数和的估计 一般情况下,只能通过实验或调查获得有限对数据。因些得不到真正的和 。只能求出它们的估计值a和b,从而得到一条估计的直线: (10.3) 用 ,即对每一个固定的X的值x0,用 做Y的总体平均数 的估计值。(10.3)式称为Y对X的回归方程回归方程,根据回归方程所画出的直线称为回归线回归线,b是直线的斜率,称为回归系数回归系数。Y XY估计YabXY0Y Xx最小二乘法 平均数有一个特性,即在各种离差平方和中,以距离平均数的离差平方和最小。把观测值与回归估计值之间的离差平方和 达到最小时的回归线作为最好的回归线。即,求出使L达到最小时的a和b,这种方法称为最小二乘法最小二
6、乘法。 21niiiLyy 为使 达到最小,令 整理得到: 整理后的式子称为正规方程正规方程。 解正规方程,得到的最小二乘估计:niiiniiniiniiniiyxxbxayxban112111niiiniiibxayyyL1212a的最小二乘估计:其中 。 称为校正交叉乘积和校正交叉乘积和,记为SXY 称为校正平方和校正平方和,记为SXX。这样,回归系数b可以写成还有,SYY称为总校正平方和总校正平方和:为 niiniiiniiniininiiniiiixxyyxxnxxnyxyxb12121121112.4回归方程的计算 例10.1:根据10-1的数据,计算干物重在NaCl含量上的回归方程
7、。将表10-1中的数据编码后,整理成下表。 分别求出SXY,SXX,SYY 从而得到回归方程为 回归系数是b=11.16的含义是:当自变量X每变动一个单位,因变量Y平均变动11.16个单位。下图为该例的散点图及回归线。 10.3一元线性回归的检验 3.1 b和a的数学期望与方差 一元线性回归实测值可以表示为: 因无得到真正的和,故每一实测值,只能由下式描述: 用a估计,b估计,iiiyxiiiyabxeiie估计 由于 ,故得到以上结果。由此可见,b是的无偏估计量。下面计算b的方差:XXXXniniiiiiniiXXniiiiXXniiiXXniiiiXXXXXYSSxxxxxxxESxxxE
8、SxxyESxxxESSSEbE11111)(111111 a的数学期望 a的方差 误差平方和或剩余平方和222112)(2)2()(eeeXYYYniiiniieMSEnSSEnSSEbSSyyeSS从而有XXeaXXebSxnMSsaSMSsb2221)var()var(3.2 b和a的显著性检验1. b的显著性检验 两变量间线性回归的显著程度,是由决定的。当=0时,两变量不存在线性关系。由于b有自己的分布 ,在得到样本回归系数b之后,还必须对H0: =0的假设做检验。如果不能拒绝H0: =0,就没有足够的理由认为Y和X之间存在线性关系。这时的线性模型简化为 。因为无法得到 ,只能用 估计
9、,所以回归系数的显著性需用t检验。零假设为H0: =0,备择假设为0,使用的统计量为: 服从n-2自由度的t分布。因HA: 0,故为双侧检验,当 时,拒绝H0Y2b2bsbbts2,ntt双侧),(2XXSN例10.2:以例10.1的数据为例,检验 H0: =0 , HA: 0解:在 =0的假设下,检验统计量计算MSe :t5,0.01(双侧) =4.032,tt0.01(双侧),即P0.01,拒绝H0: =0。结论是干物重在NaCl含量上的回归极显著。bbts对的检验,可使用统计量000:AHH自由度具有2,0ntbSb 2. a的显著性检验a的处理类似于b。可以对的假设做检验,也可对的假设
10、做检验。当的假设真实时,模型将变为。在的假设下,检验统计量为:,具n-2自由度,在的假设下,检验统计量为:,具n-2自由度0:0H00:HYXaats0aaats0:0H00:H3.3两个回归方程的比较使用t检验,还可以检验假设H0:1-2=0和H0: 1-2=0。在对两个回归方程的b和a的差异显著性检验之后,就能判断它们是否来自同一总体。若抽自同一总体,则可将它们合并为一个回归方程。这一检验过程称为两个回归方程两个回归方程或两条回归线的比两条回归线的比较。较。 例10.6:在优质育种工作中,为了快速筛选优良原始材料,采用染料结合(DBC)法测定种子中的碱性氨基酸含量。它的原理是:一种染料or
11、ange G与碱性氨基酸结合,使原来染料浓度降低。测定染料减少的量,来估计碱性氨基酸的含量。已经计算出碱性氨基酸含量与DBC法测得结果之间有显著回归。实验测定了大麦和黑麦每千克试样的染料结合力(DBC)与碱性氨基酸含量,结果见下页表将以上数据计算的结果列成下表检验两回归线有无显著差异:(1)检验MSe1和MSe2有无显著差异 F5,6,0.025=5.99,FF0.025,结论是两者有一共同的总体方差,它的估计值为:(2)检验回归系数b1和 b2有无显著差异 检验统计量 具(n1-2)+(n2-2)自由度。统计量的值t11,0.05(双侧)=2.201,t0.05,结论是两者有一共同的总体回归
12、系数,它的估计值b等于:(3)检验a1,a2有无显著差异: 检验统计量 统计量t的值经计算,为-2.52 t11,0.05(双侧)=2.201,|t|t0.05(双侧),即 PF0.01,失拟是极显著的。即采用双曲线变换不能变为线性关系。第二种变换的失拟是很小的,基本上还是实验误差。因此,对例10.13采用双对数变换是适宜的。10.5 相关 5.1相关系数 概念:相关系数是指由于回归因素所引起的变差与总变差之比的平方根。它用来衡量线性回归的好坏。YX2Y)cov(X,总体相关系数样本相关系数YYXXXYYYXXXYYYXYYYRSSSSSSSbSSSSr5.2 相关系数的性质性质:r:取值在-
13、1和1之间YYeeYYXXXYXXXYYYXYYYeYYXXXYSSSrSSSSSSSSbSSSSSSSr1,22222所以因为1.当r=0,点无规则分布,此时X与Y不相关2.当|r|=1时,点完全处于一条直线,X与Y线性相关3.当|r|从0逐渐变到1时,点的分布从无规则地分散逐渐聚拢到一条直线上。4.如果r为正数,则X与Y有正比趋向,这时称两者为正相关。如果r为负数,X与Y有反比趋向,称两者为负相关。5.3相关系数的计算 例10.14:研究水稻籽粒蛋白质含量,用KP和DBC这两种方法测得的结果如左下表,试计算两者的相关系数从而相关系数:两种方法所测得的水稻籽粒蛋白质含量之间存在正相关,r=0
14、.9535.4相关系数的检验1.相关系数显著性的t检验方法:当总体相关系数=0时,r的分布近似于正态分布,此时对于H0: =0可以采用类似于回归系数的t检验方法回归系数显著性检验H0: =0 用的统计量为:其中:bbts这样,用上式作为检验相关系数显著性的统计量,自由度为n-2,相应于H0: =0 ,这里H0: =0 。例10.15:例10.14的相关系数r=0.953,n=10。现要检验用KP法和用DBC法所测定的蛋白质含量间的相关是否显著。 解: 检验统计量 代入数值 结论:两者相关极显著。2.相关系数检验表3. Z变换当0时,r的分布不是正态分布,不能用t检验,可用Fisher的z变换:rznnNzrrz1tanh(10.56).11ln21,31,12,)56.10(11ln21正切变换式所做的变换是反双曲其中渐进正态分布当样本容量充分大时变换后的z值可以直接从表中查出.因为z渐进正态分布, 已知,所以可以用u检验.1)z)57.10(3120:0:0nznzuHHzA检验统计量为2)58.10(31212:0nnznzuHHmmzmmmAm检验统计量为3)59.10(31311212:21212
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度特色餐厅厨师团队合作协议书4篇
- 2024珠宝首饰买卖合同
- 2025年昆山物业费调价与新收费标准全面合同2篇
- 2025年河南郑州热力集团有限公司招聘笔试参考题库含答案解析
- 2025年湖南华菱线缆股份有限公司招聘笔试参考题库含答案解析
- 2025年度家庭保姆雇佣与家庭生活美学合同4篇
- 2025年消防工程总承包与应急响应服务合同
- 2025年社区宣传栏制作及公益广告投放合同3篇
- 二零二五版定制门窗设计研发与市场推广合同4篇
- 湛江科技学院《语言基础》2023-2024学年第一学期期末试卷
- T-SDLPA 0001-2024 研究型病房建设和配置标准
- (人教PEP2024版)英语一年级上册Unit 1 教学课件(新教材)
- 全国职业院校技能大赛高职组(市政管线(道)数字化施工赛项)考试题库(含答案)
- 2024胃肠间质瘤(GIST)诊疗指南更新解读 2
- 光储电站储能系统调试方案
- 2024年二级建造师继续教育题库及答案(500题)
- 小学数学二年级100以内连加连减口算题
- 建设单位如何做好项目管理
- 三年级上递等式计算400题
- 一次性餐具配送投标方案
- 《中华民族多元一体格局》
评论
0/150
提交评论