生物统计学(欧阳乐军).ppt_第1页
生物统计学(欧阳乐军).ppt_第2页
生物统计学(欧阳乐军).ppt_第3页
生物统计学(欧阳乐军).ppt_第4页
生物统计学(欧阳乐军).ppt_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/4/4,湛江师范学院生科院欧阳乐军制作,1,第七章 直线回归与相关,2019/4/4,湛江师范学院生科院欧阳乐军制作,2,引 言 这一章研究的对象: 由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如: 研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数; 研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。,2019/4/4,湛江师范学院生科院欧阳乐军制作,3,1、函数关系与统计关系 函数关系是一种确定的关系。例如圆面积与半径的关系为:,统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间有关系,但又不存在完全确定的函数关系。,7.1回归与相关的基本概念,2019/4/4,湛江师范学院生科院欧阳乐军制作,4,2、自变数与依变数 对有统计关系的两个变数,分别用变数符号Y 和X 表示。根据两个变数的作用特点,统计关系又可分为因果关系和相关关系两种。,两个变数间的关系若有原因和反应(结果)的性质,则称这两个变数间存在因果关系,并定义原因变数为自变数(自变量)(independent variable),以X 表示;,2019/4/4,湛江师范学院生科院欧阳乐军制作,5,定义结果变数为依变数(因变量)(dependent variable),以Y 表示。 如果两个变数并不是原因和结果的关系,而呈现一种共同变化的特点,则称这两个变数间存在相关关系。 相关关系中没有自变数和依变数之分。,2019/4/4,湛江师范学院生科院欧阳乐军制作,6,3、回归分析和相关分析 (1)对具有因果关系的两个变数,统计分析的任务是由实验数据推算出一个表示Y 随X 的改变而改变的方程 ,称之为回归方程(regression equation of Y on X ),这一过程称为回归分析。,2019/4/4,湛江师范学院生科院欧阳乐军制作,7,(2)对具有相关关系的两个变数,统计分析的目标是计算表示Y和X相关密切程度的统计数,并测验其显著性。这一过程称为相关分析。,4、两个变数资料的散点图 将两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上得到的图,称为散点图(scatter diagram)。,2019/4/4,湛江师范学院生科院欧阳乐军制作,8,根据散点图可初步判定双变数X 和Y 间的关系,包括: X 和Y 相关的性质(正或负)和密切程度; X 和Y 的关系是直线型的还是非直线型的; 是否有一些特殊的点表示其他因素干扰等。,2019/4/4,湛江师范学院生科院欧阳乐军制作,9,1,2,3,4,x,生物产量(g),0.0,0.5,1.0,1.5,2.0,y,稻谷产量(g),水稻单株生物产量与稻谷产量的散点图,2019/4/4,湛江师范学院生科院欧阳乐军制作,10,3.2,3.6,4,4.4,4.8,x,每平方米颖花数(万),0,55,60,65,70,75,y,结实率(%),水稻每平方米颖花数和结实率的散点图,2019/4/4,湛江师范学院生科院欧阳乐军制作,11,x,最高叶面积指数,y,产量(kg/亩),水稻最高叶面积指数和亩产量的散点图,2019/4/4,湛江师范学院生科院欧阳乐军制作,12,7.2直线回归,2019/4/4,湛江师范学院生科院欧阳乐军制作,13,7.2.1 直线回归方程,称为直线回归方程(linear regression equation)。其中a 是x=0时的 值,即回归直线在y 轴上的截距,叫回归截距(regression intercept);b 是x 每增加一个单位数时, 平均地将要增加(b0时)或减少(b0时)的单位数,叫回归系数(regression coefficeint)。,一、直线回归方程式,2019/4/4,湛江师范学院生科院欧阳乐军制作,14,y 直线回归方程的图象 a0,b0,b0 a0,2019/4/4,湛江师范学院生科院欧阳乐军制作,15,从上图得知,要使 能够最好地代表y和x在数量上的互变关系,必须使,y,x,0,xi,2019/4/4,湛江师范学院生科院欧阳乐军制作,16,分别对a和b求偏导并令其为0,即:,2019/4/4,湛江师范学院生科院欧阳乐军制作,17,式中 是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP。,二、直线回归方程的计算 例7.1一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4 月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于下表。试计算其直线回归方程。,2019/4/4,湛江师范学院生科院欧阳乐军制作,18,由观察值计算一级数据,2019/4/4,湛江师范学院生科院欧阳乐军制作,19,由一级数据计算二级数据,2019/4/4,湛江师范学院生科院欧阳乐军制作,20,因而有:,从而得到回归方程:,2019/4/4,湛江师范学院生科院欧阳乐军制作,21,故得表中资料的回归方程为: 上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时, y =48.5;因y是以5月10日为0,故48.5为6月2728日)。由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。,=48.5485-1.0996x,2019/4/4,湛江师范学院生科院欧阳乐军制作,22,所以,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。,2019/4/4,湛江师范学院生科院欧阳乐军制作,23,练习 设某食品感官评定时,测得食品甜度与蔗糖浓度的关系如下表,试求y对x的直线回归方程。,食品甜度与蔗糖浓度,2019/4/4,湛江师范学院生科院欧阳乐军制作,24,这是一个二无一次方程组,解这个方程组可以得到:,2019/4/4,湛江师范学院生科院欧阳乐军制作,25, 首先计算个一级数据,2019/4/4,湛江师范学院生科院欧阳乐军制作,26,然后由一级数据算出个二级数据,2019/4/4,湛江师范学院生科院欧阳乐军制作,27,从而有,所求直线回归方程为:,2019/4/4,湛江师范学院生科院欧阳乐军制作,28, 直线回归方程的图示,2019/4/4,湛江师范学院生科院欧阳乐军制作,29,三、直线回归方程的图示 直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。 方法:制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得 ,取一个大值x2代入回归方程得 ,连接坐标点(x1, )和(x2, )即成一条回归直线。如例9.1资料,以x1=31.7代入回归方程得 =13.69;,2019/4/4,湛江师范学院生科院欧阳乐军制作,30,以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 =48.5485-1.0996x的直线图象。注意:此直线必通过点( , ),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于下图上。,2019/4/4,湛江师范学院生科院欧阳乐军制作,31,30,34,38,42,5/5 -5,5/10 0,5/15 5,5/20 10,5/25 15,(月/日),x,3月下旬至4月中旬平均温度累积值,y,一代三化螟盛发期,2019/4/4,湛江师范学院生科院欧阳乐军制作,32,四、直线回归的估计标准误 满足 为最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。 SSE就是误差的一种度量,称之为误差平方和(sum of squares to deviation from regression)或剩余平方和。,2019/4/4,湛江师范学院生科院欧阳乐军制作,33,由于在建立回归方程时用了a 和b 两个统计数,故SSE的自由度=n-2。因而,可定义回归方程的估计标准误为:,2019/4/4,湛江师范学院生科院欧阳乐军制作,34,SSE值的计算:,在例7.1中:,2019/4/4,湛江师范学院生科院欧阳乐军制作,35,回归方程的估计标准误为:,2019/4/4,湛江师范学院生科院欧阳乐军制作,36,7.2.2 直线回归的假设测验,一、直线回归的假设测验 1、回归关系的假设测验 (1)t 测验 若总体不存在直线回归关系,则总体回归系数=0;若总体存在直线回归关系,则总体回归系数0。,2019/4/4,湛江师范学院生科院欧阳乐军制作,37,所以对直线回归的假设测验为: H0: =0对HA: 0。 回归系数b的标准误为:,遵循=n-2的t分布。,2019/4/4,湛江师范学院生科院欧阳乐军制作,38,例7.3试测验7.1资料回归关系的显著性。,查附表4,,2019/4/4,湛江师范学院生科院欧阳乐军制作,39,接受HA: 0,即认为积温和一代三化螟盛发期是有真实的直线回归关系。,(2)F 测验,2019/4/4,湛江师范学院生科院欧阳乐军制作,40,2019/4/4,湛江师范学院生科院欧阳乐军制作,41,例7.4试用F测验法检测7.1资料回归关系的显著性。,2019/4/4,湛江师范学院生科院欧阳乐军制作,42,7.3直线相关,2019/4/4,湛江师范学院生科院欧阳乐军制作,43,7.3.1 相关系数和决定系数,一、相关系数,前面所述两个变量之间的线性回归是否显著,可以通过检验回归系数b的显著性和方差分析来确定。 另一个衡量线性回归好坏的标志就是相关系数,2019/4/4,湛江师范学院生科院欧阳乐军制作,44,相关系数是指由于回归因素引起的变异与总变异之比的平方根,若由于回归因素引起的变异占总变异的比率愈大,直线相关就愈密切,故样本的相关系数r 为:,2019/4/4,湛江师范学院生科院欧阳乐军制作,45,二、决定系数 决定系数(determination coefficient):由x 不同引起的 y 的平方和 占总平方和 的比率。,可见,决定系数即为相关系数r 的平方值。,2019/4/4,湛江师范学院生科院欧阳乐军制作,46,2019/4/4,湛江师范学院生科院欧阳乐军制作,47,7.4直线回归与相关的应用要点,2019/4/4,湛江师范学院生科院欧阳乐军制作,48,7.4 直线回归和相关的应用要点,1、回归和相关分析要有学科专业知识指导。 2、要严格控制研究对象(X 和 Y )以外的有关因素。 3、直线回归和相关不显著,并不意味X 和Y 没有关系。,2019/4/4,湛江师范学院生科院欧阳乐军制作,49,4、一个显著的r 或b 并不代表X 和Y 的关系就一定是线性的。 5、对难以发现 X 和 Y 的真实曲线关系,允许 X 和 Y 在一定的范围之内用线性关系进行描述,但是使用范围也必须严格限制在观察值范围之内。,2019/4/4,湛江师范学院生科院欧阳乐军制作,50,6、一个显著的相关或回归并不一定具有实践上 的预测意义。 例如,当=50时,|r|=0.273即显著,但r2=0.074,表明X 和Y 可用线性关系说明的部分仅占总变异的7.4%,未说明的部分占92.6%,显 然由X 预测Y 并不可靠。 因此 ,当需要用X 预测Y 时要求|r|0.7。,2019/4/4,湛江师范学院生科院欧阳乐军制作,51,7、为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大,最小不能低于5。,2019/4/4,湛江师范学院生科院欧阳乐军制作,52,习 题,土壤中NaCl含量对植物的生长有很大的影响,NaCl含量过高,将增加组织内无机盐的积累,抑制植物的生长。测定1000g土壤中含NaCl量(x,g/kg土壤)和植物单位叶面积干物重(y,mg/dm2),结果如下:计算回归方程并检验回归的显著性,并计算若土壤中NaCl含量为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论