




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物统计学Biostatistics,Part 4 统计分析方法,3,内 容,显著性检验的基本原理 两个样本的差异显著性检验 方差分析 相关与回归分析,4,4.4 回归与相关分析(Regression and correlation),5,变量间的关系,完全确定性关系 不完全确定关系,6,变量间的关系,变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。 如长方形的面积 (S) 与 长(a)和 宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。,7,变量间的关系,变量间不存在完全的确定
2、性关系,不能用精确的数学公式来表示。 如动物的体长与体重的关系;植物生长期与生物量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。,8,相关变量间的关系,因果关系,即一个变量的变化受另一个或几个变量的影响。如植株的生长速度受遗传特性、营养水平、管理条件等因素的影响; 平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系等都属于平行关系。,9,统计学上采用回归分析 (regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变
3、量称为自变量,表示结果的变量称为因变量。 包括一元回归分析、多元回归分析。,相关变量间关系的研究,10,回归模型的类型,11,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制因变量(结果)。,12,统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。,相关变量间关系的研究,13,相关分析,14,内 容,一元线性回归与相关分析 一元非线性回归 多元回归 回归与相关分析的正确应用,15,一元线性回归及相关分析,16,一元线性回归分析,涉及一个自变量的回归 因变量与自变量
4、之间为线性关系,可用一条线性方程来表示 被预测或被解释的变量称为因变量(dependent variable)或响应变量(response variable) ,用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable)或解释变量(explanatory variable) ,用x表示,17,一元线性回归方程的拟合 一元线性回归方程的检验 相关分析,18,1、一元线性回归方程的拟合,对于两个相关变量,一个变量用X表示,另一个变量用Y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn)。 为了直观地看出x和
5、y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。,19,(x、y)的散点图,20,从散点图可以看出: 两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型; 两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。,21,例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。,22,散 点 图,23,每一 NaCl 含量下干物重 10 次重复值,24,散 点 图,X,Y,25,在实际应用时,不可能
6、无限重复实验,在散点图上,只能作出少数有限个点。在点子比较少的情况下,表示两变量间的关系的直线可以画出许多条,其中哪一条是最好的呢?,26,若 X 是可控制的变量,在实验无限重复之后,则可以得到在xi的 Y 的条件平均数 YX ,这些平均数构成一条直线。,在X的每一个水平上,都有一个 Y 的分布。 由于实验无限重复的假设是无法实现的,因此直线的两个参数 和 是两个未知的常数。,一元线性回归模型,27,对于Y的每一个观察值,可以用以下模型描述:,其中 e i 在散点图上,表示在 c i 处Y 的观察值yi与mc i abc i之差,该差值为一随机误差。对于各c i ,e i是相互独立且服从同一正
7、态分布N(0,s2)的随机变量。a为直线的截距(intercept),b为斜率(slope)。,28,一般情况下,只能通过实验或调查获得有限对数据。因此,得不到真正的a和b。只能求出它们的估计值a和b,从而得到一条估计的直线,,上式称为Y对 X 的线性回归方程(regression equation);b是直线的斜率,称为回归系数(regression coefficient);a称为回归常数(regression constant)。,参数a和b的估计,29,怎样通过实际数据,得到总体回归a和b的最好点估计值a和b?,30,平均数有一个特性,即在各种离差平方和中,以距平均数的离差平方和最小。
8、在回归问题中,则在 ci 处Y 的实际观察值 yi 对它们的条件平均数 mci abci 离差平方和最小。因此,观察值与回归估计值之间的离差平方和L(yiyi)2 达到最小时的回归线作为最好的回归线。换句话说,选择的a和b,应该使L最小。这种方法称为最小二乘法。,最小二乘法 (method least square),31,a、b应使回归估计值 与实际观测值y的偏差平方和最小(最小二乘法)。,32,为残差,33,误差平方和、剩余平方和 (residual sum of squares). 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),34,即:,35,整
9、理得关于a、b的正规方程组:,解正规方程组,得:,36,SXY :X和Y的校正交叉乘积和 (corrected sum of cross products) SXX:X的校正平方和(corrected sum of squares for X) SYY:关于Y 的总校正平方和(total corrected sum of squares for Y),37,38,例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。,39,散 点 图,40,例1:将原
10、始数据整理后列出下表:,41,42,43,用Excel进行回归分析,选择“工具数据分析”选项 在分析工具中选择“回归”,然后选择“确定” 当对话框出现时 在“Y值输入区域”方框内键入Y的数据区域 在“X值输入区域”方框内键入X的数据区域 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项 用Excel进行回归分析(例题7.1),44,2、一元线性回归方程的检验,回归系数的检验(t检验) 方差分析 相关系数的检验,45,相关分析 (correlation analysis),46,相关关系,47,简单相关分析,进行线性相关分析的基本任务在于根据X、
11、Y的实际观测值,计算表示两个相关变量X、Y间线性相关程度和性质的统计量相关系数r并进行显著性检验。,48,相关关系示意图,49,相关系数的分析,相关系数 指由于回归因素引起的变差与总变差之比的平方根。 由回归因素所引起的变差,在总变差中的比例越大,回归的成份就越大,这两个变量间的相关越密切。,50,相关系数(取值及其意义),r,51,相关系数取值的意义,相关系数r的绝对值 大于或等于0.8,高度相关 0.50.8 , 中度相关 0.30.5, 低度相关 0.3以下, 可视为不相关 但这种解释必须建立在对相关系数进行显著性检验的基础之上。,52,相关系数的检验,相关系数的检验 t检验 z变换 查
12、表法(附表12):若rr,则两变量相关显著。,53,54,例1中: r=0.929,查表得r0.01=0.874, rr0.01,故相关极显著,回归方程有效。,用Excel计算相关系数,55,相关系数与回归系数的关系,从相关系数计算公式的导出可以看到:相关变量X与Y的相关系数r是Y对X的回归系数与X对Y的相关系数bxy的几何平均数:,56,直线回归分析将二个相关变量区分为自变量和因变量,侧重于寻求它们之间的联系形式直线回归方程;直线相关分析不区分自变量和因变量,侧重于揭示它们之间的联系程度和性质计算出相关系数。两种分析所进行的显著性检验都是解决Y与X间是否存在直线关系。 因而二者的检验是等价的
13、。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。,57,在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。,58,回归分析与相关分析的区别,相关分析: 确定现象间或变量间有无关系以及相关关系呈现的形态或类型; 确定相关关系的密切程度(r)。 变量 x 变量 y 处于平等的地位; 变量 x 和 y 都是随机变量。,回归分析: 确定变量间的数量依存关系(回归方程); 根据回归方程进行预测和控制。 变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化; 因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变
14、量。,59,一元非线性回归 (curvilinear regression),60,一元非线性回归的拟合,原则 通过适当变换(transformation), 将曲线转化为直线,求出直线回归方程; 变量反转换,得到曲线回归方程。,61,一元非线性回归的拟合,方法(对数变换、倒数变换、概率对数变换等) 专业知识判断 散点图 曲线拟合,62,一元非线性回归的检验,剩余平方和(误差平方和) 相关指数,63,一元非线性回归的检验,剩余平方和(误差平方和) 剩余平方和越小,回归效果越好 需用原始数据计算,64,一元非线性回归的检验,相关指数 R2越接近1,两变量相关性越好 需用原始数据计算,65,绘制散
15、点图,根据图形和专业知识选取曲线类型(可同时选取几类) 按曲线类型,作曲线直线化变换 建立变换数据间的直线回归方程 (假设检验,计算相关指数) 比较相关指数选取“最佳”方程 写出曲线方程,曲线拟合的步骤,66,67,常见的曲线回归方程,对数:,幂函数:,或,指数函数:,多项式:,或,logistic:,或,68,例2:某地大气中氰化物测定结果如下表,试拟合回归曲线。,Excel分析,69,多元回归 (multiple regression),70,在回归问题中,一个量只受一种因素影响的情况是较少的,往往是很多因素共同影响一个量。 特别是当几个自变量之间还存在相关时,只考虑一个自变量与因变量的关
16、系,往往得不到正确的结果。必须同时考虑几个因素的共同作用,才能得到比较正确的结论。这就是我们要讨论的多元回归问题。,多元线性回归 (multiple linear regression),71,多元线性回归模型,72,多元线性回归拟合,逐步回归分析(stepwise regression analysis) 选择最优回归方程:方程中包含全部对Y显著的变量,而不包含对Y不显著的变量。,73,在所考虑的全部因素中,按对Y作用显著程度的大小,由大到小逐个引入到回归方程中。在已引入回归方程的变量中,找出偏回归平方和的最小的一个,在给定F水平下做显著性检验,以决定是否需从方程中剔除,在剔除了所有不显著变
17、量之后,从那些不在回归方程的变量中,选择在引入回归方程后,使回归平方和增加最多的那个变量,并在给定的F 水平下做检验,若是显著的,则引入回归方程中。引入之后,再对回归方程做检验。并剔除方程中不显著因素。如此进行,直到回归方程中全部变量均不能剔除,又没有新变量可以引入时为止。,逐步回归的基本做法,74,回归与相关分析的正确应用,75,1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或因变量的确定等等,
18、都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。,76,2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平。否则,回归分析和相关分析可能会导致完全虚假的结果。,77,3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量X的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。,78,4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,79,5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量X和Y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 探讨项目团队文化建设的策略试题及答案
- 2025年注册会计师学习集体效应与团队合作切实可行的学习策略试题及答案
- 质量导向备战2025年注册会计师考试的关键点试题及答案
- 广东某超高层电视塔安全文明施工方案(内容详细、附施工图)
- 2025年证券从业资格的学习技巧试题及答案
- 项目管理考试资源的合理选择试题及答案
- 项目管理创新思维的运用试题及答案
- 2025年银行从业资格证考生经验分享试题及答案
- 2025年证券从业资格证应试经验试题及答案
- 财务报表的分析框架与关键试题及答案
- 混凝土桥梁预应力钢筋锈蚀的研究进展
- 传染病培训知识课件
- 多动症行为治疗
- 2025年杭州市能源集团招聘笔试参考题库含答案解析
- 艾滋病知识培训课件
- 专题07 等差数列与等比数列(考点清单+知识导图+ 13个考点清单-题型解读)(原卷版)-25学年高二数学上学期期末考点大串讲
- 高速公路汽车救援方案
- 《Origin的使用方法》课件
- 2024年WPS计算机二级考试题库350题(含答案)
- 2023中考道德与法治十大热点预测-2023年中考道德与法治考场速查宝典(部编版)
- 高中英语必背3500单词表(完整版)
评论
0/150
提交评论