版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物统计学
Biostatistics1Part4
统计分析方法2内容显著性检验的基本原理两个样本的差异显著性检验方差分析相关与回归分析34.4回归与相关分析
(Regressionandcorrelation)
4变量间的关系完全确定性关系不完全确定关系5变量间的关系变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。6变量间的关系变量间不存在完全的确定性关系,不能用精确的数学公式来表示。如动物的体长与体重的关系;植物生长期与生物量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。7相关变量间的关系因果关系,即一个变量的变化受另一个或几个变量的影响。如植株的生长速度受遗传特性、营养水平、管理条件等因素的影响;平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系等都属于平行关系。8统计学上采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为因变量。包括一元回归分析、多元回归分析。相关变量间关系的研究9回归模型的类型10
回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制因变量(结果)。
11统计学上采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。相关变量间关系的研究12相关分析13内容一元线性回归与相关分析一元非线性回归多元回归回归与相关分析的正确应用14一元线性回归及相关分析15一元线性回归分析涉及一个自变量的回归因变量与自变量之间为线性关系,可用一条线性方程来表示被预测或被解释的变量称为因变量(dependentvariable)或响应变量(responsevariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable)或解释变量(explanatoryvariable),用x表示16一元线性回归方程的拟合一元线性回归方程的检验相关分析171、一元线性回归方程的拟合
对于两个相关变量,一个变量用X表示,另一个变量用Y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)。
为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。18(x、y)的散点图19
从散点图可以看出:①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。
20
例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。NaCl含量X(g/kg土壤)00.81.62.43.24.04.8干重Y(mg/dm2)80909511513011513521散点图22每一NaCl
含量下干物重10次重复值
NaCl含量(克/1000克土壤)00.81.62.43.24.04.8干重(mg/dm2)
重复值123456789108010075899179101858379908510793103927810593859589115921151209595105981159410311011310812111010811113010610311012813111712111411611512512814313212112911212013013513712812715513214811713413223散点图XY24
在实际应用时,不可能无限重复实验,在散点图上,只能作出少数有限个点。在点子比较少的情况下,表示两变量间的关系的直线可以画出许多条,其中哪一条是最好的呢?25若X是可控制的变量,在实验无限重复之后,则可以得到在xi的Y的条件平均数μY·X
,这些平均数构成一条直线。
在X的每一个水平上,都有一个Y的分布。由于实验无限重复的假设是无法实现的,因此直线的两个参数α和β
是两个未知的常数。一元线性回归模型26对于Y的每一个观察值,可以用以下模型描述:其中ei
在散点图上,表示在ci
处Y的观察值yi与mY·ci
=a+bci之差,该差值为一随机误差。对于各ci
,ei是相互独立且服从同一正态分布N(0,s2)的随机变量。a为直线的截距(intercept),b为斜率(slope)。27
一般情况下,只能通过实验或调查获得有限对数据。因此,得不到真正的a和b。只能求出它们的估计值a和b,从而得到一条估计的直线,上式称为Y对X的线性回归方程(regression
equation);b是直线的斜率,称为回归系数(regressioncoefficient);a称为回归常数(regressionconstant)。参数a和b的估计28
怎样通过实际数据,得到总体回归a和b的最好点估计值a和b?29
平均数有一个特性,即在各种离差平方和中,以距平均数的离差平方和最小。在回归问题中,则在ci
处Y的实际观察值yi
对它们的条件平均数mYci
=a+bci
离差平方和最小。因此,观察值与回归估计值之间的离差平方和L=∑(yi-yi)2达到最小时的回归线作为最好的回归线。换句话说,选择的a和b,应该使L最小。这种方法称为最小二乘法。最小二乘法(methodleastsquare)30eia+bxiyia、b应使回归估计值与实际观测值y的偏差平方和最小(最小二乘法)。31
为残差32误差平方和、剩余平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)33即:34整理得关于a、b的正规方程组:
解正规方程组,得:35SXY:X和Y的校正交叉乘积和(correctedsumofcrossproducts)SXX:X的校正平方和(correctedsumofsquaresforX)SYY:关于Y的总校正平方和(totalcorrectedsumofsquaresforY)3637
例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。NaCl含量X(g/kg土壤)00.81.62.43.24.04.8干重Y(mg/dm2)80909511513011513538散点图39例1:将原始数据整理后列出下表:XX’=X-2.4X’2YY’=Y-110Y’2X’Y’0-2.45.760.8-1.62.561.6-0.80.642.4003.20.80.644.01.62.564.82.45.76∑017.9280-309007290-204003295-15225121155250130204001611552581352562560-102600200404142用Excel进行回归分析选择“工具-数据分析”选项在分析工具中选择“回归”,然后选择“确定”当对话框出现时在“Y值输入区域”方框内键入Y的数据区域在“X值输入区域”方框内键入X的数据区域在“置信度”选项中给出所需的数值在“输出选项”中选择输出区域在“残差”分析选项中选择所需的选项用Excel进行回归分析(例题7.1)432、一元线性回归方程的检验回归系数的检验(t检验)方差分析相关系数的检验44相关分析
(correlationanalysis)
45相关关系46简单相关分析
进行线性相关分析的基本任务在于根据X、Y的实际观测值,计算表示两个相关变量X、Y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。47相关关系示意图48相关系数的分析相关系数指由于回归因素引起的变差与总变差之比的平方根。由回归因素所引起的变差,在总变差中的比例越大,回归的成份就越大,这两个变量间的相关越密切。49相关系数
(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加50相关系数取值的意义
相关系数r的绝对值大于或等于0.8,高度相关0.5—0.8,中度相关0.3—0.5,低度相关0.3以下,可视为不相关但这种解释必须建立在对相关系数进行显著性检验的基础之上。51相关系数的检验相关系数的检验t检验z变换查表法(附表12):若r>r
,则两变量相关显著。5253例1中:r=0.929,查表得r0.01=0.874,r>r0.01,故相关极显著,回归方程有效。用Excel计算相关系数54相关系数与回归系数的关系从相关系数计算公式的导出可以看到:相关变量X与Y的相关系数r是Y对X的回归系数与X对Y的相关系数bxy的几何平均数:55直线回归分析将二个相关变量区分为自变量和因变量,侧重于寻求它们之间的联系形式——直线回归方程;直线相关分析不区分自变量和因变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。两种分析所进行的显著性检验都是解决Y与X间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。56
在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。57回归分析与相关分析的区别相关分析:确定现象间或变量间有无关系以及相关关系呈现的形态或类型;确定相关关系的密切程度(r)。变量x变量y处于平等的地位;变量x和y都是随机变量。回归分析:确定变量间的数量依存关系(回归方程);根据回归方程进行预测和控制。变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。58一元非线性回归
(curvilinearregression)59一元非线性回归的拟合原则通过适当变换(transformation),将曲线转化为直线,求出直线回归方程;变量反转换,得到曲线回归方程。60一元非线性回归的拟合方法(对数变换、倒数变换、概率对数变换等)专业知识判断散点图曲线拟合61一元非线性回归的检验剩余平方和(误差平方和)相关指数62一元非线性回归的检验剩余平方和(误差平方和)剩余平方和越小,回归效果越好需用原始数据计算63一元非线性回归的检验相关指数R2越接近1,两变量相关性越好需用原始数据计算64
绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线类型,作曲线直线化变换建立变换数据间的直线回归方程(假设检验,计算相关指数)比较相关指数选取“最佳”方程写出曲线方程曲线拟合的步骤65
66常见的曲线回归方程②对数:①幂函数:
或
③指数函数:④多项式:
或
⑤logistic:
或
67例2:某地大气中氰化物测定结果如下表,试拟合回归曲线。污染距离x50100150200250300400500氰化物浓度y0.6870.3980.200.1210.090.050.020.01Excel分析68多元回归
(multipleregression)69
在回归问题中,一个量只受一种因素影响的情况是较少的,往往是很多因素共同影响一个量。
特别是当几个自变量之间还存在相关时,只考虑一个自变量与因变量的关系,往往得不到正确的结果。必须同时考虑几个因素的共同作用,才能得到比较正确的结论。这就是我们要讨论的多元回归问题。多元线性回归(multiplelinearregression)70多元线性回归模型71多元线性回归拟合逐步回归分析(stepwiseregressionanalysis)选择最优回归方程:方程中包含全部对Y显著的变量,而不包含对Y不显著的变量。72在所考虑的全部因素中,按对Y作用显著程度的大小,由大到小逐个引入到回归方程中。在已引入回归方程的变量中,找出偏回归平方和的最小的一个,在给定F水平下做显著性检验,以决定是否需从方程中剔除,在剔除了所有不显著变量之后,从那些不在回归方程的变量中,选择在引入回归方程后,使回归平方和增加最多的那个变量,并在给定的F
水平下做检验,若是显著的,则引入回归方程中。引入之后,再对回归方程做检验。并剔除方程中不显著因素。如此进行,直到回归方程中全部变量均不能剔除,又没有新变量可以引入时为止。
逐步回归的基本做法73回归与相关分析的正确应用74
1、变量间是否存在相关直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或因变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。75
2、其余变量尽量保持
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农产品供应链管理制度
- 吉林大学《数值分析初步实验》2021-2022学年第一学期期末试卷
- 吉林大学《积极心理品质》2021-2022学年第一学期期末试卷
- 2024科研项目合作研究合同书
- 中班开学家长会发言稿:家庭教育与学校教育
- 智能水箱监控方案
- 浙江省台州市2023-2024学年高二上学期期末考试 化学 含答案
- 全国统考2024高考数学一轮复习单元质检卷二函数理含解析北师大版
- 2024-2025学年新教材高中生物第2章群落及其演替2群落的主要类型练习含解析新人教版选择性必修2
- 2024年专用合同内控管理方案
- 辽宁省大连市金普新区2024-2025学年七年级上学期11月期中英语试题(无答案)
- 河南科技大学《材料科学基础》2021-2022学年第一学期期末试卷
- 区病案质控中心汇报
- 2024塔吊司机的劳动合同范本
- 2024年国家公务员考试《行测》真题卷(副省级)答案及解析
- 2024年新华社招聘应届毕业生及留学回国人员129人历年高频难、易错点500题模拟试题附带答案详解
- 江苏省南京市秦淮区2023-2024学年八年级上学期期中语文试题及答案
- 2024年个人车位租赁合同参考范文(三篇)
- (完整版)新概念英语第一册单词表(打印版)
- 签申工作准假证明中英文模板
- 员工履历表(标准样本)
评论
0/150
提交评论