版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章简单相关与简单回归第一节概念复习:中学数学中的函数关系
自然界中:现象之间的关系性状之间的关系依变量和因变量之间的关系:人的身高与年龄的关系疫病的发生与消毒的关系等等这些关系在取得数据后可以进行量化、也可以用某一个关系式来表示,这就是相关和回归第二节相关关系一、相关系数的确定对某一个样品,同时测量其两个指标(或性状),得到两个变量,一个记为x,另一个记为
y每一样品就有一对x和y,共观测了n个样品,因而记录了n
对(x,y)将这n
对(x,y)在一个直角坐标系内描点,并观察这些点的位置、排列和趋向这些点排列得越整齐,表明这两个变量的关系越紧密,即这两个指标的关系越密切反之,则表示这两个指标的关系越松散分布在Ⅰ、Ⅲ象限内的点其坐标乘积为分布在Ⅱ、Ⅳ象限内的点其坐标乘积为求所有点的坐标乘积和这一坐标乘积和将出现三种情况:表示分布在Ⅰ、Ⅲ象限内的点多表示分布在Ⅱ、Ⅳ象限内的点多表示这些点在4个象限内分布很均匀
称为离均差乘积和,简称乘积和:SP第一、二两种情况所得到的数值的绝对值越大,就表示两个变量的关系越紧密因此我们可以用乘积和的大小来表示两个变量关系的性质和密切程度但x、y是有单位的,且变异程度也不同,每批资料所得到的数值对子数也不等因此,应对变量进行标准化,将其化成相对数,相乘并相加后再行平均对总体而言,我们可以得到:对样本而言,就得到:和是纯量,无单位,可以用来表示不同总体和样本两个变量的密切程度和性质称为双变量总体的相关系数称为双变量样本的相关系数当所有的点:或全在Ⅰ、Ⅲ象限,或全在Ⅱ、Ⅳ象限内,则这些点必排成一条直线,这时,这就是函数关系,函数关系在生物界是不存在的当这些点很均匀地分散于4个象限时,我们有:则或,表示两变量不相关,称为零相关零相关在生物界中也很少存在的取值范围为,的绝对值越大,表示两变量的关系越紧密;反之,的绝对值越小,则表示两变量的关系越松散在实际工作中,我们总是以样本的相关系数来估计总体相关系数,因此,也有以上这些性质在生物学科中,许多变量的关系是不确定的,因此用一个数量关系来表示两变量的关系就尤为重要在讨论两变量的关系时,有两种情况需要考虑:如果仅考虑两变量关系的性质及密切程度,而不考虑两者的依从关系或因果关系,这两变量是平行的,仅仅为了方便和人为的需要,将其中一个作为x,另一个作为y,这样所得到的数学关系称为相关模型如果两变量的确有主从关系或因果关系,而我们也希望知道两者的变化规律,这样的数学关系就称为回归模型相关模型和回归模型两者关系紧密,但性质不同这由两变量在不同的模型中所扮演的角色能看出来二、相关系数的计算相关系数的实际使用公式为:(请推导)例:测定某消毒药物的使用量x()和消毒效果y(以所饲养的实验鸡的健康率表示)两者数据如下,试分析这两个变量的相关关系:x30354045505560y73788788939496首先计算一级数据:三、相关系数的显著性检验相关系数是否显著(即是否具有真实性),应对其进行检验检验的假设是:检验的方法是t-test:但我们可以由
t-公式反推出的临界值来:
已制成现成的值表,因此只需将求得的在相应自由度下查表,与表中的相比较即可如果不显著,并不能简单地认为这两个变量间不存在相关,因为可能还有其他原因相关系数的分等完全相关:零相关:弱相关:中等相关:强相关:-1-0.67-0.3300.330.671
四、相关系数的置信区间在的总体中,
的抽样分布并不服从t-分布或正态分布,因此在确定的置信区间时应对
进行
转换然后根据作关于的的置信区间然后将这一置信区间反转换成的置信区间具体步骤如下:①将转换成:本例中:②求的总体参数及:本例中:⑤将的置信区间转换为的置信区间:本例中:
的置信区间:本例中:显然,相关系数的置信区间是偏态的例如,前一例中消毒药物的使用量与消毒效果之间显然,消毒药物的使用量(因,x)直接影响了消毒效果(果,y)第二例中鸡年产蛋量(因,x)直接影响了养鸡户的纯利收入(果,y)诸如此类的变量间的关系研究在科研工作中是很多的回归分析表现了两变量间一种比较严格的从属关系,是用严格的函数关系将一种非确定性的关系确定下来的过程如果两变量间的变化规律呈大致的直线关系,就应当将这条最佳直线找出来,并用一个回归方程来描述这条直线,从而可以从一个变量x的变化来预测另一个变量y
的变化一、直线回归方程的配合X与y的直线回归方程的一般形式为:是y
的估计值,与实际的y间会有一定的差异,当完全等于y时,就是普通数学中的函数关系每一个x都会有一个相应的x
为自变量,该直线回归方程的读法是:
y依x
的直线回归方程中,a
是直线在y轴上的截距,b
是回归系数在数学中,b即为斜率即当x
每变化一个单位时,依变量y
的平均变化量因此,b
是有单位的,其单位是:我们可以将(x,y)在坐标系内作散点图,这些散点越趋向一条直线,回归方程就越理想但根据这些散点我们可以作出无数条直线,到底哪一条直线是最好的?我们如何判断?判断直线好坏的标准是:这条直线与所有散点的距离最近即通过x
所预测的与实际的y
的误差应比任何其他直线的都来得小因此,配合直线所使用的原则和方法是最小二乘法用最小二乘法所得到的回归直线满足如下两个条件:
称之为离差平方和即用估计y
时的误差最小对Q
求a、b
的偏微分,并令之为0:整理之:解之:将所得a、b
两值代入方程,即得一个能满足上述两条件的回归方程B的符号取决于分子,因此b的符号与r的符号相同b>0时,x增大,y也增大,即两变量为正相关b<0时,x增大,y就减小,即两变量为负相关当x取时,有即回归直线必通过二、回归直线方程的计算及作图上例中,我们已有:因此,即该药物消毒剂量与消毒效果的回归方程为:即每增加一个单位的消毒药物,可增加0.7643个百分点的消毒效果直线的作图取最小和最大的x代入方程,得到相应的y估计值:这是作图时的两个端点,将这两个端点用直线连接起来需要注意的是,回归直线仅局限在这两个端点之间(根据具体情况允许稍微外抛一点),需要延长的话必须十分谨慎因为在生物学科中,能无限延长的情况是没有的,否则将出现十分荒谬的结论作图:
1009080700
30354045505560
图1消毒药物的用量与消毒效果的关系三、计算器计算相关和回归的方法用计算器进行相关分析和回归分析,首先必须进入REG模式:显示屏上将出现REG字样,表示计算器已进入回归分析和相关分析的状态接着进行总清除(每一次进行新数据的统计,都应当操作这一步):接着开始输入数据:x
y直至数据输完MODE31SHIFTCLR1=,DT输入数据后,输出结果:SHIFTS-SUM3=SHIFTS-SUM2=SHIFTS-SUM1=SHIFTS-SUM>2=SHIFTS-SUM>1=SHIFTS-SUM>3=SHIFTS-VAR1=SHIFTS-VAR3=SHIFTS-VAR>1=SHIFTS-VAR>3=SHIFTS-VAR>>1=SHIFTS-VAR>>2=SHIFTS-VAR>>3=如果输入一个x,希望得到一个y的估计值:x如果输入一个y,希望得到一个x的估计值:ySHIFTS-VAR>>>2=SHIFTS-VAR>>>1=四、回归系数与相关系数的关系即相关系数是标准化了的回归系数同理,可得两者相乘,即即为前面讨论过的决定系数,即相关系数是两个方向相反的回归系数的几何平均值
相关系数和回归系数的区别和联系:相关系数是一个纯量,没有单位;回归系数是有单位的:相关系数没有方向,回归系数是有方向的:为y对x的回归,为x对y的回归相关系数的分布范围为:回归系数的分布范围为:两者的关系:五、直线回归的估计标准误(一)总平方和的剖分的建立,表示了x与y的关系及其变化规律每一个y都存在着变异,这一变异的大小可用y的离均差平方和表示又称为总平方和,即结合每一个x的预测点,可分为两部分:其中
称为回归平方和,它是由x
的变化所引起的y的变化它反映了总变异中由于x与y
的线性关系所引起的y
的变化部分,可用U
表示称为离回归平方和,用Q
表示,这是建立直线回归方程的依据,这是实际观测值与预测值之间的离差,是x
对y
线性关系以外的一切因素对y
变异的作用因此,回归平方和U
和离回归平方和Q
的大小可用来检验回归效果的好坏U
在总平方和中的比例(就是决定系数)越大,说明由x
预测y
的准确性就越高即即总平方和可以剖分成两部分:相关平方和,和非相关平方和(二)直线回归方程的估计标准误表示了x
对y
线性影响之外的一切因素对y
变异的作用因此,Q
越大,方程的预测效果就越差,即观测值离回归直线愈远,因此可以用Q
来估计直线回归的标准误:在上例中:该例的回归直线估计标准误即为:六、直线回归的假设检验(一)直线回归关系或回归系数的t-test样本是对总体的估计因此,应对进行检验,检验该样本直线回归来自无直线回归关系的总体的概率当这一概率
p<0.05时,才能认为样本回归方程所代表的总体的确存在着直线回归关系这就是回归关系的假设检验设立无效假设回归系数b的标准误进行t-test:上例中:即我们有99%的把握认为这一总体回归是存在的显然,我们可以看出,对相关系数的检验和对回归系数的检验两者是同步的因此,r显著,b
必显著;反之b
显著,r
亦必显著由于对r
的检验只需查表即可,比较容易,因此只需对
r
检验即完成检验工作相关分析和回归分析的一般程序是:首先作相关分析;对相关系数进行显著性检验;若相关系数显著,进行回归分析数据整理相关分析r显著?noend
yes回归分析(二)回归关系的方差分析可分解成回归平方和U
和离回归平方和Q也可分解成回归自由度和离回归自由度因此,可用方差分析来检验线性回归关系的显著性方差分析的公式是:我们也可以写出相应的方差分析表上例中,由于方差分析的F
值等于t
的平方,因此,对回归关系的方差分析等同于对回归系数的t-test,而对回归系数的
t-test又等同于对相关系数的t-test,因此在实际操作中,只需对相关系数r
进行显著性检验就可以了(三)回归系数的置信区间遵
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高三政治一轮复习教案
- 人教B版高中数学必修第一册第三章函数模块质量检测课件
- 宽顶无沿圆帽产业规划专项研究报告
- 器官疗法制剂产业深度调研及未来发展现状趋势
- 高速公路运营期养护管理方案
- 小学《拧螺丝钉的学问》说课稿
- 管理会计理论与实务学习通超星期末考试答案章节答案2024年
- 家庭写字辅导方案
- 门窗项目预算与施工方案
- 校外辅导机构教学效果评估方案
- 磷石膏综合利用调查报告
- 防水工程施工报价表
- 生产条件未发生变化情况声明
- 索道年度自检报告
- 二年级数学小故事(课堂PPT)
- 国家开放大学《生产与运作管理》形考作业1-4参考答案
- 《观沧海》说课(课堂PPT)
- SF305无卤阻燃型聚酰亚胺薄膜挠性覆铜板-PCBGlobal
- 政府采购会议领导讲话稿
- 交警大队协勤人员管理制度-规章制度文书
- 内部控制评价的内容内部控制评价制度
评论
0/150
提交评论