版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章简单相关与回归
直线回归
直线相关
基本概念
注意事项变量间的关系一般可以分为两类:第一节基本概念
变量间存在完全确定性的关系可以用精确的数学表达式(即函数)来表示这种变量之间的关系是确定性的,只要知道了其中1个或2个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系
变量间存在非确定性的关系不能用精确的数学表达式来表示人的身高与体重的关系
仔猪初生重与断奶重的关系
猪瘦肉率与背膘厚、眼肌面积、胴体长等的关系
这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值变量间的这种不确定的关系称为相关关系
存在相关关系的变量称为相关变量
相关关系一般又可以分为两种:平行关系
两个或两个以上变量之间共同受到另外因素的影响因果关系
一个变量的变化受另一个或几个变量的影响人的身高和体重之间的关系兄弟身高之间的关系营养因素遗传因素
仔猪的生长速度遗传、营养、饲养管理等因素子女的身高父亲身高、母亲身高等因素采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系对两个变量间的直线关系进行相关分析称为简单相关分析(直线相关分析)
研究一个变量与多个变量间的线性相关称为复相关分析、多元相关分析
研究在其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析
相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度和性质
采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析
研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析
回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)第二节直线相关1.相关系数的确定对于某一个体来说,如果我们同时观测两个性状,那么就可以得到两个变量,其中一个变量记作x,另一个变量记作y观测n个个体,就得到n对(x,y)在一个平面直角坐标系中,将每对(x,y)描点,作出散点图,观察这些点的位置、排列和趋向如果这些点排列越有规律
则说明这两个变量的关系越紧密,即两个性状的关系越密切
这种关系的密切程度和性质可以用一个数值来表示,这个数值就是统计学上的“相关系数”如果这些点排列越散乱
则说明这两个变量的关系越不紧密,即两个性状的关系越不密切
在平面直角坐标系中,描上n个(x,y)点,并找出这些点的中心位置(,),将坐标系平移到以(,)为新原点的位置上
分布在1、3象限内的点的坐标乘积分布在2、4象限内的点的坐标乘积有3种情况:表示1、3象限内的点多,2、4象限内的点少
表示2、4象限内的点多,1、3象限内的点少
表示这些点均匀地分布在四个象限内
称为离均差乘积和,简称乘积和,用SPxy表示乘积和的绝对值越大,说明两个变量间的关系越密切,因此我们可以用乘积和的大小来表示两变量关系的密切程度
可以用乘积和的正负来表示两变量关系的性质:乘积和为正说明两变量呈正相关,乘积和为负说明两变量间呈负相关
用乘积和来衡量两个变量之间的关系不是很理想对于总体来说:对于个体来说:如果我们先将每个变量进行标准化,转化成没有单位的相对数,同时进行相乘求和再平均就比较合理了2.相关系数的性质(1)当r>0时表示两个变量呈正相关,r=1时表示两个变量呈完全正相关
当r<0时表示两个变量呈负相关,r=-1时表示两个变量呈完全负相关当r=0或趋近于0时,表示两变量不相关,又称为零相关
(2)r的取值范围在[-1,1]r的绝对值越大,表示x、y两变量的相关性越强r的绝对值越小,表示x、y两变量的相关性越弱
3.相关系数的计算相关系数的公式:但在具体计算时,一般将其转化为:例1:试计算猪宰活重与屠宰率的相关系数宰前活重x(kg)808582909510087屠宰率y(%)697068727378704.相关系数的显著性检验(1)提出假设(2)计算t值H0:ρ=0(两变量不相关)HA:ρ≠0(两变量相关)相关系数标准误(3)查表,推断r2为决定系数例2:对例1中的相关系数进行显著性检验(1)提出假设(2)计算t值(3)查表,推断根据df=n-2=5,查表:
猪宰前活重与屠宰率存在极显著的正相关关系相关系数的显著性检验还有一种更简单的方法,即查表法
例1中,我们根据df=n-2=5查r的临界值表:
r0.05=0.754,r0.01=0.874r=0.9502>r0.01
r达极显著水平
与t-检验法结果相同
一般可将r值分为以下几个等级
完全负相关负强相关负中等相关负弱相关零相关完全正相关正强相关正中等相关正弱相关5.相关系数的置信区间求总体相关系数ρ的置信区间,必须了解r的分布
当ρ=0时,r近似地服从正态分布在ρ≠0的总体中,r的抽样分布并不一定服从t分布或正态分布因此在估计ρ的置信区间时,应对r进行z转换,则z服从正态分布
根据计算μZ的置信区间:[LZ1,LZ2]然后将这一置信区间反转换成ρ的置信区间[L1,L2]具体步骤如下:(1)将r转换成z(2)计算z的标准误(3)计算z的置信区间
(4)将z的置信区间转换成ρ的置信区间
例3:求例1中相关系数的置信区间(1)将r转换成z(2)计算z的标准误(3)计算z的置信区间
95%:[0.854,2.814]0.9599%:[0.544,3.214]0.99(4)将z的置信区间转换成ρ的置信区间
95%:99%:相关系数的置信区间是偏态的6.等级相关在实践中,有时我们会遇到等级或名次的资料,这类资料就只能用等级相关法来求相关系数(1)将x和y排成相应的名次或等级,当两个x或两个y的名次相同时,求平均名次或平均等级(2)求x与y差(d)(3)求x与y的等级相关系数,查r临界值表检验其是否显著等级相关系数计算步骤:例3:经调查,获得一个村的养殖户所生产的鸡蛋量与所获纯利的名次资料如下,试计算相关系数。户号123456789101112蛋产量12.52.54567.57.5910.510.512纯利1.51.5435.575.5108.512118.5差-0.51-1.51-0.5-12-2.50.5-1.5-0.53.5解:(1)计算相关系数:(2)相关系数的显著性检验:根据df
=n-2=10查得:
鸡蛋产量与利润之间存在极显著的相关关系第三节直线回归一个变量(或性状)是因,用x表示,另一变量是果,用y表示,可以采用回归分析来研究2个变量间的关系两变量间虽然没有因果关系,但一个性状容易测定,用x表示,另一性状难以测定或测定具有破坏性,用y表示,且两变量有较好的相关性
我们希望通过易测性状(x)来间接测定难测性状(y),此时也可以采用回归分析来进行研究研究x、y变量间因果依存关系的统计分析方法就称为回归分析
回归分析表现的是两变量间比较严格的从属关系,是把非确定性的关系用严格的函数关系来进行研究1.直线回归方程的配合x与y的直线回归方程一般表示为:y的估计值
直线在y轴上的截距
回归系数把(x,y)在平面直角坐标系内作散点图,如果这些散点越趋向一条直线,就说明直线回归方程越理想选取什么样的a和b才能最好地反映x和y之间的关系呢?根据最小二乘法,选取的a、b值应使观测值y与回归估计值的偏差平方和最小,即:最小根据微积分学中的极值原理,令Q对a、b的一阶偏导数等于0,即:整理可得关于a、b的正规方程组:解方程,得:将所求得的a,b直接代入,就可得到回归方程将a式代入,得:说明回归直线必经过其中心点2.直线回归方程的计算和作图2.1回归方程的计算例1现有7头长白猪宰前活重与屠宰率的数据,试建立屠宰率对宰前活重的回归方程宰前体重x(kg)808582909510087屠宰率y(%)69706872737870计算一级数据将一级数据代入计算公式,得:屠宰率对宰前活重的回归方程为:回归直线必定经过中心点,即(88.4,71.4)回归方程表示每增加1㎏宰前活重,屠宰率平均可增加0.4472%2.2直线的作图两点决定一条直线,因此我们只要知道回归方程的任意2个点值,就可以在平面直角坐标系中画出相应的回归直线将最小的x=80和最大的x=100代入回归方程,得到两个点:(80,67.66),(100,76.60)回归直线仅仅是有两个端点的实线段,而不是可以无限延长的直线
对直线适度作一些外延是可以的,但不能外延得太长3.直线回归方程的估计标准误3.1总平方和的剖分变量y的变异程度的大小可用y的离均差平方和来表示:又称为总平方和,即:总平方和剖分为2个部分:其中:离回归平方和用Q表示,是建立直线回归方程的依据反映了总变异中由x与y线性关系以外的一切因素所引起的y的变异部分
回归平方和用U表示,是由x所引起的y的变化反映了总变异中由x与y线性关系(直线相关)所引起y的变异部分可以根据回归平方和U与离回归平方和Q两者的大小来检验回归方程配合效果的好坏
回归平方和U在总平方和SSy中的比例(称为决定系数)越大,说明由自变量x
估计、预测依变量y的准确性越高3.2估计标准误离回归平方和的大小反映了实际观测值y与估计值之间的偏离程度
在直线回归分析中离回归平方和的自由度df
=n-2离回归平方和除以离回归自由度就可以得到离回归均方,即:离回归均方的平方根叫离回归标准误,即:在统计学中采用离回归标准误用来表示回归方程的偏离程度,估计直线回归的标准误例2计算例1中的直线回归的标准误。回归直线的估计标准误即离回归标准误为:4.回归系数的显著性检验(1)提出假设(2)计算t值H0:β=0(总体回归不存在)HA:ρ≠0(总体回归存在)回归系数标准误(3)查表,推断例3对例1中的回归系数进行显著性检验。t0.05,5=2.571,t0.01,5=4.032b值极显著说明我们有99%的把握认为总体回归是存在的,表示宰前活重与屠宰率之间存在极显著的直线关系5.回归系数的置信区间回归系数b的抽样分布服从的t分布,因此在估计总体回归系数β的置信区间时可直接用临界t值进行计算:95%置信区间为:99%置信区间为:例4计算例1中回归系数的置信区间。95%置信区间为:99%置信区间为:6.回归系数与相关系数的关系(1)回归系数b和相关系数r的符号相一致当b>0时,y随x增大而增大,表示x,y两变量呈正相关(r>0)当b<0时,y随x增大而减小,表示x,y两变量呈负相关(r<0)(2)相关系数是标准化了的回归系数(3)相关系数是两个方向相反的回归系数的几何均数两者相乘,可得:6.回归关系的F检验总平方和可剖分成2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准房地产买卖居间合同文本
- 延迟支付合同范本-合同范本
- 工厂合并协议书
- 2024年知识产权共享承诺协议书
- 家政工合同协议书
- 个人融资协议书范本一
- 标准产品销售合同
- 建筑施工合同书的内容详解
- 年度销售代理合同样本
- 2024年离婚贷款房分割协议
- 大学新生心理压力与情绪管理策略与心理调整与发展计划
- 四川省雅安市2023-2024学年八年级上学期期末考试语文试题(含答案)
- 职业打假人投诉、举报处理规范
- 系统更换可行性方案
- 烟花爆竹经营与使用的消防安全规范
- 头疗手法培训课件
- 班级中的规训与惩罚基于班级要素的社会学分析
- 树消防意识 创平安校园课件
- 砂石资源专项整治工作措施
- 医院食堂经营方案写
- 锅炉煤粉细度
评论
0/150
提交评论