




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
双变量的两种选取方法,1、一个变量是选定的(可以精确地测量或严格控制),称为选定变量x,另一个变量是随机的(有不可控制的偶然因素影响),称为随机变量y。例如:儿童的年龄是选定变量,身高则是随机变量。选定变量x值处存在着随机变量y值的总体,常常是x值处y服从正态分布; 2、x、y都是随机变量,则存在着一个双变量(x、y)总体。如果在任意的x值处y服从正态分布,在任意的y值处x服从正态分布,则x、y称为双变量正态分布。例如:某一个儿童年龄组的身高与体重是双变量正态分布。,双变量研究中存在的两种关系,1、相互关系(互依关系) 两个变量是平等的,可令任一变量为x,另一变量为y,来研究两个变量的彼此关系或彼此影响,可采用直线相关分析。一般来说,直线相关分析只适用于双变量正态分布资料; 2、因果关系(依存关系) 两个变量是不平等的,一个为自变量x,另一个为因变量y,来研究x对y的作用或y对x的依赖,可采用直线回归分析。一般来说,直线回归分析可适用于上述两种变量的选取。,第一节 直线相关分析,直线相关 (linear correlation),当一个变量x由小到大变化,另一个变量y亦相应地由小到大或由大到小变化,两个变量的散点图呈直线趋势,那么,两个变量间存在直线关系。这种直线关系,或分析这种直线关系的理论或方法,统称为直线相关。两变量间直线相关的密切程度和方向,用直线相关系数来表示。,直线相关分析的步骤,1、散点图(相关图):观察各个散点有无直线趋 势,若有直线趋势,可进行直线相关分析。 2、计算五个基本数字 x x2 y y2 xy 3、求相关系数r r=(x-x)(y-y)/(x-x)2(y-y)2 4、相关系数r的假设检验 查表法 t检验 t|r-0|/Sr Sr=(1-r2)/(n-2) 5、根据专业知识作出结论。,相关系数的计算,本例 r=0.9395,相关系数及其意义 (correlation coefficient),1.定义:相关系数是描述呈双变量正态分布的两个变量直线相关的密切程度和方向的指标。 2.符号:样本相关系数用r表示,总体相关系数用表示,没有单位,取值范围从1到1。 3.意义:在r值有显著性意义的条件下, r值愈接近1 ,两个变量的关系愈密切; r值愈接近0,两个变量的关系愈不密切。r0为正相关(positive correlation),表示y随x增加而增加;r100时,r0.7称为高度相关;0.7r0.4称为中度相关; r0.4称为低度相关。,相关系数的假设检验,上例中的相关系数r等于0.9395,似乎说明10只大白鼠进食量(g)和增加体重(g)之间存在相关关系。但是,这10只大白鼠只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的10只,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,相关系数r 的t 检验,样本相关系数r0的原因: 由于抽样误差引起,总体相关系数=0 存在相关关系,总体相关系数0 方法:,式中Sr为相关系数的标准误 本例 t =7.7587,总体相关系数的可信区间,1、相关系数变换为Z 值,使之近似呈正态分布 2、Z 值的标准误SZ 3、Z 值的可信区间 Z 值的95%可信区间:Z1.96SZ Z 值的99%可信区间:Z2.58SZ 4、Z 值的可信区间转换为总体相关系数的可 信区间,分别将Z 值可信区间的上下限转换 为值可信区间的上下限,直线相关分析中应注意的问题,1、两个变量间毫无实际意义时不要作直线相关分析; 2、两个变量间呈线性关系时,要根据专业知识分辨是伴随关系还是因果关系,从而确定作直线相关分析或作直线回归分析; 3、相关分析要求资料x、y两变量都是来自正态总体的随机变量,x和y可以互换位置,不分自变量和因变量; 4、不要把r的显著性水平误解为相关的密切程度。小样本相关系数r经假设检验只能推断两变量间有无直线相关存在。只有当大样本(n100)时,|r|0.7称为高度相关;0.7 |r|0.4称为中度相关,|r|0.4称为低度相关。,第二节 直线回归分析,直线回归 (linear regression),1.定义:直线回归又称简单回归(simple regression),是用于研究两个连续性变量X和Y之间线性依存变化的数量关系。其中X为自变量(independent variable),Y为依赖于X的因变量(dependent variable),也称为反应变量(response variable)。两变量之间有数量依存关系,但非一一对应的函数关系。如年龄与身高、年龄与体重的关系,由于多种因素的影响,它们之间不是严格的函数关系,不能用函数方程表达,为了区别于数学上两变量间的函数方程,称这种关系式为直线回归方程,这种关系为直线回归。 2.直线回归分析的任务:找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,来描述两个变量之间的回归关系。,直线回归分析的步骤,1、散点图(相关图):观察各个散点有无直线趋势,若有直线趋势,可进行直线回归分析。 2、计算五个基本数字: x x2 y y2 xy 3、求直线回归方程: =a+bx b=(x-x)(y-y)/(x-x)2 a=y-bx 4、回归系数的假设检验 查表法 t检验 t|b-0|/Sb 5、根据专业知识作出结论。,直线回归参数的含义,a称为回归直线在纵轴上的截距(intercept)。 a0,表示直线与纵轴的交点在原点的上方; a0,表示y随x增大而增大; b0,表示y随x增大而减小; b=0,表示直线与轴平行,即y与x无直线关系。,回归参数a和b的计算,根据数学上的最小二乘法原理,使直线上各估计值 与实测值Y 之差的平方和 最小(即各实测点至回归直线的纵向距离平方和为最小),可推导出a和b 的计算公式:,本例 b =0.2219 a =-17.3618,回归系数及其意义 ( regression coefficient),1.定义:回归系数又称为直线回归方程的斜率(slope)或坡度,表示因变量y依赖于自变量x的直线变化的数量关系。 2.符号:样本回归系数用b表示,总体回归系数用表示,回归系数含有单位。 3.意义:在b有显著性意义的前提条件下,表示x每增加一个单位时,y平均增加(当b0时)或平均减少(当b0时)b个单位。,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从总体回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体回归系数一般用表示。,样本回归系数的假设检验,回归系数b的t检验,1. y与 离差的平方和 2. 标准估计误差(固定x时,y与回归线()垂直方向的离散程度,即y的标准差,反映x的影响被扣除后y的变异,故又称为剩余标准差 ) 3. 样本回归系数b的标准误 4. 回归系数b的t检验,直线回归方程的建立,回归直线的描绘,根据求得的回归方程,可以在自变量X 的实测范围内任取两个值,代入方程中,求得相应的两个Y 值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a ),( )。这两点可以用来核对直线绘制是否正确。,直线回归分析的用途,1.回归系数b有显著性意义的前提条件下,利用直线回归方程描述应变量y依赖自变量x变化而变化的数量关系。 例如:儿童体重依赖年龄变化而变化的数量关系; 2.根据容易测定的变量值估计难以测定的变量值。 例如:以人的体重估计人的体表面积; 3.利用直线回归方程进行预测预报,由已知变量(预报因子x)预测将来的未知变量(预报量y)。 例如:由父母的身高预测子女将来的身高; 4.利用直线回归方程进行统计控制,即利用回归方程进行逆估计。 例如:把车流量(x)与汽车排出的某种毒物(y)建立直线回归方程,若要求y在一定的波动范围内(卫生标准以下)可通过控制x的取值来实现;,直线回归分析中应注意的问题,1、两个事物间毫无实际意义时不要作直线回归分析; 2、回归分析前首先绘制散点图,观察两变量间散点有无线性趋势,有无异常点、高杠杆点或强影响点存在; 3、考虑建立直线回归模型的基本假定,满足线性(linear)、独立(independent)、正态(normal)、方差相等(equal variance)4个条件; 4、 x选定,y服从正态分布的双变量,作直线回归分析称型回归,如标准曲线;x、y服从双变量正态分布的资料,作直线回归分析称型回归; 5、双变量正态分布资料作直线回归分析,由x推算y,或由y推算x,所得回归系数b及回归方程不同,因此,自变量x和应变量y应根据专业知识来确定; 6、绘制的回归直线应在x的实测值范围内或实际可用的范围内使用,不能任意将直线延长,因为直线延长后不一定呈直线关系。,直线回归与直线相关的区别,1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2、在资料要求上:直线回归适用于y服从正态分布,x是可以精确测量和严格控制的变量,称为型回归;也适用于x、y服从双变量正态分布资料,可以计算两个回归方程,称为型回归;直线相关分析只适用于x、y服从双变量正态分布资料; 3.在应用上:说明两变量间依存关系的数量关系时采用直线回归,说明两变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)。 4.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 5.相关系数r与回归系数b的解释上:b和r的绝对值没有直线联系,b有单位,而r无单位。 r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江省建筑安全员C证(专职安全员)考试题库
- 五年级语文下册第五单元劳动5综合活动教案北师大版
- 职业病防护与人力资源管理试题及答案
- 2025版高考物理一轮复习第三章牛顿运动定律第2课时课时作业含解析
- 英语情商测试题及答案
- 西医临床临床实验技能试题及答案
- 南宁一模语文试题及答案
- 文化产业管理市场调研方法试题及答案
- 六年级语文下册第二组9和田的维吾尔教学实录新人教版
- 精神病的填空试题及答案
- 春夏季疾病预防
- 农作物病虫害的发生规律
- 智障个别化教育计划案例(3篇)
- 2025年度高校与公益组织合作项目合同3篇
- 9 短诗三首 公开课一等奖创新教学设计
- 《近代中国饮食变化》课件
- 2024年05月中国建材集团财务有限公司2024年招考2名工作人员笔试历年参考题库附带答案详解
- 实验教学评价标准与反馈机制构建
- 北师大版三年级下册数学口算题通关练习1000道带答案
- 【MOOC】城市景观设计-南京铁道职业技术学院 中国大学慕课MOOC答案
- 医疗机构医疗废物管理规范考试试题及答案
评论
0/150
提交评论