




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、线性相关与回归 授课教师:吴立娟授课教师:吴立娟 流行病与卫生统计学系流行病与卫生统计学系第一节 直线相关 直线相关的意义 直线相关系数的计算 直线相关系数的假设检验 身高与体重是否有关? 体温与脉搏是否有关? 产前检查与婴儿体重?背景背景乙肝病毒感染与乙肝?小孩的身高与小树的树高?背景 相关就是用于研究和解释两个变量之间相相关就是用于研究和解释两个变量之间相互关系的互关系的, ,给两个变量定性。给两个变量定性。 例例1 1 某地某地1212名一年级女大学生的体重(名一年级女大学生的体重(kgkg)与肺活量)与肺活量(L)(L)数据见下表数据见下表1 1。 表1 某地12名一年级女大学生的体重
2、与肺活量数据编号编号体重体重(kg)(kg)肺活量肺活量(L)(L)1 142422.552.552 242422.22.23 346462.752.754 446462.42.45 546462.82.86 650502.812.817 750503.413.418 850503.13.19 952523.463.46101052522.852.85111158583.53.5121258583.313.31 问题问题: :怎么判断这两个变量是否相关、如何相关及如何怎么判断这两个变量是否相关、如何相关及如何度量相关?度量相关?散点图的特点:1.呈现某种趋势2.变化方向一致图1 12名女大学生
3、体重和肺活量的散点图 直线相关的意义直线相关的意义 直线相关概念直线相关概念用于描述两个变量之间的线性相关程度,又称简单相关。用于描述两个变量之间的线性相关程度,又称简单相关。 相关种类相关种类根据散点图中点的分布即线性相关的性质和相关之间的密根据散点图中点的分布即线性相关的性质和相关之间的密切程度,分为:切程度,分为: 正相关正相关 负相关负相关 不相关不相关 散点图可帮助了解线性相关的方向和相关的密切程度散点图可帮助了解线性相关的方向和相关的密切程度 正相关:两个变量之间伴随同时增大或同时减小的直线趋势称为线性正相关(linear positive correlation)。 负相关:如果
4、研究指标之间的变化关系是相反的,这种直线变化趋势称为线性负相关(linear negative correlation)。 零相关:如果两变量之间无任何直线伴随变化趋势。直线相关系数的计算l 又称又称PearsonPearson积矩相关系数,是定量描述两个积矩相关系数,是定量描述两个变量间线性关系的密切程度与相关方向的统计变量间线性关系的密切程度与相关方向的统计指标,没有单位,其值介于指标,没有单位,其值介于-1-1和和1 1之间之间 。l符号符号r r表示样本相关系数;表示样本相关系数;l符号符号表示其总体相关系数。表示其总体相关系数。相关系数的计算相关系数的计算11122nYYnXXnYY
5、XXlllrYYXXXYnYXXYYYXXnYYYYnXXXX222222计算 r 时,分别可用上述公式代替。算得:X, Y, XY, X2, Y2,将这些数值入公式即可的方差)的方差(的协方差和)(YYXXr 用标准差标化了量纲的协方差 r 没有单位,其数值介于 -1与 +1之间。 相关系数为正,表示Y 随由X 的增加而增加,称为正相关;当r = 1时,称为完全正相关; 相关系数为负,表示Y 随着X 的增加反而减少,称为负相关。当r = -1时,称为完全负相关。注:而当注:而当r r 接近接近0 0或等于或等于0 0时,只说明两个变量间的线性时,只说明两个变量间的线性相关性很差,但并不是说两
6、变量间不可能存在其他的相相关性很差,但并不是说两变量间不可能存在其他的相关性关性( (比如曲线相关等比如曲线相关等) )例2 某校测得15名女中学生的胸围(cm)和肺活量(ml),数据见如下表2所示,试做相关分析.编号胸围X肺活量YX2Y2XY1722400518457600001728002682200462448400001496003782750608475625002145004661800435632400001188005702700490072900001890006652500422562500001625007742650547670225001961008642100409
7、64410000134400969200047614000000138000107126005041676000018460011652300422552900001495001260190036003610000114000137024004900576000016800014752500562562500001875001569235047615522500162150合计10363515071858835675002441450 计算例子中的相关系数 r222()/7 1 8 5 81 0 3 6/ 1 53 0 4 .9 3 3 3xxlXXn222()/8356750035150/
8、151199333.33yylYYn()()103635150244145013756.66715xyXYlX Yn13756.6670.7194304.93331199333.33xyxxyylrll 三、相关系数的三、相关系数的假假设检验设检验 例子中所求得的 r = 0.7194是一个由样本数据计算出的统计指标, 必然有抽样误差。在=0的总体里是否有可能遇到 r = 0.7194 的样本呢?即能否用抽样误差来解释 r = 0.7194呢?统计推断-假设检验!相关系数的假设检验 基本思想假设在一个X与Y无关总体中做随机抽样,由于抽样误差影响,所得的样本相关系数也常常不等于0。因此要判断两个
9、变量X与Y是否真的存在相关关系,仍需根据r做总体相关系数=0的假设检验。 前提:在假设X和Y服从二元二元正态分布正态分布的前提下进行。 三、相关系数的假设检验三、相关系数的假设检验假设检验: H0 : = 0, H1: 0n决策:若P=0.05,拒绝零假设,认为两个变量间的相关性具有统计学意义;反之,不能决绝零假设。n方法一:直接查r临界值表(pearson 相关系数),自由度是n-2n方法二:采用自由度是n-2 的t检验前提:在假设X和Y服从二元二元正态分布正态分布的前提下进行。 三、相关系数的假设检验三、相关系数的假设检验假设检验: H0 : = 0, H1: 0n决策:若P r0.05(
10、13), 故 0.05,拒绝H0 结论:可认为在结论:可认为在 0 0的总体中抽取的样本,的总体中抽取的样本,r r = 0.7194 = 0.7194的可能性小于的可能性小于5%5%。因此,拒绝。因此,拒绝H H0 0 。即可认为胸围与肺活量即可认为胸围与肺活量间存在线性相关关系。间存在线性相关关系。0.05215213n方法一方法一: : 查查“相关系数界值表相关系数界值表”方法二方法二: t: t检验(实际应用更普遍)检验(实际应用更普遍)Sr为样本相关系数r的标准误当H0成立时,统计量 服从于自由度为自由度为n n-2-2的的t t分布分布rrSrt0并比较|tr|与临界值的大小相关系
11、数的可信区间相关系数的可信区间rrZ11ln21 统计推断包括假设检验和区间估计,前面已学过相关系数统计推断包括假设检验和区间估计,前面已学过相关系数的假设检验,假设检验只是回答了总体相关系数的假设检验,假设检验只是回答了总体相关系数 是否存是否存在的问题,如果想知道的在的问题,如果想知道的 大致范围,就需要计算的大致范围,就需要计算的 可可信区间信区间。 由于由于r r呈非正态分布,故不能直接用呈非正态分布,故不能直接用r r求可信区间,而求可信区间,而是首先对是首先对r r作作Z Z转换,以消除这种偏态转换,以消除这种偏态 转换后的转换后的Z Z统计量服从方差为统计量服从方差为 的正态分的
12、正态分布,用下式计算布,用下式计算Z Z统计量总体均数的统计量总体均数的100100(1- 1- )% %可可信区间。当信区间。当 时,即为时,即为95%95%可信区间。可信区间。1 / (3 )n 0 . 0 53/3/2/2/nzzZnzzZUL最后,对此区间的上下限作反变换,最后,对此区间的上下限作反变换,11112222UULLzzUzzLeeee 例1 测得某地15名正常成年人血铅X(mmol/L)和24小时尿铅Y(mmol/L)如表1,试分析血铅与24小时尿铅之间是否直线相关?编号编号X XY YXYXYX X2 2Y Y2 21 10.110.110.140.140.01540.
13、01540.01210.01210.01960.01962 20.250.250.250.250.06250.06250.06250.06250.06250.06253 30.230.230.280.280.06440.06440.05290.05290.07840.07844 40.240.240.250.250.06000.06000.05760.05760.06250.06255 50.260.260.280.280.07280.07280.06760.06760.07840.07846 60.090.090.100.100.00900.00900.00810.00810.01000.0
14、1007 70.250.250.270.270.06750.06750.06250.06250.07290.07298 80.060.060.090.090.00540.00540.00360.00360.00810.00819 90.230.230.240.240.05520.05520.05290.05290.05760.057610100.330.330.300.300.09900.09900.10890.10890.09000.090011110.150.150.160.160.02400.02400.02250.02250.02560.025612120.040.040.050.05
15、0.00200.00200.00160.00160.00250.002513130.200.200.200.200.04000.04000.04000.04000.04000.040014140.340.340.320.320.10880.10880.11560.11560.10240.102415150.220.220.240.240.05280.05280.04840.04840.05760.0576合计合计3.003.003.173.170.73880.73880.71680.71680.76810.7681表1 15例志愿者的血铅和24小时尿铅测量值9787. 0)1517. 3768
16、1. 0)(1537168. 0(1517. 337388. 022r 例1 算得r=0.9787,试估计总体相关系数95%的可信区间。),的可信区间为(数故血铅与尿铅总相关系的上限:的下限:),(),(的可信区间为的0.9930.93595%993.01e1-e1e1-e935.01e1-e1e1-e832.2700.13-151.96266.23-151.96-266.2%95266.2)9787.019787.01ln(21)11ln(212.832*22.832*22z2z1.700*21.700*22z2zUULLzrrz线性相关分析注意事项线性相关分析注意事项 1、散点图辅助我们直
17、观的审视数据有无线性趋势 2、两变量皆随机变量,服从二元正态分布 3、其它种类的相关不能由线性相关系数准确的测量出来,一个接近于0的线性相关系数并不意味着这两个变量间无相关,只能说明无线性相关 下面图中显示的是两个变量细菌生长率和温度的关系。计算可得这两个变量间的相关系数是 0.21, p = 0.521,但是从图中我们可以看出无线性关系,呈现的是二次关系Bacterial growth rate vs. temperaturetemp. C.605040302010% of max. growth rate1201008060402004. 相关关系与因果关系不等同 仅凭2个变量间存在具有统
18、计意义的正相关或负相关不能得出这两个变量间存在因果关系,即,X的增长导致了y上的增长或减小 故事故事 1 儿子与树儿子与树 12年后年后, 相关系数相关系数结论结论: 树使儿子快速生长树使儿子快速生长, 或儿子使树快速生长或儿子使树快速生长?!05.0,97.0PrTime 1 2 3 4 11 12 Height of son (cm) X 50 54 59 65 75 81 Height of tree (cm) Y 35 42 50 57 60 66 故事故事 2 2 游泳与冰淇淋游泳与冰淇淋相关系数相关系数05.0,92.0Pr结论结论: : 游泳者喜欢冰淇淋游泳者喜欢冰淇淋, , 或
19、或 买冰淇淋者喜欢游泳买冰淇淋者喜欢游泳?!?!Day 1 2 6 7 8 11 12 Number of people Swimming X 20 14 129 235 198 45 31 Number of people Buy ice cream Y 15 12 120 237 203 40 36 1) 不要把任意两个变量放在一起算相关系数不要把任意两个变量放在一起算相关系数 - 在专业上在专业上, 两者必须可能存在联系两者必须可能存在联系2) 简单相关简单相关 = 直接联系直接联系 + 间接联系间接联系 简单相关不一定意味着简单相关不一定意味着直接联系直接联系 儿子儿子树树?时间时间游
20、泳人数游泳人数买冰淇淋买冰淇淋 人数人数? 气温气温5. 分层资料盲目合并易出现假象,异常值存在时慎用相关 见图P200 115有异常值存在的情况不相关的两个样本合并为正相关正相关的两个样本合并为不相关正相关的两个样本合并为负相关第二节 Spearman相关适用资料:适用资料: 不服从双变量正态分布不服从双变量正态分布 总体分布类型未知总体分布类型未知 原始数据用等级表示原始数据用等级表示等级相关系数等级相关系数 r rs s(即(即Spearman Correlation Spearman Correlation CoefficientCoefficient)反映两变量间相关的密切反映两变量
21、间相关的密切程度与方向程度与方向 。 将各变量X,Y分别编秩p,q ; 计算 p与 q的Pearson相关; 所得结果即为Spearman秩相关rs 。rs的统计学意义同的统计学意义同r r。 当n50时,查“rs界值表” 当n50时,用 t 检验。 例3 某研究者对15例30-50岁成年男子的舒张压与夜间最低血氧含量分级进行研究,结果见表3,试分析两者的关联性编号编号(1)舒张压舒张压X(2)秩次秩次pi(3)夜间最低血氧含量夜间最低血氧含量分级分级Y(4)秩次秩次qi (5)1751122802.5123802.525.54905.5125905.525.56905.525.57905.5
22、39.58958.525.59958.539.51010010.539.51110010.539.51211012413.51311513413.51412014413.51512515413.5合计-120-120897.05.2400.263/)(5.273/)(2222qqpppqsiiiipqiiqqiipplllrqpqplnqqlnppl秩相关的假设检验 当n50时,查“rs界值表”。 当n50时,用 t 检验。 对例3 的秩相关系数作假设检验 (1)建立检验假设,确定检验水准H0:s=0,即舒张压与夜间最低血氧含量的分级无相关关系H1:s 0,即舒张压与夜间最低血氧含量的分级有相
23、关关系= 0.05 (2)计算检验统计量 rs=0.897 (3)确定P值,做出统计推断本例n=1550,查等级相关系数界值表,得rsr15,0.001=0.779,Pr0.05( n-2)时,可认为两变量X与Y间( ) A有一定关系 B. 有正相关关系 C一定有直线关系 D. 有直线关系 答案: 练习题: 相关系数检验的无效假设H0是( ) A=0 B. 0 C0 D. 0: 回归线与纵轴交点在原点上方。a 0: 回归线与纵轴交点在原点下方。a =0: 回归线通过原点。 统计学意义a 表示自变量X取值为0时相应Y总体均数的估计值。 a的单位与Y值相同 当X可能取0时,a才有实际意义。xY0Y
24、abXb回归系数回归系数b b的统计学意义的统计学意义 b表示自变量X变化一个单位时应变量Y的平均改变量。 1-7岁儿童以年龄(岁)估计体重(kg)的回归方程: 糖尿病患者以胰岛素水平(mU/L)估计血糖水平(mmol/L)的回归方程:XY27XY68.084.22直线回归方程的求解:最小二乘原理YabXYX iiYY最小二乘原则:观测点与所配直线纵向距离的平方和最小最小二乘原则:观测点与所配直线纵向距离的平方和最小 观测点自变量值观测点自变量值 X1 X2 Xn 观测点因变量值观测点因变量值 Y1 Y2 Yn 回归直线上对应回归直线上对应点高度点高度 11bXaY 22bXaY nnbXaY
25、 观测点与回归直观测点与回归直线纵向距离线纵向距离 )(1111bXaYYY )(2222bXaYYY )(nnnnbXaYYY 观测点与回归直观测点与回归直线纵向距离的平线纵向距离的平方方 211211)()(bXaYYY 222222)()(bXaYYY 22)()(nnnnbXaYYY 观测点与回归直线纵向距离的平方之和观测点与回归直线纵向距离的平方之和 211)(bXaYQ +222)(bXaY + + 2)(nnbXaY 欲找适宜的欲找适宜的a和和b,使得使得Q最小最小! 最小二乘估计残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 求解a、b实际上
26、就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小YYY 回归系数及其计算回归系数及其计算找一条直线使残差平方和最小找一条直线使残差平方和最小 利用微积分知识利用微积分知识,容易得到容易得到 这条线一定过两个点这条线一定过两个点 和和最小 )(2 yy 2)()(xxyyxxllbiiixxxy xbya ),(yx),0(abXaY 例1 根据表1数据,对大白鼠的体重增加量进行回归分析。 表表1 121 12只大白鼠的进食量(只大白鼠的进食量(g g)与体重增加量)与体重增加量(g
27、)(g)测量结果测量结果 散点图1由原始数据及散点图(图 1)的观察,两变量间呈直线趋势,故作下列计算。 2计算X、Y的均数X、Y。 3计算离均差平方和XXl、YYl与离均差积和XYl。 解题步骤b2.000.0648YXa 此直线必然通过点此直线必然通过点( , )( , )且与纵坐标轴且与纵坐标轴相交于截距相交于截距 。如果散点图没有从坐标系。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取原点开始,可在自变量实测范围内远端取易于读数的易于读数的 值代入回归方程得到一个点值代入回归方程得到一个点的坐标,连接此点与点的坐标,连接此点与点( , )( , )也可绘出回也可绘出回归直线
28、。归直线。 XYaXXY线性回归分析的前提条件 线性(linear)反应变量Y与自变量X呈线性变化趋势 独立(independent)任意两个观察值相互独立,一个个体的取值不受其他个体的影响 给定X时,Y正态分布(normal)给定X取值时,Y的取值服从正态分布 等方差(equal variance)指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图给定X时,Y是正态分布、不等方差示意图回归方程有统计学意义吗 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数是否为零:t检验总变异的分解理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和YYl作分解如图 4 所示. 任意一点P的纵坐标被回归直线Y与均数Y截成三个线段,其中:)()(YYYYYY。由于P点是散点图中任取的一点,将全部数据点都按上法处理,并将等式两端平方后再求和则有 数理统计可证明:222)()()(YYYYYY()()0YYYY上式用符号表示为 式中 总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。 回SS 即2)(YY,为回归平方和。当 X 被引入回归以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国可编程全自动软水器数据监测研究报告
- 2 2025年小学教师资格考试复习宝典及试题
- 遗产继承协议仲裁合同
- 2023年新疆公务员《行政职业能力测验》试题真题及答案
- 纤维专业知识培训课件
- 公司活动策划与执行进度报告
- 机械工程材料与设计实践试题库
- 公司加盟连锁经营合同书
- 江苏省南通市如皋市2024-2025学年高一上学期期末教学质量调研生物学试卷(必修)(含答案)
- 新闻媒体新闻稿件授权发布协议
- 2024年海南省中考历史试题
- 安全资料之九
- 新译林版一年级下册英语全册教案
- Unit2 Last weekend A Lets learn(教案)人教PEP版英语六年级下册
- 全新供土协议
- 发电机组检修方案技术指导
- 第2课《让美德照亮幸福人生》第2框《做守家庭美德的好成员》-【中职专用】《职业道德与法治》同步课堂课件
- 条件概率与全概率公式高二下学期数学人教A版(2019)选择性必修第三册
- (正式版)JBT 10437-2024 电线电缆用可交联聚乙烯绝缘料
- 法律知识图谱构建及应用
- 八卦的基本介绍及其科学内涵
评论
0/150
提交评论