两变量相关与回归课件_第1页
两变量相关与回归课件_第2页
两变量相关与回归课件_第3页
两变量相关与回归课件_第4页
两变量相关与回归课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/10/201变量间的关系确定性(函数)关系:x—y

对应。随机性关系:x—y不确定性。相关分析的统计指标:正态分布的双变量计量:散点图→直线趋势→Pearson相关系数。皮尔逊不服从正态分布的双变量计量资料,或等级或相对数,或总体分布类型不知的资料:散点图→直线趋势→等级相关系数。两个有关的分类变量:交叉分类的R×C表→独立性χ2检验和列联系数描述其相关性。2023/10/202§1

直线相关

(linearcorrelation)

P85直线相关or

简单相关(simplecorrelation):两变量相互呈直线变化趋势的随机性关系。一、散点图、积差相关系数1.散点图2023/10/2032.相关系数

(correlation

coefficient):定量描述两变量间直线相关方向和密切程度的统计指标。2023/10/204积差相关系数(Product-moment

correlation

coefficient)Pearson相关系数,相关系数:参数统计,双变量正态分布。-1≤r≤1,符号→相关方向,绝对值→密切程度。r>0

:正相关。r<0

:负相关。r=0:零相关。非线性相关or无相关。等级相关系数:非参数统计法§2二、积差相关系数的假设检验2023/10/205r

估计总体相关系数ρ,当r≠0时,因为存在抽样误差,不能认为ρ≠0,需要检验样本相关关系是否来自ρ=0的总体。t

or直接用r2023/10/2062023/10/2072023/10/2082023/10/2092023/10/20102023/10/20112023/10/20122023/10/2013三、直线相关分析应注意的问题2023/10/2014慎重处理离群值点(outlier)。仅在证实离群值点源于过失误差时方可修正或剔除该数据。合并分层资料要慎重。两变量关系不会因为合并而被歪曲时才可考虑合并。样本相关系数必须进行假设检验。要结合专业背景。不要把P值大小误解为相关程度,样本相关系数有统计学意义并不一定反映相关就很密切。§2

等级相关(秩相关)

P88条件:①不服从正态分布;②总体分布类型不知;③用等级或相对数表示的资料;④数据一端或两端有不确定值。方法:Kendall法:等级相关系数rkSpearman法:等级相关系数rsrk和rs的取值范围和意义同r,都需进行检验。rs

=1-6Σd2/[n(n2-1)]

,n对子数,d配对秩次之差.2023/10/2015【

6-2

12

2~7

岁急性白血病患儿的血小板数症状资料见表6-1,分析两者之间有无直线关系:2023/10/2016【SPSS操作】以血小板数和出血症状(标0=-,1=+,2=++,3=+++)为变量名,建立2列12行数据文件L6-2.sav作散点图:

Graphs→

Scatter→

→ Define

,出血症状入YAxis,血小板数入XAxis→Continue→OKx与y无直线趋势,只为说明SPSS作等级相关分析的操作。等级相关:Analyze→Correlate→Bivariate,血小板与出血入Variable,√Kendallˊs

tau-b和√Spearman→OK输出结果:Kendall

rk

=-0.377,P

=0.117; Spearman

rs

=-0.422,P

=0.172。2023/10/20172023/10/2018§3

直线回归

P90一、直线回归的模型散点图呈直线(或曲线)趋势,但随机因素的影响,不完全在一条线上。回归(regression)关系:随机性数量依存关系。回归分析:研究一个应变量与一个或多个自变量之间数量依存关系的统计方法。简单线性回归或简单回归(simple

regression):只有一个自变量的直线回归(linear

regression)

。2023/10/2019图6-8

简单线性回归统计学模型y

的总体均数μy都位于直线μy=α+βx上。=a+bx

儿科: =8+2xa:截距(intercept)。b:斜率(slope),回归系数(regression

coefficient)。x每改变1个单位时y平均改变b个单位。

b>0表示自变量↑应变量↑,直线上升。│b│↑→越陡→y随x变化率大。2023/10/2020二、直线回归方程的建立与检验建立:最小二乘法原则。检验:能否使用。使用:在样本数据范围内。预测:x估y。控制:y估x。2023/10/20211.建立回归直线

=a+bx。剩余误差(y- ),残差:各实测值y至回归直线纵向距离。剩余平方和(residual

sumof

square)或残差平方和SS剩余=Σ(

y- )2

=Σ[y-(a+bx)]2

(6-9)最小二乘法(method

of

least

squares):

SS剩余最小。2023/10/20222.检验n>100,r

假设检验有统计学意义时:︱r︱>0.7,两个变量高度相关;0.4<︱r︱<0.7,中度相关;0.2<︱r︱<0.4,低度相关。2023/10/20233.

决定系数(determining

coefficient,相关指数2023/10/2024correlation

index,R2)R2=SS回/SS总=(SS总-SS剩)/SS总=1-SS剩/SS总R2表示y的总变异中被x所决定的占多少。

0≤R2

≤1,→1,回归效果越好,强度↑。R2

密切程度(相关强度)。回归强度R2

=SS回/lyy

=(n-1)sy2r2/

lyy

=r2例:两变量,df=100,r

=0.20时,查附表11,P<0.05,可认为两变量间存在直线相关。R2=0.202=0.04,y的变异只有4%与回归有关,两个变量直线相关的实际意义不大,除x

外,还有其它因素等待我们去认识。由这样的资料求出的回归方程是无任何预测价值的。区别相关显著(r有统计学意义)与相关强度2023/10/20254.回归系数β的CIb±tα/2(n–2)

sb=b±tα/2

(n–2)

(s

y

/sx)两回归系数比较时可用CI作假设检验:无重叠→不同重叠→同。2023/10/2026【例6-3】例6-1资料3岁儿童体重与体表面积资料,建立直线回归方程并进行检验。【SPSS】L6-1.sav→

Analyze→Regression→

LinearRegression,体重为Independent、体表面积为dependent→Statistic,选Confidenceintervals→Continue→OK。2023/10/20272023/10/20282023/10/2029§4

简单回归与相关的区别和联系

P95一、区别1.资料要求:相关:X、Y正态回归:①X、Y

正态②X选定,Y随机2.应用:相关:X、Y相互关系回归:X推Y3.计量单位:相关系数r无,回归系数b有单位2023/10/2030二、联系方向一致:r与b的正负号一致。同一资料假设检验等价:tr=tbr与b可相互推导获得。(4)用回归解释相关:R2

=r22023/10/2031§5

回归分析的应用

P95一、应用1.描述变量间数量变化关系

:量-效关系、配伍规律。【例6-4】《医宗金鉴》治积聚处方,y=1.967+0.735x,有统计学意义,R

2

=0.9996,拟合度达99.96%,用回归方程描述名医治病用药的配伍规律准确有效。表6-2 6个治积聚方的川乌与茯苓用量处方川乌x茯苓y新制阴阳攻积丸3024肥气丸3.64.5息贲丸3.04.5伏梁丸1.53.0痞气丸1.53.02023/10/2奔0豚丸1.53.0322.

预测y值容许区间即预测区间(prediction

interval

PI)x=x0时,y0值的(1–α)预测区间计算公式为:2023/10/20332023/10/20340,应变量估计值3.

估计

µ

CI

自变量

x均数 的(1-α)CI为:2023/10/2035二、注意事项2023/10/2036专业上要有意义:专业→相关→回归分析。选择合适的回归模型:

散点图。 直线趋势→直线回归分析曲线趋势→曲线方程。不随意外延:以自变量的观测范围为限。L2:

§6

曲线回归(curve

linear

regression)P972023/10/2037曲线拟合(curve

fitting):根据样本资料找出能反映变量间关系的曲线回归方程的过程。散点图→曲线类型:对数、指数、幂函数、Logistic等。曲线关系→最小二乘法→曲线直线化→直线回归→还原得到曲线方程。统计软件对一组资料常可同时拟合多种模型:R

2接近1、标准估计误差SY较小、变量数最少,结构最简单的模型为

首选。【例6-7】研究板蓝根注射液含量的稳定性,在pH=6.28,温度为78℃下,测得保温时间与含量破坏百分比的结果如下,作保温时间t与含量破坏百分比p间的曲线拟合。散点图→线形模型或对数模型。线形模型:p

=1.60+0.14t,R2=0.932,P<0.05。对数模型:T=lnt,p

=-29.0+9.78T,还原t得到

p=-29.0+9.78lnt,R2=0.994,P<0.05。两者都有统计学意义,取决定系数大者。2023/10/2038【SPSS操作】以t、P为变量名,建立L6-7.sav。Analyze

→Regression→Curve

Estimation,p入Dependent[s],t入Variable,在Modeles框将11个复选项全选→OK。2023/10/2039Model

Summary

and

Parameter

estimates(模型概述和参数估计),都有意义。S形模型决定系数和F最大,p

=exp(b0+b1/

t)=

exp(3.38-59.08/t)=e(3.38-59.08/t)2023/10/20402023/10/2041§7

概率单位回归法计算半数致死量LD50

P97一、LD50的意义2023/10/20421.基本概念质反应:在群体所引起的(+)率表示的效应。效量(effective

dose,E):能引起某种质反应的剂量,说明质反应的大小,如致死量、致死时间等。半数致死量(50%

lethal

dose,LD50):使半数试验动物死亡的剂量。剂量-死亡率曲线:以剂量为横轴,死亡率为纵轴作图。不对称的“S”型曲线。剂量D

-死亡曲线(非对称的S型曲线)2023/10/2043二.概率单位法计算LD50【例6-8】注射不同剂量厚朴注射液的小白鼠死亡情况如表6-3。求LD50及其95%

置信区间。【SPSS】以剂量、鼠数、死亡数建L6-8.

savAnalyze→Regression→Probit(概率单位回归),死数入Response

Frequency,鼠数入TotalObserved,剂量入Covariates(协变量)→OK2023/10/2044剂量的回归系数=0.480,z=3.555,P=0.000,截距=-2.772,P=0.000,都有统计学意义;PROBIT(p)=Intercept+BX=-2.772+0.480×剂量2023/10/20452.

意义:剂量D→lgD,则(lgD,P)散点图呈现

为对称的S形,对称中心在死亡率=50%

处。对数剂量-死亡率曲线为一条对称的“S”型曲线,在死亡率50%处斜率最大,药物剂量稍有变动,死亡率有明显差别。LD50衡量毒力大小,稳定,误差较小。2023/10/2046Pearson拟合优度(Pearson

Goodness-of-fit

Test):χ2=0.238,P=0.888,P>0.15(预设),CI不异质性校正。2023/10/2047Prob=.50对应LD50

点估计5.771mg/

g。2023/10/2048§8

联合用药效应判断

P1011.协同、叠加与拮抗关系:剂量-效应:曲线关系,

D↑l倍,E不一定↑1倍。协同:

(1+1)>2叠加(独立):1<(1+1)

<2拮抗:(1+1)<1用等效概念表达两药联合应用效应:2023/10/20492023/10/20502.联合用药计量效应的判断2023/10/2051【例6-9】已知A与B对抗体指数均有抑制作用,研究二者联合用药的效应。(1)A、B两药各按近似等比级数取3个剂量,另加1空白,试验结果如表6-4。2023/10/20522023/10/2053【SPSS操作】以A药、效应为变量名建立L6-91.savA药剂量对数变换→Analyze→Regression→LinearRegression,ln为Independent、效应为dependent→Statistic,Confidence

intervals→Continue→OK。同样操作,以B药、效应为变量名建立数据L6-92.sav。2023/10/20542023/10/20552023/10/2056A药单用时对数剂量-效应回归无统计学意义,不建方程。为说明操作,求出A药单用时EA=1.18-0.51

logDA2023/10/20572023/10/20

58B药单用时对数剂量-效应回归有统计学意义。EB=1.12-0.51

logDB2023/10/20592023/10/2060§9

协方差分析(analysis

of

covariance)

P1022023/10/2061一.基本思想和应用条件概念:利用直线回归法消除混杂因素影响后进行的方差分析。常用于难以完全控制混杂因素的观察研究。基本思想:扣除混杂因素(

covariable协变量)x对y的影响→评价各种处理的效应。3.应用条件:①独立,正态,方差齐性;②回归系数b有统计学意义;③各组b之间差别无统计意义。④协变量是连续变量或等级变量,不能是影响处理的变量。比较的是修正均数,H0为修正后的均数相等。协变量有多个时,可用多元协方差分析。2023/10/2062二.完全随机设计资料的协方差分析【例6-10】

降压宁的临床实验的资料如表6-5,比较两组疗效是否相同。2023/10/2063【SPSS】以组别、用药前、用药后为变量

名,建立3列28行的数据文件

L6-10.sav。分3步来进行协方差分析。2023/10/2064第一步:散点图→直线趋势。(无直线趋势则不宜作协方差分析)。Graphs→legacy

dialogs→Scatter→

→Define,SimpleScatterplot,用药后入YAxis框,用药前入X

Axis→OK。两组均有直线趋势→协方差分析。2023/10/20652023/10/2066第二步:交互项→两总体β是否相等:2023/10/2067Analyze→General

Linear

Models→Univariate

用药后入Dependent

variable,组别入FixedFactors,用药前入Covariate→Model,⊙Custom,先组别、再用药前入Model,又将组别、用药前同时送入Model,选TypeⅠ(Ⅰ型方差分析模型)→Continue→OK。交互作用F=1.515,P=0.230,两组的斜率相同,故进一步分析。若交互作用有统计学意义,则不宜作协方差分析。2023/10/2068第三步:比较修正均数,操作同第二步。①不分析交互,把组别*用药前从Model移除;②对两组进行比较,采用LSD法。Analyze→General

Linear

Models→Univariate→Model,⊙Custom,将组别*用药前送出Model,Type

III(III型方差分析模型)→Continue→Options,将组别入Display

Means

for,Comparemain

effects→

Continue→OK。2023/10/20692023/10/20702023/10/20712023/10/2072三.配伍组(随机区组)设计资料协方差分析2023/10/2073【例6-11】将每窝3只出生3周体重34~38g的12窝大鼠,随机分到3组:A组喂缺乏核黄素饲料,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论