




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
[例1]引水氟化是否有致癌作用?
1978年8月9号美国一著名报纸刊登了一条科技信息:某单位对美国20个城市做饮水氟化研究,10个城市的饮水氟化,而另10个城市未氟化作对照,结论是:“饮水氟化有致癌作用”。前述论文发表后,受到美国癌肿协会和英国统计协会的怀疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。第一分析法完全用单因素分析法,而后一个结论则把两个城市中的种族、生活环境上的不同尽可能地扣除,再去比较两组城市的癌症患病率。
[例2]携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?!
这中间存在混杂因素---吸烟
客观事实,携带火柴不可能引起肺癌。
混杂因素的影响
携带火柴?肺癌
吸烟混杂因素的定义
当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。排除混杂因素的两种方法
★分层分析★多元统计分析分层分析的优缺点
优点:直观简洁。
缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。
多元统计分析的特点
优点有两个:
★多元统计分析的资料较容易取得;
★多元统计分析可以从整体上分析结果
多元统计分析的前提条件
★多元统计对所分析资料的分布有一定的要求;
★需要有足够大的样本,一般认为,样本的例数n是研究因素个数m的5-10倍。
多元统计分析的学习方法★掌握各种统计学方法的前提条件和应用资料类型。★借助统计软件(SAS,SPSS,CHISS)完成计算的程序。★正确解释输出的结果。多重线性回归1.多元统计分析指标的量化法
在作各种多元统计分析时,除定量资料的指标不需要量化外,分类(包括名义性)变量需进行量化,其方法是:(1)二分类如“性别(SEX)”这个变量,我们不能将其取值“男(或M)”、“女(或F)”直接代入回归方程中去计算,因为它的具体表现不是数据而是文字和符号,而需要用“0”、“1”分别代替两种性别,此时,就说变量SEX是一个二值变量。(2)有序多分类
按照有序的顺序,从低到高(或从小到大)依次赋值:0,1,2,…。如:家庭月收入情况(元):<50,50-,500-,2000,≥10000分为5个等级,可依次赋值为:0,1,2,3,4。(3)无序多分类
如:若设W代表血型变量,则W的状态就有4种情况,即W=A型、W=B型、W=AB型、W=O型。此时需引入3个哑变量。现假设以O型为基准,则3个哑变量X1、X2、X3可按如下方式来定义:
A型——X1=1、X2=0、X3=0;
B型——X1=0、X2=1、X3=0;
AB型——X1=0、X2=0、X3=1;
O型——X1=0、X2=0、X3=0。一般情况下,若某定性变量有m个水平,就需要引入m-1个二值的哑变量。
假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:多元相关与线性回归
(nultiplepartialcorrelationandlinearregression)
在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。
人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间例子2.多重线性回归
(multiplelinearregression)(1)概念:多重线性回归是研究多个自变量与一个因变量之间数量关系并用方程表示出来的一种统计方法。因变量:近似服从正态分布的连续型变量自变量:一系列互相独立的连续型或分类变量
(2)数据结构
设研究问题中含有p个指标变量x1,x2,…,xp及Y,n个观察对象,其数据结构见表3。
表3多重线性回归分析数据结构编号X1X2
….XPy1x11x21
…x1py12x12x22
…x2py2
3x13x23
…x3py3
…
…
…
…
…
nx1nx2n
…xnpyp(3)多重线性回归模型通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象值,利用最小二乘法原理,建立多元线性回归模型:
其中b0为截距,b1,b2
…bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位.多重线性回归模型的一般形式
设在第i个点的实际观测值为
由回归方程得到的预测值为:多元回归分析的截距和回归系数的计算与直线回归类似。采用最小二乘法的判断准则:(4)多重线性回归的作用建立回归模型:
预测预报
若已知x1,x2
…xp数值大小时,通过模型可以预测y的值以及估计y的变化范围;因素分析
找出对因变量y有影响的因素。(5)前提条件独立。n个个体之间互相独立;正态。给定X1,X2,…,Xp的数值后,相应的y值服从正态分布;等方差。当X1,X2,…,Xp的数值变动时,相应的y有相同的方差。应用条件(6)回归分析的具体任务1)采用最小二乘法原理确定方程中系数bii=0,1,2,3…p;2)采用F检验对回归方程整体进行假设检验;3)采用t检验对方程中的每个系数bi进行假设检验。4)结合专业给出合理的解释。(7)一般多元线性回归
例3测得10名女中学生体重x1(kg)、胸围x2(cm)、呼吸差x3(cm)及肺活量y(ml)的测量值列于下表。试建立体重、胸围、胸围呼吸差与肺活量的关系。135690.71600240742.52600340642.02100442743.02650537721.12400645681.52200743784.32750837662.01600944703.227501042653.02500SPSS操作过程Analyze---Regression---Linear---y选入Dependent---x1、x2、X3选入Independent---ok回归模型残差总变异决定系数
(determinationcoefficient)说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好
复相关系数
(multiplecorrelation
coefficient)说明所有自变量与Y间的线性相关程度。即观察值Y与估计值之间的相关程度。如果只有一个自变量,此时
校正决定系数
(Adjusteddeterminationcoefficient)
因此,所求的多重线性回归方程为:偏回归系数标准误标准化偏回归系数变量间作用大小的比较
标准化回归系数:Si,Sy为变量Xi和Y的标准差。标准化回归系数绝对值越大,该变量对Y的影响越大。(8)自变量的选择1.变量多增加了模型的复杂度
2.计算量增大
3.估计和预测的精度下降
4.模型应用费用增加在多重线性回归分析中是将全部自变量与Y建回归方程,当考虑的自变量很多时,常常存在许多对因变量影响无统计学意义的变量,它们的存在一方面增加了模型的复杂性,另一方面影响模型的效果。因此必须把它们从模型中剔除,从而优化模型。筛选变量的方法(主要有3种)(8)筛选变量的方法(主要有3种)开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由大到小依次挑选,变量入选的条件是其P值小于规定进入方程P界值ENTRY,缺省值0.05。向前法(forward)向前法优点:计算量小;容易找到单独效果好的变量。缺点:只进不出;一次只能引入一个自变量,若两个变量在一起时效果好,单独一个却效果不好,这样的变量便无机会被选中。
后退法(backward)开始变量都在方程中,然后按自变量对因变量的贡献(P值的大小)由小到大依次剔除,变量剔除的条件是其P值大于规定的剔除标准Removal,缺省值为0.1。优点:1次能引入多个自变量,若两个变量在一起时效果好容易被选中。缺点:只出不进。逐步回归法(stepwise)将前进和后退两种方法结合起来,既考虑引入变量又考虑剔除变量。有两个界值,Entry/Removal调试法:Entry,Removal常取0.5,0.1,0.05。一般实际用时,应多次选取调整。引入标准小于剔除标准SPSS实现方法:Analyze---Regression---Linear---y选入Dependentx1、x2、X3选入IndependentMethod---Stepwise
Backward
Forward---ok如何选择这几种方法?拟合的回归方程整体上有显著性意义;各回归参数的估计值的假设检验结果都有显著性意义;各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合根据回归方程计算出因变量的所有预测值在专业上都有意义(9)回归模型好坏的评价1)拟合的回归方程在总体上有统计学意义2)决定系数R2
亦称复相关系数平方
R2=1-SS残/SS总=SS模/SS总,它表示在因变量y的总变异中可由回归方程所解释部分的比例。0<R2≤1,越接近于1,说明回归方程效果越好。
决定系数是随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正:
AdjR2=R2
–k(1-R2)/(n-k-1),0<AdjR2≤1,越接近于1,说明回归方程效果越好。(n为样本含量,k为方程中自变量的个数)
3)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。4)剩余标准差或标准估计误差(standarderrorofestimate)
它反映了应变量在扣除自变量的线性影响后的离散程度;剩余标准差越接近于0,说明回归方程效果越好。(10)自变量间的共线性问题当自变量均为随机变量时,若他们之间高度相关,则称自变量间存在共线性(colinearity)。共线性会给多重回归带来很大麻烦,其参数估计自然极不稳定,甚至参数值可大可小,可正可负,其意义无法解释;有时,参数估计值的标准差很大,以致该参数估计值的统计学意义受到怀疑。克服共线性的方法逐步回归分析主成分回归分析岭回归逐步选择变量是对付共线性的办法之一,经逐步选择后,两个高度相关的自变量X1
和X2
常常不能同时进入方程,但两者高度相关,谁先进入方程带有偶然性。经逐步选择后,固然克服了共线性的麻烦,同时也丢失一部分可利用的信息,故将高度相关的几个变量的信息综合起来参与回归,即进行主成分回归分析。
例4某医科大学教授收集了北京博爱医院在1994年1月—2002年7月期间收治的脑卒中患者462例的病历,选取了以下8个变量:年龄x1、性别x2、住院天数(LOS,Lengthofstay)x3、病变类型(梗塞或出血)x4、病变部位(左侧或右侧)x5、入院时的ADL值(ADL入院)x6、发病到入院康复治疗的间隔时间(OAI,Onset-addmisioninterval)x7、出院时的ADL值(ADL出院)Y。应用多重线性回归分析,探讨出院时的ADL值y与7个自变量x1-x7间的联系。
日常生活活动(activitiesofdailyliving,ADL)是人在独立生活中反复进行的、最必要的基本活动。脑卒中后患者的ADL能力会受到不同程度的影响,给家庭和社会带来了巨大的负担。操作过程:Analyze---Regression---Linear---ADL值y选入Dependentx1-x7选入IndependentMethod-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年广东环境保护工程职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年广东信息工程职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 2025年平顶山工业职业技术学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 2025年山西国际商务职业学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 2025年山东电子职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年宜春幼儿师范高等专科学校高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 2025年安顺职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年安徽中医药高等专科学校高职单招高职单招英语2016-2024历年频考点试题含答案解析
- Excel基础知识培训课件
- 内蒙古大学创业学院《病理生理学案例教学》2023-2024学年第一学期期末试卷
- 山东省泰安市新泰市2023年七年级下学期期中数学试题【含答案】
- 建筑概论(第二版)课件
- 版国际《压力性损伤的预防与治疗:临床实践指南》解读
- 《上一堂朴素的语文课》读书交流1
- 工程经济与项目管理(慕课版)
- 某国企2023年度经营管理工作总结和2024年工作思路
- 配电工程投标方案(完整技术标)
- 幼儿行为观察与分析案例教程第2版全套教学课件
- 初中政治答题卡模板A4
- 普通心理学第六版PPT完整全套教学课件
- 北师大版八年级数学下册 (图形的平移)图形的平移与旋转新课件
评论
0/150
提交评论