常用假设检验方法和回归综述_第1页
常用假设检验方法和回归综述_第2页
常用假设检验方法和回归综述_第3页
常用假设检验方法和回归综述_第4页
常用假设检验方法和回归综述_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常用假设检验方法和回归分析常用假设检验方法和回归分析综述综述昆明医学院公卫学院昆明医学院公卫学院流行病与卫生统计学系流行病与卫生统计学系何利平何利平 资资 料料计量资料计量资料计数资料计数资料等级资料等级资料正态分布资料正态分布资料非正态分布资料非正态分布资料t检验检验方差分析方差分析秩和检验秩和检验2检验检验秩和检验秩和检验常见的设计类型常见的设计类型w单样本设计单样本设计w配对设计配对设计w完全随机设计完全随机设计w配伍组设计配伍组设计w析因设计析因设计w拉丁方设计拉丁方设计w正交设计正交设计w重复测量重复测量单样本资料单样本资料(One-sample data)w已知一个总体的参数和一份

2、样本已知一个总体的参数和一份样本例例1: 某医生在一山区随机抽查了某医生在一山区随机抽查了25名名健康成年男子,求得脉搏均数为健康成年男子,求得脉搏均数为74.2次次/分,标准差为分,标准差为6.0次次/分。根据大量分。根据大量调查,健康成年男子的脉搏均数为调查,健康成年男子的脉搏均数为72次次/分,能否认为该山区健康成年男子分,能否认为该山区健康成年男子的脉搏均数高于一般?的脉搏均数高于一般?单样本资料单样本资料(One-sample data)单样本资料单样本资料(One-sample data)w例例2 某医师在某地某工厂随机抽取某医师在某地某工厂随机抽取16名工人,名工人,测得尿铅含量

3、测得尿铅含量(mol/L)mol/L)为为0.65,0.78,2.13,2.48,2.54,2.68,2.73,3.01,0.65,0.78,2.13,2.48,2.54,2.68,2.73,3.01,3.13,3.27,3.54,4.38,4.47,5.05,6.08,11.23.13,3.27,3.54,4.38,4.47,5.05,6.08,11.27.7.已知该地正常人尿铅含量的中位数为已知该地正常人尿铅含量的中位数为2.50 2.50 mol/Lmol/L,问该工厂工人的尿铅含量是否高于,问该工厂工人的尿铅含量是否高于当地正常人?当地正常人?配对资料配对资料(Paired-sampl

4、e data)w配对设计资料:将受试对象按一定条件配对设计资料:将受试对象按一定条件配成对子,分别给予每对中的两个受试配成对子,分别给予每对中的两个受试对象以不同的处理。对象以不同的处理。w自身对照资料:同一个受试对象给予不自身对照资料:同一个受试对象给予不同的处理或者处理前后的观察结果。同的处理或者处理前后的观察结果。配对资料配对资料(Paired-sample data)w例例3 15名接种卡介苗的儿童,名接种卡介苗的儿童,8周后用两批不同周后用两批不同的结核菌素,一批是标准结核菌素,一批是新的结核菌素,一批是标准结核菌素,一批是新制结核菌素,分别注射在儿童的左右前臂。以制结核菌素,分别注

5、射在儿童的左右前臂。以皮肤浸润直径(皮肤浸润直径(mm)为指标。数据如下表所)为指标。数据如下表所示。示。编号编号123456789101112131415标准品标准品12.014.515.513.012.010.57.59.015.013.014.014.06.511.05.5新制品新制品10.010.012.510.0 5.5 8.56.55.5 8.0 6.5 5.510.04.0 3.53.5例例4 为研究女性服用某避孕新药后是否影响为研究女性服用某避孕新药后是否影响其血清总胆固醇含量,将其血清总胆固醇含量,将20名女性按年龄配名女性按年龄配成成10对。每对中随机抽取一人服用新药,另对

6、。每对中随机抽取一人服用新药,另一人服用安慰剂。经过一定时间后,测得血一人服用安慰剂。经过一定时间后,测得血清总胆固醇含量(清总胆固醇含量(mmol/L),结果见下表。),结果见下表。问新药是否影响女性血清总胆固醇含量?问新药是否影响女性血清总胆固醇含量?配对资料配对资料(Paired-sample data)编号编号 1 2 3 4 5 6 7 8 910标准品标准品4.45.05.84.64.94.86.05.94.35.1新制品新制品6.25.25.55.04.45.45.06.45.86.2 两种方法测定水中硫酸盐的含量(两种方法测定水中硫酸盐的含量(mmol/L)水样号水样号(1)E

7、DTA法法(2)重量法重量法(3)1129.89119.58259.6852.63328.7929.68469.8570.56546.7842.5662.353.2171.562.42878.8870.56956.8750.551066.8562.45配对资料配对资料(Paired-sample data)配对资料配对资料(Paired-sample data)w例例6 某医院采用甲乙两种方法测定某医院采用甲乙两种方法测定60例恶性例恶性肿瘤患者体内肿瘤患者体内ck20基因表达阳性率,甲法测基因表达阳性率,甲法测定阳性率为定阳性率为70.0,乙法测定阳性率为,乙法测定阳性率为38.3,两种方法

8、一致测定阳性率为,两种方法一致测定阳性率为26.7。比。比较甲乙两种方法的测定阳性率是否有差异?较甲乙两种方法的测定阳性率是否有差异?组别组别阳性阳性阴性阴性合计合计阳性率阳性率()()甲法甲法4218 6070.0乙法乙法2337 6038.3合计合计655512054.2配对资料配对资料(Paired-sample data)甲法甲法乙法乙法合计合计162642 71118合计合计233760n成组设计(完全随机设计)成组设计(完全随机设计):将受试对将受试对象按照随机分配的原则分配到实验组和对象按照随机分配的原则分配到实验组和对照组中,然后给予不同的处理因素,对各照组中,然后给予不同的处

9、理因素,对各组的效应进行同期平行观察,最后比较各组的效应进行同期平行观察,最后比较各组的观察指标有无差别。组的观察指标有无差别。 成组设计成组设计( (completely randomized design) 例例7 为研究肥胖与脂质代谢的关系,在某地小学为研究肥胖与脂质代谢的关系,在某地小学中随机抽取中随机抽取30名肥胖儿童(肥胖组)和名肥胖儿童(肥胖组)和30名正常名正常儿童(对照组),用改良八木国夫法测定两组儿儿童(对照组),用改良八木国夫法测定两组儿童血中脂质过氧化物(童血中脂质过氧化物(LPO)得下表结果,)得下表结果,能否能否认为肥胖与脂质代谢有关?认为肥胖与脂质代谢有关?表表

10、两组儿童血中两组儿童血中LPO含量(含量( mol/L)分组n肥胖组309.361.83对照组307.580.64SX 成组设计两样本资料成组设计两样本资料成组设计两样本资料成组设计两样本资料w例例8 某医生随机抽取正常人和脑病病人各某医生随机抽取正常人和脑病病人各11例,测定尿中类固醇排出量(例,测定尿中类固醇排出量(mg/dl),结),结果如下表果如下表 分组分组尿中类固醇排出量(尿中类固醇排出量(mg/dl)正常人2.905.415.484.604.035.104.974.244.373.052.78脑病病人5.288.793.846.463.796.645.894.577.716.02

11、4.06成组设计两样本资料成组设计两样本资料w例例9 为观察美能注射液对酒精性脂肪肝降血为观察美能注射液对酒精性脂肪肝降血脂的作用,将脂的作用,将72例酒精性脂肪肝患者随机分例酒精性脂肪肝患者随机分为两组,为两组,观察组观察组38例例应用美能注射液静脉注应用美能注射液静脉注射,射,对照组对照组34例例口服非诺贝特胶囊,一个疗口服非诺贝特胶囊,一个疗程后比较两组疗效。结果见下表程后比较两组疗效。结果见下表 :分组分组时间时间TCTGLDL-CHDL-C观察组观察组治疗前治疗前6.60 1.123.32 1.223.86 0.760.82 0.16治疗后治疗后5.64 0.862.46 0.862

12、.86 0.701.74 0.24对照组对照组治疗前治疗前6.58 0.973.34 1.282.68 0.780.86 0.18治疗后治疗后5.49 0.822.34 0.882.58 0.681.68 0.18成组设计两样本资料成组设计两样本资料w例例10 2005年某县疾病预防控制中心为评价年某县疾病预防控制中心为评价该县小学生卡介苗抗体效价,随机抽取了该县小学生卡介苗抗体效价,随机抽取了30名小学生,测定结果见下表。名小学生,测定结果见下表。性性 别别卡介苗抗体滴度倒数卡介苗抗体滴度倒数男生男生40201604032080402040801604080404040女生女生8020160

13、4040160402040160160408040成组设计两样本资料成组设计两样本资料w例例11 某医生研究男性甲状腺机能减退症患者尺骨某医生研究男性甲状腺机能减退症患者尺骨骨矿含量与正常人是否有差别,随机抽取骨矿含量与正常人是否有差别,随机抽取10例患例患者和者和10例正常人,分别测得骨矿含量如下例正常人,分别测得骨矿含量如下(g/cm2)。)。患者组:患者组:0.31 0.35 0.37 0.39 0.52 0.62 0.62 0.63 0.74 0.98正常组:正常组:0.28 0.29 0.31 0.35 0.36 0.37 0.41 0.48 0.53 0.53w例例12 某医生用某

14、种中药治疗某医生用某种中药治疗I型糖尿病患型糖尿病患者和者和II型糖尿病患者共型糖尿病患者共45例,结果见下表。例,结果见下表。该中药对两型糖尿病的疗效有无差异?该中药对两型糖尿病的疗效有无差异?组别组别无效无效好转好转显效显效合计合计型糖尿型糖尿病病98 522型糖尿型糖尿病病391123成组设计两样本资料成组设计两样本资料成组设计两样本资料成组设计两样本资料w例例13 13 某医师为比较中药和西药治疗胃炎的疗某医师为比较中药和西药治疗胃炎的疗效,随机抽取效,随机抽取140140例胃炎患者分成中药组和西例胃炎患者分成中药组和西药组,结果中药组治疗药组,结果中药组治疗8080例,有效例,有效6

15、464例,西例,西药组治疗药组治疗6060例,有效例,有效3535例。中西药治疗胃炎例。中西药治疗胃炎的疗效有无差别?的疗效有无差别?组别组别有效有效无效无效合计合计中药中药641680西药西药352560四格表2检验的应用条件n 40和和T 5,用用 2检验。检验。n 40,1 T 5,校正校正 2检验。检验。n40,或,或T1,不能用不能用 2检验,可改检验,可改用确切概率法。用确切概率法。成组设计两样本资料成组设计两样本资料 中药和西药治疗胃炎患者有效率的比较中药和西药治疗胃炎患者有效率的比较药物药物有效有效无效无效合计合计中药中药6416 80西药西药3525 60合计合计994114

16、0成组设计两样本资料成组设计两样本资料中药和西药治疗非典病人有效率的比较中药和西药治疗非典病人有效率的比较 组别组别缓解数缓解数未缓解数未缓解数合计合计阳性率阳性率()()西药西药2101216.7中药中药14142850.0合计合计16244040.0(4.8)成组设计两样本资料成组设计两样本资料w为比较中西药治疗急性心肌梗塞的疗效,某为比较中西药治疗急性心肌梗塞的疗效,某医师将医师将27例急性心肌梗塞患者随机分成两例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见下表,组,分别给予中药和西药治疗,结果见下表,中药和西药的疗效是否有差异?中药和西药的疗效是否有差异?药物药物有效有

17、效无效无效合计合计有效率(有效率(%)中药中药1221485.7西药西药 671346.2合计合计1892766.7成组设计多样本资料成组设计多样本资料例例14 某社区随机抽取了某社区随机抽取了30名糖尿病人、名糖尿病人、IGT异常和正常人进行载脂蛋白(异常和正常人进行载脂蛋白(mg/dL)测)测定,结果见下表。问三种人的载脂蛋白有定,结果见下表。问三种人的载脂蛋白有无差别?无差别?人人 群群糖尿病人(糖尿病人(n=11)105.4510.87IGT异常者(异常者(n=9)102.3914.55正常人(正常人(n=10)122.8017.07sx 成组设计多样本资料成组设计多样本资料w例例15

18、 某医生为研究慢性阻塞性肺部疾病患者某医生为研究慢性阻塞性肺部疾病患者的肺动脉血氧分压情况,按肺动脉压的分级的肺动脉血氧分压情况,按肺动脉压的分级标准将标准将44例患者随机分为三组,分别测量肺例患者随机分为三组,分别测量肺动脉血氧分压,结果见下表。三组患者之间动脉血氧分压,结果见下表。三组患者之间动脉血氧分压有无差异?动脉血氧分压有无差异?肺动脉正常组肺动脉正常组556969728080849091929297100108109隐性肺动脉高隐性肺动脉高压组压组455657596666707476777880839092肺动脉高压组肺动脉高压组24383942505056606265687181

19、81成组设计多样本资料成组设计多样本资料三种中药治疗流感的疗效比较三种中药治疗流感的疗效比较组别组别有效有效例数例数无效无效例数例数合计合计有效率有效率()()热毒清热毒清 5826096.7板兰根板兰根48 126080.0复方板复方板兰根兰根57 36095.0合计合计1631718090.6成组设计多样本资料成组设计多样本资料w例例17 某医生用七氟醚对即行肺切除术的三组某医生用七氟醚对即行肺切除术的三组患者进行麻醉,麻醉效果分三级,结果如下,患者进行麻醉,麻醉效果分三级,结果如下,问三组患者的麻醉效果是否相同?问三组患者的麻醉效果是否相同?组别组别合计合计肺癌肺癌 1813839肺化脓

20、症肺化脓症12151340肺结核肺结核 9111939随机区组设计随机区组设计(Randomized block design)w又称为配伍设计,它是配对设计的扩大。随又称为配伍设计,它是配对设计的扩大。随机区组设计是将几个条件相同的受试对象划机区组设计是将几个条件相同的受试对象划成一个区组,区组中观察对象的数量取决于成一个区组,区组中观察对象的数量取决于对比组的组数。如处理因素有四个对比组,对比组的组数。如处理因素有四个对比组,则一个区组就有四个或八个受试对象。将区则一个区组就有四个或八个受试对象。将区组中的受试对象采用随机的方法,分配到不组中的受试对象采用随机的方法,分配到不同的对比组中,

21、以增强各对比组的均衡性。同的对比组中,以增强各对比组的均衡性。随机区组设计资料随机区组设计资料w例例18 对小白鼠喂以对小白鼠喂以A、B、C三种不同的营三种不同的营养素,目的是了解不同营养素增重的效果。养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影组的特征,以消除遗传因素对体重增长的影响。现将同品系、同体重的响。现将同品系、同体重的 24只小白鼠分为只小白鼠分为8个区组,每个区组个区组,每个区组3只小白鼠。三周后体重只小白鼠。三周后体重增加结果(克)列于表增加结果(克)列于表3。问小白鼠经

22、三种不。问小白鼠经三种不同营养素喂养后所增体重有无差别?同营养素喂养后所增体重有无差别?表表 不同营养素组小白鼠增加体重不同营养素组小白鼠增加体重(g)配伍组配伍组ABC150.158.264.557.6247.848.562.452.9353.153.858.655.2463.564.272.566.7571.268.479.373.0641.445.738.441.8761.953.051.255.4842.239.846.242.7合计合计431.2431.6473.1 24 (N)53.9053.9559.1455.66 ( )iXXjX随机区组设计资料随机区组设计资料w例例19 观测

23、龙葵浓缩果汁对观测龙葵浓缩果汁对S180实体瘤实体瘤NK细细胞活性的影响,将同种属的胞活性的影响,将同种属的32只大白鼠按窝只大白鼠按窝别、性别、体重配成别、性别、体重配成10个区组,建成个区组,建成S180实实体瘤模型。一定时间后将小鼠脱椎处死,测体瘤模型。一定时间后将小鼠脱椎处死,测定并计算定并计算NK细胞活性,结果见下表,不同剂细胞活性,结果见下表,不同剂量组之间小鼠量组之间小鼠NK细胞活性有无差异?细胞活性有无差异?表表 龙葵浓缩果汁不同剂量组小鼠龙葵浓缩果汁不同剂量组小鼠NK细细胞活性测定结果(胞活性测定结果(%)配伍组配伍组高剂量组高剂量组 中剂量组中剂量组 低剂量组低剂量组对照组

24、对照组 120.717.312.3 6.5 212.411.618.6 8.4 314.914.610.811.3 418.5 9.419.915.6 513.2 9.0 9.0 8.9 614.220.111.514.1 712.811.57.312.3 813.511.714.710.6 914.410.912.6 9.81013.818.4 9.5 7.2析因设计资料析因设计资料(Factorial design data)w例例20 某研究人员为了解升白细胞药物和纯苯对大某研究人员为了解升白细胞药物和纯苯对大鼠吞噬指数的影响,以及两者同时使用的作用,鼠吞噬指数的影响,以及两者同时使用的

25、作用,将将20只性别相同、体重相近的大鼠,按只性别相同、体重相近的大鼠,按A、B两因两因素有无分为四组,测得其吞噬指数结果如下素有无分为四组,测得其吞噬指数结果如下:用升白细胞药物用升白细胞药物不用升白细胞药物不用升白细胞药物用纯苯用纯苯不用纯苯不用纯苯用纯苯用纯苯不用纯苯不用纯苯1.943.801.853.882.253.902.013.842.034.062.103.962.103.851.923.922.083.842.043.80析因设计资料析因设计资料w结果:结果:SourceSSdfMSFsigA 0.0141 0.014 1.5190.236B 17.1681 17.168185

26、7.0090.000 A*B 0.0091 0.009 1.0000.332拉丁方设计(拉丁方设计(Latin square design)w拉丁方设计是将三个因素按水平数拉丁方设计是将三个因素按水平数r排列排列成一个成一个rr随机方阵,要求各因素的水随机方阵,要求各因素的水平数相等且无交互作用,并要尽量避免平数相等且无交互作用,并要尽量避免数据缺失。可以用较少的重复次数获得数据缺失。可以用较少的重复次数获得较多的信息。较多的信息。拉丁方设计资料拉丁方设计资料w例例21 为研究不同剂量甲状腺素注射液对甲状腺体为研究不同剂量甲状腺素注射液对甲状腺体的影响,以豚鼠的影响,以豚鼠5个种系,每个种系各

27、个种系,每个种系各5只,分养于只,分养于5个笼子,每笼内放置各种系豚鼠个笼子,每笼内放置各种系豚鼠1只,并以甲状腺只,并以甲状腺素的素的5个不同剂量分别注射,测得甲状腺素的重量个不同剂量分别注射,测得甲状腺素的重量如下表:如下表:种系种系 笼号笼号甲甲C(65)E(85)A(57)B(49)D(79)乙乙E(82)A (73)D(92)B(81)B(63)丙丙D(68)C(67)A(56)D(77)C(51)丁丁B(63)E(99)C(70)E(76)A(41)戊戊D(75)A(46)B(52)E(68)C(66)拉丁方设计资料拉丁方设计资料w结果:结果:SourceSSdfMSFsig剂量剂

28、量2690.9604672.7408.0080.002种系种系 375.7604 93.9401.1180.393笼子笼子 908.1604227.0402.7030.081正交设计正交设计(Orthogonal design)w正交设计利用一套规格化的正交表将各实验正交设计利用一套规格化的正交表将各实验因素、各水平之间的组合均匀搭配,合理安因素、各水平之间的组合均匀搭配,合理安排,大大减少实验次数,提供较多的信息。排,大大减少实验次数,提供较多的信息。w正交设计可以了解哪些因素存在交互效应,正交设计可以了解哪些因素存在交互效应,还可以找出诸因素各水平的最佳组合;避免还可以找出诸因素各水平的最

29、佳组合;避免了析因设计的全面试验、工作量大的弊病。了析因设计的全面试验、工作量大的弊病。正交设计资料正交设计资料w例例22 过氧乙酸是广泛使用的消毒剂,但其有效成过氧乙酸是广泛使用的消毒剂,但其有效成分极不稳定,以致影响其消毒效果。现欲通过实分极不稳定,以致影响其消毒效果。现欲通过实验找出有关因素对其稳定性的影响,选出各因素验找出有关因素对其稳定性的影响,选出各因素的一个最佳组合,组成保持过氧乙酸稳定性的最的一个最佳组合,组成保持过氧乙酸稳定性的最优条件。已知的可能影响因素及水平有:优条件。已知的可能影响因素及水平有:水平水平12A:稳定剂:稳定剂加磷酸加磷酸0.3%不加磷酸不加磷酸B:水浴温

30、度:水浴温度2530oC3540oCC:浸泡口表:浸泡口表浸泡口表浸泡口表10支支不浸口表不浸口表D:加盖与否:加盖与否加盖加盖不加盖不加盖正交设计资料正交设计资料w同时稳定剂和水浴温度、稳定剂与加盖与否间可同时稳定剂和水浴温度、稳定剂与加盖与否间可能存在交互效应。现根据能存在交互效应。现根据L8正交设计表进行了实正交设计表进行了实验,每种组合重复两次,测得数据如下:验,每种组合重复两次,测得数据如下:ABCD第一次测量第一次测量第二次测量第二次测量11117.004.1111226.053.5012121.100.8012211.900.9621122.401.6521214.001.502

31、2110.350.3022220.300.90正交设计资料正交设计资料w结果:结果:SourceSSdfMSFsigA12.285112.2859.2720.014B34.810134.81026.2740.001C0.12210.1220.0920.768D0.73110.7310.5520.477 A*B4.20214.2023.1720.109 A*D0.16410.1640.1240.733重复测量资料(重复测量资料(Repeated measurement data)w重复测量资料:同一受试对象的同一观察指重复测量资料:同一受试对象的同一观察指标在不同时间点上进行测量所得的资料。标在

32、不同时间点上进行测量所得的资料。w重复测量资料的方差分析,除需满足一般方重复测量资料的方差分析,除需满足一般方差分析的条件外,还需满足协方差阵差分析的条件外,还需满足协方差阵(covariance matrix)的球形性)的球形性(sphericity)。球对称性通常采用)。球对称性通常采用Mauchly检验来判断。检验来判断。重复测量资料重复测量资料w例例23 某研究者为了解某药对血液某因某研究者为了解某药对血液某因子的提升作用,将子的提升作用,将16名患者随机分为名患者随机分为2组,一组用该药,另一组用传统药,组,一组用该药,另一组用传统药,分别与治疗前和治疗后分别与治疗前和治疗后1,2,

33、3周测定结周测定结果,资料如下:果,资料如下:重复测量资料重复测量资料受试受试对象对象j组别组别k测定时间测定时间i(周)(周)受试受试对象对象j组别组别k测定时间测定时间i(周)(周)01230123119.7354.6155.9146.81925.6426.3231.5645.69215.5050.8779.9082.371022.5615.2423.2633.27317.9633.4346.1056.211123.6918.7521.3035.69412.3718.6533.1256.051227.5222.3232.5642.12514.3725.8551.2668.231328.33

34、32.2141.5655.12616.3048.2365.1878.361425.6841.1253.4562.54718.3452.1365.3269.511523.6638.5645.1656.33812.9823.4546.8756.211624.8731.2542.6545.77重复测量资料重复测量资料w结果:结果:SourceSSdfMSFP处理处理 2214.05512214.055 7.4870.016时间时间22615.62337538.541145.3380.000处理处理*时间时间 826.4113 275.470 5.3110.003回归分析(回归分析(Regressio

35、n analysis)w线性回归(线性回归(Linear regression)wLogistic回归(回归(Logistic regression)wCox回归(回归(Cox regression)w例例24 为探讨父母身高对子女成年后身高的影响,为探讨父母身高对子女成年后身高的影响,某研究者调查了某研究者调查了12个家庭的父母和成年儿子的身个家庭的父母和成年儿子的身高,见下表,请建立回归方程。高,见下表,请建立回归方程。 家庭编号家庭编号父亲身高父亲身高x1(cm) 母亲身高母亲身高x2(cm) 儿子身高儿子身高y(cm)1172149173218816719031761641824170

36、14917051851701956182164190717316218281851601899179158182101701501721116816017012170164178w回归分析的前提条件回归分析的前提条件线性(线性(Linearity)独立性(独立性(Independence)正态性(正态性(Normality)等方差(等方差(Equal variance)线性回归线性回归(Linear regression)线性回归线性回归(Linear regression)线性回归方程线性回归方程kkxbxbxbby 22110b1,b2 2bk称偏回归系数(称偏回归系数(Partial r

37、egression coefficient),),b0 0为截距为截距(intercept)。)。w 偏回归系数(偏回归系数(Partial regression coefficient):): bk是自变量是自变量xk的偏回归系数,的偏回归系数,表示当方程中其它自变量保持不变表示当方程中其它自变量保持不变时,自变量时,自变量xk每变化一个单位,应每变化一个单位,应变量平均变化变量平均变化bk个单位。个单位。线性回归线性回归(Linear regression)w标准化偏回归系数(标准化偏回归系数(standardized partial regression coefficient) 表示自

38、变量对应变量的贡献大表示自变量对应变量的贡献大小的指标,标准化偏回归系数越大,小的指标,标准化偏回归系数越大,表示自变量对应变量的贡献越大。表示自变量对应变量的贡献越大。线性回归线性回归(Linear regression)线性回归线性回归(Linear regression)w例例24 中以儿子的身高为应变量中以儿子的身高为应变量Y,父亲的身高父亲的身高X1、母亲的身高、母亲的身高X2为自为自变量,进行多重回归分析,所得的变量,进行多重回归分析,所得的回归模型(方程)为回归模型(方程)为21445. 0861. 0940.41XXY线性回归线性回归(Linear regression)w 假

39、设检验:假设检验: (1 1)多重线性回归方程的假设检验:)多重线性回归方程的假设检验: 检验应变量检验应变量y y与与P P个自变量之间是否个自变量之间是否存在线性回归关系,用方差分析。存在线性回归关系,用方差分析。FMSMSRE 线性回归线性回归(Linear regression)wH0:12i0wH1:各偏回归系数:各偏回归系数i不全为不全为0w0.05w可认为父母身高与儿子身高的多重线性回归方程有可认为父母身高与儿子身高的多重线性回归方程有统计学意义,回归方程成立。统计学意义,回归方程成立。SourceSSdfMSFsig回归回归 767.509 2 383.75464.6680.0

40、00残差残差 53.408 9 5.934 总总 820.91711(2)偏回归系数的假设检验:偏回归系数的假设检验: 为检验每个自变量是否对为检验每个自变量是否对y y都有线性回都有线性回归关系,需分别对每个自变量进行假设检归关系,需分别对每个自变量进行假设检验,以免把作用不显著的自变量引入方程验,以免把作用不显著的自变量引入方程中。中。 t t检验:检验: 计算一个包含计算一个包含P P个自变量的多重线性回个自变量的多重线性回归方程,再用归方程,再用t t检验法对各偏回归系数进行检验法对各偏回归系数进行假设检验。假设检验。线性回归线性回归(Linear regression)线性回归线性回

41、归(Linear regression)wH0:i0wH1:i0w0.05wP10.001,P2=0.008,均拒绝,均拒绝H0,接受,接受H1,可认,可认为父亲身高和母亲身高的偏回归系数均有统计学意为父亲身高和母亲身高的偏回归系数均有统计学意义。义。 ibiSbt0模型模型偏回归系数偏回归系数标准误标准误标准回归系数标准回归系数t值值P值值常数项常数项-41.94019.650-2.1340.062父亲身高父亲身高 0.861 0.1320.701 6.5270.000母亲身高母亲身高 0.445 0.1320.363 3.3820.008线性回归线性回归(Linear regression

42、)w回归方程为回归方程为wX1的偏回归系数的偏回归系数b10.861的意义为母亲身的意义为母亲身高不变的情况下,父亲身高每增加高不变的情况下,父亲身高每增加1cm,儿,儿子的身高平均增加子的身高平均增加0.861cm。w标化偏回归系数分别为标化偏回归系数分别为0.701和和0.363。即对。即对儿子身高影响较大的是父亲的身高,其次为儿子身高影响较大的是父亲的身高,其次为母亲的身高。母亲的身高。21445. 0861. 0940.41XXYw筛选自变量的方法:筛选自变量的方法:最优子集法(最优子集法(the best subset):得到):得到的回归方程残差最小。的回归方程残差最小。强制法(强

43、制法(enter):即所有自变量均进入):即所有自变量均进入方程。方程。向前法(向前法(forward)向后法(向后法(backward):可反映自变量间):可反映自变量间的交互作用。的交互作用。逐步法(逐步法(stepwise)线性回归线性回归(Linear regression)线性回归线性回归(Linear regression)w例例25 某医学院校对某医学院校对25名健康男性教工测定年名健康男性教工测定年龄(龄(x1)、体重()、体重(x2) 、跑完、跑完1000米用时米用时(x3) 、跑时平均脉搏数(、跑时平均脉搏数(x4) 、跑后动脉、跑后动脉血氧分压(血氧分压(y),要分析跑后

44、动脉血氧分压与),要分析跑后动脉血氧分压与其它其它4项指标的关系。项指标的关系。线性回归线性回归(Linear regression)wH0:1340wH1:各偏回归系数:各偏回归系数i不全为不全为0w0.05w可认为回归方程成立。可认为回归方程成立。SourceSSdfMSFsig回归回归12.80334.26820.7000.000残差残差4.330210.206总总17.13324线性回归线性回归(Linear regression)wH0:i0wH1:i0w0.05ibiSbt0模型模型偏回归偏回归系数系数标准误标准误标准回归标准回归系数系数t值值P值值常数项常数项8.8102.068

45、4.2590.000年龄年龄-0.0760.018-0.508-4.307 0.000所用时间所用时间-0.5340.109-0.581-4.909 0.000跑时平均心率跑时平均心率0.0240.0110.2782.2850.033线性回归线性回归(Linear regression)w以跑后动脉血氧分压以跑后动脉血氧分压Y为应变量,年龄为应变量,年龄X1、体重体重X2 、跑完、跑完1000米用时米用时X3、跑时平均、跑时平均脉搏数脉搏数X4为自变量做线性回归分析,所得为自变量做线性回归分析,所得的回归模型(方程)为:的回归模型(方程)为:431024. 0538. 0076. 0810.

46、8XXXY线性回归线性回归(Linear regression)w标化偏回归系数分别为标化偏回归系数分别为-0.508、-0.581和和0.278。即对跑后动脉血氧分压影响。即对跑后动脉血氧分压影响较大的是跑完较大的是跑完1000米用时,其次为年龄。米用时,其次为年龄。 Logistic回归回归计数资料计数资料二分类二分类多分类多分类等级资料等级资料Binary Logistic regressionMultinomial Logistic regressionOrdinal regressionw哪些因素导致了人群中有的人患胃癌而哪些因素导致了人群中有的人患胃癌而有的人不患胃癌有的人不患胃癌

47、?w哪些因素导致了手术后有的人感染,而哪些因素导致了手术后有的人感染,而有的人不感染?有的人不感染?Logistic回归回归wLogistic回归的概念:Logistic回归是一种用于多因素分析的曲线模型,特别适用于应变量为离散型多项分类的资料。二分类二分类Logistic回归回归wLogistic回归的概率公式:回归的概率公式:1).exp(11)0().exp(1).exp()1(01221102211022110QpxxxYQxxxxxxYPYmmmmmm出现失败的结果出现成功的结果 对概率P取logit变换,则Logistic回归模型变成:mmxxxQPPit.)ln()(log221

48、10即:变量logit(P)关于x的线性函数。 P/Q表示了某事件发生的比数比(odds)。Logistic回归对变量的要求:应变量为二分类或多分类变量自变量为数值变量、等级或二分类变量多分类的计数资料需进行变量转换,形成一组哑变量(dummy variable)筛选自变量:l 意义:l 方法:前进法(Forward)后退法(Backward)逐步法(Stepwise)筛选方法:似然比检验、Wald检验w检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。 检验方法检验方法 似然比检验似然比检验 (likelihood ratio test) 检验全部自变量(包括常数项)对应变量的

49、联检验全部自变量(包括常数项)对应变量的联合作用,即整个回归方程是否有意义。合作用,即整个回归方程是否有意义。0:210mH1:12)0jHjm各 (, , ,不全为说明自变量对说明自变量对y的作用是否有的作用是否有统计意义。统计意义。w检验二:检验模型中某检验二:检验模型中某是否对是否对y有作用。有作用。 检验假设:检验假设: 检验统计量:主要为检验统计量:主要为Wald检验检验0:0jH1:0jH22)(jbjSb=1Logistic回归系数的解释:l当偏回归系数为正时,x增加,OR增加,为危险因素。l当偏回归系数为负时,x增加导致OR减小,为保护因素。Logistic 回归中回归系数的意

50、义回归中回归系数的意义Logistic 回归中回归系数的意义回归中回归系数的意义0(常数项)(常数项):暴露因素:暴露因素xi=0时,个体发病时,个体发病概率与不发病概率之比的自然对数比值。概率与不发病概率之比的自然对数比值。 0=)0|0(1)0|1(ln xyPxyPmmxxxPP 22110=1lnlogit(P)Logistic 回归中回归系数的意义回归中回归系数的意义w当某暴露因素当某暴露因素xi(危险因素)(危险因素)只有两个水只有两个水平平时,且暴露时为时,且暴露时为1,不暴露时为,不暴露时为0, 则则模型中该暴露变量前的系数模型中该暴露变量前的系数i就是当其它就是当其它变量值固

51、定时,变量值固定时, xi暴露与不暴露的比数比暴露与不暴露的比数比的对数值。的对数值。 即即:Ln(OR) = i 或或 OR = exp(i)Logistic 回归中回归系数的意义回归中回归系数的意义w当暴露因素为当暴露因素为等级变量等级变量时,如收入水平,时,如收入水平, xi 的取值为:的取值为:1、2、3、 4表示不同的表示不同的等级。等级。 i的意义为当其它变量值固定时,的意义为当其它变量值固定时,xi每相差一个等级时的比数比的对数,而每相差一个等级时的比数比的对数,而Exp(i)表示表示xi每增加一个等级时的比数每增加一个等级时的比数比比Logistic 回归中回归系数的意义回归中

52、回归系数的意义w当暴露因素为当暴露因素为连续变量连续变量(如年龄)时,(如年龄)时,i i就表示当其它变量值固定时就表示当其它变量值固定时, ,年龄每增年龄每增加一岁时比数比的对数。加一岁时比数比的对数。Exp(Exp(i i) )表示年表示年龄增加一岁时比数比。龄增加一岁时比数比。例例26 26 自变量是分类型变量自变量是分类型变量 为了了解冠心病与种族的关系,某研究所为了了解冠心病与种族的关系,某研究所调查了调查了100100个样品,数据列在下表中。试估计各个样品,数据列在下表中。试估计各种族间患冠心病的相对危险度。种族间患冠心病的相对危险度。设设y=1表示患冠心病,表示患冠心病,y=0表

53、示未患冠心病。把种表示未患冠心病。把种族转换为两个哑变量族转换为两个哑变量, x(1)=1表示黑人,表示黑人,x(2)=1表表示其它种族示其它种族,两个哑变量都为两个哑变量都为0时表示白人时表示白人.Variables in the Equation11.3322.0032.079.63210.8101.0018.0001.609.5837.6181.0065.000-1.386.5007.6871.006.250XX(1)X(2)ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X.a. 模型总体检验结果说明该模型具有统计意义模型总体检验结果说明该模型具有统计意义(p=0.0035)。参数检验说明,黑人与白人患冠心病的相对危险度是:参数检验说明,黑人与白人患冠心病的相对危险度是:OR=8(p=0.0010),说明黑人患冠心病的几率大约是白人的说明黑人患冠心病的几率大约

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论