版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
QualitativeDataAnalysis
定性数据分析
第1页名人格言谬误好处是一时,真理好处是永久,真理有弊病时,这些弊病会很快被消灭,而谬误弊病则与谬误始终相随。
狄德罗(法国思想家,1713—1784)第2页案例1:评价办法讨论如何评价男女生在德、智、体差异?如何评价A、B、C三种降压药品疗效差异?第3页什么是定性数据?定性数据(qualitativedata)或称为分类数据(categoricaldata),其观测值是定性,体现为互不相容类别或属性。例如患者服药后结局为治愈和未治愈,生存和死亡、阴性和阳性等。定性数据统计分析主要是如何估计总体率及如何推断两个及两个以上总体率或组成比是否有差异、两个分类变量间有没有有关关系等。
第4页第一节
率估计一、率点估计与总体均数估计相同,从总体中随机抽取一种样本,从样本计算得到率是总体率点估计值。例132例美国冠心病黑人在进行心脏搭桥手术后,有5人死亡,试估计美国冠心病黑人心脏搭桥手术后死亡率为多少?解:P=5/132*100%=3.8%第5页二、
率抽样误差与标准误
从总体中随机抽取一种样本,样本率与总体率之间存在差异,差异大小能够估计。由抽样而引发样本率与总体率差异称为率抽样误差。即率标准误。第6页率标准误计算公式
式中,σp为率标准误;π为总体率;n为样本量当总体率π未知时,以样本率p作为π估计值,对应地此时率标准误估计值按下式计算:
式中,Sp为率标准误估计值;p为样本率。第7页二、率区间估计总体率点估计是计算样本率,很简单,但计算得到样本率不等于总体率,它们间存在差异。因此,我们还需要懂得总体率大约会在一种什么样区间范围,即所谓总体率可信区间估计。第8页总体率可信区间能够用正态分布法估计。当n足够大,且p
和1-p均不太小,如np
和n(1-p)均大于5时,p抽样分布逼近正态分布。此时,可根据正态分布特性计算总体率(1-a)%可信区间:双侧:(p-uα/2·Sp,p+uα/2·Sp)单侧:大于p-uα·Sp
或不大于
p+uα·Sp正态分布法第9页例10-1采取某药治疗高血压病人200例,服药一月后160人有效,试估计该药有效率及其双侧95%可信区间。解
该药总体有效率:p=160/200=80%,
Sp
=0.02828u0.05/2=1.96,总体有效率95%CI为:(0.8-1.96×0.02828,0.8+1.96×0.02828)
=(0.7446,0.8554)即估计该药有效率为80%,该药有效率95%可信区间为(0.7446,0.8554)。
第10页
练习随机抽取某市小学400名小朋友,查出患有牙疼200名,患有牙周炎240名,患有龋齿320名。
试估计小朋友牙疼、牙周炎、龋齿患病率及其95%可信区间为多少?━━━━━━━━━━━━━━━━━━━━━━━━指标例数阳性数阳性率95%CI正态近似法────────────────────────牙疼4002000.50000.4510~0.5490牙周炎4002400.60000.5520~0.6480龋齿4003200.80000.7608~0.8392━━━━━━━━━━━━━━━━━━━━━━━━
第11页CHISS软件实现1.进入数据模块
点击
数据→文献→建立数据库表2.进入统计模块
进行统计计算
点击
统计→统计推断→可信区间→率可信区间反应变量:→确认第12页率置信区间CHISS数据库1二行数据:1)第一行总例数;2)第二行阳性数(分子)2每个指标(组)各一列第13页第二节2×2表资料χ2检查第14页一、2×2四格表数据
A、B两个定性变量各分两类,交叉分类计数所得表称为2×2列联表。表中产生四个格子四个数a,b,c,d,亦称为四格表(fourfoldtable),如下表所示。分组B1B2合计A1aba+bA2cdc+d合计a+cb+da+b+c+d第15页案例1治疗肺炎新药临床试验用某新药治疗肺炎病,并选用另一常规药作为对照药,治疗成果如下:采取新药治100例,有效60例;采取对照药治40例,有效30例。试问:1)列表描述临床试验成果;
2)两种药品疗效有没有差异?——————————————
组别有效无效——————————————
新药6040
对照药3010——————————————
第16页χ2检查(chi-squaretest)是由英国统计学家K.Pearson于1923年提出,其广泛地应用于分类数据统计分析,推断两个及两个以上总体率或组成比差异是否有统计学意义、两个分类变量间有没有有关关系等。设计类型不一样χ2检查不一样,四个表χ2检查能够分为完全随机设计两样本率比较χ2检查和配对设计χ2检查。χ2检查第17页(一)
完全随机设计
随机抽取n个个体,按照A属性分为两组,进行试验,然后按试验效应B属性分为两类。由A、B两属性组合提成四格,得到对应2×2频数表。此类2×2表主要进行两个样本率之间差异显著性检查和两属性A、B之间是否存在有关关系。第18页二、χ2检验
χ2检查统计量是χ2值,它是每个格子实际频数A(actualfrequency)与理论频数T(theoreticalfrequency)差值平方与理论频数T之比合计和。计算公式为:
χ2检查是由统计学家K.Pearson(1899)提出,故也称为Pearsonχ2检查。第19页实际数和理论频数
实际频数是通过科学试验观测得到数据,记为A。理论频数根据在两总体率相同假设推算出频数称为理论频数或希望数,记为T。为了便于理解,我们以实际例子来说明χ2检查假设。第20页理论数计算某班100名学生,其中女生40名,男生60名,目前评选优秀学生20名,问1)假设假如男女优秀生相同,男女生优秀生和非优秀生各多少名?2)目前男女优秀生各10人,问男女生优秀生率有没有差异?解:女生优秀数为T11=女生非优秀数为T12=男生优秀数为T21=男生非优秀数为T22=第21页实际数与理论数优秀(理论数)非优秀(理论数)合计女生10(8)30(32)40男生10(12)50(48)60合计2080100第22页χ2检查基本思想χ2值反应了实际频数A与理论频数T吻合程度。实际频数A与理论频数T相差越大,则χ2值越大,χ2值越大,P值越小,越有理由以为两组总体率不相同。第23页TRC表达列联表中第R行第C列交叉格子理论频数;nR表达该格子所在第R行合计数;nC表达该格子所在第C列合计数;n表达总例数。
2)理论频数计算公式第24页例10-1用磁场疗法治疗腰部扭挫伤患者708人,其中有效673例。用同样疗法治疗腰肌劳损患者347人,有效312例。观测成果如表10-6所示。问磁场疗法对两种疾病患者治疗效果有没有差异?分组有效无效合计有效率(%)扭伤6733570895.06腰肌劳损3123534789.92合计98570105593.36第25页解题分析扭伤有效率95.06%,腰肌劳损有效率89.92%,造成这种差异原因是什么呢?也许有两种:其一病不一样(本质上差异);其二抽样误差差异究竟是本质上差异还是纯正抽样误差,需进行假设检查。第26页解题步骤:1.建立假设:
H0:磁场疗法对腰部扭伤和腰肌劳损治疗总体有效率相同,即π1=π2
H1:磁场疗法对腰部扭伤和腰肌劳损治疗总体有效率不一样,即π1≠π2
确定显著水平α=0.05第27页3)χ2值计算公式
服从自由度ν=(R-1)(C-1)χ2分布R表达列联表中行标识分组数;C表达列联表中列标识分组数。
第28页
本例实际数与理论数━━━━━━━━━━━━━━━━━━━━━━━有效(理论数)无效(理论数)小计───────────────────────扭伤
673(661.0)35(47.0)708
腰肌劳损
312(324.0)35(23.0)347───────────────────────
合计985701055━━━━━━━━━━━━━━━━━━━━━━━第29页本例χ2值:υ=(2-1)(2-1)=1由χ2界值表得χ20.05,1=3.84,本例χ2检查=9.9427>3.84,因此,P<0.05。第30页χ2分布曲线第31页3.判断与决策按照α=0.05检查水准,回绝H0,接收H1,两个总体有效率差异有统计学意义。专业结论磁场疗法治疗腰部扭伤和腰肌劳损治疗效果不相同。第32页4.CHISS软件实现步骤如下:点击数据→文献→打开数据库表→找到文献名:b10-1.DBF→确认。(2)进入统计模块:进行对应统计计算,详细操作为点击统计→统计推断→pearson卡方反应变量:有效、无效→盼望频数→确认。(3)进入成果模块:点击成果。第33页设计讨论治疗办法:
磁场疗法、针灸疗法、推拿按摩…疾病类型:
腰部扭伤、腰肌劳损、腰疼…观测成果:有效,无效
第34页四格表χ2检查专用公式*为了简化计算,能够由χ2检查基本公式和某些有关公式推导出四格表专用公式式中a,b,c,d是指表10-1中所示,n为样本总例数。第35页四格表χ2检查应用条件四格表χ2检查应根据实际频数和理论频数选用计算χ2统计量公式,四格表χ2检查专用公式应用条件是样本总例数n≥40,且四个格子中每个理论数Tij≥5。第36页(三)χ2检查连续性校正公式
在四格表中n≥40,不过有一种格子理论数1≤Tij<5时,利用四格表χ2检查专用公式计算出来χ2统计量偏大,必须加以校正。英国统计学家Yates提出将实际频数与理论频数之差绝对值减去0.5作连续性校正(correctionforcontinuity),故连续性校正公式又称Yates校正(Yates’scorrection)。
第37页χ2检查连续性校正公式为
第38页四格表χ2检查连续性校正公式*第39页例10-4某医生用复合氨基酸胶囊治疗肝硬化病人,观测其对改善某试验室指标效果,见表10-7。问两组病人改善及恢复正常率有没有差异。分组改善无改善合计有效率(%)试验组2322592对照组1161764.71合计3484280.95第40页解由于n=42>40,且有格子理论数1<T12=4.76<5,1<T22=3.24<5,因此不能应用χ2检查基本公式,而应使用四格表χ2检查连续性校正公式计算χ2统计量。第41页解题步骤:1.建立假设H0:π1=π2,即试验组与对照组试验室指标改善及恢复正常率相同H1:π1≠π2,即试验组与对照组试验室指标改善及恢复正常率不一样确定显著水平α=0.05第42页2.计算χ2统计量由χ2界值表得χ20.05,1=3.84,本例χ2检查=3.279<3.84,因此,P>0.05。
第43页3.统计推断按照α=0.05检查水准,不回绝H0,两组病人改善及恢复正常率差异差异无统计学意义。第44页4.CHISS软件实现(1)进入数据模块:打开已有数据文献操作点击数据→文献→打开数据库表→找到文献名:b10-2.DBF→确认。(2)进入统计模块:进行对应统计计算,详细操作为点击统计→统计推断→双向无序列联表反应变量:改善、未改善→盼望频数→确认。第45页(4)结论:CHISS软件运行例10-3资料检查χ2后,在运行成果中会自动提醒使用者,本资料“有理论频数不大于5,推荐使用校正卡方成果”。连续校正χ2=
3.2790,P=0.0702>0.05,尚不能以为两组改善率差异有统计学意义。由本例题运行成果能够看出校正是否所得到结论截然相反,体现了校正公式作用。第46页(四)Fisher确切概率法
当四格表中出现n<40,或有某个理论数Tij<1时,χ2检查基本公式得到结论偏差更大,统计学家Fisher(1934)根据超几何分布直接计算出有助于回绝H0概率办法,此办法称为四格表Fisher确切概率法(Fisher’sexactprobabilitiesin2×2table)
。第47页四格表确切概率法基本思想是:在四格表周围合计不变条件下,取得某个四格表概率为由于Fisher确切概率法计算量大且较为繁琐,我们将以实例结合CHISS软件介绍Fisher确切概率法办法。第48页例10-5肿瘤转移病人全量放疗后用两种药品配合治疗,观测肿瘤消除情况,成果见表。表10-8肿瘤转移患者全量放疗后情况问两种药品治疗后肿瘤全消率有没有差异?用药分组全消未全消合计全消率(%)试验组71887对照组281020合计991850第49页解题分析n=18<40,且所有格子理论数均不大于5。因此本例应当使用Fisher确切概率检查,求出检查假设H0成立概率。第50页解题步骤:1.建立假设、确定显著水平H0:π1=π2,即试验组与对照组患者全量化疗后肿瘤全消率相同H1:π1≠π2,即试验组与对照组患者全量化疗后肿瘤全消率不一样
α=0.05第51页2.计算确切概率P值3.判断与决策利用CHISS软件进行Fisher确切概率检查,并进行统计推断。
第52页CHISS操作步骤为(1)进入数据模块:打开已有数据文献操作点击数据→文献→打开数据库表→找到文献名:b10-3.DBF→确认。(2)进入统计模块:进行对应统计计算,详细操作为:点击统计→统计推断→pearson卡方反应变量:全消、未全消→盼望频数→确认。第53页卡方=8.1000自由度=1p值=0.0044校正卡方=5.6250自由度=1p值=0.0177总例数不大于40,提议用确切概率法。Π1<Π2单侧确切概率
=0.9998Π1>Π2单侧确切概率
=0.0076Π1≠Π2双侧确切概率
=0.0078第54页
第二节配对设计2×2表资料分析
一、配对设计2×2表资料
n个受试对象分别用甲、乙两种办法来测定,并按(甲、乙)测定成果分类计数,如(甲、乙)测定成果分类有4种情况a(+,+),b(+,-)c(-,+),d(-,-),将分类计数成果整顿成一种四格表,称为配对设计。
第55页
例10-6某医师欲研究甲乙两种诊断办法互相关系。现随机抽取56人采取两种办法进行诊断,所得数据如下表。甲法:乙:+-合计+20(a)6(b)26-16(c)14(d)30合计362056第56页提出问题1)问甲乙两种诊断办法之间具有有关性?
2)问甲乙两种诊断办法之间具有差异性?第57页采取χ2检查进行两变量有关性分析解题分析要分析甲乙两种诊断办法互相关系。由于n=56>40,且每个格子上理论数Tij>5,因此能够选用四格表专用公式进行两变量有关性分析。二、配对设计2×2表有关性检查第58页解题步骤:1.建立假设、确定显著水平H0:甲乙两种诊断办法无关H1:甲乙两种诊断办法有关α=0.05第59页(3)计算χ2统计量由χ2界值表得χ20.05,1=3.84,本例χ2检查=3.376<3.84,因此,P>0.05。
第60页3统计推断
按照α=0.05检查水准,不回绝H0,能够以为甲乙两种诊断办法关联无统计学意义。第61页4.CHISS软件实现(1)进入数据模块:打开已有数据文献操作点击数据→文献→打开数据库表→找到文献名:b10-4.DBF→确认。(2)进入统计模块:进行对应统计计算,详细操作为点击统计→统计推断→pearson卡方反应变量:是、否→确认。第62页三、配对设计2×2表差异性检查在配对设计2×2表资料,除了关怀两种处理关联性之外,有时也需要比较两处理率差异性。比较两种处理办法优劣。
在配对设计2×2表资料总体率差异性检查时,检查假设不一样于总体率关联性检查假设,χ2统计量计算也不一样于四格表χ2检查公式。第63页1)建立假设H0:两总体B=CH1:两总体B≠C第64页2)计算χ2统计量若b+c>40时,应用公式又称McNemar检查(McNemar’stestforcorrelatedproportions)。
第65页若b+c≤40时,应用连续校正公式3)判断与决策若P<α,回绝H0.,以为两个率差异有统计学意义若P>α,不回绝H0.,以为两个率差异无统计学意义
第66页例10-7为比较中和法与血凝法两种检查办法对关节痛患者抗“O”检测成果,某医师观测了105例关节痛患者,成果如表。两种检查办法测得成果有没有差异?中和法血凝法:+-合计+54862-43943合计5847105第67页解题步骤:1)建立假设:H0:两总体B=CH1:两总体B≠C确定显著水平α=0.05第68页2)计算χ2统计量由于b+c=8+4=12<40,因此采取连续校正差异性检查公式。由χ2界值表得χ20.05,1=3.84,本例χ2检查=0.75<3.84,因此,P>0.05。
第69页3.统计推断P>0.05,不回绝H0,尚不能以为两总体B≠C。第70页CHISS软件实现①进入数据模块:打开已有数据文献操作点击数据→文献→打开数据库表→找到文献名:b10-5.DBF→确认。②进入统计模块:进行对应统计计算,详细操作为点击统计→统计推断→2×2配对卡方反应变量:是、否→确认。③进入成果模块:点击成果第71页注意1关联性和差异性检查对于配对设计2×2表资料,若想理解两种处理(属性)关联性时,可作关联性检查;如要理解两处理差异,可作率差异性检查;若既想理解关联性,又想比较差异,可同步作关联性和差异性检查。关联性检查与率差异性检查成果意义不一样,两种统计量数值无一定关系,但二者结合起来能够取得较全面结论。第72页2配对资料四格表常见错误
+-合计中和法6243105血凝法5847105合计12090210第73页第三节R×C表资料χ2检查分析在实际工作中,分类资料除了整顿成2×2表之外,还经常会遇到行(row)或列(column)大于2,或是行和列同步大于2列联表资料,我们将其统称为行×列表(contingencytable)简称R×C表,R代表行数,C代表列数。2×2表是R×C表最简单形式。第74页案例某研究者采取对照药,A药和B药治疗急性冠周炎,病例数分别为29例,32例和100例。治疗成果如下:采取对照治愈人数25例,未愈4例,治愈率86%;采取A药治愈人数18例,未愈14例,治愈率56%;采取B药治愈人数70例,未愈30例,治愈率70%。试1)列表描述。
2)三种药品疗效有没有差异?第75页第76页R×C表资料分类双向无序R×C表资料
---处理变量分组和反应变量无序单向有序R×C表资料*
---处理变量分组无序和反应变量有序双向有序R×C表资料*
---处理变量分组有序和反应变量有序第77页二、双向无序R×C表资料χ2检查对于双向无序列联表资料,其选用统计办法应与处理变量分组和反应变量次序或大小无关,仅与列联表中总频数,各行合计、各列合计有关。可采取Pearsonχ2检查进行多种率差异显著性检查,也能够进行多种样本组成比差异显著性检查。第78页Pearson拟合优度χ2检查其计算公式为:服从自由度为χ2
分布第79页(一)R×2表资料多种独立样本率比较例10-8用免疫法观测鼻咽癌患者(A=1)、头颈部其他恶性肿瘤患者(A=2)及正常成人组(A=3)血清EB病毒壳抗原免疫球蛋白A(VCA-IgA)抗体反应情况,资料如下。问三组阳性率有没有差异?分组阳性阴性合计阳性率(%)A=11881620492.3A=210233330.3A=34933338212.8第80页解题分析本例为三个独立样本率差异显著性检查,且处理组分组和反应变量分类与次序无关,可应用Pearsonχ2检查进行分析。第81页解题步骤:1.建立假设H0:π1=π2=π3,即三组人群中EB病毒VCA-IgA抗体阳性率相同H1:三组人群中EB病毒VCA-IgA抗体阳性率不一样或不全相同确定显著水平α=0.05
第82页2.计算χ2统计量
第83页3.统计推断P<0.05。按照α=0.05检查水准,回绝H0,接收H1,能够以为三组人群中EB病毒VCA-IgA抗体阳性率差异有统计学意义。三组人群中EB病毒VCA-IgA抗体阳性率不一样或不全相同。第84页4.CHISS软件实现(1)进入数据模块:打开已有数据文献操作点击数据→文献→打开数据库表→找到文献名:b10-6.DBF→确认。(2)进入统计模块:点击统计→统计推断→pearson卡方反应变量:阳性、阴性→盼望频数→确认。(3)进入成果模块:点击成果第85页(二)多种独立样本组成比比较例10-9
就表10-18资料,分析三个民族血型分布是否相同。民族ABOAB傣族11215020540佤族20011213573土家族36221931069第86页解题分析本资料是要比较三个民族血型分布是否相同,事实上就是比较三个民族多种血型组成比差异,故能够应用公式(10-14)进行χ2检查。第87页解题步骤:1.建立假设H0:三个民族居民血型分布相同H1:三个民族居民血型分布不一样或不全相同α=0.05第88页2.计算χ2统计量
第89页3.统计推断P<0.05。按照α=0.05检查水准,回绝H0,接收H1,差异有统计学意义。三个民族中各血型组成不一样或不全相同。第9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024科技公司与医疗机构之间关于医疗设备研发与销售合同
- 2025年度厂房办公室装修项目噪音控制合同范本4篇
- 个体经营者与员工2024年劳动协议样式版B版
- 花烟草养护知识培训课件
- 2024跨国企业人力资源外包管理合同
- 2024版货物运输安全合同书
- 2025年度园林景区草坪修剪与生态修复合同3篇
- 2024年03月广东届兴业银行深圳分行线上校招笔试历年参考题库附带答案详解
- 2025年度城市综合体户外广告位及摊位联合租赁及品牌推广合同4篇
- 2025年拆除工程环境影响评价合同4篇
- 人教版八年级下册第一单元英语Unit1 单元设计
- PEP小学六年级英语上册选词填空专题训练
- 古建筑修缮项目施工规程(试行)
- GA 844-2018防砸透明材料
- 化学元素周期表记忆与读音 元素周期表口诀顺口溜
- 非人力资源经理的人力资源管理培训(新版)课件
- MSDS物质安全技术资料-201胶水
- 钼氧化物还原过程中的物相转变规律及其动力学机理研究
- (完整word)2019注册消防工程师继续教育三科试习题及答案
- 《调试件现场管理制度》
- 社区治理现代化课件
评论
0/150
提交评论