数据统计学处理方法与选择课件_第1页
数据统计学处理方法与选择课件_第2页
数据统计学处理方法与选择课件_第3页
数据统计学处理方法与选择课件_第4页
数据统计学处理方法与选择课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/9/2 数据统计学处理方法与选择第一部分 数据输入与整理一、原始数据的录入1、原始数据的记录形式 医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。每一行称为一个记录(record),或一个观察单位(case);每一列称为一个变量Variable),用以表示变量、项目或观察指标等。肾衰病人预后分析临床资料病人编号病案号性别年龄生理评分肾毒 性黄疸昏迷肌酐胆固 醇肾功能 预后1004757男 2614无有无5204.1治愈2007950女3113无无无5234.5治愈3011093男5517无无无2093.3治愈4017555男259有无无10334.1未愈.274

2、279183女7815有无无3316.1未愈冯启明2022/9/2二、输入数据的质量控制1、数据核查 数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;第二步将原始数据与输入数据进行核对,更正错误。 在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。二、输入数据的质量控制2、缺失值的处理 在资料收集过程

3、中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通常认为,缺失值应控制在数据记录总量的10以内。在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含义,表明该数据已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。在一般的数据库软件中,缺失值通常都用“”表示。 二、输入数据的质量控制2、缺失值的处理 在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录

4、后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。对缺失值进行估计填补具体方法,可参阅有关文献。 第二部分 数据统计描述方法的选择一、计量资料的描述某市抽查187名宾馆女性服务人员年龄资料如下 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21. 19 22 20 22 33 29 38 40 22 1819 20 25 24 29 31 32 28 26 25 19 187名宾馆女性服务人员年龄分布年龄分组(岁)频数=359 计量资料统计描述集中趋势离散趋势均数几何均数中位数全距四分

5、位数间距方差标准差变异系数计量资料描述的常用统计指标选择集中趋势 指标 适用范围离散趋势 指标 适用范围 均数正态分布或对称分布资料四分位数间距Q75-Q25偏态数据或“开口数据”几何均数 G对数正态分布或成倍数关系的数据标准差 S正态分布或对称分布资料中位数 M偏态数据或“开口数据” 187名宾馆女性服务人员年龄分布年龄分组(岁)频数=359 现检测出11名梅毒患者的血清梅毒抗体滴度如下,请计算其平均抗体滴度。1:5 1:20 1:40 1:80 1:80 1:80 1:160 1:160 1:320 1:320 1:640数据之间呈倍数关系几何均数某人收集到如下的统计资料,从资料表达方式的

6、角度看,存在的主要错误是什么?该资料应如何进行表达? 艾滋病患者某药治疗前后CD4测定结果 明显偏态资料采用中位数描述平均水平,由于例数太少,采用最大值最小值反映离散。 治疗例数 治疗前 192438治疗后 19 10081586标准差大于均数,提示明显偏态。二、分类资料的统计描述案例2请选择适当指标描述两组结果。两项分类资料 两方法治疗尖锐湿疣疗效比较 组别例数有效无效A方法15011238B方法13011812案例3 等级资料(多项有序分类资料)请选择适当指标描述两组结果。 两方法治疗尖锐湿疣疗效比较 组别例数控制显效有效无效A方方资料统

7、计描述方法计量资料分类资料集中趋势离散趋势计数资料等级资料均数几何均数中位数全距四分位数间距方差标准差变异系数二项分类 资料多项无序分类资料 率 构成比 构成比 第三部分 统计学假设检验方法的选择 选择统计方法的基本思路: 反应变量是单变量、双变量或多变量 数据属于哪种类型资料:计量资料、计数资料或等级资料 (针对单变量数据) 数据所属的设计类型:完全随机设计、配对设计、随机区组设 计或其他设计 影响因素是单因素还是多因素 数据是单一样本、两组样本还是多组样本 数据是否符合拟采用的统计分析方法的应用条件 (一)单变量计量资料的分析1、样本均数于已知总体均数比较1、一般健康孕妇生产男孩的出生体重

8、为3kg。随机抽样调查某地某年15名梅毒感染孕妇生产男孩的出生体重,得如下数据,问:问梅毒感染孕妇与健康孕妇生产男孩的出生体重是否有差异?样本均数与总体均数比较15名梅毒感染孕妇生产男孩的出生体重(kg):1.8 2.2 2.5 2.6 1.6 1.8 1.9 2.6 2.2 1.9 2.0 2.5 2.6 1.7 2.0 冯启明2022/9/2 (一)单变量计量资料的分析2、配对样本均数比较3、两样本均数比较 40名艾滋病患者随机分为两组,分别给予A药和B药治疗,治疗后艾滋病患者血液CD4含量如下,请比较两组患者治疗后CD4差异。完全随机设计两样本均数比较 治疗后艾滋病患者血液CD4含量A药

9、200, 250,300, 500 , 1005, 350, 280, 450,600, 780B药1400,1250,1580,1890,9001104,1589,789, 698, 1560两种方法检测7名艾滋病患者的血液CD4含量,所得结果如下。问:甲乙两法检出CD4含量是否相同,用何统计方法? 样本号 1 2 3 4 5 6 7 乙 法 270 540 125 500 485 185 650 甲 法 329 602 101 625 508 175 761 配对设计计量资料 (一)单变量计量资料的分析4、多个样本均数比较 某研究者将27只感染艾滋病雄性猩猩随机分成三组(每组9只),给予不

10、同处理,观察12周。测定。处理前后血液中的CD4升高值见下表。问三组的CD4升高值是否相同? A药组 B药组 C药组 365 348 360394 355 368373 319 386375 354 369358 352 352370 356 371350 324 374410 356 368360 350 372完全随机设计多样本比较 A药 B药 C药 1.67 1.77 2.10 2.04 2.03 2.07 1.38 1.45 1.48 1.02 1.09 1.07 1.29 1.15 1.92 1.32 1.05 1.28 1.17 1.26 1.08 2.12 1.87 2.07 1

11、.64 1.72 1.65 1.75 1.85 2.45 1.65 1.56 1.38 按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个区组,每区组3个患者,分别给予A药、B药和C药治疗。治疗后患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别? 随机区组设计计量资料 某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化,其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性意义。单因素重复测量数据方差分析组别受试号 监测时间(小时)1234胶囊组19.7354.6155.946.812

12、5.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片剂组70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80 将12名吸毒者随机分为两组,每组6名,采用某种药物进行治疗戒毒,一组服用胶囊,另一组服用片剂。分别于服药后1,2,3,4小时测定血药浓度,血药浓度检

13、测结果见下表。试比较两种剂型服用后血药浓度有无差别?两因素重复测量数据方差分析 22例艾滋病患者随机分成两组:A药组,B药组。从治疗开始日开始随访,随访时间(月)如下。试比较两组的疗效有无差异,(带者为截尾数据)。 A组 1,2,3,5,6,9,11,13,16,26,37B组:10,11,14,18,22,22,26,32,38, 40,42生存数据,宜用Log-rank检验(二)单变量计数资料的分析1、两个率比较 据以往调查数据,某地女性梅毒发病率一般为1.2。某人在当地女性服务人员中抽查400名,检测出8例梅毒。问该地女性服务人员梅毒发病率是否高于一般女性?样本率与总体率比较基于二项分布

14、的直接概率法 根据以往观察,一般35岁以上孕妇有10发生流产。现某医院观察35岁以上患梅毒孕妇254例,有60例发生流产。问35岁以上梅毒患者是否较容易流产?样本率与总体率比较基于二项分布的u检验法 某医院将376例淋病患者随机分为两组,分别用中药和西药治疗,结果见表7-1。问两种药物疗效的差别有无意义?两样本率比较四格表X2检验(二)单变量计数资料的分析2、行列表资料比较当生殖器出现异常时,外展服务干预前后女性服务从业人员求医行为见下表,请比较干预前后女性服务从业人员求医行为差异有统计学意义。 行列表X2检验 干预前后女性从业人员求医行为比较()求医行为干预前(n=187)干预后(n=173

15、)X2 P公立医院就诊37.4 78.972.872 0.000私人诊所就诊43.4 11.5自己买药处理19.2 9.6 采用两种方法检测女性服务人员梅毒感染率,结果如表所示,问两种方法的检出率差别有无统计学意义?配对设计计数资料X2检验 A方法合计 阳性阴性B方法阳性 20 80100阴性 25 75100 合计 45 155200某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别? 组别无效好转显效痊愈合计西 药 组 4931515100中 药 组45922480中西药组1528112074合计109683839254不宜用X2检验,要采用秩和检验(三)单变量等级资料的分析1

16、、两组等级资料比较 有9个艾滋病血液样品分成两份,分别在温度为80和20的条件下加入相同显色剂,结果如下,请比较两种温度下的显色效应差异 温度显色效应12345678980深 深深中浅深深深中20浅浅浅浅浅中浅浅浅配对设计等级资料配对设计秩和检验某医院对比两种疗法对梅毒治疗效果,结果如下,问两组的疗法是否有差别? 组别观察例数愈合 好转无效A疗法 625471B疗法 6444119合计126981810两样本等级资料,不宜用X2检验,要采用秩和检验(三)单变量等级资料的分析2、多组等级资料比较某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别? 组别无效好转显效痊愈合计西 药 组

17、4931515100中 药 组45922480中西药组1528112074合计109683839254完全随机设计多组秩和检验(四)双变量资料的分析 某医师测定7名吸毒男性戒毒1个月后的血清蛋白含量(g/L)和血红蛋白含量(g/L)数据如下。请问这两项指标有无相关? 编号1234567血清蛋白35.5 36.538.537.536.535.434.5血红蛋白119.5 120.5127.5126.5120.5118.5110.5直线相关分析某医生研究艾滋病患者血小板数与出血症状程度有无相关,结果如下。请作分析 病例编号血小板数出血症状程度1234567891011 12160 13790 16500 31050 42600 54270 106430 126170 129000 143880 200400 明显 比较明显 个别出血点 无 比较明显 比较明显 无 无 无 无 无有一个变量为等级资料,宜用等级相关(Spearman)(五)多变量资料的分析1、有因变量的多变量资料(1)因变量 y为计量资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论