数据统计学处理方法与选择_第1页
数据统计学处理方法与选择_第2页
数据统计学处理方法与选择_第3页
数据统计学处理方法与选择_第4页
数据统计学处理方法与选择_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据统计学处理方法与选择当前第1页\共有59页\编于星期四\18点第一部分数据输入与整理当前第2页\共有59页\编于星期四\18点一、原始数据的录入1、原始数据的记录形式

医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。每一行称为一个记录(record),或一个观察单位(case);每一列称为一个变量Variable),用以表示变量、项目或观察指标等。肾衰病人预后分析临床资料病人编号病案号性别年龄生理评分肾毒性黄疸昏迷肌酐胆固醇肾功能预后1004757男2614无有无5204.1治愈2007950女3113无无无5234.5治愈3011093男5517无无无2093.3治愈4017555男259有无无10334.1未愈...........274279183女7815有无无3316.1未愈当前第3页\共有59页\编于星期四\18点2、原始数据的录入

在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数据文件等。目前,上述文件类型绝大多数都可以相互转换。

录人数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求,便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。当前第4页\共有59页\编于星期四\18点当前第5页\共有59页\编于星期四\18点二、输入数据的质量控制1、数据核查数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;第二步将原始数据与输入数据进行核对,更正错误。在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。当前第6页\共有59页\编于星期四\18点二、输入数据的质量控制2、缺失值的处理在资料收集过程中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通常认为,缺失值应控制在数据记录总量的10%以内。在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含义,表明该数据已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。在一般的数据库软件中,缺失值通常都用“.”表示。当前第7页\共有59页\编于星期四\18点二、输入数据的质量控制2、缺失值的处理

在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。对缺失值进行估计填补具体方法,可参阅有关文献。

当前第8页\共有59页\编于星期四\18点二、输入数据的质量控制3、离群数据的处理

当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。判断离群数据的方法可通过观察数据的频数表或直方图进行初步判断;统计软件一般都有判断离群数据的方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。

当前第9页\共有59页\编于星期四\18点当前第10页\共有59页\编于星期四\18点二、输入数据的质量控制3、离群数据的处理若有离群数据出现,可分为两种情况处理:(1)如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如;又无法再找到该病例时,显然这是一个错误的记录,只能删除。(2)若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。当前第11页\共有59页\编于星期四\18点第二部分数据统计描述方法的选择当前第12页\共有59页\编于星期四\18点总体样本统计推断抽样抽样误差当前第13页\共有59页\编于星期四\18点一、计量资料的描述当前第14页\共有59页\编于星期四\18点某市抽查187名宾馆女性服务人员年龄资料如下

254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519当前第15页\共有59页\编于星期四\18点187名宾馆女性服务人员年龄分布年龄分组(岁)频数<202120~4925~8930~19>=359当前第16页\共有59页\编于星期四\18点

计量资料统计描述集中趋势离散趋势均数几何均数中位数全距四分位数间距方差标准差变异系数当前第17页\共有59页\编于星期四\18点计量资料描述的常用统计指标选择集中趋势指标

适用范围离散趋势指标

适用范围

均数正态分布或对称分布资料四分位数间距Q75-Q25偏态数据或“开口数据”几何均数

G对数正态分布或成倍数关系的数据标准差

S正态分布或对称分布资料中位数

M偏态数据或“开口数据”当前第18页\共有59页\编于星期四\18点某市抽查187名宾馆女性服务人员年龄资料如下

254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519当前第19页\共有59页\编于星期四\18点187名宾馆女性服务人员年龄分布年龄分组(岁)频数<202120~4925~8930~19>=359当前第20页\共有59页\编于星期四\18点

现检测出11名梅毒患者的血清梅毒抗体滴度如下,请计算其平均抗体滴度。1:51:201:401:801:801:801:1601:1601:3201:3201:640数据之间呈倍数关系-几何均数当前第21页\共有59页\编于星期四\18点艾滋病患者月均收入的频数表月均收入(天)人数<50031500~141000~131500~82000~6>=25002合计74偏态分布与开口资料,采用中位数(M)与四分位数间距(Q75-Q25)描述当前第22页\共有59页\编于星期四\18点某人收集到如下的统计资料,从资料表达方式的角度看,存在的主要错误是什么?该资料应如何进行表达?艾滋病患者某药治疗前后CD4测定结果

明显偏态资料-采用中位数描述平均水平,由于例数太少,采用最大值-最小值反映离散。

治疗例数

治疗前1924±38治疗后191008±1586标准差大于均数,提示明显偏态。当前第23页\共有59页\编于星期四\18点二、分类资料的统计描述当前第24页\共有59页\编于星期四\18点案例1请选择适当指标描述该两组资料结果。资料类型多项无序分类资料

艾滋病健康教育干预组与对照组的职业构成组别例数工人个体户职员其他干预照组12030403020合计27050907060当前第25页\共有59页\编于星期四\18点案例2请选择适当指标描述两组结果。两项分类资料

两方法治疗尖锐湿疣疗效比较

组别例数有效无效A方法15011238B方法13011812当前第26页\共有59页\编于星期四\18点案例3

等级资料(多项有序分类资料)请选择适当指标描述两组结果。

两方法治疗尖锐湿疣疗效比较

组别例数控制显效有效无效A方方前第27页\共有59页\编于星期四\18点

资料统计描述方法计量资料分类资料集中趋势离散趋势计数资料等级资料均数几何均数中位数全距四分位数间距方差标准差变异系数二项分类资料多项无序分类资料

构成比

构成比当前第28页\共有59页\编于星期四\18点

据表中某地、某年梅毒监测资料,计算各年龄的构成比和梅毒报告发病率

某地、某年梅毒监测资料年龄(岁)人口数梅毒报告数构成比/%发病率(1/万)0-5894521920-65493519430-43256750340-123794536>=5031129261

合计1831877

1513

当前第29页\共有59页\编于星期四\18点

第三部分统计学假设检验方法的选择当前第30页\共有59页\编于星期四\18点

选择统计方法的基本思路:

反应变量是单变量、双变量或多变量

数据属于哪种类型资料:计量资料、计数资料或等级资料(针对单变量数据)数据所属的设计类型:完全随机设计、配对设计、随机区组设计或其他设计

影响因素是单因素还是多因素

数据是单一样本、两组样本还是多组样本

数据是否符合拟采用的统计分析方法的应用条件当前第31页\共有59页\编于星期四\18点

(一)单变量计量资料的分析1、样本均数于已知总体均数比较当前第32页\共有59页\编于星期四\18点1、一般健康孕妇生产男孩的出生体重为3kg。随机抽样调查某地某年15名梅毒感染孕妇生产男孩的出生体重,得如下数据,问:问梅毒感染孕妇与健康孕妇生产男孩的出生体重是否有差异?样本均数与总体均数比较15名梅毒感染孕妇生产男孩的出生体重(kg):1.82.22.52.61.61.81.92.62.21.92.02.52.61.72.0当前第33页\共有59页\编于星期四\18点

(一)单变量计量资料的分析2、配对样本均数比较3、两样本均数比较当前第34页\共有59页\编于星期四\18点40名艾滋病患者随机分为两组,分别给予A药和B药治疗,治疗后艾滋病患者血液CD4含量如下,请比较两组患者治疗后CD4差异。完全随机设计两样本均数比较

治疗后艾滋病患者血液CD4含量A药200,250,300,500,1005,350,280,450,600,780B药1400,1250,1580,1890,9001104,1589,789,698,1560当前第35页\共有59页\编于星期四\18点两种方法检测7名艾滋病患者的血液CD4含量,所得结果如下。问:甲乙两法检出CD4含量是否相同,用何统计方法?

样本号1234567

乙法270540125500485185650

甲法329602101625508175761

配对设计计量资料当前第36页\共有59页\编于星期四\18点

(一)单变量计量资料的分析4、多个样本均数比较当前第37页\共有59页\编于星期四\18点

某研究者将27只感染艾滋病雄性猩猩随机分成三组(每组9只),给予不同处理,观察12周。测定。处理前后血液中的CD4升高值见下表。问三组的CD4升高值是否相同?

A药组B药组C药组365348360394355368373319386375354369358352352370356371350324374410356368360350372完全随机设计多样本比较当前第38页\共有59页\编于星期四\18点A药B药C药1.671.772.102.042.032.071.381.451.481.021.091.071.291.151.921.321.051.281.171.261.082.121.872.071.641.721.651.751.852.451.651.561.38按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个区组,每区组3个患者,分别给予A药、B药和C药治疗。治疗后患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别?

随机区组设计计量资料当前第39页\共有59页\编于星期四\18点

某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化,其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性意义。单因素重复测量数据方差分析当前第40页\共有59页\编于星期四\18点组别受试号

监测时间(小时)1234胶囊组19.7354.6155.946.8125.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片剂组70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80

将12名吸毒者随机分为两组,每组6名,采用某种药物进行治疗戒毒,一组服用胶囊,另一组服用片剂。分别于服药后1,2,3,4小时测定血药浓度,血药浓度检测结果见下表。试比较两种剂型服用后血药浓度有无差别?两因素重复测量数据方差分析当前第41页\共有59页\编于星期四\18点22例艾滋病患者随机分成两组:A药组,B药组。从治疗开始日开始随访,随访时间(月)如下。试比较两组的疗效有无差异,(带+者为截尾数据)。

A组1,2,3,5,6,9+,11,13,16,26,37+B组:10,11+,14,18,22,22,26,32,38,

40+,42+生存数据,宜用Log-rank检验当前第42页\共有59页\编于星期四\18点(二)单变量计数资料的分析1、两个率比较当前第43页\共有59页\编于星期四\18点

据以往调查数据,某地女性梅毒发病率一般为1.2%。某人在当地女性服务人员中抽查400名,检测出8例梅毒。问该地女性服务人员梅毒发病率是否高于一般女性?样本率与总体率比较-基于二项分布的直接概率法

根据以往观察,一般35岁以上孕妇有10%发生流产。现某医院观察35岁以上患梅毒孕妇254例,有60例发生流产。问35岁以上梅毒患者是否较容易流产?样本率与总体率比较-基于二项分布的u检验法当前第44页\共有59页\编于星期四\18点

某医院将376例淋病患者随机分为两组,分别用中药和西药治疗,结果见表7-1。问两种药物疗效的差别有无意义?两样本率比较-四格表X2检验当前第45页\共有59页\编于星期四\18点(二)单变量计数资料的分析2、行×列表资料比较当前第46页\共有59页\编于星期四\18点当生殖器出现异常时,外展服务干预前后女性服务从业人员求医行为见下表,请比较干预前后女性服务从业人员求医行为差异有统计学意义。行×列表X2检验

干预前后女性从业人员求医行为比较(%)求医行为干预前(n=187)干预后(n=173)X2P公立医院就诊37.478.972.8720.000私人诊所就诊43.411.5自己买药处理19.29.6当前第47页\共有59页\编于星期四\18点

采用两种方法检测女性服务人员梅毒感染率,结果如表所示,问两种方法的检出率差别有无统计学意义?配对设计计数资料X2检验A方法合计

阳性阴性B方法阳性2080100阴性2575100

合计45155200当前第48页\共有59页\编于星期四\18点某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别?

组别无效好转显效痊愈合计西药组

4931515100中药组45922480中西药组1528112074合计109683839254不宜用X2检验,要采用秩和检验当前第49页\共有59页\编于星期四\18点(三)单变量等级资料的分析1、两组等级资料比较当前第50页\共有59页\编于星期四\18点

有9个艾滋病血液样品分成两份,分别在温度为80℃和20℃的条件下加入相同显色剂,结果如下,请比较两种温度下的显色效应差异

温度显色效应12345678980℃深深深中浅深深深中20℃浅浅浅浅浅中浅浅浅配对设计等级资料-配对设计秩和检验当前第51页\共有59页\编于星期四\18点某医院对比两种疗法对梅毒治疗效果,结果如下,问两组的疗法是否有差别?

组别观察例数愈合

好转无效A疗法

625471B疗法

6444119合计126981810两样本等级资料,不宜用X2检验,要采用秩和检验当前第52页\共有59页\编于星期四\18点(三)单变量等级资料的分析2、多组等级资料比较当前第53页\共有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论