




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、流行病学数据的分析处理方 法 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法2 一、原始数据的检查一、原始数据的检查 在数据分析前需要对原始的流行病学调查研究数据进行一在数据分析前需要对原始的流行病学调查研究数据进行一 次审查,发现可能存在的错误、遗漏的研究变量取值和其他次审查,发现可能存在的错误、遗漏的研究变量取值和其他 问题,并采取相应的措施进行处理。问题,并采取相应的措施进行处理。 u若在调查表中发现有缺失的数据,可以通过电话再次询问若在调查表中发现有缺失的数据,可以通过电话再次询问 研究对象、查阅有关的记录、应用储存的血液标本重新检研究对象、查阅有关的记录、应用储存
2、的血液标本重新检 测或再次取样等措施进行补充。测或再次取样等措施进行补充。 u若发现逻辑错误,也要及时改正。需要对调查问卷进行编若发现逻辑错误,也要及时改正。需要对调查问卷进行编 码或者对已编码的问卷进行核查,避免重复和遗漏。码或者对已编码的问卷进行核查,避免重复和遗漏。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法3 二、选择合适的数据管理和数据分析软件二、选择合适的数据管理和数据分析软件 u常用的数据管理软件常用的数据管理软件 Microsoft FoxProMicrosoft FoxPro、Microsoft AccessMicrosoft Access、 Micr
3、osoft Excel Microsoft Excel 这些数据管理软件也具有简单这些数据管理软件也具有简单 的数据分析功能,的数据分析功能,ExcelExcel的数据分析功能更强,不的数据分析功能更强,不 仅可实现描述性统计,还可以做仅可实现描述性统计,还可以做t t检验、方差分析、检验、方差分析、 相关回归分析等相关回归分析等 u常用的数据分析软件常用的数据分析软件 SASSAS(Statistical Analysis SystemStatistical Analysis System)和)和SPSSSPSS (Statistical Package for Social Science
4、Statistical Package for Social Science),), 它们均具有很强的数据分析和数据管理的功能它们均具有很强的数据分析和数据管理的功能 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法4 三、数据的计算机录入三、数据的计算机录入 ( (编号、定义变量名、变量数量化)编号、定义变量名、变量数量化) u编号:给每一个调查表或调查对象一个编号编号:给每一个调查表或调查对象一个编号 以识别录入的数据与调查表或调查对象的对以识别录入的数据与调查表或调查对象的对 应关系(唯一性)应关系(唯一性) p使用阿拉伯数字使用阿拉伯数字1 1、2 2、3 3等给每份
5、调查表按照顺等给每份调查表按照顺 序编号,这样有利于以后对输入的数据进行检查、序编号,这样有利于以后对输入的数据进行检查、 核对与修改错误。核对与修改错误。 p可以给编号以时间、地区、单位、调查对象编号可以给编号以时间、地区、单位、调查对象编号 等,如:等,如:200501200501(济南)(济南)0202(历下)(历下)00010001(调查(调查 对象)对象) 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法5 u定义变量名称:定义变量名称: 命名:可以应用中文、拼音、也可以应用英文,但以命名:可以应用中文、拼音、也可以应用英文,但以 使用拼音或英文为好,这样可以方便输
6、入。使用拼音或英文为好,这样可以方便输入。 注意:注意: p变量名应简短、易懂易记:如对性别、年龄、身高、体重可变量名应简短、易懂易记:如对性别、年龄、身高、体重可 以使用以使用gender, age, height 和和weight进行命名。对名称较进行命名。对名称较 长的变量,可以使用简写,如长的变量,可以使用简写,如wt表示表示weight、ht表示表示height。 p标记或说明:有些数据管理和分析软件可变量进行标记或说标记或说明:有些数据管理和分析软件可变量进行标记或说 明,避免时间长久了而忘记数据库中的变量名字,如对上述明,避免时间长久了而忘记数据库中的变量名字,如对上述 Wt可标
7、记为可标记为“weight”。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法6 u变量数量化变量数量化 如果调查表的设计是编码式的,则此步骤可省略,如果调查表的设计是编码式的,则此步骤可省略, 直接将变量取值编码的结果输入计算机。直接将变量取值编码的结果输入计算机。 若不是编码式的调查结果,则需要对变量的取值若不是编码式的调查结果,则需要对变量的取值 结果进行编码结果进行编码( (数量化)。数量化)。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法7 l常见变量的类型常见变量的类型 1 1、字符型、字符型(character type)(charact
8、er type): 输入字符如中文或英文输入字符如中文或英文 2 2、数值型、数值型(numerical type)(numerical type): 以数值的形式输入以数值的形式输入 3 3、日期型、日期型(data type)(data type): 按照规定的格式输入日期数值按照规定的格式输入日期数值 4 4、逻辑性(、逻辑性(logical typelogical type): : 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法8 l变量数量化时应注意:变量数量化时应注意: (1)除日期型变量外尽量使用数值型变量)除日期型变量外尽量使用数值型变量 (2)某些数值变量
9、)某些数值变量(numerical variable)可可 直接输入变量的取值,如研究对象的身高、直接输入变量的取值,如研究对象的身高、 体重、血压水平等。体重、血压水平等。 (3)分类变量)分类变量(categorical variable)及有及有 序变量序变量(ordinal variable)则可将其取值进行则可将其取值进行 量化,然后再输入计算机量化,然后再输入计算机 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法9 白人白人1 黑人黑人2 西班牙裔人西班牙裔人3 亚太裔亚太裔4 其它种族其它种族5 注意:注意: 分类变量在进行多因素分析时,必须转换成哑变量分类变
10、量在进行多因素分析时,必须转换成哑变量 (dummy variabledummy variable),不能直接将前述的取值),不能直接将前述的取值1 1、2 2、 3 3、4 4、5 5放入方程中进行分析。放入方程中进行分析。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法10 l有序变量的数量化顺序合理,则可以直接进行分析有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度如:教育程度 文盲:文盲:0 小学:小学:1 中学:中学:2 高中及中专:高中及中专:3 大学:大学:4 硕士及以上:硕士及以上:5 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理
11、方法11 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法12 五、数据的整理五、数据的整理 (一)数据分组(一)数据分组 l分类变量:分类变量: 按其原有的分类进行分组,若有必要,可将性按其原有的分类进行分组,若有必要,可将性 质相近或差别不大的类别进行合并。如教育程度。质相近或差别不大的类别进行合并。如教育程度。 l数值变量:数值变量: 按照实际的生理、病理或临床意义分组,如体重按照实际的生理、病理或临床意义分组,如体重 指数:低体重、正常体重、超重和肥胖指数:低体重、正常体重、超重和肥胖 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法13 按使用的方
12、便程度和专业上惯用的方法分按使用的方便程度和专业上惯用的方法分 组,如年龄在某一个合适的范围内每组,如年龄在某一个合适的范围内每5 5岁或岁或1010岁岁 分成一组。分成一组。 按分位数分组,即首先找出四分位数按分位数分组,即首先找出四分位数 (quartile)或五分位数()或五分位数(quintile)的界值,)的界值, 然后应用这些界值将研究对象平均分成然后应用这些界值将研究对象平均分成4组(每组(每 组组25%的研究对象)或的研究对象)或5组(每组组(每组20%的研究对的研究对 象)。象)。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法14 (二)数据的转换二)数
13、据的转换 1、非正态数据的变量转换、非正态数据的变量转换 原理:原理: 正态分布正态分布 参数检验参数检验(parametric test) 非正态数据非正态数据非参数检验非参数检验(non-parametric test) (不是对原始数据检验)如:秩和检验(不是对原始数据检验)如:秩和检验 (是对(是对 原始数据的秩次检验)原始数据的秩次检验) 检验:正态性检验、方差齐性检验检验:正态性检验、方差齐性检验 方法:对数变换;平方根变换;倒数变换方法:对数变换;平方根变换;倒数变换 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法15 2 2、分类变量转换成哑变量、分类变量转
14、换成哑变量 u原理:原理: 分类变量是二分类尺度及顺序尺度,则分类变量是二分类尺度及顺序尺度,则 可直接应用其原有的数量化数值。可直接应用其原有的数量化数值。 名义尺度因为各类别间没有顺序关系,名义尺度因为各类别间没有顺序关系, 在进行不同分析(包括多元分析、在进行不同分析(包括多元分析、logisticlogistic回回 归、归、CoxCox回归等)时,不能使用原始的计算回归等)时,不能使用原始的计算 机录入数值,必经进行变量转换机录入数值,必经进行变量转换即将该变即将该变 量转换成(水平数量转换成(水平数-1 -1)个哑变量)个哑变量,再将这些新,再将这些新 转换的变量放入多因素模型中。
15、转换的变量放入多因素模型中。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法16 u方法:方法: 例如:将种族原始取值转换成哑变量(新变量)例如:将种族原始取值转换成哑变量(新变量) 表表1. 分类变量转换成哑变量的方法分类变量转换成哑变量的方法 新变量新变量 . 种族种族 原始取值原始取值(x1) x1-1 x1-2 x1-3 x1-4 白人白人 1 0 0 0 0 黑人黑人 2 1 0 0 0 亚太裔亚太裔 3 0 1 0 0 西班牙裔人西班牙裔人 4 0 0 1 0 其它种族其它种族 5 0 0 0 1 新变量以白人为参照,新变量以白人为参照,X1X11 1表示黑人与
16、白人比较,依此类推表示黑人与白人比较,依此类推 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法17 六、确定拟分析的因变量和应变量六、确定拟分析的因变量和应变量 l因(自)变量因(自)变量(independent variable):是指:是指 影响疾病的发生或健康状况的分布的变量,影响疾病的发生或健康状况的分布的变量, 是原因变量是原因变量 、已知变量、已知变量、x变量。变量。 l应变量应变量(dependent variable):是指随因变量:是指随因变量 的变化而发生变化的变量,是结果变量、预的变化而发生变化的变量,是结果变量、预 测变量、测变量、y变量。变量。 应
17、变量是在自变量作用下产生反应的变量应变量是在自变量作用下产生反应的变量 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法18 意义意义 l有助于选择拟研究的变量:对调查表的设计具有指导有助于选择拟研究的变量:对调查表的设计具有指导 作用作用 l可以指导数据分析方法的选择:可以指导数据分析方法的选择: 因变量是分类变量:采用因变量是分类变量:采用2检验,检验,logistic回归回归 分析等。分析等。 因变量是数值变量:采用因变量是数值变量:采用t检验、方差分析,协检验、方差分析,协 方差分析、多元回归等方差分析、多元回归等 。 l有助于模型的建立有助于模型的建立 :应变量(:
18、应变量( y )放在模型的左侧,)放在模型的左侧, 因变量(因变量(x )放在模型的右侧。)放在模型的右侧。 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法19 l例例1. 欲评价不同治疗方法(口服药物、注射胰岛素及欲评价不同治疗方法(口服药物、注射胰岛素及 膳食控制)对糖尿病人的治疗效果(血糖水平),分膳食控制)对糖尿病人的治疗效果(血糖水平),分 析时要求调整病人的性别、年龄和病程的影响析时要求调整病人的性别、年龄和病程的影响。 血糖水平(应变量血糖水平(应变量y y)= =治疗方法(因变量治疗方法(因变量x)+x)+其它协变量其它协变量 (covariate,性别、年
19、龄和病程),性别、年龄和病程) l例例2. 欲分析脂蛋白(欲分析脂蛋白(a)与冠心病发生的关系。)与冠心病发生的关系。 冠心病冠心病( (应变量应变量y)=y)=脂蛋白脂蛋白(a)(a)(因变量因变量x)x) 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法20 七、缺失数据(七、缺失数据(missing data)的处理)的处理 l缺失数据:是指其测量结果缺失。缺失数据:是指其测量结果缺失。 产生的原因:产生的原因: p问卷调查:遗漏出生日期和年龄,调查结束后又无法补救问卷调查:遗漏出生日期和年龄,调查结束后又无法补救 p实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采
20、血实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血 而致而致 p过去处理:仅用无缺失的数据进行分析过去处理:仅用无缺失的数据进行分析损失样本量损失样本量 缺失数据缺失数据“合理合理”赋值赋值人为赋值不一定合人为赋值不一定合 理理 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法21 u现在处理现在处理 数据分析处理件软处理数据分析处理件软处理 :SAS自动分析处理自动分析处理 如一个数据库中有性别和年龄等变量,性别有如一个数据库中有性别和年龄等变量,性别有1010个缺个缺 失数据,年龄有失数据,年龄有3 3个缺失数据:个缺失数据: 分析性别时不包括性别缺失的分析性别时不
21、包括性别缺失的10个个体个个体 分析年龄时不包括缺失年龄的分析年龄时不包括缺失年龄的3个个体个个体 当分析中(如多因素分析)共同使用了性别和年龄时,分析当分析中(如多因素分析)共同使用了性别和年龄时,分析 的实际样本数量是性别和年龄这两个变量均不含缺失数据的的实际样本数量是性别和年龄这两个变量均不含缺失数据的 样本样本 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法22 流行病学数据分析方法的选择流行病学数据分析方法的选择 一、流行病学数据的分析程序一、流行病学数据的分析程序 数值变量数值变量 正态性检验正态性检验 正态正态 数据转换数据转换 非正态非正态 参数检验参数检验
22、 非参数检验非参数检验 图图1. 数值变量的分析程序数值变量的分析程序 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法23 单因素分析单因素分析 2检验检验 分类变量分类变量 分层分析分层分析 多因素分析多因素分析 logistic回归分析回归分析 Cox回归分析回归分析 其它分析方法其它分析方法 图图2. 2. 分类变量的分析程序分类变量的分析程序 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法24 二、根据研究设计类型选择二、根据研究设计类型选择 (一)成组比较的设计(一)成组比较的设计 两组比较:两组比较:t t检验或检验或2 2检验检验 多组比较
23、:方差分析、行多组比较:方差分析、行列表列表2 2检验检验 病例对照研究:按其分析方法分析病例对照研究:按其分析方法分析 分级的病列对照研究:按其分析方法分析分级的病列对照研究:按其分析方法分析 (二)配对(自身实验前后)设计(二)配对(自身实验前后)设计 配比的配比的t t检验、检验、2 2检验检验 配对的病例对照研究方法进行数据配对的病例对照研究方法进行数据 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法25 (三)重复测量的设计(三)重复测量的设计 在给定一个处理因素后在不同的时间重复测量某在给定一个处理因素后在不同的时间重复测量某 一效应变量的改变情况。如欲评价生物
24、制品接种后的一效应变量的改变情况。如欲评价生物制品接种后的 免疫学效果,在接种后的免疫学效果,在接种后的2 2周、周、4 4周、周、6 6周和周和8 8周测定抗周测定抗 体滴度:体滴度:重复测量的方差分析方法重复测量的方差分析方法 (四)多因素设计(四)多因素设计 自变量是数值变量:多元回归分析方法、协方差分自变量是数值变量:多元回归分析方法、协方差分 析方法析方法 自变量分类变量:自变量分类变量:logisticlogistic回归分析方法、判别分回归分析方法、判别分 析方法、聚类分析方法析方法、聚类分析方法 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法26 三、根据变
25、量的类型选择三、根据变量的类型选择 因变量 应变量(y) (x) 数值变量 分类变量有序变量 数值变量 相关分析,多元回 归分析 t检验,方差分析,协 方差分析,多元回 归分析 相关分析,多元 回归分析 分类变量 t检验,方差分析, logistic回归分析,判 别分析,聚类分析 2检验,logistic回 归分析 2检验 有序变量 方差分析,logistic 回归分析,判别分析, 聚类分析 2检验,logistic回 归分析 相关分析, 2检 验 生存时间生存分析 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法27 表表3. 3. 不同研究设计和数据类型的数据分析方法选择
26、不同研究设计和数据类型的数据分析方法选择 研究设计类型 变量 类型 两组比 较 两组以上比 较 实验前后比较重复测量两变量间 的联系 数值 变量 t检验方差分析配对t检验重复测量 的方差分 析 线性回归 Pearson 相关系数 分类 变量 2检验2检验配对2检验列联表相 关系数 有序 变量 Mann- Whitney 秩和检 验 Kruskal- Wallis分析 (成组设计多 个样本比较的 秩和检验 ) Wilcoxon符号秩 和检验 (配对 设计差值的符号 检验) Spearma n相关系 数 生存 时间 生存分 析 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法28
27、 不同流行病学研究类型的数据分析方法不同流行病学研究类型的数据分析方法 一、描述性研究一、描述性研究 (一)现况研究(一)现况研究 分布描述:患病率、危险因素流行率、数值变量分布分布描述:患病率、危险因素流行率、数值变量分布 探讨因素:相关回归分析、探讨因素:相关回归分析、2 2检验、检验、t t检验、方差分析、多因检验、方差分析、多因 素分析、人群归因危险度素分析、人群归因危险度 (二)生态学研究(二)生态学研究 同现况研究同现况研究 (三)筛检(三)筛检 筛检试验的真实性和可靠性筛检试验的真实性和可靠性 人群中疾病、健康状况、危险因素筛选结果分析方法:同现人群中疾病、健康状况、危险因素筛选
28、结果分析方法:同现 况研究况研究 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法29 (一)病例对照研究 病例对照研究数据病例对照研究数据 成组设计成组设计 配比设计配比设计 粗粗OR分级分级OR剂量反应剂量反应 分层分层OR 分级分级OR剂量反应剂量反应 (趋势趋势2检验检验) (趋势趋势2检验检验 ) 分层分层OR 混杂与效应修饰分析混杂与效应修饰分析 混杂与效应修饰分析混杂与效应修饰分析 图图3. 3. 病例对照研究数据的分析程序病例对照研究数据的分析程序 山东大学公共卫生学院山东大学公共卫生学院流行病学数据的分析处理方法30 (二)队列研究二)队列研究 队列研究数据队列研究数据 人时、发病密度人时、发病密度/累积发病率累积发病率 粗粗RR、AR、AR%、PAR及及PAR% 分层分层RR、AR、AR%、PAR、PAR% 分级分级RR、AR、AR%、PAR、PAR 山东大学公共卫生学院山东大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国排水用管道行业市场规模及未来投资方向研究报告
- 2025-2030年中国汽车用钢行业市场竞争现状及发展趋向研判报告
- 二手房预定合同诚意金协议
- 2025年纺织行业市场分析及投资前景预测报告
- 2025年中国大健康行业发展现状分析研究报告
- 2025年切胶机项目可行性研究报告
- 跨界合作合同框架
- 电商平台配送合作合同样本
- 药品采购合同标准格式
- 2025年泡沫混凝土陶粒砌块市场分析报告
- 2024北京八中初一(下)期中数学(教师版)
- 2024版《硫化氢培训课件》课件
- 垒墙施工合同范本
- 塔式太阳能光热发电站运行规程
- 五十六个民族之德昂族介绍
- 2024年苏州市职业大学单招职业适应性测试题库完整版
- 2024-2030年中国电子级氟化液行业应用状况与供需趋势预测研究报告
- 【特级教师上优课】《黄河颂》名师课件
- 模具修改履历表
- 2024年西藏初中学业水平考试生物试题(解析版)
- 一种基于STM32的智能门锁系统的设计-毕业论文
评论
0/150
提交评论