医学科研数据挖掘方法--数据预处理_第1页
医学科研数据挖掘方法--数据预处理_第2页
医学科研数据挖掘方法--数据预处理_第3页
医学科研数据挖掘方法--数据预处理_第4页
医学科研数据挖掘方法--数据预处理_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学科研数据的预处理方法医学科研数据的预处理方法(Data preprocess) 数据描述数据描述( (核查核查) ) 数据清理数据清理 数据集成数据集成为什么需要对数据进行为什么需要对数据进行预处理?预处理?n数据描述数据描述单个数据集多个数据集n一个数据集可看成一个一个数据集可看成一个N N行行M M列的矩阵,列的矩阵,N N表示观测记录数,表示观测记录数,M M表示观测变量数。表示观测变量数。数据预处理无外乎从这两个方面进行,数据预处理无外乎从这两个方面进行,从行的角度检查从行的角度检查记录数记录数与观测与观测对象的对象的编号编号情况,从列的角度一是检查每个情况,从列的角度一是检查每个

2、变量的分布,发现变量的分布,发现异常值异常值,二是检查,二是检查变量变量缺失缺失情况。情况。 数据中变量有效记录数的描述 数据集中常有一些变量值缺失数据集中常有一些变量值缺失, ,这是流行病学这是流行病学研究不可避免的问题。一些变量值的缺失必然会研究不可避免的问题。一些变量值的缺失必然会影响数据分析,如在做多元回归分析时,任何一影响数据分析,如在做多元回归分析时,任何一个自变量或应变量有缺失的记录都将不能进入分个自变量或应变量有缺失的记录都将不能进入分析,放入方程中的变量越多,数据缺失的可能性析,放入方程中的变量越多,数据缺失的可能性越大,参加分析的记录数就越少。在数据分析前,越大,参加分析的

3、记录数就越少。在数据分析前,了解数据集中一些关键变量缺失情况十分必要。了解数据集中一些关键变量缺失情况十分必要。结果一Variables Missing Report for dataset B1.LABG1 Non-missing MissingA11 419 9A12 419 9A21 421 7A22 421 7A31 423 5A32 423 5结果二Combination of these variables A A A A A A O 1 1 2 2 3 3 B 1 2 1 2 1 2 S 0 0 1 1 0 0 1 0 0 1 1 1 1 8 1 1 0 0 0 0 1 1 1

4、0 0 1 1 6 1 1 1 1 0 0 3 1 1 1 1 1 1 409数据集中连续变量的分布描述 对于一个数据,我们必须首先对于一个数据,我们必须首先知道在这个数据集中有多少条记录?知道在这个数据集中有多少条记录?多少个变量?每个变量的分布如何,多少个变量?每个变量的分布如何,描述其分布图;对连续变量需要计描述其分布图;对连续变量需要计算百分位数、均数等。算百分位数、均数等。 实 例AGE(年龄) percentile |-distribution- min 29 29 |. 5% 38 31.4 |. 10% 40 36.2 |* 25% 45 41 |* 50% 52 45.8 |

5、* 75% 58.5 50.6 |* 90% 65 55.4 |* 95% 69 60.2 |* max 77 65 |* mean 52.113208 69.8 |* std 9.1193464 74.6 |. n 212 77 |. . 2 |-+-+-+-+-连续变量均数、标准差与百分位数描述 连续变量常用的统计量有均数、标准差、中位数。在计算这些统计量前,检查连续变量的分布,发现异常值极为重要。个别异常的极大值或极小值,不仅影响均数与标准差,而且如将它放在一个线性回归模型中,会大大影响回归系数,甚至完全改变回归结果。实实 例例Output of Unitabs() for datase

6、t: WD.SMKCOPD , COPD=0 =Output of Unitabs() for dataset: WD.SMKCOPD , COPD=0 =Var. N min 10% 25% 50% 75% 90% max mean stdVar. N min 10% 25% 50% 75% 90% max mean stdAGE 520 15.7 19.9 25.9 32.5 43.1 54.9 74.6 35.1 12.7AGE 520 15.7 19.9 25.9 32.5 43.1 54.9 74.6 35.1 12.7HEIGHT 496 1.4 1.5 1.5 1.6 1.6 1

7、.7 1.8 1.6 0.1HEIGHT 496 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1WEIGHT 496 29.5 45.5 49.0 53.0 58.0 62.5 76.0 53.6 7.0WEIGHT 496 29.5 45.5 49.0 53.0 58.0 62.5 76.0 53.6 7.0BMI 496 15.3 18.9 19.8 20.9 22.4 23.9 28.9 21.2 2.1BMI 496 15.3 18.9 19.8 20.9 22.4 23.9 28.9 21.2 2.1Total N 520Total N 520Output o

8、f Unitabs() for dataset: WD.SMKCOPD , COPD=1 =Output of Unitabs() for dataset: WD.SMKCOPD , COPD=1 =Var. N min 10% 25% 50% 75% 90% max mean stdVar. N min 10% 25% 50% 75% 90% max mean stdAGE 307 15.6 23.0 31.6 41.8 53.3 63.6 77.0 42.3 14.6AGE 307 15.6 23.0 31.6 41.8 53.3 63.6 77.0 42.3 14.6HEIGHT 294

9、 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1HEIGHT 294 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1WEIGHT 294 32.0 43.0 47.5 52.3 58.0 64.5 77.0 53.1 8.4WEIGHT 294 32.0 43.0 47.5 52.3 58.0 64.5 77.0 53.1 8.4BMI 294 14.7 17.9 19.4 21.2 22.9 24.8 30.9 21.2 2.7BMI 294 14.7 17.9 19.4 21.2 22.9 24.8 30.9 21.2 2.7TotalN 3

10、07TotalN 307Output of Unitabs() for dataset: WD.SMKCOPD =Output of Unitabs() for dataset: WD.SMKCOPD =Var. N min 10% 25% 50% 75% 90% max mean stdVar. N min 10% 25% 50% 75% 90% max mean stdAGE 832 15.6 21.4 27.6 34.0 47.9 58.4 77.0 37.9 13.9AGE 832 15.6 21.4 27.6 34.0 47.9 58.4 77.0 37.9 13.9HEIGHT 7

11、95 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1HEIGHT 795 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1WEIGHT 795 29.5 44.0 48.5 53.0 58.0 63.0 77.0 53.4 7.6WEIGHT 795 29.5 44.0 48.5 53.0 58.0 63.0 77.0 53.4 7.6BMI 795 14.7 18.6 19.7 21.0 22.6 24.3 30.9 21.2 2.3BMI 795 14.7 18.6 19.7 21.0 22.6 24.3 30.9 21.2 2.3Total

12、N 832Total N 832实 例EDU(文化程度) value count - percent - . 4|*1.87% 1 7|*3.27% 2 140|*65.4% 3 42|*19.6% 4 21|*9.81% Total 214单个分类变量的描述多个分类变量描述 在数据分析前,对有关的一组分类变量联在数据分析前,对有关的一组分类变量联合的频数进行统计报告,用以评估这组变量各合的频数进行统计报告,用以评估这组变量各种组合的层次有多少,各层有多少人。一方面,种组合的层次有多少,各层有多少人。一方面,可以对这些变量之间的关系进行描述,另一方可以对这些变量之间的关系进行描述,另一方面,在

13、进行多因素分析前,可以了解有效的样面,在进行多因素分析前,可以了解有效的样本量。本量。 实实 例例 C P S W OC P S W O O H O H B O H O H B U L B E S U L B E S G E E G E E H G Z H G Z M E M E 1 1 1 1 5 1 1 1 1 5 2 2 2 2 503 2 2 2 2 503 2 2 2 3 17 2 2 2 3 17 2 2 3 2 113 2 2 3 2 113 2 2 3 3 25 2 2 3 3 25 2 3 2 2 28 2 3 2 2 28 2 3 2 3 4 2 3 2 3 4 2 3 3

14、 2 17 2 3 3 2 17 2 3 3 3 7 2 3 3 3 7 3 2 2 2 8 3 2 2 2 8 3 2 2 3 1 3 2 2 3 1 3 2 3 2 6 3 2 3 2 6 3 2 3 3 4 3 2 3 3 4 3 3 2 2 20 3 3 2 2 20 3 3 2 3 6 3 3 2 3 6 3 3 3 2 30 3 3 3 2 30 3 3 3 3 38 3 3 3 3 38二分类变量交叉频数描述 二分类事件用变量表示,变量值等于二分类事件用变量表示,变量值等于1 1表示表示事件发生,等于零表示未发生。如同上面所介绍事件发生,等于零表示未发生。如同上面所介绍的一样,通

15、过观察二分类变量之间交叉发生频数,的一样,通过观察二分类变量之间交叉发生频数,有助于揭示事件(现象)之间的内在联系,为进有助于揭示事件(现象)之间的内在联系,为进一步分析提供线索。一步分析提供线索。实 例 Only 咳痰 流泪 哮喘 Total N_Obs咳嗽 8 94 78 49 113 832咳痰 28 92 55 150 832流泪 113 74 240 832哮喘 17 102 832多个数据集的描述 描述多个数据集中观测对象情况 如果项目收集的研究对象的数据被如果项目收集的研究对象的数据被放在多个数据文件中,那么数据分析前放在多个数据文件中,那么数据分析前既需了解单个数据文件的记录数

16、、变量既需了解单个数据文件的记录数、变量数和唯一编号数(或称研究对象数),数和唯一编号数(或称研究对象数),又需了解研究对象资料的完整性,即研又需了解研究对象资料的完整性,即研究对象编号在各数据文件中的分布情况。究对象编号在各数据文件中的分布情况。结果一结果一 Datasets Report by %dtsrpt() = #Variables #Observations #Unique_SUBJA:B1.REGIS1 6 435 428B:B1.EXAM1 5 431 421C:B1.QUES1 11 427 427D:B1.SPIR1 4 384 377E:B1.LABG1 8 428 42

17、8结果二结果二# of Subjects in # of Datasets 428 1 2 2 55 3 371 4结果三结果三# Subjects in Datasets 428 - - - - E 1 A - C - - 6 A - C D - 1 A B - - - 49 A B C - - 371 A B C D -结果四结果四SUBJ In data00001 A B C D -00002 A B C D -00008 A B C D -00009 A B C D -00010 A B C - -00011 A B C - -00012 A B C D -00427 A B C D

18、-00428 A B C D -97 - - - - E98 - - - - E99 - - - - E* END of %dtsrpt()* 描述多个数据集中变量情况 数据管理中的变量名管理一般要求:(1)这些含不同信息的数据文件除研究对象编号变量名外,没有其他重名的变量,以免在数据横向合并时出现错误;(2)含相同信息的不同批次的数据文件所有变量名及变量类型均需相同,以免在数据纵向合并时造成不必要的错误。对多个数据集中的变量的分布情况进行检查是数据管理与分析中必不可少的前提。 因此需要观察多个数据集中变量的分布情况,了解哪些变量是哪个数据集单独所有,哪些变量是几个数据集共同拥有及不同数据文件

19、中的同名变量类型是否相同。 结果一结果一Output of %dtsvchk(): Variables Report for Datasets = # of VariablesA:B1.REGIS1 6B:B1.EXAM1 5C:B1.QUES1 11D:B1.SPIR1 4E:B1.LABG1 8结果二结果二Variable name by datasets:Variable name by datasets:A11 - - - - EA11 - - - - EA12 - - - - EA12 - - - - EA31 - - - - eA31 - - - - eA32 - - - - eA

20、32 - - - - eAGE A - - - -AGE A - - - -COUGH - - C - -COUGH - - C - -DBP - B - - -DBP - B - - -EDU - - C - -EDU - - C - -FEV1 - - - D -FEV1 - - - D -FMYID a - - - -FMYID a - - - -FMYTYPE A - - - -FMYTYPE A - - - -SEX A - - - -SEX A - - - -SMKAMT - - C - -SMKAMT - - C - -SOB - - C - -SOB - - C - -SUBJ

21、 a b c d ESUBJ a b c d ETDATE - - - d eTDATE - - - d eWEIGHT - B - - -WEIGHT - B - - -WHEEZE - - C - -WHEEZE - - C - -A B C . index the dataset nameA B C . index the dataset nameif UpperCase (e.g: A), means as a numeric in the index dataset (A)if UpperCase (e.g: A), means as a numeric in the index d

22、ataset (A) if LowerCase (e.g: f), means as a character in the index dataset (F) if LowerCase (e.g: f), means as a character in the index dataset (F) 两个数据集的比较 对两个数据集进行比较也是经常应用的步对两个数据集进行比较也是经常应用的步骤之一。如比较两次录入分别产生的两个数据集骤之一。如比较两次录入分别产生的两个数据集以发现录入错误;比较质控复查产生的数据集与以发现录入错误;比较质控复查产生的数据集与初查产生的数据集。两个数据集的比较牵涉到变初

23、查产生的数据集。两个数据集的比较牵涉到变量名及类型的比较、研究对象编号的比较、具体量名及类型的比较、研究对象编号的比较、具体数值的比较。数值的比较。结果一结果一Variable only in OTH.LABG1RVariable only in OTH.LABG1RObs NAME TYPEObs NAME TYPE 1 TDATE 1 1 TDATE 1Variable only in B1.LABG1Variable only in B1.LABG1Obs NAME TYPEObs NAME TYPE 1 TDATE 2 1 TDATE 2结果二结果二Variable both in O

24、TH.LABG1R and B1.LABG1Variable both in OTH.LABG1R and B1.LABG1Obs NAME TYPEObs NAME TYPE 1 A11 1 1 A11 1 2 A12 1 2 A12 1 3 A21 2 3 A21 2 4 A22 2 4 A22 2 5 A31 2 5 A31 2 6 A32 2 6 A32 2 7 SUBJ 1 7 SUBJ 1结果三结果三SUBJ only in B1.LABG1SUBJ only in B1.LABG1Obs SUBJObs SUBJ 1 253 1 253 2 407 2 407结果四结果四SUBJ

25、 Variable OTH.LABG1R B1.LABG1SUBJ Variable OTH.LABG1R B1.LABG154 A11 20 1054 A11 20 1046 A12 20 1046 A12 20 10378 A12 20 10378 A12 20 10125 A21 A B125 A21 A B145 A21 A B145 A21 A B304 A21 A B304 A21 A B141 A31 R G141 A31 R G177 A31 G R177 A31 G RTotal unmatched field = 8Total unmatched field = 8家系结构

26、数据的描述n在对家系数据进行分析前,我们首先要知道所收集的家系构成情况,如多少家系父母齐全,多少家系只有一个子女,多少家系有两个子女等等。 Report for Family Structure %fmyrpt(), dataset:B1.REGIS1 =Report for Family Structure %fmyrpt(), dataset:B1.REGIS1 = Fa Mo Sibs=0 Sibs=1 Sibs=2 Sibs=3 Sibs=4 Sibs=5 Sibs=6 Sibs=7 Total Fa Mo Sibs=0 Sibs=1 Sibs=2 Sibs=3 Sibs=4 Sibs

27、=5 Sibs=6 Sibs=7 Total 0 1 3 0 0 0 0 0 0 0 3 0 1 3 0 0 0 0 0 0 0 3 1 0 2 1 0 0 0 0 0 0 3 1 0 2 1 0 0 0 0 0 0 3 1 1 22 11 20 13 14 10 2 4 96 1 1 22 11 20 13 14 10 2 4 96 Total 27 12 20 13 14 10 2 4 102 Total 27 12 20 13 14 10 2 4 102 Total observations = 435 Total observations = 435 Total Unique ID (

28、subjects) = 428 Total Unique ID (subjects) = 428 Total missing family information = 0 Total missing family information = 0n数据清理数据集中重复记录的检查和清除 检查数据集中有无重复录入现象。检查数据集中有无重复录入现象。如没有录入错误,重复录入会导致两如没有录入错误,重复录入会导致两条或多条记录除记录号(不同于调查条或多条记录除记录号(不同于调查对象的编号)外,其它变量值完全相对象的编号)外,其它变量值完全相同。同。Duplicated Observations to B

29、e DeletedObs HEIGHT WEIGHT SBP DBP SUBJ 56 1.50 50.0 114 66 00270347 1.65 64.5 111 70 00399 Obs HEIGHT WEIGHT SBP DBP SUBJ 1 1.38 29.5 110 65 00280 . 53 1.50 49.0 192 97 00249 54 1.50 49.5 129 79 00143 55 1.50 50.0 114 66 00270 56 1.50 50.0 114 66 00270 57 1.50 52.0 155 79 00141 Obs HEIGHT WEIGHT SB

30、P DBP SUBJ 1 1.38 29.5 110 65 00280 . 53 1.50 49.0 192 97 00249 54 1.50 49.5 129 79 00143 55 1.50 50.0 114 66 00270 56 1.50 52.0 155 79 00141 数据集中重复编码的检查和清除 在数据中,同样我们需要考虑重复录入的问在数据中,同样我们需要考虑重复录入的问题,如是重复录入,则保留其中一条,而删除其题,如是重复录入,则保留其中一条,而删除其中一条;如果是重复编号的记录则可能是编号错中一条;如果是重复编号的记录则可能是编号错误或编号录入错误导致,对这些记录除核查原始

31、误或编号录入错误导致,对这些记录除核查原始资料改错外,在数据分析时只能删除,避免在数资料改错外,在数据分析时只能删除,避免在数据横向合并时出现张冠李戴据横向合并时出现张冠李戴。结果一Duplicated Observations Were DeletedObs HEIGHT WEIGHT SBP DBP SUBJ 56 1.50 50.0 114 66 00270347 1.65 64.5 111 70 00399结果二Multiple(=2) SUBJ in B1.EXAM1 Were DeletedObs SUBJ HEIGHT WEIGHT SBP DBP 7 00007 1.47 47

32、.0 106 63 8 00007 1.47 47.0 128 52 58 00057 1.70 63.0 123 68 59 00057 1.70 63.0 132 76153 00153 1.64 55.5 131 79154 00153 1.64 55.5 156 78188 00187 1.51 48.0 113 54189 00187 1.54 48.0 118 67190 00187 1.60 56.5 123 58191 00187 1.60 56.5 123 70192 00188 1.65 61.5 152 72193 00188 1.65 61.5 162 81212 00

33、208 1.58 48.2 112 60213 00208 1.60 51.5 104 61 正态分布的连续变量异常值查找和清除 连续型变量的取值分布如近似正态,则用连续型变量的取值分布如近似正态,则用均数均数 + + K K* *标准差的方法判断异常值。标准差的方法判断异常值。K K通常取通常取3 3,即在离均数即在离均数3 3个标准差之外的看成异常值,因为个标准差之外的看成异常值,因为正态分布正态分布3 3个标准差外的取值概率小于个标准差外的取值概率小于1%1%(2.582.58个标准差为个标准差为1%1%)。)。结果一结果一Nobs Variable N MEAN STDNobs Var

34、iable N MEAN STD- 431 HEIGHT 431 1.62137 0.73678 431 HEIGHT 431 1.62137 0.73678 WEIGHT 431 52.96520 7.57473 WEIGHT 431 52.96520 7.57473 SBP 431 131.31787 27.40470 SBP 431 131.31787 27.40470 DBP 431 69.65429 11.11039 DBP 431 69.65429 11.11039结果二结果二Total number of outliers:Total number of outliers: HE

35、IGHT WEIGHT SBP DBP HEIGHT WEIGHT SBP DBP 1 4 4 5 1 4 4 5结果三结果三 obs HEIGHT WEIGHT SBP DBPobs HEIGHT WEIGHT SBP DBP 38 16.8 . . . 38 16.8 . . . 117 . . 219 . 117 . . 219 . 156 . . . 113 156 . . . 113 285 . 29.5 . . 285 . 29.5 . . 287 . . . 109 287 . . . 109 293 . 30 . . 293 . 30 . . 294 . . 226 137 2

36、94 . . 226 137 303 . 76 . . 303 . 76 . . 305 . 77 . . 305 . 77 . .一组正态分布连续变量异常值查找n 一组正态分布的连续变量,可以通过计算均数、方差与协方差矩阵,再计算Mahalanobis距离,Mahalanobis距离反应了个体一组变量与总体平均水平的差异。这种差异不仅反映在每单个变量与总体的差异,也反映变量间的相对大小(变量反应图)的差异。 结 果Multivariate Analsis: Mahalanobis DistanceData=oth.wais , Var=info simil arith pictObserva

37、tion with any variable is missing will be excluded.Total observations used: 40The mean for each variable: INFO SIMIL ARITH PICT 11.25 8.425 10.575 7.15The Mahalanobis Distance and its P-value were save in MAHDISTFollowing id have a P-value 0.05ID INFO SIMIL ARITH PICT D-square P-value5 6 3 13 9 9.76

38、01 0.044632 10 0 6 2 11.697 0.0197 偏态分布的连续变量异常值查找和清除 对于偏态分布的连续型变量,可以对这些对于偏态分布的连续型变量,可以对这些变量名给定上下限百分位数,如下限为变量名给定上下限百分位数,如下限为0.5%0.5%,上,上限为限为99.5%99.5%来查找异常值。来查找异常值。结果一结果一 HEIGHT WEIGHT SBP DBPHEIGHT WEIGHT SBP DBP0.5% 1.4 32 96 500.5% 1.4 32 96 5099.5% 1.8 73.5 226 11699.5% 1.8 73.5 226 116结果二结果二Tota

39、l number of outliers:Total number of outliers: HEIGHT WEIGHT SBP DBP HEIGHT WEIGHT SBP DBP 4 4 4 2 4 4 4 2结果三结果三 obs HEIGHT WEIGHT SBP DBPobs HEIGHT WEIGHT SBP DBP 38 16.8 . . . 38 16.8 . . . 44 . . 90 . 44 . . 90 . 62 . . 88 . 62 . . 88 . 106 1.39 . . . 106 1.39 . . . 283 1.81 . . . 283 1.81 . . .

40、285 1.38 29.5 . . 285 1.38 29.5 . . 293 . 30 . . 293 . 30 . . 294 . . . 137 294 . . . 137 303 . 76 . . 303 . 76 . . 305 . 77 . . 305 . 77 . . 336 . . 412 . 336 . . 412 . 350 . . . 126 350 . . . 126 381 . . 255 . 381 . . 255 . 变量值长度的改变 在数据的收集阶段,如编号是从在数据的收集阶段,如编号是从1 1,2 2,3 3,顺序编下来,编号值的长度就会有一位数、二位顺序编下

41、来,编号值的长度就会有一位数、二位数、三位数等不同,当我们需要对多个数据集合数、三位数等不同,当我们需要对多个数据集合并时,各数据集之间必须共有一个连接变量,有并时,各数据集之间必须共有一个连接变量,有时这个连接变量在一个数据集中是数据型,在另时这个连接变量在一个数据集中是数据型,在另一个数据集中是字符型,而且字符长度可能不同,一个数据集中是字符型,而且字符长度可能不同,数据集合并前需将它们统一到同一长度,否则合数据集合并前需将它们统一到同一长度,否则合并时会出错。并时会出错。程序运行前前程序运行前前5 5条记录打印结果为:条记录打印结果为:Obs A11 A12 A21 A22 A31 A3

42、2 TDATE SUBJObs A11 A12 A21 A22 A31 A32 TDATE SUBJ 1 . . A B R G 08/18/00 346 1 . . A B R G 08/18/00 346 2 . . B A 08/18/00 76 2 . . B A 08/18/00 76 3 . . B A G R 08/18/00 274 3 . . B A G R 08/18/00 274 4 . . B A R R 08/18/00 87 4 . . B A R R 08/18/00 87 5 . . B A R R 08/18/00 253 5 . . B A R R 08/1

43、8/00 253%vlchg%vlchg()程序运行后,数据集前()程序运行后,数据集前5 5条记录打印结果为:条记录打印结果为:Obs A11 A12 A21 A22 A31 A32 TDATE SUBJObs A11 A12 A21 A22 A31 A32 TDATE SUBJ 1 . . A B R G 08/18/00 00346 1 . . A B R G 08/18/00 00346 2 . . B A 08/18/00 00076 2 . . B A 08/18/00 00076 3 . . B A G R 08/18/00 00274 3 . . B A G R 08/18/0

44、0 00274 4 . . B A R R 08/18/00 00087 4 . . B A R R 08/18/00 00087 5 . . B A R R 08/18/00 00253 5 . . B A R R 08/18/00 00253分类变量重新分类 在数据分析时常常需要对分类变量根据各类频数进行重新分类。如职业变量,原分类的取值编码为:1=农民,2=工人,3=教师,4=干部,5=学生,6=其它,共6组,如直接将它放在一个多元回归模型中,它将占5个自由度;但由于教师、干部、学生、其它四组人数都很少,数据分析时宜将这四组合并,新职业变量只有三种分类:1=农民,2=工人,3=其它,这时

45、它在一个多元回归模型中,只有2个自由度,有利于提高统计检验效率。程序运行前,原数据集中程序运行前,原数据集中OCCU OCCU 频数分布为:频数分布为: Cumulative CumulativeCumulative CumulativeOCCU Frequency Percent Frequency PercentOCCU Frequency Percent Frequency Percent- 0 50 11.71 50 11.71 0 50 11.71 50 11.71 1 39 9.13 89 20.84 1 39 9.13 89 20.84 2 3 0.70 92 21.55 2 3

46、 0.70 92 21.55 3 6 1.41 98 22.95 3 6 1.41 98 22.95 4 13 3.04 111 26.00 4 13 3.04 111 26.00 5 2 0.47 113 26.46 5 2 0.47 113 26.46 6 180 42.15 293 68.62 6 180 42.15 293 68.62 7 56 13.11 349 81.73 7 56 13.11 349 81.73 8 72 16.86 421 98.59 8 72 16.86 421 98.59 9 6 1.41 427 100.00 9 6 1.41 427 100.00程序运行

47、后,新数据集中程序运行后,新数据集中OCCU OCCU 频数分布为:频数分布为: Cumulative CumulativeCumulative CumulativeOCCU Frequency Percent Frequency PercentOCCU Frequency Percent Frequency Percent- 0 180 42.15 180 42.15 0 180 42.15 180 42.15 1 72 16.86 252 59.02 1 72 16.86 252 59.02 2 175 40.98 427 100.00 2 175 40.98 427 100.00 连续型

48、变量转换成等级变量 数据分析时常常需将连续变量转变成分类(等级)变量。如要分析年龄对体重指数间的影响,当不知道这两者间是否是线性关系时(随年龄的增长体重指数呈线性上升或下降),可将所有研究对象按年龄大小分成五等份(即五个等级),比较每个等级间体重指数的变化趋势;又例如,当用多元回归方程分析吸烟对体重指数的影响时,若要在模型中放入年龄以调整,如年龄与体重指数不呈线性的关系,直接放入连续变量的年龄起不到调整作用,需要将它转变成分类变量,以分类变量形式放入模型中。%ranks(WD.RESPT, var=AGE SBP, num=4 3, prnopt=1, %ranks(WD.RESPT, var

49、=AGE SBP, num=4 3, prnopt=1, outdata=RESPT2);outdata=RESPT2);程序运行后,程序运行后,SAS OUTPUT SAS OUTPUT 窗口显示窗口显示: :The MEANS ProcedureThe MEANS Procedure Rank for N Rank for NVariable AGE Obs Mean Std Dev Minimum MaximumVariable AGE Obs Mean Std Dev Minimum Maximum 0 210 22.270 3.514 15.600 27.600 0 210 22.2

50、70 3.514 15.600 27.600 1 202 31.093 1.937 27.700 33.900 1 202 31.093 1.937 27.700 33.900 2 214 40.429 4.152 34.000 47.900 2 214 40.429 4.152 34.000 47.900 3 206 57.791 7.200 48.100 77.000 3 206 57.791 7.200 48.100 77.000 Rank for N Rank for NVariable SBP Obs Mean Std Dev Minimum MaximumVariable SBP

51、Obs Mean Std Dev Minimum Maximum 0 257 110.790 6.391 88.000 119.000 0 257 110.790 6.391 88.000 119.000 1 269 125.019 3.677 120.000 132.000 1 269 125.019 3.677 120.000 132.000 2 269 154.204 22.080 133.000 255.000 2 269 154.204 22.080 133.000 255.000 连续型变量按百分位分组 数据分析时常常要将某一连续变量根据某一数据分析时常常要将某一连续变量根据某一判

52、断标准分为正常、异常,或分为高、中、低。判断标准分为正常、异常,或分为高、中、低。这种判断标准可以是临床上常用的诊断标准,但这种判断标准可以是临床上常用的诊断标准,但流行病学研究时常用来自人群百分位数(如流行病学研究时常用来自人群百分位数(如95%95%,5%5%位数)做为分类标准。位数)做为分类标准。%varspctl(WD.RESPT, var=SBP DBP, pre=S D, pctl=10 90, %varspctl(WD.RESPT, var=SBP DBP, pre=S D, pctl=10 90, byvar=SEX, ref=FMYTYPE=0, outdata=RESPT3

53、, prnopt=1);byvar=SEX, ref=FMYTYPE=0, outdata=RESPT3, prnopt=1); 程序运行后,程序运行后,SAS OUTPUT SAS OUTPUT 窗口显示窗口显示: :Percentile cutpoint for SBPPercentile cutpoint for SBPObs SEX S10 S90Obs SEX S10 S90 1 1 110 153 1 1 110 153 2 2 101 135 2 2 101 135Percentile cutpoint for DBPPercentile cutpoint for DBPObs

54、SEX D10 D90Obs SEX D10 D90 1 1 59 79 1 1 59 79 2 2 57 78 2 2 57 78The FREQ ProcedureThe FREQ Procedure Cumulative Cumulative Cumulative CumulativeS_C Frequency Percent Frequency PercentS_C Frequency Percent Frequency Percent- 0 55 6.92 55 6.92 0 55 6.92 55 6.92 1 574 72.20 629 79.12 1 574 72.20 629

55、79.12 2 166 20.88 795 100.00 2 166 20.88 795 100.00 Frequency Missing = 37Frequency Missing = 37 Cumulative Cumulative Cumulative CumulativeD_C Frequency Percent Frequency PercentD_C Frequency Percent Frequency Percent- 0 106 13.33 106 13.33 0 106 13.33 106 13.33 1 549 69.06 655 82.39 1 549 69.06 65

56、5 82.39 2 140 17.61 795 100.00 2 140 17.61 795 100.00 Frequency Missing = 37Frequency Missing = 37单一回归填补条件均数填补基线访视结转最好病例填补非条件均数填补单一热层填补单一随机回归填补多重热层填补法多重回归填补法数据扩增法末次访视结转 最差病例填补缺省值的处理名名 称称处处 理理 方方 法法末次访视结转将末次观察值作为其研究终点的应答基线访视结转将基线观察值作为其研究终点的应答最差病例填补将对照组的缺失值按“成功”处理,试验组缺失值按“失败”处理最好病例填补将对照组的缺失值按“失败”处理,试验

57、组缺失值按“成功”处理非条件均数填补用变量的均数代替该变量的每个缺失值条件均数填补根据预测变量将总体进行交叉分层(如性别、年龄),用该观察个体所在层的完整数据的均数替代缺失值单一热层填补建立一组“近邻数值”,从中随机选取一个数值代替缺失值名名 称称处处 理理 方方 法法 单一回归填补选好协变量,采用已经获得到的数据根据协变量反推结局,通过回归模型得到的预计值代替缺失值单一随机回归填补将单一回归填补的预计值加上残差替代缺失值多重热层填补法建立一组“近邻数值”,从中随机选取一个数值,代替缺失值。重复和N次,N为缺失值数量。采用事先规定的分析方法分析各个完整数据集,合并以上结果。多重回归填补法将已经

58、获得到的数据代入回归方程,采用回归方程估计缺失值,加上残差,重复前3个步骤N次,N为缺失值数量。数据扩增法具体方法略变量变量有效值个数有效值个数缺失值缺失值个数个数构成比(构成比(%)年龄年龄2246.325.2900.00体重体重2278.497.4800.00跑所需时间跑所需时间2210.641.4600.00跑时脉搏跑时脉搏21172.058.1314.55跑时最高脉搏跑时最高脉搏17173.476.10522.73动脉血氧分压动脉血氧分压226.280.7700.00XS结果显示,跑时脉搏和跑时最高脉搏分别有1个和5个缺失值,缺失比例分别为4.55%和22.73%。将这两个变量分别按有

59、效值和缺失值分组,并以动脉血氧分压为应变量进行t检验。自变量自变量有效值有效值缺失值缺失值tPnSnS跑时脉搏跑时脉搏216.200.68718.01-2.5730.018跑时最高脉搏跑时最高脉搏176.360.80956.030.6540.8110.427X X结果显示:动脉血氧分压在跑时脉搏有效值和缺失值两组差别有统计学意义,提示为非完全随机缺失,而在跑时最高脉搏有效值和缺失值两组差别无统计学意义,提示可能为完全随机缺失。该资料样本含量不大,虽然跑时脉搏缺失比例较小,但为非完全随机缺失,而跑时最高脉搏缺失比例较大,因此两变量考虑采用均数替代法和回归估计法(以年龄、体重、跑2000米所需时间

60、为自变量)对缺失值进行处理。 情形情形n n入选变量入选变量b缺失值处理前缺失值处理前16160.7120.712跑所需时间跑所需时间-0.463缺失值处理后缺失值处理后* *22220.7480.748跑所需时间跑所需时间-0.458*均数替代法和回归估计法入选变量b值和 值结果一致2R结果显示:对于跑时脉搏的缺失数据,均数替代法以172.05作为其估计值,回归估计法以166.00作为其估计值;对于跑时最高脉搏的缺失数据,均数替代法以173.47作为其估计值,回归估计法分别以166.35,179.64,172.47,174.71和165.76作为估计值。对缺失值处理前(指删除有缺失值的6个个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论