生物医学数据挖掘 第二章 临床医学数据采集与分析1_第1页
生物医学数据挖掘 第二章 临床医学数据采集与分析1_第2页
生物医学数据挖掘 第二章 临床医学数据采集与分析1_第3页
生物医学数据挖掘 第二章 临床医学数据采集与分析1_第4页
生物医学数据挖掘 第二章 临床医学数据采集与分析1_第5页
已阅读5页,还剩163页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章临床医学数据采集与分析数据的概念数据(data)是对客观事物特征状态的记录。如某类药物的使用量、床位使用率、心率、血压等生理参数数据是信息和知识的载体;信息和知识才是真正有意义的。数据的结构数据对象(或数据记录)一个样本的数据记录对应表格的一行特征属性表格的每一列也称为:变量、指标、字段、特征、维AttributesObjects属性值字段名一条记录的所有属性的结合描述了这个具体对象的特征标识变量分析变量自变量(解释变量)反应变量属性与属性值数据类型不同,值的形式也不同相同的属性可能有不同的属性值 例子: 高度可以用米或英尺来表示不同的属性可能映射到相同的值的集合 例子: 雇员ID an

2、d 年龄 都用整型表示 然而,谈论平均年龄是有意义的,平均ID是无意义的ID和年龄最大值不同数据的类型数据定量(数值)连续离散定性(分类)无序二分类多项分类有序(半定量或等级)不同类型的分类数据在统计分析方法上也不同定量数据研究对象的指标(X)表现为有数字大小和单位的数据,又称计量数据.连续性数据(Continuous Data)身高值 (cm) :1.65,1.70 , 1.58 .体重值 (kg): 52,55,61.不连续性数据(Discrete Data)如疾病的复发次数、年龄、学习成绩等。定性数据定性数据(Qualitative Data)或称分类数据(Categorical Dat

3、a) 变量值表现为按某属性划分的定性类别分类数据的分层大于2时,又称为多分类数据。定性数据类型有无序和有序。无序数据(Nominal Categorial)二分类:如性别(男、女)、多分类:血型(A、B、O、AB型)等。有序数据(Ordinal Categorieal)如肿瘤的分级(I级、II级、III级)、疼痛的程度(轻、 中、重)等,以及在临床研究设计中,经常看到的“非常好、好、一般、差”这样的数据类型。数据类型的转换 数据的类型是可以转换的定量数据转换为定性或等级数据 分组切割值确定方法以正常参考值或临床诊断标准作为分组依据。年龄资料是计量资料,但可以按大于65岁、4565岁、小于45岁

4、分为老、中、青年3类而转变为等级资料 某些定量指标尚无公认的正常参考值,可根据均数或四分位间距值,将其分为两组或四组。根据数据的分布特点和研究需要,自行确定,但要能对统计分析结果做出合理的解释。数据的类型决定着所要选择的分析方法。定量数据转换为定性数据一般比较简单从定性数据就无法再转换成定量数据对两组或多组研究单项的某项指标进行分析时,数据从定量转换为定性或等级数据时,数据的信息量会下降。注意事项临床医学原始资料临床医学原始资料的收集方式直接观察法:包括体检标本检测等。采访法:面访、调查会及信访电话访问等医学数据的特点隐私性(Privacy)医学数据不可避免地涉及到患者的一些隐私信息,当这些隐

5、私信息使患者在日常生活中遭遇到不可预料的侵扰时,就产生了隐私性问题。知情同意书多样性由于医学数据是从医学影像、实验数据以及医生与病人的交流中获得的,所以原始的医学数据具有多种形式。医学数据的多样性是它区别于其它领域数据的最显著特征。不完整性医学数据的搜集和处理过程经常相互脱节,以及一些人为因素使得医学数据库不可能对任何疾病信息都能全面地反映。冗余性医学数据库是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。数据质量 数据质量问题: 噪声(Noise) 离群点(outliers )遗漏值(missing values )重复数据(

6、duplicate data )(内源性) 随机误差非随机误差/系统误差仪器、方法的不一致,选择对象偏倚、测量偏倚 未知众多微小因素所引起数据的变异,如抽样误差。不能避免,有统计学规律性可控制和缩小误差来源与种类(外源性)过失误差研究者操作失误予以清除(1)噪声噪声是测量误差的随机部分 Examples: distortion of a persons voice when talking on a poor phone and “snow” on television screenTwo Sine WavesTwo Sine Waves + Noise测定值(X)=真值(t)+误差(e)系统

7、误差随机误差(2)离群点噪声和离群点的区别离群点可以是合法的数据对象或值,不像噪声,离群点本身可以是令人感兴趣的例子:欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件离群值和极端值离群值(outliner) 与P25或P75的距离为“四分位数间距”的1.53.0倍。极端值(extreme value) 与P25或P75的距离为“四分位数间距”的3.0倍以上。百分位数(percentile)是一种位置指标,用 表示。计算定义:将一组变量值由小到大依次排列, 为第x百分位数的秩次,其对应的变量值(x)为第x百分位数,记为Px。X: 1 5 8 10.105秩次 1 2 3

8、 4 100 % 1% 2% 3%n=100百分位数计算方法1.直接法将样本值由小到大排队,用 确定Px的位次和PX。当 为带有小数位时当 为整数时trunc(a)表示对数字取其整数。 式2.8式2.7例:8位患者某病的住院天数: 2 2 2 3 3 4 5 6求50%位数和80%位数。解:第50%位次:nX%=80.5=4,用式2.8 中位数=P50=3(天)第80%位次:nX%=80.8=6.4,用公式2.7离群值和极端值离群值(outliner) 与P25或P75的距离为“四分位数间距IQR”的1.53.0倍。极端值(extreme value) 与P25或P75的距离为“四分位数间距I

9、QR”的3.0倍以上。P75+1.5IQR P75 (Q3)P50 (Q2)P25 (Q1)P25-1.5IQR 离群或极端值剔除离群或极端值要予以合理解释。发现可疑值后,首先应从专业、技术与操作方面进行检查,寻找可能发生失误的原因。若查明属于粗枝大叶、中途条件改变、未遵守操作规程、仪器或试剂失灵等,则应舍弃该可疑值。如身高1755cm数据无明显的逻辑错误,可将数据剔除前后各做一次分析,若结果不矛盾可以不剔除。否则,需要剔除,并给出充分合理的解释,如,用何种方法确定偏离数据,该数据在实验中何种干扰下产生等(3)遗漏值产生遗漏值的原因信息未收集到例如:血脂或血糖因为血清量不足或研究对象拒绝采血而

10、导致某些研究对象实验室的检测结果成为缺失数据。 属性并不能用于所有对象例如:填写学历后,填写专业,研究方向处理遗漏值删除数据对象或属性估计遗漏值在分析时忽略遗漏值(4)重复数据数据集可能包含重复或几乎重复的数据对象例1:许多人收到重复的邮件例2:不同数据库收集的蛋白质互作数据和通路数据的重复例3:重复序列,如rRNA基因、tRNA基因和某些蛋白质(如组蛋白、肌动蛋白等)的基因序列例4:旁系同源基因合并重复数据数据的转换将不同来源数据的数据格式、数据类型进行一致性转换偏态分布资料数据转换 数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒

11、数变换等。 数据转换的目的:使偏态分布接近正态分布;消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。数据的整理将数据存储成规范的表格形式计量资料的统计描述概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料的统计描述方法:1. 通过频数表描述数据特征2.用统计指标 定量描述数据的特征。 计量资料的频数表(大样本数据)频数表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段中的分布范围和规律。例: 表1例1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L )的测量结果 2.354.213

12、.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83

13、.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26boxplot(data)计量资料编制频数表的步骤例1数据 1.确定全距(R)=最大值 最小值load(E:本科课程生物医学数据挖掘血清总胆固醇.mat);R=max(data)-min(data);2.定组数(8-15组)和组距:大概分成10组3.36/10=0.3360.34.划计并计数(见表2-3)f, xout = hist(data, 10);表2-1 101名正常成年女性血清总胆固醇频数表总计1.00101频数表

14、及分布图的用途1. 通过频数表了解数据的分布特征。X值分布情况:偏态或正态分布取值情况:变量值取值范围集中趋势:变量值集中位置。2.便于发现资料中的可疑值。3.组段的频率作为概率的估计。例:表2-1资料频数分布图直方图图2-1 101名正常成年女性血清总胆固醇频数分布频数血清总胆固醇正态分布hist(data, 10);数据的类型数据定量(数值)连续离散定性(分类)无序二分类多项分类有序(半定量或等级)不同类型的分类数据在统计分析方法上也不同数据质量 数据质量问题: 噪声(Noise) 离群点(outliers )遗漏值(missing values )重复数据( duplicate data

15、 )数据的转换将不同来源数据的数据格式、数据类型进行一致性转换偏态分布资料数据转换 数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。 数据转换的目的:使偏态分布接近正态分布;消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。数据的整理将数据存储成规范的表格形式计量资料的统计描述概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料的统计描述方法:1. 通过频数表描述数据特征2.用统计指标 定量描述数据的特征。 基于临床数据发现广义知识计量资料的统计描述分类资料的统计描述连续变量的指标集

16、中趋势指标平均数:算数平均数、几何平均数、中位数、众数离散趋势指标变异指标:极差、标准差、方差、标准误、变异系数经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。集中趋势指标平均数用于描述一组同质计量资料的集中趋势,反映一组观察值的平均水平或者一个分布的平均位置的指标作用:是一组计量数据平均水平的代表值;可作为不同组间的比较值。平均数的种类算术平均数几何平均数中位数众数调和平均数集中趋势指标算术平均数 (mean),简称均数,常用 表示定义:是一群已知性质相同的数值之和除以数值个数的商数。适用条件:频数为正态或近似正态分布的计量资料计算方法直接计算法加权计算法注意事项同质对称mean

17、_value=mean(data);表2-2 101名正常成年女性血清总胆固醇频数表 频数(f)作为X值的权数加权法集中趋势指标几何平均数(Geometric mean)适用条件:不呈正态分布,差距较大,X值呈倍数增长或部分数据偏离过的大偏态分布(正偏态)资料59名链球菌咽喉炎患者潜伏期正偏态分布几何平均数计算方法直接法加权法注意事项观察值不能小于或等于零观察值不能同时有正值和负值同一组资料求得的几何均数小于算术均数或例3 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,1/80,1/160,求几何均数。结论:平均抗体滴度为1:40(几何均数

18、法)直接法,例数较少用1800.025a=1/10 1/20 1/40 1/80 1/160;geomean_a=geomean(a);表2-3 69例RA患者血清EBV-lgG抗体测定结果滴度倒数 X 人数 f lgX flgX1041.00004.00002031.30103.903040101.602116.021080101.903119.0310160112.204124.2451320152.505137.5765640142.806239.28681280 23.1072 6.2144合计69150.2778几何均数计算例数合计 结论:69例RA患者血清EBV-lgG抗体平均滴度

19、为1:150.6中位数( Median, M)定义:把一组观察值,按大小次序排列,居于中间位置的那个数值。适用条件:明显偏态分布;资料的分布情况不清楚。计算方法集中趋势指标X: 5, 5, 6, 7, 20(d) 位次 1 2 3 4 5n为奇数n为偶数median_value=median(data);小结1.平均数概括描述一组计量数据集中趋势。2.数据分布为正态时,选用均数描述,并有均数中位数。数据分布为偏态,选用中位数描述较好。数据为等级和相差较大时,选用几何均数描述。离散趋势指标变异性:同质条件下的观察单位,其同一标志的数据间的差异性。描述计量资料数据间离散(变异)程度的指标 变异指标

20、描述计量资料观察值之间参差不齐程度的指标。变异指标的种类全局极差四分位数间距方差与标准差变异系数离散趋势指标极差(Range):用(R)表示即 一组数据的R=最大值 最小值意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。离散趋势指标四分位数间距(quartile range) ,常用QR表示 计算: QR=P75-P25作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例:QR= P75-P25 =67.739.2=28.5天表示方法:Md(QR) M=51天,(QR=28.5天)方差与标准差(Standard deviation and v

21、ariance)定义(理论)方差:离均差平方和的均数。标准差:方差的平方根。样本标准差(s)意义反映一组变量值变异程度,组间单位相同时,S越小,表示数据的变异程度越小。标准差的应用表示离散程度;计算变异系数;求正常值的范围;计算标准误离散趋势指标当用n代替N,估计偏小,因此用n-1代替N 。或例2-5甲组5名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 标准差的计算表2-1 101名正常女子血清胆固醇值组段(X) 频数(f) fX fx 22.302.45 12.45 6.002.602.75 38.25 22.

22、692.903.05 618.30 55.823.203.35 8 .3.503.65 173.803.95 204.104.25 174.404.55 124.704.85 95.005.15 5 5.305.45 2 5.6 5.75 1409.75 1705.09 合计101频数表资料统计描述:某地101名正常女子血清胆固醇值平均为4.06(mmol/L),标准差为0.654 (mmol/L)标准差的计算频数表资料变异系数亦称离散系数,即标准差与均数之比用百分数表示。应用范围组间单位不同时变异程度的比较。比较组单位相同,但均数相差悬殊的组间变异程度意义:CV越大,表示数据变异越大。常用于

23、衡量方法、仪器的精密度。离散趋势指标1.单位不同时组间变异程度的比较 某地7岁年龄组男童身高与体重 指标 S CV(%)身高(cm) 123.10 4.71 3.83体重(kg) 22.29 2.26 10.14结论: 7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。 某地不同年龄组男童身高(cm)年龄组 S CV%1-2月 56.3 2.1 3.735-6月 66.5 2.2 3.313-3.5岁 96.1 3.1 3.225-5.5岁 107.8 3.3 3.06结论:随着年龄增加,身高的变异变小。 2.比较组单位相同,但均数相差悬殊的组间变异程度比较 1. 在医学杂志中正

24、态或近似正态的资料,描述和比较数据的平均水平和离散程度。两组患者年龄(岁)的比较 组别 n 范围值试验组 12 45.9 3.7 35-57对照组 10 50.5 13.0 18-83两组患者基线情况的比较计量数据的统计描述小结2.偏态分布或特定资料如生存时间、病程、潜伏期时间等1)用中位数和四分位间距描述。表达形式:M,四分位数间距(QR)例2-9 :118名链球菌咽喉炎患者的中位潜伏期为51天,QR为28.5天。2)用百分位数的P25、P50、P75描述分布位置。3.等比数据和正偏态数据可用几何均数和几何标准差描述表达形式:GSG统计指标 计量资料(单变量)中心位置 离散 程度 个体值 样

25、本均数: 正态非正态: 量纲相同:量纲不同: 正态:非正态:连续变量的指标集中趋势指标平均数:算数平均数、几何平均数、中位数、众数离散趋势指标变异指标:极差、标准差、方差、标准误、变异系数经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。基于临床数据发现广义知识计量资料的统计描述分类资料的统计描述分类资料的统计描述绝对数:表示在一定的条件下某事物发生的具体规模和绝对数量的多少。发病例数、死亡人数绝对数的缺陷不具有可比性不利于保密由两个有联系的指标之比组成,统称为相对数。常用相对数包括率(rate) 、构成比(proportion)和相对比(ratio)克服缺陷的手段将基数化成相同的数

26、值相对数 The division of two numbers Numerator NOT INCLUDED in the denominator Allows to compare quantities of different nature相对比 Ratiobedsdoctors850 / 10 =85 / 1 malesfemales=5 / 2 =2.5 /1 3 / 1 =participantsfacilitators比:表示分子与分母间两种情况(如两个绝对数值或两个相对数)的关系;说明一个指标为另一个指标的倍数或百分之几的关系可以有单位的,如每千人口的医院床位数;也可以是无单位

27、的,是一种比(或率)除以另一种比(或率),如比数(值)比(odds ratio, OR)、相对危险度(relative risk, RR)、人口性别比、标准化死亡比 医学研究常用指标例、对某大学学生吸烟状况进行调查,结果显示该校男性大学生吸烟率为35.12%,女性大学生吸烟率为1.58%,则该校男女学生吸烟率之比为: 即该校男大学生吸烟率是女大学生吸烟率的22.23倍。 The division of 2 numbersNumerator ALWAYS INCLUDED in the denominatorQuantities have to be of same natureProporti

28、on always ranges between 0 and 1 Percentage = proportion x 100构成比 Proportionfemalespopulation=400 / 1000 =40% 构成比:表示某事物或现象内部各组成部分的比重。说明部分与整体之间的关系,即部分在整体中占的比重,通常以100为比例基数,故常称为百分比 。构成比只能说明某一部分在总体中所占比重的大小,而不能说明该事件发生频率的高低。 医学研究常用指标表5 某医院1990年和1998年住院病人的五种疾病死亡人数和构成比疾病构成1990年1998年死亡人数构成比()死亡人数构成比()恶性肿瘤 58

29、 30.53 40 26.85循环系统疾病 44 23.16 44 29.53呼吸系统疾病 37 19.47 29 19.46消化系统疾病 19 10.00 18 12.08传染病 32 16.84 18 12.08合计 190 100.00 149 100.00计算构成比时应注意:1.构成比中分子是分母的一部分,但构成事物整体的各个组成部分性质相同,类别不同2.同一事物各构成比之和为100%3.各构成部分之间是相互影响的4.构成比不能反映各类的频率或严重程度,应区别于率The division of 2 numbersTIME INCLUDED in the denominatorSpeed

30、 of occurrence of an event over time率 RateBirths in 2007Population in 2007=2000 / 15 000 000 = 0.00013 = 1.3 per 10,000 inhabitants per yearRate may be expressed in any power of 10:100, 1000, 10000, 100 000率 rate又称频率指标。某现象实际发生数与可能发生总数之比。说明某现象发生的频率与强度: 比例基数(K) 可以是100、1000、常用的频率指标有发病率、患病率、死亡率、病死率、有效率、

31、治愈率等。例2 1999年某幼儿园有36名儿童患了腮腺炎,该幼儿园共有200名儿童(其中25名儿童以前患过),求该幼儿园1999年腮腺炎的发病率例1 某企业2003年有2839名职工,该企业每年都对职工进行体检,这年新发生高血压病人5例率的正确使用需注意:1.率的分母是由性质不同的两部分组成2.率的分子和分母数的确定与该率的定义有关 3. 计算合计率时不能将几个率相加或相加后求平均,而应该用分子分母的合计数进行计算Difference of ratio, proportion and rateRatioNumerator INCLUDED in the denominator?Yes NoTi

32、me period was Considered?Measuring:Rate Proportion RatioExample: Incidence Prevalence Female/MaleYes No应用相对数的注意事项1.正确区分率和构成比,不能以比代率2.计算相对数应有足够的数量3.正确计算合计率4.注意资料的可比性5.对比不同时期资料应注意客观条件是否相同6.样本率(或构成比)的抽样误差例: 某厂某年有某病患病职工500人,其中450人为女性职工,占90%,男职工仅占10%,女性职工比男性职工更易患该病,因此今后应加强对女性职工的健康防护工作。该厂有男性职工200人,有女性职工40

33、00人。女性患病率=450/4000=11.25%男性患病率=50/200=25%“以比代率” 的错误A. 10年工龄组工人患病情况最严重B. 15年工龄组工人患病情况最严重C. 5年工龄组与15年工龄组工人患病情况差不多D. 以上三种说法都有根据医学研究中常用的指标死亡率发病率患病率罹患率病死率感染率续发率生存率医学研究常用指标拓展计量资料常用的检验方法T检验两样本均数比较、样本均数与总体均数比较(单一样本的t检验)配对t检验同体自身前后,配对资料U检验两大样本资料方差分析两组及两组以上秩和检验偏态分布资料正态分布方差齐性正态性和方差齐性检验正态性检验可用正态性检验的方法如Jarque-Be

34、ra检验基于数据样本的偏度和峰度,评价给定数据服从未知均值和方差正态分布的假设是否成立 h,p,JBSTAT,CV=jbtest(x,alpha) 还可用图示法、 医学知识对资料的正态性进行估计F检验原理:看较大样本方差与较小样本方差的商是否接近“1”。若接近“1”,则可认为两样本代表的总体方差齐,否则,两方差不齐t检验两小样本(n t0.05(25) , p 0.05 做出推论: p 0.05 ( ), 小概率事件发生了,原假设不成立;拒绝H0 , 接受H1。 可认为:常参加体育锻炼的中学男生的心率与一般中学生差别有显著性;常参加体育锻炼的中学男生的心率比一般中学生的心率慢。两组样本的t检验

35、由两个样本均数的差别推断两样本所代表的总体均数间有无差别。 为了比较国产药和进口药对治疗更年期妇女骨质疏松效果是否相同,采取随机双盲的临床试验方法。国产药组20例,进口药组19例,评价指标为第2-4腰椎骨密度的改变值计算公式 t 统计量: t = 自由度 = n1+n2 2配对样本的t检验配对设计资料均数的比较;两组样本的比较例: 为考察一种新型透析疗法的效果,随机抽取了10名病人测量透析前后的血中尿素氮含量,请根据本实验资料对此疗法进行评价。计算公式差值 d适用条件:.同一批病人或动物用不同的方法处理。.观察同一批病人在治疗前后的变化,治疗前的数值和治疗后的数值也是配对资料。表5 . 三棱莪

36、术液抑瘤试验的效果 小白鼠对子号注 射药液组对照组 差值 d d2 13.03.6 0.6 0.36 22.34.5 2.2 4.84 32.44.2 1.8 3.24 41.14.4 3.310.89 54.03.7-0.3 0.09 63.75.6 1.9 3.61 72.77.0 4.318.49 81.94.1 2.2 4.84 92.65.0 2.4 5.76101.34.5 3.210.24合计21.662.36U检验两大样本均数比较当样本含量较大时,t分布趋向于正态分布,可采用u检验。样本与总体的U检验两样本的U检验分布特征与t、u检验T检验是以t分布为理论基础,以t值为统计量的

37、假设检验方法,适用于例数较少,来源于正态分布的资料。U检验是以标准正态分布为理论基础,以U值作为统计量的假设检验方法,适用于例数较多的数值资料T、U检验都可用于样本与总体比较、配对设计、两组完全随机的假设检验大样本与小样本100认为是大样本30100视情况而定方差分析analysis of varianceANOVA它把所有数据放在一起,一次比较就对所有各组间是否有差异做出判断如果没有显著性差异,则认为各组平均数相同;如果发现有差异,再进一步比较是哪组数据与其它数据不同t检验做两两比较会提高犯I型错误的概率如,对5个平均数进行检验,若做t检验,则需做10次,假设每一次检验接受零假设的概率为0.

38、95,那么10次都接受零假设的概率为(0.95)10=0.60,(至少有1次)拒绝零假设的概率为0.40,犯I型错误的概率明显平加方差分析方差分析实质上是关于观测值变异原因的数量分析方差分析的基本思路将总的变差分解为构成总变差的各个部分。总变异全部观察值之间的变异 MS总或MST组内变异组间变异反映处理因素(T)和随机误差(E)大小。 MS组间或MSTR反映随机误差(E)大小。 MS组内或MSe方差分析方差分析实质上是关于观测值变异原因的数量分析方差分析的基本思路将总的变差分解为构成总变差的各个部分。F= MS组间/ MS组内观察值Xij与组均数 的离均差平方和各组均数 与总均数 的离均差平方

39、和k为处理组数 MS组间= SS组间/组间MS组内= SS组内/组内1.00.80.60.40.20.01 2 3 4 F值概率密度函数 例 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名患者,采用完全随机设计方法将患者等分为4组进行双盲试验。6周后测得低密度脂蛋白作为试验结果。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?表4-3 4个处理组低密度脂蛋白测量值(mmol/L)分析步骤 H0: 即4个试验组总体均数相等 H1:4个试验组总体均数不全相等 2 . 计算检验统计量 :1. 建立检验假设,确定检验水准: m1 = m2 = m3列方差分析表按1=3,2=11

40、6查附表3的F界值表,得F0.01(3,116)= 3.98,F24.93F0.01(3,116),P0.01。 按 水准,拒绝H0,接受H1,认为4个试验组ldl-c总体均数不相等,即不同剂量药物对血脂中ldl-c降低影响有差别。确定P值,下结论注意: 方差分析的结果拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。如果要分析哪些两组间有差别,可进行多个均数间的多重比较。秩和检验适用条件总体分布为偏态或分布形式未知的计量资料方差不齐的计量资料比较的数据只能用严重程度、优劣等级的半定量(等级)资料组间的比较。非参数检验在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布

41、进行统计检验的方法。称为非参数检验(nonparametric test).秩和检验的方法秩转换1.将数据(x)按大小转化为秩次(i),用秩次的大小反映变量值的大小。2.对各组”秩次”求和,称为秩和(T =i)。3.对各组秩和(T)做检验当n1n2时,任取一组秩和为检验统计量,即 T=(T1 or T2) 当n1n2时,取较小样本的秩和为检验统计量,即4.以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表;对于计量数据,如果资料方差相等,且服从正态分布,就可以用t检验比较如果此假定不成立或不能确定是否成立,就应采用秩和检验来分析两样本是否来自同一总体。例两独立样本差别的

42、秩和检验对10例肺癌病人和12例矽肺(硅沉着病)0期工人用X线片测量肺门横径右侧距RD值(cm),结果见下表。问肺癌病人的RD值是否高于矽肺0期工人的RD值?Page 112肺癌病人矽肺0期工人RD值秩RD值秩2.78 13.23 2.53.23 2.53.50 44.20 74.04 54.87 144.15 65.12 174.28 86.21 184.34 97.18 194.47 108.05 204.64 118.56 214.75 129.60 224.82 134.95 155.10 16Page 113H0:两组RD值的总体分布相同,M1M2;H1:两组RD值的总体分布不同,M

43、1M2 ; = 0.05。编秩,求秩和并确定检验统计量:T1=141.5确定P值,得双侧0.05p0.10,按检验水准不拒绝H0 ,认为两组的RD值分布不同。两样本秩和检验的步骤 常用检验方法的matlab实现T检验H,P = ttest (X,M)x = normrnd(0.1, 1, 1, 100);h,p = ttest(x,0)h = 0p = 0.8323配对t检验H,P = ttest(X,Y)x and y must be vectors of the same length两独立样本t检验H,P = ttest2(x,y)x = normrnd(0, 1, 1, 1000);y

44、 = normrnd(0.1, 2, 1,1000);h,p, = ttest2(x,y)h = 1p = 0.0102常用检验方法的matlab实现U检验H,P = ztest(x,m,sigma)x = normrnd(0.1, 1, 1, 100);h,p,ci = ztest(x,0,1)h = 0p = 0.1391方差分析p,table = anova1(X,group)strength = 82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79;alloy = st,st,st,st,st,st,st,st,al1,

45、al1,al1,al1,al1,al1, al2,al2,al2,al2,al2,al2;p = anova1(strength,alloy)p = 1.5264e-004常用检验方法的matlab实现秩和检验p,h = ranksum(x,y)X=2.783.234.204.875.126.217.188.058.569.60;Y=3.233.504.044.154.284.344.474.644.754.824.955.10;p,h = ranksum(X,Y)p = 0.0864h = 0拓展分类资料常用的检验方法卡方检验推断两个或两个以上总体率(或构成比)之间有无差别基本思想:实际频数和理论频数吻合的程度2*2行列式的自由度R*C行列式的自由度O 为实际频数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论