




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学科研数据的整理与分析,公共卫生学院 薛 萍,主要内容,科研数据分析前的准备工作,1,2,科研数据分析方法的选择,3,论文中统计结果的表达与解释,不同设计类型的数据分析方法,数据分析中存在的问题,原始数据的检查,第一节 科研数据分析前的准备工作,主要检查内容: 有无缺失(漏填)数据。 有无字迹不清。 有无用错单位的数据。 有无数据超出范围。如年龄超出入组标准的允许范围。 有无不合逻辑数据。如舒张压大于收缩压。,一、原始数据的检查,原始记录的修改: 发现错误应当由研究人员在原始记录上修改。 修改时不可覆盖原数据,以便以后了解。 一般用一条细线条划过原来的数据,写上正确数据,修改者必须在修改处旁
2、边签名并写明修改日期。,常用的数据管理软件有: Microsoft FoxPro、Microsoft Access、 Microsoft Excel 应用广泛的数据分析软件有: SAS 和 SPSS,二、数据的计算机录入,二、数据的计算机录入,录入数据之前有要做: 给每一个对象一个编号以识别录入的数据与对象的对应关系 给输入的变量定义名称 需要对变量的调查结果进行数量化 数据的双份输入: 为避免输入错误,由2名输入员独立地对同一批数据输入,由此应该形成2个相同的数据文件。,数据的计算机检查,当2份数据完全一致后,应当再进行数据的计算机检查,即由数据管理人员编写检查程序并检查,检查内容主要是范围
3、检查和逻辑检查。 运行检查程序可以检查出在目视检查时没有查出的超出范围、不合逻辑和各变量数据间互相矛盾的数据。 对于检查出来的错误,需再次送往研究者进行改正。数据管理人员以改正后的数据再次更正数据文件,如此反复,直至再也找不出错误。,三、缺失及可疑数据,缺失数据是指其测量结果缺失。 例如在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足或研究对象拒绝采血而导致某些研究对象实验室的检测结果成为缺失数据。,过大或过小的数据称为可疑值。可疑值可能是测定值随机波动的极度表现,它虽与其它数据相差较远,也可能同属一个总体。 发现可疑值后,首先应
4、从专业、技术与操作方面进行检查,寻找可能发生失误的原因。若查明属于粗枝大叶、中途条件改变、未遵守操作规程、仪器或试剂失灵等,则应舍弃该可疑值。若进行认真检查,未发现可以解释的原因,则应以统计方法判断取舍。,可疑数据的处理,例:在一个滴眼药的临床试验中,入选者58人,其中3 例失访,另有5 例因未能坚持定期随诊而被淘汰。作者以50 例计算不良反应率。结果,国产制剂组30 例,不良反应率为13/30=43.3%。进口制剂组20 例不良反应率为2/20=10% 。作者说:“患者失访及淘汰的8例中,主要原因之一是点药后疼痛感明显”。 显然,这8例都曾用药,而且反应不良,应该参加不良反应的分析。由于排除
5、了这8 例,大大地缩小了不良反应率。由于作者未能说明这8例各用的是什么药,因而,我们也无法计算这2 种药真正的不良反应率。作者的结论为:“药物的不良反应以疼痛为主,但大多数患者均能忍受”。这一结论显然是不够确切的,因为太多的人不能忍受。,(一) 数据的转换,偏态分布资料数据转换 数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。 数据转换的目的: 使偏态分布接近正态分布; 消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。 资料类型的转换,四、数据的整理,数值变量资料:频数分布表,分类变量资料:行列表
6、,有序分类资料 无序分类资料,资料的类型,(二)数据的分组,五、数据的整理,第二节 科研数据分析方法的选择,统计分析,变量间关系的研究、判别分析等,Text,统计描述,统计推断,统计描述,数值变量资料,分类变量资料,绝对数 相对数:率 相对比 构成比 RC表,样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。 此例应采用适合偏态分布的中位数和四分位数间距。,统计推断,总体,样本,样本 统计量,估计与检验,统计推断:区间估计,概念:根据样本统计量,按一定的可信度计算 出总体参数很可能在的一个数值范围,这个范围称为参数的可信区间。,区间估计,总体均数()的100(1-)%可信区间(CI
7、): (1)已知总体标准差,按正态分布原理,计算公式为: (2)未知,n较小,按t分布原理计算: (3)未知,n足够大(如n100),按正态分布原理计算:,总体率的可信区间估计,查表法 当n50时 正态近似法 当样本含量足够大,且样本率p和(1-p)均不太小。一般认为np和n(1-p)5。 pusp,区间估计,什么是假设检验? 已知健康成年男子脉搏均数为72次/min 。某医生随机抽查了25名某病成年男性病人,求得脉搏的均数为75.5次/min ,标准差为5.0次/min ,能否据此认为该病病人的脉搏均数与一般健康成年男子的脉搏均数有差别?,统计推断:假设检验,这里样本均数与总体均数的差异有两
8、种可能: 差异仅仅是由抽样误差引起的。 差异不仅仅是由抽样误差引起的,还有疾病的影响。 假设检验就是要回答“差别是否仅仅由于抽样误差所引起”这样一个问题。,假设检验,应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。,二、统计检验方法的选择,否,是,是,否,否,是,第三节 不同设计类型的数据分析方法,完全随机设计 配对设计,完全随机设计与分析:案例1(数值变量资料),案例1,案例1,案例1,多组比较呢?,完全随机设计与分析:案例2 (数值变量资料),案例2,完全随机设计与分析:案例3 (分类变量资料),案例3,多组比较呢?,测得某地5801人的ABO血型和MN
9、血型结果如表,问两种血型系统之间是否有关联?,表.某地5801人的血型,完全随机设计与分析:案例4 (分类变量资料),案例4,若分组项有序呢?,对双向有序且属性不同的RC表的两个分组变量,如年龄组别与某种疾病发生程度都是有序的,但属性不同,此时,也不适合选用2检验分析资料,因为2检验与两个变量的有序性之间没有任何联系,应改用与两个变量的“有序性”有联系的等级相关分析、典型相关分析或线性趋势检验。,对双向有序且属性相同的RC表的两个分组变量,如两种方法对某种疾病发病程度诊断结果,它们都是有序的,且属性也相同。此时,研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的2
10、检验分析资料,应采用与两个变量的有序性有联系的一致性检验或称Kappa检验,还可以用特殊的模型分析方法。,配对设计与分析,配对设计与分析:案例 (异体配对),配对设计与分析:案例 (异体配对),配对设计与分析:案例 (异体配对),配对设计与分析:案例 (异体配对),配对设计与分析:案例 (异体配对),一、“材料与方法”的统计表达 描述研究对象的来源和选择方法,包括观察对象的基本情况、有无随机分组(随机抽样)及样本量估计的依据等。 若进行了随机化分组,应说明具体的随机化方法。 对于非随机化分组的观察性研究,除要明确说明观察对象的选择方法外(如是否配对、随机抽样),还应给出影响因素(如年龄、性别及
11、病情)的均衡性分析结果。 对于临床试验,还需要特别说明诊断标准、疗效评价标准、病例入选标准、病例剔除标准、有无失访(失访比例)、有无“知情同意”及评价疗效有无遮蔽(“单盲”、“双盲”或“多盲”)等,以使读者确认论文中所有统计分析结果的可靠性和研究结论的合理性。 说明采用的统计分析方法和统计计算的软件名称。,第四节 论文中统计结果的表达与解释,“材料与方法”中统计表达常见的问题,对研究对象的来源和选择方法没有任何说明,或说明的非常简单。例如,动物实验只说明经随机化分组,未说明具体的随机化分组方法(如完全随机、配对或分层随机分组等); 观察对比的研究只说明组间均衡,未给出反映均衡性的统计指标; 临
12、床试验的疗效评价只说明采用了“盲法”,未说明是受试者遮蔽还是评价者遮蔽等; 统计分析方法没有任何说明,特别是一些特殊的统计方法; 试验的样本量非常小,如每组2例,不说明任何理由等。,二、“结果”的统计表达,(一)统计表的应用 (二)数据的精确度: 数值变量资料的统计指标的保留小数位数,应该与原始数据的保留小数位数相同;分类变量资料的百分比保留1 位小数,一般不超过2位小数;相关系数保留2 位小数检验统计量,如2 值、t值保留2 位小数即可。 (三)选择最能说明问题的统计指标: 数值变量资料常用 描述研究结果的数据特征,但必须注意前提是要求资料近似服从正态分布。,分类变量资料常用的统计指标有率和
13、构成比(百分比)。 注意分母不能太小时及不要将构成比误用为率。 在临床疗效比较时还应注意,两组平均疗效有差别,并不意味着治疗组每个受试者都有效,对照组每个受试者都无效。要回答后一个问题,必须计算有效率。 如比较盐酸西布曲明治疗单纯性肥胖的疗效,试验24周后,治疗组和对照组的平均疗效(体重下降值kg)分别为6.800.31和0.482.60(P=0.0001。按体重下降大于原体重的5%者为有效的疗效判定评价标准,治疗组和对照组的有效率分别为85.59%和7.84%,尽管平均疗效相差约6kg,但也要看到盐酸西布曲明对部分患者无效(14.41%)。,(四)假设检验结果的表达 假设检验的具体P 值;
14、理由: 用统计软件可自动给出精确的P值。 研究者不能年复一年、不顾具体情况的只用一个固定的界值判断问题,应该根据自己对问题的认识程度,具体问题具体分析。例如P = 0.053 与P= 0.049 都是小概率,不能一概而论P = 0.053无统计学意义P= 0.049有统计学意义。 P 值是循证医学最重要的“证据”之一,一些meta 分析方法必须根据精确的P 值对同类研究结果进行综合。因此,如果提供精确P 值实在有困难,应给出实检验统计量,以便他人在meta 分析时转换为精确的P值。 列出统计检验结果时应同时列出可信区间,可信区间与假设检验的区别和联系,可信区间用于推断总体参数所在的范围,假设检
15、验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。 可信区间也可回答假设检验的问题。但可信区间不能提供确切的P值范围。只能给出在水准上有无统计意义。 可信区间还可提示差别有无实际意义。,假设检验与可信区间的区别和联系,三、统计结果的解释,正确理解P的意义,P0.05指的是在假定H0真实存在的条件下,组间出现这样大甚至更大差异来自误差造成的概率大于5%,因此不能拒绝H0 ,但不意味着被试因素的确一定无效。 P0.05,结论为拒绝H0,接受H1,这种推断隐藏着5%的假阳性错误,切不可误解为被试因素一定是100%有效。,正确区分统计意义与专业意义,具有统计意义并不一定在专业上有意义,也不能认为统计意义高低必然与组间差异大小成正比。 例如:现有两个降压实验,它们的实验结果如表12-2(C为对照组,T为试验组),关联和因果的解释,对于随机化的试验,由于随机化分组保证了“无效假设”的正确性,p 值大小可以用来推论处理(干预)对试验结果的影响是因果关系。但对于非随机化的观察性研究,组间差异解释为关联较为稳妥。关联的结论意味着可能有因果联系,也可能没有,需要进行更深入地研究。 例如,有人曾观察到眼晶状体后纤维增生的新生儿,注射促肾上腺皮质激素后,治愈率为75%,说明促肾上腺皮质激素与患
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南阳工艺美术职业学院《微分方程II》2023-2024学年第一学期期末试卷
- 江苏省无锡市新区重点名校2024-2025学年初三下学期质量调研(一模)英语试题含答案
- 内江卫生与健康职业学院《体育赛事组织与管理》2023-2024学年第二学期期末试卷
- 四川化工职业技术学院《信息可视化设计》2023-2024学年第二学期期末试卷
- 陕西省榆林市绥德重点中学2024-2025学年初三第三次诊断考试英语试题理试题含答案
- 西安建筑科技大学华清学院《露天开采新技术》2023-2024学年第二学期期末试卷
- 满洲里市2025年小学六年级第二学期小升初数学试卷含解析
- 云南昆明一中2025届高三第三次模拟练习物理试题含解析
- 阳光学院《医学寄生虫》2023-2024学年第二学期期末试卷
- 江苏省无锡市青阳片重点名校2025年初三下学期第一次质量考评语文试题试卷含解析
- 燃气工程专业中级职称理论考试题库-建设工程专业中级职称理论考试题库
- 十二指肠球部溃疡PPT课件
- 铁路建设项目施工企业信用评价办法(铁总建设〔2018〕124号)
- 诱导公式练习题-(中职)
- 2016年浦东新区公办小学招生地段
- 鸽巢问题(例1、例2)[1]
- 01戴明十四条
- 完整版佛教葬礼仪式
- 【课件】第六章 模型或原型的制作课件-高中通用技术苏教版(2019)必修《技术与设计1》
- 锅炉除氧器过程控制课程设计
- 统计法培训课PPT课件
评论
0/150
提交评论