医学统计学总复习-liufen-sms精选ppt课件.ppt_第1页
医学统计学总复习-liufen-sms精选ppt课件.ppt_第2页
医学统计学总复习-liufen-sms精选ppt课件.ppt_第3页
医学统计学总复习-liufen-sms精选ppt课件.ppt_第4页
医学统计学总复习-liufen-sms精选ppt课件.ppt_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

刘芬首都医科大学公共卫生与家庭医学学院流行病与卫生统计学系 医学统计学总复习 一 概述 科研统计工作的步骤 1 研究设计 researchdesign 根据研究的目的 从统计学的角度对各步提前做出的周密的计划和安排调查设计实验设计 临床设计 新药设计 科研设计 2 收集资料 datacollection 3 整理资料 datasorting 4 分析资料 dataanalysis 一 概述 科研统计工作的步骤 统计分析 统计推断 参数估计 假设检验 点估计 区间估计 统计描述 均数 中位数 标准差统计量率 构成比相关系数 回归系数等 统计表编制规则统计图条图 直方图 圆图 线图等 统计描述的方法 类型 适用条件 用样本的信息来推断总体的特征叫统计推断统计分析的主要目的是由样本推断总体 故统计学的主体是统计推断 统计推断 统计推断 参数估计 假设检验 点估计 区间估计 参数 非参 z检验t检验F检验直线相关与回归 卡方检验秩和检验等级相关 资料类型 1 定量资料计量资料 measurementdata 对每个观察单位用定量方法测定某项指标的数值大小所得的资料 2 定性资料计数资料 enumerationdata 按性质或类别进行分组 然后再清点各组数目所得的资料等级资料 rankeddata 将观察单位按某项指标的等级顺序分组 再清点各组观察单位的个数所得的资料 资料类型 二 定量资料的基本统计方法 有 个模块 统计描述区间估计假设检验相关与回归 1 统计描述 统计指标 平均指标和变异指标分别反映资料的不同特征 常配套使用 根据资料类型不同有不同组合 如正态分布 均数 标准差偏态分布 中位数 四分位数间距 描述集中趋势指标 算术均数 简称均数 几何均数 G 中位数 M 描述离散程度指标 极差 R 四分位数间距 Q 方差 S2 标准差 S 变异系数 CV 1 描述偏态分布集中趋势 尿氟均值 的指标 中位数2 比较几组量纲不同的资料的离散程度的指标 变异系数 统计描述 1 统计表 组合表 简单表 2 统计图 条图圆图线图直方图散点图 类型 适用条件 1 统计描述 统计表与统计图 例1现有145例粪链球菌食物中毒病人 其潜伏期分布如表1所示 属于不对称分布表1粪链球菌食物中毒潜伏期潜伏期 小时 频数 f 累计频数0 18186 456312 4010318 3013324 613930 013936 414342 2145 图1粪链球菌食物中毒潜伏期分布 表2某地144名正常成年男子红细胞数频数表组段频数f4 2 24 4 44 6 74 8 165 0 205 2 255 4 245 6 225 8 166 0 26 2 56 4 6 61 直方图 图2144名正常男子红细胞计数的直方图 2 区间估计 正常值 参考值 范围 p21 总体均数的可 置 信区间 p69 正态分布 normaldistribution 可信区间 confidenceinterval CI 注意 95 CI与95 正常值范围区别 p70 单个样本 onesample t检验配对资料 pairedsample 比较的t检验两独立样本 twoindependentsample 均数比较的 检验t 检验 当方差不齐时 3 假设检验 hypothesistest t检验 亦称student st检验 应用t检验条件 1 单因素两水平的定量效应指标2 要求各组正态分布3 要求方差齐性如不满足条件 当满足正态性而方差不齐时可进行t 检验 否则需采用变换或非参数方法作统计分析 t检验 t检验的类型 主要用于下列三种情况 1 样本均数与总体均数比较 2 配对数值变量资料的比较 3 两样本均数的比较 例2应用克矽平治疗矽肺患者10名 治疗前 后血红蛋白的含量如表3所示 问该药是否引起血红蛋白含量的变化 表3克矽平治疗矽肺患者治疗前后血红蛋白含量 g L 编号治疗前治疗后11131402150138315014041351355128135610012071101478120114913013810123120 表3克矽平治疗矽肺患者血红蛋白量 克 编号治疗前治疗后治疗前后差数 1113140272150138 123150140 1041351350512813576100120207110147378120114 69130138810123120 3 解 建立检验假设 确定检验水准 0 d 0 假设该药不影响血红蛋白的变化 即治疗前后总体差数为0 1 d 0 假设该药影响血红蛋白的变化 即治疗前后总体差数不为0 0 05 计算检验统计量 值 1 配对 检验 3 确定P值 做出统计推断自由度 n 1 10 1 9 查t临界值 附表2 得 0 883 t 1 307 1 383 0 20 0 40 按 0 05水准不拒绝H0 差异无统计学意义 根据目前资料尚不能认为克矽平对血红蛋白含量有影响 两独立样本均数比较的 检验 two independentsamplet test 其中 n1 n2 2 例3某克山病高发区测得11例急性克山病患者与该地13名健康人的血磷值 mg 如表4所示 判定两组均数差异有否统计学意义 表4急性克山病患者与健康者的血磷测定值 mg 患者编号X1健康者编号X214 7312 3426 4022 5032 6031 9843 2441 6756 5351 9865 1863 6075 5872 3383 7383 7394 3294 57105 78104 82113 73115 78124 17134 14 解 建立检验假设 确定检验水准 0 1 2 即克山病患者与当地健康者的血磷值的均数相同 1 1 2 即克山病患者与当地健康者的血磷值的均数不相同 0 05 计算检验统计量 值 计算检验统计量 值 3 确定P值 做出统计推断自由度 n1 n2 2 11 13 2 22 查t临界值 附表2 得 t 2 547 t0 05 22 2 047 0 05 按 0 05水准拒绝H0 差异有统计学意义 根据目前资料可认为克山病患者与当地健康者的血磷值的均数不相同 克山病患者的血磷值高于当地健康者 亦称方差分析 应用F检验条件 1 单因素或多因素定量效应指标2 要求各组正态分布3 要求方差齐性如不满足条件 需采用变换或非参数方法作统计分析 F检验 analysisofvariance ANOVA F检验的类型 1 完全随机设计的方差分析 2 配伍组设计的方差分析 三种 变异 之间的关系离均差平方和分解 1 总变异 所有观察值之间的变异 2 处理间变异 处理因素 随机误差 3 区组间变异 区组因素 随机误差 4 误差变异 随机误差 变异分解 4 线性相关与回归 linearcorrelationandregression 相关系数r correlationcoefficient r的假设检验 线性相关 线性回归 回归方程 regressionequation 其中a为截距 intercept b为回归系数 coefficientofregression 有 个模块 1 统计描述2 区间估计3 假设检验4 相关与一致性分析 三 定性资料的基本统计方法 1 统计描述 率 rate 比 ratio 相对数 百分比 构成比 相对比 分类指标的统计量 率用来说明随机事件发生的频率或强度大小构成比用来说明某一事物内部构成部分的比重相对比两个有关指标之比注意应用相对数的注意事项 率与构成比的区别 率的标准化等 使用相对数应注意的问题 根据需要正确选择相对数 常见错误是以构成比代率 计算观察单位数不等的几个率的平均率时 不能将几个率直接相加求平均率 分母应当足够大 分母小于20时可靠性较差 如果分母太小 宜用绝对数表示要注意其内部构成是否相同 若内部构成不同的资料 应先进行率的标准化后再比根据样本数据计算的强度相对数 要考虑抽样误差的影响 使用相对数应注意的问题 2 区间估计 intervalestimation 总体率的可信区间 置信区间 confidencebound confidenceinterval CI 四格表资料配对四格表行 列表 3 假设检验 hypothesistest 检验 计数资料 Chi squaretest 基本公式专用公式校正公式确切概率法 差异性一致性 基本公式专用公式确切概率法 卡方检验方法 卡方检验在不同的条件下有不同的计算方法 常用的有Pearson卡方 校正的卡方和Fisher精确概率当四格表中n 40 但有1 Tij 5时 应选用校正卡方当四格表中出现n 40或Tij 1两种情形之一时 需用Fisher的确切概率法 检验的基本公式 A 实际频数 actualfrequency T 理论频数 theoreticalfrequency TRC 第R行C列的理论频数nR 相应的行合计 nC 相应的列合计v 自由度 行数 1 列数 1 2检验的适用条件 二 配对检验 配对检验专用公式为 若b c 40 应该对上式进行校正 校正公式为 表5复合氨基酸胶囊对改善实验室指标的效果分组改善未改善合计试验组23225对照组11617合计34842 例 某医生用复合氨基酸胶囊治疗肝硬化病人 观察其对改善实验室指标的效果 见表5 试对两组的改善及恢复正常率进行比较 1 建立检验假设和确定检验水准H0 1 2 即两总体恢复正常率相等 H1 1 2 即两总体恢复正常率不等 0 05 2 计算统计量 2值各位置上的理论值见表5 因为有理论数小于5 样本总例数大于40 所以使用四格表卡方检验的校正公式 解 3 确定P值 作出统计推断自由度为 1 查 2界值表得 P 0 05按 0 05的水准不拒绝H0 尚不能认为用复合氨基酸胶囊对肝硬化病人实验室指标的改善和恢复方面是有效的 行 列表检验 1 基本公式 2 专用公式 专用公式条件 理论数小于5的格子数不能超过总格子数的1 5 表63种不同检验方法检出结核菌的比较检验方法阳性阴性合计漂浮集菌法301040沉淀集菌法261642直接涂片法112435合计6750117 例某人用3种不同的检验方法检查结核杆菌 抗酸杆菌 所得结果见表6 问 3种方法的检出率有无差别 非参数检验 非参数方法应用的条件 未加精确测量的资料 包括等级资料 如 50mg 0 01mg 偏态分布且无法转化为正态分布的资料 分布不清的资料 需采用变换或非参数方法作统计分析 非参数检验的类型 1 配对设计的wilcoxon符号秩和检验 2 两样本的wilcoxon秩和检验 3 多个样本的Kruskal Wallis秩和检验 检验步骤 1 建立检验假设 确定检验水准H0 两总体分布相同 即患者与正常人的尺骨骨矿含量总体分布相同H1 两总体分布不同 即患者与正常人的尺骨骨矿含量总体分布不同 0 05 完全随机设计两样本资料的秩和检验 2 计算检验统计量T值 1 统一编秩 两组数据由小到大统一编秩次 有相同数据时 取平均秩次 2 求秩和 两组分别求秩和 本例两组的秩和分别为130 5和79 5 3 确定统计量T值 若两组例数相等 则任取一组的秩和为统计量T 若两组例数不等 则以样本例数较小组的秩和为统计量T 本例 n1 n2 10 检验统计量T 130 5 表9 4 3 确定P值 做出统计推断 1 查表确定P值 根据n1 n2 n1及统计量T查两样本比较的秩和检验T界值表 确定P值T值在T界值范围内 P大于T界值范围相应的概率 T值等于T界位范围的下限或上限 P值等于T界值范围相应的概率 T值在T界值范围外 P小于T界值范围相应的概率 结合专业作出结论 本例T 130 5 在双侧0 05对应的T值78 132的范围内 又在0 10对应的T值82 128的范围外 故0 10 P 0 05 按a 0 05检验水准 不拒绝H0 差异无统计学意义 尚不能认为男性甲状腺机能减退症患者尺骨骨矿含量与正常人有差别 4 相关与一致性分析 correlationandconsistencyanalysis 相关 可采用spearman秩相关适用于等级资料 直线相关与回归分析 应用条件 研究两个定量变量间的相互关系或依存关系 y X散点图 线性相关 是用相关系数r来表示两个变量X Y间的直线关系相关系数r没有单位 在 1 1范围内波动其绝对值愈接近1 两个变量间的直线相关愈密切 愈接近0 线性相关愈不密切 直线回归 当两变量间存在着性线关系时 不仅可以用相关系数r表示变量Y与X线性相关的密切程度 还可以用一个二元一次方程来表示 回归方程的应用 预测与估计 应用最小二乘法求回归方程系数求出回归方程后 如果方程拟合度好 决定系数R 可根据X的值来求Y预测值 统计方法选择的思路 统计方法选择的四级思维资料类型分布类型设计类型具体条件统计分析的两个方面统计描述 统计指标与图表 统计推断 资料 资料 类型 数值变量 正态 非正态 X G S 参考值范围 统计图表等 线性相关与回归 统计推断 r计算与检验 Y a bX 均数可信区间估计 假设检验 t与z检验方差分析 M QU QL 参考值范围 统计图表等 秩和检验 等级相关 有序多分类变量 构成比 中位数 两分类 无序多分类 二项分布 率 相对比 构成比 假设检验 两组率比较 z检验与卡方检验 多组率和两组或多组构成比比较 卡方检验 配对两分类资料卡方检验 参数估计 正态近似法 直接查表法 统计方法的流程图 统计方法应用条件和适用资料 集中趋势与离散趋势的统计指标t检验与z检验方差分析 2检验非参数检验线性相关与回归 集中趋势与离散趋势统计指标 集中趋势离散趋势正态分布均数方差 标准差对数正态几何均数几何标准差偏态等中位数四分位数间距变异系数 在两组或多组资料变异度比较组间单位不同组间均数相差较大 t检验与z检验的应用条件 两组数值变量资料比较 小样本时用t检验 要求资料为随机样本并服从正态分布 大样本时用z检验 仍要求资料为随机样本 但正态性条件可以放宽 在两样本均数比较的t和z检验中 要求两组总体方差相等 即方差齐性 组间要求具有均衡可比性 方差分析的应用条件 多组定量资料的比较观察值为独立随机样本 并服从正态分布 样本较大时正态性条件可以放宽 方差齐性组间可比性 2检验的适用资料 两组样本率的比较 多组样本率的比较 两组或多组构成比的比较 配对设计下两分类资料检验 非参数检验的适用资料 有序多分类资料 双向有序 且分类属性相同 极度偏态分布 分布不规则和未知分布资料 数据变异较大 方差不齐 线性相关与回归的应用条件 散点图有线性趋势 专业上要求分析两变量间关系密切程度和变化方向 通过一个变量预测或控制另一变量 两变量服从双变量正态分布 或X可以精确测量的 Y服从正态分布 几个基本概念 样本与总体频率 样本 与概率 总体 资料 变量 类型相对数指标 构成比 率 相对比统计工作步骤假设检验的两类错误 几个容易混淆的基本概念 1 抽样误差与标准误抽样研究才有抽样误差抽样误差的概念标准误是衡量抽样误差大小的指标2 标准差与标准误关系联系 离散度指标 计算上的联系区别 描述对象不同 意义与应用不同与n的关系不同 p67 几个容易混淆的基本概念 3 参考值范围与可信区间关系 p70 联系 均为一个数值范围区别 意义不同 与同一资料两范围的不同4 假设检验的意义是通过两组或多组间有差别的样本 均数或率 或样本与总体 均数或率 推断他们的总体 均数或率 是否相同 不能推断差别大小 几个容易混淆的基本概念 5 检验假设与检验结论 p72 73 无效假设与备择假设 单双侧 是对总体所作 H0假设总体相同或两者无关 检验方法建立于此 对检验方法的H0与H1作总结 检验结论有统计结论与专业结论 是针对检验假设 总体 而作的 几个容易混淆的基本概念 6 检验水准 与P值 p72 是预先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论