生物医学统计复习笔记

上传人：s*** IP属地：上海上传时间：2022-04-25 格式：DOCX 页数：12 大小：507.83KB 积分：30 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、绪论思考2样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样，由于存在抽样误差，样本均数与总体均数一般很难恰好相等。因此，不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断，而应通过统计分析，进行统计推断，才能作出判断。定量资料的统计描述小结资料分布平均水平变异程度对称（正态）分布资料算术均数方差或标准差经对数转换后近似对称分布的原始变量几何均数对数变换标准差反变换四分位数间距非对称分布、分布类型未知或末端无确切数值中位数四分位数间距（1）某地咽喉癌的现患率为1.5/10万频率(分母是所有可能的个体)（2）2007年广州市食管癌的发病率 1.2/10万

2、强度（3）某地每千人口的医师数为8人（8）相对比（4）肺癌不同组织学分型所占的比例频率分布4 简述针对数值变量资料制作频数表的过程？答：（1）计算极差 2分（2）确定组数、组段和组距 2分（3）列表划记 2分常用参考值范围的制定参考值范围（%）正态分布法百分位数法双侧单侧双侧单侧下限上限下限上限90P5P95P10P9095P2.5P97.5P5P9599P0.5P99.5P1P99二项分布，Poisson分布和正态分布的特征二项分布Poisson分布正态分布数据类型离散型离散型连续型条件独立，重复，对立独立，重复，罕见医学中大部分计量资料参数n，µµ，图形特点条

3、形，常呈偏峰，与 n , 有关条形，常呈正偏峰连续，对称正态近似n5且n(1) 5µ 20大部分情形其它概率符合二项展开式的各项有可加性，无可乘性方便计算与分析样本均数分布的特点1. 各样本均数未必等于总体均数。2. 样本均数之间存在差异。3. 样本均数的分布很有规律，围绕着总体均数，中间多、两边少，左右基本对称。4. 样本均数的变异范围较之原变量的变异范围大大缩小。5. 随着样本量的增大，样本均数的变异范围逐渐缩小。非正态总体样本均数的分布特点1.随着样本量的增大, 样本均数分布的对称性逐渐改善。2.随着样本量的增大, 样本均数的变异范围逐渐变窄。2.抽样误差是由抽样造成的样本统计

4、量与总体参数之间，样本统计量之间的差异（2分）造成抽样误差的原因是个体差异的存在（2分）样本均数的标准差也就是标准误常用来估计抽样误差的大小（2分）标准差与标准误标准差：反映个体变异程度的大小，常用于统计学描述，结合均数可以计算参考值范围。标准误：反映抽样误差的大小，常用于统计学推断，结合均数可以计算置信区间。标准误的本质也是标准差，在数量上，标准误与标准差的大小呈正比、与样本量开根号后的值呈反比。概率(probability)：描述随机事件发生可能性大小的数值，用P表示。频率(frequency)：在相同的条件下，独立重复做n次试验，事件A出现了m次，则比值m/n称为随机事件A在

5、n次试验中出现的频率。随机事件的总体概率往往是未知的，人们常用样本中事件的实际发生率（即频率）来估计总体概率。样本频率总是围绕总体概率随机地左右波动。样本含量较大时，样本频率波动幅度较小，样本频率逼近于总体概率。置信区间的含义如果能够进行重复抽样试验，平均有(1-a)的置信区间包含了总体参数，而不是总体参数落在该范围的可能性为(1-a)。在实际工作中，只能根据一次试验结果计算一个置信区间，就认为该区间包含了相应总体参数，该结论犯错误的概率a 。置信区间一旦形成，它要么包含总体参数，要么不包含总体参数，二者必居其一，无概率可言。置信度是事前概率。简述假设检验的基本思想。答：假设检验是在H

6、0成立的前提下，从样本数据中寻找证据来拒绝、接受的一种“反证”方法。如果从样本数据中得到的证据不足，则只能不拒绝，暂且认为成立（因为拒绝的证据不足），即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝是根据某个界值，即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端（即绝对值更大）的概率较小，比如小于等于0.05（各种科研杂志习惯上采用这一概率值），则认为零假设的事件在某一次抽样研究中不会发生，此时有充分理由拒绝，即有足够证据推断差异具有统计学意义。假设检验1st:提出假设并确定检验水准 a H0： m140 g/L H1： m140g/La = 0.052nd:选择检验方法并计

7、算检验统计量3rd:确定P值 4th:做出决策和结论（1）在a = 0.05的检验水准下，拒绝H0 ,接受H1 ，差异有统计学意义(统计学结论)。可认为从事铅作业工人的血红蛋白与正常成年男性是不同的。（2）加之根据样本均数的信息，认为从事铅作业工人的血红蛋白低于正常成年男性（拒绝零假设时,专业结论，孰高孰低）。区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。置信区间用于说明量的大小，即推断总体参数的置信范围；而假设检验用于推断质的不同，即判断两总体参数是否不等（1）盲目套用两独立样本的t检验，因为未检查定量资料是否满足参数检验的前提条件。（2）若定量资料满足参数检验的前

8、提条件，直接用秩和检验会降低检验功效。（3）若定量资料不满足正态性要求，直接用校正的t检验（正态，方差不齐）也是不妥当的。（4）应当采用哪种统计分析方法，要根据设计类型、资料是否满足参数检验的条件等方面综合考虑，应该事先选定统计分析方法，不能等到计算结果出来了，再确定统计分析方法参数检验和非参数检验的区别与优缺点参数非参数适用条件正态分布、方差齐性非正态、方差不齐、等级、开口已知总体分布类型未知总体分布类型检验方法t检验、Z检验、方差分析秩和检验、检验应用参数间比较分布间比较优缺点充分利用信息（原始数据）只利用秩次（损失信息）受总体分布限定不受分布限定利用公式计算简单、方便检验效能高

9、检验效能低解题步骤：设计类型-数据类型-统计描述假设检验（假设检验的3步骤、置信区间）T检验、方差分析前都要考察正态性、方差齐性。方差齐性检验的检验水准时常用 0.1 ，甚至用0.20，是为了增大检验功效。假设为各总体的方差齐。方差分析的基本思想是什么？答：方差分析的基本思想是，对于不同设计的方差分析，其思想都一样，即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲，根据试验设计的类型和研究目的，将全部观测值总的离均差平方和及其自由度分解为两个或多个部分，除随机误差作用外，每个部分的变异可由某个因素的作用加以解释，通过比较不同变异来源的均方，借助F分布

10、作出统计推断，从而推论各种研究因素对试验结果有无影响。方差分析步骤：设计类型；前提条件的判断：正态性、方差齐性；统计学描述(1) 建立检验假设，确定检验水准；H0 ：三组大鼠的全肺湿重相等H1：三组大鼠的全肺湿重不全相等a =0.05(2)计算检验统计量（以下可计算）表6-3 讨论1 的方差分析表变异来源SSdfMSFP组间组内4.035 总6.563 (3)确定P值，作出推断结论P =0.0260.05，按a =0.05水准，拒绝H0，

11、接受H1，差异有统计学意义。可以认为三组大鼠的全肺湿重不全相等(4)该题拒绝H0 ，因此需要进一步进行两两比较。LSD根根据专业知识，事先指定某些组均数间的比较(敏感)Bonfferoni经假设检验得出多个总体均数不全等后，进行的两两比较(最为保守)SNK经假设检验得出多个总体均数不全等后，进行的两两比较(探索性)Dunnett-t多个组均数与指定组均数的比较（如多个处理组与对照组的比较）注意：方差分析查单侧界值，方差齐性查双侧界值。分布1.连续型随机变量的概率函数； 2.若随机变量相互独立且服从标准正态分布，则随机变量所服从的分布是自由度为n的分布，其形状依赖于自由度的大小。两组率

12、的比较作四格表组别缓解未缓解合计缓解率(%)单纯化疗 2(4.8) 10(7.2)1216.7复合化疗 14(11.2) 14(16.8)2850.0合计 16 244040.01、建立检验假设，确定检验水准 H0: 1=2 ，即两法总体缓解率相同。 H1: 12 ，即两法总体缓解率不同。 0.05。2、计算检验统计量本例有一个理论频数T11=4.8，小于5但大于1，同时 n= 40，因此, 检验需使用连续性校正公式。3、确定P 值，作出统计推断 P =0.105，按0.05的检验水准，不拒绝H0，差别无统计学意义，尚不能认为两种治疗方案的总体缓解率不同。注意：当n>=40,但是有一

13、个理论频数1<=T<5时，检验需使用连续性校正公式。当n<40,有一个T<1，或25%以上的格子理论频数1<=T<5，用Fisher，当连续性校正与Fisher相悖时，用Fisher.配对设计两组率的比较甲培养基乙培养基合计+-+221840- 21416合计243256在配对的两组二分类资料比较中，因为只需考虑b 和 c 的位置。b + c < 40时，用连续性校正公式。有序多分类资料比较比较两种药物疗效水平有无高低之分。用 c2 检验不能达到前述的分析目的，因为c2 检验没有利用疗效结局的等级信息。个别情况下，研究者仅关心两个组中的患者在三个疗效的

14、构成是否相同，可以选用c2检验。应使用秩和检验（混合编制）若结局变量为多分类有序变量，且希望比较各组患者在结局上的等级之间的差别是否具有统计学意义时，需要选用秩和检验。独立的多组二分类资料比较应采用c2 检验或Fisher精确概率法处理资料若想进一步作两两比较，需根据比较的次数修正检验水准（Bonferroni）。c2 检验条件资料类型公式应用条件备注独立的两组二分类资料不校正n40，且所有 T5时如果n40，或有T1时，或25%以上的格子理论频数1<=T<5用精确概率法校正n40，若有1T5时配对的两组二分类资料不校正b+c 40配对设计有专用的公式校正b+c40R

15、5;C列联表资料不能有1/5以上的格子中的理论频数小于5，或者不能有一个格子的理论频数小于1。处理方法：1.增大n2.合并3.删除4.精确概率法Pearson相关分析应用条件 X和Y为随机变量，各观察值相互独立 X和Y均来自正态分布的总体绘制散点图，考察两变量之间是否有线性趋势及可疑的异常点相关分析步骤(1)前提条件判断、绘制散点图此例的患病率一般不服从正态分布，经秩次转换后的散点图，故本题应采用Spearman秩相关。将碘含量(x)和甲状腺肿患病率(y)转换为秩次后计算秩次的Pearson相关系数，rs=0.939 。假设检验： H0: s =0，即总体相关系数等于0。 H1: s 0

16、，即总体相关系数不等于0 。0.05。计算检验统计量及P值。(4)结论：可以认为某省不同地区甲状腺肿的患病率与水体中碘含量呈负相关关系。（5）关系是否密切，可求r的95%置信区间注意：分层资料盲目合并易出假象！当且仅当分层情形下两变量的关系不会因为合并而被歪曲时才可考虑合并。即应保证所分析各样本均来自同一总体。线性相关应用中注意的问题1、r接近零并不意味着两变量间一定无相关性，结论应为“根据目前的数据尚不能认为两变量呈线性相关”2、相关未必真有内在联系3、出现异常值时慎用相关4、分层资料盲目合并宜出现假象5、一个变量的数值人为设定时莫做相关关联性分析与比较两个或多个频数分布的假设检验的异同

17、关联性分析两个或多个频数分布的比较研究目的同一总体两种属性的联合概率分布两个或多个总体的概率分布研究设计一份随机样本同时按两种属性分类两份或多份独立样本，每份样本有一个频率分布检验假设独立性检验，两种属性是否有关联两个或多个总体的概率分布是否相同资料形式R×C列联表检验方法2检验线性相关与线性回归的区别和联系线性相关线性回归含义量化两个或多个变量之间的关联关系。考察关联的方向和程度。因变量Y与自变量X的线性依存关系称为直线回归。前提两变量都是随机变量，并服从双变量正态分布，线性，独立因变量是随机变量，线性，独立，正态性，等方差（LINE）用途定量研究数量上的关联关系1.

18、描述两变量的线性依存关系2. 预测 3. 控制联系1. 相关系数（r）和回归系数（b）正负一致。2. r和b的假设检验等价。3. 当双变量正态分布时，可以用回归解释相关。4. 由于决定系数R2=SS回归 /SS总，其大小决定了相关的密切程度。线性相关系数r与线性回归系数b的关系相关系数（r）回归系数（b）含义具有直线关系的两变量间相互关系的方向与密切程度自变量每增加一个单位所对应的反应变量的平均变化量单位没有单位有单位范围 -1r1 -b+符号对同一双变量资料，回归系数与相关系数的正负号一致多重线性回归方程l Yhate为自变量X1、X2、X3的取值相对应的因变量Y总体均数的估计值

19、。l b0 为常数项，统计学意义为当所有自变量为0时因变量Y的平均值。l bi 称偏回归系数。当方程中其他自变量保持常量时，Xi每增加(或减少)一个单位，Y平均变化bi个单位。复相关系数（R）表示随机变量Y与一组随机变量（X1，X2，.,XP）之间的线性相关的程度。决定系数（R2） R2=SS回归/SS总，回归所解释的变异占总变异的百分比校正决定系数反映模型拟效果通过校正确定系数判断回归模型的拟合效果。通过标准化偏回归系数（去掉单位的影响）来比较哪一个自变量对因变量的影响大。注意：若某自变量对因变量有影响，这种影响的大小及方向通过偏回归系数来反映，要比较各个自变量对因变量的影响，则用标准

20、化偏回归系数。多重线性回归模型中偏回归系数的含义是什么？答：偏回归系数的含义是：在控制其他自变量的水平不变的情况下，该自变量每改变一个单位，反应变量平均改变的单位数。多重线性回归的前提条件（LINE）： 1.线性(Line) ：因变量和自变量组合之间的关系有线性趋势。（残差图） 2.独立(Independence)：样本中的个体之间相互独立。（专业知识、D-W 统计量） 3.正态(Normal)：给定各个X值后，相应的Y值服从正态分布。（残差直方图） 4.等方差(Equal variance) ：各X值变动时，相应的Y有相同的变异度。（残差图）自变量筛选方法Enter: 强行进入法，候

21、选变量全部纳入模型，不作任何筛选。一般生物学上认为有意义的，需纳入校正其他的因素时可使用Enter法。Stepwise：逐步法，确定两个界值引入和剔除，用于变量入选或剔除，当在候选变量中偏回归平方和最大者P值小于引入时，引入相应变量，当已进入回归方程的变量中偏回归平方和最小者，P值大于剔除时，剔除相应变量。如此反复，直至未入选的变量中无符合条件的选入项，入选的变量中无可剔除的项，此时即到回归方程。当自变量较多，而样本量相对不足时，一般使用forward法或stepwise法，而不使用backward法。最优子集法是从（2p-1）个自变量子集回归方程中，选择出一个或几个最优的回归子集，p为自

22、变量个数从检验多重共线性的两个指标，方差膨胀因子（VIF）、容忍度（Tolerance）的大小可见存在多重共线性。其中，方差膨胀因子过大（一般不应大于4）或容忍度过小（一般不应小于0.25）则存在共线性。一般而言，对于实验研究样本量应为自变量数目的5-10倍，对于人群的研究样本量应为自变量数目的20倍。哑变量季节为无序多分类变量，各季节之间互相独立，赋值为1、2、3、4只是为便利而取的代码，本身含义上并无大小之分，回归拟合时需要采用哑变量纳入回归模型。 V1 V2 V3 春 0 0 0 夏 1 0 0 秋 0 1 0 冬 0 0 1由于哑变量V1、V2、V3是同一变量季节的不同取

23、值，因此在分析时应当同时进入或移出方程，即使只有部分哑变量具有统计学意义。实验设计年龄、性别、家庭经济状况等非试验因素需要控制，应明确纳入、排除标准，可采用分层设计来控制，使非试验因素在各组之间分布均衡同质性：人群的性别、年龄、民族、职业、文化程度和经济状况、病情和病程等。动物的种类、品系、年龄、性别、体重、窝别和营养状况等随机：针对大量、不可控制的非处理因素均衡：针对已知、可控制的非处理因素常见对照形式(1) 空白对照：对照组无任何处理（非盲）、(2) 标准对照：常规、参考值（平行对照）(3) 自身对照：前后对比、左右对比 (4) 相互对照：不同处理组之间 (5) 实验对照：对照组常规处

24、理，实验组附加因素 (6) 历史对照：历史上同类（同一）研究作为对照对照的意义1区分处理因素与非处理因素的效应，是比较的必要基础；2. 消除和减少实验误差。临床试验的分期 I期：正常人；有效性、耐受性、剂量探索（探索）；期：病人；临床有效性安全性剂量初步评价（探索+评价）期：大样本、多中心；进一步临床观察评价（验证）；期：超大样本、多中心；药品上市后的监测，侧重不良反应（不良反应）双模拟一般指试验药和对照药都做成对方的样子，这样患者就分不清是那种药了，举例：A药是胶囊，B药是片剂，如果不做模拟剂的话一看就清楚是哪种药，可是如果这样服用：A胶囊+B模拟片剂，B片剂+A模拟胶囊，患者

25、就分不清了，有利于试验的进行。 2 单模拟一般用于药物量效关系的试验中，比如想看看同一种药的不同剂量的试验结果，如1片剂量组和3片剂量组的效果，还不能让人看出哪是1片，哪是3片，就可以采取以下办法，1片+2片模拟剂和3片作比较，就把这个问题解决了。医学研究分类：调查研究和实验研究实验设计方案：单因素设计、随机区组设计调查设计类型：横断面、队列概率抽样：单纯随机、系统抽样非概率抽样：偶遇抽样、立意抽样、雪球抽样、配额抽样单纯随机抽样系统抽样整群抽样分层抽样优点简单直观，是其他抽样方法的基础；均数（及比率）及其标准误计算简便易理解，简便易行；可得到按比例分配的样本，样本在总

26、体中的分布较均匀便于组织；节省经费，容易控制调查质量减少抽样误差；可对不同层采用不同的抽样方法；可对不同层进行独立分析缺点当总体变异大时，代表性不如分层抽样；样本分散；难以组织调查观察单位按顺序有周期趋势或递增（减）时易产生偏差样本例数一定时，抽样误差大于单纯随机抽样若分层变量选择不当，层内变异较大，层间变异小，分层抽样就失去意义适用范围主要用于总体不太大的情形主要用于按抽样顺序个体随机分布的情形主要用于群间差异较小的情形主要用于层间差异较大的情形病例对照研究由于病例对照研究的样本不能代表总人群，病例对照研究无法计算发病率和患病率在病例对照研究中，我们通常用OR值（比值比）来表示疾病与暴露之间

27、关联的强度OR=ad / bc队列研究在队列研究中，可以用相对危险度RR来表示暴露组的发病风险是对照组的多少倍。RR=q1 / q2注意：1）队列研究可以直接获得暴露组与非暴露组的发病率，可以计算RR等指标，因此检验病因假说的能力较强；（2）不适于发病率很低的疾病的病因研究，并且队列研究费时费力；（3）除暴露因素之外，其他因素在两组间应均衡可比；（4）注意对失访数据的分析。由于长期的研究与随访，队列研究的失访难以避免，应对失访数据进行报告，并分析失访数据是否存在偏性（如年龄，职业等）。对失访数据的分析可以采用生存分析的方法。三种调查设计类型的区别横断面研究病例对照研究队列研究方式现况调查回顾性调查前瞻性或追踪调查人群已存在某种“阳性”或“阴性”结果的人病例组与对照组无病的人群研究方向探索性由“果”推“因”由“因”及“果”研究因素多个因素能同时观察几个因素单个因素优点探索多个因素,周期短,成本低花费小、操作方便验证因果关系能力强缺点只有一个时点的资料，不能推断因果关系不能获得因果关系、易偏倚、耗资大、需较长时间、易失访、一次一般研究一个因素指标时点患病率不能计算患病率和发病率发病率随机区组设计:优点：每个区组内同质、均衡、误差小，控制非处理因素，统计检验的效率高，统计分析也较简单。缺点：不能分析

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物医学统计复习笔记

文档简介

温馨提示

最新文档

评论

生物医学统计复习笔记

文档简介

温馨提示

最新文档

评论

相关文档