中医药统计学与软件应用笔记重点

上传人：努*** IP属地：河南上传时间：2022-03-12 格式：DOCX 页数：67 大小：1.93MB 积分：16 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、中医药统计学与软件应用笔记重点绪论统计学家C.R.劳先生在?统计与真理怎样运用偶然性?中指出：在终极的分析中，一切知识都是历史；在抽象的意义下，一切科学都是数学；在理性的根底上，所有的判断都是统计学。一、统计学的概念、开展简史及主要内容1.统计学：是以概率论和数理统计为根底，对研究对象的数据进行搜集、整理和分析，揭示事物总体特征和规律的方法论科学。2.中医统计学：是以概率论和数理统计的原理和方法为根底，以中医理论与实践为主体，通过对数据的搜集、整理和分析，到达探讨中医理论与方法内在规律的目的。3.统计学的开展趋势：依赖数学。与计算机技术结合。与实质性学科、统计软件、现代信息相结合，所发挥的成

2、效日益增强。从描述事物现状、反映事物规律，向抽样推断、预测未来变化方向开展。4.统计学的主要内容研究设计：专业设计、统计学设计统计学的根本概念、原理和思维方法统计描述：统计指标、统计图表统计推断：参数估计、假设检验二、统计工作的根本步骤和特点1.统计工作的根本步骤 1统计学设计2搜集资料：常规保存的记录；现场调查记录；实验/试验记录；医学文献/网络信息。 3整理资料：检查；审核；计算机检查；分组。4分析资料 2.统计学认识现象的特点1数量性：2群体性：3具体性：4概率性：三、统计学中常用的概念1总体(population)：是根据研究目确实定的同质观察单位的集合。例河北省18岁男性的身

3、高和体重分布某性红地2005年健康成年男细胞数河北省18岁身高在170-175cm男性的体重分布有限总体：指总体限定于特定的空间、时间范围内有限个观察单位。无限总体：指没有空间和时间范围限制的总体。2样本(sample)：从总体中随机抽取的有代表性的一局部观察单位的集合。样本的可靠性：指总体确定后，样本中的每一个观察单位确属预先规定的同质总体。样本的代表性：即样本能够充分反映总体的真实情况。 3随机(random)：即在抽样、分组、安排试验顺序时，让总体中每个受试者或观察单位都有同等的时机被抽中、被分配或被安排，而不受研究者的主观意愿驱使。不能将随机理解为随便。4事件(event)：指

4、事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件，发生的概率为1。随机事件：指一定条件下可能发生也可能不发生的不确定性事件，发生的概率介于01之间。模糊事件：事物本身的含义不确定的现象。5频率(frequency)：对于随机事件，在相同的条件下进行了n 次实验，事件发生的次数为，比值/n 为频率，记为fn(A)；概率(probability)：描述某随机事件发生的可能性大小，统计符号为， 01，记为P(A)。当时，频率fn(A)概率 P(A)。小概率事件：表示某事件发生的可能性很小，在医学研究中，习惯上把P0.05或P0.01的事件称为小概率

5、事件。6变异(variation)：总体中各个体之间的差异性。同质是相对的，研究对象只是在某一方面是性质相同的，同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7误差error：指测量值与真值之差。过失误差：也叫粗差。观测者粗心大意造成的误差。系统误差：由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差：由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差：由抽样引起的样本指标统计量与总体指标参数的差异。8统计量(statistical)：是反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数、样本标准差s 、样本率p 等。9参数(pa

6、rameter)：是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数、总体标准差、总体率等。 10.统计资料的类型根据研究目的，对研究对象的某些特征进行观测，将这些观测指标或工程称为变量。变量的具体数值(变量值)构成了统计数据或统计资料。统计资料分为两类：1 值变量(numerical variable)：亦称定量资料。是指对每个观察单位用计量方法测得某项数值大小所获得的资料。特点为其变量值大多有度量衡单位，其具体取值通常是正实数(零、正整数和小数)。如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。分类变量(categorical variable

7、)：又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别，无度量衡单位。分类变量又可分为两类：序分类变量：又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值，各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。序分类变量：亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数，但不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异，即可按数量的相对大小或程度的上下排出顺序。四、学习中医统

8、计学的目的1.顺应中医药学的开展趋势。2.强化中医科研的方案性和科学性。 3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、学习中医统计学的考前须知1理解和领会根本概念和原理，切忌死记硬背。2不追究公式的来源和推导，但要掌握其应用条件。3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述统计描述概念：即利用原始数据，选择适宜的统计指标及统计图表，简明准确地探察数据的分布类型和数量特征的根本统计方法。目的：是根据样本中所包含的信息，客观、正确地推论出其总体规律。第一节频数分布频数：相同观察值或观察结果出现的次数。分布：指随着随机变量取值的变化，其相

9、应的概率变化的规律性。频数分布：观察值(变量值)按大小分组，各个组段内观察值个数(频数)的分布，是了解数据分布形态特征与规律的根底。一、频数分布的特征1.集中趋势：指一组变量值的集中倾向或中心位置。2.离散趋势：即一组变量值的离散倾向。二、频数分布的类型1.对称分布：指集中位置居中、左右两侧的 2.非对称分布：亦称偏态分布，是集中位置频数分布根本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非正态分布两称的频数分布，可分为正种类型。偏态和负偏态分布。三、频数分布表/图的作用1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分

10、布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表概念：频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题：随机抽取某地120例正常人，测得血清铜的含量(mol/L)如下表，试编制频数表。13.84 12.53 13.70 14.89 17.53 13.19 18.8214.73 17.44 13.99 14.10 12.29 12.61 14.7814.59 14.71 18.62 19.04 10.95 13.81 10.5313.56 11.48 13.07 16.88 17.04 17.98 12.6711.03 9.23 15.04 14.09

11、15.90 11.48 14.6413.64 14.39 15.74 13.99 11.31 17.61 16.2613.53 11.68 13.25 11.88 14.21 15.21 15.2913.70 14.45 11.23 19.84 13.11 15.15 11.70频数表的编制方法：1.找极值：Xmax 19.84，X min 9.232.求全距： XmaxX min ，19.849.2310.613.定组数：K=815。4.求组距：i=/ K1i为组距，k为组段数，R为全距i=10.61/(11-1)=1.06115.确定各组段的上下限：6.归纳计数：某地120名正常成年人血清

12、铜含量频数表组段频数频率() () 9.00 3 2.5 3 2.510.00 4 3.3 7 5.811.00 12 10.0 19 15.812.00 13 10.8 32 26.6 13.00 17 14.2 49 40.814.00 22 18.3 71 59.115.00 18 15.0 89 74.116.00 13 10.8 102 84.917.00 11 9.2 113 94.118.00 5 4.2 118 98.319.00 2 1.7 120 100.0合计 120 100.0五、频数图概念:亦称直方图，是以直方的宽度代表组距，以直方的面积大小表示频数的多少、以直

13、方面积在总面积中的比例表示频率大小的图形。等距分组以横轴表示变量，以纵轴表示频数。不等距分组以横轴表示变量，但纵轴是频数除以组距。第二节数值变量资料集中趋势的描述集中趋势：是度量变量值集中位置和平均水平的数量指标，其代表值为平均数。平均数：是描述一组观测值平均水平的指标，是对同质根底上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1.定义：算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数，m表示总体均数。2.适用条件：正态或近似正态分布的资料。如生理指标。3.计算方法：直接法：有

14、n个观察值，分别为X1，X2，Xn，式中是求和的符号。例题：10名12岁男孩身高(cm)分别为125.5，126.0，127.0，128.5，147.0，131.0，132.0，141.5，122.5，140.0。求平均数。加权法：用于观察值中相同数据较多或频数表资料。1737.00/12014.48(mol/L)二、几何均数1.定义：个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2.应用条件：等比数列资料。如抗体滴度。 3.计算方法：例题：6份血清抗体滴度为1:2，1:4，1:8，1:8，1:16，1:32，求平均数。平均滴度为1:8。三、中位数1.定义：将一组观察值按由小到大的

15、顺序排列，位次居中的数值即中位数。是位次上的平均。统计符号。2.应用条件：不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3.计算方法：n为奇数时 n为偶数时式中、及均为下标，表示有序数列中观察值的位次。例题：某医院用大黄粉治疗胃热血瘀型血证病人9例，其大便转阴天数分别为1、1、2、2、3、4、5、7、10，求其中位数。本例n = 9, M = X5 = 3(天)。如果本例n=10，第10个数值为16天，那么 M=(3+4)/2=3.5(天。2 数表法用于观察值例数较多或频数表资料。为所在组段的下限；i为该组段的组距；m为该组段的；n为总例数；fL为小于的各组段的

16、。例题：905例男性银屑病病人的发病年龄年龄频数f 累计频数f 累计频率p()10 54 54 5.9710 252 306(f) 33.81 20 346(f) 652 72.0430 128 780 86.1940 84 864 95.4750 29 893 98.6760 5 898 99.2370 7 905(n) 100.0020(10/346)(905/2306)24.23(岁)第三节数值变量资料的离散趋势描述离散趋势：亦称变异性，是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性，而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系

17、数。变异指标示意(两个学生五门成绩分布)学生科目变异指标 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76、两个学生五门课程成绩的均数都是80，但各科成绩分布情况却不相同。较集中，变异较小；较分散，变异较大。一、全距()概念：亦称极差，是一组观察值中最小值与最大值之差，反映个体差异的范围。优点：1.意义明确、计算简便。2.稳定性较差。3.受n大小的影响。4.可应用于任何分布。二、百分位数和四分位间距1.百分位数：是把一组观察值从小到大排列，分为100等份，与位次所对的数值即为第

18、百分之位数。以x表示。一个x将全部观察值分为两局部，理论上有的观察值比它小，有(100)的观察值比它大。是一种位置指标。M 即。2.四分位数间距：是上四分位数Q()与下四分位数Q()之差，符号为QR。是中间50观察值的极差。QRQQ用途：常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。3 表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题：905例男性银屑病病人的发病年龄同前计算方法：10(10/252)×(905×0.2554)16.84(岁)30(10/128)×(905×0.75652)32.09

19、(岁)QR32.0916.8415.25(岁)三、方差概念：方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2。优点：由于2利用了每个观察值的信息，反映一批数据变异程度的稳定性和精确性好。缺点：但在运算时需将各个离均差平方，使原度量单位变成平方单位，不便于进行比拟。应用条件：要求资料服从正态或近似正态分布。四、标准差概念：方差的平方根。除了具有方差的优点外，还克服了度量单位被平方的缺乏，运用较方便。总体标准差的符号为，样本标准差的符号为；英文缩写为SD。例题：A学生：n=5，X78+79+80+81+82=400；X2782+792+802+812+82232021B学生：n=5

20、，X=400；X233000用途：表示正态或近似正态分布的离散程度。描述数值变量的频数分布特征( ±。制定医学参考值范围。与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数概念：一组观察值的标准差与均数的百分比。是相对离散量，无单位。统计符号CV用途：比拟度量单位不同或均数相差悬殊时几组样本资料的离散性。比拟实验指标的稳定性及测定方法的精密度。例题：1某单位测得28例成年脾虚病人的红细胞数为3.10土0.86×1012L；血红蛋白值为87.2土33.3gL，试比拟该两项指标的变异程度。CVRBC(0.863.10)×10027.74；CVHb(33

21、.387.2)×10038.19可认为Hb的变异程度比RBC大。2某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4，家兔的ALT为52.8土1.5，试比拟两种实验动物ALT指标的实验稳定性。CV大鼠(1.429.4)×1004.76；CV家兔(1.552.8)×1002.84可认为家兔ALT的实验稳定性较好，应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知，CV对于改良实验方法，选择最正确实验对象、指标等，都具有一定的实际意义。变异指标：1.极差较粗，适用于任何分布；2.标准差与均数单位相同，最常用，适用于正态及近似正态分布的统计描述；3.集中

22、指标和离散指标分别反映资料的特征，常配套使用：正态分布：算术平均数标准差偏态分布：中位数四分位数间距等比资料：G正态分布及其应用第一节正态分布某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分，作直方图。将各直方顶端的中点连接，形成一条光滑的曲线，该曲线即频数曲线或频率曲线，近似于数学上的正态分布曲线。一、正态分布：又称Gauss分布或常态分布，是一种最重要的连续型分布。正态分布曲线：是顶峰位于中央，两侧逐渐下降，左右对称，永远不与横轴相交的曲线。二、正态分布的密度函数(x) f(x)为与x对应的正态曲线的纵坐标高度；为总体均数；为总体标准差；为圆周率，即3.1

23、4159；e 为自然对数的底，即2.71828。三、正态分布的特征1.在X轴上方，均数所在处最高。 2.集中性、对称性和均匀变动性。3.正态分布有两个参数和。四、标准正态分布由于不同的正态分布有不同的和，用公式计算的随机变量x落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法，进行标准正态变换 (即u变换)： u x -/。此变换实质上是作了一个坐标轴的平移和尺度变换，使原来的正态分布变换为0、1的标准正态分布(亦称u分布)，记为(0，1)。五、标准正态分布的密度函数 (< u <) 式中(u)为标准正态分布的密度函数，即纵坐标高度。六、正态曲线下面积分布的规律：七、正态分

24、布的应用1.统计分析方法的根底：很多抽样分布，如卡方分布、t分布都是建立在正态分布的根底上。2.质量控制：为了控制检测误差，常以 ±2作为上下警戒线； ±3作为上下控制。 3.估计医学参考值范围。 4.进行参数估计和假设检验。第二节正态分布的应用一、可根据正态分布的规律估计观察值的频数分布范围。例题某地120名正常人血浆铜含量(mol/L)的均数14.48、2.27，估计该地120名正常人血浆铜含量在14.2015.60(mol/L)范围内的人数。 1.计算u值当和未知时，u(x)/s。x114.20，u1(14.2014.48)/2.27-0.12x215.60

25、，u2(15.6014.48)/2.270.49 2.查表 -0.12左侧的面积就是 0.12右侧的面积。当u0.12时，在表的左侧找到0.1，在表的上方找到0.02，二者相交处为0.5478，(-0.12)10.54780.4522，即标准正态变量u值小于-0.12的概率为0.4522；当u0.49时，(0.49)0.6879，即u值小于0.49的概率为0.6879。3.确定概率u值在-0.120.49范围内的面积为：(0.49)(-0.12) 0.68790.45220.2357，即血浆铜含量在14.2015.60(mol/L)范围内的概率为23.57。4.估计区间内人数120名正常人血

26、清铜含量在14.2015.60(mol/L)范围的人数为120×23.5728人二、制定医学参考值范围1、医学参考值的意义医学参考值：是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。医学参考值范围虑到变异的影响，提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。使用“参考值范围的目的：个体临床上划分正常人与异常人的参考。人群制订不同性别、年龄儿童某项发育指标的等级标准，用来评价儿童的发育水平等。2、制定参考值范围的步骤选定健康人作为调查对象。控制测量误差。确定样本含量。根据实际意义分组。决定取单侧还是双侧界限。选定适当的百

27、分界限。常用95、80 、90、99等。制定医学参考值范围。3、制定参考值范围的常用方法正态分布法适用于正态或近似正态分布的资料。表达式为，为正态曲线下单侧或双侧尾部的面积，u为相应的标准正态离差。双侧95的界限值为：单侧95的上限值为：单侧95的下限值为：例题：某地调查正常成年男子144人的红细胞数，得均数5.381012/L,标准差0.441012/L，试估计该地成年男子红细胞数的95%参考值范围。因红细胞数过多或过少均为异常，用双侧界值。下限： - 1.96s=5.38-1.96 ×0.44 =4.52 上限： + 1.96s=5.38+1.96×0.44 =

28、6.24 该地成年男子红细胞数的95%参考值范围4.526.241012/L 。百分位数法：是利用两个百分位数作为双侧参考值范围的上、下限，或者用一个百分位数作为参考值的上限或下限。适用于非正态分布或分布未知的资料。 1双侧95参考值范围： P2.5P97.5 2单侧95参考值范围上限值：P95 3单侧95参考值范围下限值：P5总体均数的估计参数估计：是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法，即用统计量估计总体参数的方法，是统计推断的一个重要方面。第一节抽样分布与抽样误差医学科研的常用方法是抽样研究。由于个体差异的存在，测算的样本指标值很难恰好等于总体指标值。这种由个

29、体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。一、样本均数的抽样分布与标准误1.样本均数的抽样分布：指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布。2.抽样分布的特点：1各统计量间存在差异，统计量不一定等于参数。2统计量的变异范围比原变量的变异范围大大缩小。3随着n增加，样本均数的变异程度减小。4如果原始变量服从正态分布，那么统计量也服从正态分布。如果原始变量不服从正态分布，假设n较大，那么统计量服从正态分布；假设n较小，那么统计量为非正态分布。3抽样误差：是因抽样产生的样本与样本、样本与总体相应统计指标之间的差

30、异。由于存在个体差异，且样本又未包含总体的全部信息，因此抽样误差是无法防止的。抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。4.标准误：表示样本指标值在抽样分布中的变异情况。SE越小，说明抽样误差越小，用统计量来估计参数时的可靠程度越大；反之，SE越大，说明抽样误差越大，用统计量来估计参数时越不可靠。均数的标准误：样本均数的标准差也称均数的标准误。反映样本均数间的离散程度，反映样本均数与相应总体均数间的差异，说明均数抽样误差的大小。估计标准误：由于往往未知，常以S替代，算得的标准误称估计标准误。其统计符号。由于标准误与抽样误差成正比，与样本均数的代表性成反比，故在实际工作中可将标

31、准误作为描述统计指标可靠性的依据。5.标准差与标准误的比拟标准差均属标准误意义描述个体观察值之间的离散性变异程度描述同一总体中随机抽出样本含量相同的多个样本均数间的离散性公式与n的关系随着n的增大逐渐趋于稳定随着n的增大逐渐减小，与n的平方根成反比。用途表示观察值得变异大小；结合样本均数描述正态分布的特征；在正态分布时做参考值范围的估计；计算变异系数和均数的标准误表示样本均数抽样误差的大小；描述样本均数的可靠性；结合样本均数估计总体均数的CI；进行均数间差异的假设检验例题：某样本资料的2.27(mol/L)，120，求其标准误。代入公式得：二、t 分布及其应用1.t 分布：假设对正态分布总体屡

32、次重复抽取假设干样本含量相同的样本，样本均数围绕总体均数呈现正态分布。假设将所有样本均数按公式进行数学变换，可得 u 围绕0的标准正态分布。由于总体标准差未知，只能求出标准误的估计值，变换公式求t 值，可得到假设干t值。将这些t 值绘成直方图，假设样本无限多，可绘成一条光滑的曲线t 分布曲线，此时所得的t 值围绕0呈现的就是t 分布。 2.t 分布的特征：1是一簇单峰分布曲线，以0为中心，左右对称。2其形态变化与自由度的大小有关越小，那么t值越分散，t 分布曲线越低平，t 分布的峰部越矮而尾部翘得越高；越大，t 分布越逼近正态分布。3t分布的单侧概率和双侧概率在t界值表中，横标目为自由度，纵标

33、目为概率(或)。一侧尾部面积称为单侧概率或单尾概率; 两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当和确定时，对应的t的界值，其中与单尾概率相对应的t界值用表示，与双尾概率相对应的t界值用表示。查t界值表注意：由于t 分布是以0为中心的对称分布，故附表2只列出正值，查表时，不管t值正负，均可用其绝对值t查表得概率值。相同自由度时，t值增大，概率减小；在相同t值时，双尾概率是单尾概率的两倍。如双尾单尾 1.8123.t 分布的用途：总体均数的区间估计；t 检验。第二节总体均数的估计是根据样本分布的特点，由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种

34、。一、总体均数的点估计点估计概念：用样本确定的统计量的值来直接估计总体参数的数值。方法：以样本统计量及其标准误作为被估计参数的点估计值，一般是以统计量加减标准误的方式给出参数的点估计值。优点：方法简单。缺点：未考虑抽样误差的影响。二、区间估计根据抽样分布原理，按预先给定的概率水准，给出被估计参数可能的数值范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或可信系数，符号为1-，常取95或99 。称按95或99水准确定的CI为95CI或99CI。1 大样本资料均数的可信区间样本例数足够大(100)时，可按正态分布原理，用以下公式估计总体均数的CI。95CI

35、99CI例题：测得某地296例成年男性发锌的均数为200.0ppm，标准差为21.8ppm。试估计该地成年男性发锌总体均数的95CI。本例296， 200，21.8， 1.27。 95CI200.0±1.96×1.27(197.51，202.49)该地成年男性发锌总体均数的95CI为197.51202.4ppm。2.小样本资料均数的可信区间当较小(100)时，一般按t分布原理，用以下公式估计总体均数的CI。95CI 99CI式中t0.05/2，与t0.01/2，为t0.05与t0.01的双侧界值。例题：测得某地12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208.33，

36、标准差为67.07。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI。本例12， 208.33，67.07， 19.36 112111。查t界值表得t0.05/2，112.201，按公式求得：95CI208.33±2.201×19.36(165.72，250.94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI为165.72250.943.可信区间的要素1准确度：是CI包含总体参数的概率大小，用可信度的大小1-表示。可信度越接近1，可信程度越高，准确度越高。如可信度99比95可信程度高。2精密度：是对总体参数的估计范围或长度的度量，反映在CI即长

37、度愈小愈精密。每一次估计间的差异越小，CI愈小，即CI的长度越小，其估计的精密度越高。4.可信区间的特点1当确定后，CI范围的大小与可信度1-的上下呈正比，与估计结果的精密度呈反比。2当可信度1-确定后，的大小与CI范围的大小呈反比；与估计结果的精密度呈正比。因为增加样本例数会减小标准误，使CI的范围缩小。CI的范围越小，真实值靠近点估计值的可能性越大，靠近CI边缘的可能性越小，估计的精确度也随之提高，其统计效力就越大。5.可信区间与可信限的关系CI为某一整体内的一个分段，是以上、下可信限为界的开区间(不包含界值在内)。CU与CL是CI的上下两个界值。如95CI为(165.6，251.0)。

38、165.6是CI的下限(L)，251.0为CI的上限(U)。6.CI与参考值范围的比拟1可信区间：是参数的估计范围，需用标准误(SE)计算，表示总体指标的可能范围。2参考值范围：表示大多数正常人的解剖、生理、生化某项指标的波动范围，需用标准差计算，用于判断观察对象的某项指标正常与否。假设检验一、假设检验的概念与分类概念：亦称显著性检验，是利用样本信息，根据一定的概率水准，推断样本指标(统计量) 与总体指标(参数)、不同样本指标间的差异有无意义的统计分析方法。（一）参数检验和非参数检验1.参数检验概念：依赖总体分布的具体形式的统计方法，简称参数法。常用的参数法有2 检验、t 检验、检验等。

39、使用条件是抽样总体的分布。优点：能充分利用样本信息；检验效率较高。缺点：应用条件限制较多。2.非参数检验概念：一类不依赖总体分布的具体形式的统计方法。如Ridit分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。优点：对总体的分布形式不要求；可用于不能精确测量的资料；易于理解和掌握；计算简便。缺点：不能充分利用资料所提供的信息，使检验效率降低。二单因素分析与多因素分析1.单因素分析亦称一元分析，是在主要的非处理因素相同的条件下，不管影响结果的处理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等)有多少，每次仅分析一个处理因素与效应之间关系的统计方法。2.

40、多因素分析亦称多变量分析或多元分析，是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法。二、假设检验的根本思想先假设差异由抽样造成，即总体间本无差异，在此假设成立的前提下做抽样研究，如果该次抽样属小概率事件，那么样本信息不支持原假设的成立，拒绝它。三、假设检验的根本步骤例题：根据大量调查，健康成年男子的脉搏均数为72次/分。某医生在某医院随机调查30名脾虚男子，求得脉搏均数为74.2次/分，标准差为7.5次/分。脾虚病人的脉搏是正态分布，问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等？分析：把一般成年男子的脉搏均数看作一个总体均数，脾虚男子的脉搏均数为样本

41、均数。mm072，n30 ， X74.2，s7.5 。 m0 ¹ 的原因：抽样误差所致。脾虚致两个均数间有本质性差异。1建立假设、确定检验水准无效假设：记为，即样本均数所代表的总体均数与的总体均数0相等。样本均数与0的差异是由抽样误差引起，无统计学意义。备择假设：记为，即样本均数所代表的总体均数与0不相等，样本均数与0的差异是本质性差异，有统计学意义。假设检验有双侧检验和单侧检验假设目的是推断两总体均数是否不等，应选用双侧检验。 H0：0，H1：0假设从专业知识不会出现0 (或0)的情况，那么选用单侧检验。 H0：0，H1：0 (或0)确定检验水准检验水准亦称显著性水准，符号为，是

42、事先规定的对假设成立有否作出判断的根据。常取0.05或0.01。2选择检验方法、计算统计量根据：研究目的，资料的类型和分布，设计方案，统计方法的应用条件，样本含量大小等；选择适宜的统计方法并计算出相应的统计量。3确定值、做出推论假设检验中的值是指在由无效假设所规定的总体作随机抽样，获得等于及大于(和/或等于及小于)现有统计量的概率。即各样本统计量的差异来自抽样误差的概率，它是判断H成立与否的依据。确定值的方法主要有两种查表法根据检验水准、样本自由度直接查相应的界值表求出值。计算法用特定的公式直接求出值。推论：假设，就没有理由疑心H0的真实性，那么结论为不拒绝H0，做出不否认此样本是来自

43、于该总体的结论，也即差异无显著性意义；假设，那么拒绝H0，接受H1，也就是说这些统计量来自不同的总体，其差异不能由抽样误差来解释，下结论为差异有显著性意义。检验以t分布为理论根底，对一个或两个样本的数值变量资料进行假设检验常用的方法，属于参数检验。第二节单样本 t 检验概念：亦称样本均数与总体均数比拟的t检验。用于从正态总体中获得含量为n的样本，算得均数和标准差，判断其总体均数是否与某个总体均数0相同。总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。一、适用条件：1.对正态分布的数值变量资料，需用检验。2.对于非正态分布的资料，假设经过变量变换使成正态分布，可按检验处理；否

44、那么，用非参数检验的方法。二、正态性检验的方法检验假设为总体分布是正态分布，当P时，不拒绝，认为样本所来自的总体服从正态分布；而P时，拒绝，认为样本所来自的总体不服从正态分布。1.W检验 Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为W，又称为W检验。在样本量3n50时使用。2.D检验 Kolmogorov-Smirnov检验的统计量为D，所以也称D检验，在样本量50n1000时使用。三、计算公式，，1 式中为样本均数，为总体均数，为样本含量，为样本标准差，为自由度。四、检验步骤1.建立假设、确定检验水准 H0：0，H1：0 ，0.052.选择检验

45、方法、计算统计量 3.确定值、做出推论n=30-1 =29，查t值表， t0.05/2，29=2.045，今t =1.607t0.05/2，29，P 0.05。按0.05水准，不拒绝H0，根据现有样本信息，不能认为脾虚男子脉搏数与健康人不同第三节配对设计资料均数的t检验配对设计将观察单位按照某些特征(如性别、年龄、病情等可疑混杂因素)配成条件相同或相似的对子，每对中的两个观察单位随机分配到两个组，给予不同的处理，观察指标的变化。同一观察单位实验(或治疗)前后的比拟；同一样品用两种方法检验结果的比拟；配对的两个观察单位分别接受两种处理后的数据比拟。配对检验配对检验又称成对检验，是将对

46、子差数d 看做变量，先假设两种处理的效应相同，120，无显著性，推断两种处理因素的效果有无差异或某处理因素有无作用。由于此种设计使影响结果的非被试因素相似或相同，因而提高了研究效率。一、适用条件：1.设计类型是配对设计。2.数值变量的对子差值是正态分布。二、计算公式 1，式中为各个对子数值的差数，为差数的平均数 , 为差数的标准差，为差数的标准误，为对子数。三、检验步骤例题：对10名患者分别用湿式热消化-双硫腙法和硝酸-高锰酸钾冷消化法测定尿铅，问两法测得结果有无差异。用两种方法测定尿铅结果(mol/L)患者号冷消化法热消化法差值dd212.412.80-0.390.1521212.0711

47、. 240.830.688932.903.04-0.140.019641.641.83-0.190.036152.751.880.870.756961.061.45-0.390.152173.233.43-0.200.0480.770.92-0.150.022593.673.81-0.140.0196104.494.010.480.2304合计0.58(Sd) 2.118 (Sd2) 1.建立假设、确定检验水准H0：0，H1：0 ，0.052. 计算统计量t值先计算差值d 及d 2(如表)，得Sd =0.58，Sd2=2.1182计算差值的标准误 3.确定值、做出推论 n=n 1=101=9，

48、查界值表，得双侧t0.05/2,9 =2.262, 本例 t t0.05/2,9，P 0.05。按0.05水准，不拒绝H0，不能认为两法测定尿铅结果有差异。第四节独立样本t 检验与检验独立样本资料是在两个总体里分别随机抽样，或将同一总体里抽取的观察对象随机分为两组，采取不同的处理得到的资料。独立样本t 检验亦称两样本t 检验或成组t 检验。与检验均适用于完全随机化设计两独立样本的比拟，目的是推断两独立样本均数所代表的未知总体均数1与2是否有差异。一、独立样本的方差齐性检验方差齐性两个样本均数的假设检验，除了要求样本资料来自正态分布或近似正态分布，还要求两个样本的总体方差相等。一应用条件：两

49、个样本均来自正态分布的总体。二计算公式：统计量F 为较大的方差与较小的方差的比值。 F=s12/s22，1n11，2n21 三检验步骤例题：某医师要观察自拟中药方“降脂胶囊对高血脂症的疗效，将诊断为高血脂的20例病人随机分为两组，一组用上述中药治疗，另一组用西药治疗，3个月后测量血清胆固醇含量(mmol/L如下，两组血清胆固醇含量均服从正态分布，试比拟两药降低胆固醇的效果有无差异。1.建立检验假设、确定检验水准 H0：两总体方差相等 H1：两总体方差不相等 a 0.10较大以减少II类错误2.选择检验方法、计算统计量中药组S2 =0.580；西药组S2 =0.466 F=s12/s22 =0.580/0.466

人人文库> 全部分类> 应用文书 > 工作计划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中医药统计学与软件应用笔记重点

文档简介

温馨提示

最新文档

评论

中医药统计学与软件应用笔记重点

文档简介

温馨提示

最新文档

评论

相关文档