理学统计2章教材_第1页
理学统计2章教材_第2页
理学统计2章教材_第3页
理学统计2章教材_第4页
理学统计2章教材_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2 计量资料分析连续变量总体的样本资料,一般是计量资料。正态总体的计量资料分析,包括统计描述和统计推断。统计描述,主要是用样本数字特征、S2作总体数字特征、2的点估计。统计推断,主要是用样本数字特征、S2作总体数字特征、2的区间估计或假设检验。2.1计量资料的区间估计2.1.1 随机抽样统计工作一般经过统计设计、搜集资料、整理资料、分析资料四个步骤。统计设计是对全过程进行全面设想、规划,选用区间估计、假设检验、回归分析、试验设计等具体统计方法。搜集资料是根据研究目的,按试验设计的要求进行抽样,或搜集报表,或进行试验,搜集准确的、完整的、充满信息的原始资料。整理资料是按设计要求对搜集到的原始数据

2、进行分组和归纳,使资料系统化、条理化,以便进行统计分析。分析资料是按设计要求对经过整理的原始资料进行计算和统计处理,得出科学、合理的统计结论。不同的统计资料采用的统计方法也会不一样。统计资料的类型一般分为计量资料、分类资料两大类型。计量资料是对观察对象用定量方法测得的某项指标的值,分为定量(有大小和单位)与循环(有单位无大小,如角度、时间等)两种,一般是连续变量总体的样本资料。分类资料是把观察对象按不同属性或类别分组计数所得的资料,分为无序分类(计数资料)与有序分类(等级资料)两种,一般是离散变量总体的样本资料。资料的类型,可以根据需要进行转化。如:每个人的血红蛋白量是计量资料,按血红蛋白量分

3、为正常与异常两组的人数是计数资料。以6 g/dl、9 g/dl、12 g/dl、16 g/dl为分组的端点值,按血红蛋白量分为重度贫血、中度贫血、轻度贫血、正常血红蛋白量、增高血红蛋白量,五组的人数是等级资料。总体是根据一定的研究目的和要求所确定的研究对象的全体,构成总体的每一个对象称为个体。从总体中抽取的部分个体称为样本,从总体中抽取样本的过程称为抽样,样本所包含的个体的数目称为样本容量。从总体X中随机抽取容量为n的样本,记为X1、X2、Xn,可看成是n个随机变量。抽样的目的是通过对样本的考察和分析,从而根据该样本所提供的信息对总体的分布特性或某些特征做出估计和推断。因此,通常要求样本具有代

4、表性(Xi与总体X同分布)与独立性(X1、X2、Xn独立),并称这样的样本为简单随机样本。在抽取样本时,要求方法简单易行,并且对抽取的数据便于用统计方法进行处理和推断。抽样的方法很多,对于有限总体,一般采用有放回的抽样,在总体的研究对象数量相对于样本大得多时,可近似采用无放回的抽样。总体中的每一个研究对象以相等的概率被抽取,这种等概率抽样称为单纯随机抽样,常用抽签或查随机数表等方法实施。若采用机械抽样(按一定的间隔抽取,如取4号、24号、44号、),分层抽样(把研究对象分为互不重叠的层,在各层随机抽样),整群抽样(把研究对象分为互不重迭的群,随机抽取若干群的全体),则可以得到非简单随机样本。无

5、偏点估计统计描述,主要是用样本数字特征、S2作总体数字特征、2的点估计。定义1 设X1,X2,Xn是从总体X中抽取的一个容量为n的简单随机样本,则分别定义样本均数(mean)、样本方差(variance)为(2-1)(2-2)并称S为样本标准差(standard deviation,SD),称S/为样本变异系数。反映集中趋势的样本数字特征,有样本均数、中位数(median,居中位置的值)、众数(mode,频率最大的值)等。反映离散程度的样本数字特征,有样本方差、样本标准差、样本变异系数、样本标准误(standard error,SE)、极差(range,最大与最小值之差)、四分位数(25%及7

6、5%位置值)等。样本均数与标准差、标准误常合写在一起,记为或(2-3)或(2-4)用样本构成的不含总体任何未知参数的函数,称为一个统计量(statistic)。用来估计总体参数的统计量,记为。这种用样本统计量直接作为总体未知参数估计值的方法,称为点估计。在时,称为的无偏估计量。的一个具体值,称为总体参数的一个点估计。无偏性、有效性、一致性,是评价估计量好坏的三条标准。定理1 设X1,X2,Xn为总体X的简单随机样本,则(2-5)(2-6)(2-7)证X1,X2,Xn与总体X独立同分布,EXiEX,DXiDX,由定理1的2-5、2-7可知,样本均数、样本方差S2分别是总体均数EX、总体方差DX的

7、一个无偏点估计。函数计算器的SD(标准差)模式,用Data键输入数据,用、S键,可以计算样本均数、样本标准差S。类似地,用作为总体M阶原点矩的估计量,称为矩估计;用密度函数f构成似然函数f(Xi)求最大值确定总体参数的估计量,称为最大似然估计。样本方差定义为S2,是总体方差DX的一个矩估计。例1某药厂生产的开胸顺气丸,崩解时间X。今随机抽取5丸测得崩解时间为:36、40、32、41、36(min),计算及2的无偏点估计。解分别计算样本均数、样本方差,得到37S213故及2的点估计分别为,。2.1.3 的u估计点估计只给出了总体参数的一个近似值,没有反映出近似的精确程度,而且不同的样本观察值所得

8、出的估计值不尽相同。因此,在实际问题中,常常需要用区间形式估计总体参数所在的范围,不仅给出范围,还要给出这个范围包含总体参数值的可靠程度。定义2 设总体X含有未知参数q,若,对样本确定的统计量及有q1a(2-8)则称随机区间是q的置信区间或可信区间(confidence interval),称1a为置信度或可信度,a 称为显著水平(significance level),分别称及为置信下限及置信上限。置信区间是总体参数的估计范围,判断置信区间包含总体参数,有把握的概率为置信度1a,犯错误的概率为显著水平a。统计中,显著水平常用a0.05、a0.01,实际工作中也可用a0.1等。当置信度为1a0

9、.95时,从统计学意义看,表明在总体中独立地抽取100个样本,那么就会有100个常数区间,其中大约有95个区间包含待估计的参数q,可靠性为95。设总体X,由2-5、2-6可知,、,有(2-9)(2-10)对样本函数u,分别满足条件P(|u|ua/2)a(2-11)P(|u|ua)a(2-12)的数值、称为u分布的双侧、单侧界值。双侧界值表示右边与左边曲线下面积的和(称双侧或双尾概率)为a,单侧界值表示右边的曲线下面积(称单侧或单尾概率)为a,如图2-1所示。图2-1 u分布双侧界值u分布的双侧、单侧界值可以在统计用表5中查最下面一行,双侧界值可用DPS的pnorm(x)函数计算。由统计用表5,

10、可以查得常用的u界值为1.6449,1.9600,2.3264,2.5758定理2 在s 已知时,正态总体均数的置信度1a 的置信区间为(2-13)证 由1a,有1a 1a 故,在s已知时,的置信度1a 的置信区间为由定理2,在s已知时,的置信度1a 的置信区间通常写为(2-14)例2在伤寒论使用桂枝的39张处方中,桂枝的用量服从s 为3g的正态分布,根据样本均数8.14 g、显著水平a 0.05,估计桂枝用量的置信区间。解的置信度0.95的置信区间为s 2的估计定义3 设u1,u2,un为互相独立的标准正态变量,则称它们平方和构成的变量u12u22un2(2-15)服从自由度(degree

11、of free)dfn的分布,记为。x0x0分布密度函数为(2-16)分布由海尔墨特(Helmert)和皮尔逊(Pearson)分别于1875年和1900年得到。分布密度曲线偏向左侧,n越小越偏。单侧界值表示右边曲线下面积为a,双侧界值或分别表示右边或左边曲线下面积各为,如图2-2所示。 图2-2 2分布的界值分布的单侧、双侧界值可以查统计用表4,单侧界值可以用DPS函数chitest(df,a)计算。定理3 设X1,X2,Xn为总体X的简单随机样本,则(2-17)证X1,X2,Xn与总体X独立同分布,得由于, 从而,故由定理3,可得s 2的置信度1a 的置信区间为,dfn1(2-18)例3某

12、药含碳量服从正态分布,生产时允许方差在0.0482 (mg2)内。现任取5件,测得含碳量(mg)为:1.32、1.55、1.36、1.40、1.44,根据a 0.05判断该药生产是否稳定。解 计算得n5,1.414,S0.0882,dfn14,查统计用表4得,s 2的置信度0.95的置信区间为置信区间的下限0.00280.0023,可认为该药生产不稳定。2.1.5 的t估计设总体X,未知。这时,的置信区间要使用t估计。定义4 若u,2且u、2独立,则称变量(2-19)服从自由度为n的t分布,记为t。t分布密度函数为(x)(2-20)t分布由英国统计学家Gosset于1908年以Student笔

13、名发表,故又名学生分布。t分布密度曲线关于纵轴对称,时以标准正态曲线为极限。双侧界值表示右边与左边曲线下面积的和为a,单侧界值表示右边的曲线下面积为a,如图2-3所示。t分布的单、双侧界值可以查统计用表5,双侧界值可以用DPS函数计算。图2-3 t分布定理4 设X1,X2,Xn为正态总体X的简单随机样本,则(2-21)证 由,可得由定理4,(2-22)可得未知时,的置信度1a 的置信区间为,dfn1(2-23)根据中心极限定理,总体不论是否服从正态分布,在大样本的情况下,都有:样本均数渐近服从正态分布,样本函数渐近服从标准正态分布。这时,可使用的u估计。置信区间的优劣可通过准确度和精密度(反映

14、在区间长度)来评估。例4逍遥丸崩解时间服从正态分布,在同一批号中随机抽取5丸,测得崩解时间(min)为:21、18、20、16、15。求该批药丸崩解时间总体均数置信度为0.99的置信区间。解 计算得n5,18,S2.5495,df4,查统计用表5,该批药丸崩解时间总体均数置信度为0.99的置信区间为置信区间的上限23.2495低于药典规定的60 min,可认为该批药丸崩解时间合格。习题2.11. 从同一批号的阿斯匹林片随机抽取5片,测得溶解50%的时间(min)为:5.3、6.6、5.2、3.7、4.9,做总体均数和总体方差的无偏点估计,求样本标准差及变异系数。2.某药的某种成分含量服从正态分

15、布,方差s20.1082。现测定9个样品,含量的均数4.484,根据a0.05求含量总体均数的置信区间。3.从一批药丸随机抽取35丸,测得平均丸重为1.5 g、标准差为0.08 g,求该批药丸平均丸重总体均数置信度为95%的置信区间。4.检查某市12岁健康女学生144人的血红蛋白含量,求得样本均数119.62g/L,样本标准差9.98g/L,求该市12岁健康女生血红蛋白含量总体均数置信度为95%的置信区间。5.用1题的样本,求总体方差置信度为95%的置信区间。2.2 计量资料的假设检验2.2.1 假设检验的基本原理对总体的分布类型或其中的某些未知参数作某种假设,然后从总体中抽取样本,根据样本提

16、供的信息构造合适的统计量,对所作假设的真伪进行推断,做出拒绝或接受这一假设的决策,这类统计方法称为假设检验(testing hypotheses)。假设检验的理论依据是小概率原理,即:小概率事件在一次试验中几乎不会发生。在假设检验中,这一小概率常常用a 表示,称为检验水准或显著水平,a 通常取0.05、0.01,实际问题中也可取0.10、0.001等。本节仅对正态总体中的未知参数提出假设并作检验。例1 太极集团生产通宣理肺丸的丸重服从正态分布。若标准差s2 mg,规定标准丸重38 mg。从一批中随机抽取 100 丸,样本均数37.5 mg,怎样判断该批药丸是否合格。前提是正态分布且已知。记03

17、8,该批产品是否合格,要根据总体均数0是否确定而判断。由样本信息,0,猜想0,称为备择假设或对立假设,记为H1。由于直接判断H1很难,反设0,称为零假设、原假设或无效假设,记为H0。在H0成立的假定下,选择适当的统计量,判断是否会出现小概率事件。若小概率事件竟然发生了,则可以怀疑假设H0不合理,从而做出拒绝H0,接受H1的推断。若小概率事件没有发生,则没有理由拒绝假设H0。在例1中,在H0成立的假定下,选择统计量。计算u(37.538) / (2/10)2.5,取绝对值查统计用表5,u0.05/21.9600,u0.01/22.5758,u0.05/2uu0.01/2,可得双侧概率为0.01P

18、0.05。用P与检验水准a 比较,在Pa 时,表示出现小概率事件。这里可用水准a 0.05拒绝H0,接受H1,统计结论“与0的差异有统计学意义”,不是抽样误差造成的。在Pa 时,表示没有出现小概率事件,不能拒绝H0,统计结论“与0的差异无统计学意义”。结论的专业意义,要结合研究目的及统计量的大小而定。由于抽样的随机性,假设检验根据概率进行判断时,可能犯两类错误。第一类错误是H0为真,而根据样本做出拒绝H0的推断。这类错误称为弃真或假阳性错误,犯错误的概率为检验水准a 。第二类错误是H0为假,而根据样本做出不拒绝H0的推断。这类错误称为取伪或假阴性错误,犯错误的概率为b,如表2-1所示。表2-1

19、 假设检验推断与实际的关系拒绝H0(接受H1)不拒绝H0H0为真a(弃真)1a (正确)H0为假1(正确)(取伪)两类错误造成的后果常常是不同的,例如对癌症的检查,弃真错误是把正常人诊断为异常,造成误诊;而取伪错误是把异常者诊断为正常,造成漏诊。最理想的是犯两类错误的概率都小。概率b 不等于1a,减小a、b中一个时,另一个往往会增大。要同时减小a、b,只有增加样本容量。实际问题中,一般根据具体内容确定限制对象。如,检验药品的外观指标时,要a 尽量小,限制犯第一类错误的概率;检验药品的质量指标时,要b 尽量小,限制犯第二类错误的概率。又如,可以先限制检验水准a,再适当确定样本容量使b 尽量小。置

20、信区间可以回答假设检验的问题,若置信区间不包含0,则按a 水准拒绝H0,接受H1;若包含0,则不能拒绝H0。但是,置信区间只能在预先规定检验水准a 时进行计算,不如假设检验能获得较为确切的概率P值。根据例1,假设检验的步骤可归纳为根据实际问题提出原假设H0和备择假设H1;寻找检验H0的合适统计量,并根据样本值求出该统计量的值;根据统计量的值反查统计用表,确定概率P的大小范围;将P值与检验水准a 进行比较,作出统计推断的结论。 的u检验在前提是正态分布且s 已知时,选用u统计量进行假设检验,称为的u检验。例1中,若由样本信息0,猜想H1:0,则以统计量值为单侧界值反查出单侧P值,称为右侧检验。类

21、似若由样本信息0,猜想H1:0,则以统计量值的相反数为单侧界值反查出单侧P值,称为左侧检验。左、右侧检验,统称单侧检验。H1为0的检验,称为双侧检验。选择单侧检验还是双侧检验,需要根据研究目的和专业知识来确定。实际问题中,可以根据统计量来确定单、双侧P值和检验水准。由界值u0.051.645、u0.05/21.960、u0.012.326、u0.01/22.576可以看出,能以水准a0.01拒绝H0就能以水准a0.05拒绝H0,能以双侧检验拒绝假设H0就能以同样水准的单侧检验拒绝H0。单组计量资料时,正态总体均数的u检验如表2-2所示。表2-2 的u检验前提信息H1H0统计量P值拒绝H0正态分

22、布2已知00绝对值查双侧Pa000查单侧有统计学意义00相反数查单侧与0不等例 2某药厂生产的安眠药睡眠时间服从正态分布,标准差为 1.5h。10 人服用同一批号安眠药后,平均睡眠时间为 21.15h。试问,该批号安眠药睡眠时间的总体均数是否高于20h?分析根据实际问题,选用单侧检验。计算统计量查统计用表5,u0.012.3264,uu0.01,单侧概率P0.01,可用a0.01水准单侧检验拒绝H0。解H0:020, H1:020。u2.4244查统计用表5,单侧概率 P0.01。以a0.01 水准的单侧检验拒绝H0,接受H1,与20的差异有统计学意义。由20,可以认为该批安眠药睡眠时间的总体

23、均数高于20 h。例3某药厂生产的某中药丸有效期服从正态分布,标准差为90天,要求有效期不得低于1000天。从某一天生产的药丸随机抽取28个,测得有效期平均值为950天,判断该批药丸是否合格。分析根据实际问题,可以选用双侧检验。计算统计量由2.9397,查统计用表5,u0.01/22.5758,u0.01/2,双侧概率P0.01,可用a0.01水准双侧检验拒绝H0。解H0:01000, H1:01000。查统计用表5,双侧概率P0.01。以a0.01 水准的双侧检验拒绝H0,接受H1,与1000的差异有统计学意义。由9501000,可以认为该批药丸有效期的总体均数低于1000天,不合格。的t检

24、验在前提是正态分布且s2未知时,选用t统计量进行假设检验,称为的t检验。由,t分布密度曲线关于纵轴对称。的t检验可类似进行双侧检验或单侧检验,可类似查统计用表5确定双侧或单侧P值,可类似选用检验水准a。单组定量资料时,总体均数的t检验如表2-3所示。表2-3 的t检验前提信息H1H0统计量P值拒绝H0正态分布2未知00绝对值查双侧Pa000查单侧有统计学意义00dfn1相反数查单侧与0不等在大样本时,总体不论是否服从正态分布,根据中心极限定理,样本均数渐近服从正态分布,样本函数渐近服从标准正态分布。这时,可使用的u检验。例4人体注射麻疹疫苗后的抗体强度服从正态分布,从某厂产品随机抽取疫苗为16

25、人注射,测得抗体强度为1.22.51.91.52.71.72.22.23.02.41.82.63.12.32.42.1根据样本能否证实该厂产品的平均抗体强度高于1.9?分析根据实际问题,选用单侧检验。计算得到n16、2.2250、S0.5183由df15,查统计用表5,t0.01(15)2.6025,t0.05(15)1.7531,t0.05(15)tt0.05(15),单侧概率0.01P0.05,可以用a0.05水准的单侧检验拒绝H0。解H0:01.9, H1:01.9。查统计用表5,单侧概率0.01P0.05。以a0.05水准的单侧检验拒绝H0,接受H1,与1.9的差异有统计学意义。由1.

26、9,可以认为该厂产品的平均抗体强度高于1.9。例5甘草流浸膏中甘草酸含量(g/100g)服从正态分布,要求甘草酸含量不得低于8.32(g/100g)。从某厂产品随机抽取4个样品,测得样本均数8.30(g/100g)、样本标准差S0.03(g/100g),判断该厂产品的甘草酸含量是否低于标准。分析根据实际问题,选用单侧检验。计算统计量由1.3333、df3,查统计用表5,t0.05(3)2.3534,t0.05(3),单侧概率P0.05,不能拒绝H0。解H0:08.32, H1:08.32。查统计用表5,单侧概率P0.05。不能以a0.05水准单侧检验拒绝H0,与8.32的差异无统计学意义。不能

27、认为该厂产品的甘草酸含量低于标准8.32(g/100g)。例6 某产品的某项指标服从均数为70的正态分布,技术革新后,从产品随机抽取81件,测得样本均数75,样本标准差S14。问能否认为技术革新提高了产品的该项指标?分析n8150,可使用的u检验。根据实际问题,选用单侧检验。计算统计量查统计用表5,u0.01/22.5758,uu0.01/2,单侧概率P0.01,以a0.01 水准的双侧检验拒绝H0,接受H1。解H0:070, H1:070。查统计用表5,单侧概率P0.01。以a0.01 水准的单侧检验拒绝H0,接受H1,与70的差异有统计学意义。由70,可以认为技术革新提高了产品的该项指标。

28、s 2的 2检验由,分布密度曲线偏左。s 2的检验,可类似进行双侧检验或单侧检验,查统计用表4确定P值,选用检验水准a。实际问题常用单侧检验。表2-4 s 2的 2检验前提信息H1H0统计量P值拒绝H0正态分布S2绝对值查双侧PaS2查单侧有统计学意义S2dfn1相反数查单侧与不等单组定量资料时,总体方差s2的检验如表2-4所示。例7某药物的含碳量服从正态分布,方差不超过0.0482。从某批产品随机抽取5件,测得含碳量为:1.32%、1.55%、1.36%、1.40%、1.44%。试问这批产品的方差是否正常?分析根据实际问题,选用单侧检验。计算得到n5、1.4140、S0.0882由df4,查

29、统计用表4,20.01(4)13.2767,220.01(4),单侧概率P0.01,可用a0.01水准的单侧检验拒绝H0。解H0:2, H1:2。查统计用表4,单侧概率P0.01。故以a0.01水准的单侧检验拒绝H0,方差与0.0482的差异有统计学意义。由S20.0482,可以认为该批产品的方差高于0.0482,不正常。配对t检验在医药科研中,常常会遇到两个正态总体参数的比较问题。例如,在临床试验中比较新药和旧药的效果或比较两种治疗方法之间是否有差异等,在制药工业中比较新旧工艺的优劣等等都属于这类问题。处理这类问题,常用配对比较和成组比较两种统计方法。在试验设计中,常把统计研究的对象按某些特

30、征相近的原则配成对,然后用随机化的方法,把同一对中的两个研究对象随机分配到实验组和对照组,这称为随机配对设计。分配对象时,使用随机数表或随机排列表进行,这样就保证了各组的均衡性,并且数量控制一致。两组数据不要求互相独立。配对设计主要有三种方式:两个同质对象分别接受两种不同处理;同一对象分别接受两种不同处理;同一对象处理前后的指标进行自身的比较,但要注意不同时间处理是否影响效果。由于配对设计中的每一对个体内部差异极小,从而可减小试验误差,提高效率,因此在医药试验中是一种较常用的试验设计方法,其数据处理常见的是均数比较,称为配对比较。配对比较的基本原理是假设两种处理方法的效果相同,即。计算出两组资

31、料各对的差值d,这时,检验两个总体均值是否相等,转化为检验差值总体d的均值是否零,即检验假设H0:,由单个正态总体均数的t检验得统计量为,dfn1(2-24)其中为差值d的样本均数,为差值d的样本标准差,n为对子的个数。表2-5 造模兔使用眼伤宁前后的角膜厚度值(mm)造膜兔编号12345678910用药前0.740.740.720.720.760.720.720.760.640.68用药后两月0.560.580.580.580.560.600.600.600.580.60例 8为考察中药眼伤宁对家兔角膜伤口愈合所起的作用,测得造模兔用药前及用药后两月的角膜厚度值(mm)如表2-5所示,判断眼

32、伤宁对促进角膜伤口愈合有无作用。解根据实际问题,选用双侧检验,H0:0,H1:0。计算数据差,得到0.1360,Sd0.0430,dfn19查统计用表5,t0.01/2(9)3.2498,tt0.01/2(9),双侧概率P0.01。故以a0.01水准的双侧检验拒绝H0,接受H1,与0的差异有统计学意义。由0,可以认为眼伤宁促进角膜厚度变薄。习题2.21. 某批大黄流浸膏5个样品中的固体含量(g/100g)测定为:32.5、32.7、32.4、32.6、32.4。若测定值服从正态分布,以 32.5 为检查标准,问这批大黄流浸膏能否判为合格品。2.某药品的有效期为3年(1095天),改进配方后,任

33、取5件留样观察,测得有效期(天)为:1050、1100、1150、1250、1280。判断改进配方后有效期是否提高。3.某药厂生产复方维生素,要求每 50g 维生素含铁 2400mg。从该厂某批产品随机抽取5个样品,测得含铁量(mg/50g)为:2372、2409、2395、2399、2411,判断该批产品含铁量是否合格。4.某电工器材厂生产一种保险丝,规定熔化时间的方差不得超过400ms2。从该厂某批产品随机抽取 25 个样品,测得熔化时间的方差为388.579ms2,判断该批产品是否合格。5.某大学校医院用银楂丹桃合剂治疗高血压患者,测得治疗前后舒张压数据(kPa)如表2-6所示,判断该中

34、药治疗高血压是否有效。表2-7 中药青兰改变兔脑血流图用药前后的数据治疗兔编号12345前2.05.04.05.06.0后3.06.04.55.58.0表2-6 银楂丹桃合剂治疗高血压前后舒张压数据(kPa)治疗病人编号12345678前13.614.917.217.316.514.214.514.6后11.915.313.417.214.611.512.213.86.某医院试验中药青兰在改变兔脑血流图方面的作用,对 5 只兔测得用药前后的数据如表2-7所示,判断该中药是否有改变兔脑血流图的作用。2.3成组比较2.3.1 方差齐性检验配对比较虽然有利于减小误差,暴露本质,但某些实际问题不便配对

35、或很难配对。这时,只能把全部研究对象随机分配到实验组和对照组,进行两独立样本均数的比较。完全随机进行分组,有利于比较总体间存在的真实差异,这种统计方法称为成组比较。本节讨论成组比较,设X1、X2、Xn为总体X的样本,样本均数、样本方差为、;Y1,Y2,Yn为总体Y的样本,样本均数、样本方差为、。在成组比较中,有方差齐性(两总体方差相等)与方差非齐性(两总体方差不等)的条件差别,不同条件所采用的统计量是不同的,故方差是否相齐是确定统计量的先决条件。定义1 设,且、互相独立,则称它们构成的变量(2-25)服从第1自由度df1n1、第2自由度df2n2的F分布,记为F。x0x0F分布的密度函数为(2

36、-26)F分布由费歇尔(Fisher)于1924年发现,并由斯奈迪格(Snedecor)于1934年完善。F分布密度曲线偏向左侧,随着n1、n2同时增大,均数趋近于1。F分布的单侧界值表示Fa(df1,df2)右边的曲线下面积为a,双侧界值分别表示Fa / 2(df1,df2)右边或F1a / 2(df1,df2)左边的曲线下面积各为a /2,如图2-4所示。图2-4 F分布的界值F分布的单侧、双侧界值可以查统计用表6,单侧界值可以用DPS的函数调用。使用统计用表6查F分布的界值时,可以利用下面性质查表(2-27)定理1两样本方差可以构成F分布变量,即(2-28)证 由2-17及2-27,可以

37、得到,在H0:假设下,一般取样本方差中较大者为分子,较小者为分母,即,df1n分子1,df2n分母1(2-29)检验总体方差是否相等,称为方差齐性检验,并且常用单侧检验。例1研究功能性子宫出血症实热组与虚寒组的免疫功能,测定淋巴细胞转化值如表2-8所示。设两组的淋巴细胞转化值都服从正态分布,判断两组的总体方差是否不等。表2-8 功能性子宫出血症实热组与虚寒组的淋巴细胞转化值分组淋巴细胞转化值实热组0.7090.7550.6550.7050.723虚寒组0.6170.6080.6230.6350.5930.6840.6950.7180.6060.618解H0:,H1:。由样本计算得到n15、0.

38、7094、S10.0362,n210、0.6397、S20.0432,df11019,df2514查统计用表6,F0.05(9,4)5.9988,FF0.05(9,4),单侧概率P0.05。不能以a0.05水准单侧检验拒绝H0,两组总体方差的差异无统计学意义。不能认为两组的总体方差不齐。成组t检验定理2 在时,两样本均数及方差可以构成t分布变量,即(2-30)证 由2-9,可以得到,由2-17及2-19,可以得到,记得到由定理2,、未知,但时,在H0:的假设下,统计量为,dfn1n22(2-31)检验总体均数是否相等,称为成组t检验。在时,分母可化简为(2-32)例2在例1中,判断两组的总体均

39、数是否不等。解 由例1结论,可以认为,选用成组t检验。根据实际问题,选用双侧检验。H0:,H1:12。,df510213查统计用表5,t0.01/2(13)3.0123,tt0.01/2(13),双侧概率P0.01。以a0.01水准的双侧检验拒绝H0,两组总体均数的差异有统计学意义。由0.70940.6397,可以认为实热组的淋巴细胞转化值高于虚寒组。成组检验在、未知但时,可用近似t检验,统计量为(2-33)称为成组检验。成组检验近似的方法有CochranCox法(1950)、Satterthwaite法(1946)、Welch法(1947)三种,常用Satterthwaite法。Cochra

40、nCox法,是对t界值进行修正,即(2-34)Satterthwaite法,是对自由度进行修正,即(2-35)Welch法,也是对自由度进行修正,即(2-36)例3干燥芜菁叶含钙量服从正态分布,用两种方法各10次测定含钙量(g/100g),测定值均数分别为2.2150(g/100g)、2.2651(g/100g),标准差分别为S10.1284(g/100g)、S20.0611(g/100g)。第1种方法测定的含钙量是否低于第2种方法?解先进行方差齐性检验,H0:,H1:。,df19,df29查统计用表6,F0.05(9,9)3.1789,FF0.05(9,9),单侧概率P0.05。以a0.05

41、水准的单侧检验拒绝H0,接受H1,两组总体方差的差异有统计学意义。可以认为两组的总体方差不齐。再进行成组检验,根据实际问题,选用单侧检验。H0:12,H1:12。n1n210,由Satterthwaite法,计算得到查统计用表5,t0.05(12)3.0123,t0.05(13)3.3725,由内插法计算得到t0.05(12.8771)3.0123(3.37253.0123)×(12.877112)/(1312)3.3282| t |t0.05(12.8771),单侧概率P0.05。不能以a0.05水准单侧检验拒绝H0,两组均数的差异无统计学意义。不能认为第1种方法测定的含钙量低于第

42、2种方法。大样本成组检验在n150、n250时,称为大样本成组检验,可用u检验近似代替t检验或检验。定理3大样本成组检验可用u检验代替,即、未知但时,大样本成组t检验可用u检验代替,统计量(2-37)在、未知但时,大样本成组检验可用u检验代替,统计量(2-38)证因为是大样本成组检验,、未知但时,用、合并推算,从而有在、未知,但时,总体方差不等,不能合并计算,但可以分别用样本方差代替总体方差,从而有例4某地检查正常成年人的血液红细胞数,样本容量、样本均数、样本标准差分别为男子组156名,465.13万/mm3,54.80万/mm3女子组 74 名,422.16万/mm3,49.20万/mm3若

43、正常成年男女血液红细胞数服从正态分布,判断该地正常成年人的红细胞平均数是否与性别有关。解先进行方差齐性检验,H0:,H1:。计算F统计量,得到,df1155,df273查统计用表6,F0.05(100,70)1.3917,F0.05(200,70)1.3417,F0.05(100,80)1.3206,F0.05(200,80)1.2626,F1.2626F0.05(155,73),单侧概率P0.05。不能以a0.05水准的单侧检验拒绝H0,两组总体方差的差异无统计学意义。不能认为两组的总体方差不齐。再用u检验代替大样本成组t检验,根据实际问题,选用双侧检验。H0:12,H1:12。查统计用表5

44、,u0.01/22.5758,双侧概率P 0.01。以a0.01水准的双侧检验拒绝H0,两组均数的差异有统计学意义。该地正常成年人的红细胞平均数与性别有关。由,可以认为该地正常成年男子的红细胞平均数高于正常成年女子。习题2.31. 甲、乙两小组包装某种药品,随机抽取两组各10天的包装量,测得数据(盒)如表2-9所示。设两组日包装量的总体都为正态分布,判断总体均数是否相同。表2-9 两小组包装某种药品各10天的包装量(盒)分组包装量甲组1293138016141497134016431466162713871711乙组106110651092101710211138114310941270102

45、82.用两种方法测定中药“磁朱丸”中朱砂(HgS)的含量,每次取25mg,各测4次,计算得样本数字特征(mg)为3.2850,S10.005771,3.2575,S20.008576设朱砂的含量为正态分布,判断两种方法测定的总体均数是否相同。3.为研究某山区成年男子与城市成年男子的脉搏均数是否相同,各随机抽查100人,计算得样本数字特征(次/min)为74.2,S16.0,72.1,S25.8设两地成年男子脉搏数的总体都为正态分布,能否认为山区男子的脉搏均数高于城市男子?4.为探索胃脘痛寒、热证实质,测胃脘痛热证患者与健康人胃脘温度(°C)并算得热症病组n127,37.68,S10.

46、66健康人组n236,37.19,S20.33判断两组均数是否相同。5.对两组小白鼠分别用青蒿素及溶媒进行耐缺氧试验研究,测得生存时间(min)如表表2-10 青蒿素及溶媒组小白鼠耐缺氧试验生存时间(min)分组生存时间青蒿素组17172733222072343362溶 媒 组94941091612737331626210所示。判断两组的耐缺氧生存时间有无不同。6.用脑安胶囊抗血栓治疗大鼠血栓,数据为30 mg/kg组 n110、33.1、S17.6300 mg/kg组 n211、14.5、S25.4判断两组疗效是否不同。2.4 方差分析2.4.1 单因素方差分析原理在生产和科学试验中,引起试

47、验结果变化的原因有随机因素与人为控制因素两类。随机因素的影响在试验中常常不能控制,因而是不可避免的。人为控制因素对试验结果的影响显著时,会明显改变试验结果并与随机因素的影响一起出现;在影响不显著时,试验结果的变化基本上归结于随机因素的影响。方差分析(analysis of variance,简称ANOVA),通过对试验结果数据变动的分析,把随机变动与非随机变动从混杂状态分离开,找出起主导作用的来源,因而是分析试验结果数据的主要工具。表2-11 单因素试验结果示意水平观测值均数1x11x12x1n(1)2x21x22x2n(2)kxk1xk2xkn(k)在生产和科学试验中,影响一个事物的因素往往

48、是很多的。有时可以把多个因素安排在固定不变的状态,只就某一个因素进行试验。这种只考虑一个因素的试验,称为单因素试验。在试验中,把考察因素的变化分为k个等级,称为k个水平。每一个水平,视为一个独立、正态、等方差的总体。第i个水平进行n(i)次试验,得到的观测值记为xi1,xi2,xin(i),试验结果如表2-11所示。全部试验结果的总样本均数用表示,则全部试验结果存在的差异可以用总离差平方和表示为SSeSSA(2-39)SSe称为组内离差平方和,表示各水平内部的样本值差异,反映各总体内样本数据的随机误差。记各水平总体方差为2、试验总次数为Nn(i),则(2-40)由此,SSe的自由度为dfeNk

49、,称为组内方差。SSA称为组间离差平方和,表示各水平之间的样本值差异,反映各总体之间的样本数据的差异。假设H0:12k下,全部试验结果视为一个样本,则(2-41)SSA/2(2-42)由此,SSA的自由度为dfAk1,称为组间方差。k个独立、同方差正态总体,在H0:12k的假定下,用F统计量,dfAk1,dfeNk(2-43)进行F检验,判断k个总体均数是否相等,称为单因素方差分析。单因素方差分析的基本思想,是用组间差异与随机误差比较,若组间差异明显大于随机误差,则不能认为组间差异只反映随机误差,也就是认为该因素不同的水平作用不同。2.4.2 单因素方差分析计算为便于计算,把组间与组内离差平方

50、和化为用试验结果直接表示的形式,即SSA(2-44)SSecb(2-45)其中,ax,b(x)2/n(i),cx2。多个方差的齐性检验,在DPS中有Bartlett、Levene、Brown & Forsythe、Q Brien检验等多种。通常用Bartlett的卡方检验方法,即,dfk1(2-46)在正态、等方差条件不满足时,可对数据选择平方根、对数、倒数等变换,在满足条件后,再进行方差分析。若数据变换后还不行,则可选用非参数检验方法。在用DPS检验方差齐性后,可按下列步骤进行单因素方差分析计算:各水平数据按行排列,分别对各行用计算器横算、x、(x)2/n(i)、x2;对x、(x)2

51、/n(i)、x2各列用计算器竖加得到a、b、c;计算SSAba2/N、SSecb,F检验过程写为表格形式,称为方差分析表。例1 为研究乙醇浓度对提取浸膏量的影响,某中药厂取乙醇50%、60%、70%、90%、95% 5个浓度,所得浸膏观测值如表2-12所示。判断五个浓度所得浸膏量是否不同。表2-12 单因素方差分析计算表水 平观 测 值x(x)2/n(i)x250%6767554257.7523113340.251376760%6069503553.5021411449.001208670%7964817073.5029421609.002179890%9070798881.7532726732.252698595%9896916687.7535130800.2531457k5N4×520a1417b103930.75c106093解 用DPS检验方差齐性,可以进行方差分析。H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论