版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、静思笃行 持中秉正 秋记与你分享 主讲人:王春平 教研室:预防医学概论第九章第九章数值变量资料的统计分析数值变量资料的统计分析厚德 博学 笃行 济世 学习目标 :(一)掌握:(一)掌握:1 1、描述数值变量资料集中趋势和离散趋势的、描述数值变量资料集中趋势和离散趋势的常用指标的意义、计算方法和适用条件;常用指标的意义、计算方法和适用条件;2 2、参考值范围的制定。、参考值范围的制定。(二)熟悉:(二)熟悉:1 1、数值变量资料的频数分布表编制方法和用、数值变量资料的频数分布表编制方法和用途;途;2 2、正态分布的特征和曲线下面积分布规律。、正态分布的特征和曲线下面积分布规律。厚德 博学 笃行
2、济世 统计推断统计推断统计分析统计分析统计描述统计描述假设检验假设检验参数估计参数估计厚德 博学 笃行 济世 统计描述:统计描述:利用统计图、统计表、统计指标等利用统计图、统计表、统计指标等来描述资料的规律性及特点。来描述资料的规律性及特点。 统计推断:统计推断:用样本信息估计总体参数所在范围用样本信息估计总体参数所在范围和用样本信息推断总体参数之间有无差别。和用样本信息推断总体参数之间有无差别。 即参即参数估计和假设检验。数估计和假设检验。u参数估计:参数估计:用样本指标(统计量)估计总体用样本指标(统计量)估计总体指标(参数)。指标(参数)。u假设检验:假设检验:利用样本信息推断总体参数之
3、间利用样本信息推断总体参数之间有无差别的方法。有无差别的方法。厚德 博学 笃行 济世 数值变量资料的统计分析数值变量资料的统计分析 对数值变量资料进行统计分析的一般步骤:对数值变量资料进行统计分析的一般步骤:1 1、先对观察测量得到的变量值(即观察值)进、先对观察测量得到的变量值(即观察值)进行统计描述。行统计描述。2 2、在统计描述的基础上进行深入的统计推断。、在统计描述的基础上进行深入的统计推断。厚德 博学 笃行 济世 数值变量资料的统计描述:数值变量资料的统计描述:主要是在编主要是在编制频数表的基础上制频数表的基础上描述资料的集中趋势和描述资料的集中趋势和离散趋势。离散趋势。厚德 博学
4、笃行 济世 一、数值变量资料的频数分布一、数值变量资料的频数分布二、集中趋势的描述二、集中趋势的描述三、离散趋势的描述三、离散趋势的描述厚德 博学 笃行 济世 ( (一一) ) 频数表频数表(frequency table)(frequency table)的编制的编制(二)频数表的用途(二)频数表的用途 一、数值变量资料的频数分布一、数值变量资料的频数分布厚德 博学 笃行 济世 (一)频数表的编制方法(一)频数表的编制方法1 1、找出最大值和最小值,求极差、找出最大值和最小值,求极差R R2 2、确定组数、组段和组距、确定组数、组段和组距3 3、列表:统计各组段的频数、列表:统计各组段的频数
5、厚德 博学 笃行 济世 1 1、找出最大值和最小值,求极差、找出最大值和最小值,求极差R(RangeR(Range) ) R=R=最大值最大值- -最小值最小值 R=6.55-2.10=4.45 R=6.55-2.10=4.45(mmolmmol/L/L)厚德 博学 笃行 济世 2 2、确定组数、组段和组距:、确定组数、组段和组距:(1 1)确定组数)确定组数K K:根据研究目的和观察例数确定根据研究目的和观察例数确定。(2 2)定组距)定组距 i i: 组距即组与组间的距离,一般等组距即组与组间的距离,一般等距分组。距分组。 近似组距近似组距 i=R/Ki=R/K(极差(极差/ /组数)组数
6、)=4.45/12=0.37 =4.45/12=0.37 根据专业习惯和方便计算适当调整,根据专业习惯和方便计算适当调整, 所以本例所以本例 i=0.40i=0.40。(3 3)定组段的上下限:)定组段的上下限: 每个组段的起点每个组段的起点( (最小值最小值) )称为该组的下限(称为该组的下限(low low limit),limit),终点(最大值)称为该组的上限(终点(最大值)称为该组的上限(upper upper limitlimit)。)。厚德 博学 笃行 济世 3 3、列表划记:、列表划记:统计各组段的频数统计各组段的频数厚德 博学 笃行 济世 表表9-2 1409-2 140名正
7、常成男血清尿素氮浓度的频数表名正常成男血清尿素氮浓度的频数表组 段划 记频数 f频 率(%)2.0021.432.4075.002.80139.293.201410.003.601510.714.001913.574.401812.864.801611.435.201410.005.60139.296.0064.286.406.8032.14合计-140100.00厚德 博学 笃行 济世 厚德 博学 笃行 济世 (二)频数分布表的用途(二)频数分布表的用途1 1、揭示资料的分布类型:、揭示资料的分布类型: 资料分布类型可分为对称分布和偏态分布。资料分布类型可分为对称分布和偏态分布。 对称分布对
8、称分布是指集中位置在中间,左右两侧频数大是指集中位置在中间,左右两侧频数大体对称。体对称。 偏态分布偏态分布是指集中位置偏向一侧,频数分布不对是指集中位置偏向一侧,频数分布不对称的。集中位置偏向左侧的,为称的。集中位置偏向左侧的,为正偏态正偏态,又叫,又叫左偏左偏态;态;集中位置偏向右侧的,为集中位置偏向右侧的,为负偏态负偏态,又叫又叫右右偏态偏态。厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 115名正常成年女子血清转氨酶的频数分布051015202513.519.525.531.537.543.5血清转氨酶人数厚德 博学 笃行 济世 101名正常人血清肌红蛋白的频
9、数分布101名正常人血清肌红蛋白的频数分布05101520252.512.522.532.542.5血清肌红蛋白人数厚德 博学 笃行 济世 2 2、揭示频数分布的集中趋势和离散、揭示频数分布的集中趋势和离散趋势。趋势。集中趋势:集中趋势:大多数观察值趋向于同一数值的大多数观察值趋向于同一数值的趋势,集中在趋势,集中在4.004.00组段。组段。离散趋势:离散趋势:所有观察值不会均为同一数值,所有观察值不会均为同一数值,而是或近或远地分散在集中位置的周围。而是或近或远地分散在集中位置的周围。厚德 博学 笃行 济世 3 3、便于发现特大或特小的可疑值。、便于发现特大或特小的可疑值。4 4、便于进一
10、步选择方法计算统计指标。、便于进一步选择方法计算统计指标。厚德 博学 笃行 济世 一、数值变量资料的频数分布一、数值变量资料的频数分布二、集中趋势的描述二、集中趋势的描述三、离散趋势的描述三、离散趋势的描述厚德 博学 笃行 济世 二、集中趋势的描述二、集中趋势的描述平均数(平均数(averageaverage):):描述一组观察值集中位描述一组观察值集中位置或平均水平的指标。置或平均水平的指标。常用的平均数:常用的平均数:算术均数算术均数几何均数几何均数中位数中位数厚德 博学 笃行 济世 符号:总体均数用希腊字母符号:总体均数用希腊字母,样本均样本均数数适用范围:对称分布,尤其正态或近似正态适
11、用范围:对称分布,尤其正态或近似正态分布的资料分布的资料。计算方法:计算方法:直接法直接法加权法加权法x算术均数:简称均数算术均数:简称均数 (mean(mean)厚德 博学 笃行 济世 直接法(用于直接法(用于n30n30)加权法(用于加权法(用于n30n30)nxxnfxffxx002本本组组上上限限本本组组下下限限组组中中值值 厚德 博学 笃行 济世 表表9-2 1409-2 140名正常成男血清尿素氮浓度的频数表名正常成男血清尿素氮浓度的频数表组 段划 记频数 f频 率(%)2.0021.432.4075.002.80139.293.201410.003.601510.714.0019
12、13.574.401812.864.801611.435.201410.005.60139.296.0064.286.406.8032.14合计-140100.00厚德 博学 笃行 济世 如表如表9-39-3第一组段的组中值是第一组段的组中值是按均数的计算公式求得均数为按均数的计算公式求得均数为: :2.202.402.0020 x)/(4.411406.6032.6072.2020Lmmolffxx厚德 博学 笃行 济世 几何均数几何均数G(geometricG(geometric mean) mean)nnxxxG.21一组观察值的乘积开一组观察值的乘积开n n次方所得的根即次方所得的根即
13、为几何均数为几何均数适用范围适用范围变量值呈倍数关系的资料变量值呈倍数关系的资料对数正态分布资料对数正态分布资料厚德 博学 笃行 济世 几何均数的计算方法:几何均数的计算方法:1 1、直接法(用于小样本)、直接法(用于小样本)式中:式中:lg lg 对数符号,对数符号,lg lg-1 -1反对数符号反对数符号例例 见见P290P290页例页例9-39-3)lg(lg1nxG厚德 博学 笃行 济世 2 2、加权法、加权法( (用于大样本用于大样本) )lg(lg1fXfG厚德 博学 笃行 济世 表9-4 112名儿童接种免疫后血清抗体滴度计算表抗体滴度人数 f滴度倒数xlgxflgx1:4140
14、.60120.60211:8380.90312.70931:1615161.204118.06151:25652562.408212.04101:51225122.70935.4186合计112187.842厚德 博学 笃行 济世 47.55112187.8415lg -1)()lg(lg1fXfG112112名儿童接种疫苗后血清抗体平均滴度名儿童接种疫苗后血清抗体平均滴度为1:48。厚德 博学 笃行 济世 中位数(中位数(median,Mmedian,M) )定义:定义:是指一组观察值从小到大顺序排列后居是指一组观察值从小到大顺序排列后居于中间位置的数。即总数中有一半的数低于它,于中间位置的
15、数。即总数中有一半的数低于它,一半的数高于它。一半的数高于它。 适用范围适用范围 :偏态分布资料;偏态分布资料;开口资料;开口资料;分布类型不清的资料分布类型不清的资料厚德 博学 笃行 济世 中位数的计算方法:中位数的计算方法:1 1、小样本计算法:、小样本计算法: 当当n n为奇数时为奇数时 M=XM=X( (中间)中间) 当当n n为偶数时为偶数时 M=M=中间两位观察值的均数中间两位观察值的均数 按升序排列后的按升序排列后的厚德 博学 笃行 济世 2 2、百分位数法:大样本频数表资料、百分位数法:大样本频数表资料 百分位数(百分位数(percentile,Pxpercentile,Px)
16、: :表示一组观表示一组观察值按升序排列,并等分为察值按升序排列,并等分为100100等份,位居第等份,位居第x%x%位位置的数。置的数。 中位数中位数M=P50M=P50厚德 博学 笃行 济世 式中,式中, P Px x: :百分位数百分位数L L: :百分位数所在组下限;百分位数所在组下限; i i: :百分位数所在组的组距;百分位数所在组的组距;f fx x: :百分位数所在组的频数;百分位数所在组的频数;f fL L: :百分位数所在组之前的累计例数;百分位数所在组之前的累计例数;n: n:样本例数。样本例数。 )%(LxxfxnfiLP厚德 博学 笃行 济世 表9-5 340名7岁以
17、下儿童的血铅含量中位数及百分位数计算表组段频数f累计频数f累计频率%0.0022226.470.25365817.060.50238123.820.754212336.181.004116448.241.255521964.411.503625575.001.752828383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100.00合计340厚德 博学 笃行 济世 本例怎样找中位数组段呢?本例怎样找中位数组段呢? 因为本例因为本例n=340n=340是偶数,按照中位数的定义,中位是偶数,按照中位数的定
18、义,中位数数MM所在组为所在组为340/2=170340/2=170所在组所在组, , 可从累计频数一栏中找刚包括可从累计频数一栏中找刚包括170170的那一组,也的那一组,也可从累计频率一栏中找刚包括可从累计频率一栏中找刚包括50%50%的那一组。的那一组。 本例中位数所在组的下限为本例中位数所在组的下限为1.25-1.25-的组;的组;i为为0.250.25;f为为5555;fi i为为164164,将其代入公式,求得,将其代入公式,求得MM)/(1.28)164%50340(550.251.25LmolM厚德 博学 笃行 济世 案例案例1 1 20122012年年5 5月份,西南财经大学
19、发布月份,西南财经大学发布中国家庭金中国家庭金融调查报告融调查报告,数据显示中国城市家庭资产平均,数据显示中国城市家庭资产平均247247万元,遭到网友质疑。万元,遭到网友质疑。 报告负责人回应称,抽样报告负责人回应称,抽样“随机随机”且覆盖面广且覆盖面广,可以代表全国;调查结果显示,在抽样调查的,可以代表全国;调查结果显示,在抽样调查的样本里,资产最多的样本里,资产最多的10%10%的家庭占全部家庭总资产的家庭占全部家庭总资产的比例高达的比例高达84.6%84.6%。城市家庭资产的中位数仅为。城市家庭资产的中位数仅为40.540.5万元,比较接近普通人的感觉。万元,比较接近普通人的感觉。 针
20、对上述资料,您认为应选择何种指标来正确针对上述资料,您认为应选择何种指标来正确评价中国城市家庭资产的平均水平,为什么?评价中国城市家庭资产的平均水平,为什么?厚德 博学 笃行 济世 三、离散趋势的描述三、离散趋势的描述极差极差四分位数间距四分位数间距方差方差标准差标准差变异系数变异系数厚德 博学 笃行 济世 (一)极差(一)极差(rangerange) 1 1、计算、计算 2 2、优缺点、优缺点 简便简便 不全面不全面 不稳定不稳定minmaxxxR厚德 博学 笃行 济世 ( (二二) )四分位数间距四分位数间距/Q/Q 1 1、百分位数(、百分位数(percentilepercentile)
21、 X%X% 2 2、四分位数、四分位数 LP25 UP75LP25 UP75 3 3、四分位数间距、四分位数间距Q=U-LQ=U-LlxxfnxfiLxPx%厚德 博学 笃行 济世 适用范围:适用范围:与与中位数中位数联合描述联合描述偏态分布偏态分布资料资料的分布特征。的分布特征。厚德 博学 笃行 济世 ( (三三) )方差(方差(variancevariance) 标准差(标准差(standard deviation/SDstandard deviation/SD) 离均差离均差每一个观察值与均数之差,即每一个观察值与均数之差,即X-,X-,可以反映所有观察值的变异程度。可以反映所有观察值的
22、变异程度。 离均差平方和离均差平方和 方差方差离均差平方的平均值离均差平方的平均值 2)( X NX 22 厚德 博学 笃行 济世 数学上可以证明: 122 nxxS1/222nnxxS 120202 nnfxfxS其中,其中,n-1 -1称为自由度(称为自由度(degree of freedomdegree of freedom。厚德 博学 笃行 济世 1)1(2222nnXXSnXXSNX由于方差的度量单位是原度量单位的平方,由于方差的度量单位是原度量单位的平方,为了方便实际使用,将方差公式开方,即为了方便实际使用,将方差公式开方,即得到标准差(得到标准差(standard deviati
23、on)standard deviation)。厚德 博学 笃行 济世 用途用途 反映个体观察值之间变异大小反映个体观察值之间变异大小 结合均数描述正态分布特征结合均数描述正态分布特征 计算其他指标,如标准误等计算其他指标,如标准误等 12020 nnfxfxS厚德 博学 笃行 济世 ( (四四) )变异系数(变异系数(coefficient of coefficient of variationvariation)/CV/CV 1 1、意义、意义 标准差与均数之比用百分数表示标准差与均数之比用百分数表示 2 2、计算、计算 3 3、用途、用途 比较度量衡单位不同资料的变异度比较度量衡单位不同资
24、料的变异度 比较均数相差悬殊资料的变异度比较均数相差悬殊资料的变异度%100 xsCV厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 正态分布曲线:正态分布曲线:高峰位于中央,两侧逐渐下降并完高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。全对称,曲线两端永远不与横轴相交的钟型曲线。 该曲线的函数表达式该曲线的函数表达式f(x)f(x)称为称为正态分布密度函数正态分布密度函数, 位置参数:位置参数: 决定曲线的位置决定曲线的位置 变异度参数:变异度参数: 决定曲线的形状决定
25、曲线的形状 22221xexf厚德 博学 笃行 济世 正态概率密度曲线的特点:正态概率密度曲线的特点:(1 1)关于)关于x=x=对称对称(2 2)在)在x=x=处取得最大值。处取得最大值。(3 3)曲线下面积为)曲线下面积为1 1。(4 4)决定曲线在横轴上的位置,决定曲线在横轴上的位置, 增大,曲线增大,曲线沿横轴向右移;反之,沿横轴向右移;反之, 减小,曲线沿横轴向左减小,曲线沿横轴向左移。移。(5 5)决定曲线的形状,当决定曲线的形状,当恒定时,恒定时, 越大,越大,数据越分散,曲线越数据越分散,曲线越“矮胖矮胖”; 越小,数据越越小,数据越集中,曲线越集中,曲线越“瘦高瘦高”。 习惯
26、上用习惯上用N N( , 2 2)表示均数为表示均数为、标准差、标准差为为的正态分布。的正态分布。厚德 博学 笃行 济世 标准差相同、均数不同的四条正态曲线-4-3-2-1012345厚德 博学 笃行 济世 F00.00.10.20.30.40.50.60.70.8U-3-2-10123 均数相同、标准差不同的四条正态曲线厚德 博学 笃行 济世 二、正态概率密度曲线下面积的分布规律二、正态概率密度曲线下面积的分布规律正态曲线下面积的分布规律由正态曲线下面积的分布规律由和和所决定。所决定。 -3 -2- + +2 +3 68.27% 95.44% 99.74%厚德 博学 笃行 济世 F(X)厚德
27、 博学 笃行 济世 一定区间的面积可以通过对密度曲线函数积分求一定区间的面积可以通过对密度曲线函数积分求得得F(X)F(X)称为正态分布曲线的分布函数。它表示称为正态分布曲线的分布函数。它表示 正态分布曲线下自正态分布曲线下自到某定值到某定值X X的左侧累计面的左侧累计面积(概率)。积(概率)。 X2Xdxe21F(X)22厚德 博学 笃行 济世 对于非标准正态分布对于非标准正态分布N N(,),),求曲线下求曲线下任意(任意( )范围内的面积,可先作标准化变换)范围内的面积,可先作标准化变换,借助标准正态表估计任意(,借助标准正态表估计任意( )范围内的频)范围内的频数比例。数比例。 u u
28、服从总体均数为服从总体均数为0 0、总体标准差为、总体标准差为1 1的正态分布,此的正态分布,此分布称为标准正态分布。用分布称为标准正态分布。用 表示。表示。21X,X21X,X Xu)1 , 0(N21X,X厚德 博学 笃行 济世 厚德 博学 笃行 济世 三、正态分布的应用三、正态分布的应用(一)估计变量值的频数分布(一)估计变量值的频数分布例:某地例:某地19861986年年120120名名8 8岁男孩身高均数为岁男孩身高均数为123.02cm123.02cm,标准差为,标准差为4.79cm4.79cm,试估计:,试估计:(1 1)该地)该地8 8岁身高在岁身高在130cm130cm以上者
29、占该地以上者占该地8 8岁岁男孩总数的百分比。男孩总数的百分比。(2 2)身高在)身高在120-128cm120-128cm者占该地者占该地8 8岁男孩总数岁男孩总数的百分比。的百分比。厚德 博学 笃行 济世 46. 179. 402.123130 Xu04. 179. 402.12312863. 079. 402.12312021 XuXu厚德 博学 笃行 济世 (二)制定参考值范围(二)制定参考值范围 1、医学参考值:医学参考值:又称临床参考值或正常值,又称临床参考值或正常值,是指是指“正常正常”人体和动物的各种生理、生化人体和动物的各种生理、生化、组织代谢物中各种成分含量及人体对各种组织
30、代谢物中各种成分含量及人体对各种试验的反应值。试验的反应值。 广义的医学参考值还包括各类广义的医学参考值还包括各类“卫生标准卫生标准”。 应注意的是,医学参考值的不是一个单一的应注意的是,医学参考值的不是一个单一的数值,而是许多数值的集合或全体,即是一数值,而是许多数值的集合或全体,即是一个范围。个范围。厚德 博学 笃行 济世 2 2、制定参考值范围的基本步骤、制定参考值范围的基本步骤1 1) 从同质的总体中进行随机抽样从同质的总体中进行随机抽样 2 2) 对选定的正常人进行准确的测量对选定的正常人进行准确的测量3 3) 确定取单侧还是双侧确定取单侧还是双侧4 4) 确定适当的百分范围确定适当
31、的百分范围5 5) 根据资料的分布类型选定适当的方法进根据资料的分布类型选定适当的方法进 行参考值范围的估计行参考值范围的估计厚德 博学 笃行 济世 3 3、参考值范围的制定方法、参考值范围的制定方法 (1 1) 正态分布法:正态分布法: 95%95%的参考值范围的参考值范围 双侧为:双侧为: 1.96 S1.96 S 单侧上限为:单侧上限为: + 1.645 S+ 1.645 S 单侧下限为:单侧下限为: 1.645 S1.645 Sxxxx厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 统计推断统计推断统计分析统计分析统计描述统计描述假设检验假设检验参数估计参数估计
32、厚德 博学 笃行 济世 总体总体样本样本抽样抽样统计推统计推断断厚德 博学 笃行 济世 统计描述:统计描述:利用统计图、统计表、统计指标等利用统计图、统计表、统计指标等来描述资料的规律性及特点。来描述资料的规律性及特点。 统计推断:统计推断:用样本信息估计总体参数所在范围用样本信息估计总体参数所在范围和用样本信息推断总体参数之间有无差别。和用样本信息推断总体参数之间有无差别。 即参即参数估计和假设检验。数估计和假设检验。u参数估计:参数估计:用样本指标(统计量)估计总体用样本指标(统计量)估计总体指标(参数)。指标(参数)。u假设检验:假设检验:利用样本信息推断总体参数之间利用样本信息推断总体
33、参数之间有无差别的方法。有无差别的方法。厚德 博学 笃行 济世 一、均数的抽样误差与标准误一、均数的抽样误差与标准误二、二、 t t 分布分布三、总体均数的置信区间估计三、总体均数的置信区间估计四、假设检验的基本思想和步骤四、假设检验的基本思想和步骤厚德 博学 笃行 济世 一、均数的抽样误差与标准误一、均数的抽样误差与标准误 从正态总体中抽样得到的样本均数的从正态总体中抽样得到的样本均数的分布情况?分布情况? 从偏态总体中抽样得到的样本均数的从偏态总体中抽样得到的样本均数的分布情况?分布情况?厚德 博学 笃行 济世 一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差厚德 博学 笃
34、行 济世 从正态分布总体中抽样实验从正态分布总体中抽样实验7 .1561XN(155.4,5.32)1 .1582 X7 .1561X6 .1553X2 .1554X厚德 博学 笃行 济世 组段组段频数频数151-151-1 1152-152-6 6153-153-1010154-154-1818155-155-2929156-156-2020157-157-8 8158-158-6 6159159及以上及以上2 2表表9-3 9-3 从正态总体从正态总体N N(155.4(155.4,5.30)5.30)中随机抽样中随机抽样求得的求得的100100个样本均数的频率分布(个样本均数的频率分布(
35、 n n=10)=10)厚德 博学 笃行 济世 厚德 博学 笃行 济世 抽样误差:抽样误差:从某一总体中随机抽取样本,所从某一总体中随机抽取样本,所得样本统计量与相应的总体参数往往不同得样本统计量与相应的总体参数往往不同,样本统计量之间也不尽相同,这种差异,样本统计量之间也不尽相同,这种差异称为抽样误差。称为抽样误差。特点:特点:不可避免,但有规律可循。不可避免,但有规律可循。厚德 博学 笃行 济世 集中趋势:集中趋势: 样本均数的均数样本均数的均数=155.52cm=155.52cm 离散趋势:离散趋势: 样本均数的标准差样本均数的标准差=1.64cm=1.64cm厚德 博学 笃行 济世 从
36、偏态分布总体中抽样分布情况从偏态分布总体中抽样分布情况厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 厚德 博学 笃行 济世 中心极限定理:中心极限定理: 从正态总体中随机抽取例数为从正态总体中随机抽取例数为n n的样本,样本的样本,样本均数服从正态分布;均数服从正态分布; 从偏态分布总体中随机抽样,当样本含量足从偏态分布总体中随机抽样,当样本含量足够大时,样本均数近似服从正态分布够大时,样本均数近似服从正态分布 从均数为从均数为 ,标准差为,标准差为 的正态或偏态分布总的正态或偏态分布总体中随机抽取样本例数为体中随机抽取样本例数为n n的样本,样本均数的样本,样本均数
37、的总体均数为的总体均数为 ,标准差为,标准差为X厚德 博学 笃行 济世 样本均数的标准差,即均数的标准误为:样本均数的标准差,即均数的标准误为: 实际应用中,总体标准差实际应用中,总体标准差通常未知,需通常未知,需要用样本标准差要用样本标准差S S来估计,此时,均数标来估计,此时,均数标准误的估计值为准误的估计值为nXnSSX厚德 博学 笃行 济世 均数标准误的用途均数标准误的用途衡量样本均数的可靠性衡量样本均数的可靠性与样本均数结合估计总计均数的置信区间。与样本均数结合估计总计均数的置信区间。用于进行假设检验。用于进行假设检验。厚德 博学 笃行 济世 二、二、t t 分布分布1 1、t t分
38、布的概念分布的概念 从正态分布从正态分布 抽得的样本均抽得的样本均数服从正态分布数服从正态分布 ,对样本均数做,对样本均数做标准化变换。标准化变换。),(2N),(2XN nSXSXSNXXXXXXXX/?10u, u 来代替来代替未知时,常用未知时,常用实际工作中,当实际工作中,当),(便有便有厚德 博学 笃行 济世 英国统计学家英国统计学家W.S.GossetW.S.Gosset证明证明t t服从自由度服从自由度 的的t t分布,即分布,即1 n 1 / ntnSXSXtX 分布,分布,厚德 博学 笃行 济世 0200T3 MIDPOINT-12.0-11.5-11.0-10.5-10.0
39、-9.5-9.0-8.5-8.0-7.5-7.0-6.5-6.0-5.5-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.05.56.06.57.07.58.08.59.09.510.010.511.011.512.0二二、t t分布的图形和分布的图形和t t分布表分布表 厚德 博学 笃行 济世 0200T50 MIDPOINT-12.0-11.5-11.0-10.5-10.0-9.5-9.0-8.5-8.0-7.5-7.0-6.5-6.0-5.5-5.0-4.5-4.0-3.5-3.0-2.5-2.
40、0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.05.56.06.57.07.58.08.59.09.510.010.511.011.512.0厚德 博学 笃行 济世 厚德 博学 笃行 济世 t t 分布曲线的特征分布曲线的特征 单峰分布,以单峰分布,以0 0为中心,左右对称,类似于标为中心,左右对称,类似于标准正态分布。准正态分布。 自由度自由度 越小,则越小,则 越大,越大, t t 值越分散,曲值越分散,曲线的峰部越矮,尾部越粗。线的峰部越矮,尾部越粗。 随着自由度随着自由度 逐渐增大,逐渐增大, t t 分布逐渐逼近标准分布逐渐逼近标准正态分布
41、;当正态分布;当 趋于趋于时,时,t t 分布就完全成为分布就完全成为标准正态分布。故标准正态分布是标准正态分布。故标准正态分布是t t 分布的分布的特例。特例。XS厚德 博学 笃行 济世 同标准正态分布曲线一样,统计应用中最为同标准正态分布曲线一样,统计应用中最为关心的是关心的是t t分布曲线下的面积与横轴分布曲线下的面积与横轴t t值间的值间的关系。关系。 为方便使用,统计学家编制了不同自由度为方便使用,统计学家编制了不同自由度 下下t t值与相应概率关系的值与相应概率关系的t t界值表。界值表。 厚德 博学 笃行 济世 表内数据为当自由度和概率确定时所对应表内数据为当自由度和概率确定时所
42、对应的的t t值。值。 从表中数字及图例可看出:从表中数字及图例可看出: 在相同自由度时,在相同自由度时,t t值增大,概率值增大,概率p p减小减小。 在相同在相同t t值时,双侧概率值时,双侧概率p p为单侧概率为单侧概率p p的两倍。的两倍。 在相同概率下,随着自由度的增加,在相同概率下,随着自由度的增加, t t值变少,越来越接近值变少,越来越接近u u值值厚德 博学 笃行 济世 表表9- -9 t界界值值表表 概率P 概率P 双侧: 0.10 0.05 0.02 0.01 双侧: 0.10 0.05 0.02 0.01 自由度 单侧: 0.05 0.025 0.01 0.005 自由
43、度 单侧: 0.05 0.025 0.01 0.005 1 6.314 12.706 31.821 63.657 21 1.721 2.080 2.518 2.831 2 2.920 4.303 6.965 9.925 22 1.717 2.074 2.508 2.819 3 2.353 3.182 4.541 5.841 23 1.714 2.069 2.500 2.807 4 2.132 2.776 3.747 4.604 24 1.711 2.064 2.492 2.797 5 2.015 2.571 3.365 4.032 25 1.708 2.060 2.485 2.787 6 1.
44、943 2.447 3.143 3.707 26 1.706 2.056 2.479 2.779 7 1.895 2.365 2.998 3.499 27 1.703 2.052 2.473 2.771 8 1.860 2.306 2.896 3.355 28 1.701 2.048 2.467 2.763 9 1.833 2.262 2.821 3.250 29 1.699 2.045 2.462 2.756 10 1.812 2.228 2.764 3.169 30 1.697 2.042 2.457 2.750 11 1.796 2.201 2.718 3.106 40 1.685 2.
45、021 2.423 2.704 12 1.782 2.179 2.681 3.055 50 1.676 2.009 2.403 2.678 13 1.771 2.160 2.650 3.012 60 1.671 2.000 2.390 2.660 14 1.761 2.145 2.624 2.977 70 1.667 1.994 2.381 2.648 15 1.753 2.131 2.602 2.947 80 1.664 1.990 2.374 2.639 16 1.746 2.120 2.583 2.921 90 1.662 1.987 2.368 2.632 17 1.740 2.110
46、 2.567 2.898 100 1.660 1.984 2.364 2.626 18 1.734 2.101 2.552 2.878 200 1.653 1.972 2.345 2.601 19 1.729 2.093 2.539 2.861 500 1.648 1.965 2.334 2.586 20 1.725 2.086 2.528 2.845 1.645 1.960 2.326 2.576 厚德 博学 笃行 济世 三、三、 总体均数的估计总体均数的估计(一)点估计(一)点估计(point estimation)point estimation):用样本统计量直接作为总体参数的估用样本
47、统计量直接作为总体参数的估计值。计值。优点:能够明确的估计总体参数优点:能够明确的估计总体参数缺点:该值一般不等于总体参数的真值缺点:该值一般不等于总体参数的真值,它与真值的误差以及估计可靠性如何,它与真值的误差以及估计可靠性如何,无法确定。,无法确定。 厚德 博学 笃行 济世 (二)区间估计(二)区间估计(interval estimation)interval estimation)区间估计:区间估计:以预先给定的概率(置信率)估计总以预先给定的概率(置信率)估计总体参数所在范围的估计方法称为区间估计。体参数所在范围的估计方法称为区间估计。置信度(率):置信度(率):它表示置信区间估计正确
48、的概率它表示置信区间估计正确的概率。置信度一般记为。置信度一般记为1-1-,常用的置信度为,常用的置信度为95%95%。置信区间:置信区间:根据一定的置信度进行估计得到的区根据一定的置信度进行估计得到的区间称为总体参数的置信区间(间称为总体参数的置信区间(confidence confidence interval, CI)interval, CI)。厚德 博学 笃行 济世 总体均数的置信区间估计方法总体均数的置信区间估计方法 根据已知条件选用合适的方法根据已知条件选用合适的方法(1 1)当总体标准差)当总体标准差 已知时,已知时,总体均数的总体均数的95%置信区间为置信区间为 (2)(2)当
49、当 未知但未知但n n足够大时,可按正态分布原理足够大时,可按正态分布原理来估计,总体均数的双侧置信区间为来估计,总体均数的双侧置信区间为),(XXXX1.961.96),(XXXX1.96S1.96S厚德 博学 笃行 济世 (3)(3)当当 未知未知, ,且且n n较小时,可按较小时,可按t t分布原理来估分布原理来估计,总体均数的双侧置信区间为计,总体均数的双侧置信区间为),(,XXStXStX0.050.05厚德 博学 笃行 济世 例例9-13 9-13 随机抽取某地健康男子随机抽取某地健康男子2020人,测得人,测得该样本的收缩压均数为该样本的收缩压均数为118.4mmHg118.4m
50、mHg,标准差标准差为为10.8mmHg10.8mmHg,试估计该地区男子收缩压总体试估计该地区男子收缩压总体均数的均数的95%95%置信区间。置信区间。 分析:分析:总体标准差未知,样本为小样本,因此用总体标准差未知,样本为小样本,因此用t t分布法分布法) 5 .123, 3 .113(20/8 .10093. 24 .118,20/8 .10093. 24 .118(),(,XXStXStX0.050.05厚德 博学 笃行 济世 四、假设检验的基本思想和步骤四、假设检验的基本思想和步骤 厚德 博学 笃行 济世 假设检验的基本思想假设检验的基本思想 假设检验的基本思想是假设检验的基本思想是
51、小概率反证法思想。小概率反证法思想。小概率事件小概率事件(P P0.050.05)是指在一次试验中基本是指在一次试验中基本上不大会发生的事件。上不大会发生的事件。小概率事件原理:小概率事件原理:一个事件如果发生的概率很小一个事件如果发生的概率很小,那么它在一次试验中是实际不会发生的。在数,那么它在一次试验中是实际不会发生的。在数学上,我们称这个原理为小概率事件原理。学上,我们称这个原理为小概率事件原理。反证法思想反证法思想是先提出假设,再用适当的统计方法是先提出假设,再用适当的统计方法确定假设成立的可能性大小,如可能性小确定假设成立的可能性大小,如可能性小, ,则认则认为假设不成立,若可能性大
52、,则还不能认为假设为假设不成立,若可能性大,则还不能认为假设不成立。不成立。厚德 博学 笃行 济世 0 0=140.0g/L=140.0g/L280n6.0g/Ls136.0g/LX厚德 博学 笃行 济世 造成样本均数与总体均数差别的原因:造成样本均数与总体均数差别的原因:一是由于抽样误差所造成,一是由于抽样误差所造成,样本来自的总体和已样本来自的总体和已知总体没有差别,但由于抽样误差的存在,从而知总体没有差别,但由于抽样误差的存在,从而造成该样本均数与已知总体均数的差别造成该样本均数与已知总体均数的差别(抽样误(抽样误差导致的差别)。差导致的差别)。二是样本来自的总体确实与已知总体有差别,二
53、是样本来自的总体确实与已知总体有差别,即即该地区健康成年男性的血红蛋白含量确实不同于该地区健康成年男性的血红蛋白含量确实不同于一般男性健康成人一般男性健康成人,从而造成该样本均数与已知总从而造成该样本均数与已知总体均数的差别体均数的差别(本质上的差别)(本质上的差别)厚德 博学 笃行 济世 假设检验的基本步骤假设检验的基本步骤 第一步:提出检验假设;第一步:提出检验假设; 第二步:第二步: 建立检验水准建立检验水准 第三步:选定统计方法,计算出统计量第三步:选定统计方法,计算出统计量 的值;的值; 第四步:确定第四步:确定P P 值,作出推断结论。值,作出推断结论。 厚德 博学 笃行 济世 1
54、 1 建立检验假设建立检验假设一种假设是一种假设是“两总体均数相等,即该地区所有两总体均数相等,即该地区所有健康成年男性血红蛋白的总体均数等于一般健健康成年男性血红蛋白的总体均数等于一般健康成年男性的总体均数康成年男性的总体均数”简称为简称为“原假设原假设”(null hypothesisnull hypothesis),),又称为零假设,记为又称为零假设,记为H H0 0,表示目表示目前的差异是由抽样误差引起。前的差异是由抽样误差引起。另一假设是另一假设是“两总体均数不等,即该地区所有两总体均数不等,即该地区所有健康成年男性血红蛋白的总体均数不等于一般健康成年男性血红蛋白的总体均数不等于一般
55、健康成年男性的总体均数健康成年男性的总体均数” ,简称简称“对立假设对立假设”或或“备择假设备择假设”(alternative hypothesis),alternative hypothesis),记为记为H H1 1,表表示目前的差异不是由抽样误差所致,而是两者存在示目前的差异不是由抽样误差所致,而是两者存在本质不同本质不同。厚德 博学 笃行 济世 将将样本对应的总体均数记为样本对应的总体均数记为 ,已知已知的总体均数记为的总体均数记为 0 0,则两个假设可简则两个假设可简单的表示为:单的表示为:140: , 014:0100 HH厚德 博学 笃行 济世 2. 2.确定检验水准确定检验水准
56、检验水准:决策者事先规定的一个小概检验水准:决策者事先规定的一个小概率值,用率值,用 表示,通常取表示,通常取0.05 0.05 或或0.010.01。厚德 博学 笃行 济世 3. 3.选定检验方法和计算检验统计量选定检验方法和计算检验统计量 1/0 nnSXt 27912801156.11280/0 . 60 .1400 .136nS/-Xt 0 n 本例本例厚德 博学 笃行 济世 4.4.确定确定P P值,作出推断结论值,作出推断结论P P值(值(P P-value-value) :在在H H0 0所规定的总体中进行随所规定的总体中进行随机抽样,获得等于及大于现有样本获得的检验统机抽样,获
57、得等于及大于现有样本获得的检验统计量值的概率。计量值的概率。在两个假设中进行二者取一的规则是:在两个假设中进行二者取一的规则是: 如果如果P P值小于或等于检验水准,拒绝零假设,值小于或等于检验水准,拒绝零假设,接受备择假设。接受备择假设。 如果如果P P值大于检验水准,不拒绝零假设。值大于检验水准,不拒绝零假设。厚德 博学 笃行 济世 结论:结论: P0.001,按,按=0.05的水准的水准,拒绝零假设,接受备择假设。可以,拒绝零假设,接受备择假设。可以认为该地健康成年男性的血红蛋白含认为该地健康成年男性的血红蛋白含量总体均数低于一般健康成年男性血量总体均数低于一般健康成年男性血红蛋白总体均
58、数。红蛋白总体均数。厚德 博学 笃行 济世 t 检验和检验和u 检验检验厚德 博学 笃行 济世 t t 检验和检验和u u 检验就是统计量为检验就是统计量为 t t, , u u 的的假设检验,两者均是常见的假设检验方假设检验,两者均是常见的假设检验方法,用于推断法,用于推断两总体参数两总体参数之间有无差别之间有无差别。当样本含量当样本含量n n 较大时,样本均数符合正较大时,样本均数符合正态分布,故可用态分布,故可用u u 检验进行分析。检验进行分析。当样本含量当样本含量n n 较小,样本来自正态分布较小,样本来自正态分布,两样本相应的总体方差相等,则用,两样本相应的总体方差相等,则用t t
59、 检验。检验。厚德 博学 笃行 济世 一、样本均数与总体均数的比较一、样本均数与总体均数的比较二、配对资料的比较二、配对资料的比较三、两个样本均数的比较三、两个样本均数的比较四、假设检验应注意的问题四、假设检验应注意的问题厚德 博学 笃行 济世 一、样本均数与总体均数的比较一、样本均数与总体均数的比较(一)推断目的:推断样本来自的总体(一)推断目的:推断样本来自的总体均数均数 是否与某已知数值是否与某已知数值 0 0相等。相等。(二)公式(二)公式1-n /0 nSXt厚德 博学 笃行 济世 二、配对资料比较二、配对资料比较配对设计:配对设计:包括异体配对和自身配对。包括异体配对和自身配对。异
60、体配对:异体配对:将某些重要特征相似的每两个受将某些重要特征相似的每两个受试对象配成一对,每对中的两个对象分别接受试对象配成一对,每对中的两个对象分别接受两种不同的处理。两种不同的处理。自身配对:自身配对:同一受试对象处理前后的比较,同一受试对象处理前后的比较,同一受试对象的两个部位分别接受两种处理,同一受试对象的两个部位分别接受两种处理,或者是将受试对象一分为二,分别接受两种处或者是将受试对象一分为二,分别接受两种处理。理。厚德 博学 笃行 济世 (一)推断目的:(一)推断目的:差值差值d d的总体均数是的总体均数是否为否为0 0。(二)公式(二)公式1-n /0 nSdtd厚德 博学 笃行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训课件 -典型设备作业安全检查
- 2024年度版权购买协议(含作品版权和使用权)3篇
- 2024中国移动四川公司社会招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国电信宁夏公司校园招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国建筑(南洋)发展限公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国人寿保险(集团)长春分公司招聘63人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中交四公局投资事业部本部投资业务管理人员招聘10人易考易错模拟试题(共500题)试卷后附参考答案
- 2024上海烟草集团北京卷烟厂限公司招聘31人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年度物业维修:墙体拆除合同详细说明3篇
- 《德云社正式》课件
- 外研版(2024)七年级上册英语全册教案教学设计
- 2024至2030年中国股指期货行业市场全景评估及发展战略规划报告
- 第18课《我的白鸽》课件 2024-2025学年统编版语文七年级上册
- 工程施工人员安全教育培训【共55张课件】
- 2024-2030年中国母乳低聚糖(HMO)行业发展形势与未来前景展望报告
- 《江城子-密州出猎》1省名师课赛课获奖课件市赛课一等奖课件
- 人员、设备、资金等方面具有相应的履约能力的承诺书
- 因式分解(提取公因式法)练习200题及答案
- 科研可行性报告格式及范文
- 研究生(博士)中期考核
- 2024年四川绵阳市游仙发展控股集团有限责任公司招聘笔试冲刺题(带答案解析)
评论
0/150
提交评论