数值变量资料的统计描述-课件_第1页
数值变量资料的统计描述-课件_第2页
数值变量资料的统计描述-课件_第3页
数值变量资料的统计描述-课件_第4页
数值变量资料的统计描述-课件_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[学习内容]1、计量资料的频数表

2、描述集中趋势的指标3、描述离散趋势的指标4、正态分布及其应用[学习目标]1、会编制频数分布表,并据此描述资料的频数分布特征2、掌握各种平均数指标的计算及其适用条件,尤其是均数3、掌握各种离散趋势指标的计算及其适用条件,尤其是标准差4、了解正态分布及标准正态分布的概念5、熟悉正态分布的基本特征6、熟悉标准正态变换公式7、掌握标准正态分布曲线下的面积规律,并会正确应用8、掌握正态分布理论的重要应用:医学参考值范围的估计9、会查正态分布表第八章数值变量资料的统计描述1ppt课件回顾:根据是否定量划分,资料被分作不同的类型:数值资料(measurementdata):

用定量的方法对观察单位进行测量得到的资料,亦称作计量资料。分类变量资料(enumerationdata):

用定性的方法得到的资料,亦称计数资料。等级资料(rankeddata):

不能精确测量,仅能根据相对大小分为几个等级。2ppt课件第一节数值变量资料频数分布

数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作

3ppt课件乱七八糟的原始数据例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.164ppt课件频数表的编制步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。

R=5.59–3.60=1.99(mol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。

1.99/10=0.199≈0.2

(mol/L)(3)列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。3.6~3.8~……5.2~5.4~5.6(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。5ppt课件6ppt课件血糖(mol/L)人数图8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)

测定值的频数分布图二、频数分布图7ppt课件乱七八糟的原始数据例8.1某地区2002年55~58岁88名健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.31书上例子去掉后4行8ppt课件三、频数表和频数分布图用途1.描述频数分布的特征2.描述频数分布的类型(对称分布、偏态分布)3.便于发现一些特大或特小的可疑值4.便于进一步做统计分析和处理(加权)9ppt课件1.描述频数分布的特征集中趋势与离散趋势(共性与个性)

﹡集中趋势:变量值集中分布的位置——平均水平指标

﹡离散(中)趋势:(变异)变量值围绕集中位置的分布情况.本例离“中心”位置越远,频数越小;且围绕“中心”左右对称——变异水平指标图8-1(P154)数据的频数分布特征:①数据集中(平均)的组段在4.20~5.00(mol/L

)之间,尤以组段的人数4.60~4.80

(mol/L

)最多。且上下组段的频数分布基本对称。②数据变异(离散)的范围在3.60~5.60(mol/L

)10ppt课件(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布2.描述频数分布的类型(对称分布、偏态分布)11ppt课件某地区130名正常成年男子红细胞数(1012/L)的频数分布

红细胞数 划记 频数

3.70~ || 2 3.90~ |||| 4 4.10~ 正|||| 9 4.30~ 正正正| 16 4.50~ 正正正正|| 22 4.70~ 正正正正正 25 4.90~ 正正正正| 21 5.10~ 正正正|| 17 5.30~ 正|||| 9 5.50~ |||| 4 5.70~5.90 | 1

合计 —— 130*对称分布(正态分布)12ppt课件(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。13ppt课件表8-3某传染病潜伏期频数分布表潜伏期(天)频数(f)累计频数(Σf)频率(%)累计频率(%)2~262623.6323.634~487443.6467.276~259922.7390.008~61055.4595.4510~31082.7398.1812~21101.82100.00正偏态分布(右偏态分布):

右侧的组段数多于左侧的组段数,频数向右侧拖尾14ppt课件238名正常人发汞值(μg/g)发汞值 频数 累计频数 累计频率(%)(1) (2) (3) (4)=(3)/2380.3~ 20 20 8.40.7~ 66 86 36.11.1~ 60 146 61.31.5~ 48 194 81.51.9~ 18 212 89.12.3~ 16 228 95.82.7~ 6 234 98.33.1~ 1 235 98.73.5~ 0 235 98.73.9~ 3 238 100.015ppt课件图2-3某地居民238人发汞含量分布(频率密度=频率/组距)16ppt课件负偏态分布(左偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。某地某年恶性肿瘤死亡数年龄组(岁)死亡人数累计频数累计频(%)

0~ 550.4210~ 12171.4120~ 15322.6630~ 761088.9840~ 18929724.6950~ 23453144.1460~ 38691776.2370~ 2861203100.00

17ppt课件表4-115名正常成年女子血清转氨酶(mmol/L)含量分布18ppt课件19ppt课件正态分布:中间高、两边低、左右对称正偏态分布:长尾向右延伸负偏态分布:长尾向左延伸20ppt课件3.便于发现一些特大或特小的可疑值返回21ppt课件4.便于进一步做统计分析和处理22ppt课件给定一组样本资料X1,X2,…,Xn,衡量此组资料代表值的量数称为集中趋势量数(measuresofcentraltendency),因为此组资料有向代表值集中的趋势,故称为集中趋势量数。集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。集中位置的描述,即大多数数值落在什么位置上。(针对一个变量的若干个数值)第二节集中趋势指标23ppt课件第二节集中趋势指标统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)

24ppt课件一、算术均数算术均数:简称均数(mean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈对称分布或近似对称分布资料,尤其适用于正态分布或近似正态分布的资料。总体均数:μ

样本均数:25ppt课件1、计算方法(1)直接计算法(n<50)例8.2有9名健康成人的空腹胆固醇测定值(mol/L)为:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算术平均数。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79+5.93)/9=4.83(mol/L)26ppt课件offOn

2ndF

on5.61M+13.96

M+

23.67

M+

34.99

M+

44.24M+

55.06M+

65.20M+

74.79M+

85.93M+927ppt课件例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.23.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L)直接法28ppt课件k:频数表的组段数

f:频数

:组中值,其中i=1,2,……k。2)加权法(利用频数表n≥50)29ppt课件表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段频数()组中值()

3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90

5.40~5.6045.5022.00121.00合计132614.202878.92x=614.2/132=4.653(mol/L)30ppt课件OffOn

2ndFon3.70*3M+33.90*

3M+

64.10*8

M+

14…

…5.50*4M+132S=0.4006631ppt课件均数的特征1、最常用,尤其是正态分布资料2、均数对极值特别敏感,极大值或极小值通常将均数拉向自己数列:1,2,2,3平均数为2数列:1,2,2,100平均数为26.25(极大值将均数拉向自己)数列:1,98,99,100平均数为74.5(极小值将均数拉向自己)32ppt课件二、

中位数与百分位数(一)中位数(median)定义:用符号M表示,中位数是将一批数据观察值按其变量值从小至大排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。反映一批观察值在位次上的平均水平。其适用情况有:①当资料呈明显的偏态分布;②不封口资料;③资料的分布情况不清楚。

33ppt课件从小到大排列:72,75,76,77,81,82,8672,75,76,77,81,82,8687若又观察了一个人的血压,为87(mmHg),此时M=(77+81)/2=79(mmHg)直接法(n<50)计算公式:例8.57名正常人的血压(舒张压)

测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。n为奇数时n为偶数时34ppt课件按所分组段,由小到大计算累计频数和累计频率累计频数:某个指定值以下的观测例数累计频率=累计频数/n找到中位数所在的组段代入公式

频数表法(n≥50)计算中位数步骤:35ppt课件表8-3某传染病潜伏期频数分布表潜伏期(天)频数(f)累计频数(Σf)频率(%)累计频率(%)2~262623.6323.634~487443.6467.276~259922.7390.008~61055.4595.4510~31082.7398.1812~21101.82100.00M=4+2/48(110*50%-26)=5.2136ppt课件M=4+2/48(110*50%-26)=5.2124623.63%67.27%50%M1237ppt课件血糖(mol/L)组段组中值()频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合计132(Σfi)100.004.60+(0.20/25)*[132/2-61]=4.64例8.1频数表中位数的计算38ppt课件中位数的特征计算时只利用了位置居中的测量值

优点:对极值不敏感,它不受极端数值的影响,比较稳定缺点:并非考虑到每个观测值39ppt课件均数、中位数的比较左(负)偏态分布均数

中位数

众数对称分布

均数=中位数=众数右(正)偏态分布众数

中位数均数40ppt课件三、几何均数(geometricmean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:①等比资料;②对数正态分布的资料。

如抗体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。计算:有直接法和加权法41ppt课件几何均数:变量对数值的算术均数的反对数。

其他对数(如自然对数)变换获得相同的几何均数(1)直接法:n<5042ppt课件例8.3

有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。∑lgx=8.42884∑lgx/7=1.20411G=101.20411=1643ppt课件OffOn2ndFon2LOGM+14

LOG

M+

28LOG

M+

316LOG

M+

432LOGM+

564LOGM+

6128LOGM+

72NDFLOG=162NDLOG=44ppt课件(2)加权法(利用频数表n≥50)

45ppt课件例8.4有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。该资料的几何平均数为20.705,即其平均抗体滴度为1:2046ppt课件offOn

2ndF

on5LOG*7M+710

LOG*11

M+

1820LOG*22M+

4040LOG*12M+

5280LOG*8M+

602NDFLOG=20.70547ppt课件计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。48ppt课件三种平均数的特点算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。偏态分布49ppt课件第三节离散趋势的描述反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。离散趋势(与集中趋势对应也可以说是离中趋势):

(变异)变量值在其中心位置附近的分散程度,也就是随机变量取值与平均值的偏离程度。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。50ppt课件天数甲乙11621642145160317816341421595186166合计813812均数162.6162.4例3.1:对甲乙2名高血压患者连续观察5天,测得的收缩压分别为:甲乙资料愈集中,则集中趋势量数的代表性愈高;资料愈分散,则集中趋势量数的代表性愈低。衡量资料集中或分散的量数称为离散量数(siapersionmeasures)51ppt课件常用统计指标:全距(range)四分位数间距(quartileinterval)方差和标准差(variance&standarddeviation)变异系数(CVcoefficientofvariation)52ppt课件1.极差(Range)也称作全距,即观察值中最大值和最小值之差,用符号R表示

意义:反映全部变量值的变动范围。优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。缺点:1.只利用了两个极端值,不能反映所有数据的变异大小2.稳定性差(即使在n不变的情况下,每次抽样得到的极差数值相差也很大)适用范围:任何计量资料;是参考变异指标53ppt课件(二)百分位数(percentile)百分位数用PX表示,指的是把一组数据从小到大排列,累计频率等于x%的观察值.我们可以看出,百分位数是一个分界点,从最小值到Px占全部观察值的x%,而从Px到最大值占全部观察值的(100-x)%x%Px(100-X)%XminXmax23.63%67.27%50%24M654ppt课件XminXmaxP50P25P75Q=P75-P25=QU-QL下四分位数中四分位数上四分位数优点:比极差稳定缺点:仅采用上、下四分位数,未考虑每个观察值,不能全面反映资料的离散趋势二、四分位数间距(quartilerange)50%适用于偏态分布55ppt课件按所分组段,由小到大计算累计频数和累计频率找到Px所在的组段代入公式计算Px或P50。频数表法计算中位数及百分位数的步骤:56ppt课件2.频数表法

公式:

n≥50当x%=50%=1/2时,百分位数计算公式即为中位数的计算公式:57ppt课件表8-3某传染病潜伏期频数分布表潜伏期(天)频数(f)累计频数(Σf)频率(%)累计频率(%)2~262623.6323.634~487443.6467.276~259922.7390.008~61055.4595.4510~31082.7398.1812~21101.82100.00P25P7558ppt课件P25=4+2/48(110*25%-26)24623.63%67.27%25%P2512890.00%P7575%P75=6+2/25(110*75%-74)59ppt课件

例8.1试分别求例8.1频数表的第25、第75百分位数。P25=4.20+0.20x[(132x25%-14)/23]=4.365P75=4.80+0.20x[(132x75%-86)/20]=4.930血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合计132(Σfi)100.0060ppt课件离均差:x-全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数的差值离均差之和:∑(x-)=0不能反映变异的大小(x1-)+(x2-)+…(xn-)=∑(x-)=0=(x1+x2

+xn)-

n=(x1+x2+xn)-

n(x1+x2+xn)/n=0离均差平方:(x-)2离均差平方和(SS)=(x1-)2+(x2-)2+…

(xn-)2=∑(x-)2没有考虑到观察值个数N的影响方差2

=SS/N标准差:三、方差与标准差61ppt课件

1.方差(variance)是离均差平方和的均数,反映一组数据的平均离散水平。也称均方差(meansquaredeviation)由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数作为的估计值,即用

代替

,用样本例数n代替N。但按公式计算的结果通常比实际的

低。所以用n-1来代替n进行校正。得到样本方差

离均差平方和SS总体方差样本方差自由度62ppt课件样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。分母为n-1,称为自由度(能自由取值的变量的个数)用希腊小写字母ν表示,读作[nju:]。63ppt课件样本方差为什么要除以(n-1)

与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。

64ppt课件2.标准差(standarddeviation)方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,为了还原为本来的度量单位和便于解释,故引入标准差的概念。标准差:将方差开平方,取平方根的正值,就是标准差。其单位与原变量X的单位相同。

意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数的代表性越好)应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围65ppt课件

样本标准差:样本方差的平方根,其度量单位与均数一致,所以最常用,用S表示3.总体标准差:总体标准差为总体方差的平方根用σ表示离均差平方和SS标准差的实用公式:利用频数表计算标准差的公式为:66ppt课件67ppt课件天数甲乙11621642145160317816341421595186166合计813812均数162.6162.4例3.1:对甲乙2名高血压患者连续观察5天,测得的收缩压分别为:Offon2ndonSS甲=1519.2S2甲=1519.2/4SS乙=34.6S2乙=34.6/4162M+1145M+2178M+3142M+4186M+568ppt课件血糖(mol/L)组段频数()组中值()

3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90

5.40~5.6045.5022.00121.00合计132614.202878.92例8-利用表8-2中的数据和频数表法计算标准差。69ppt课件(五)变异系数(CoefficientofVariation

)

常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。例测得某地成年人舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。

70ppt课件例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度?

71ppt课件变异指标小结1.极差较粗,适合于任何分布2.四分位数间距:偏态分布3.标准差与均数的单位相同,最常用,适合于近似正态分布4.变异系数主要用于单位不同或均数相差悬殊资料5.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;

偏态分布:中位数、四分位数间距72ppt课件Xf(X)m第四节正态分布(normaldistribution)教学内容1.正态分布的概念和正态曲线的特征2.标准正态分布的概念和标准化变换3.正态曲线下面积的分布规律4.正态分布的应用5.查标准正态分布表73ppt课件

正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),一种最常见、最重要的连续型对称分布。高斯(1777.4.30-1855.2.23)德国数学家、物理学家和天文学家,他和牛顿、阿基米德,被誉为有史以来的三大数学家,有“数学王子”之称。贫寒家庭出身,母亲在34岁时才结婚,35岁生下了高斯,高斯的舅舅,对小高斯很照顾,有机会就教育他。他还不到三岁的时候,发现父亲数错钱高斯10岁时算出老师给学生们出的将1到100的所有整数加起来的算术题高斯在11岁的时候就发现了二项式定理(x+y)n的一般情形18岁高斯用代数方法解决了2000多年来的几何难题,而且找到正17边形的直尺与圆规的作法

24岁开始,高斯放弃在纯数学的研究,几年专心搞天文学,高斯自己独创了只需要三次观察就可以用来计算星球椭圆轨道的方法。高斯把他的研究方法以及星球的摄动理论写在:《天体运动理论》一书里。1833构造了世界第一个电报机。1840年他和韦伯画出了世界第一张地球磁场图,而且定出了地球磁南极和磁北极的位置。成功=天才+勤奋74ppt课件如果我们把18世纪的数学家想象为一系列的高山峻岭,那么最后一个令人肃然起敬的巅峰就是高斯;如果把19世纪的数学家想象为一条条江河,那么其源头就是高斯。

75ppt课件乱七八糟的原始数据例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.1676ppt课件频数分布表/图77ppt课件表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合计132100.0078ppt课件图2-1某地区140名正常男子红细胞计数的频数分布图频数分布图直方图变化一:频数分布图中的横坐标不变,纵坐标为各组的频数除以n,即纵坐标变为频率变化二:频数分布图中的横坐标不变,纵坐标为各组的频率除以组距,即为直方图:用直条的面积来表示各个组段频率的图面积代表频率,宽代表组距,直条高度=频率/组距,故又把直条高度叫频率密度中间高,两头低,左右大致对称79ppt课件若数据无限增多且组距无限缩小,那么频率分布直方图的顶边缩小乃至形成一条光滑的曲线,我们称此曲线为概率密度曲线.中间高,两头低,左右对称的钟形曲线80ppt课件81ppt课件

正态分布

(normaldistribution)若随机变量X的概率密度函数(频率曲线)为正态函数(曲线)Xf(X)m则称X服从正态分布,记作X~N(μ,σ2)其中参数μ和σ分别为总体均值与标准差(σ>0,μ∈R)

,不同的μ,σ对应着不同的正态密度曲线;π为圆周率,e为自然对数的底,即2.71828。如果知道x,代入公式就可以求出f(x),通过描点法在坐标轴上就可以画出其图形来。82ppt课件当μ=0,σ=1时,正态分布称为标准正态分布,其相应的函数表达式是

其相应的曲线称为标准正态曲线。标准正态分布N(0,1)在正态分布的研究中占有重要地位。任何正态分布的问题均可转化成标准正态分布的概率问题。标准正态分布83ppt课件标准化变换:为了应用方便,常通过标准化转换

,把一般正态分布转化为标准正态分布标准正态分布u~N(0,1)一般正态分布X~N(μ,σ2)标准化转换Xf(X)m84ppt课件(1)当=时,函数值为最大.(3)的图象关于对称.(2)

的值域为

(4)当∈时为增函数.当∈

时为减函数.正态密度曲线的图像特征μ(-∞,μ](μ,+∞)正态曲线

=μyx85ppt课件

正态分布的特征1.正态曲线在横轴上方,且均数处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数,即均数和标准差(μ,σ),标准正态分布的均数和标准差分别为0和1;4.正态曲线在μ±

σ

,标准正态分布在±1处各有一个拐点;5.正态曲线下的面积为1,其分布有一定规律Xf(X)m86ppt课件均值μ表明了总体的重心所在,μ叫位置参数;标准差σ表明了总体的离散程度,σ叫形状参数

。总体标准差固定总体均数固定X~N(μ,σ2)87ppt课件88ppt课件拐点89ppt课件拐点90ppt课件xy频率/组距实际样本:在直方图中,各个组段的频率(直方的面积)之和为1,正态曲线下的面积分布特点1:横轴上、曲线下的面积为1理论正态曲线:曲线下面积为191ppt课件正态曲线下的面积分布特点2:对于一般正态分布,曲线下对称于μ的区间面积相等,对于标准正态分布,曲线下对称于0的区间,面积相等.故附表只给出Φ(-u)值92ppt课件正态分布的应用1).求概率分布2).估计频数分布3).估计参考值范围实际工作中,经常需要了解正态曲线下,横轴上的一定区间的面积占总面积的百分数,用以估计该区间的例数占总例数的百分数或变量值落在该区间的概率93ppt课件例1某地抽查132名55~58岁健康成人的血糖值,其均数为4.653mol/L,标准差为0.400mol/L。1.估计该地55~58岁健康成人血糖值在4mol/L以下者占该地55~58岁健康成人总数的百分数;2.估计该地55~58岁健康成人血糖值在5mol/L以下者占该地55~58岁健康成人总数的百分数;3.估计该地55~58岁健康成人血糖值在5.3mol/L以上者占该地55~58岁健康成人总数的百分数;4.估计该地55~58岁健康成人血糖值在4mol/L~5mol/L者占该地55~58岁健康成人总数的百分数5.该地95%的55~58岁健康成人血糖值集中在哪个范围?上面的问题就需要用我们用正态曲线下面积来解决了。94ppt课件正态曲线下面积的分布规律正态曲线下一定区间的面积,可用下式积分求得。式中F(X)为正态变量X的累计分布函数,反应正态曲线下,横轴自到X的面积(下侧累计面积)95ppt课件

由于标准正态分布计算比较简单,故其在正态分布的研究中有非常重要的地位,统计学家已专门制作了“标准正态分布表”P164。我们在实际应用中,只要把一般的正态分布通过标准化转换,转换为标准正态分布,直接查表就可以了,不用积分。96ppt课件1.μ,σ已知2.μ,σ未知,用样本估计97ppt课件1)求概率分布-----情况1u<0时,

Φ(-u)的值可以直接查表直接查表u=4-4.653/0.4=-1.631.估计该地55~58岁健康成人血糖值在4mol/L以下者占该地55~58岁健康成人总数的百分数;98ppt课件1)求概率分布-----情况2u>0时,Φ(ub)=1-Φ(u≥ub)

=1-Φ(-ub)利用曲线下面积是12.估计该地55~58岁健康成人血糖值在5mol/L以下者占该地55~58岁健康成人总数的百分数;u=5-4.653/0.4=0.8799ppt课件1)求概率分布-----情况3Φ(u≥ua)=

Φ(-ua)利用对称性u=5.3-4.653/0.4=1.623.估计该地55~58岁健康成人血糖值在5.3mol/L以上者占该地55~58岁健康成人总数的百分数;100ppt课件1)求概率分布-----情况4P(Xa≤X≤Xb)Φ(ua≤

u≤ub)=Φ(ub)-Φ(ua)求区间面积ub=5-4.653/0.4=0.87ua=4-4.653/0.4=-1.63Φ(-1.63≤

u≤0.87)=Φ(0.87)-Φ(-1.63)101ppt课件.该地95%的55~58岁健康成人血糖值集中在哪个范围?2.5%47.5%47.5%47.5%47.5%102ppt课件图2-7正态曲线面积分布示意图

103ppt课件104ppt课件正态分布的应用3.确定医学参考值范围

1.医学参考值范围(referenceranges)定义:指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。105ppt课件2.意义:由于存在个体差异,正常值并非为常数,而是在一定范围内波动,医学上常用95%或99%的分布范围作为判定正常和异常的参考标准106ppt课件3.确定参考值的基本步骤☺从正常人总体中抽样n>100☺控制测量误差☺判定是否需要分组确定参考值范围☺决定取单侧还是双侧☺选定合适的百分界限☺对资料的分布进行正态性检验(>2s近似正态)☺根据资料的分布类型选定适当的方法进行参考值范围的估计107ppt课件单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常指标过高过低均为异常,取双侧如红细胞等指标过低为异常,取单侧下限如肺活量指标过高为异常,取单侧上限如尿铅值108ppt课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论