数值变量的统计描述_第1页
数值变量的统计描述_第2页
数值变量的统计描述_第3页
数值变量的统计描述_第4页
数值变量的统计描述_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量的统计描述第1页,共88页,2023年,2月20日,星期六教学要求重点:频数表的编制均数、标准差;中位数、百分位数医学参考值范围的估计第2页,共88页,2023年,2月20日,星期六第一节数值变量资料的频数表一、频数表的概念频数分布:观察值在其所取值的范围内,于各组段中分布的情况依据频数分布情况,可编制频数分布表。含药量(mg)f37~340~643~1546~1849~3052~1455~1158~261~641合计100第3页,共88页,2023年,2月20日,星期六某药师用随机抽样方法检查了某药100片,测量其含药量,试编制频数表。二、频数分布表的编制第4页,共88页,2023年,2月20日,星期六57.442.446.245.352.357.544.748.651.444.350.049.950.843.343.449.745.947.355.445.942.949.246.650.446.437.647.743.956.751.854.048.549.056.452.445.348.043.751.949.850.147.750.955.547.145.854.642.844.052.753.462.250.855.150.850.251.137.347.352.247.556.753.341.149.559.951.345.043.156.750.954.453.160.953.842.750.749.142.957.647.549.448.051.739.450.247.854.546.547.649.650.954.150.353.945.449.248.855.449.8某药100片的含药量(mg)第5页,共88页,2023年,2月20日,星期六57.442.446.245.352.357.544.748.651.444.350.049.950.843.343.449.745.947.355.445.942.949.246.650.446.437.647.743.956.751.854.048.549.056.452.445.348.043.751.949.850.147.750.955.547.145.854.642.844.052.753.462.250.855.150.850.251.137.347.352.247.556.753.341.149.559.951.345.043.156.750.954.453.160.953.842.750.749.142.957.647.549.448.051.739.450.247.854.546.547.649.650.954.150.353.945.449.248.855.449.81、求全距(极差)极差(range):极差也称全距,即最大值和最小值之差,记作R。第6页,共88页,2023年,2月20日,星期六根据研究目的及观察例数选定适当组段数。组段数通常取8~15

组。组距:相邻两组段最小值之差,用i表示,为全距/组段计算所得。2、确定组数、组距第7页,共88页,2023年,2月20日,星期六3、划分组段组段下限(L):每个组段的起点组段上限(U):每个组段的终点57.442.446.245.352.357.544.748.651.444.350.049.950.843.343.449.745.947.355.445.942.949.246.650.446.437.647.743.956.751.854.048.549.056.452.445.348.043.751.949.850.147.750.955.547.145.854.642.844.052.753.462.250.855.150.850.251.137.347.352.247.556.753.341.149.559.951.345.043.156.750.954.453.160.953.842.750.749.142.957.647.549.448.051.739.450.247.854.546.547.649.650.954.150.353.945.449.248.855.449.8第1组段37~第2组段40~第3组段43~第4组段46~第5组段49~

……第末组段61~64

第8页,共88页,2023年,2月20日,星期六57.442.446.245.352.357.544.748.651.444.350.049.950.843.343.449.745.947.355.445.942.949.246.650.446.437.647.743.956.751.854.048.549.056.452.445.348.043.751.949.850.147.750.955.547.145.854.642.844.052.753.462.250.855.150.850.251.137.347.352.247.556.753.341.149.559.951.345.043.156.750.954.453.160.953.842.750.749.142.957.647.549.448.051.739.450.247.854.546.547.649.650.954.150.353.945.449.248.855.449.837~40~43~46~49~52~

55~58~

61~64

4、划记列表第9页,共88页,2023年,2月20日,星期六含药量(mg)(1)f(2)37~340~643~1546~1849~3052~1455~1158~261~641合计100某药100片的含药量的频数表第10页,共88页,2023年,2月20日,星期六求出极差确定组段确定组距列出组段确定频数Max-Min首段包括极小值,末段包括极大值;除末段同时标出上下限值,其余组段均只标出下限值第11页,共88页,2023年,2月20日,星期六某药100片的含药量的频数表3740434649525558616435302520151050第12页,共88页,2023年,2月20日,星期六37404346495255586164含药量(mg)以49~组段为中心,左右两侧频数分布大致对称频数第13页,共88页,2023年,2月20日,星期六(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称,即认为该资料是对称分布

(2)偏态分布:正偏态分布负偏态分布1、揭示数值变量资料的分布特征三、频数表的用途第14页,共88页,2023年,2月20日,星期六正偏态分布(右偏态分布)115名正常成年女子血清转氨酶(mmol/L)含量分布转氨酶含量人数12~215~918~1421~2324~1927~1430~1133~936~739~442~453第15页,共88页,2023年,2月20日,星期六集中位置偏向数值小的一侧,右侧拖尾。第16页,共88页,2023年,2月20日,星期六101名正常人的血清肌红蛋白()含量分布

负偏态分布(左偏态分布)第17页,共88页,2023年,2月20日,星期六集中位置偏向数值大的一侧,左部拖尾。第18页,共88页,2023年,2月20日,星期六2、便于进一步计算和分析第19页,共88页,2023年,2月20日,星期六3.便于发现一些特大或特小的可疑值可疑值可疑值第20页,共88页,2023年,2月20日,星期六三、缺点1、估计结果不精确;2、受组距影响;3、不适于小样本资料(n<30)第21页,共88页,2023年,2月20日,星期六

对于数值变量资料,通常用两类指标来描述其分布规律。集中趋势:反映资料中观察值的集中位置或平均水平。离散趋势:反映观察值之间变异程度。第二节集中趋势的指标第22页,共88页,2023年,2月20日,星期六描述集中趋势的特征数平均数(average):描述一组变量值的集中位置或平均水平的指标。常用的平均数有(算术)均数、几何均数、中位数、百分位数不同的分布使用不同的平均数,不同场合计算方法也有所差异第23页,共88页,2023年,2月20日,星期六一、算术均数(mean)意义:用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置的特征值。应用:对称性分布,尤其是正态分布符号:总体样本第24页,共88页,2023年,2月20日,星期六1、直接计算法适用于n较小时(例如n<30)第25页,共88页,2023年,2月20日,星期六57.442.446.245.352.357.544.748.651.444.3

......49.650.954.150.353.945.449.248.855.449.8用直接法计算均数(mg)第26页,共88页,2023年,2月20日,星期六

2、加权法(频数表法,大样本资料)f:各组段的频数k:频数表的组段个数(组中值)第27页,共88页,2023年,2月20日,星期六含药量(mg)(1)频数f(2)组中值X(3)fX(4)=(2)(3)37~338.5115.540~641.5249.0........58~259.5119.061~64162.562.5合计1004954.0用加权法计算均数(mg)第28页,共88页,2023年,2月20日,星期六频数37404346495255586164第29页,共88页,2023年,2月20日,星期六算术均数的两个重要性质第30页,共88页,2023年,2月20日,星期六二、几何均数(geometricmean)意义:可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。应用:等比数列或对数转换后呈对称分布符号:原始数据呈正偏态第31页,共88页,2023年,2月20日,星期六1、直接法:观察值个数不多第32页,共88页,2023年,2月20日,星期六例:某公司五名职员的薪水分别是:

10,100,1000,10000,100000。第33页,共88页,2023年,2月20日,星期六

2、加权法适用于观察个数较多或频数表资料。第34页,共88页,2023年,2月20日,星期六抗体滴度抗体滴度倒数X频数

flgXflgX1:2.52.530.39791.19371:5.05.060.69904.19401:10.010.071.00007.00001:20.020.051.30106.50501:40.040.041.60216.4084合计—25—25.3011

例某地检查25名学龄儿童的麻疹血凝抑制抗体滴度,结果见下表,求抗体的平均滴度。第35页,共88页,2023年,2月20日,星期六即麻疹血凝抑制抗体的平均滴度为1:10.3。第36页,共88页,2023年,2月20日,星期六意义:是将n个变量值从小到大排列,位置居于中间的那个变量值。用途:偏态分布资料;一端或两端无确切数值的资料(开口资料);分布不明的资料。符号:M(样本)

三、中位数(median)第37页,共88页,2023年,2月20日,星期六

1,3,7,55,86,100,中位数为多少?

1,3,7,55,100,中位数为多少?第38页,共88页,2023年,2月20日,星期六1、直接计算法

(小样本时)n为奇数时

n为偶数时

第39页,共88页,2023年,2月20日,星期六2、频数表法

(大样本时)

L

,i,fx分别为Px所在组段的下限、组距和频数,fL为小于L各组段的累计频数。

第40页,共88页,2023年,2月20日,星期六发汞值(g/g)(1)频数累积频数累积频率(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50327966.392510487.40711193.28411596.64311899.16011899.16011899.161119100.00某地119名正常女性发汞值资料如下表所示,试计算其中位数。

P50第41页,共88页,2023年,2月20日,星期六计算中位数

即该地119名正常女性平均发汞值为1.26(g/g)第42页,共88页,2023年,2月20日,星期六对称分布数据均数=中位数正偏态数据均数>中位数负偏态数据均数<中位数对同一资料的均数与中位数进行比较,可以帮助我们初步判断数据分布的对称性。第43页,共88页,2023年,2月20日,星期六第44页,共88页,2023年,2月20日,星期六例三组同龄男孩的身高值(cm)第45页,共88页,2023年,2月20日,星期六变异指标:描述一组变量值的变异程度或离散趋势的指标.常用的变异指标有极差、四分位数间距、方差或标准差、变异系数不同的分布使用不同的变异指标描述离散趋势的特征数第三节离散程度指标第46页,共88页,2023年,2月20日,星期六

一、极差适用范围:任何计量资料,是参考变异指标缺点:易受极端值的影响,不够全面和稳定极差(R):即一组变量值最大值与最小值之差。第47页,共88页,2023年,2月20日,星期六四分位数间距,用Q表示:

适用范围:偏态分布资料;一端或两端无确切数值的资料(开口资料);分布不明的资料。二、四分位数间距缺点:虽克服了极差受极端值影响的缺点,但仍未考虑到每个观察值的变异度第48页,共88页,2023年,2月20日,星期六发汞值(g/g)(1)频数累积频数累积频率(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50327966.392510487.40711193.28411596.64311899.16011899.16011899.161119100.00某地119名正常女性发汞值资料如下表所示。

第49页,共88页,2023年,2月20日,星期六

说明有50%女性的发汞值0.90和1.66之间,其四分位数间距为0.76(g/g)。计算四分位数间距第50页,共88页,2023年,2月20日,星期六方差(variance)也称均方差,与标准差(standarddeviation)都是反映一组数据的离散水平的指标。适用范围:与均数结合使用三、方差与标准差总体方差、标准差用、表示;样本方差、标准差用、表示.第51页,共88页,2023年,2月20日,星期六

1、方差的计算公式(通常未知

)第52页,共88页,2023年,2月20日,星期六

2、标准差的计算公式第53页,共88页,2023年,2月20日,星期六

标准差的公式还可简化成:(直接法)用频数表计算标准差的公式:(频数表法)第54页,共88页,2023年,2月20日,星期六例三组同龄男孩的身高值(cm)第55页,共88页,2023年,2月20日,星期六用直接法计算三组男孩身高资料的标准差甲组:第56页,共88页,2023年,2月20日,星期六含药量(mg)(1)f(2)X(3)fX(4)=(2)(3)fX2(5)=(3)(4)37~338.5115.54446.840~641.5249.010333.5..........61~64162.562.53906.3合计1004954.0247777.2用加权法计算标准差第57页,共88页,2023年,2月20日,星期六表示数据分布的离散程度,与均数配套使用。常用作为数值资料数字特征的描述。结合均数描述正态分布的特征,并确定医学参考值范围。可用来计算变异系数、均数的标准误。3、标准差的应用第58页,共88页,2023年,2月20日,星期六变异系数CV,其计算公式为可用于观察指标单位不同时,如身高与体重的变异程度的比较。用于均数相差较大时,如儿童身高与成人身高变异程度的比较。四、变异系数第59页,共88页,2023年,2月20日,星期六例一:某地120名7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度。第60页,共88页,2023年,2月20日,星期六年龄组人数均数标准差变异系数(%)3~3.510096.13.13.230~35100170.25.00.3例二:

某地不同年龄组男子身高(cm)的变异程度。第61页,共88页,2023年,2月20日,星期六第62页,共88页,2023年,2月20日,星期六第四节正态分布及标准正态分布某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多、组距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,近似于数学上的正态分布曲线。第63页,共88页,2023年,2月20日,星期六一、正态分布(normaldistribution)

又称Gauss分布或常态分布,是一种最重要的连续型分布。正态分布曲线是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。第64页,共88页,2023年,2月20日,星期六正态分布的概率密度函数

(–∞<x<∞)则称X服从正态分布,记作X~N(μ,σ²)第65页,共88页,2023年,2月20日,星期六二、正态分布的特征1.在X轴上方,均数所在处最高。2.正态分布以均数为中心,左右对称。3.正态分布有两个参数μ和σ。

4.正态曲线下的面积分布有一定规律。

Xf(X)m第66页,共88页,2023年,2月20日,星期六正态曲线下面积分布的规律:曲线下横轴上的总面积为100%或1。曲线下对称于μ的区间面积相等。(1)正态分布区间(-,+)下的面积,即范围的面积占总面积为68.27%;(2)正态分布区间(-1.96,+1.96),即1.96范围的面积占总面积为95.00%;(3)正态分布区间(-2.58,+2.58),即2.58范围的面积为99.00%。第67页,共88页,2023年,2月20日,星期六第68页,共88页,2023年,2月20日,星期六三、标准正态分布标准正态分布由于不同的μ和σ,对应不同的正态分布曲线,显得非常麻烦。为寻求一个通用的方法,进行标准正态变换(即u变换):u=(x-μ)/σ此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为μ=0、σ=1的标准正态分布,记为N(0,1)。第69页,共88页,2023年,2月20日,星期六第70页,共88页,2023年,2月20日,星期六三、正态分布的应用

正态分布是很多分布的基础,应用及其广泛。估计频率分布制定医学参考值范围质量控制处理对数正态分布资料第71页,共88页,2023年,2月20日,星期六已计算出某药100片的含量均数,标准差。试估计:①含药量在49.0mg以下者占药片总数的百分比;②在49.0~58.0mg之间者占药片总数的百分比;③在58.0mg以上者占药片总数的百分比。(一)估计频率分布第72页,共88页,2023年,2月20日,星期六()=

(u)(X)X()(u)1-

(u)第73页,共88页,2023年,2月20日,星期六

通过u变换,一般正态分布转换为标准正态分布,再查u值表可得某区间的频数分布比例。第74页,共88页,2023年,2月20日,星期六第75页,共88页,2023年,2月20日,星期六据上可得:①含药量在49.0mg以下者占药片总数的百分比为46.02%;②在49.0~58.0mg之间者占药片总数的百分比为49.89%[(1.74)-(-0.10)];③在5.08mg以上者占药片总数的百分比为4.09%[1-(1.74)=(-1.74)]。第76页,共88页,2023年,2月20日,星期六

医学参考值范围(referencerange)是指包括特定健康状况的人群的解剖、生理及生化等各指标的数据波动范围,也称正常值范围。采用医学参考值范围作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论