医学统计学-定量资料统计描述集中离散_第1页
医学统计学-定量资料统计描述集中离散_第2页
医学统计学-定量资料统计描述集中离散_第3页
医学统计学-定量资料统计描述集中离散_第4页
医学统计学-定量资料统计描述集中离散_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学-定量(dìngliàng)资料统计描述集中离散第一页,共65页。问题1:该138名正常女子的红细胞数的平均数是多少?问题2:最高红细胞数是多少?最低红细胞数是多少?红细胞数的分布(fēnbù)范围是多少?问题3:红细胞数在占多大比例?问题4:如何用一个直观的统计图来描述红细胞数的分布(fēnbù)规律?分布(fēnbù)是否对称?2第二页,共65页。【解析】此问题涉及如何对定量(dìngliàng)资料进行统计描述?问题1集中趋势问题2离散趋势问题3,4频数分布表和频数分布图3第三页,共65页。统计(tǒngjì)描述统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布(fēnbù)的规律性统计描述分为:形象化描述〔统计图表〕——建立对资料的初步印象;数值化的描述〔统计指标〕——给出分布(fēnbù)规律及具体数值4第四页,共65页。统计(tǒngjì)描述统计描述(miáoshù)的思路:计算相应统计指标(zhǐbiāo)绘制适宜统计图表判断类型获取资料分类汇总相应统计指标绘制适宜统计图表5第五页,共65页。第一节.频数(pínshù)分布(图、表)频数分布(fēnbù)〔FrequencyDistribution〕指的是对总数据按某种标准进行分组,统计出各个组内所含个体的个数。我们把各个类分组及其相应的频数全部列出来就是“频数分布(fēnbù)〞通常人们用图与表的形式展现频数分布(fēnbù),通过频数分布(fēnbù)可以了解数据的分布(fēnbù)规律对于定量变量,据其数值取值特征又可分为连续型与离散型6第六页,共65页。离散型资料频数(pínshù)分布(图、表)

GCS(分)频数(f)频率(%)累计频数累计频率(%)(1)(2)(3)(4)(5)3106.10106.10453.05159.15563.662112.80621.222314.027127.323521.348159.155030.4991810.986841.4610148.548250.0011159.159759.15122112.8011871.951313

7.9313179.88141710.3614890.2415169.75164100.00合计164100.00—

—7第七页,共65页。连续型定量变量(biànliàng)的频数分布连续型定量变量〔continuousvariable〕通常是指取值连续的定量变量,可以取数轴上的任意(rènyì)数值例如身高、体重、血压、血清胆固醇值等例:某医院用随机抽样方法检查了138名成年女子的红细胞数8第八页,共65页。理想(lǐxiǎng)的描述结果RBC例数比例(%)3.07~21.453.27~32.173.47~96.523.67~1410.143.87~2215.944.07~3021.744.27~2115.224.47~1510.874.67~107.254.87~64.355.07~42.905.27~5.4721.4599第九页,共65页。如何得到(dédào)上述理想的结果?频数(pínshù)分布表分组划计原始(yuánshǐ)资料频数分布图各项统计指标第十页,共65页。频数表的编制方法(fāngfǎ):1.求MAX、MIN、R

2.求“组段〞数,组段和组距

〔1〕“组段〞数一般为10-15个;

〔2〕组距一般为R/10取整;

〔3〕第一组段要包括MIN,最末组段包括MAX,并同时写出上下限。

本例11第十一页,共65页。红细胞数(1012/L)例数比例(%)3.07~21.453.27~32.173.47~96.523.67~1410.143.87~2215.944.07~3021.744.27~2115.224.47~1510.874.67~107.254.87~64.355.07~42.905.27~5.4721.45连续型定量(dìngliàng)变量的频数分布分组除了(chúle)最后一段外均为左闭右开区间12第十二页,共65页。频数(pínshù)分布图13第十三页,共65页。频数(pínshù)表与频数(pínshù)图的作用揭示频数(pínshù)分布特征揭示频数(pínshù)分布类型便于发现一些特大或特小的离群值便于进一步做统计分析和处理14第十四页,共65页。揭示频数(pínshù)分布特征〔1〕集中趋势centraltendency〔2〕离散趋势tendencyofdispersion〔3〕当集中趋势与离散趋势结合起来时能全面(quánmiàn)反映频数的分布。15第十五页,共65页。揭示(jiēshì)频数分布类型对称分布:顶峰位于中部,左右两侧(liǎnɡcè)的频数大体对称。正态分布为最常见的一种。

偏态分布:正偏态分布—儿童疾病年龄分布;负偏态分布—老年疾病年龄分布。**分布类型不同采用的统计分析方法不同16第十六页,共65页。17第十七页,共65页。近视眼Lasik术后1月裸眼视力(shìlì)Frequencynv0.000.100.200.300.400.500.600.700.800.901.001.101.200.0071.0018第十八页,共65页。如何更具体(jùtǐ)、精确?了解了数据分布的形态〔对称与否〕、是否有异常(yìcháng)值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确〞特征例如:教务处得到13与14两个年级的医学统计学成绩,如何判断优劣?分数段13级14级例数%例数%<6043.776.960~1917.62221.870~3835.22625.780~3532.43029.790~1001211.11615.919第十九页,共65页。第二节集中(jízhōng)趋势的描述算数(suànshù)均数几何均数中位数和百分位数20第二十页,共65页。1.算术(suànshù)均数算术均数arithmeticmean〔μ总体均数,样本均数〕简称均数,在各观察单位(dānwèi)具体变量值时,可以采用直接法计算,公式如下:21第二十一页,共65页。直接(zhíjiē)法:例4.3利用例的155名6月龄婴儿(yīngér)的SOS资料,计算均数。第二十二页,共65页。设分组后的数据为:X1,X2,…,XK相应(xiāngyīng)的频数为:f1,f2,…,fK计算公式为对于频数表资料(zīliào),用每个组段的组中值代替该组段观察值的实际取值:加权法:第二十三页,共65页。例如,对155名6月龄婴儿的SOS资料(zīliào),利用表4.2求均数为:第二十四页,共65页。算术(suànshù)均数求138名女性红细胞数均数资料来源于整理(zhěnglǐ)后的频数表,无法取得原始数据采用加权法计算加权均数,作为算术均数的近似值红细胞数(1012/L)例数3.07~23.27~33.47~93.67~143.87~224.07~304.27~214.47~154.67~104.87~65.07~45.27~5.47225第二十五页,共65页。算术(suànshù)均数组段频数组中值频数×组中值3.07~23.176.343.27~33.3710.113.47~93.5732.133.67~143.7752.783.87~223.9787.344.07~304.17125.104.27~214.3791.774.47~154.5768.554.67~104.7747.704.87~64.9729.825.07~45.1720.685.27~5.4725.3710.74合计138—583.0626第二十六页,共65页。算术(suànshù)均数的特性各变量值与均数的离均差(jūnchà)之和等于零:各变量值与均数的离均差(jūnchà)平方和最小:第二十七页,共65页。算术(suànshù)均数小结它是一组数据的均衡点所在;集中趋势的最常用(chánɡyònɡ)指标易受极端值的影响用于定量数据,不能用于分类数据和等级数据适用于服从对称分布定量资料〔正态或近似正态〕的集中趋势描述28第二十八页,共65页。假设某投资者拥有资金1000元,第一年他取得10%的收益(shōuyì),第二年为20%,第三年为40%,求平均收益(shōuyì)?第一年末所拥有的资金为其原始的倍第二年末所拥有的资金为其原始的倍第三年末所拥有的资金为其原始的倍假设他三年来的投资收益(shōuyì)是平均的,那么他的年平均收益(shōuyì)a应该满足;所以:即他的年均收益(shōuyì)为22.7158488%,而不是++新问题:平均开展(kāizhǎn)速度29第二十九页,共65页。平均(píngjūn)抗体滴度某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10、20、40、40、160,求其平均数?如果使用算术均数的直接法:倒数的平均数约为54,所以平均滴度的倒数为54比54大的有1个数据,而比它小的只有4个,而且大多数的数据在40以内,由于160的存在(cúnzài)使得平均数偏向160一侧,从而偏离了大多数的观察对象集中的位置!30第三十页,共65页。几何(jǐhé)平均数〔直接法〕将原始数据X取对数后得到的对数值视为一个新变量Y,求Y的算术(suànshù)均数为:求得Y的算术(suànshù)均数后将其换算为原数值X,即对其取反对数得几何均数G31第三十一页,共65页。例4.4对26个采样点空气中总粉尘(fěnchén)浓度计算几何均数:第三十二页,共65页。几何(jǐhé)平均数〔加权法〕抗体滴度倒数频数1042034010801016011320156401412802合计6969例类风湿关节炎〔RA〕患者血清(xuèqīng)EBV-VCA-lgG抗体滴度的分布见右表,求其平均抗体滴度采用加权法计算加权几何均数33第三十三页,共65页。人群(rénqún)血铅含量平均值的计算34第三十四页,共65页。对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?其中有不确定数值,无法(wúfǎ)使用算术均数或几何均数问题(wèntí):患者生存期35第三十五页,共65页。三、中位数

是将一批数据从小(cóngxiǎo)至大排列后位次居中的数值。M50%50%不受极端值的影响,尤其适合于:①大样本(yàngběn)偏态分布的资料;②资料有不确定数值;③资料分布不明等。第三十六页,共65页。未分组数据(shùjù)的中位数

第三十七页,共65页。

、、、、、、、、、、、、、、、、

M3.33μg/g例4.817名砷中毒患者(huànzhě)发砷含量第三十八页,共65页。

、、、、、、、、、、、、、、、、14.76、例4.918名砷中毒患者(huànzhě)发砷含量第三十九页,共65页。Px所在(suǒzài)组段的组距Px所在(suǒzài)组段的下限Px所在(suǒzài)组段的频数∑fL

为小于

L

的各组段累计频数计算中位数时,X=50,即M=P50。连续型资料Px(频数表法)40第四十页,共65页。中位数(P50)组段频数累计频数累计频率(%)12~443.424~172117.836~325344.948~247765.360~189580.572~1210790.784~511294.996~411698.3108~2118100.041第四十一页,共65页。正、负偏态的理解(lǐjiě)对于正偏态数据(shùjù)有算术均数>中位数,故算术均数减去中位数为正值,称这种数据(shùjù)分布为正偏态对于负偏态数据(shùjù)有算术均数<中位数,故算术均数减去中位数为负值,称这种数据(shùjù)分布为负偏态42第四十二页,共65页。对于(duìyú)两组资料集中趋势的描述:

样本1:样本含量9,算术均数,中位数9.9

样本2:样本含量9,算术均数,中位数9.9

两个(liǎnɡɡè)样本的资料相同或不同?结论:两个(liǎnɡɡè)样本完全一样!?样本

样本43第四十三页,共65页。第三节、离散趋势(qūshì)的描述集中趋势是数据(shùjù)分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据(shùjù)的分布规律。而且还要看数据(shùjù)的离散趋势。44第四十四页,共65页。离散趋势:反映一群(yīqún)变量值的变异程度或参差不齐的程度。◆离散程度大,均数的代表性差,◆离散程度小,均数的代表性好。第四十五页,共65页。1.极差极差range:一组数据的最大值与最小值之差离散程度的最简单(jiǎndān)测度值易受极端值影响未考虑数据的分布一般极差越大,那么数据的变异性越大;但是它没有考虑除极值外其他数据的变异情况;而且样本的极差通常过小地估计了总体的极差789107891046第四十六页,共65页。四分(sìfēn)位数(quartile,Q):特定的百分位数,把一组观察值分为四等份。下四分(sìfēn)位数:QL=P25上四分(sìfēn)位数为:QU=P75四分(sìfēn)位数间距:QU-QL小大P0P25

P50

P75

P100QLQUM2.四分(sìfēn)位数间距第四十七页,共65页。48第四十八页,共65页。M=P50=48+12/24(118/2-53)=51(天〕P25=L+i/f25(n·25%—ΣfL)=36+12/32〔118×25%-21〕=39.2〔天〕P75=L+i/f75(n·75%—ΣfL)=60+12/18〔118×75%-77〕=67.7〔天〕Q=P75-P25=67.7-39.2=28.5〔天〕即该潜伏期的四分(sìfēn)位数间距为天。49第四十九页,共65页。四分位数间距越大,变量值的变异程度或离散程度越大;四分位数间距比极差稳定,但仍未考虑每个观察值的变异;四分位数间距常用于描述(miáoshù)偏态分布资料、两端无确切值或分布不明确资料的离散程度。四分(sìfēn)位数间距的意义50第五十页,共65页。离均差与离均差和:为了(wèile)克服全距、四分位数间距的缺点,人们考虑到用每个变量值与均数之间的差异来反映离散的程度,所以提出了离均差的概念,其数学表达式为离均差可正可负,但是数学上可以证明

离均差(jūnchà)与离均差(jūnchà)和51第五十一页,共65页。离均差平方和与离均差平方和的平均值:为了防止离均差和等于0的情况,人们考虑将离均差取平方后求其和,于是有了离均差平方和,其数学表达式为前者称为SS总体(zǒngtǐ),后者称为SS样本;但是SS不但和变异大小有关,还和观察值的个数有关,SS随观察例数增多而增大。为了解决这个问题,人们又引入了离均差平方和的平均值,其数学表达式为

离均差(jūnchà)平方和与均方52第五十二页,共65页。3.1方差(fānɡchà)离均差平方和的平均值(MS),又可称为方差variance它是反映数据离散程度的最常用的指标(zhǐbiāo)在计算方差过程中利用到每个变量值,所以它表达的离散趋势信息比极差、四分位数间距更精确但是由于在计算方差时用到算术均数,所以方差也只能用于反映对称或近似对称分布资料的离散趋势第五十三页,共65页。总体方差通常用希腊字母s2(sigma)表示,记作:但是在实际研究中,通常只观察来自总体中的一个(yīɡè)样本,所以总体均数是未知的;此时用样本均数作为总体均数的估计值,相应的方差称为样本方差,其公式为:

式中的n-1又称为(chēnɡwéi)自由度总体方差(fānɡchà)与样本方差(fānɡchà)54第五十四页,共65页。自由度degreeoffreedom,df:一组数据中可以自由取值的数据的个数当样本数据的个数为n时,假设样本均值x确定(quèdìng)后,只有n-1个数据可以自由取值,其中必有一个数据那么不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,那么x=5。当x=5确定(quèdìng)后,如果x1=6,x2=7,那么x3那么必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差S2去估计总体方差σ2时,它是σ2的无偏估计值第五十五页,共65页。标准差,standarddeviation因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差σ。标准差大,表示(biǎoshì)观察值的变异度大;标准差小,表示(biǎoshì)观察值的变异度小。56第五十六页,共65页。样本(yàngběn)标准差〔s〕:57第五十七页,共65页。标准差的计算(jìsuàn)直接(zhíjiē)法加权法58第五十八页,共65页。1985年通过十省调查得知,农村刚满周岁的女童体重均数为,标准差为;身高均数为,标准差为,试问身

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论