




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
绪论定量数据描述演示文稿当前1页,总共97页。(优选)绪论定量数据描述当前2页,总共97页。3工作生活中常见的统计学问题明天是否下雨?体育彩票能否中奖?(概率论)子女为什么象父母,其强度有多大?(相关与回归)人口普查、疾病调查是如何进行的?(调查设计,抽样)如何判断药物的疗效?(假设检验)统计学是对令人困惑费解的数字问题做出设想的艺术。当前3页,总共97页。4统计
是一种对客观现象数量方面进行的调查研究和分析;是收集、整理、分析、推断、判断等认识活动的总称。
当前4页,总共97页。统计学(Statistics)的定义
Asciencedealingwiththecollection,analysis,interpretation,andpresentationofmassesofnumericaldata.——Webster’InternationalDictionary
关于数据收集、整理、表达、分析与推断的普遍原理和方法。当前5页,总共97页。统计学是工具学科,指导专业学科的学习和应用统计学的发展史
源远流长统计学的应用领域 日趋广泛
当前6页,总共97页。7医学统计学
是应用统计学基本原理和方法(概率论和数理统计学为主)研究生物医学领域问题和现象的一门学科。当前7页,总共97页。8 医学统计方法在医学研究中的运用主要有三个方面:①以正确的方式收集数据(方法、工具)②描述数据的统计特征,如数据化简、统计指标的选择与计算、统计结果的表达等③统计分析及得出正确结论,如根据概率分布,对实验和观察结果存在的差异和关联作出统计推断
当前8页,总共97页。医学统计工作的基本步骤科研设计(Designofstudy) 专业设计和统计设计;观察性研究和实/试性验研究资料收集(Collectionofdata) 经常性和一时性;准确、及时、完整、规范原则资料整理(Classificationofdata) 系统化、条理化;质分组和量分组资料分析(Analysisofdata) 统计描述和统计推断当前9页,总共97页。10统计资料的类型基本概念:变量及变量值,研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料。按变量值的性质可将资料分为定量资料(计量资料、数值变量)和定性资料(计数资料、分类变量)。分类变量包括无序分类(二分类、多分类)资料及有序分类(等级变量)资料。当前10页,总共97页。111.计量资料(定量数据)定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:通常有单位(可没有),数值大小衡量水平高低分为连续型和离散型例如:患者的身高(cm)、体重(kg)、血压(mmHg)脉搏(次/分)、红细胞计数(1012/L)当前11页,总共97页。12定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:通常没有度量衡单位,互不相容的类别和属性。多为间断性资料(没有程度和顺序上的差别),如肤色(黑、白)、血型(ABO)、职业(工、农、医)、性别(男、女)
2.计数资料(定性数据)当前12页,总共97页。13定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:各组之间有性质上的差别,程度上的增减关系。①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:,,++,+++及以上3.等级资料(有序分类)当前13页,总共97页。判断资料类型的标准: 是否按属性分类, 每个观察对象是否有一个确切的值 有:计量 无:计数
当前14页,总共97页。住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月Quantitativedata计量资料Qualitativedata计数资料变量观察单位当前15页,总共97页。16三类资料间关系
例:一组2040岁成年人血压(100人)以12kPa为界分为正常与异常两组,统计每组例数
<8低血压
8
正常血压
12
轻度高血压
15
中度高血压
17
重度高血压计量资料等级资料计数资料当前16页,总共97页。17资料的转化(变量类型的转化)
数值变量分类变量
例如:测得5人的白细胞(个/mm3)数如下:
300060005000800012000数值变量异常正常正常正常异常分类变量若按正常3人,异常2人分组→二分类变量若按过低(1人),正常(3人),过高(1人)分组→等级资料高级向低级,高精度向低精度当前17页,总共97页。复习: 1、调查某地某年7岁正常男童的身高 2、观察某人群脉搏数(次/分) 3、小鼠染毒后细胞转化率分别为20%,50%,75%,…… 4、观察某人群脉搏数,定义脉搏数在 60次/分~100次/分为正常,<60次/分或>100次/分为异常,按“正常”与“异常”分别清点人数得到的资料当前18页,总共97页。统计学中的基本概念
(一)同质与变异(二)总体与样本(三)参数与统计量(四)误差(五)概率与频率当前19页,总共97页。(一)同质与变异
homogeneityandvariation
1、同质:是指符合研究目的所确定的纳入对象和排除对象的条件组合。观察单位性质大致相同如:研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。2、变异:同质研究对象某种效应指标测量值的波动性。性质相同的同质对象的某个或某几个特征的差异,而使得测量结果不同。这种个体间的差异即为变异。当前20页,总共97页。同质与变异的举例例1调查2006年重庆7岁男童的身高和体重同质:2006年、重庆市、7岁男童变异:身高和体重各不相同例2研究某降压药的疗效同质:高血压患者、用某药治疗变异:疗效各不相同当前21页,总共97页。(二)总体与样本
populationandsample总体:根据研究目的确定的同质研究对象测量值的全体,其某种变量值的集合。分有限总体与无限总体样本:从总体中随机抽取的部分观察单位,其实测值的集合。
当前22页,总共97页。当前23页,总共97页。样本可靠性、代表性的条件随机抽样(随机≠随便)样本含量:足够数量构成:样本的分布与总体的分布一致当前24页,总共97页。随机抽样
randomsampling随机抽样方法(在总体中每个个体具有相同的机会被抽到)。当前25页,总共97页。样本含量充足:根据一定条件计算样本的结构分布与总体的分布特征一致例如:欲研究重庆市7岁儿童的生长发育情况总体:男107:女100样本:应该接近或近似男107:女100当前26页,总共97页。(三)参数与统计量
parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数
总体样本抽取部分观察单位统计量
参数
推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为
。是参数附近波动的随机变量。当前27页,总共97页。(四)误差error误差:实际观察值与客观真实值之间的差别,以及样本统计量与总体参数之间的差别。实际观测过程中,在相同条件下,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因(4ME)造成的测定值的波动性和对真实值的偏离。根据性质和来源分为(1)系统误差(2)随机误差当前28页,总共97页。(1)系统误差systematicerror特点:大小恒定、倾向性、周期性、累加性的偏离真值。可以通过严格的实验设计预防和技术措施消除当前29页,总共97页。(2)随机误差randomerror排除系统误差后尚存的误差,受多种无法控制的因素的影响。特点:大小方向不一的随机变化,客观不可避免。随机测量误差:由于偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,多次测量计算平均值可以减小甚至消除。随机抽样误差:由抽样造成(个体变异造成)的样本统计量和总体参数间的差异。(1)改进抽样方法,增加样本的代表性。
样本量n相等的情况下:
整群抽样>单纯随机抽样>系统抽样>分层抽样(2)增加样本量n(3)选择变异程度较小的研究指标当前30页,总共97页。(五)概率与频率
probabilityandfrequency
确定性现象:在某种条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。
随机现象:在同样条件下可能会出现多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。概率:描述随机事件发生的可能性大小的度量,用大写的P
表示,是一个稳定的值;取值[0,1]。当前31页,总共97页。必然事件P=1不可能事件P=0随机事件0<P<1小概率事件:P≤0.05(5%)或P≤0.01(1%)的随机事件称为小概率事件。小概率原理:在统计学上,小概率事件在一次抽样或一次实验中当作不发生。(结论有风险)小概率事件当前32页,总共97页。样本的实际发生率称为频率,具有波动性。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。频率与概率间的关系:样本频率总是围绕概率上下波动重复次数越多,样本含量越大,波动幅度越小,频率越接近概率。即概率可以用稳定的频率进行解释。频率frequency当前33页,总共97页。学习统计学应注意的问题1、统计学研究的是群体(总体)的数量特征;↑适当的统计指标2、学会统计学的思维方法抽样研究→抽样误差→结论具有概率性↑医学专业知识解释当前34页,总共97页。学习统计学应注意的问题3、不要求公式来源、推导,不要求复杂公式的记忆,但要了解其意义、用途和应用条件4、不同资料类型采用不同统计方法进行分析,因此一定要能正确区分统计资料的类型。5、正确理解统计学的基本概念当前35页,总共97页。资料的统计描述当前36页,总共97页。统计描述的意义社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。医学工作有很多数据,统计学描述就是对这些数据进行加工和提炼,找出规律、预测未知。当前37页,总共97页。 概念: 用适当的统计统计图(表)和统计指标对原始数据的分布规律及其数量特征进行测定和描述。 特点:
用直观、简单的形式揭示数据资料蕴含的内在信息。是统计推断的基础。
当前38页,总共97页。计量资料离散型计量资料:变量取值可一一列举。如:正常人的脉搏次数、每个育龄妇女的现有子女数等。连续型计量资料:变量取值不能一一列举,而是一定范围内的任意值。如人体身高、体重的变化、大气中二氧化碳浓度等。当前39页,总共97页。计量资料的统计描述方法:(单变量)1.通过频数表描述数据特征2.用统计指标描述数据的特征。
当前40页,总共97页。频数和频数表频数:在一批样本中,相同情形出现的次数称为该情形的频数,即某个测量值的个(例)数。频数分布表(frequencydistributiontable):
又称频数表,是将原始数据进行适当分组后得到各组的频数而形成的表格。 通过频数表可了解数据分布范围、集中位置、分布形态等特征。编制方法:手工、软件(如SAS、SPSS等)当前41页,总共97页。离散型变量的频数分布 例1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4等共96个数值当前42页,总共97页。表1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计频数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.561212.596100.0合计96100
制作要点:分别清点每一种取值的个数;也可以将尾部的多个取值作为一个组进行计数。本例编制频数表如下:当前43页,总共97页。6当前44页,总共97页。连续型变量的频数分布 将数据分成适当组段,计数每组的频数,编制成的频数分布表,则能显示出数据分布的特点。
例:某年某市120名12岁男童的身高(cm)资料如下,作统计描述。当前45页,总共97页。142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0142.1143.5139.2144.7139.3141.9147.8140.5138.9148.9142.4134.7147.3138.1140.2137.4145.1145.8147.9146.7143.4150.8144.5137.1147.1142.9134.9143.6142.3143.3140.2125.9132.7152.9147.9141.8141.4140.9141.4146.7138.7160.9154.2137.9139.9149.7147.5136.9148.1144.0137.4134.7138.5138.9137.7138.5139.6143.5142.9146.5145.4129.4142.5141.2148.9154.0147.7152.3146.6139.2139.9当前46页,总共97页。1、求数据的极差(全距)(range):极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。本例极差:
R=160.9-125.9=35cm当前47页,总共97页。142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0142.1143.5139.2144.7139.3141.9147.8140.5138.9148.9142.4134.7147.3138.1140.2137.4145.1145.8147.9146.7143.4150.8144.5137.1147.1142.9134.9143.6142.3143.3140.2
125.9132.7152.9147.9141.8141.4140.9141.4146.7138.7
160.9154.2137.9139.9149.7147.5136.9148.1144.0137.4134.7138.5138.9137.7138.5139.6143.5142.9146.5145.4129.4142.5141.2148.9154.0147.7152.3146.6139.2139.9当前48页,总共97页。2、划分组段(1)确定组数:制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。适宜的分组数与观察值的个数n的多少有关。n在50以下,可分5~8组,n在50以上,可分9~15组,一般取10组左右。当前49页,总共97页。(2)确定组距一般采取等距分组。组距=极差/组数取整数,或根据专业习惯取整齐数值
本例组距=35/10=3.5≈4当前50页,总共97页。(3)确定各组段的组限:下限(lowlimit):每个组段的起点上限(upperlimit):每个组段的终点 上限=下限+组距
第一组段必须包含最小值,其下限一般取包含最小值的较为整齐的数值。本例最小值为125.9,取125为第一组段的下限。其上限=125+4=129。各组段不能重叠,每一组段均为半开区间当前51页,总共97页。3、统计频数绘制频数表当前52页,总共97页。4、频率与累计频率频率:频数表中的各组频数之和等于总例数n,将各组的频数除以n所得的比值被称为频率。累计频数:某组段及前面各组段的频数之和。累计频率:累计频数除以总例数。当前53页,总共97页。125129133137141145149153157对称分布当前54页,总共97页。(二)频数分布特征从频数表,特别是频数分布图可以看到频数分布有两个特征:1、集中位置:数据向某个位置聚集或集中地倾向。大多数12岁男童的身高集中在中央部分;2、离散程度:数据分散性和变异程度。少数男童具有较低和较高身高,频数向两端逐渐减少。当前55页,总共97页。(三)频数分布的类型1、对称分布:指集中位置在中间,左右两侧对称。正态分布:中间组段频数最多,两侧对称,规律下降2、偏态分布:指集中位置偏向一侧,频数分布不对称。 正偏态:集中位置偏向数值较小一侧(左侧)
负偏态:集中位置偏向数值较大一侧(右侧)当前56页,总共97页。图2-1
101名正常成年女性血清总胆固醇频数分布
频数血清总胆固醇对称分布当前57页,总共97页。图2-259名链球菌咽喉炎患者潜伏期正偏态分布当前58页,总共97页。
负偏态分布当前59页,总共97页。(五)频数分布表的用途1、揭示资料的分布特征及类型2、便于发现某些特大或特小的可疑值3、组段的频率作为概率的估计4、便于进一步计算统计指标和作统计处理当前60页,总共97页。4、某单位职工体检101名正常成年女子的血清总胆固醇(mmol/L)5、某医院1998年在某城区随机调查了8589例60岁以上老人,体检发现高血压患者为2823例,高血压患病率为2823/8589*100/%=32.87% 总体与样本、统计量与参数、系统误差与抽样误差当前61页,总共97页。计量资料描述统计指标当前62页,总共97页。一、描述集中位置的特征数(平均指标)总称为平均数(average)反映了资料的集中倾向(centraltendency)的位置和平均水平。作用:是一组计量数据平均水平的代表值;可作为不同组间的比较值。常用的有:
1.算术均数(arithmeticmean),简称均数
(mean)
2.几何均数(geometricmean)
3.中位数
(median)
当前63页,总共97页。一、算术均数简称均数
总体均数用表示
样本均数用表示频数为正态或近似正态分布的计量资料适用条件当前64页,总共97页。1、直接法(样本例数较少)将所有数据直接相加,再除以总例数n:当前65页,总共97页。例如:测定了5名健康人第一小时末血沉,分别是6、3、2、9、10mm,求均数当前66页,总共97页。2、加权法(样本例数较多,近似计算) 观察力数较多,编制频数表后,用各组段的组中值代替该组段中的任一观察值,该组段的频数是f,即有f个组中值,则有组中值与频数的乘积代替该组段的各个值相加。计算公式:当前67页,总共97页。利用频数表,将每组段的组中值,即(下限+上限)/2,代替该组段观察值的实际取值,用加权法求算术平均数。在样本例数较多的情况下,加权法与直接法算得的结果相差不大。见P10当前68页,总共97页。均数的特征当数据呈单峰对称分布时,位于分布的中心,它是频数分布最集中的位置。但易受极端值影响各观察值与均数之差的总和等于0各观察值的离均差平方和最小
当前69页,总共97页。均数的应用:反应一组同质观察值的平均水平作为样本代表值与其他样本比较适用于描述单峰对称分布(正态或近似正态)的集中位置当前70页,总共97页。二、几何均数(G,geometricmean) 适用于①原始数据分布不对称,但经对数转换后呈对称分布的资料;②滴度资料(等比资料)。 如抗体滴度、细菌计数等。公式:当前71页,总共97页。 例2.2测得10个人的血清滴度的倒数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度。
当前72页,总共97页。几何均数是对数转换后的数据的算术均数的反对数。对于每组相同观察值较多的资料,也可用加权法计算几何均数:例2.3(频数表资料)应用:主要用于血清学和微生物学中。
当前73页,总共97页。几何均数应用注意事项:常用于等比资料和对数正态分布资料观察值中不宜出现0和负值若观察值全是负值,可先去掉负号,得出结果后加上。当前74页,总共97页。三、中位数(median)
中位数是指将一组观察值从小到大排序后居于中间位置的那个数值,全部观察值中,大于和小于中位数的观察值个数相等。任何分布的定量数据均可用中位数描述其分布的集中位置。当前75页,总共97页。直接法公式:
当n为偶数时 当n为奇数时当前76页,总共97页。1.原始资料如测得5个人的VLDL中的apo_B的含量(mg/dl)为0.84、2.85、5.46、8.58、9.60,则
M=5.46(mg/dl)若测量结果:0.84、2.85、8.58、9.6,则
M=(2.85+8.58)/2=5.72(mg/dl)当前77页,总共97页。
2.频数表资料表2-4某地630名正常女性血清甘油三脂含量(mg/dl)甘油三脂频数累积频数累积频率(%)0.10~27274.30.40~16919631.10.70~16736357.6M1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合计630--当前78页,总共97页。L、iM、fM分别为M所在组段的下限、组距和频数,fL为M所在组段之前各组段的累积频数。当前79页,总共97页。连续型变量中位数的的计算可用公式:
组距中位数所在组前一组的累计频数
中位数所在组下限中位数所在组的频数下限值L上限值Ui
fm中位数Md当前80页,总共97页。均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数当前81页,总共97页。四、百分位数(percentile) 是一种位置指标,样本的第X百分位数常记为PX(XPK),它是指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分成两部分,在不包括PX的全部数据中有X%的数据小于PX
,有(100-X)%的数据大于PX
。当前82页,总共97页。中位数是特殊的百分位数,第50百分位数,M=P50
。连续性变量频数表资料百分位数计算公式:P12例子当前83页,总共97页。百分位数的应用1、中位数是百分位数的特例。其特点是不易受异常值的影响,适用于描述明显偏态分布、或两端无确定数值数据的平均水平。2、多个百分位数相结合可以用来说明一特定的问题:离散程度、参考值范围、把资料划分等级当前84页,总共97页。小结:
集中位置的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布(传染病发病的潜伏期)当前85页,总共97页。二、描述离散程度的统计指标
平均数并不能使我们全面地认识事物,试看下例:例:
对甲、乙两名高血压患者连续观察5天,测得的收缩压分别为(mmHg):甲患者162145178142186(=162.6)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国电动展示架数据监测研究报告
- 医学资料 医疗图标 学习课件
- 劳务居间合同劳务居间合同
- 测试环境搭建与维护操作规范
- 枫林咽泉+江岸时光住宅地块景观设计方案
- 三农产品流通渠道建设作业指导书
- 绿色能源产业产值数据表
- 福建省宁德市2024-2025学年高一上学期期末质量检测数学试题 含解析
- 永城定做镀铜门施工方案
- 吊顶中央空调管线施工方案
- 临时工雇佣合同范本2025年度
- (二调)武汉市2025届高中毕业生二月调研考试 地理试卷
- “艾梅乙”感染者消除医疗歧视制度-
- 2024-2025学年八年级地理下册第七章《南方地区》检测卷(人教版)
- 森林防火知识
- 2025年黑龙江林业职业技术学院单招职业适应性测试题库带答案
- 2025-2030年中国测序仪市场运行态势及发展规划分析报告
- 小学语文常见的说明方法(四年级下册第二单元)
- 国家自然科学基金项目预算说明书
- 资料整理归档目录表(公司归档目录)
- 信访举报(投诉)登记表
评论
0/150
提交评论