第一章 数值变量的统计描述课件_第1页
第一章 数值变量的统计描述课件_第2页
第一章 数值变量的统计描述课件_第3页
第一章 数值变量的统计描述课件_第4页
第一章 数值变量的统计描述课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数值变量资料的统计描述统计描述(statisticaldescription)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。目的是根据样本中所包涵的信息,客观、正确地推论出其总体规律。

第一章数值变量的统计描述第一节频数分布频数(frequency)是相同观察值或观察结果出现的次数。分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布(frequencydistribution)即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。

第一章数值变量的统计描述一、频数分布的特征1.集中趋势(centraltendency):指一组变量值的集中倾向或中心位置。2.离散趋势(tendencyofdispersion):即一组变量值的离散倾向。

第一章数值变量的统计描述二、频数分布的类型1.对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。分为正态分布和非正态分布两种类型。2.非对称分布:亦称偏态分布,是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为正偏态和负偏态分布。第一章数值变量的统计描述三、频数分布表/图的作用

1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。

第一章数值变量的统计描述四、频数表频数表(frequencytable):是频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。第一章数值变量的统计描述频数表的编制方法

例题:随机抽取某地120例正常人,测得血清铜的含量如下表,试编制频数表。第一章数值变量的统计描述

某地120名正常人血清铜含量(μmol/L)

13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5313.5611.4813.0716.8817.0417.9812.6711.03

9.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.84

13.1115.1511.70第一章数值变量的统计描述频数表的编制方法1.找极值:Xmax

=19.84,Xmin=9.232.求全距:R=Xmax-Xmin,R=19.84-9.23=10.613.定组数:K=8~15,一般取11组。4.求组距:i=R/(K–1)

i=10.61/(11-1)=1.061≈15.确定各组段的上下限:6.归纳计数:第一章数值变量的统计描述某地120名正常成年人血清铜含量频数表

组段频数f频率P(%)fCPC(%)9.00~32.532.510.00~43.375.811.00~1210.01915.812.00~1310.83226.613.00~1714.24940.814.00~2218.37159.115.00~1815.08974.116.00~1310.810284.917.00~119.211394.118.00~54.211898.319.00~21.7120100.0合计120100.0第一章数值变量的统计描述五、频数图频数图(frequencygraph):亦称直方图(histogram),是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。1.等距分组以横轴表示变量,以纵轴表示频数。2.不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。第一章数值变量的统计描述第一章数值变量的统计描述第二节数值变量资料集中趋势的描述

集中趋势(centraltendency)是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数(average)是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数(arithmeticmean)几何平均数(geometricmean)中位数(median)众数(mode)第一章数值变量的统计描述一、算术平均数1.定义:算术平均数简称均数(mean)。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,

表示总体均数。2.适用条件:正态或近似正态分布的资料。如生理指标。第一章数值变量的统计描述3.计算方法⑴直接法:有n个观察值,分别为X1,X2,……Xn,

式中Σ是求和的符号。第一章数值变量的统计描述例题10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。

第一章数值变量的统计描述⑵加权法用于观察值中相同数据较多或频数表资料。

=1737.00/120=14.48(μmol/L)

第一章数值变量的统计描述某地120名正常成年人血清铜含量频数表

组段频数f组中值xfx9.00~39.5028.5010.00~410.5042.0011.00~1211.50138.0012.00~1312.50162.5013.00~1713.50229.5014.00~2214.50319.0015.00~1815.50279.0016.00~1316.50214.5017.00~1117.50192.5018.00~518.5092.5019.00~219.5039.00合计1201737.00第一章数值变量的统计描述二、几何均数1.几何均数(geometricmean)n个数值连乘积的n次方根。是比例或倍数上的平均。统计符号G。2.应用条件:等比数列资料。如抗体滴度。3.计算方法第一章数值变量的统计描述例题

6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。

平均滴度为1:8。第一章数值变量的统计描述三、中位数

1.中位数(median):将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号M。2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。第一章数值变量的统计描述3.计算方法n为奇数时n为偶数时式中、及均为下标,表示有序数列中观察值的位次。第一章数值变量的统计描述例题

某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,求其中位数。本例n=9,M=X5=3(天)。如果本例n=10,第10个数值为16天,则M=(3+4)/2=3.5(天)。第一章数值变量的统计描述⑵频数表法用于观察值例数较多或频数表资料。

L为M所在组段的下限;i为该组段的组距;fm为该组段的f;n为总例数;ΣfL为小于L的各组段的fC。第一章数值变量的统计描述905例男性银屑病病人的发病年龄年龄频数f累计频数fC累计频率pC(%)<105454

5.9710~252306(ΣfL)

33.8120~346(fM)

65272.0430~128780

86.1940~8486495.4750~2989398.6760~589899.23≥707905(n)100.00M=20+(10/346)(905/2-306)=24.23(岁)第一章数值变量的统计描述第三节数值变量资料的离散趋势描述离散趋势(dispersion)亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差(range,R)四分位数间距(quartilerange,QR)方差(variance,s2)标准差(standarddeviation,s)变异系数(coefficientofvariation,CV)。第一章数值变量的统计描述变异指标示意(两个学生五门成绩分布)

学生科目变异指标12345RS2

SCVA78798081828042.51.581.98B60708090100804025015.8119.76A、B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。A较集中,变异较小;B较分散,变异较大。第一章数值变量的统计描述

一、全距(range)

全距(R)亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。R=xmax-xmin

1.意义明确、计算简便。

2.稳定性较差。

3.受n大小的影响。第一章数值变量的统计描述

二、百分位数和四分位间距

1.百分位数(percentile):是把一组观察值从小到大排列,分为100等份,与x%位次所对的数值即为第百分之x位数。以Px表示。一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。是一种位置指标。M即P50。第一章数值变量的统计描述2.四分位数间距(quartilerange)

四分位数间距(quartilerange):是上四分位数QU(P75)与下四分位数QL(P25)之差,符号为QR。是中间50%观察值的极差。QR=QU-QL=P75-P25第一章数值变量的统计描述905例男性银屑病病人的发病年龄年龄频数f累计频数fC累计频率pC(%)

<105454

5.9710~252306(ΣfL)

33.8120~346(fM)

65272.0430~128780

86.1940~8486495.4750~2989398.6760~589899.23≥707905(Σf)100.00第一章数值变量的统计描述计算方法以计算中位数的资料为例,求其P25、P75和QR。P25=10+(10/252)×(905×0.25-54)=16.84(岁)P75=30+(10/128)×(905×0.75-652)=32.09(岁)QR=P75-P25=32.09-16.84=15.25(岁)第一章数值变量的统计描述

三、方差(variance)

方差即离均差平方和的均值。总体方差的符号为σ2,样本方差符号为s2。由于s2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。

第一章数值变量的统计描述四、标准差(standarddeviation)

标准差:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为σ,样本标准差的符号为s;英文缩写为SD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论