版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数值变量资料的统计描述第一节频数表第二章统计描述频数分布表用于反映各变量(观察单位的某种特征)值及其相应频数之间关系的一类表格,我们称之为频数表.这里频数指对一种变量在多个观察单位中进行多次观察,其中某一变量值重复出现的次数.不同的资料类型编制频数表难易程度不同,其中计数资料和等级资料比较简单,而计量资料相对较繁杂些.第二章统计描述计量资料频数表的编制
一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.
第二章统计描述编制频数表的步骤编制频数表步骤流程图第二章统计描述举例说明计量资料频数表的编制过程
第二章统计描述步骤如下:R=160.8-129.4=31.4。组段数=10;组距=R/10=3.14≈30(cm);按要求确定每一组段上下限。分组统计每一组段的频数,编制频数表。第二章统计描述计量资料频数分布表第二章统计描述计量资料频数分布图
第二章统计描述频数分布表的用途揭示数值变量频数分布的类型和特征作为陈述资料的形式便于发现一些特大或特小的可疑值便于进一步的统计分析第二章统计描述计量资料频数分布的类型和特征第二章统计描述第二节集中趋势指标第二章统计描述第二章统计描述第二章统计描述第二章统计描述第二章统计描述第二章统计描述第二章统计描述3.中位数(median)
中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
第二章统计描述第二章统计描述第二章统计描述频数表资料的中位数下限值L上限值Ui;fm中位数Md第二章统计描述
组段(1)
划记(2)
频数,f(3)
累计频数Sf(4)累计百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合计
3160100.0(98.1~100)160中位数=1.1+0.1x[(160x50%-72)/20]=1.14第二章统计描述均数、中位数、众数三者关系正态分布时:均数=中位数=众数正偏态分布时:均数>中位数>众数负偏态分布时:均数<中位数<众数第二章统计描述第三节变异(variation)指标第二章统计描述
反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差Variance
4.标准差StandardDeviation
5.变异系数CoefficientofVariation
第二章统计描述盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙第二章统计描述1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定1204020第二章统计描述2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:QR=P75-P25四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px第二章统计描述频数表资料的百分位数下限值L上限值Ui;fm百分位数Px第二章统计描述
组段(1)
划记(2)
频数,f(3)
累计频数Sf(4)累计百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合计
3160100.0(98.1~100)160P25=0.9+0.1x[(160x25%-37)/17]=0.92P75=1.3+0.1x[(160x75%-110)/17]=1.36QR=1.36-0.92=0.44;QD=0.22第二章统计描述3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。第二章统计描述样本方差为什么要除以(n-1)
与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。
第二章统计描述4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。第二章统计描述标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500标准差50.9915.817.91第二章统计描述5.变异系数变异系数(coefficientofvariation,CV)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%第二章统计描述变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距第二章统计描述第四节正态分布第二章统计描述正态分布的通俗概念:如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙。),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。正态分布的概念第二章统计描述
下面我们以第一节某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。频数分布表:第二章统计描述频数分布图一(又称直方图)
第二章统计描述正态分布的数理统计学概念:如果随机变量(X)的概率密度函数为:
-∞<x<+∞
则该随机变量服从正态分布。式中σ为总体标准差;μ为总体均数;π为圆周率,即3.14159···;e为自然对数的底,即2.71828···。第二章统计描述若某一随机变量的概率密度函数(频率曲线方程)为上式,则称该变量X服从参数为μ和σ的正态分布,记为:X~N(μ,σ2)。函数方程中μ为位置参数,σ为形状参数。在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若μ变小时,曲线位置向左移。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”。第二章统计描述正态分布曲线由两个参数决定,即总体均数μ和总体标准差σ。在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若变小时,曲线位置向左移,故称μ为位置参数。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”,故称σ为形态参数或变异度参数。N(μ,12)、N(μ,22)、N(μ,32)N(μ1
,σ2)、N(μ2
,σ2)
第二章统计描述正态分布的特征及其面积规律正态分布曲线位于横轴上方,呈钟形。正态分布曲线以均数所在处最高,且以均数为中心左右对称。第二章统计描述正态曲线下面积分布有一定的规律性。对于服从正态分布的随机变量(X),随机变量值出现在某一区间(x1,x2)的概率与正态分布概率密度曲线与横轴在该区间所围成的区域的面积大小相对应(相等)。正态分布概率密度曲线与横轴围成的区域的总面积恒等于1。正态分布概率密度曲线下横轴上一定区间的面积可应用数学知识求出。在实际应用中,由于所有正态分布都可以通过变量变换转变为标准正态分。第二章统计描述若某一随机变量X,其总体均数μ=0,总体标准差σ=1,即X~N(0,1),则称变量X服从标准正态分布。习惯把服从标准正态分布的变量用字母U或Z表示,此时,我们把U或Z称为标准正态变量。标准正态分布是正态分布中的一个典型分布,数理统计上证明:对一服从正态分布的随机变量(X),若进行特定的变量变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论