版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章定量资料的统计描述详解演示文稿本文档共111页;当前第1页;编辑于星期三\11点35分优选第二章定量资料的统计描述本文档共111页;当前第2页;编辑于星期三\11点35分
统计描述
用统计表、或统计图、或统计指标(描述统计量)概括和揭示资料(data)的数量信息和特征。
目的使资料简洁、明了,便于大致了解资料的数量规律。本文档共111页;当前第3页;编辑于星期三\11点35分一、频数分布表和频数分布图1、离散型定量变量的频数分布例2-11998年某山区96名孕妇产前检查次数资料如下:
0,3,2,0,1,5,6,3,2,4,1,0,6,5,……,4,7。本文档共111页;当前第4页;编辑于星期三\11点35分检查次数频数频率(%)累计人数累计频率(%)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5>51212.596100.0合计96100.0————表2-11998年某地96名妇女产前检查次数频数分布本文档共111页;当前第5页;编辑于星期三\11点35分本文档共111页;当前第6页;编辑于星期三\11点35分
频数(frequency):重复某随机试验,某随机事件出现的次数,称为频数。
频数分布表(frequencydistributiontable)简称频数表(frequencytable):
有组段与频数的统计表,称频数表。
本文档共111页;当前第7页;编辑于星期三\11点35分2、连续型定量变量的频数分布
1)何为连续型定量变量?
2)其与离散型定量变量有何区别?
3)连续型定量变量的频数分布表该如何绘制?本文档共111页;当前第8页;编辑于星期三\11点35分例2-2抽样调查某地120名18岁到38岁健康男性居民血清铁含量(umol/L),数据如下。试编制血清铁资料的频数分布表。7.428.6523.0221.619.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.14…….14.1816.52本文档共111页;当前第9页;编辑于星期三\11点35分组段频数频率(%)累计频数累计频率(%)6---10.8310.838---32.5043.3310---65.00108.3312---86.671815.0014---1210.003025.0016---2016.675041.6718---2722.507764.1720---1815.009579.1722---1210.0010789.1724---86.6711595.8326---43.3311999.1728---3010.83120100.00合计120100.00————表2-2120名正常成年男子血清铁含量(umol/L)频数表本文档共111页;当前第10页;编辑于星期三\11点35分连续型定量变量频数表的编制方法:1)计算全距(range,R)
R=最大值-最小值=29.64-7.42=22.222)确定组段数(K)与组距如等组距,则组距=R/K3)确定组段、计数归表本文档共111页;当前第11页;编辑于星期三\11点35分图2-2120名健康成年男子血清铁含量频数直方图本文档共111页;当前第12页;编辑于星期三\11点35分0.040.08图2-3120名健康成年男子血清铁含量频率密度直方图本文档共111页;当前第13页;编辑于星期三\11点35分直方图(histogram)
为直观反映频数表,利用直角坐标系绘制频数图,横轴表示变量的“各种情形”,纵轴表示频数、或频率、或频率密度。本文档共111页;当前第14页;编辑于星期三\11点35分潜伏期(小时)频数累计频数0---353512---7010524---4014536---2316848---1218060---618672---841187合计187——表2-3187例某种沙门氏菌食物中毒潜伏期分布本文档共111页;当前第15页;编辑于星期三\11点35分图2-4187例某种沙门氏菌食物中毒潜伏期频数直方图本文档共111页;当前第16页;编辑于星期三\11点35分变量频数分布的类型:1、对称分布2、偏态分布:正偏峰(positiveskew)分布(向左偏)负偏峰(negativeskew)分布(向右偏)本文档共111页;当前第17页;编辑于星期三\11点35分频数分布的两个特征1、集中趋势(centraltendency)(平均水平)2、离散趋势(tendencyofdispersion)(变异)
集中趋势与离散趋势同时存在,通过描述集中趋势与离散趋势可较全面地揭示变量分布的特征。本文档共111页;当前第18页;编辑于星期三\11点35分左撇子更聪明吗?居里夫人、牛顿、莫扎特、拿破仑等本文档共111页;当前第19页;编辑于星期三\11点35分英国有一项研究
对1.1万名英国儿童的用手习惯和智商的调查显示:
左撇子和右撇子平均智商几乎没有区别。不过,左撇子似乎更容易走极端,在智商极高和智商极差的孩子中,左撇子的比例明显较高。
如何用统计俗语描述该研究结果?
本文档共111页;当前第20页;编辑于星期三\11点35分平均智商相同,但变异程度(离散)不同。平均智商相同,但分布不一样。本文档共111页;当前第21页;编辑于星期三\11点35分二、描述定量变量的统计指标(定量变量的数值特征)本文档共111页;当前第22页;编辑于星期三\11点35分1、描述集中趋势的统计指标(平均数average)1)算术均数(arithmeticmean),简称均数2)几何均数(geometricmean,G)3)中位数(median,M)4)众数(mode)本文档共111页;当前第23页;编辑于星期三\11点35分1)算术平均数(arithmeticmean,mean):描述对称分布资料的平均水平本文档共111页;当前第24页;编辑于星期三\11点35分本文档共111页;当前第25页;编辑于星期三\11点35分月工资x员工数f员工比重f/Σff·xΣf·x/n80050.104000801000100.20100002001200200.4024000480150070.1410500210200050.1010000200250030.067500150合计501.00660001320某公司员工工资情况(单位:元)本文档共111页;当前第26页;编辑于星期三\11点35分2)几何平均数(geometricmean)几何平均数实为对数值的算术均数的反对数本文档共111页;当前第27页;编辑于星期三\11点35分
假设甲商品今年2月从200元上涨到250元,其价格比为1.25,上涨率为25%;3月份又从250元下降到200元,其价格比为0.8,下降了20%。求该商品2、3月份的平均价格比。本文档共111页;当前第28页;编辑于星期三\11点35分
例
有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。
60人的血清平均抗体效价为1:20.705。本文档共111页;当前第29页;编辑于星期三\11点35分3)中位数(median):可用于各种分布的定量资料。
指总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。对于样本资料,有如下计算公式:n为奇数时:n为偶数时:本文档共111页;当前第30页;编辑于星期三\11点35分
例:对某项高风险的新手术术后的生存时间进行跟踪,共调查7人,6人死亡之前分别生存了5天,6天,10天,16天,25天,29天,还有一人术后30天随访时仍存活.求7人的平均存活时间?本文档共111页;当前第31页;编辑于星期三\11点35分
对于频数表资料,可用百分位数的方法计算中位数。
本文档共111页;当前第32页;编辑于星期三\11点35分
百分位数(percentile,Px):
对总体来说,它表示总体中数值小于Px个体恰有x%。对样本来说,它表示在按照升序排列的数列里,小于Px的个体数在整个样本中所占百分比为x%。显然,中位数就是P50。百分位数:位置描述指标本文档共111页;当前第33页;编辑于星期三\11点35分某班90人某科程考试成绩本文档共111页;当前第34页;编辑于星期三\11点35分组段频数
频率(%)54---1011.158---3134.462---2022.266---1415.670---1011.174---22.278---22.282---8611.1合计90100.0表2-2某班某课程考试成绩频数分布表本文档共111页;当前第35页;编辑于星期三\11点35分
某班某课程考试成绩直方图本文档共111页;当前第36页;编辑于星期三\11点35分某班某课程考试成绩箱形图异常值(outlier)超过1.5倍QRPercentilesP25=60 P50=62 P75=67.25Max=83Min=54
本文档共111页;当前第37页;编辑于星期三\11点35分样本百分位的计算公式为:式中:L为所求百分位数所在组段的下限;
i为该组段的组距;
fx为该组段的频数;
n为总频数;
fL为该组段之前的累计频数。本文档共111页;当前第38页;编辑于星期三\11点35分4)众数(mode):总体中指出现机会最高的数值;样本众数则是在样本中出现次数最多的数值。表2-11998年某地96名妇女产前检查次数频数分布检查次数频数频率(%)累计人数累计频率(%)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5>51212.596100.0合计96100.0————本文档共111页;当前第39页;编辑于星期三\11点35分算术平均数与中位数的区别与联系1、都是用来表示总体的一般水平或分布的集中趋势,都属于抽象化的代表值。2、代表的意义不同:算术平均数是对所有变量值来计算的平均数,它能概括反映整个数列中每个变量值的平均水平;
中位数则是根据总体中处于中间位置上的少数变量值来确定的代表值。从这一点来说,算术平均数对数据的概括能力比中位数显然来的更强一些。本文档共111页;当前第40页;编辑于星期三\11点35分3、与中位数相比,算术平均数对数据变化的“灵敏度”很高。但算术平均数极容易受到个别极端值的影响,即对极端值的“耐抗性”较低。“灵敏度”与“耐抗性”是一对矛盾,实际应用中,可根据这些特点和分析的要求,审慎的选择有关指标。(分布类型)4、适用资料的类型:算术平均数和中位数均适用于定量资料,但中位数还适用于有序分类资料。本文档共111页;当前第41页;编辑于星期三\11点35分问题:考核甲、乙、丙三个中药店服务员的技术水平,令每人每次从盒中取10克某种中药,各取5次进行称量,结果如下(g):甲:9.610.510.09.510.4乙:9.910.19.910.29.9丙:9.59.59.69.49.4本文档共111页;当前第42页;编辑于星期三\11点35分2、描述离散趋势(变异)的统计指标1)极差(range,R)2)四分位数间距(quartilerange,QR)3)方差(variance)4)标准差(standarddeviation)5)变异系数(coefficientofvariation)本文档共111页;当前第43页;编辑于星期三\11点35分1)极差(range,R):
R=最大值–最小值A:2628303234B:2427303336C:2629303134本文档共111页;当前第44页;编辑于星期三\11点35分
极差特点:
1)计算方便;
2)只考虑两个极值;
3)与n有关,用于比较是需注意。
本文档共111页;当前第45页;编辑于星期三\11点35分2)四分位数间距(quartilerange,QR):
QR=P75–P25本文档共111页;当前第46页;编辑于星期三\11点35分四分位数间距:包括总体中数值居中的50%的个体;与全距的区别仅仅在于计算范围较窄。计算时没用到每个个体的数值;其值越大,说明变量变异越大。本文档共111页;当前第47页;编辑于星期三\11点35分3)方差(variance),
又称均方差(meansquaredeviation)本文档共111页;当前第48页;编辑于星期三\11点35分xX-u(x-u)226-41628-243000322434416合计04029本文档共111页;当前第49页;编辑于星期三\11点35分样本方差:本文档共111页;当前第50页;编辑于星期三\11点35分4)标准差(standarddeviation):方差的算术平方根,即为标准差。本文档共111页;当前第51页;编辑于星期三\11点35分
标准差与方差的含义类似:
1)数值越大,说明变量的变异越大。
2)都适合用来描述呈对称分布变量的离散趋势(变异)。
3)两者不同的是量纲不一样。本文档共111页;当前第52页;编辑于星期三\11点35分5)变异系数:标准差与均数之比,即为变异系数。用于描述对称分布资料的变异程度。变异系数无量纲,可用于量纲相同、或不同的变量变异程度大小的比较。本文档共111页;当前第53页;编辑于星期三\11点35分变异程度指标总结:全距、四分位数间距:具有绝对数的形式。方差:离均差平方的算术平均数,具有绝对数的形式。标准差:离均差平均数的形式,具有绝对数的形式。
共同点:都有具体计量单位(英尺、美元、英镑)变异系数:是一类相对数形式的变异指标。排除计量单位对计算结果的影响。本文档共111页;当前第54页;编辑于星期三\11点35分
n1=31015均数=10元标准差=5元n2=395100105均数=100元标准差=5元本文档共111页;当前第55页;编辑于星期三\11点35分
同样的变异指标值对于不同的平均水平通常具有不同的实际分析意义。只有当两个被比较事物平均数相同或相近时,直接利用标准差等有量纲的变异指标来进行分析,才是合理的。本文档共111页;当前第56页;编辑于星期三\11点35分人均年收入标准差四分位数变异系数%甲市600015032002.5乙市1200018035001.5两个城市的居民年收入情况乙市年收入与标准差均高于甲市,是否可认为乙市收入差距高于甲市呢?变异系数显示:乙市居民的收入差距相对于他们的平均收入来说,比甲市要低的多。故以居民对收入差距所承受的压力而言,甲市比乙市要高。本文档共111页;当前第57页;编辑于星期三\11点35分对称分布偏态分布开口数据等比级数资料平均水平算术均数中位数中位数几何均数中位数变异程度标准差方差变异系数全距四分位数间距全距四分位间距全距对数标准差描述统计量的一般应用总结表本文档共111页;当前第58页;编辑于星期三\11点35分问题:均数、方差(标准差)常用来描述对称分布资料,为什么?本文档共111页;当前第59页;编辑于星期三\11点35分3、描述分布形态的统计指标1)偏度系数(coefficientofskewness,SKEW)SKEW是度量随机变量分布对称性的指标。理论上,总体偏度系数取值为0时,分布是对称的;取值为正时,分布为正偏态;取值为负时,分布为负偏态。本文档共111页;当前第60页;编辑于星期三\11点35分2)峰度系数(coefficientofkurtosis,KURT)KURT是度量随机变量分布曲线较正态分布曲线的峰态“平阔或陡峭”的指标。理论上,正态分布的总体峰度系数为0;取值为负时,其分布较正态分布的峰平阔;取值为正时,其分布较正态分布的峰尖峭。本文档共111页;当前第61页;编辑于星期三\11点35分一班90人《卫生统计》考试成绩本文档共111页;当前第62页;编辑于星期三\11点35分二班90人《卫生统计》考试成绩两班成绩情况如何?用什么方法来揭示其差别?本文档共111页;当前第63页;编辑于星期三\11点35分两班《卫生统计》成绩频数分布表本文档共111页;当前第64页;编辑于星期三\11点35分本文档共111页;当前第65页;编辑于星期三\11点35分一、二班《卫生统计》成绩统计结果本文档共111页;当前第66页;编辑于星期三\11点35分本文档共111页;当前第67页;编辑于星期三\11点35分三、统计表与统计图
本文档共111页;当前第68页;编辑于星期三\11点35分作用与特点统计分析结果的表现形式是多种多样的。除文字叙述外,统计表与统计图也是一种常用形式。统计图表简单明了,可代替冗长的文字叙述,便于阅读和把握主要的研究结果。在数字语言中,统计表应是基本的,统计图常起补充作用。把文字叙述与统计图表结合起来才是最完美、最生动的数字语言。本文档共111页;当前第69页;编辑于星期三\11点35分统计图表都是一种具有综合性和总结性的叙述数字资料的方法。两者的形式不同,使用的场合也各有侧重。统计图在表示事物的变化趋势、事物间关系和分布方面有其特别的优势,缺点是对资料的描述不够细致。统计表则容量大,能将数字精确到所需小数位,并有利于进一步的统计处理,故其应用更为广泛。本文档共111页;当前第70页;编辑于星期三\11点35分统计表
statisticaltable本文档共111页;当前第71页;编辑于星期三\11点35分一、统计表的编制要求简单明了,重点突出,对比鲜明。主语谓语划分清楚。主语是统计表所要说明的事物,谓语是用来说明事物的指标,多为数字指标。一般说来,统计表的主语排在左端,谓语排在表的右端。本文档共111页;当前第72页;编辑于星期三\11点35分二、统计表的结构
表号标题横标目名称纵标目横标目数字合计本文档共111页;当前第73页;编辑于星期三\11点35分1、标题:标题应概括表的主要内容,一般包括研究的时间、地点和研究内容,写在表的上端中央。2、标目:(横标目、纵标目)
横标目列于表的左侧,是表的主语位置,说明横行数字的涵义,一般是所研究事物的分组。
纵标目列于表的右上方,是表的谓语位置,说明各纵列数字的涵义,一般表示被研究事物的各项指标。本文档共111页;当前第74页;编辑于星期三\11点35分3、线条:一张表至少要有三条线(三线表)。有合计栏的表格可再用横线将“合计”分隔开,对一些有两组标目的组合表,需用横线将两组标目分隔开。其它竖线和斜线一概省去。4、数字:一般用阿拉伯数字表示,同一指标的小数位应一致,且按小数点位数对齐。不留空格,无数字用“——”表示,缺失数字用“….”表示。5、备注不要列入表内,如表内有需要说明的内容,应在表内做出*号标记,并在表底线下加以说明。本文档共111页;当前第75页;编辑于星期三\11点35分
三、统计表的种类
1、简单表
表3-1某地某年**药治疗急性咽喉炎疗效比较组别例数有效数有效率%试验组1079386.9对照组1089477.8本文档共111页;当前第76页;编辑于星期三\11点35分2、复合表
表3-2某地某年不同年龄、性别的儿童青少年意外损伤情况
年龄(岁)男女调查数损伤数损伤率%调查数损伤数损伤率%3.5--4476614.77424296.846.5--1215927.571239534.289.5--118012210.341070807.4812.5--121715012.331136665.8115.8--18.56226510.45582203.44合计468149510.5744512485.57本文档共111页;当前第77页;编辑于星期三\11点35分四、应用举例
表1治疗组与对照组的疗效比较治疗组对照组疗效常规剂量大剂量常规剂量大剂量例数百分率(%)例数百分率(%)例数百分率(%)例数百分率(%)显效21/6830.914/6023.30/240.03/319.7有效43/6863.244/6073.321/2487.526/3183.9无效4/685.92/603.43/2412.52/316.4总有效率64/6894.158/6096.722/2487.529/3193.5本文档共111页;当前第78页;编辑于星期三\11点35分
表1
不同治疗剂量的治疗组和对照组疗效比较*:总有效=显效+有效级别总例数疗效总有效*显效有效无效例数率(%)治疗组1283587612295.3常规剂量68214346494.1大剂量60144425896.7对照组5534755090.9常规剂量2402132187.5大剂量3132622993.5本文档共111页;当前第79页;编辑于星期三\11点35分
问题:某地不同年龄儿童身高体检资料
年龄例数均数±标准差587114.1±5.086605117.4±5.88--------------本文档共111页;当前第80页;编辑于星期三\11点35分问题:某地不同年龄不同性别儿童身高体检资料年龄男女nmean±SDnmean±SD575114.1±5.0887114.7±5.166158117.4±5.88183117.1±5.80---------------------本文档共111页;当前第81页;编辑于星期三\11点35分问题:某地城乡不同年龄不同性别儿童身高体检资料男女年龄城市乡村城市乡村nX±SnX±SDnX±SDnX±SD567本文档共111页;当前第82页;编辑于星期三\11点35分统计图
statisticalchart本文档共111页;当前第83页;编辑于星期三\11点35分
统计图是利用几何学上的点、线、面、体等图形,有时也利用自然地图来表示资料的多少和分布,以及变化趋势或相互关系。
本文档共111页;当前第84页;编辑于星期三\11点35分一、制图的一般原则1、按资料的性质和分析目的选用合适的图形。2、要有标题:概括表的主要内容,包括时间、地点和研究内容,一般写在图的下端中央。3、统计图一般有横轴和纵轴:横轴是主语位置所在,纵轴则为谓语位置。一般将两轴的相交点即为原点处定为0,横轴尺度自左至右,纵轴尺度自下而上,纵横比例大致为5:7。4、当要用不同线条和颜色表达不同事物或对象时,需要附图例加以说明。本文档共111页;当前第85页;编辑于星期三\11点35分二、常用统计图的种类、选择与作用图形种类资料性质特征和作用条图间断性品质资料以条的高度表示数值,比较大小百分构成图间断性品质资料以全长为100%,看结构圆图间断性品质资料扇面表示数值,每1%为3.6度,结构直方图连续性数量资料以矩形面积表示数值,看群体分布线图动态资料看变化趋势散点图连续性、间断性看两变量间的关系统计地图连续性、间断性表示事物数量地理分布箱式图连续性数量资料描述变量平均水平与变异程度本文档共111页;当前第86页;编辑于星期三\11点35分三、常见统计图1、条图(bargraph):用等宽的直条长短来代表按性质分类的资料各类别的数值大小,表示它们之间的对比关系。以横轴为基线,表示条个类别;纵轴表示其数值。纵轴尺度从“0”开始,中间不宜折断。在同一图内尺度单位代表同一数量时,必须一律相等。各直条的宽度应相等,间隙的宽度与直条的宽度相等或为直条宽度的1/2。复式直条图一个组包括两个以上直条,直条所表示的类别应用图例说明。本文档共111页;当前第87页;编辑于星期三\11点35分三城市某种传染病发病率(‰)比较本文档共111页;当前第88页;编辑于星期三\11点35分某地89年与90年男女婴儿死亡率(‰
)比较本文档共111页;当前第89页;编辑于星期三\11点35分2010年某校1、2班某课程成绩比较本文档共111页;当前第90页;编辑于星期三\11点35分2、百分条图(percentgraph):表示事物内部各组成部分的构成情况,又称构成条图。先绘制一个标尺,尺度分成10格,每格代表10%,总长度为100%。绘制一直条,全长等于标尺的100%,直条宽度可任意选择,以直条内相对面积的大小代表数量的百分比。直条各部分用线分开,并注明简要文字及百分比。资料可由大到小,或按习惯次序,自左至右顺序排列。如有两种或以上性质类似的资料相比较,则绘制的各直条应全长相同,且各直条中各部分的排列次序要一致,以利比较分析。本文档共111页;当前第91页;编辑于星期三\11点35分某矿1961~1965年各期存活矽肺构成比较
本文档共111页;当前第92页;编辑于星期三\11点35分3、圆图(circlegraph):用途与百分条图相同,表示事物内部各部分的构成情况。先绘一圆形,由于圆周360度,因此每1%相当于3.6度的圆周角,将百分比乘以3.6度即为构成部分应占的圆周角度数。圆形图上各部分按自然顺序或大小排列,一般相当于时种9点或12点为起点,顺时钟方向排列,扇形面积即代表某一构成部分。本文档共111页;当前第93页;编辑于星期三\11点35分某民族血型构成本文档共111页;当前第94页;编辑于星期三\11点35分4、线图(linegraph):用线段的上升或下降来表示事物在时间上的变化趋势,或某一现象随另一现象的变化情况,适用于连续性资
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购车协议范本样式模板
- 贷款保证书英文
- 赞助协议书模板
- 软件外包服务合同范本
- 轻松应对初中生物考试的策略
- 输送设备机油购销合同
- 连锁加盟店合同的解除协议范本
- 道路建设沥青购销合同
- 郑州地理一模深度解析版揭示地理规律
- 酒店市场调研服务合同
- MT_T 1172-2019 矿用移动式注浆泵技术条件_(高清版)
- 服装CAD教程适用于ET等软件打板推板的快捷键及功能
- 国内几种常见的离子膜电解槽槽型结构简介
- 建筑防火设计_课程设计报告书
- 公司erp项目激励制度
- 最新整理土木工程监理社会调查报告
- 住房公积金提取承诺书(授权书)
- 人教版小学六年级数学毕业升学试卷(附:试卷命题意图、参考答案及评分标准)
- 浅谈动物园长颈鹿日常饲养和管理
- 2010东风标致408原厂电路图
- 闫庄镇卫村朝元观及碑刻考
评论
0/150
提交评论