第2章:单变量描述分析(上)_第1页
第2章:单变量描述分析(上)_第2页
第2章:单变量描述分析(上)_第3页
第2章:单变量描述分析(上)_第4页
第2章:单变量描述分析(上)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章:单变量描述统计分析(上)第一节分布、频数、频率、比率第二节统计表第三节统计图社会学工作者为了从经验层次上证实自己在研究中所建立的概念、假设和理论,一是要正确的收集资料或数据,二是要学会正确的处理这些数据。本章介绍的内容就是从原始资料加工开始,研究单变量的情况,它包括分布、统计表、统计图、集中趋势和离散趋势的分析,也就是对单变量特征的统计分析。单变量情况举例1、某城市居民中有多少种民族?各占比例多少?2、女性一般在什么年龄结婚?3、某社区有多少违法者,其中多少是初犯,多少是屡犯?4、历届奥林匹克男子跳高冠军所跳的高度是如何分布的?要对这些社会现象或变量进行描述,我们通常有三种办法,一是计算(compute)数据,二是为数据制作一个表(table),即统计表,三是为数据制作制作一个图(graph),即统计图。第一节分布:频数、频率、比率社会统计学里分布(distribution)指的是一个变量的不同取值出现的情况,可以用频数、频率、百分比、比率等指标来进行表示。

一、频数(frequency

)一个概念或变量的各个情况出现的次数或频次,所以又称频数分布或频次分布(frequencydistribution),简称频数或频次。需要注意两个问题:(1)变量的取值必须满足两个条件,一是穷尽性,二是互斥性。穷尽性也叫完备性是指必须把变量的所有取值都列举出来,只有这样才能对所有的调查对象进行归类。互斥性是指变量的每个取值都不能有交叉,从而使每个调查对象仅能归入一类。大家看下面两个表格分别有什么问题?表1、工厂规模频数分布表表2、收入频数分布表(2)频数分布可以用来描述全部四种层次的变量,定类(性别、婚姻状况),定序(受教育程度),而对于定距变量(智商、温度)和定比变量(收入、年龄),由于其取值一般很多,甚至难以穷尽,所以其频数分布通常以分组的形式给出,我们称为组距式分类。家庭结构分布表家庭结构类型频数核心家庭1050直系家庭720联合家庭110其他250合计2130某企业就业人员学历分布表学历频数初中80高中50大学70合计200某班学生的年龄分布表年龄(岁)人数(频数)17101825195020402120225合计15072名离婚者婚龄统计表婚龄人数1-354-6107-92010-121413-15916-18419-21322-24225-27428-301合计72二、频率或比例

(relativefrequencydistribution)表3、两个假想社区中违法者和非违法者的频数分布表研究对象社区1社区2违法者

初犯者5868屡犯者43137非违法者4811081总和5821286表4、两个假想社区中违法者和非违法者的频率分布表研究对象社区1社区2违法者

初犯者0.1000.053屡犯者0.0740.107非违法者0.8260.841总和1.0001.001由于有四舍五入的误差,社区2的比例总和不是1.有时人们希望数据处理的结果使总和正好等于1.000,这就要对某些类别的比例进行调整,按照惯例,我们一般是改变包含最大个案比例的类别中的数字,这样做的原因是在较大的比例中改变小数点后最后一位的数目所造成的影响要比在较小的比例中做同样改变所造成的影响小。这样,社区2中非违法者的比例可以改为0.840,那么所得的总和便为1了。概念小结:将每个变量值出现的频数除以样本容量,就得到该变量值在样本中的相对频数或者比例或者叫做频率,将该频率表示成百分数形式就得到它的百分比分布。比例乘以100即可得到百分比,其含义是我们将类别的容量标准化为100,然后计算每一类别中不同变量取值的数目。我们在实际报告结果的时候,百分比要比比例多。

表5、某社区三个心理卫生中心的个案数目和百分比分布表思考:从表中你可以得出哪些结论?类别A中心B中心C中心总和频数百分比%频数百分比%频数百分比%频数百分比%已婚者6347.38845.54136.619243.8离婚者1914.33719.22623.38218.7订婚者2720.32010.41513.46214.2未婚母亲139.83216.62118.86615.1其他118.3168.398.0368.2总和113100.0193100.0112100.0438100.0使用百分比要遵循两条规则:(1)一定要在百分比或比例的旁边列出个案的数目;(2)只有在百分比基数(分母)的个案数目达到50个左右才能使用百分数。如果个案数目很少,最好直接用每个类别的个案数目而不用百分数。

譬如假定D中心总共有25个个案,其中有4个未婚母亲和7个订婚者,那么这两类所占的百分比就分别为16%和28%,由于许多人习惯只看百分比而不看实际的个案数目,很容易造成一种印象,就是以为订婚者比未婚母亲多得的。我们在以后讨论推论统计时可以看到,4个个案和7个个案之间的差别很可能是由于随机现象的偶然性因素引起的。所以我们可以直接说D中心有4个未婚母亲和7个订婚者。百分比可以从两个方向进行计算:上面的表格显示出每一中心各自的情况,使我们可以看出各类个案的情况,也可以就某一类别在三个中心之间进行比较。如果我们的兴趣主要在某一类型的个案以及各中心的该类型个案的相对数目,比如我们想了解所有已婚者去B中心的百分比,在这种情况下,我们就需要横向的计算百分比。我们取已婚者的总和,由此决定A中心、B中心和C中心在该类别上所占的百分比分别是多少。各百分比横向(而不是纵向)相加应等于100,结果如下表:表6、某社区三个心理卫生中心的横向计算的百分比分布*基数少于50则不计算百分比。三、比率定义:数目A对数目B的比率被定义为A除以B。这里关键是“对”这个词。这个词前面的数是分子,后面的数是分母。假定在地方选举中作为选民登记的有365个共和党人,420个民主党人,130个无党派者,则共和党人对民主党人的比率为365/420;共和党人与民主党人对无党派者的比率为(365+420)/130。注意,比率可以取大于1的值,这点与比例不同。比率与比例的关系比例是比率的一个特殊类型,即分母是个案的总数,分子是这个总数的一部分。一般来讲,比率这一术语通常是指这种情况:分子和分母为各不相干的两个类别。假如我们知道一个公司男职员对女职员的比率是3:1,那么我们可以知道,每4个人里面就有3个男的1个女的,因此男人的比例是75%。比率的分母或者基数可以是任何方便的数字。比如民主党人对无党派者的比率420/130可以写成3.23比1;比如性别比一般由每100个女人中有多少男人来表示。所以性别比为94表示男人略少于女人,出生婴儿性别比为129则表示男婴儿数量上更有优势。基数为1,000或100,000这样的大数时,常使用比率的另一种类型——率(rate),这种情况下使用比例或百分比会得出极小极小的小数。

增长率是比率的另一种常用的类型。在计算这种率时我们用一段时期内实际增加的数量除以这段时期开始时的数量。对增长率来说如果用百分比来表示则可能超过百分之百,如果增长的趋势是逆向的,也可能是负数。比如:中国在2004年的人口自然增长率是5.9/1000;印度为15.8;俄罗斯为-5.9.有报道称,1992年巴塞罗那奥运会举办前后,其房地产价格增长了250~300%作业与练习见公共邮箱第二节统计表所谓统计表就是用表格形式来表示变量的分布,它不需要文字叙述,就能反映出资料的特性以及资料之间的关系,方便我们对统计资料进行查对、比较、分析和记忆。一、统计表的格式、内容、种类格式:表号、总标题、横行标题、纵栏标题、统计数值;内容:主词和宾词;种类:简单表;简单分组表;复合分组表。一个完整的统计表应该具备的内容有:(1)标题部分;(2)栏目部分;(3)线格部分;(4)数字部分;(5)其他要点。不同层次变量统计表的特点1、定类变量表1、家庭结构分布表

(××地,2007年8月)家庭结构类型频数百分比核心家庭105049.3直系家庭72033.8联合家庭1105.2其他25011.7∑2130100.0资料来源:《社会统计学》(第三版)卢淑华编著,第24页。2、定序变量定序变量统计表内容、制作方法与定类变量相同。所不同的是,由于定序变量的取值有大小次序之分,因此在统计表制造时,应保留其变化趋势,不要任意打乱。表2、观众对武侠片的反应统计喜爱程度频数百分比非常爱看7017.9爱看9023.1一般10025.6不爱看10025.6很反感307.7总数39099.93、定距变量和定比变量对于定距变量,我们要区分它是连续型定距变量还是离散型定距变量。离散型变量的制表方法一般与定序变量的制表方法相同。统计表的变量数值按取值的大小排列,不要任意打乱。A、如果变量的取值有限,则可以采用一一列举的方式进行统计表的制作。B、如果变量取值的变化幅度过大,如果一一列举,势必形成很长的分类,而每一类的频数又变的很少。这种情况下适宜采用组距式统计表,即分段统计。(2)对于连续型变量,由于任意两变量之间的取值都是无穷的,而且从原则上讲没有任意两个观察值是绝对相等的,所以我们没有办法采用一一列举的办法使每个取值对应某个确定的频数,解决的办法只能是将变量值进行分组,制作组距式统计表。二、统计表的制作方法(1)组数(intervals):一般调查总数N与分组数有如下经验性关系:表3调查总数N分组数K50-1006-10100-2507-12250以上10-20(2)等距(equallength)和非等距或异距(unequallength)分组一般来说都是采用等距分组。但在社会学中,也并非全部都是等距分组更能反映现象本质的。当然非等距分组会给比较或作图带来一定困难,为了消除此影响,确切反映各组频数的实际分布状况,可以计算频数密度或标准组距频数。具体方法可以参考教材P37页。(3)开口组(open-ended)跟闭口组(close-ended)如果观察值或测量值中有少数非常大或非常小的值,我们叫做极端值,这些值远离大部分数据集中的位置,这时可以用开口组,比如首组“向下开口”或者末组“向上开口”;使用开口组的另一个原因是对信息的保密。(4)如何决定分点的精度(degreeofaccuracy)随着精度的提高,分组点(limits)的精度也要提高。一般分组点比原统计资料的精度要高一位。如统计资料的精度为整数,则分组点就取小数点后面一位计算。举例来说,原统计资料的年龄以年计算,统计范围为1岁-8岁,2岁一个分组,即有1-2岁,3-4岁,5-6岁,7-8岁4个分组,为此应在上述分组值加减0.5岁,得:0.5-2.5岁;2.5-4.5岁;4.5-6.5岁;6.5-8.5岁。前者称为标明组界(statedlimits);后者称为真实组界(truelimits)。试比较上述资料两种组界定义的不同:表4可见,真实组界值是相邻两组标明组界值的中点,它的精度比标明组界要高一位,组与组的分界是连续的,而标明组界则是离散的。标明组界只是分组资料的简化表示,在实际运算时,都要用到真实组界。标明组界真实组界1-20.5-2.53-42.5-4.55-64.5-6.57-86.5-8.5利用原始数据资料制作组距式统计表呢?有两种方法,一种是计算法;另一种是经验法。我们分别来举例说明。1、计算法步骤1、收集数据,写成10×10数据表,数据总数N=100(数据单位“cm”)步骤2、找出数据中最大值L,最小值S,计算极差R(range)即最大值与最小值之差。先在数据表内找出各列最大值,在数据旁边用▲表示,然后找出全体数据的最大值L;同样先在数据表内找出各列最小值,在数据旁边用×表示,然后确定全体数据的最小值S。

R=L-S=194-149=45步骤3、把数据分组(groupingthedata),假如取组数K=10;步骤4、计算组距(classinterval)hh=R/K=45/10=4.5≈5步骤5、根据组距h和分点精度比原统计数据精度高一位的原则,将数据分为K组;

148.5~153.5;153.5~158.5;……193.5~198.5步骤6、计算各组的组中值(midpoint)bi;中心值是每组中间的数值,可按下式计算:

bi=(第i组真实下界值+第i组真实上界值)/2

于是各组的中心值有:151,156,161,166,171,176,181,186,191,196步骤7、用唱票的方法画“正”字,进行频数统计,作统计表。表5、100名男性青年的身高统计表组号i标明组界真实组界中心值bi频数统计频数频率1149~153148.5~153.515120.022154~158153.5~158.5156正50.053159~163158.5~163.5161120.124164~168163.5~168.5166正正正正正250.255169~173168.5~173.5171280.286174~178173.5~178.5176170.177179~183178.5~183.518170.078184~188183.5~188.518630.039189~193188.5~193.519100.0010194~198193.5~198.5196一10.01总和∑=1001.002、经验法即我们按照某些惯例、习惯或研究者的方便来确定组距的情况。比如我们经常使用5、10、20等整数作为组距;人口学通常以5岁为一组进行统计;学生的成绩通常以10为组距,比如60-69为及格;70-79为中;80-89为良;90-100为优秀等。表6、1992年美国生育婴儿的母亲年龄统计表母亲年龄标明组界真实组界组距组中值新生婴儿数(千)20岁以下?-19?-19.5??51820-2420-2419.5-24.55221,07025-2925-2924.5-29.55271,17930-3430-3429.5-34.553289535-3935-3934.5-39.553734540岁及以上40-?39.5-???58∑4,065来源:《美国统计摘要》(1995年)第74页。三、累计表(cumulativetables)所谓累计表表示的是大于某个变量值的频数或频次是多少或小于某个变量值的频数、频率是多少。累计频数一般用大写字母F来表示。累计又分向上累计cf↑和向下累计cf↓两种。(1)对于列举变量取值式累计统计表来说,向上累计cf↑表示小于等于某组上限的累计频数;向下累计cf↓表示大于等于某组下限的累计频数。表7、频数分布与累计频数分布家庭子女数频数向上累计cf↑向下累计cf↓0222+10=12132+3=53+7=10233+5=83+4=7322+8=102+2=4411+10=111+1=2511+11=121(2)对于组距式统计表来说,向上累计cf↑表示小于等于某组上限的累计频数;向下累计cf↓表示大于等于某组下限的累计频数。同理,如果把频数换成频率,则用c%↑或c%↓来表示。累计表的应用,在于通过它可以比较个体在总体中的位置。比如甲、乙两同学分布在班里都考得80分,那么谁在班里的成绩更好呢?假如甲、乙各自在班里的累计频数cf↑分别为95和60,每个班都是100人;假如甲乙两人都得80分,甲班200人,乙班100人,向上累计频数甲为95,乙为60,谁的成绩更好一些?

累计频数累计频率成绩甲班乙班甲班cf↑乙班cf↑甲班c%↑乙班c%↑60-695020502025%20%70-794540956048%60%80-8965301609080%90%90-994010200100100%100%合计200100

第三节统计图统计图就是用图形的形式来表示变量的分布。它的优点是比统计表更为直观和形象、缺点是不及统计表精确。统计图有很多种类,比如圆饼图、条形图、直方图、折线图、点线图、盒形图、茎叶图、散点图等,甚至地图也可以视为统计图的一种。目前阶段,我们只要求掌握圆饼图、条形图、直方图和折线图四种。不同层次的变量,适合选用不用的统计图:定类、定序变量:圆饼图、条形图定距、定比变量:直方图、折线图一、圆饼图(piegraph)圆饼图也叫圆瓣图,是将资料展示在一个圆平面上,通常用圆形代表现象的总体,用圆饼代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。圆饼图的制作方法是将统计表中的百分数乘以360度,即可得到各圆瓣的圆心角度数。表1、家庭结构的百分数分布及对应圆心角度数家庭结构频数百分数对应圆心角度数核心家庭105049.3177.48°(=0.493×360°)直系家庭72033.8121.68°(=0.338×360°)联合家庭1105.218.72°(=0.052×360°)其他25011.742.12°(=0.117×360°)图1、家庭结构分布图°圆饼图的优缺点优点:(1)各变量取值的排列顺序可以随意;(2)易于显示每一组的相对大小,并进行比较;缺点:(1)它只能显示变量不同取值分别占的比例,不能很好的体现样本容量,如果上例中样本容量是213而不是2130,其得到的圆饼图还是一样的;(2)圆饼图不适用分组太多的情况,如果分的块非常多,而每一块都非常小,就失去了原有的效果。所以多适用定类和定序变量。二、条形图(bargraph)条形图是用长条的高度来表示资料类别的频数或百分比;而长条的宽度没有意义,为了美观起见,一般都画成等宽长条。长条既可以平行于横轴,也可以平行于纵轴。如果是定类变量,图形画作离散的长条;如果是定序变量,则长条的排列次序应该与变量取值次序相一致,图形既可以画作紧挨着的长条,也可以是离散的长条。图2、家庭结构分布条形图图3、某全校选修课的选课人数统计图三、直方图(Histogramgraph)直方图只适用定距变量和定比变量。从图形来看它也是由长条所组成,但它与条形图不同的是:(1)每一条Bar之间要连起来,因为组与组之间实际上是连续的;(2)条形的宽度是有意义的,直方图以面积(长与宽的乘积)而不是高度来表示频数或频率分布。(3)条形的宽度表示组距(intervalwidth),条形的高度表示频数密度或频率密度。所有面积的和为样本总量或者1。频数密度=频数/真实组距频率密度=频度/真实组距对于等距分组,用频数或频率作为条形高度,图形的相对比例关系是不变的,仍然可以用频数或频率作为条形的相对高度;比如教材p40,图3.1所示。但是在非等距分组情况下,如果用频数作为条形高度,将会产生错误。如教材图3.2所示;所以用面积来表示各组的频数分布就避免了不必要的错觉。此时长条的高度不是频数而是频数密度。只有密度才能科学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论