谈单变量描述性统计分析_第1页
谈单变量描述性统计分析_第2页
谈单变量描述性统计分析_第3页
谈单变量描述性统计分析_第4页
谈单变量描述性统计分析_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 单变量描述性统计分析在上一章中,我们回忆了社会调查研究的历程,了解了统计分析在社会调查研究中的地位,学习了统计分析的内容以及如何选用相应的统计分析方法。有没有同学,能够讲一下,选择统计分析方法的标准有哪些?那么,今天这节课,我们就要开始学习社会统计学的核心内容了。通过之前的介绍,大伙儿明白,借助社会调查,我们能够收集到大量的资料,但这些原始资料,往往是杂乱无章的。因此,在学会正确收集资料或数据的同时,我们还必须学习如何正确地处理这些数据。假如不对其进行加工处理,那么我们的调查研究活动将是毫无意义的,收集上来的只是是一堆堆的废纸。面对纷繁复杂、毫无章法可言的原始资料,我们应该从何着手呢?

2、一般来讲,人们做事适应于先易后难。那个地点,我们同样遵循那个规律。大伙儿还记不记得,统计分析包括哪两类?描述统计法和推论统计法。简单来讲,描述性统计是就样本讲样本,就总体讲总体。而推论统计则是要由样本的情况来推论总体。这二者相比,显然,前者更为简单。而且它是推论统计的前提。因此,在猎取资料之后,我们首先要进行描述性统计。比如,我们抽取了一个由100人组成的样本,现在要了解他们的年龄状况。由于那个地点只涉及年龄这一个变量。因此,我们将选用的是单变量描述统计法。而假如,我们想要了解样本中职业与收入的关系。请同学们告诉我,那个地点涉及几个变量?两个,对不对?一个是职业,一个是收入。而且,那个地点我们

3、要了解的是样本中职业和收入两个变量之间的关系,因此,我们要选用双变量描述统计法。同样遵循先易后难的原则。我们首先会选择适当的描述统计方法来简化每一个变量的资料,既使用单变量描述统计。这也是我们第三章中将要给大伙儿介绍的。之后,我们会再进一步分析变量与变量之间的关系,即采纳双变量描述统计法。至于哪一种统计分析方法更加合适呢?刚才大伙儿回忆了我们第一章中学习的选择统计方法的标准。其中最重要的标准是什么啊?变量的测量层次:定类、定序、定距。专门好。在第三章中我们将按照变量的测量层次为大伙儿介绍单变量描述统计法。在介绍之前,我们要重申一个原则,即适用于较低测量层次的统计法,也能够适用于较高的层次。什么

4、缘故会如此呢?大伙儿还记不记得?这是由于后者具有前者的数学特质。反之,要求较高测量层次的统计法,不能用于较低的层次,因为后者的数学特质未能符合该统计法的要求。明确了这一点之后,我们就来学习本章的第一节最差不多的单变量描述统计技术。在大多数的调查问卷中,都会设置有关性不的问题。上节课,我们介绍过,性不是一个典型的定类变量。假设,我们对本班同学进行一次调查,那么现在,我希望大伙儿能够对性不那个变量的相关情况进行一下讲明。有没有同学能够回答我?专门好,刚才这位同学讲明了咱们班学生的性不构成状况。实际也确实是统计了一下本班男女生的人数?这事实上确实是一种单变量的描述统计方法次数分布的方法。它是用于简化

5、一个定类变量资料的最差不多方法。简单来讲,确实是计算变量的各个取值出现的次数或频次。因此,它又被称为频次分布。以分析性不变量为例,实际确实是要计算男生和女生各有多少名。要对频次分布情况进行描述,我们能够采纳四种方法。第一种方法是文字法。如某班60名学生中,32人是女生、28人是男生;第二种方法是集合法。第三种是统计表法。第四种则是统计图法。第一种方法十分简单,我们不再详述,下面,我们一起看一下第二种方法。同样以刚才的性不状况为例。我们将性不看作一个变量X,它的可能取值包括:X1-男,X2-女。现在我们采纳高中所学的集合方式对其分布情况进行描述。(X1,32)(X2,28)。通过那个例子,大伙儿

6、能够发觉,括号中的第一项是变量X的一种可能取值,第二项则是这一取值对应的次数。以这种集合方式将某个变量的所有取值及其对应的次数表示出来,我们就能够了解其次数分布情况。记住,一定要列出某个变量的所有取值及其对应的次数。职业次数比例频率%干部1100.20020.0工人1520.27627.6农民2880.52452.4总数5501.000100.0因此,我们也能够采纳统计表的方式来描述变量的次数分布情况。如,我们明白某学校550名学生的父亲职业,其中110名学生的父亲是干部,152名学生的父亲是工人,另有288名学生的父亲是农民。这是采纳的文字法讲明了次数分布情况。假如,要求采纳集合法呢?应该如

7、何写?将父亲职业看作变量X,它包括三个取值,X1-干部,X2-工人,X3-农民。接下去呢?(X1,110)(X2,152)(X3,288)。现在,我们依照这一系列数据做一个统计表。通过那个表格,我们能够更加清晰地了解该学校学生父亲的职业分布情况。至于统计图法,我们在后面的内容中一起为大伙儿介绍。频次分布能够对原资料进行初步的简化,然而,现在面临如此一个问题。我们明白了另一学校学生父亲的职业分布情况。通过这两个表格,我发觉,前一所学校中学生父亲为干部的多于后一所学校,父亲职业为工人的也较后一所学校更多。大伙儿认真考虑一下,我那个讲法有没有问题?或者讲,如此的比职业次数比例频率%干部500.104

8、10.4工人1350.28128.1农民2950.61561.5总数4801.000100.0较有没有意义?前一所学校的学生总数多于后一所学校。因此,尽管我们明白了两所学校的频次分布情况,但却不能盲目地进行比较,因为两个学校的样本容量不同,即调查对象的总数不同。那个时候,我们应该如何办啊?假如要对其进行比较,我们能够计算比例或频率(即每个取值对应的次数在调查总体中所占的比例或频率),那个地点,我们较常使用的是频率。借助它们,我们能够将比较的基数统一起来。假如只是单纯地看次数,前一个学校的工人家庭学生比乙校的多。但这种比较是错误的,因为两个学校的样本总数不同。因此,我们要采纳比例或频率的方法将两

9、个样本的总数转化为同一个基数。比例是将基数转化为1,计算公式为f/N,其中N是样本总数,f是变量某个取值所对应的次数。那个地点,我们先将上述两个表格的次数转化为比例。而频率则将基数变大了,使读者容易领会,一般适应用百分率,立即基数转化为100。百分率计算公式=f/N*100。这是第二类差不多的单变量描述统计法频率分布。关于频率分布,我们同样能够采纳文字法、集合法、统计表法以及统计图法来表示。只要将之前的频次换为频率即可。比如,我们在那个统计表的后面再加一列频率。计算百分率的时候,我们需要对小数位数做出取舍?那么取舍的标准是什么呢?这决定于研究工作所要求的精确程度和样本大小。一般来讲,要求精确程

10、度越高或样本越大,能够保留的小数越多。社会学研究通常是保留小数点以后的一位或两位数字。还有一点需要大伙儿注意的是,以往在数学课上,我们学习过“四舍五入”的取舍方法,但在进行统计分析时,“四舍”是没有问题的,但不能无原则地“五入”。因为它可能会产生一定的误差。现在,有如此一组数值:6.25、4.45、3.75、7.15,请大伙儿计算一下,它们的总和是多少?21.60。现在按照四舍五入,原数就会变成多少?6.3、4.5、3.8、7.2,总和是?21.8。专门明显,把原来的总和变大了。那么我们应该如何进行“五入”呢?近代统计学中为了解决那个问题,提出了“前单五入”的方法,即最后一位是“五”或五以上的

11、数字,而且它前面的一位是单数就进位,若是双数就舍掉(0也算双数)。依此原则,刚才的四个数值就会变为,6.2、4.4、3.8、7.2,其总和是?21.6,与原来总和相同。假如百分率的数值也嫌太小,能够选用千分率、万分率等。如某地某时刻的犯罪人数是318人,总人口为521,000人,那么百分率便是百分之零点零六一,数值太小,不容易看。若用千分率便是千分之零点六一,也不容易看。若用十万分率则变成十万分之六十一,即每10万人中有61人犯罪,这就比较清晰了。犯罪研究的统计,通常是用十万为基数。人口学的研究则较常使用千分率。除了频次分布、频率分布外,我们也能够采纳两数值的对比值来分析定类变量。如某地总人口

12、中有28,600名男性和23,500名女性,则性不对比值=男性人数:女性人数=28600:23500=1217:1000,即每千名女性对应1217名男性。以上我们要紧介绍了频次分布和频率分布,同时讲明了如何使用文字法、集合法、统计表法来描述变量的频次、频率分布。它们实际差不多上在用数值简化资料,其计算结果相当准确,然而不够生动直观。因此,为了达到生动的效果,我们还能够选用统计图法来简化资料,表明变量的分布情况。关于定类变量来讲,能够选用条形图和圆瓣图。条形图是用长条的长度来表示资料类不即变量取值的次数或百分数。而长条的宽度没有意义。一般在作图时,会使之等宽。作条形图,一般首先要确定纵轴和横轴。

13、长条能够平行于横轴,即以横轴表示频次或频率,也可平行于纵轴,即以纵轴表示频次或频率。这一点,画图者可依照自己的偏好进行选择。关于定类变量来讲,为了使图形清晰,我们能够使各个长条之间保持分散。大伙儿要记住,一个长条即代表了变量的一个取值。条形图即能够依照次数,也能够依照频率作图,以我们班的性不状况为例,我们先依照频次作长条图。假如依照频率作的话,要改动哪里啊?与长条图不同,圆瓣图只能够依照频率作图,它又被称为扇形图。它是用圆形来代表现象的总体(某一变量),圆瓣代表现象中的一种情况(变量的各个取值),其大小代表变量取值在总体中所占的百分比。课本30页介绍了绘制圆瓣图的方式。首先计算各个变量取值所对

14、应的百分率,之后将计算所得的百分数乘以360,以此获得各圆瓣所对应的圆心角度数。最后据此对圆形进行分割。具体的作图方法,大伙儿对比课本看一下,我就不再讲了。以上我们介绍了定类变量的统计分析方法,那么遇到单独的定序变量,我们应该如何进行统计分析呢?首先,我要讲明的是,以上我们介绍的各种方法同样适用于定序变量。在使用条形图的过程中,有一点是需要大伙儿注意的:假如是定序变量,长条的排列次序应与变量取值的次序相一致,且图形能够画作紧挨着的长条或离散的长条。以年龄变量为例,某次调查中,老年人100人,中年人300人,青年人150人,现在应该如何作图?由于这是定序变量,因此,在作条形图时,我们必须按照顺序

15、排列。在作统计表时也是如此。而圆瓣图由于无法体现变量取值的排列顺序,因此,它更多地被用于定类变量。除了适用于定类变量的统计分析方法外,定序变量也有自己独特的分析方法,即累加频次(cumulative frequenciescf)和累加百分率(cumulative percentagesc%)。这二者的差不多原理一样,立即次数或百分率逐级相加。相加的具体方式分为两种:一种是向上累加,一种是向下累加。大伙儿明白,依照定序变量的取值,能够对调查对象进行等级排列。因此,我们一般将变量取值等级高的规定为上的方向。借助累加次数,我们能够专门容易地明白某值以下或以上的次数总和。而借助累加百分率,我们能够明白

16、某值以上或以下的样本在样本总数中所占的比率。接下来,我们一起了解一下累加频次和累加百分比的具体算法。那个表格给出的是频次分布情况。其中列出了每种情况对应的次数,假如我们对它进行向上累加,那么每种情况对应的数值分不是什么呢?事实上所谓累加,确实是一项一项的叠加。向上累加次数,确实是把由较低等级至较高等级的次数相加起来。关于喜爱程度那个变量来讲,我们将特不爱看视作最高层次的取值,而专门反感是最低层次的。因此在进行向上累加时,我们应该从专门反感着手,一步一步向上累加。关于专门反感,它本身确实是最低层次的了,因此,它对应的向上累加次数确实是它本身。而不爱看对应的向上累加次数,是它本身加上反感所对应的次

17、数,为13,由此,我们能够看出不爱看及专门反感的学生有13人。以此类推,一般对应的向上累加次数是23,爱看是32,特不爱看是39。向下累加的过程与向上累加相反,它是由较高等级至较低等级的次数相加起来。有没有同学能够讲一下?喜爱程度fcfcf特不爱看7397爱看93216一般102326不爱看101336专门反感3339总数39喜爱程度%c%c%特不爱看17.999.917.9爱看23.18241一般25.658.966.6不爱看25.633.392.2专门反感7.77.799.9总数99.9那么,同样的道理,我想请同学们做一下累加百分比。我们先将百分比分布列出来。大伙儿能够看到,我们在画统计表

18、的时候,刻意保留了各个取值之间的顺序排列,这是不能够任意打乱的。做条形图时也是如此。关于累加频次和累加百分比,有一点需要大伙儿注意的确实是那个箭头。它表示累加的方式。向上的箭头表示向上累加,即累加时按照变量取值由低到高的顺序,向下的箭头表示向下累加,即按照变量取值由高到低的顺序。借助累加表,我们能够比较个体在总体中的位置。这应该如何理解?我们一起看一下课本36页的例子。甲、乙两同学分不在班里都考得80分,那么谁在班里的成绩更好呢?如何推断啊?能够借助名次是不是?然而,我们并不明白名次。假设,我们依照两班的成绩分不做了累计表,分不得知80分在两班所对应的向上累加频次。甲同学所在班中80分对应的向

19、上累加频次是95。甲:cf=95,乙同学所在班中80分对应的向上累加频次是60,乙:cf=60。这两个数值分不代表什么啊?在甲班,有多少人的成绩低于80啊?95。那乙班呢?60。专门好。然而仅仅明白向上累加次数是不够的,因为两个班的总人数专门可能不同,因此我们还需要明白累加频率。为了便于计算,我们假设两班人数都为N=100人。那么,甲、乙在各自班里的向上累加百分比如何算啊?c%= cfN*100%,得到的结果分不是多少啊?甲在班里的向上累加百分比是95%,乙则是60%。有没有同学能够解释一下这两个数值。甲在班里的考试成绩为80分,班里有95%的人,低于80分,乙在班里也考了80分,但他的班里只

20、有60%的人成绩低于80分,这讲明,甲在班里相对成绩要好于乙。细心的同学可能会注意到,例子中选取的变量是定距变量,它同样能够采纳定类以及定序变量的各种统计分析方法。因为它的测量层次更高,具有定类、定序变量的数学特质。课本还介绍了如何制作累计图,大伙儿感兴趣的话,能够自己了解一下,我们不再介绍了。尽管定距变量能够采纳以上定类以及定序变量的各种统计分析方法,然而在使用之前,有一点是需要加以注意的。家庭子女数和家庭月收入均能够作为定距变量,然而这两个定距变量之间是存在区不的。大伙儿知不明白区不在哪里?还记不记得在上一章的最后,我们提到过变量的类型划分不是唯一的。数学中经常将变量划分为离散型、连续型变

21、量。那个地点,家庭子女数和家庭月收入,哪一个是离散型,哪一个是连续型啊?家庭子女数只能取正整数,因此是离散型定距变量。而家庭月收入则是连续型变量,因为,原则上来讲,它的任意两个取值之间差不多上无穷的,而且任意两个调查对象的取值都不相等。在对这种类型的变量进行统计分析时,就需要有所顾虑了。关于离散型变量,我们能够采纳与定序变量相同的方法进行分析,而关于连续型变量,我们应该如何处理呢?例如,我们要研究某校学生的家庭月收入情况,调查后,我们会获得一系列的取值,有2100元、2300元、3000元、3300元等等。假如每个值都要计算频次有多少、频率有多少,就会专门苦恼、专门琐碎。因为,每一名学生的家庭

22、月收入都可能不同。那么,我们该如何解决呢?方法专门简单,立即所有的变量值分为若干组,然后统计每个组内的频次或频率。以学生的家庭月收入为例,我们应该如何进行分组呢?是按2000元-2500元;2500元-3000元;分呢?依旧2000-3000元;3000-4000元如此分呢?这就需要了解一下分组时的考虑因素了。一般讲来,在分组时,有如此几个因素:一是组数,立即所有数值分为几组。组数太少容易掩盖变量变动时频次的变化。比如,只分一个组,那我们就什么分布情况都看不出来了。但组数太多,又会使每组内频次过少,增加偶然因素,难以看出明显的规律。课本27页表2-8为我们指明了调查总数N与分组数之间的关系。这

23、是依照以往的研究经验总结得出的,大伙儿在分组时能够作为参考。二是采取等距分组依旧非等距分组。一般情况下,我们会选择等距分组的方法。如人口学中一般以5年作为一档,1-5岁,6-10岁,11-15岁,16-20岁,如此20档正好代表人的寿命为1岁-100岁。但在社会研究中,为了更好地反映事物的本质,可能会选取非等距分组。例如,收入为月薪500元和1000元的职工,他们的生活水平差距是显著的,但月薪为5000元和5500元之间,其差距就小得多。而且如此的人数相对较少。因此,在对收入进行分组时,我们能够将低收入分得细一些,高收入分得粗些。三是如何决定分组点的精度。之前我们提到,年龄的分组可采纳1岁-5

24、岁,6岁-10岁;等等。由此,我们能够看出统计年龄的精度以年为标准。假如我们统计的精度提高,例如讲,统计到月,那么,5岁半的儿童应该分到上一组依旧下一组呢?可见,随着精度的提高,分组点的精度也要提高。一般分组点比原统计资料的精度要高一位。如统计资料的精度为整数,则分组点就取小数点后面一位计算。以学生家庭月收入为例,原统计资料的收入以元计算,通过对资料的初步整理,我们发觉,最低的收入为1000元。按照1000元一个分组,我们就有:1000-1999;2000-2999;3000-3999;4000-4999,5000以上。依照刚才提到的,分组点比原统计资料的精度高一位。我们能够将分组转化为999

25、.5-1999.5,1999.5-2999.5,2999.5-3999.5,3999.5-4999.5,4999.5以上。讲到那个地点,大伙儿可能有些糊涂了。按照你如此讲,我们究竟应该如何分组呢?那个地点就涉及到标示组限和真实组限的问题了。所谓组限确实是每组的范围,它包括上限和下限。如,刚才的分组,1000-1999;它的上限是1999,下限是1000。依据原统计资料的精度设置的组限,读者容易领会,我们将之称为标示组限。我们在制作统计表时,为了简便,经常直接采纳标示组限。而真实组限的精度比原统计资料及标示组限要高一位。我们刚才提到的999.5-1999.5,1999.5-2999.5,2999

26、.5-3999.5,3999.5-4999.5,就属于真实组限。真实组限介于前后两组标示组限之间,它是相邻两组标示组限的中点。关于这二者之间的关系,我们能够用下式表示:真实上限=标示上限+0.5真实下限=标示下限-0.5真实组限的精度比标示组限要高一位,组与组之间的分界是连续的,而标示组限则是离散的。标示组限只是分组资料的简化表示,而在实际运算时,都要使用真实组限。每个组的宽度,简称为组距。它的计算公式为:组距=真实上限-真实下限组中点确实是真实上限和真实下限的算术平均数。依照各组的次数,我们同样能够计算百分率、累加次数和累加百分率。以上是关于分组的问题。此外,我们也同样能够用图示法来显示定距

27、资料。那个地点,我们要介绍两种用于分析定距变量的图形,一种是矩形图,又称为直方图,一种是多角线图或折线图。直方图从图形上看,类似于条形图,它也是由紧挨着的长条组成。然而需要提醒大伙儿的是,直方图中长条的宽度是有意义的。什么缘故呢?这是因为,在直方图中,是以长条的面积表示每组数值的频次或频率。而条形的长度,则表示的是频次密度(单位组距所含有的频次)或频率密度(Relative frequency density)。频次密度=频次/组距;频率密度=频率/组距。因此,长条的宽度表示的事实上是组距。之因此使用条形长度来表示密度,是因为连续型定距变量能够采纳非等距分组的方法。关于等距分组,用频次或密度作

28、为条形高度,图形的相对比例关系是不变的,因此,我们仍然能够选用频次或频率作为条形的高度。做图的方法类似于条形图。但在非等距分组情况下,假如用频次作为条形高度,将会产生错误。课本32页为我们列举了一个例子,大伙儿能够一起看一下。假如我们将直方图中条形顶端的中点用直线连接起来,我们就能够获得折线图。相比直方图,折线图使得资料的分布情况更加一目了然。关于离散型连续变量,获得折线图的方式较为简单,无需直方图的辅助,直接以坐标的横轴来表示变量值,纵轴表示频次或频率,之后依照每个变量值及其对应的频次或频率确定相应的点,最后将点一一连接起来即可获得。那个在课本的33页有例图,大伙儿能够看一下。它是依照离散型

29、定距变量做成的折线图。现在,我想请一位同学上来,依照课本34页的表2-14做一个折线图。关于连续型定距变量,则能够采纳一开始介绍的方法,将直方图中各条形顶端的中点,连接起来。要注意的是,各组距(即长条的宽度)的大小,会阻碍线条的平滑程度。一般是组距越小,线条就越平滑。因为前、后两个长条的顶端中点会越接近。那个地点,需要大伙儿充分发挥自己的想象力。假定我们能把组距变得无限小,线条就会十分平滑,折线就会变为曲线。连续型定距变量,由于任意两个取值之间是无穷的,原则上能够使组距无限小,因此能够用平滑曲线来表示次数分布。在社会学研究中经常采纳平滑曲线来表示定距变量的分布情况,因此,我们有必要介绍几种社会

30、学研究中常用的曲线类型:一是J形曲线。它的特点是下降时是先急后缓或上升时是先缓后急。婚姻次数和人数的关系即满足这类分布。结婚次数为1次的人专门多。而结婚次数为2次的要少得多。至于3次及以上的,则更是少之又少。因此,它的下降是先急后缓。二是U形曲线,特点是先降后升或先升后降。人口死亡率与年龄之间的关系就满足这种分布。年龄小和年龄大的人,死亡率偏高,而中青年死亡率较低。第三种是峰状曲线。它的特点是曲线有峰点,依照峰顶数目的不同,能够分为单峰、双峰和多峰曲线。大伙儿能够看一下单峰曲线,从那个曲线中,我们能够看到有一个变量值对应的频次最高,或某一个区间对应的频次密度最高,且向两边逐渐递减。而双峰、多峰

31、则是出现了两个或三个峰点值。第四种曲线类型是依照图形的对称情况划分的。假如把曲线从中央分隔,两边的资料分布完全相同,且图形对称确实是对称曲线,否则确实是非对称曲线。非对称曲线又称为偏态曲线。假如偏态曲线左边尾巴拖得较长,则称左偏态或负向偏态。右边尾巴拖得较长的称右偏态或正向偏态。假如一个曲线图即满足单峰,又满足对称条件,呈钟型,则我们称其为正态分布图。关于它的内容,我们在后面会进一步介绍。到那个地点,关于单变量的差不多统计技术,就差不多介绍完了。最后,我们再给大伙儿补充一个内容。即统计表的制作。大伙儿能够对比课本24页的表2-5。在这类统计表中包含如下几项内容。1、表号:统计表X.X或X_Y。

32、表号的作用是方便查找。尤其是在撰写大型调查报告的过程中,涉及的统计表不止一个,为它们编上号,我们查找起来,方便专门多。2、表头:包括标题,时刻,地点。标题一定要简明,能使读者容易领会表内数值的含义。时刻、地点则起进一步明示的作用,它们是能够省略的。3、标识行。统计表中的第一行,称为是标识行。其中第一项是变量名称,如表2-5、2-6中的家庭结构。第二项则是变量对应数值的讲明,如表2-5中的频次,2-6中的百分比。4、主体行。我们之前讲过,变量对应的取值不惟一,例如性不对应了男、女两项取值,那个地点的家庭结构则对应了核心、直系、联合以及其他家庭四个取值。主体行因为要依照变量取值而定,因此至少要有两

33、行以上。其中第一列按行填写变量的不同取值。定类变量的取值顺序能够任意排列,而定序以上层次的变量则要按照等级顺序排列。第二列则填写该取值对应的频次或频率等。通过之前的例子,大伙儿能够明白,频次、频率等等能够列在同一个表格中。一般在统计表中,我们还必须增加一行,注明统计总数。5、表尾。假如我们引用的是间接资料,必须在表格的下方注明资料来源。大伙儿能够看一下课本12页的表1-9,它的下方就有资料来源。需要讲明的是,在制作表格的过程中表的结构要尽可能简洁,一些不必要的线条省去即可。在制作频率分布表的时候,假如每格都带有%的话,那么,就显得太繁琐了,因此,我们能够在标题的后面或频率这一格中注明%,其余的

34、则省略。再者,在频率分布表中,必须列明统计总数。如课本的表2-6。 接下来,我们再给大伙儿简单介绍一下制表过程。事实上,那个过程十分简单。只是在涉及连续型定距变量的时候,会相对复杂一些。我们一起看一下课本28页的例题。以上所介绍的是有关单变量描述统计的差不多方法。其中频次分布和频率分布是最差不多的。统计表、统计图以及累加频次、累加频率等差不多上依据它们而形成的。再者,通过前面的介绍,大伙儿能够发觉,他们差不多上以若干数值来简化变量的资料分布情况。尽管提供的信息较为全面,然而不够精简。我们如何才能做到进一步的简化呢?这就要用到我们接下来介绍的集中趋势测量法(measures of central

35、 tendency)了。这是第二章的第二节。所谓集中趋势测量法是指找出一个数值来代表变量的资料分布,以反映资料的集结情况。大伙儿还记不记得,我们第一次上课就曾经让大伙儿计算过均值,它事实上确实是一种集中趋势测量法。采纳这种方法有一个专门的意义,即能够依照那个代表值(或称典型值)来可能或预测每个研究对象(个案)的数值。尽管,如此做会掩盖变量的某些信息,导致可能时产生错误。比如讲,我们刚刚提到的平均值,尽管它具有一定的代表性,然而以它进行预测时,无法保证百分之百的准确。然而,由于选择的数值是最有代表性的,因此从长远来看,以它来可能或预测变量时所产生的误差最小。下面,我们就依照测量层次的不同来介绍三

36、种要紧的集中趋势测量法。定类变量:众值(Mode)大伙儿明白,定类变量能够把调查对象区分为不同的类不和属性。依照这一特点,我们选取众值作为它的集中值。众值(简写Mo),是指次数最多的值。假设,某班有男生15人,女生30人。那么,由于女生次数最多,因此众值是女生。需要大伙儿注意的是,众值指的是变量的某一个取值。由于众值出现的次数最多,最有代表性,因此,它具有可能或预测的意义。例如,我们从该班任意抽取一名学生,事先我们并不了解该生的任何情况,依照刚刚得知的众值信息,我们就能够可能该生是一名女生。那么,我想问一下,这一可能犯错的可能性是多少?或者讲误差有多大?假如我们以男生为标准进行可能呢?犯的错误

37、总数是66%,显然误差更大。因此,长远来讲,以众值作预测所犯的错误总数是最小的。众值要紧适用于定类变量。因此,它也同样能够应用于较高层次的变量,但关于较高层次的变量来讲,其代表性要差一些。由于高层次的变量能够使用较低层次的统计分析方法,因此,众值的使用范围特不广泛。只是,假如我们碰到连续型定距变量,因为涉及到分组的问题,因此,以频次密度最高的组作为众值所在的组,而以该组的组中心值作为变量的众值。众值是最易求出的集中值。它特不适用于单峰对称的情况,也是比较两个分布是否相近首先要考虑的参数。关于多峰的图形由于众值不唯一,一般不用众值来进行分析。定序变量:中位值(Median)有没有同学记得,定序变

38、量具有什么样的数学特性?能够将研究对象按照等级高低进行排序。而中位值即是借用了这一特性。它(简写Md)指的是在一个序列的中央位置之值,即高于此值的有50%的个案,低于此值的也有50%的个案。那个地点,我们先来看一下如何依照未分组数据计算中位值。未分组数据又能够分为两类。一类是原始资料。一类是频次分布表。当原始资料较少的时候,要计算中位值,我们首先要对个案进行排序。例如,我们明白甲地五户人家的人数由少至多排列如下:2,3,4,6,8。这五个值中处于中间位置的是哪个?4,对不对。因为有两户多于4人,也有两户少于4人,数目相同。在实际计算的过程中,我们首先要找到中位值所在的位置。Md位置=n+1/2

39、。其中的n是个案数目,即样本容量。以上例来讲,借助那个公式,我们能够算出中位值位于第三个位置。而处于第三个位置的值4即是中位值。Md=4。大伙儿注意,那个地点的个案数目是奇数5,因此,我们在计算中位值位置时得到的是整数。假如个案数目是偶数,我们应该如何办呢?如乙地有8户人家,每户人数由少至多分不是:2,4,4,5,7,8,10,10。依照公式,计算得出的中位值位置为4.5。这表示中位值的位置落在第四户与第五户之间,因此,我们能够将位于中央位置的两个数值的平均值作为中位值。即Md=(5+7)/2。那个地点需要讲明的是,中位值有可能只是一个理论上的数值,而实际上并不存在。上述例子涉及的个案数目都比

40、较少,假如个案数目专门多时,我们无法将其一一列出,然后从中查找处于中央位置的值。比如,我们做了项调查,样本容量为500,显然,假如要将这500名调查对象的情况一一排列出来,太耗费时刻。因此我们需要借助累加频次分布表来帮忙。我们一起看一下课本42页的表2-18。以上介绍的是依照未分组数据计算中位值。然而,有些时候,我们面对的既不是原始资料,也不是节育率(%)Fcf5.5或以下16165.5-15.5385415.5-25.5409425.5-35.53012435.5-45.52314745.5-55.52417155.5-65.51919065.5或以上22212总数212简单的频次分布表,而

41、是通过分组以后的资料情况。这要紧是针对连续型定距变量来讲的。例如,调查某地区的212个乡,目的是要明白每个乡的育龄妇女(15-44岁)落实打算生育的比率。搜集资料以后,将212个乡分为八组,它的统计表是如此的需要大伙儿注意的是,那个地点各组的组限差不多上真实组限。依照如此的分组资料,我们应该如何计算中位值呢?首先,第一步同计算原始资料中位值一样,计算中位值所在的位置212/2=106。那个地点之因此使用n/2,是因为分组资料往往涉及的样本容量较大,因此n/2近似于(n+1)/2。第二步,依照统计表中的累计次数,找出中位值所在的组。在例题中,中位值所在的组应该是25.5-35.5这一组。第三步,

42、就要想方法求出中位值了。依照统计表,我们明白,中位值所在组的真实下限L是25.5,真实上限U是35.5。组距w是35.5-25.5=10。该组对应的次数f是30,位于该组以下的个案数目是多少?实际确实是低于中位值组真实下限的累加次数cf94。我们如何才能依照这一系列数值计算出中位值呢?【我们明白这一组的真实下限,那么,假如我们能算出中位值与真实下限之间的差距,我们就能够算出中位值是多少了?因此,我们要想方法算出这二者之间的差距。假设那个差距为X。依照各组的组限以及它们对应的累计次数,我们能够在坐标图中做出一条直线。依照那个坐标图,我们能够得出X/w=(n/2-cf)/f,因此,X=(n/2-c

43、f)/f*w。Md=L+X。】中位值的公式为:Md=L+ 其中, L=中位值组之真实下限 f=中位值组之次数 w=中位值组之组距 cf=低于中位值组真实下限之累加次数 n=全部个案数目依照那个公式,我们得出例题的中位值=29.5。换言之,在212个乡中,有半数乡的育龄妇女节育率低于29.5%,也有半数高于29.5%。我希望大伙儿不仅会计算中位值,而且会解释中位值的含义。至于公式的推算过程,大伙儿了解一下就能够了。它要紧是关心大伙儿经历公式的。利用累计百分比同样能够计算中位值,课本为我们详细介绍了其计算方式。差不多思路与利用累计频次是一样的。只是将次数换成了频率而已。大伙儿感兴趣的话能够自己了解

44、一下。由于中位值具有可能或预测的意义。因此,假定从212个乡中任意抽取一个乡,我们应该可能其节育率是29.5%。长远来讲,以中位值来可能定序变量的数值,所犯的错误总数是最小的。中位值适用于定序以上层次的变量。因此,对定序变量来讲,我们有两种集中值能够使用。然而由于众值不考虑变量次序,因此对定序以上层次的变量,是一个损失。以上介绍了定类变量和定序变量,下面我们一起学习一下适用于定距变量的集中值均值。事实上,均值,大伙儿都明白,将变量的各个数值相加起来,求取一个平均的数值,即均值。与中位值的计算一样,均值的计算方法也能够分为两种情况,即使用未分组数据和使用分组资料。首先,我们了解一下未分组数据中,

45、如何依照原始资料计算均值。事实上方法专门简单,大伙儿往常都学过。计算公式: n是全部个案数目表示各个个案数值之和例如调查某地的五户干部家庭和六户农民家庭,每户的人数如下:干部家庭:4,2,3,3,5农民家庭:6,4,4,8,6,3依照公式计算均值:干部家庭人数的均值是3.4人,农民家庭是5.2人。比较一下,农民家庭的平均人数多于干部家庭。当涉及的样本数量较大时,我们就要先统计每个变量值出现的次数,之后利用频次分布来计算均值了。所使用的公式为其中x是变量的各个取值,f是每个变量值对应的次数。n则是全部个案数目。那个地点,我们一起看一下课本45页的例1。要求计算550人的平均分数。那么,假如面对分

46、组数据,我们应该如何计算均值呢?事实上方法专门简单,只需要用组中心值代替变量值即可。计算公式与使用频次分布相似。其中xm是组中心值。注意,组中心值不同于我们之前讲的中位值。组中心值等于真实上限和真实下限的算术平均数。那个地点,我们一起看一个例子。f表示每组的次数表示组中点n是全部个案数目青年人阅读小讲书的数目书数fxmf xm2-42365-746248-10594511-133123614-162153017-1911818总数17159按照公式,大伙儿计算一下,均值是多少?可知平均来讲,每名青年人一年读9.4本小讲书。那个地点有一点提醒大伙儿注意。用组中心值计算的均值与使用原始数据计算的均

47、值是存在出入的。但对社会学来讲,大多数情况下,其精确度差不多足够了。均值要紧是为了描述平均水平,它对每个个案的取值都十分敏感,在分布中如有少数特不极端的变量值,则均值会受到较大阻碍。这时它的代表性会减弱。而中位值的意义更大,因为它不受极端值的阻碍。介绍了三个集中值之后,我们有必要对它们进行一下简单的比较。 三值设计的共同目的,差不多上希望通过一个数值来描述整体特征,以便简化资料。他们都反映了变量的集中趋势,一般讲: 众值:适用于定类、定序和定距变量; 中位值:适用于定序和定距变量; 均值:适用于定距变量。它们三者的代表性决定了它们具有可能和预测的作用。 众值仅使用了资料中最大频次这一信息,因而

48、资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化专门难阻碍中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。 = 3 * GB3 均值尽管灵敏,但对严峻偏态的分布容易失去代表性。即存在特不极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得专门高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。 = 4 * GB3 偏态图形和三值的关系。关于正态分布的图形来讲,三值是合一的。当图形正偏或负偏时,均值变化最快,中位

49、值次之,众值不变。什么缘故均值变化最快,这是因为它极易受到极端值的阻碍。关于这一点,大伙儿能够看一下课本48页上方的三个图形。到那个地点,有关单变量的描述统计技术差不多全部介绍完了。简单来讲,我们共介绍了三种方法,一是化约、简化,即第三章第一节的内容,次数分布、频率分布、统计图、统计表等。二是集中趋势测量法,即求出一个数值用以代表变量的资料分布,反映资料的集结情况。三是离散趋势测量法,即求取一个数值来表示个案与个案之间的差异情况。集中趋势测量法和离散趋势测量法是相互补充的。我们再一起回忆一下适用于不同测量层次的集中值和离散值。它们是这一章需要重点掌握的内容,我们先以表格的形式比较一下三个集中值

50、。集中值均值中位值众值测量层次定距变量定序变量定类变量敏感程度最敏感(受极端值阻碍)不敏感较敏感(尤其适用于单峰对称的情况)计算难度最难一般最易计算解释力最好(解释力强、具有统计价值)其次最低、差那么离散值的情况如何呢?与这三个集中值一一对应的离散值是什么啊?异众比率、四分位差和标准差。它们在测量层次、敏感程度、计算难度和解释力上也是与这三个集中值一一对应的。我们不再一一介绍了。那么极差仅仅考虑了两个极端值,因而带有专门大的偶然性,关于大量的处于极端值之间的数值分布情况,以及在中心点周围的集中情况,都无法提供任何信息,要紧适用于定序以上层次的变量。离散系数是一种相对的离散量数统计量,能够用于对

51、同一总体中两种不同的离散值进行比较,或者对两个不同总体中的同一离散值进行比较,适用于定距以上层次的变量。第三章 简化两个变量的分布第一节 统计相关的性质 大伙儿明白,在社会学研究中,不仅要求我们对社会现象进行描述,而且要求我们对现象的缘故进行分析。因此,我们不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。例如,在某地区调查100名青年人的最大志愿,假定其中有40%选择欢乐家庭,50%选择理想工作,10%选择增广见闻。我们要问:什么缘故这些青年人的最大志愿会有不同?又假定我们发觉这些青年人的教育水平能够分为高(高中或以上程度)、中(初中程度)、低(小学或以下程度)三个等级

52、,每级人数分不占10%、60%、30%。据此,我们就能够追问:青年人的志愿与其教育水平是否有关系呢?换言之,是否因为教育水平不同,因此人生志愿也不同。什么是相关?由此,我们能够引入相关那个概念。所谓相关,是指一个变量的值与另一个变量的值有连带性。具体来讲,假如一个变量的值发生变化,另一个变量的值也有变化,则两个变量确实是相关了。例如,教育水平是一个变量,最大志愿是另一个变量,假如青年人的教育水平不同,其志愿也不同,我们就能够讲这两个变量是相关的了。二、相关的强度和方向在明确了何为相关以后,进一步要考虑的问题是相关的强度和方向。例如:我们通过调查发觉,父亲的教育水平与小孩的教育水平相关,母亲的教

53、育水平也与小孩的教育水平相关,那么究竟是前者的相关程度大,依旧后者的相关程度大呢?或者讲,究竟是父亲教育水平对小孩的阻碍大,依旧母亲的教育水平阻碍大呢?关于这一点,我们能够用统计法进行测量,也确实是计算相关系数。相关系数是用来表示变量间的相关程度的量的指标。它具有如此几个特征。第一,相关系数不具有实际数学运算意义。什么缘故这么讲呢?假如,我有100元,他有50元,我们能够讲,我的钞票是他的两倍。但假如通过计算得知,父亲教育水平与小孩教育水平的相关系数是0.50,而母亲教育水平与小孩教育水平的相关系数是0.25,我们却不能讲前者是后者的两倍,因为相关系数只能表示相关程度更强。第二,相关系数是统计

54、得来的,它只能讲明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在相关关系,这也确实是我们讲的统计相关。例如,在山东大学有个专门惊奇的现象。山大每年暑期开学那天往往会下雨。给我印象最深的就有三次。假如我们将开学看作变量X,下雨看作变量Y,通过统计,我们专门可能得出二者的相关系数专门高,然而这二者之间并不存在真正的联系。也确实是讲统计上相关,但实际上不相关。第三,相关系数大多介于-1,1之间。什么缘故还有正负之分呢?有没有同学明白?这实际就涉及到第二个问题相关的方向了。大伙儿有没有听过“造原子弹的不如卖茶叶蛋的”。它描述了我国改革开放初期的职业收入情况。讲明当时人们的收入

55、与其教育水平是如何样的?成正比依旧反比?那现在呢?这二者的关系发生了什么变化?是不是差不多呈现正比的趋势?由此我们能够看出,变量与变量之间的关系,能够分为正与负两个方向。即依照相关方向的不同,能够将相关分为正相关和负相关。所谓正相关,是指一个变量的值增加时,另一个变量的值也随着增加。例如,收入水平越高,消费水平越高。所谓负相关,是指一个变量的值增大时,另一个变量的值却减小。例如,教育水平越高,理想子女数目越少。需要大伙儿注意的是,相关方向的分析只限于定序以上层次的变量。什么缘故?有没有人能够解释一下?我们一再地提不同层次变量的属性。这是因为定序以上层次变量的值有高低或多少之分。至于定类变量,由

56、于变量的值只有类不之分而无高低之分,因此它与其他变量相关时可不能有正或负的方向。相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对值越大,讲明两变量之间的相关程度越强。在社会现象或人类行为研究中,各种相关系数的取值专门难达到全相关。各种相关情况,能够用简单的图表讲明。x y x1x2总数y1aba+by2cdc+d总数a+cb+dn=a+b+c+d其中x、y分不代表两个变量,它们各有两个取值x1,x2,y1,y2.。其中的a、b、c、d代表交叉分类后的个案数目。a表示变量x与变量y分不取值为x1, y1的个案

57、数目。其余类似。现在,我们就那个图表分不讨论一下全相关、无相关的情况。就那个图表来讲,假如a=d=0(或b=c=0),即全部个案集中在同一对角线上,则表示变量x与变量y是全相关。例如,我们试图通过调查来了解性不是否会阻碍人们对足球的喜爱程度。一共调查了20名学生,其中10名是男生,10名是女生。发觉,a=10,c=0,b=0,d=10,有没有同学能够解释一下那个图表。当调查对象为男生时,他一定喜爱足球,而当调查对象为女生时,她一定不喜爱足球。二者之间的关系是完全确定的,因此能够讲达到了全相关。因此,这种情况在社会生活中几乎可不能出现。假如a*d=b*c,即两对角线的乘积相等,则表示无相关。同样

58、以刚才的调查为例,当a=5,b=5,c=5,d=5时, 表示什么啊?当性不发生变化时,他们对足球的喜爱程度并没有发生任何变化,同样是一半男生喜爱足球,一半男生不喜爱足球,女生也是一半对一半。假如a=10,b=0,c=10,d=0,表示什么?大伙儿好好想一想?是不是也表示性不与人们对足球的喜爱程度无关啊。因为,不管是男生依旧女生都一定喜爱足球。当两个变量无关时,我们能够讲这两个变量之间是相互独立的。假如a*d与 b*c的差异越大,就表示相关程度越强。关于那个问题,稍候还会为大伙儿做进一步的解释。三、相关关系的类型刚才在介绍相关的方向时,我们差不多将相关关系区分为了正相关和负相关。而按变量变化的表

59、现形式进行划分,我们还能够将相关关系划分为直线相关和曲线相关两种。在介绍直线相关和曲线相关之前,我们有必要给大伙儿介绍一下用于描述两变量间关系状况的散点图。散点图仅适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X的取值变化范围,纵轴表示变量Y的取值变化范围。依照每一个个案在变量X和变量Y上的值来确定坐标图中的每一个点。借助散点图,我们能对两变量间的关系有一个形象、直观的印象,是我们在对定距以上层次的变量进行相关分析时的一个重要步骤。那么,所谓直线相关,指的是当变量x发生变动时,变量y的值也发生大致均等的变动。表现在直角坐标系中,X、Y值所对应的点分布狭长,成直线趋势。关于曲线相关,由于

60、比较复杂,我们本科时期可不能接触。曲线相关表现在直角坐标系中,X、Y值所对应的点分布分散,呈曲线趋势。再有一点要讲明的是,我们以后介绍的相关系数差不多上线性相关系数。四、因果关系分析两个变量的关系,除了要注意其相关的强度与方向以外,还要进一步注意这两个变量之间是否存在着某种因果关系。相比相关关系,因果关系的意义更进了一步,因为它更有利于我们解释社会现象产生和变化的内在机制和动因。而且探寻社会现象相互之间的因果关系,才是我们进行社会调查、开展社会研究的最重要目的。我们先来了解一下因果关系的定义。1、定义:两变量之间的因果关系,指的是当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论