社会研究方法教程第15章的统计分析_第1页
社会研究方法教程第15章的统计分析_第2页
社会研究方法教程第15章的统计分析_第3页
社会研究方法教程第15章的统计分析_第4页
社会研究方法教程第15章的统计分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、提问。例如,为了减轻被访人的敏感度,问卷上将一组敏感问题(如政治态度)分散安排了。变量分组是将类别或属性相同的变量组有意义的数组。例如研究政治态度时,可将个人的基本情况变量归为一组;将、个人现代性、性格等心理特点归为一组;将对政治的、倾向、看法等归为一组。大组中可再分成小组。(4)提出统计计算的要求并提出适当的统计方法。变量分组之后,研究组所要统计的内容并要同时提出统计分析的方法,如可以拟定以下说明:要拟定各计算第一组和第三组中各个变量的频数分配及百分比;计算第二组中各个变量的平均数与标准差;计算第三组内各变量间的皮尔逊相关系数;以第一组的变量为自变量,第四组的变量为因变量,进行单因素方差分析

2、;做变量 X1-X15 与Y2 的交互分类;等等。这样的统计分析计划应当是所有参加分析的研究后检查工作的依据。共同制订、共同遵守的,也作为日3选择统计分析方法的原则各种统计分析方法都具有特定的假设前提、应用范围以及功用,在进行资料分析时,必须根据研究目的和资料本身的特点选择适当的统计分析方法,否则得到的统计结果,不是毫无意义,就是由于稳定性极差而不赖。研究的目的大体可以分为两类:描述性研究和解释性研究。描述性研究在于说明某种现象的状况,一般可采用描述性统计来表示。解释性研究的目的在于寻找现象之间,或者说是变量之间(两变量间、一个变量与另一组变量之间、两组变量之间)是否存在某种关系、关系的程度如

3、何、关系存在的条件是什么等等。这时除采用描述性统计方法外,还要使用立因果统计模型和分类及综合变量等多种统计分析技术。变量、建研究资料的性质,主要考虑以下四个方面:变量的测量层次、资料的收集方法、数据的分布形态、变量的个数。我们知道,变量有四种测量尺度。一般地说,在低层次测量尺度可施用的统计方法亦可施用于次的测量尺度,反之则不可,但是为了不损失资料的信息,最好采用与测量尺度相应的统计方法。每一种统计方法均与相应的测量尺度相对应,资料往往是低层次的变量,如定类和定序变量,有时为了需要,需对这些低层次的资料作一些特殊的统计处理,使其层次提高,以能够使用次的统计分析方法。所谓资料的收集方法是指资料是通

4、过普查得到的还是通过抽样得到的,如果是由普查获得的,则使用描述性统计,如果是由抽样得到的,仅用描述性统计就不够了,还必须运用推断性统计技术,将样本资料推论到总体。 还有一个方面,是要考虑数据的分布型态,例如是正态分布还是偏态分布,是连续分布还是离散分布等。使用一个统计公式时,必须首先确定数据的分布型态与公式的假设前提是否相符。因为统计分析所用的公式,都是在一些有关分布型态的假定下推演出来的。例如皮尔逊相关公式有一基本假定:要求相关的两个变量所的二的次数分配应具有常态性,亦即所涉及的两个变量应形成一个二元正态分布。只有考虑了统计公式背后的基本假定与数据的分布型态,才能决定采用何种统计方法。最后一

5、个方面是变量的个数,如果为要概括研究对象的特征,则可用单变量分析,如某一群体的“平均”,某一“率”等。如果分析是要说明现象间的关系,就要用到多变量分析方法。4对于统计结果的解释对于统计结果的解释,要从实事求是的立场出发,与定性资料如、历史、等背景资料及有关个人态度、的资料相结合,并参考其它分析方现象的本质的、深刻的意义和内容。法所得到的结果,反映和揭示资料所代表的统计分析是一种定量的分析方法,但任何具体的量都是有质的规定性的,如果不了解量的这种质的规定性以及数量关系背后的背景情况,就可能做出浮浅的、错误的甚至是荒谬的解释。因此对于统计结果的分析,有赖于对事物作深入的观察和了解,决不能凭表面的数

6、据就轻易的下结论。在统计结果与原理论假设不相符的情况下,则要对造成这种的进行认真的分析,这时一方面可能是原来的假设或理、论是错误的;另一方面可能是研究过程本身所造成的,例如收集数据的方法不当,或是测量工具信度与效度不高,要么是统计方法选择不当或计算过程有误等。然后,对这一分析的结果进行说明。第二节 单变量统计描述单变量统计描述是对某一变量的数量特征所作的描述,它是最简单也是最基本的统计, 是对某一变量大量数据的统计概括。一、变量的分布变量的分布分为两类,一类是频次分布,一类是频率分布。1频次分布简单地说,变量的频次分布就是变量的每一取值出现的次数。例如对 l000户家庭的数进行了,通过将相同数

7、的家庭进行归类,就得到这 1000 个家庭子女数的频次分布:无家庭 80 户,一的家庭 700 户,二190 户,女 20 户,三个以上的 10 户。这样,用 5 个数字就可以概括出这 l000 户家庭数这一变量的内部结构情况。 对于离散型变量,如定类变量,频次的计算相当简单,只要对每一变量取值的个案数累加即可。而对于连续型变量,如定距变量,频次的计算必须分组进行。以上述1000 户家庭的人均收入为例,F 由于收入可能是某一区间内的任意值,因此只有先将整个区间分组,计算频次才有意义。假定 l000 户中人均收入最高为 150 元,最低为 50 元,则可将 50 一 150 这一区间划分为首尾相

8、接,间隔 20 元的五个组:50 一 70;70 一 90;90 一110;110 一 130;130150。其中每组上限即下一组下限,通常将组下限包括在本组中,每组用组中值(组中值)表示,如此,上述五个组就可用 60、80、100、120、140 代表了。分组后即可按组统计频次。2。频率分布频次分布可以把原始资料作初步简化,并对变量特征做出清晰的描述,但它不能用来比较不同样本。例另-个 500 户的,家庭 130 户;其数的频次分布为:无家庭 40 户;一家庭 300 户;二女家庭 20 户;三个以上家庭 10 户。因为样本容量不同,因此无法与 l000 户的资料进行比较。频率分布由于是用变

9、量每一取值的频次数除以总个案数,它是一个相对指标,排除了样本规模的影响,故而可用来比较不同的样本,例如按这一公式计算 1000 户与 500户两个样本,家庭户 O. 19、O.26;数的频率分布可得到:无户 O.08、O.08;一户 O.6;二女户 O.02、O.04;三个以上户 O. 01.、O.02。由此就可对两个样本的情况进行比较。一般频率分布是用比率的形式表示的,即将每一变量取值的频次数/总个案数×100(或1000 或 10000 等)。二、统计表与统计图为了更直观清晰地将上述变量的分布情况,通常采用统计表与统计图的形式。1统计表所谓统计表就是以表格形式来表示变量的分布,表

10、 151 是上例中千户家庭数的频次与频率分布表。表 151 千户家庭的数在制作统计表时,如果有未回答或回答不符合要求的情况,可有两种处理方法:一是仍对象的总数为基数计算频率,这时在表 151 中三个以上这一行下面加上一类:未详。以二是以有效回答为基数计算频率,这时应在表的下面、紧接着表的地方注明:未详××户。表 151 中累计频率(次)是将频率(次)从上到下逐行累加而成的。例如表中累积频率 780%,是由无户频率 80%与一个户频率 70.0%累加成的,它表示无户与一个户共占总户数的 78%。累积频率(次)也可以由下到上逐行累加。为了对不同样本的资料进行比较,可将两个样本的

11、分布放在一张统计表中,表l52上是上例中千户与五百户两个样本的差异。表 152 千户与五百户家庭数的分布对比表,由此表可以知道两个样本数的频率分布2统计图统计图是以图形表示变量的分布情况。与统计表相比,统计图虽然不如它精确,但却更直观、生动、醒目。常用的统计图有圆瓣图、条形图、直方图和折线图等。(1)圆瓣图。圆瓣图是用一个圆代表现象总体,每一瓣代表现象中的一类,其大小代表它在总体中所占的百分比频率。圆瓣图的制作方法是将变量每一取值的频率乘以 360,它就是此取值圆瓣的圆心角度数,图 151 为干户于描述定类变量的分布。数的百分比频率分布图。圆瓣图多用图 151 千户家庭数分布(2)条形图。条形

12、图多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频率(次)分布的,其中长条的宽度没有意义,一般均画成等宽长条。长条的排列可以是离散的,也可以是紧挨着的,见图 152。条形图有两种形式:长条平行于纵轴(图152)和长条平行于横轴(图 l53)。为了对不同样本或类别进行比较,可以将它们的条形图组合在一张条形图中,做成复式条形图,见图 l53。图 l53 千户家庭与五百户家庭数分布(3)直方图。直方图也是由紧挨着的长条的,但与长条图,不同的是,它的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频率(次)的大小,长条的纵轴高度表示频率(次)密度(频率(次)密度一频

13、率(次)/组距),长条的宽度表示组,距。直方图仅适用于定距变量。图 154 是千户家庭人均收入频率分布的直方图,组距20 元。(4)折线图。折线图是用直线连接直方图中条形顶端的中点而成的。显然,当组距逐渐减小时,折线将逐渐变为平滑,趋向为曲线。由图 l54 得到的折线图为图 l55。图 154 千户家庭人均收人分布组中值分别为 60;80;100;120;140;160 元。各组的频率分别为 l0%;16%;25%; 24%;18%;7%。图 155 千户家庭人均收人的折线图三、集中趋势分析集中趋势是从一组数据中抽象出的一个代表值,以代表现象的共性和一般水平。除可以说明某一现象在一定条件下数量

14、的一般水平外;集中趋势还可以对不同空间的同类现象或同一现象在不同时间的状态进行比较;以及分析某些中趋势测量指标有众数、中位数和平均数。现象之间的依存关系。常用的集1众数(M。)众数就是出现频率(次)最高的变量值。前例中千户家庭数的数据的众数为一户。众数可适用于任何测量层次的变量,对于定类和定序变量,众数可直接从变量的频率分布中观察到;对于定距变量,如果变量是在第 i 组具有最高的频率(次)密度,则用第 i 组的组中值表示变量的众数。例如图 154 千户家庭人均收入的众数在第三组,其值为 100 元。2中位数(Md)中位数是将观察总数一分为二的变量值。因此中位数应是位于数据序列位置的变量值,若将

15、数据从小到大顺序排列,则 Md 取值于(N 为观察案例总数)处的变量值。例如对于数据序列 3,5,6,8,9,11,14,中位数位于处,其值为8。当 N 为偶数时,由于处无数值,这时中位数为居中间位置左右两数的平均值。当变量是以频次分布的形式给出的,则用算出中位数所在位置,然后利用累积频次查找这一位置所对应的变量值。例如表 151 中中位数的位置50O.5 由累计频次得知对应值为 1.对于经过分组的资料,中位数的位置则是通过计算累积百分比频率得到的,即首先计算出含有累积频率 50%的区间,然后求出这个区间的上、下限值(U、L)最后利用公式 MdL(U-L)计算中位数值(其中 N 为案例总数;n

16、 为中位数所在组的频次;cf 为中位数所在组以前的累积频次)。以图 l54 的资料为例,含有 50%累积频率的组是第三组,区间的上、下限为 90 和 110,则其中位数中位数一般用于描述定序及定序以上测量尺度的变量的集中趋势。3平均数它仅适用于定距及定距以上变量,但有时也可用于定序变量,如求平均等级。平均数在原始数据较少时,可直接将这些数据累加,然后除以对象总数。在原始数据经过整理,得到它的频次分布时,平均数的计算用平均数公式表示 xi 与它对应的频数 ni 的成绩求的。表 51 千户家庭平均数12(三个以上女以上户出现频率很小,故取 4 作为代表对结果户是按 4 个影响不大)。计算的,由于对

17、于分组数值,一般用组中值来代替变量值,然后按154 的资料为例,千户家庭人均收入平均数公式计算平均数。以图需要指出的是,用组中值计算的平均数只是用原始数据计算的平均数的近似值。由于分组是人为确定的,因此在变量分布不均匀的情况下,不同的分组会有不同的结果。平均数主要是为了描述平均水平,它对每个案例的取值都十分敏感,在分布中少数非常的变量值,则平均数要受到较大影响,反而不能代表大多数观测值,这时用中位数描述变量的集中趋势更有益。4分布与三值的关系图 l56a、156b、156c 给出了变量分布的三种形态,a 形态是所谓的对称分布,又称正态分布,这时众数、中位数、平均数三者位置重叠。b 与 C 是所

18、谓的偏态分布,b 是正偏态,c 是负偏态,在偏态分布中,三值不重合,在正偏态时,由于左边频次密集,这使得中位数偏向左方,但由于左侧的变量取值大,故平均数较中位数偏右, 即平均数<中位数<众数。图 15.6 变量分布与分值关系15.6a 对称分布(正态分布)四、离中趋势分析集中趋势描述的是变量的一般水平,它用一个值概括出一组数据的共性,但它却无法说明被它概括的这一组数据间的差异程度,而离中趋势正是用以概括描述数据间差异程度的统计指标。与集中趋势一样,离中趋势也是对变量特性进行描述的量数,但两者不同的是: 集中趋势描述的是现象的共性,而离中趋势描述的是现象的差异性,如果离中量数大,说明

19、数据分布很分散,这时集中值对数据的代表性低,相反,则说明数据的分布很集中,集中值对数据的代表性高。在由样本资料推论总体时,集中值告诉我们的是如何去估计与总体,而离中趋势则告诉我们这一估计与的误差大小,因此,两者是相互补充的。常用的离中趋势测量指标有异众比率、极差、四分互差和方差。1异众比率异众比率即非众数的各变量值的总频数在观察总数中的比例。可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。2极差极差是对定序及定序以上尺度的变量离散程度的测量。它等于最大观察值与最小观察值间的差。极差越小表明资料分布越集中。但由于它的值是由端点的差决定的

20、,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。3四分互差四分互差也是对定序及定序以上测量尺度的变量离散程度的测量指标,它的优点是可以克服极差中极值对资料分散程度度量的干扰。把一组数据按序排列,然后分成四个数据数目相等的段落,各段分界点上的数叫做四分位数,即第一个四分位数 Q1 以下包括了 25%的数据,Q2 是中位数,第三个四分位数 Q3 以下包括了总数据中的 75%的数据。四分互差就是第三个四分位数与第一个四分位数的差,即 QQ3-Q1 。 以 表l5 1的 频 次 分 布 资 料 为 例 : Q3 所 在 位 置 ,由累布可查知,这个数据在一户内,所以 Q3l

21、,Q1 所在位置:这个数据也在一户内,即 Q1l;于是3 一 Q1l10。显然,四分互差的间距越小,说明中位数的代表性越大,数据分布越集中。对于分组资料,求 Q1 与 Q3 的值的方法与求中位数的方法相同,即首先找到含有累积频率25% 与75% 的 区 间 , 然 后 用 线 性插 值 法 或 直 接 用 公 式和 Q3L3中 L1、L3 为含有累积百分比 25%与 75%区间的下限,U,、进行计算。其U。为对应上限,n1、n3 为含有累积百分比 25%与 75%的区间的频次;cf1 与 cf3 为含累积百分比 25%与 75%所在组以前组的累积频次。以图 154 的资料为例,Q1704方差与

22、标准差方差与标准差只适用于定距变量。方差等于每一观察值与其平均数的差的平方和除以观察总数, 即而标准差则是它的正平方根对于用公式整理的原始资料可直接按公式计算为 2。对于经整理的频次分布资料,则可利进行计算。对于分组资料, 用组中值 bi 代替上公式中的变量值xi ,则计算公式为当然,用组中值计算的方差,不及用原始数据计算的方差精确,但对大多数研究来说,已足够用了。5离散系数与标准分数离散系数是标准差与平均数之百离散系数可用于两组数据的离散程度的比较。例如甲厂平均工资水平为 70 元,标准差为 65 元;乙厂平均工资 60 元,标准差为 6 元。则甲厂的工资离散系数93%,而乙厂为表明乙厂职工

23、工资差距大于甲厂。标准分数x 为原始数据,为总体平均数,为总体标准差。将原始数据标准化有两个作用:一是确定原始数据在总体分布中的位置,例如某厂人均收入是 224 元,标准差为 62 元,若厂中张三的年均收入为 348 元,则该人在厂里的收入位置如何?先计算标准分数,再查正态分布表,得到 Z2 在总体中的相对位置O.95,即厂中 95%的人收入低于该张三,只有 5%的人高于他。原始数据的标准化还有另一个作用,即对不同分布的各原始数据进行比较。假设甲厂人均收入是 224 元,标准差 62 元,其中张三年均收入 348 元。乙厂李四年均收入 300 元,从绝对值来看甲厂张三收入高于乙厂李四收入。但李

24、四所在厂人均收入 225 元,标准差 25 元。因此,因 Z 张2,所以 Z 张<z 李,故乙厂李四的相对值较甲厂张三更靠前。,第三节 双变量统计分析如上节所述,单变量分析的目的纯粹是为了描述,在研究中,往往要涉及到两个或两个以上变量,因此两变量及多变量间的关系是统计分析的一项更为重要的内容。本节我们将介绍描述与分析两变量关系的各种技术与方法,它们是多变量分析的基础与准备。一、列联表列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。表 153 是千户家庭数据依据变量家庭居住地与变量户

25、主从事的产业交互分类而成的。表 153 千户家庭居住地与户主从事的产业从表中可以清楚地了解到在每种地区条件下,户主从事产业的分布情况。因此这样的表又叫做条件次数表。表的最下一行和最右一列分别是每类地区和每种产业的总次数,称为边缘次数,其分布称为边缘分布。其余的次数称为条件次数。每一条件下的分布称为条件分布。条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互间无法进行比较,因而不能看出两变量之间的关系。为克服条件次数表的这一缺点,使各个类别之间可比,应将表中的绝对数字转变成相对数字百分数,这样制成的表称为条件百分表。表 154 就是由表 l53 制成的条件百分表。表 154 千户家庭所在

26、地区与户主从事的产业将条件百分比表中的各列百分比进行比较,就可以得到居住地对家庭从事产业活动的影响。例如由表 l54 可看出,中部、东部的家庭一般以从事工业活动为主,西部家庭一般以从事商业服务业活动为主。在制作条件百分比列联表时,一般应将自变量放在表的最上端横行位置上,例如表 l54 中自变量居住地区,因变量放在表的最左一列,例如表 l54 中的产业类别栏。计算百分比通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,因此应计算在自变量不同取值情况下因变量的变化情况如何。例如表 l54 是要分析居住地区对家庭从事产业的影响,因此应按居住地计算百分比,如果居住地不同,家庭从事的产

27、业的分布也不同, 就说明居住地类型对产业活动是有影响的。但在某些特殊的情况下,例如因变量在样本内的分布不能代表其在总体内的分布时,百分比就要按照因变量的方向进行计算。例如要研究某城市破裂家庭对青少年行为的影响,由于青少年在青少年总体中所占比例太小,如果以相同比例从与未青少年中抽样,则样本中青少年的比重太小,这样小的样本难于提供准确的资料,因此要扩大它的抽样比例。假定这个城市青少年总体中青少年有 900 名,未青少年 54400 名,以百分之一的比例从后者抽样,而以 50%的比例从前者抽样,则得到的样本中未的条件次数表如下:青少年有 544 名,青少年 480 名。假定交互分类后得到由于因变量在

28、样本中的分布不能代表其在总体中的分布,因此若以自变量计算百分比就会歪曲资料。例如在上面的频次分布表中,完整家庭的青少年共 833 名,其中者 334是抽样名,如果从这个方向计算百分比,则其率高达 40.1%,这显然与事实不符,时扩大了青少年在样本中的个案数。因此应以因变量作为计算百分比的方向,由表155,可见青少年中破裂家庭的比例(30.4%)大于未青少年(83%),由此证明家庭破裂确实是导致青少年的一个。的影响表 155 家庭对青少年另外在制作列联表时,应在表的最后一行绘出自变量各类数值的个案总数,并以括号括起来。表的大小一般是以行的类别数(自变量)乘以列的类别数(因变量),例如表 l54,

29、其大小为 3×5,而表 l55 的大小是 2×2。列联表综合了两个变量的共同分布,因此像单变量频率分布统计表一样,具有对变量进行描述的作用。列联表的另一个作用是可对不同类别进行比较。但从另一个角度看,它又是对变量关系的一种解释性分析。例如表 154,可以用于对各居住地区组的比较,但也可以换一个角度,不再以东部、中部、西部为不同的分组,而视居住地区为对其它变量,如产业类别有影响的变量,即在居住地与产业类别间有一种因果关系。列联表可用于各种测量层次的变量,在用于定序变量时,变量应按取值的大小顺序排列, 如低、中、高,大、中、小等。在将其用于定距尺度的变量时需事先进行分组,然后以

30、组的首尾相接顺序排列,如 5070 元,7090 元,90110 元等。对于变量间关系的分析, 列联表的优点是直观、资料丰富,不仅可以看到关系的有无、大小,而且还可以了解这种关系的详细结构。但当表很大时,这种直观性会受到很大限制。此外,它无法确切地告诉我们这种关系的密切程度如何,因此,还需要计算相关系数。二、消减误差比例相关系数有各种类型,其中大部分含有消减误差比例的意义。所谓消减误差比例,是指一种对变量间关系的测定,简称 RE。研究的主要目的是或解释现象的变化,例如对于家庭从事的主要产业(y)活动,假定我们要推测我庭一般从事什么产业活动,或者推测在不同,家庭从事的产业类别。在作这种解释或推测

31、时,难免会有误差,但如果我们知道样本的分布,例如表 153 千户家庭所从事产业的分布,我们就可以推测出我国家庭一般是从事工业活动的(出现频率最高的变量值),显然这种推测可以最大限度地消减误差。此外,如果知道另一种与其户主从事的产业有关,或现象与这种现象有关系,例如知道家庭所在地区(X)发展水平与家庭从事的产业有关,则根据现象 X居住地)来现象 y(从事的产业),应能减少这种推测或解释的误差,而且,X 与 y的关系愈强,所能减少的误差就应越多。因此,通过所消减的误差多少,可以反映出 X 与 y的关系强弱。假设在不知道 X 的情况下,对 Y 进行的全部误差是 E1,在知道 X 的情况下,由X 预测

32、或解释 Y 的总误差为 E2,则由 X或解释 Y 时所减少的误差为 E1 一E2,消减误差比 RE。RE 越大,表示以x或解释 Y 时所减少的误差越多,即 X 与y 的关系愈强。换言之,RE 的值表示的是用一个现象 X 来解释另一个现象(y)时,能够消除百分之几的错误,即 X 对Y 的解释力有多大。由上式可知,RE 的值在 0 与 1 之间,当E2 0 时,RE1,说明 X 与 Y 完全相关,X 能百分之百解释 Y 的变化;若 E2 E1,则 RE 0,说明X 与 Y 之间没有关系,X 对Y 无解释力。消减误差比例适用于各种测量层次的变量,但公式中的E1 与 E2 的具体定义在不同层次的变量间

33、,或同一层次的变量内部有所不同。由于这一统计值具有的意义合乎要,故而它是变量问关系测量的基础。研究的需三、相关分析所谓相关,就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。例如当居住地发生变化时,家庭从事的产业也发生变化,我们就可以说家庭的居住地点与其户主从事的产业活动是相关的。相关分析就是以一个统计值表示变量与变量间的关系,这个统计值称为相关系数。通常大多数相关系数取值在 0 与±l 之间,0 代表无相关,±1 代表完全相关,相关系数越大,表示相关程度越强。相关系数前面的正负号表明相关的方向,正相关系数表示,当一个变量的值增大

34、时,另一个变量的值也增大;而负相关系数则表示,当一个变量的值增加时,另一个变量的值却在减少。当然,对于两个定类变量,其相关不存在方向问题。需要特别指出的两点是:虽然相关系数可以描述变量间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的,是很难说的,在统计学中需要大到 0.7 以上,但现象间很少有这样密切的,所以研究一般要结合定性分析来断定事物内在的、本质的。此外,数据所显示出的相关(或无关)关系,实际上也可能并不反映变量间存在(或不存在)有意义的关系。相关系数有各种类型,用于测量不同层次的变量间的关系,下面按照变量的不同测量层次对各种相关系数作一简单介绍。1定类变量定

35、类变量用于测量两个定类变量的相关系数,主要有 Lambda 与 TauY两种。(1)Lambda 系数,Lambda 相关系数又分为:对称形式,用入表示,即用于测量的两个变量间的关系是对等的,即无自变量与因变量之分。非对称形式,用入yX 表示,即所测量的两个变量间有自变量与因变量之分, X为自变量, Y 为因变量。 入,其中 MyY 变量众数的频次;MXx 变量众数的频次,mxyY 变量每个取值之下的 X 变量的众数的频次;m,为 X 变量的每个取值之下的 Y 变量众数的频次;N 一 l 之间 Lmbda 系数具有消减误差比例的含义。对象总数。Lambda 的取值在 0表 l5 3 中 家 庭

36、 居 住 地 与 户 主 从 事 的 产 业 的 相 关 系 数 入yx说明当用家庭居住地区其户主从事的产业类别时,只能消减 3%的误差。(2)TauY 系数,简称y 系数,它是测量变量间非对称关系的,其中 Y 为因变量,X 为自变量。y 系数也具有消减误差比例的含义,y 通常都用经过简化的公式计算,其中 Fj(j1,2r)为 Fij 的边缘分布次数,Fi 为Xi(i_1, 2c)的边缘分布次数;fij 为同属于 Xi 和 Yj 的个案总数;r 为 Y 变量的类别数;c 为 X变量类别数;N 为观察总数。y 取值在 0 一l 之间。通常y 值比yx 值更好,但yx 值较y 值易于计算。此外无论

37、是yx 或y 都是测量变量间非对称关系的,因此yx 与xy、x 与y 的意义是不同的。2定序变量定序变量如要测量两个定序尺度变量间的关系,可用 Gamma 系数、dyx系数和斯皮尔曼等级相关系数。(1)Gamma 系数,一般用 G 表示,它适用于分析两个变量间的对等关系,即两个变量无所谓自变量与因变量之分。G 系数具有消减误差比例的含义。,其值在一 1 一1 之间,既表示相关程度,也表示相关方向。式中同序对是指某对个案在两个变量上的相对等级是相同的,异序对是指某对个案在两个变量的相对等|级上是相反的,以表 156 为例。若对象总数为 N,则应有对个案,本例对象总数为 4,因此有 6对个案:AB

38、、A-C、AD、BC、BD、CD。按照定义,其中 AC、BC 是同序对,其余均为异序对,于是其等级相关系数它表示企业的效益与其职工人均收入成反比,以企业的表 15效益等级推测其职工人均收入等级,可以减少 33%的误差。个企业的效益水平与人均收人水平等级如表 l56 所见,G 系数是分析两个等级序列的关系的,故又称等级相关系数,在研究中,它所涉及的往往是研究对象本身的某两种特征间的等级关系。例如人的地位与偏见程度,教育水平与职业声望,企业规模的大小与效益水平,农村发展水平与其保障水平等。在等级分布表中,有时两个个案分数相同,分不出高低,这时一般用两级的平均值作为这两个个案的等级,如表 157 中

39、的 8 和 C。表 157 五名对象的职业声望等级与收人水平我们用 TX 表示仅在变量 X 上同等级的对数,Ty 表示仅在变垦 Y 上同等级的对数,TXy 表示在两个变量上都同级的对数。表 157 中 TX0,Ty2(B-E;CE),TXy1(Bc)。TX、 Ty、TXy,叫故同分对,G 系数不考虑同分对,而只考虑同序对与异序对。在本例中,同序对有 6 对(AB;AC;AD;AE;BD;CD),异序对有 l 对(DE),故可见职业声望与收入水平成正相关,相关程度很高。用职业声望水平来推测其收入水平,可以消减 71%的误差。上面所介绍的是如何由少量个案的原始资料计算 G 的值,而在大规模中资料的

40、等级分布往往是用列联表的形式给出的,例表 l58,这时同序对数量等于表内每个频次乘以其右下方全部频次之和,然后加总,而异序对数量则等于表内每个频次乘以其左下方全部频次之和,然后加总。以表 l58 为例:表 158 教育水平与职业声望由表中数据可得同序对量200(900300400100)500(300100)400(400100)900(100) 830,000;异序对数量700(500800900300)400(800300)400(500800)900(800) 3,430,000 则(2)dyX 系数,与 G 系数一样,dyX 系数也是等级相关系数,其值也在一 1 到1 之间, 也具有消

41、减误差比例的意义。但不同于 G 系数的是,d,系数测量的两个变量间的关系是非对称性的,即所测两个变量有自变量 X 与因变量 Y 之分,因此其计算公式也不同于G 系数,根据表 157 中的资料可得当资料是以次数列联表形式给出时,同序对与异序对的数量计算方法同 G 系数,Ty 等于列联表中的每个频次乘以它右面的所有频次之和,然后加总。以表 158 为例,Ty200(400700)400(700)500(900400)900(400)4-800(300100)一 0.42。(3)斯皮尔曼等级相关系数(Spearman),一般用 表示。与 G 系数和 dyX 系数不同,斯皮尔曼相关系数不是考虑个案对在

42、两个变量上的相对等级,而是考虑单个个案在两个变量上的等级差异,它在计算每个个案在两个变量上的等级时,不仅要作高低的比较,还要考虑等级的差异是多少。例如某研究对象职业声望等级为 3,收入等级为 l,则不仅其在两个变量上的等级高低不同,而且相差了两个等级。以Di 第i 个对象在两个变量上的等级(Xi-yi),Xi 为它在 X 上的等级值,Yi 为其在 y 变量上的等级值,N 表示全部对象总数,则, 取值在一 1 到1 之间。斯皮尔曼等级相关系数是测量两变量间对等相关关系的,它有消减误差比例的含义。斯皮尔曼等级相关是以变量没有相同等级为前提的,如果某些个案在同一变量上的等级是相同的,且相同等级不太多

43、时,可取其平均等级。例如下面的 11 名学生的在 80 分、75 分和 64 分上都出现了同分对,这时就应取平均名次:成绩中,3定距变量定距变量测量两个定距变量相关系数的一个最常用指标是皮尔森(eakson)相关系数,用 r 表示,r其中是变量 X 的平均数,Xi 第i 个观察值;是 Y 变量的平均数,Yi 为 Y 变量的第 i 个观察值。r 值在一 1 到1 之间。r 糸数要求对象的成对资料而且两个变量的分布应近似于正态分布。r 系数是测量两个变量间对等关系的,并且 r 的平方值具有消减误差比例的含义的公式:在实际进行计算时,一般采用下述经过简化r变量 X 与变量 Y 间存符合线性关系的假设

44、,用性关系这一假设,是r 系数的前提,如果两个变量间的关系不r 相关系数进行分析就会犯错误。如何分析两变量间非线性关系呢?一个常用的办法是下面将要讲的相关比例测量法。相关比例测量法是测量一个定类变量与一个定距变量相关程度的,即因变量(定距变量)在自变量(定类变量)各值上的差异情况。两定距变量是非线性关系时,可将一个变量看作是定类变量,采用比例相关测量法分析, 由于定类变量不具有数量大小的概念,故不存在是否线性相关的问题,因此两个非线性相关的变量关系分析可用相关比例测量法来测量。4定类变量定距变量两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间的相关程度。相关比率,又称

45、 eta 平方系数,简写为 E2其中是因变量 y 的平均数,_i 是在每个自变量值(xi)上因变量的平均数。其值在 0-1 中间。E2 具有消减误差比例的含义。eta 平方系数的计算公式可简化二为其中 Ni 是自变量值 Xi 的个案总数,N 是全部对象总数。相关比例测量法基本上是用于分析非对称关系的,但要求并不严格。5定类变量定序变量对于一个定类变量例如,与一个定序变量例如收入水平关系的分析,一般可以有两种处理方法,第一,用 theta 系数,简记为 0,其值在 0 一 l之间。0 系数是专日用于测量定类变量与定序变量间关系有无和强度的,它测量的是变量间非对称关系,并且不具备消减误差比例的含义

46、。第二,采测量两个定类变量关系的系数和系数,即将定序变量作为定类变量处理。虽然这样做会损失数据的某些信息,如等级差别,但方便了统计分析工作,因此在变量与一个定序变量的关系。研究时大多数人都采用这两个指标分析一个定类6定序变量定距变量处理一个定序变量,例如教育水平,与一个定距变量如年均收入之间的关系,一般采取下述两种办法:第一,将定序变量看作是定类变量,采用相关比例测量法。第二,将定序变量看作是定距变量,采用 r 相关系数。严格地说,低测量层次变量不能使用高测量层次的统计指标,但在有些情况下,由于这种提高测量层次的方法给研究结果的解释带来的危害程度不大,大部分学家还是接受了这种作法。上面我们介绍

47、了各种测量层次的两个变量在不同组合下,其关系的测量方法。由上面的介绍可知,在分析两个变量关系时,选择哪种相关系数,主要考虑两个方面:(1)变量的测量层次;(2)变量关系的类别,即是对等的还是非对称的。四、一元方差分析方差分析是统计分析中应用非常广泛的技术,其中包括一元方差分析,二元方差分析以及多元方差分析。一元方差分析是关于一个定类变量和一个定距变量关系的分析,二元方差分析是对于两个定类变量与一个定距变量的关系的分析依此类推,n 元方差分析是指 n 个定类变量与一个定距变量关系的分析,二元以上的方差分析都叫做多元方差分析。方差分析是由对变量间相关关系的分析,到建立描述变量间因果关系的一般线性模

48、型的过渡,后者是大多数多变量分析方法的思想。变量间因果关系的一般线性模型要求所涉及的自变量与因变量均是定距或定比变量,而方差分析所讨论的自变量虽然是定类变量,但采用的基本模型与假定与线性模型没有什么不同。下面我们结合一个例子来说明方差分析的基本原理和具体方法。表 159 是在三个地区各抽 8 个村得到的资料。表 159 三个地区的人学率由于 y 是定距变量,在不知 X 时,应用变量 Y 的平均数作为推测的标准,则每个推测的误差为 为 防 止 正 负 值 相 互 抵 消 取, 总 推 测 误 差 为TSS 叫做总离差平方和,表示全体观测值 yij 对总平均数(推测值)的离差平方和。表 159 中

49、在知道X 与Y 的关系后,应用自变量每一取值 X1 下的 y 分布的平均数做推测的标准,则每个个案推测的误差为 将其平方这时总推测误差为RSS 又称组内离差平方和,表示各观测值对本组平均数的离差平方和,它不是由自变量而是由其它未知因素引起的。BSS 叫做组间离差平方和,表示各组的平均数与总平均数的离差的平方和。它是由于自变量值 Xi 的不同引起的差异。换句话说,总推测误差可以分为两部分,一部分是可解释解释的,即 TSSBSSRSS。表 l59 资料的 BSS28(767581)的,一部分是剩余未能28(8 62881)28(8562581)231675,它是0.解释了的部分,即用X 的不同可以

50、解释的入学率(y)的差异。RSSTSSBSS 一 61525,是组内离差平方和,这一部分是各之内的差异,是不能用的不同来解释的,RSS 又称剩余平方和,即未解释的变动。其中 df1、df2 分别为 BSS 与 RSS 相应的自由度,df1m 一 1,df2Nm(m 为变量 X 值的类别数,N 为观测总数)。df1df2df 即表示 X 与Y 越可能相关。表 l59 的 df131,df2243。,F 越大就于是由此可见,方差分析的基本思想就是把推测的全部误差(TSS)分为两部分;可被自变量 X 消减的部分(BSS)和剩余部分(RSS),然后从这两部分的相互比较中看 X 与 Y 是否相关。方差分

51、析是分析一个定类变量与一个定距变量的关系的,但如果是一个定序与定距变量,当把其中的定序变量看作为定类变量时,也可以使用方差分析,实际上许多员都是这么做的。五、一元回归分析调研人相关分析的目的在于了解两个变量关系的有无、大小和方向,从本质上说相关分析只是对客观现象的一种描述程序。回归分析比相关分析进了一步,它是对相关的两个变量间关系的具体形态的一种深入分析。例如通过相关分析知道了教育水平与期望数是一种负相关关系,但两者之间关系的具体形态,如是一种直线关系还是一种曲线关系,如果是曲线关系,是哪种曲线,这些由相关分析无法了解到,而回归分析可以说是解决这类问题的一种的方法,即它不仅分析两个变量关系的有

52、无、大小和方向,而且要了解两个变量具体是以什么方式的。回归分析是一种因果分析,它是根据两变量间关系的具体形态,选择一个合适的数学模型,用来近似地表达变量闯平均变化关系,这个数学模型就是回归模型。回归分析一般用于分析定距变量问的关系,它除了具有描述和说明这种关系的功能外,还具有预测的功能,这也是相关分析所不及的。回归分析根据自变量的数目,可分为一元回归、二元回归、多元回归等。1一元回归模型对于已知相关的两个变量 X 与 Y,假设它们之间是一种线性关系,则这一关系可以用一元线性方程 YabX 表示,其中的a 和b 是待定系数。那么应如何确定 a 和b 的值?一般的原则是使由 yabX 算出的值 y

53、i与实际数据 yi 的误差(yiyi)最小。为避免误差正负相抵消,回归分析一般采用最小平方即计算值与实际值的差的平方和2(yiyj') 最小为标准,实际上回归分析就是根据最小平方这个原则计算出 a 值与 b 值,即确定方程式 yabX。这个方程叫做回归方程,b 称为回归系数,a 称为截距,即 X0时,y 的值。a 与b 的具体计算公式为:2散点图与回归直线为了直观地看出X 与Y 的关系形态,往往先做关于所的数据的散点图,即在直角坐标系中,将由每一横坐标 Xi 与相应的纵坐标 Yi(i1,2,n)所确定的点标示出来。图 157 是一份散点图,由图中点的分布可以看出 X 与 Y 间存在一种

54、线性关系,虽然可以有多条直线来近似地刻画这种关系,但其中只有一条直线的代表性最好,这条直线就叫做回归直线。图 157××数据的散点图回归直线的方程就是回归方程,回归方程中的 a 就是回归直线的 Y 轴截距,回归系数 b就是回归直线的斜率,它表示每当增加一个的 X 值时,y 值的变化有多为正值时,表示随 X 的增大,Y 也增为负值时,贝 0 表示 X 增大,Y 却减少,因此 b 值具有描述自变量对因变量的影响的大小和方向的作用。3回归系数与 r 相关系数回归系数与 r 相关系数都是描述两个定距变量间的线性关系的指标。r 相关系数是一种对等关系测量法,它反映的是两个变量有无关系,关系的强弱, 但它不能给出当一个变量 X 有X 的变化发生时,Y 的变化 Ay 具体有多大。 b 值可以做出这种区分,不过 b 值却无法反映两个变量间关系的强弱。此外,b 与 r 值不同的是,b 值所描述的是一种因果关系,而相关关系只是因果关系的必要条件。尽管有上述不同,但回归分析与相关分析间有着十分密切的关系,实际上 r 值所要表示的,就是以回归方程作为工具时所能减少的误差比例,r 值越大,就表示回归方程的预测能力越强,即散点图中的点越靠近回归直线。因此我们用 r2 作为决定系数在研究中往往要先计算 r 的值,然后再决定是否用回归分析进行。4回归分析的作用回归分析模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论