定量资料的分析_第1页
定量资料的分析_第2页
定量资料的分析_第3页
定量资料的分析_第4页
定量资料的分析_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的分析延时符定量资料的研究分析借助的是各种统计分析方法。按统计分析的性质的不同,定量资料的分析可分为描述统计和推断统计;按统计分析涉及变量的多少,定量资料的分析可分为单变量统计分析、双变量统计分析和多变量统计分析。延时符描述统计与推断统计一、描述统计(descriptivestatistics)是用图形、表格和概括性的数字对数据进行描述的统计方法,即用直观的图形、汇总的表格和概括性的数字(如平均数)表示数据的分布、形状等特征。推断统计(inferentialstatistics)是指研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。延时符描述统计与推断统计的划分还反映了统计方法发展的前后两个阶段和使用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),那么运用描述统计就可以达到认识总体数量规律性的目的;如果获得的只是研究总体的一部分数据(样本数据),那么要想找到总体的数量规律性,就要运用概率论的理论并根据样本信息对总体进行科学的推断。显然,描述统计和推断统计是统计方法的两个组成部分。延时符描述统计是所有统计分析的基础,推断统计则是实际工作中定量资料分析的主要内容。而且,推断统计的地位和作用也越来越重要,已成为统计分析的核心内容,这是因为在对现实问题的研究中所获得的数据主要是样本数据。但这并不等于说描述统计不重要,如果没有描述统计搜集可靠的统计数据并提供有效的样本信息,再科学的统计推断方法也难以得出切合实际的结论。从描述统计学到推断统计学反映了统计学发展的巨大成就,是统计学发展成熟的重要标志。延时符单变量、双变量和多变量统计二、在社会调查研究中,通常都会涉及多个变量。但是在统计分析中,究竟是进行单变量统计分析,还是进行双变量统计分析或多变量统计分析,取决于调查研究者的意图和目的。延时符单变量统计分析只能进行描述性研究。因为单变量统计分析只涉及一个变量,所以它只能用统计数值(如平均数、百分比、标准差等)来描述单个变量的特征,不能对变量之间的关系做出解释,而只有双变量统计分析或多变量统计分析才能进行解释性研究。因为只有涉及两个或两个以上的变量时,才有可能分析它们之间的关系(包括相关关系和因果关系),才有可能用自变量来解释因变量。也就是说,如果要进行解释性研究,就必须进行双变量统计分析或多变量统计分析。常用的双变量统计分析方法包括列联表分析与χ2检验、各种双变量相关分析、一元回归分析等等。延时符当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则称为多变量或多元统计分析。多变量统计分析是一种更为复杂的统计分析方法,因而通常称为高级统计方法。在计算机统计软件产生之前,多变量统计方法由于技术太复杂、计算太困难,应用范围受到很大的限制。在计算机统计软件产生并推广应用之后,这种情况已完全改变,各种设计精巧的统计软件可以让社会调查研究者根据需要进行各种复杂的多变量统计分析。当然,要正确使用统计软件、正确解释和使用统计分析结果,就必须掌握多变量统计分析的基本原理和方法,否则再好的统计软件也不可能做出正确的统计分析。在社会调查研究中,多变量统计分析方法有很多,如多元相关分析、多元回归分析、因子分析等。延时符

(一)单变量统计分析单变量统计描述分析单变量统计推断分析单变量统计分析又分为延时符

1.单变量统计描述分析单变量统计描述分析是对单一变量利用描述统计的主要方法进行研究。单变量的统计描述分析在社会调查研究中很常见,如某城市的家庭结构如何?有多少直系家庭?有多少联合家庭?又有多少核心家庭?某城市居民中有多少种民族?其各占比例多少?某企业有多少女性员工?其年龄结构如何?某学校教师的文化结构如何?等等。延时符单变量统计描述的分析方法分为集中趋势分析和离中趋势分析。(1)集中趋势分析。集中趋势是指一组数据向其中心值靠拢的倾向和程度。分析集中趋势就是寻找该组数据的代表值或中心值。延时符①众数。众数是指总体中出现次数最多的那个标志值,用Mo表示。众数表示被研究社会经济现象中最普遍最常见的标志值,以反映该现象的一般水平。众数用得最多的情形是具有明显偏态集中趋势的次数分布,如对一个地区的家庭收入分配数列、工人月工资分配数列、某种债券息票率分组的行情次数分布等进行分析。根据未分组数据或分组数据计算众数时,只需要找出出现次数最多的变量值即可。延时符某次考试中考生的年龄分别为34,25,41,37,37,29,35,37,30,34,40,求众数。解:考生年龄的众数即为频数最高的年龄37。【例11-1】延时符根据某单位员工职业资格等级分组资料(见表11-2)求众数。表11-2某单位员工职业资格等级分组表解:经观察发现,职业资格等级为二级的员工人数最多,因此众数为二级。【例11-2】延时符应该注意的是,一组数据也许有两个甚至多个众数存在。数据中出现两个次数最多的变量值时,可称为复众数。在实际工作中,还可以利用直方图来确定众数的近似值,但要求绘制的直方图足够精确,其具体方法不再赘述。众数属于位置平均数,不受极端值的影响。当变量数列为均匀分布、U型分布、J型分布时,不存在众数。众数缺乏敏感性,这是因为众数的计算只利用了部分数据的信息,不像均值那样利用了全部数据信息。延时符②中位数。中位数是标志值按大小顺序排列成数列后,处在该数列中点位置的标志值,以Me表示。确定中位数时,需要先找出分布数列的中间位置点。要确定未分组资料的中位数,就要先将总体中各标志值按数值大小排列,如有n个数值,则确定中位数的位置点公式为Om=(n+1)/2。如果n是奇数,则居于中间位置的那个标志值就是中位数;如果n是偶数,中位数则是中间两个位置的标志值的算术平均数。延时符现从2016年获得管理学学士学位的毕业生中随机抽取了10个人组成一个样本,他们的月收入如表11-3所示。请确定样本收入的中位数。表11-3毕业生样本收入数据单位:元解:中位数的位置点Om=(10+1)/2=5.5,也就是说,中位数在排序后第5、第6个数据之间。中位数Me=(2850+2900)/2=2875元。【例11-3】延时符计算表11-4中加工零件数的中位数。表11-4工人加工零件数分组资料【例11-4】延时符中位数因为不受极端值影响,所以其代表性比均值稳定。但中位数没有考虑总体的全部变量值,不宜用来推算总体。此外,中位数还具有一个优良的数学性质,就是各变量值与中位数的离差绝对值之和最小,即该性质表明,中位数与各数据的绝对距离之和最短,这在工程设计、城市规划、网点布局等方面有一定的应用价值。延时符③分位数。分位数是将按标志值大小顺序排列的各总体单位划分为数目相等的若干部分的数值。中位数是将统计分布从中间分成面积(即数据个数)相等的两部分,与中位数性质相似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)。不难理解,四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数(Q2),在25%位置上的分位数称为下四分位数(Q1),在75%位置上的分位数称为上四分位数(Q3)。十分位数和百分位数分别是将数据分布10等分和100等分的数值。使用Excel软件可以方便地得出数据的四分位数。延时符根据例11-3给出的数据,求毕业生样本收入数据的上四分位数和下四分位数。解:分四步进行解答。新建一Excel工作表,输入收入数据,如图11-2所示。【例11-5】图11-2数据输入延时符在“公式”项下点击“插入函数”,并在复选窗口选择“统计”,再点选“QUARTILE.EXC”,最后点击“确定”,如图11-3所示。图11-3函数“QUARTILE.EXC”的调取延时符在弹出的对话框中,“Array”后选择要处理的数据区域,“Quart”后填写1,点击“确定”,得到这组数据的下四分位数为2675元,如图11-4所示。图11-4函数参数的输入及下四分位数结果的得出延时符重复上一步的操作,“Array”后选择要处理的数据区域,“Quart”后填写3,点击“确定”,得到这组数据的上四分位数为3125元,如图11-5所示。图11-5函数参数的输入及上四分位数结果的得出延时符④算术平均数。算术平均数亦称均值,是总体各单位某一数量标志的平均数,它的基本形式是总体各单位某一标志值的总和(标志总量)除以总体单位总量。其计算公式为利用此公式时应注意分子和分母必须属于同一总体,分子的标志总量应是分母所有总体单位标志值之和,分子与分母的范围是一致的。总体标志总量是数量标志值的和,由于品质标志不能相加,因而不能计算算术平均数。算术平均数是一个有名数,计量单位应和标志值的计量单位一致。(11-2)延时符根据所得数据的形式不同,算术平均数的计算分为简单算术平均数和加权算术平均数两种形式。简单算术平均数是将总体各单位的标志值简单相加求得标志总量,然后除以总体单位总量得到的,其计算公式为式中,x为算术平均数,xi为各单位标志值,n为总体单位数,∑为求和的符号。(11-3)延时符已知某工厂工人的工资情况如表11-5所示,求该工厂工人的月平均工资。【例11-7】表11-5某工厂工人工资水平分布情况延时符⑤几何平均数。几何平均数是各个标志值连乘积的项数方根所得的平均水平。几何平均数在计算社会经济问题的平均发展速度等方面发挥着重要作用。根据所得资料的形式不同,几何平均数可分为简单几何平均数和加权几何平均数两种形式。延时符2011—2014年各年我国的国内生产总值的发展速度如表11-6所示。试求这几年间国内生产总值的平均发展速度。【例11-8】表11-62011—2014年我国的国内生产总值的发展速度延时符在资料分组的情况下每个变量值次数不相同时,计算几何平均数应采用加权几何平均数,公式如下其中f表示各标志值出现的次数,∑f表示次数之和。(11-6)延时符假如某银行存款按复利计算,定期存款25年的年利率见表11-7,计算平均年利率。【例11-9】表11-7定期存款的年利率资料延时符(2)离中趋势分析。平均数是概括数据的一种有效方法,但有时用平均数却会使人们产生错误的认识。例如,一个社区的平均家庭户收入可能是每年30万,但如果这个均值是根据200户非常贫困的家庭和20户极其富有的家庭收入计算得来的,那么这一平均年收入就几乎没有代表性。离中趋势是数据分布的另一个重要特征,它反映了各变量值远离其中心值的程度,也从另一个侧面说明了集中趋势指标的代表程度。延时符①极差。极差又称全距,是一组数据中最大值与最小值之差。其计算公式为极差=最大的标志值-最小的标志值(11-7)一般说来,如果总体的标准差较大,从中取出的样本的极差会大一些;如果总体的标准差较小,从中取出的样本的极差也会小一些。反过来说,若样本极差较大,表明总体取值较分散;若样本极差较小,则总体取值相对集中。延时符根据例11-3中的数据,计算毕业生样本收入的极差。解:极差=最大的标志值-最小的标志值=3300-2600=700(元)。【例11-10】延时符极差是描述离中趋势的最简单指标,计算简单直观,也易于理解,但其数值大小易受极端值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。②内距。内距是两个四分位数之差,即内距=上四分位数-下四分位数=Q3-Q1

(11-8)延时符根据例11-3中的数据,计算毕业生样本收入的内距。解:由例11-5可知,毕业生样本收入的上四分位数Q3=3125元,下四分位数Q1=2675元,内距=上四分位数-下四分位数=Q3-Q1=3125-2675=450元。【例11-11】延时符比较极差和内距,易发现极差会受到极端值的影响,而内距基本不受极端值的影响。而且内距反映的是中间50%数值大小的差异,显示出了比极差更多的数据差异信息。

③方差与标准差。总体的方差是总体各单位标志值与算术平均数离差的平方的算术平均数,用σ2表示,方差的平方根就是标准差,用σ表示。样本的方差记做s2,样本的标准差记做s。标准差是测度离中趋势、离散程度最常用的指标。延时符(11-9)(11-10)a.对于未分组资料,采用简单平均式。总体标准差式中,x为总体各个标志值,μ为总体的均值,N为总体单位总数。样本标准差式中,x为样本各个标志值,x为样本的均值,n为总体单位总数。延时符b.对于分组资料,采用加权平均式。总体标准差样本标准差在单项式变量数列中,x代表各组标志值;在组距式数列中,x代表各组组中值,f为各组对应的次数。(11-11)(11-12)延时符从A社区中随机抽取31个家庭组成样本开展消防安全知识测验,成绩如表11-8所示,求测验分数的标准差。【例11-12】表11-831个家庭的知识测验分数延时符延时符④离散系数。极差、标准差都是使用绝对数来说明标志值的差异程度或离中趋势的,它们的大小不仅受离散程度的影响,而且受标志值数列水平的影响,也就是说,同样大小的变异度对于不同水平的标志值数列来说,其表明的意义是不一样的。例如,2000元的损失对于月薪4000元和月薪15000元的人来说,影响就大不相同。延时符所以说,对于两个不同水平的数列,如果它们的绝对水平相差很大(平均数不同),就不能根据计算所得的变异指标直接进行比较。另外,对于计量单位不同的数列,更不能用绝对数形式的标志变异指标做比较,因而需要计算其离散程度的相对指标——离散系数。将变异指标与代表数列水平的平均指标联系起来观察,才能真正反映不同水平的变量数列的离散程度。离散系数的计算公式为

(11-13)延时符假设对从B社区抽选的样本开展的消防安全知识测验的平均分为70分,标准差为10分,那么根据例11.12中A社区的数据,哪个社区测验平均分的代表性更高?【例11-13】延时符

2.单变量统计推断分析单变量统计推断分析有两个方面的工作:一是参数估计,即由对部分进行观测取得的数据对研究对象整体的数量特征取值给出估计;二是假设检验,即由对部分进行观测取得的数据对研究对象的数量规律性是否具有某种指定特征进行检验。(1)参数估计。所谓参数估计就是用样本统计量去估计总体的参数。例如,用样本均值x估计总体均值μ,用样本方差s2估计总体方差σ2,用样本比例p估计总体比例π等。参数估计的方法有点估计和区间估计两种。延时符①点估计。点估计又称定值估计,它是直接以样本指标数值(统计量)推断总体指标数值(参数)的方法。点估计给出的只是总体缩小的一个估计数值,即没有给出估计的精确或准确程度,也没有给出估计的可靠程度。因此,在实际推断中,一般不单独使用点估计的方法,而多采用区间估计的方法。但点估计是区间估计的基础,区间估计的置信区间是以点估计的值为中心的。因此在抽样调查的估计理论中,点估计的方法与原理也很重要。延时符②区间估计。区间估计是指在一定的概率保证下,根据样本指标和抽样极限误差去推断总体相应指标所在的可能范围(置信区间)的方法。这个可能范围通常用一个最低限和一个最高限构成的区间来表示,并以一定的概率保证总体指标的估计值在这两个数值构成的区间之内。因此,它是利用样本指标去推断总体指标的主要方法。延时符要想深刻理解区间估计,就需要从以下3个方面来把握:a.区间估计是根据样本指标和抽样极限误差去估计总体指标所在的范围的。在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。区间的最小值称为置信下限,区间的最大值称为置信上限。用公式表示为其中Δ为抽样极限误差(允许误差)。(11-14)(11-15)b.区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。总体指标在这个范围的判断是不肯定的,其在一定范围内的判断会有一定可靠程度,即置信水平、置信度,或者称有一定概率保证。例如,总体均值落在以样本均值为中心构造的±1.96个抽样平均误差范围之内的概率为95%,落在两个抽样平均误差范围之内的概率为95.45%。c.扩大抽样极限误差的范围可以提高推断的可靠程度,缩小抽样极限误差的范围会降低推断的可靠程度。即精确程度与推断的可靠程度此消彼长。延时符如果总体方差未知,那么在大样本条件下就可以用样本方差s2代替总体方差σ2,这时总体均值μ在1-α置信水平下的置信区间可以写为(11-17)如果是采取不重复抽样,而且抽样比很大时(一般大于5%),则抽样分布的方差应乘以修正系数

,这时总体均值μ在1-α置信水平下的置信区间可以写为某研究机构想估计在软件公司工作的员工每周加班的平均时间,随机抽取了一个36人的样本,计算得到样本的均值为14小时,样本的标准差为18小时。试以95%的置信水平估计软件公司员工每周加班时间的置信区间。【例11-14】(2)假设检验。假设检验是除参数估计之外的另一类重要的统计推断问题。它是指对未知总体的某种特征提出某种假设,再根据样本资料来验证该假设是否成立的推断统计方法。假设检验的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,如果对于总体的某个假设是真实的,那么不利于或不可能支持这一假设的小概率事件A在一次试验中几乎是不可能发生的,要是一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,从而拒绝这一假设。假设检验可分为以下4个基本步骤:①提出原假设和备择假设。根据已知的信息,在经过周密考虑之后提出原假设H0和备择假设H1,假设的设定依据是原假设和备择假设的定义。②选择适当的检验统计量,并根据样本信息计算检验统计量的值。不同的假设检验问题需要选择不同的统计量作为检验统计量。所谓检验统计量是根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本的统计量。检验前必须先确定用于检验的统计量,了解其分布特点。③选择显著性水平,确定临界值。假设检验的基本原理就是根据检验统计量建立一个准则,依据这个准则和计算得到的检验统计量值,研究者就可以决定是否拒绝原假设。但统计量的哪些值将导致拒绝原假设而倾向于接受备择假设?这就需要找出能够拒绝原假设的统计量的所有可能取值,这些取值的集合称为拒绝域(否定域)。拒绝域的大小与研究者事先选定的显著性水平有一定的关系。在确定了显著性水平α之后,就可以根据α值的大小确定出拒绝域的具体边界值——临界值。拒绝域的位置取决于检验是单侧检验还是双侧检验。双侧检验的拒绝域在抽样分布的两侧。而在单侧检验中,如果备择假设具有符号“<”,那么拒绝域就位于抽样分布的左侧,故称为左侧检验;如果备择假设具有符号“>”,那么拒绝域就位于抽样分布的右侧,故称为右侧检验。在给定显著性水平α条件下,拒绝域和临界值可用图11-6来表示。图11-6显著性水平、拒绝域和临界值④将检验统计量值与临界值进行比较并做出判断。拒绝域是由显著性水平α所围成的区域。如果利用样本观测结果计算出来的检验统计量的具体数值落在了拒绝域内,就拒绝原假设,否则就不能拒绝原假设。

(二)双变量统计分析前面所讲授的统计方法都属于单变量的统计方法,即把总体看作一维的随机变量。但是,构成社会现象的研究更多的是指命题,即研究两个或两个以上概念间的关系,用统计语言表达就是研究变量x和变量y之间的关系。例如,沟通能力与收入的关系;文化程度与生育意愿的关系;年龄与人们爱好的关系;人格与个人事业成就的关系;等等,这些都属于双变量统计分析的内容。由于变量存在不同的测定层次,双变量统计分析有着不同的研究方法。需要说明的是,由于社会调查研究中很少能找到只满足定距要求而不满足定比要求的变量(除了智商IQ),因此常把定距和定比两类合并为一类。按照以下三种方式划分的双变量的统计分析方法可制成如表11-9所示的二维矩阵。表11-9双变量统计分析方法矩阵其中每一种(xi,yj)(i=1,2,3;j=1,2,3)的组合,都构成了双变量的一种特定的统计分析方法的讨论。下面双变量统计分析方法的介绍就是根据以上组合展开的。

1.两个定类变量的相关测量如果两个变量都是定类变量,那么在计算相关系数的时候,就可用λ系数和τ系数表示。这两种系数都具有消减误差比例的意义。(1)λ系数。λ系数的计算需要用到PRE(ProportionalReductioninError)这种方法。所谓PRE,就是减少误差比例法,即变量间的相关程度可以用两个误差的相对差值的大小进行度量,其中一个误差为当不知道y与x有关系时,靠y本身的分布预测y的全部误差,另一个误差为当知道y与x有关系时,用x去预测y的误差。PRE的值越大,表示y和x的关系越密切,或者说相关程度越高。λ的值域在0和1之间。λ系数的计算分两种形式:一种是非对称形式,另一种是对称形式。假设有r×c列联表(见表11-10),则有表11-10r×c列联表①非对称形式。非对称形式假设两个变量的关系是非对称的,即一个是自变量x,一个是因变量y,用自变量x来预测因变量y时,可以消减的误差比例是多大,通常以符号λy表示,其计算公式为(11-20)同理,如果y为自变量,x为因变量,用自变量y来预测因变量x时,可以消减的误差比例通常以符号λx表示,计算公式为(11-21)②对称形式。对称形式即假设两个变量的关系是对称的,在区分不出自变量和因变量时,可同时计算λy和λx,并取其平均λ值作为x和y间的相关程度,其公式是λ值只使用了众数的频次,资料信息使用不充分,如果全部众数的频次集中在交互分类表中的同一列或同一行中,那么λ系数便会等于0。因此,有些研究者用τ系数对定类变量的相关关系进行测量。(11-22)(2)τ系数。τ系数在运用PRE准则时与λ系数不同,并有所修正。具体来说,当不知x与y有关系预测y时,τ系数要充分考虑到y值边缘分布所提供的信息,因此不再用众数来对y进行预测,而是用边缘分布所提供的比例来进行预测。τ系数值域在0和1之间。当以x为自变量时,用对y的预测来定义PRE,得的τ值称作τy,其公式为(11-23)同样,如果y为自变量,用对x的预测来定义PRE,所得的τ值称作τx,其公式为由于τ系数考虑了全部的次数,所以比λ系数更可靠。因此,如果是非对称关系,最好选用τ系数简化两个定类变量之间的关系。(11-24)

2.两个定序变量的相关测量最常用的简化两个定序变量的相关测量有Gamma系数(通常用G表示)和d系数。Gamma系数适用于对称关系,d系数适用于非对称关系。两者的取值都在-1和1之间,既表示相关的程度,也表示相关的方向,并且都具有消减误差比例的意义。(1)Gamma系数。计算Gamma系数(G)的公式如下其中ns表示同序对的数目,nd表示异序对的数目。(11-25)同序对是指形成一对的两个个案在不同变量上的等级次序是相同的,也就是说其在变量x上的等级高低顺序与在变量y上的等级高低相同。如果个案A在x变量上的等级为xa,在y变量上的等级为ya,个案B在x变量上的等级为xb,在y变量上的等级为yb。如果xa>xb,ya>yb,那么就称个案A和B是同序对。而异序对则是指某对个案中在不同变量上的等级次序不同,其中一个变量的等级高于对方,另一个变量的等级低于对方。如果个案A在x变量上的等级为xa,在y变量上的等级为ya,个案B在x变量上的等级为xb,在y变量上的等级为yb。如果xa>xb,ya<yb,那么就称个案A和B是异序对。(2)d系数。d系数的计算公式如下其中ns表示同序对数;nd表示异序对数;ny表示y变量的同分对。这里所说的y变量的同分对指的是在两个个案中,变量y具有相同的等级。(11-26)由于dy系数考虑了因变量y的同分对,所以其数值小于Gamma系数值。值得说明的是,原则上需要用dy系数分析非对称的关系,用Gamma系数分析对称关系,但在一些研究中,即使区分了自变量和因变量,也选用Gamma系数,这种做法是可以接受的。除了Gamma系数和d系数外,还有一些测量定序变量关系的方法,如肯德尔(Kendall)的τ系数和斯皮尔曼(Spearman)的等级相关系数rs等,具体可参考相关文献。

3.两个定距或定比变量的相关测量两个定距或定比变量之间的相关关系可以用系数r、R2来表达。(1)样本相关系数。相关系数是对变量之间密切程度的度量。对两个定距或定比变量之间线性相关程度的度量称为简单相关系数。根据样本数据计算的相关系数叫作样本相关系数,记为r。英国统计学家卡尔•皮尔森(KarlPearson)在1890年提出了一个测定两变量线性相关的计算公式,其为相关系数r具有下面几个性质:①相关系数的取值范围在-1和+1之间,即-1≤r≤1。②若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。③│r│的数值越接近于1,表示相关系数越强;越接近于0,表示相关系数越弱。当r=1或-1时,表示两个现象完全线性相关。当r=0时,则表示两个现象完全不相关(不是直线相关)。④判断两变量线性相关密切程度的具体标准为:若0≤│r│<0.3,则称为微弱相关;若0.3≤│r│<0.5,则称为低度相关;若0.5≤│r│<0.8,则称为显著相关;若0.8≤│r│<1,则称为高度相关。需要说明的是,皮尔森相关系数r只能测定两个定距或定比变量之间存在的线性相关关系。也就是说,如果两个变量之间│r│数值较大,也只能够说明两者之间存在较强的线性关系。如果两者之间r为0,并不能说明两个变量之间不存在除线性形式以外的其他形式的相关关系。所以,在计算两个变量的相关系数时,应该先使用散点图观察两变量之间的函数形式,然后再使用相关系数来测量相关关系的方向和程度的大小。(2)可决系数(判定系数)。可决系数R2是对拟合优度进行度量的一种方法。所谓拟合优度,指的是对所估计出的样本回归线考察其对样本观测数据拟合的优劣程度。如果样本回归线对样本观测值拟合程度越好,各样本观测点与回归线靠得越近,由样本回归做出解释的离差平方和在总离差平方和中占的比重也将越大;反之,拟合程度越差,这部分所占比重就越小。可决系数R2的公式为(11-29)可决系数R2有如下特点:①可决系数R2是非负的统计量。②可决系数R2取值范围为0≤R2≤1。③可决系数R2是样本观测值的函数,是随抽样而变动的随机变量。④在一元线性回归中,可决系数R2在数值上是简单线性相关系数的平方:

4.定类变量与定序变量的相关测量由于定序变量具有定类变量层次的数学特征,因此,大部分社会调查研究者在分析定类变量和定序变量时,都采用λ系数和τ系数,也就是将定序变量作为定类变量来看待,虽然这种做法会损失定序变量的一些数学特质,但统计起来较为方便。

5.定类变量与定距变量的相关测量定类变量和定距变量的测量一般采用相关比率E2表示,它是根据自变量的每一个值来预测或估计因变量的均值,具有消减误差比例的意义,其取值范围为0~1。相关比率E2开方后可得到相关系数E,因为有一个变量是定类变量,所以E系数没有负值。其计算公式如下(11-30)

6.定序变量与定距变量的相关测量在定序变量和定距变量的测量中,通常也是采用相关比率E2来进行测量的,也就是把定序变量作定类变量处理。在分析定序变量和定距变量的关系时,除了采用相关比率系数外,社会调查研究中也会采用积矩相关系数甚至线性回归,其基本的逻辑是定序变量通过赋值作为定距变量进行统计。

(三)多变量统计分析多变量统计分析又称多元统计分析,是指涉及三个及三个以上变量(其中至少一个因变量)的统计分析方法。社会现象之间的复杂性使人们认识到正确使用多变量分析,通常会比只进行单变量和双变量分析更具有解释力。20世纪80年代以来,随着计算机的普及和统计软件的广泛应用,多变量统计分析方法迅速发展,现已发展成为一个各种方法互相交叉、内容丰富、层次复杂的庞大体系。囿于篇幅,下面简略地介绍几种比较常用的多变量统计分析方法。

1.多元相关分析在双变量分析中,是用一个统计量(如相关系数λ、G、r等)反映两个变量间的相关关系的。当变量达到三个或三个以上时,相关关系的分析就属于多元相关分析或多变量相关分析的范畴了。多元相关分析也是用一个统计量(如偏相关系数、复相关系数等)来简化和反映多个变量之间的相互依存关系的,只不过这种关系更加复杂。与多元相关分析直接有关的方法有偏相关分析、复相关分析和典型相关分析等。(1)偏相关分析。偏相关分析指的是在控制了其他变量影响的情况下,用一个统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论