![社会统计分析方法(第二版) 课件 第1、2章 导论与统计基础知识、多元线性回归_第1页](http://file4.renrendoc.com/view12/M09/31/24/wKhkGWYWu8KAMUzcAACh0Eqd7Mc863.jpg)
![社会统计分析方法(第二版) 课件 第1、2章 导论与统计基础知识、多元线性回归_第2页](http://file4.renrendoc.com/view12/M09/31/24/wKhkGWYWu8KAMUzcAACh0Eqd7Mc8632.jpg)
![社会统计分析方法(第二版) 课件 第1、2章 导论与统计基础知识、多元线性回归_第3页](http://file4.renrendoc.com/view12/M09/31/24/wKhkGWYWu8KAMUzcAACh0Eqd7Mc8633.jpg)
![社会统计分析方法(第二版) 课件 第1、2章 导论与统计基础知识、多元线性回归_第4页](http://file4.renrendoc.com/view12/M09/31/24/wKhkGWYWu8KAMUzcAACh0Eqd7Mc8634.jpg)
![社会统计分析方法(第二版) 课件 第1、2章 导论与统计基础知识、多元线性回归_第5页](http://file4.renrendoc.com/view12/M09/31/24/wKhkGWYWu8KAMUzcAACh0Eqd7Mc8635.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章导论与统计基础知识方法——SP社会统计分析SS软件应用(第二版)(新编21世纪社会学系列教材;教育部高等学校社会学学科教学指导委员会推荐教材;全国普通高等学校优秀教材)作者:郭志刚SPSS是发展较早、应用非常普遍的社会统计软件包。它具有十分强大的数据处理、统计分析功能,同时又具有易学、易用的特点。因此,本书所介绍的高级统计方法将以SPSSforWindows第13版及其他更新版本作为应用软件。本书是一本多元统计分析方法教材,主要目的是介绍和讲解各种统计方法的原理与应用。为了方便读者将这些分析方法投入使用,示范了用SPSS软件分析例题的操作。对一些统计知识和SPSS软件两方面基础均较为薄弱的读者,本章第三节和第四节分别提供了一些初级统计知识要点的复习和SPSS软件入门的简介。另外本书还设有一章,介绍事件史数据的预处理。一、关于本书各章的简介为了建立这些方法的分类框架,需要具备一些统计学基础知识,即变量测度等级的概念。下面第一小节是对变量测度等级的简介。然后,在第二小节中对各种方法做一概括。第三小节将按照各种方法应用的变量条件列出一个框架图。(一)变量的测度等级在科学研究中,用变量来量化描述概念。但是不同概念能够被量化的程度有所不同,另外即使一个概念实际上具备较高的量化程度,而在实际观测时也可能因为具体情况而采用较低的量化程度。这种量化程度在统计学中称为变量的测度等级或测度水平。变量的测度等级直接关系到统计分析方法的选择。变量的测度等级的划分有多种,一般常用的划分为四种,即:名义测度、序次测度、间距测度、比率测度。名义测度名义测度是最低的一种测度等级,也称定名测度。实际上,名义测度变量的值只代表类型的编码,而这些编码的数值只是一个符号,数值之间不存在有实际意义的量的关系。比如,性别便是一个名义测度等级的变量,可以将男性编码定为1,女性编码定为2。序次测度序次测度的量化水平高于名义测度,也就是说它所包含的信息量大于名义测度等级的变量。因为在序次测度等级的变量中,变量编码不仅具有分类的作用,而且也存在量的关系。比如,受教育程度这个序次测度等级的变量,采用数字编码表示不同类别,比如:文盲半文盲=1,小学=2,初中=3,高中=4,大学=5。间距测度间距测度等级的量化程度更高,它的取值不再是类的编码,而是采用一定单位的实际测量值。这时不仅可以知道两个不同变量值存在差异,而且可以应用减法得到两值之间的差或应用加法得到两值之间的和,它们的差与和都有实际意义。但是,间距测度等级的变量值之间不能进行乘除计算。比率测度比率测度是最高级的测度等级,它除了具有间距测度等级的所有性质外,而且其0值是非人为制定的,比如K温度中的0度被称为绝对0度。(二)本书所介绍的分析方法的概述多元线性回归应用于单方程模型,其因变量必须为测量型变量,其自变量既可以为测量型变量也可以采用虚拟变量等特殊编码变量。研究目的是分析因变量值的变化与自变量值变化之间的关系。多元回归用最小二乘法求解回归系数。如果变量之间有多层因果关系,便可以由多个具有内在联系的多元回归方程组成一套通径分析联立方程组。在满足特定条件的情况下,每个方程都可以通过多元回归求解系数,然后应用通径分析分解变量之间的直接作用和间接作用。如果一套联立方程组中含有潜在变量(即不可直接观测的变量),便不能再用最小二乘法求解,这时可以应用结构方程模型,它主要采用最大似然估计求解。在研究有两组各包含多个变量的变量组之间的关系时,可以采用典型相关分析。典型相关分析的所有变量必须为测量型变量或虚拟变量。多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著差异。当因变量为分类变量或序次变量且自变量为测量型变量和虚拟变量时,不能采用常规的多元线性回归,而应该采用logistic回归。当因变量为计数变量(即有限的正整数值)且自变量为测量型变量和虚拟变量时,则应该采用泊松回归。鉴别分析主要应用于在已知一些案例的各种条件值及其结果类型的条件下,形成鉴别方程,然后将其应用于其他条件值已知但结果类型未知的案例,预测它们的结果类型。这种方法可以视为因变量为多分类结果、自变量为测量型或虚拟变量的因果预测。它的主要应用目的是进行鉴别分类。在使用纵贯数据进行因果分析时,事件史分析是可以应用的分析技术。其中,离散时间模型实际上就是用logistic回归求解。而Cox比例风险模型是连续变量模型,它分为两种,一种包括动态变量(即随时间变化的自变量),另一种不包括动态变量。事件史分析的数据处理是一项比较复杂的工作,本章第十四章专门介绍这方面的技术。至于因子分析、聚类分析和对应分析,它们并不是因果模型,分别用以分析变量、案例和类型(变量值)之间的结构关系。它们被称为相依模型。因子分析经常服务于浓缩多个测量型变量,使之转换为较少数量的新变量(称为因子)后,仍然携带原变量的绝大部分信息。聚类分析用于分析各案例在多个测量型变量值上的距离,将其按近似性原则进行案例排列。对应分析可以用来对不同非测量型变量的类别之间的关系进行分析,以作图形式显示不同变量类别之间的近似程度。(三)本书所介绍的统计方法的分类框架以下框架首先按照观测数据的来源分为两大类:第一类是横贯数据横贯数据指在同一时间不同案例的观察数据。它可以来自一次普查、抽样调查或分地区(部门)的统计资料汇总表等。本书所介绍的方法主要是应用于横贯数据的方法。第二类是纵贯数据纵贯数据指对同样的案例在不同时间上的多次观测所得到的数据。从方法论而言,对于研究因果关系,纵贯数据具有更高的有效性。然而,纵贯数据的取得相对于横贯数据要难得多。它可以来自追踪观测,然而追踪调查存在周期长、成本高、案例容易损耗等困难。它也可以来自回顾调查,但是回顾调查往往发生由于记忆不准所造成的偏差。实际上,本书所介绍的方法中只有事件史分析属于这一类。所以,在框架中直接以该方法名称作为标注。该框架的第二种划分是分析模型的属性。一类是因果模型,一类是相依模型。该框架所采用的另一种划分依据是变量的测度等级。二、在应用统计的研究中,要以研究方法论为指导虽然本书的主要宗旨是介绍统计方法,但是作为全书导论,在此要特别强调社会科学研究的整体性,即一个好的研究不可能仅仅建立在统计分析的基础上。统计分析只是整个研究当中的一个环节,因此在学习和应用统计分析时,必须清醒地把握统计分析的方法论意义,自觉地将其服从于整个研究。(一)理论、观察、统计之间的关系现代社会科学研究中包含三个要素:理论、观察、统计。所以,统计技术的应用绝不是孤立的事情,它不仅需要专业理论的指导,也需要研究方法论的指导。忽视这两个方面,便极易导致研究结论中的谬误。比如,经常可以见到错误理解和阐述统计结果的问题,即分析计算结果是正确的,但是对于这些结果的理解和解释却是错误的。(二)统计研究中的常见谬误1.混淆统计联系与因果关系2.事后解释谬误3.生态学谬误4.还原论谬误5.混淆统计检验显著性与实际意义显著性(三)社会科学的研究对象和模型社会科学的研究对象应该是人所生活于其中的社会有机体,比如客观存在着的社会制度、经济体制、家庭模式等等。构成这些社会体系的要素并不是人,而是一系列社会存在的构件和方面,包括制度、机构、规范、组织等等。这些社会构件和方面的属性、特征、意向、行为可以通过科学抽象得到概念,将它们定义为一套变量,并经过操作化得到测量。(四)统计分析与理论分析实际上,统计研究不可能脱离理论指导,比如,如何判定哪些变量应该列入分析模型,便主要是理论分析的结果,而不是统计分析的结果。统计分析的功能主要是在理论分析的上,检查各个模型变量的作用,对其作用进行量化描述,并对有关理论假设进行检验。(五)真理性的检验与统计检验实践是检验真理的唯一标准。但是,实践是一个活动过程,不能简单归结为直接经验这样的个别环节。并且,实践检验过程是借助逻辑推论的链条进行的,实际上在这一逻辑链条中,只是某些环节才可能进行直接。如果把直接检验绝对化,就会犯经验主义的错误,把检验知识真理性的全过程局限于主体感受中。并且,实证主义的证实性原则在方法论上是排斥理论的。至于统计检验,可以认为是实践检验的一种形式。一种认识是否正确,要看它是否符合客观实际。反映在统计研究中,就是看理论假设是否符合观测数据。但是统计检验也不可避免地存在其局限性,其结果会受到分析技术的成熟程度、模型变量的有效性、测量数据的可靠性、样本规模的大小等许多方面的影响。所以,统计检验不显著,并不意味着这一研究无价值。事实上,许多统计研究正是从失败的经验中不断总结、修改研究方案,而最终得到正确的结论的。而在统计检验显著时,则更要清醒地认识到,统计分析只是就事物的统计联系进行分析,从统计分析中得到肯定的事物联系到对于事物之间本质联系的认识还有很远的距离。因此,统计检验只是从一个侧面进行的实践检验,并不能替代其他形式的实践检验。三、基础统计原理与概念回顾在社会科学研究中,经常会从一个总体中抽取一部分个体进行调查,抽样调查不仅是最普遍、最流行的数据收集方法,而且随机抽样也是大部分推断统计和显著性检验的最基本的条件。通过一定的程序从样本特征去推断总体的特征构成了推断统计学的基本内容。(一)抽样调查的定义及其相关概念1.抽样调查的定义所谓的抽样调查是指从研究对象的总体中按照科学方法和程序抽取一部分个体作为样本进行调查,据此推断有关总体的特征。在调查研究中,除非重大的调查如人口普查、资源普查等,一般都是进行抽样调查。根据抽样的方法,抽样调查又分为非随机抽样。2.抽样调查的优缺点第一,经济性强。抽样调查不需要对总体中的所有单位进行逐一调查,而是调查其中的一部分,因此可以大大地节约调查的人力、物力和财力。第二,及时性强。不像普查那样每隔几年进行一次,抽样调查因为涉及较少的调查单位,可以随时进行,及时、快速地获得相关数据。第三,信息量大。抽样调查可以包括较多方面的深度信息,提高详细程度。第四,质量较好。不过,抽样调查的技术难度较大,尤其是随机抽样方法,需要经过专门的培训才可能掌握;此外,在抽样调查尤其是在随机抽样时,需要对总体的一些信息比如总体抽样框、总体方差等有一个了解,而这些信息有时候很难获得。另外,如果违反随机原样,抽样调查可能出现较严重的覆盖偏差,从而导致统计结果产生较大偏差,这时的抽样数据就不能简单用于推断总体。3.总体与样本所谓的总体就是研究对象的全体。对于社会科学研究来说,我们可能要关注总体的某个方面的特征,比如总体的平均数、总体的标准差等等。我们把描述总体某方面特征的指标称为参数,一般而言用大写字母标注。所谓的样本就是按照一定的方式从总体中抽取出来的一部分个体,样本中包含的个体数目狀称为样本规模或样本量。(二)统计推断与抽样分布当我们用样本的统计量去推论总体的参数值时,通常有两种方法:参数估计和假设检验。统计推断,无论是参数估计还是假设检验,都建立在抽样分布的基础之上。四、SPSS入门示范本节所使用的例题数据是根据美国人口咨询局2013年发布的世界人口数据表整理而成。原数据表中有更多的国家或地区数据和更多的变量,但是数据中存在不少缺失。此外在艾滋病感染率这个变量中一些案例是用小于某一上限值的描述。本书为了示范和练习方便,只保留了其中一些主要变量,而且删除了这些保留变量中存在数据缺失的案例,对上述艾滋病感染率那些不确切的测量值直接取其上限值作为替代,整理后的数据文件名为WPDS2013.sav。在本节的示例分析中,我们都尽量使用这个数据,并且直接使用案例数据,并不根据各国或地区人口规模来对统计分析进行加权。并且,我们将这个数据作为全世界各国或地区的一个随机抽样数据来对待。(一)取得基本统计指标1.间距变量的描述性指标2.分类变量的频数表3.分类别的描述性指标4.交互表频数与相应统计指标(二)样本平均数的t检验1.单样本平均数检验2.独立样本平均数检验(三)方差分析1.方差分析的数据要求和假定条件2.方差分析原理3.用SPSS进行单因素方差分析4.多因素方差分析简介5.双因素饱和模型6.双因素非饱和模型8.用命令来运行SPSS分析基本概念理论观察统计研究方案事后解释谬误生态学谬误还原论谬误变量测度等级抽样调查总体样本参数统计量抽样分布统计推断参数估计置信区间置信度假设检验弃真错误纳伪错误显著度描述性统计概要指标频数表方差分析本章要点1.实际研究中的变量有不同的测度等级,其变量值虽然可能都以数字形式出现,然而表达的量的意义完全不同。2.各种统计分析方法对于变量测度等级有具体要求。在应用统计方法时必须满足其对于变量测度等级的要求以及其他假设条件,不合乎统计方法所要求的变量类型不能应用。3.不同统计方法的基础是对变量之间关系的模型假设。应该按照研究需要和数据类型选择统计方法。4.统计分析只是整个研究的一个组成部分。必须以科学研究方法论和具体学科理论为指导,正确理解和阐释所得到的统计结果。参考文献郭志刚,郝虹生,杜亚军,曲海波.社会调查研究的量化方法.北京:中国人民大学出版社,1989.肯尼斯·D·贝利.现代社会研究方法.许真译.上海:上海人民出版社,1986.刘大椿.科学活动论.北京:人民出版社,1985.第二章多元线性回归多元线性回归(multiplelinearregression)是分析一个随机变量与多个变量之间线性关系的最常用的统计方法。实际工作中,常常希望知道所关心的事物受哪些因素的影响,比如销售量与价格和广告费的关系、农业产量与原料和气候的关系、生育水平与教育水平和经济水平的关系、物价与失业率的关系、收入与受教育程度和年龄的关系等等。多元线性回归用观察数据拟合所关注的变量和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。概括地说,回归分析要解决三个方面的主要任务。第一,依据研究理论和经验建立关于因变量与一个或多个自变量之间关系的回归方程,并且根据数据样本拟合来求解这个回归方程的各项回归系数值。这些回归系数值便反映了各自变量对因变量影响作用的方向和幅度。应用SPSS的回归程序可以非常便利地求解这些回归系数,保证得出一套最佳的回归系数解。第二,评价这一回归方程对实际数据的拟合程度。回归分析保证取得“最佳”系数的意思只是说,这套系数对实际数据的拟合程度肯定比任何其他的解都要相对更好,但是我们还需要进一步了解采用这套系数的回归方程的拟合程度到底有多好。一般用回归方程对因变量变化解释的百分比来描述拟合程度,百分比越高就表示拟合程度越好。第三,在样本回归分析的基础上进行总体推断性统计。前两个任务还是在数据样本之内对回归方程的分析,但是社会科学的统计研究往往是通过样本分析来推断总体。所以,研究者需要对样本回归分析指标进行统计显著性检验,看看这些结果是否能推广到总体的情况。本章后面将大体按照这三方面的顺序来介绍回归分析。一、变量的关系和回归的任务二、简单线性回归模型我们从简单的情况开始,先来看含有一个自变量的线性回归问题。一个自变量的回归称为简单回归或一元回归。统计分析经常是先对总体中随机抽样得到的样本数据进行分析,然后再对总体进行推断。在抽样原理统计教科书中,总体的各种指标称为参数,样本的各种指标称为统计。因此,在后面的统计表述中经常需要分清总体参数和样本统计量。在很多情况下,两者相互对应,所以为了简明,本章采用许多教科书的做法,在一般情况下将总体参数用大写符号标注,将样本统计量用小写符号标注。(一)简单线性回归方程(二)简单回归系数的意义在回归模型式中,犪和犫称为回归直线的系数。犪是直线在狔轴上的截距,代表狔的基础水平;犫是直线的斜率,它表示狓变化一个单位时,狔的平均变化。(三)变量变换当因变量狔与自变量狓是非线性关系时,可以通过变量变换使经过变换的新变量对于参数是线性的。spss回归程序可以检查变量之间是不是有线性关系,如果是非线性关系,还可以应用spss曲线回归来探测具体是哪一种非线性关系。我们将在后面进行介绍。这里,我们仅用一个简单例子介绍如何对自变量进行非线性变换,以使线性回归能更好地拟合数据。(四)最小二乘估计的统计性质最小二乘估计在求解回归方程模型时是最常用的估计方法。通过最小二乘法得到的回归方程估计,有很好的统计性质。(五)模型的假定条件统计理论已经证明,在满足一定的假定先决条件下,样本数据的最小二乘估计是总体参数的最佳线性无偏估计。这是因为在推断总体参数或进行统计检验时,必须考虑总体回归模型中的随机误差项ε的分布特征。因此,对随机误差项ε提出若干基本假定条件。三、多元线性回归模型在本节中,我们要将简单回归推广到多元回归。在具体介绍有关分析之前需要说明,以上讨论的所有简单回归的假定条件都适用于多元线性回归。(一)多元线性回归方程(二)回归平面和回归系数的意义(三)一般回归模型乘法模型指数模型1指数模型2多项式模型(四)多元回归模型估计的统计推断四、方程的拟合程度(一)确定系数R^2(二)调整的确定系数R^2(三)多元相关系数R(四)偏确定系数(五)偏相关系数五、回归方程的统计检验和回归系数的推断统计在一般情况下,我们是通过抽样样本观测数据来推断总体的情况。因此,样本中计算的各统计量都服从一定的抽样误差。检验样本回归方程各统计量,就是为了根据样本统计量来判断总体各参数的情况。(一)整个回归方程的显著性检验对整个回归方程的统计检验也是通过方差分析完成的。将因变量y的总的离差平方和分解为两个部分:一部分是可以由回归方程解释的部分,称之为回归平方和;另一部分则是不能由回归方程解释的部分,称之为残差平方和。然后,用残差平方和代表随机波动,来评价回归方程的解释能力是否具有统计显著性。(二)偏确定系数的统计检验偏确定系数描述的是,在控制前一步回归中其他变量的条件下,新纳入一个或一组自变量的新增解释能力。偏确定系数也是一个百分比,只不过它只涉及前一步回归没能解释的因变量变化。(三)各自变量回归系数的显著性检验当回归方程整体检验具有统计显著性时,一般可以表明回归方程中至少有一个自变量的回归系数是显著的,但并不一定所有自变量的回归系数都是显著的。(四)回归系数的置信区间(五)回归系数不显著的原因(1)样本量太小,或者自变量个数较多(2)x(j)的变化范围太小(3)x(j)与方程中的其他自变量线性相关(4)y与x(j)虽然有关联,但却是非线性关系(5)y与x(j)确实不存在显著的线性关系六、标准化回归系数因为变量的标准化过程中都要除以该变量的标准差,这不仅会改变变量的数值,而且约分掉了原变量的实际测量单位,所以z变量是无量纲变量,即脱离了任何实际测量单位的纯统计量。于是,标准化变量的回归系数β称为标准化回归系数,它表示当其他变量不变时,x变化1个标准差单位,y的标准差的平均变化。七、多元统计控制对回归系数的影响采用多元回归最重要的优越性就是可以将对因变量有重要影响的自变量同时纳入分析,在控制其他模型自变量的条件下一一求解对应自变量的偏回归系数。因此,偏回归系数表达了对应自变量相对“独立”的影响作用,将更为接近真实情况的反应。尽管研究者可能并不清楚还有哪些重要影响变量,但是多元回归在方法论层次更为优越,提供了研究者进行深入探索和检验的工具。八、回归预测的区间估计九、回归诊断前面我们已经讨论过回归模型的正确估计和推断必须依赖于一定的假定条件,如果我们的数据及变量分布不满足这些假定条件,用回归方法获得的结果可能会有误导性。本节将讨论一些回归诊断的方法,以检验我们的数据是否满足线性回归的假定条件。此外,还有一些问题并不直接涉及回归的假定条件,但是对回归结果的影响也很大,因此在进行回归分析时也要多加注意,比如案例的权势影响和自变量之间的共线性问题。在回归分析中对这类问题的检查称为诊断。十、最优回归方程的选择(1)全部纳入法(2)全部删除法(3)向前回归法(4)向后回归法(5)逐步回归法上述五种方式可结合运用。十一、标识变量在回归分析中的应用在社会科学研究中,有许多分类变量,比如地区、时期、公司、民族、性别、婚姻状况、教育程度、职业和居住地等分类。这些分类信息对于研究同样是很重要的。虽然分类变量不能直接用于回归分析,但是通过将分类变量转换为按特定规则赋值的一套编码变量后,便可以将其作为自变量纳入多元线性回归模型,用以解释因变量的变化。并且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度屋顶光伏系统维护保养合同模板
- 学校安全管理方案
- 2024-2025学年广西壮族自治区高三上学期11月联考历史试卷
- 2025年公共照明设施合同
- 2025年自动化设备购买与前期策划协议
- 2025年住宅用地和楼宇订购合同
- 2025年绿化养护承包合同范本
- 2025年外教聘请合作协议
- 2025年二手房产交易代理协议格式
- 2025年交通运输中介合同协议书范本
- 2025年冷链物流产品配送及仓储管理承包合同3篇
- 电镀产业园项目可行性研究报告(专业经典案例)
- 2025年鲁泰集团招聘170人高频重点提升(共500题)附带答案详解
- 2024-2025学年成都高新区七上数学期末考试试卷【含答案】
- 企业员工食堂管理制度框架
- 【开题报告】中小学校铸牢中华民族共同体意识教育研究
- 2024-2025学年云南省大理州七年级(上)期末英语试卷(含答案)
- 中国远洋海运集团招聘笔试冲刺题2025
- 《辣椒主要病虫害》课件
- SLT824-2024 水利工程建设项目文件收集与归档规范
- 2024年山东铁投集团招聘笔试参考题库含答案解析
评论
0/150
提交评论