社会研究方法(第四版)第十一章_第1页
社会研究方法(第四版)第十一章_第2页
社会研究方法(第四版)第十一章_第3页
社会研究方法(第四版)第十一章_第4页
社会研究方法(第四版)第十一章_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章定量资料分析第十一章定量资料分析目目 录录 第一节资料的整理与录入第一节资料的整理与录入 第二节单变量统计分析第二节单变量统计分析 第三节双变量统计分析第三节双变量统计分析 第四节多变量统计分析第四节多变量统计分析 第一节资料的整理与录入o 一、资料的审核一、资料的审核o 资料审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较高的准确性、完整性和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。o 在资料审核中,如发现问题,可以分别不同情况予以处理:o (1)

2、调查中已发现并经认真核实后确认的错误,可由调查者代为更正。o (2)资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查。o (3)无法进行或无需进行补充调查的情况下,剔除那些明显错误的或无把握的资料,保证真实性和准确性。o 资料审核的方法主要有两种,即逻辑审核与计算审核。o 逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。o 计算审核,是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错,前后数字之间有无相互矛盾之处等等。在前面介绍问卷设计时,我们曾指出,编码就是给每个问题及答案一个数字作为它的代码。从资料处

3、理的角度看,编码就是用阿拉伯数字来代替问卷每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。下面两个表就是一份问卷中前几个问题的答案和编码。二、资料的转换二、资料的转换 在对问卷中的问题进行编码时,要给不同的问题分配合适的栏码,即指定该问题的编码值在整个数据文件中所处的位置。 这种栏码有时在问卷设计时就印在问卷上(每页的右边,用一条竖线与问题及答案隔开),但也有很多情况下是在问卷收回后编码时再指定。三、数据录入o 录入方法:录入方法:o 1登录表法o 直接录入o 光学扫描o 条形码四、数据清理 有效范围清理 对于问卷中的任何一个变量来说,它的有效编码值往往都有某种范围,而当数据中的数字

4、超出了这一范围时,可以肯定这个数字一定是错误的。o 逻辑一致性清理则是从另一种角度来查找数据中所存在的问题。其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性。l例如例如 数据质量抽查o 一个很简单的例子:l假设某个案的数据在假设某个案的数据在“文化程度文化程度”这一变量上输错了,这一变量上输错了,问卷上填答的答案是问卷上填答的答案是2(2(初中初中) ),编码值也是,编码值也是2 2,但数据录,但数据录入时却错敲成了入时却错敲成了3(3(高中及中专高中及中专) )。 由于由于3 3这个答案在正常有效的编码值范围中,因此,前一这个答案在正常有效的编码值范

5、围中,因此,前一种方法检查不出这一错误。同时,这一变量值与其他变种方法检查不出这一错误。同时,这一变量值与其他变量之间又没有前述那样的逻辑联系,因此后一种方法也量之间又没有前述那样的逻辑联系,因此后一种方法也用不上。用不上。第二节单变量统计分析o 一、单变量描述统计一、单变量描述统计o 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析等。而推论统计的主要目的,则是用从样本中所得到的数据资料来推断总体的情况,它主要包括区间估计和假设检验等。描述统计1. 1. 内容内容n

6、 搜集数据n 整理数据n 展示数据2. 目的目的n 描述数据特征n 找出数据的基本规律推断统计1. 内容内容参数估计假设检验2. 目的目的对总体特征作出推断描述统计与推断统计的关系集中趋势分析o 集中趋势分析指的是集中趋势分析指的是用一个典型值用一个典型值来反来反映一组数据的映一组数据的一般水平一般水平,或者是反映这,或者是反映这组数据向这个典型值集中的情况。组数据向这个典型值集中的情况。o 这样一个典型值就被称为集中统计量。这样一个典型值就被称为集中统计量。o 按照处理方式不同集中统量可分为几类,两按照处理方式不同集中统量可分为几类,两最常见的集中趋势有最常见的集中趋势有算术平均值算术平均值

7、、众数和中众数和中位数位数三种。用得最多的是平均数。三种。用得最多的是平均数。o 1 1 定类层次:众值(众数定类层次:众值(众数) )o 其意义为,在众多数值中,出现次数最多的其意义为,在众多数值中,出现次数最多的一个数值。一个数值。o (1 1)原始资料,求众值)原始资料,求众值o 例如:例如:2 2,3 3,5 5,5 5,5 5,6 6,6 6,7 7,8 8o 出现次数最多的是出现次数最多的是5 5,其,其M M0=50=5o (2)次数资料,求众值o 例如:江村女青年找对象的标准标准相貌人品文化健康职业能力经济条件政治条件家庭背景感情人数55122 5110413291613682

8、其次数最多的为人品其次数最多的为人品122122人次,所以人次,所以M0=M0=人品人品o (3)分组的频数表中,频数最大的区间的组中值就是众值区间组中值频数75-7977170-7472365-6967560-64621055-5957450-54522表中频数最大的为表中频数最大的为1010,对应的区间是对应的区间是60-6460-64,其组中值是其组中值是6262,所以众,所以众值值=62=62。 如果在一个次数中出现如果在一个次数中出现两个邻近的次数较多者,两个邻近的次数较多者,众数是二次数多的组中众数是二次数多的组中值的平均值值的平均值o 2 定序层次:中位值(中位数)(单选)其意义

9、为按大小顺序排列,处在一群数据中央位置的数值。(1)原始资料,求中位值例如:有9个人,他们的月工资分别如下:47,42,50,51,92,112,71,83,108首先作排列处理,从小到大排列42,47,50,51,71,83,92,108,112其次求中央位置Md的位置=(N+1)2=(9+1)2=5最后求中位置Md=71(3 3)定距层次:算术平均数)定距层次:算术平均数o 通常称平均数,又称均数或均值。英文为通常称平均数,又称均数或均值。英文为MeanMean,故以,故以MM表示。如果是由变量表示。如果是由变量X X计算得来的就记计算得来的就记为为 (读(读X X杠),现在一般都以杠),

10、现在一般都以 表示样本的平均表示样本的平均数,以数,以U U 表示总体的平均数。表示总体的平均数。o 算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数。的总次数。xXXXXXNn12 XNXX= = = 离散量数分析 o 离散趋势指的是测量值围绕中心值比如平均值的分布。极差就是个简单例子。如我们可以报告说平均年龄是37.9,范围是从12到89岁。o 离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。o 它与集中量数一起分别

11、从两个不同的侧面描述和揭示一组数据的分布情况。共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明。二、单变量推论统计o 区间估计区间估计o 以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。o 区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围来估价总体的参数值 。范围的大小反映的是这种估计。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的是这种的精确性问题,而可信度高低反映的是这种估计的可靠性或和握性问题。估计的可靠性或和握性问题。o 区间估计的可靠性或把握性是指用某个区间

12、去估计总体参数时,成功的可能性有多大。可以解释为:如果从总体中重复抽取100次,约有95%次所抽取样本的统计值的某个区间中都将包含总体的参数值,那么就说这个区间估计的可靠性为95%。o 区间估计的结果通常可以用下述方式来表述:“我们有95%的把握认为,全市职工的月工资收入在182元至218元之间。”或者“全省人口中,女性占50%-52%的可能性为99%”。课堂练习题课堂练习题例:调查某厂职工的工资状况,随机抽取900名工人做样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信区间是多少?解将调查资料代入总体均值的区间估计公式得总体均值的置信区

13、间为183.26-188.74当将置信度提高到99%,总体的置信区间为182.39-189.61元(随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应地降低了。例:从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。解带入总体百分数的区间估计公式得16.7%-23.%(二)(二) 假设检验假设检验 o 利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。 o 假设是对总体参数的一种看法n 总体参数包括总体均值、比例、方差等n 分析之前之前必需陈述假设检验的基本思想m m

14、= 50假设检验的过程(提出假设抽取样本作出决策)我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 拒绝假设拒绝假设! 第三节双变量统计分析o 一、交互分类与一、交互分类与检验检验o 交互分类交互分类o 交互分类是一种专门用来分析两个定类变量交互分类是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关(或一个定类变量,一个定序变量)之间关系的统计分析方法。系的统计分析方法。某次调查样况的构成情况统计表性别年 龄青年中年老年合计男706050180女504030120合计12010080300 上表是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。通过这

15、种交互分类表,不仅可以知道样本中男性、女性各有多少,或者青年、中年、老年各有多少,同时还可以知道男性青年、男性中年 等等各有多少。因此,交互分类可以较为深入地描述样本资料的分布状况和内在结构,进而对变量之间的关系进行分析和解释。二、不同层次变量的相关测量与检验o 1.定类变量与定类变量定类变量与定类变量o 消减误差比例,指的就是知道消减误差比例,指的就是知道X的值时所的值时所减少的误差(减少的误差(E1-E2)与总误差的比。)与总误差的比。o 2.定序变量与定序变量定序变量与定序变量o 3.定类变量(或定序变量)与定距变量定类变量(或定序变量)与定距变量o 4.定距变量和定距变量定距变量和定距

16、变量总结:不同层次变量的相关测量与检验总结:不同层次变量的相关测量与检验两变量层次相关系数取值范围是否对称有无消减误差的比例意义检验方法定类-定类定类-定序 0,1对称有x2定序-定序G-1,1对称有Z定类-定距定序-定距EE2 0,1不对称无有F定距-定距rr2 -1,10,1对称无有F(t检验)三、回归分析o 相关分析的目的在于了解两个变量之间的关系强度,即用相关系数来描述两个变量之间的共变特征。回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。由于回归分析增加了因果性,且具

17、有了预测的功能,因此,它比相关分析更进了一步,其作用也更大了。o 两个变量(预测变量X与标准变量Y)间的回归分析,是只有一个自变量的线性回归,也叫一元线性回归。其回归方程为: Yab X其中其中a,ba,b、对一对特定数据来说是常数:、对一对特定数据来说是常数: abbrSSYXaYb Xo例:以前例数据计算由(身高)预测例:以前例数据计算由(身高)预测(体重)的回归方程。(体重)的回归方程。X 176Y 71SX 502.SY 4 47.r .98有了这一回归方程后,我们就可以由预测变量的值有了这一回归方程后,我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生经回归方程

18、计算出标准变量的预测值。如另一名大学生的身高为的身高为170170厘米,则其体重的预测值为厘米,则其体重的预测值为65.7865.78公斤。公斤。 b.9 844 750 28 7a71 87 1768212.YX 82 1287.第四节多变量统计分析o 在社会研究中,研究者除了进行双变量分析外,还常常需要进行多变量分析。多变量统计分析的方法种类较多,比如阐释模式、复相关分析、多元线性回归分析、路径分析、因子分析、聚类分析、判别分析、对数线性模型等等。阐释模式阐释模式o 所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。o 因果分析o 阐明分析o 条件分析o 因果分析因果分析的目标是检定被看作自变量的的目标是检定被看作自变量的X与被看作因与被看作因变量的变量的Y之间,是否确实存在因果关系。引进若干前之间,是否确实存在因果关系。引进若干前置变量(第三变量),以判明置变量(第三变量),以判明X与与Y之间的因果关系之间的因果关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论