![定量分析社会调查研究方法讲义课件_第1页](http://file4.renrendoc.com/view/8117062dbeb2089905f6f1069e983eff/8117062dbeb2089905f6f1069e983eff1.gif)
![定量分析社会调查研究方法讲义课件_第2页](http://file4.renrendoc.com/view/8117062dbeb2089905f6f1069e983eff/8117062dbeb2089905f6f1069e983eff2.gif)
![定量分析社会调查研究方法讲义课件_第3页](http://file4.renrendoc.com/view/8117062dbeb2089905f6f1069e983eff/8117062dbeb2089905f6f1069e983eff3.gif)
![定量分析社会调查研究方法讲义课件_第4页](http://file4.renrendoc.com/view/8117062dbeb2089905f6f1069e983eff/8117062dbeb2089905f6f1069e983eff4.gif)
![定量分析社会调查研究方法讲义课件_第5页](http://file4.renrendoc.com/view/8117062dbeb2089905f6f1069e983eff/8117062dbeb2089905f6f1069e983eff5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、定量研究当我们运用各种方法收集到一批数据资料后,就必须对这些资料进行统计分析。本章将按定量资料分析的程序,对原始数据的整理、录入,以及单变量分析、双变量分析和多变量分析做简要的介绍。一、资料的整理与录入(一) 资料的审核资料的审核是资料整理的第一步。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较高的准确性、完整性和真实性,从而为后续资料整理录入与统计分析打下较好的基础。资料的审核包括:一是检查问卷资料中的问题;二是重新向被调查者核实。【有时候,在收集资料的过程中边收集边审核,这也叫实地审核;有时候,是
2、集中审核,也叫系统审核。】(二)资料的转换编码:就是给每个答案一个数字作为它的代码。【将回答的答案转换成数字】为了减少资料转换工作中的误差,保证资料转换数据的质量,研究者需要编制一份编码手册(也称编码薄)发给编码员,每个编码员按编码手册的要求,统一进行资料转换。在编码手册中,研究者将编码的项目和问题一一列出,逐一规定它们的代码、宽度、栏目、简要名称、答案赋值方式及其他特殊规定等等。整个编码手册的格式要规范统一,指示要明确,且容易理解。(三)数据录入数据录入的方式主要有两种:直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,再录入到计算机。(四)数据清理1
3、. 有效范围清理2. 逻辑一致性清理3. 数据质量抽查(五)数据的特征和测度数据的特征和测度分布的形状离散程度集中趋势众 数中位数均 值离散系数方差和标准差峰 度四分位差异众比率偏 态二、单变量统计分析单变量统计分析可以分为描述统计和推论统计。描述统计的主要目的在于用简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析等。推论统计的主要目的是用从样本中多得到的数据资料来推段总体的情况,它主要包括区间估计和假设检验等。集中趋势分析是指用一个典型值或代表值来反映一组数据的一般水平,或反映这组数据向这个典型值集中的情况。最常见的集中趋势有算术平均值、众数和中位
4、数三种。社会调查中的年龄、收入等。离散趋势分析指的是用一个特别的数值来反映一组数据相互之间的离散程度。分别从两个不同的侧面描述和揭示一组数据的分布情况,共同反映出资料分布的全面特征。同时,还对相应的集中趋势的代表性作出补充说明。常见的离散趋势统计量有全距、标准差、异众比率、四分位差等。【标准差、异众比率、四分位差分别与平均数、众数、中位数相对应。】例如三个学校的5名学生参加比赛的成绩为:A校 78 79 80 81 82 X=80B校 65 72 80 88 95 X=80C校 35 78 89 98 100 X=80无论是从总分还是平均分三个学校的成绩一样。全距(R) 全距(R):最大值和最
5、小值之差。也叫极差全距越大,表示变动越大。R =Xmax Xmin 例 求74,84,69,91,87,74,69这些数字的全距。 解 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R =Xmax Xmin 91 6922优缺点:优点:计算简单、直观.缺点:(1)受极端值影响大; (2) 没有量度中间各个单位间的差异性,数据利用率 低,信息丧失严重; (3)受抽样变动影响大,大样本全距比小样本全距大。 异众比率(VR) 所谓异众比率,是指非众数的频数与总体单位数的比值,用VR来表示 其中:fm0为众数的频数;N是总体单位数 计算异众比率某城市居民关注广告类型的频数分布
6、 广告类型人数(人)频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告1125191610256.025.54.58.05.01.0合计200100解: 在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好 Vr = 200 - 112 200 = 1 - 112 200 = 0.44 = 44%标准差一组数据对其平均值的偏差平方的算术平均值的平方根。S代表标准差。由标准差的计算公式可以推知:(1)S为大于或等于零的数,即S0。(2)当S=0时, x1 =x2= xn,此种情
7、况表示该组数据具备完全均匀性质。(3)S值越大,则表示改组数据的均匀程度越差。计算例题:有一组数据分别为:63,67,79,82,51,58,65,72。求这8个数据的标准差S。离散系数是一组相对的离散趋势统计量。定义:标准差与平均数的比值,用百分比表示。CV=S/X*100%(CV为离散系数)例如1一项调查得到数据为:某市人均月收入为92元,标准差为17元,人均住房面积为7.5平方米,标准差为1.8平方米。试比较该市人均月收入和人均住房情况哪一个差异程度比较大。CV收入=17/92*100%=18.5%CV住房=1.8/7.5*100%=24%住房面积的差异比人均月收入的差异大。例如2广州与
8、武汉的生活质量的调查,广州居民的平均收入为680元,标准差为120元,武汉的平均收入为360元,标准差为80元,请问广州与武汉两地的居民相互之间的收入哪个差异程度大?CV广州=17.6%CV武汉=22.2%武汉居民相互之间的差异程度大。四分位差【定序数据】四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离中量数。 概念要点1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性算例:计算甲城市家庭对住房满意状况评价的四分
9、位差 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2,QU = 一般 = 3四分位差: QD = QU - QL = 3 2 = 1三、单变量推论统计简单地说,推论统计就是利用样本的统计值对总体的参数值进行估计的方法。主要包括:区间估计;假设检验。(一)区间估计实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是
10、这种估计的精确性问题,可信度高低反映的则是这种估计的可靠性或把握性问题。(1)总体均值的区间估计置信度分别为90%、95%和99%。在计算中,置信度常用1-a来表示。总体均值的区间估计公式为:为样本平均值,为置信度是1-a的Z值,n为样本规模S为样本标准差算例调查某工厂职工的工资情况,随机抽取900名工人为样本,调查得到他们月均工资为186元,标准差为42元。求95%置信度下,全厂职工的月均工资的置信区间是多少?查表得Z(1-0.05)=1.96,带入公式得到:186 1.96*42/900开方得 183.26元188.74元当我们希望提高估计的可靠性时,就必须相应扩大置信区间。如,置信度为9
11、9%时,Z(1-0.01)=2.58,那么,结果为182.39元189.61元。可见,随着可靠性的提高,估计的区间扩大,精确性就相应降低。(2)总体百分数的区间估计计算公式为:P P为样本中的百分比算例:从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现要求在90%的置信度下,估计全厂工人中女工比例的置信区间。查表得:Z(1-0.10)=1.6520% 1.65*20%(1-20%)/400开方16.7%-23.3%(二) 假设检验这里的假设不是抽象层次的理论假设,而是指和抽样手段联系在一起并且依靠抽样数据进行验证的经验层次的假设,即统计假设。假设检验就是先对总体的某一参数作
12、出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。假设检验所依据的是概率论中的小概率原理。即“小概率事件在一次观察中不可能出现”的原理。【如果现实的情况恰恰是在一次观察中小概率事件出现了,那该如何判断?一种是认为该事件的概率仍然很小,只不过不巧被碰上了;另一种认为该事件本身不是一件小概率事件,而是大概率事件】研究者将原假设作为虚无假设,而将与之完全对立的假设作为研究假设;然后用样本的数据计算统计量,并与临界值比较,当临界值大于统计值的绝对值时,则接受虚无假设,否定研究假设;当临界值大于等于统计值的绝对值时,则决绝虚无假设,接受研究假设。 步骤: 假设选a(概率的大小,通常a=0
13、.05, a=0.01等)统计值与临界值(标准正态分布表可查) 统计值临界值公式: X-u Z= S/根号n X 为样本统计值,u 为虚无假设,S为标准差,n为样本规模。 示例某单位职工上月平均收入为210元,本月调查了100名职工,平均月收入为220元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?(a=0.05)有表查的Z(1-0.05)=1.96首先假设虚无假设(用H0)和研究假设(用H1), H0: u=210, H1: u210带入公式计算: X-u 220210Z= = =6.67 S/根号n 15/根号100 因为6.67 1.96,所以拒绝虚无假设,接受研究假设
14、。即从总体上说,该单位职工月平均收入与上月相比有变化。 三、双变量统计分析双变量统计分析主要探讨两个变量之间的关系。(一)交互分类交互分类是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关系的统计分析方法。它是将研究所得的一组数据按照两个不同的变量进行综合的分类,其结果通常以交互分类表(又称列联表)的形式反映出来。示例1性别年龄青年中年老年合计男706050180女504030120合计12010080300该表是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。示例2人们对某政策的态度统计表(%)从该表中只能得出“”该总体中持赞成与反对的人大致相等的结论。赞
15、成反对不表态调查人数454510n=2000示例3态度男女赞成855反对1080不表态515这一表格表明的信息更多更详细:不同性别的人对这一政策的态度有很大的差别。此表格更深入更科学更能反映出客观的事实。交互分类作用对变量之间的关系进行分析和解释交互分类表的形式要求2-11.每个表顶端要有表号和标题2.表格中的线条要规范、简洁,最好不用竖线3.百分比符号的处理方式:1.在表右顶端标上%;2.每一列纵栏数字的上方标%4.下端标出每一列的频数5.通常将X自变量放在列,Y因变量放在行,百分比按列(自变量)进行交互分类表的形式要求2-26.交互分类的两个变量取值不宜太多。7.相对频数中小数点的位数要一
16、致,如68.9和10.0(二)回归分析回归的原理:回归(Regression,或Linear Regression)和相关都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。线性回归的统计原理:两个定距变量的回归是用函数y= f(x)来分析的。我们最常用的是一元回归方程其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。示例Y=350+20 x在统计学中,这一方程中的系数是靠x与y变量的大量数据拟
17、合出来的。(x,y)Y=a+bxYX由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用“最小二乘方法”,使:在拟合的回归直线方程中,回归系数:表示x每变化一个单位时,x与y共同变化的程度。常数:比如:已知上学年数和工资的关系计算得出下列的回归公式:y=472+14.8x可知上学年数每增长1年,工资会增加14.8元;也可推测,上学年数为15年的人,工资收入应为472 + 14.8 *15=694元。函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)圆的面积(S)与半径之间的关系可表示为S = r2 企业的原材料消耗额(y)与产量(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设定明确的工作优先级计划
- 财务分析在企业评估中的应用计划
- 教学创新与成果分享机制计划
- 防止职业倦怠的小技巧计划
- 医学影像科医生工作计划
- 建立员工反馈与建议机制计划
- 2025年电动晾衣机项目合作计划书
- 景区承包合同
- 珠宝定制服务特殊条款协议
- 农产品电商项目开发合作框架协议
- JT-T-775-2016大跨度斜拉桥平行钢丝拉索
- 装饰工程室内拆除专项施工方案
- 员工服务意识提升提高服务意识培训课件
- 2024年河北省石家庄市裕华区中考二模语文试题
- 客服考试题目
- 2024年公务员(国考)之行政职业能力测验真题附参考答案(完整版)
- 2024年高考改革新方案
- 社会主义发展史智慧树知到期末考试答案2024年
- 人教版五年级上册小数除法竖式计算练习练习300题及答案
- 模块1铁道线路养护与维修认知《铁道线路养护与维修》教学课件
- 城市轨道交通列车网络控制及应用 课件 项目6、7 列车网络控制管理系统、城轨列车网络控制及应用
评论
0/150
提交评论