版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章量化资料收集与整理
Part15.1实验法
5.1实验法实验法适用于范围有限、界定明确的概念与假设。这种方法更适合于解释,而非描述。根据对实验环境、变量的控制及实验设计的严格程度,实验可以分为标准实验和准实验(Quasi-Experiment)。根据实验场所不同,实验法可以分为实验室实验(LaboratoryExperiment)和实地实验(FieldExperiment)。5.1.1实验法基本原理实验法的基本要素(1)自变量与因变量:不是由其他因素形成,有共变关系、有明确的时间顺序的关系为因果关系。(2)前测和后测:在X作用前先对Y进行第一次测量(即前测),在X作用后再对Y进行第二次测量(即后测)。(3)实验组和控制组:实验组是在实验过程中接受实验刺激的那一组对象,控制组在各方面都与实验组相同,但是其成员并不是实验对象。5.1.1实验法基本原理实验法的特点与程序(1)实验法是在非自然状态下观察研究对象;(2)实验研究必须在两变量之间建立起因果假设;(3)实验研究旨在探索两现象之间是否存在因果联系,但是并不是两现象之间只要存在因果联系,就能用实验法加以研究;(4)实验研究可以把某一特定因素从复杂关系中分离出来,以便于分析这一特定因素的效果;(5)社会研究中的实验法,基本在实际生活情境中进行的,多为实地实验。5.1.1实验法基本原理实验法的特点与程序(1)建立因果假设;(2)按可比性建立实验组与控制组;(3)确定自变量与因变量;(4)对因变量制定一个合适的测量;(5)就因变量对实验组与控制组进行前测;(6)对实验组实施实验刺激(即让自变量出现并发挥作用);(7)就因变量对实验组与控制组进行后测;(8)运用统计分析检定假设,说明自变量与因变量之间是否存在因果联系。5.1.1实验法基本原理实验组与控制组的产生(1)随机指派法:完全按照随机抽样的原理和方法将实验对象分配到实验组和控制组,(2)匹配法:找出两个各种条件完全相同的或几乎完全相同的实验对象进行配对,然后将一组分到实验组,另一组分到控制组。5.1.2常用的实验设计单组前后测实验设计只有实验组而没有控制组的一种简单实验方法,它直接出于因果联系的基本分析逻辑。自变量的影响=实验组后测-实验组前测
前测自变量后测实验组y1xy25.1.2常用的实验设计经典实验设计只有实验组而没有控制组的一种简单实验方法,它直接出于因果联系的基本分析逻辑。自变量的影响=(实验组后测-实验组前测)-(控制组后测-控制组前测)
前测自变量后测实验组y1xy2控制组y3
y45.1.2常用的实验设计所罗门三组实验设计在经典实验设计的基础上再增加一个控制组后形成的。旨在消除前测和实验刺激相互作用所形成的影响。自变量的影响=控制组2后测-控制组2前测;前测的影响=控制组1后测-控制组1前测;前测与自变量相互作用的影响=(实验组后测-实验组前测)-(自变量影响+前测影响)。
前测自变量后测实验组y1xy2控制组1y3
y4控制组2
xy55.1.2常用的实验设计所罗门四组实验设计在所罗门三组实验设计的基础上,再增加一个控制组3,它既无前测也不引入自变量,而只有后测。
前测自变量后测实验组y1xy2控制组1y3
y4控制组2
xy5控制组3
y65.1.2常用的实验设计所罗门四组实验设计外部因素影响=控制组3后测-控制组3前测;自变量的实际影响=(控制组2后测-控制组2前测)-外部影响;前测的实际影响=(控制组1后测-控制组1前测)--外部影响;前测与自变量相互作用的影响=(实验组后测-实验组前测)-(自变量影响+前测影响+外部因素的影响)。5.1.3实验法的信度和效度
信度实验法的信度较高,对信度的检验一般是通过重复实验的方法。
效度实验的外在效度表示实验结果是否适合于推广应用。影响外在效度的主要因素有:实验情境过分“人工化”而没有很好顾及真实社会情境;实验对象过分“纯化”而缺乏代表性。影响内在效度的因素主要是:社会现象和社会行为的因果关系很复杂,影响因素很多,对这些变量很难实施控制。提高内在效度则有可能降低外在效度,反之亦然。
Part25.2问卷调查法
5.2问卷调查法问卷调查适用于描述性、解释性和探索性的研究,通常以个体为研究单位。当研究总体数量过于庞大而无法直接观察时,问卷调查就是最好的方法。5.2.1问卷的类型和结构问卷的主要类型(1)自填式问卷:如邮寄问卷、送发问卷和集体填答,这类问卷是由被调查者本人亲自填写问卷。(2)代填式问卷:这类问卷是由调查者根据被调查者的回答代为填写的问卷,主要有访问问卷和电话问卷两种。问卷的基本结构题目、封面信、指导语、问题和答案、结束语及其它。5.2.2问卷设计的方法和步骤明确与问卷设计紧密相关的各种因素调查目的、调查内容、样本的性质及样本的构成情况、资料的处理。
问卷设计的方法卡片法、框图法。问卷设计的步骤(1)探索性工作(2)利用卡片法和框图法设计问卷的初稿(3)试用和修改5.2.3问题及答案的设计问题形式的设计(1)开放式问题;(2)封闭式问题:填空式、是否式、多项单选式、多项限选式、多项排序式、多项任选式、矩阵式、表格式。
答案的设计(1)要使答案具有穷尽性和互斥性;(2)要根据研究的需要来确定变量的测量层次;(3)要注意问题的语言及提问的方式5.2.3问题及答案的设计答案的设计(1)问题的语言尽量要简单,通俗易懂;(2)问题的陈述要尽可能简短;(3)问题要避免带有双重含义;(4)问题不能带有倾向性;(5)不要用否定形式提问;(6)不要问回答者不知道的问题;(7)不要直接询问敏感性问题。5.2.3问题及答案的设计
相倚问题在前后两个(或多个)相连的问题中,被调查者是否应回答后一个(或几个)问题,要由他对前一个问题的回答结果来决定。即前一个问题作为“过滤性问题”或“筛选性问题”,而把后一问题叫做相倚问题。5.2.3问题及答案的设计
问题的数目问题的数目要依据调查的内容、样本的性质、分析方法等确定。
问题的顺序(1)把被调查者熟悉的问题放在前面,生疏的放在后面。(2)把简单宜答的问题放在前面,难题放在后面(3)把能引起被调查者兴趣的问题放在前面,把容易引起他们紧张或产生顾虑的问题放在后面,(4)先问行为方面的问题,后问态度,意见看法方面的问题,(5)个人的背景资料。(如年龄,性别,文化程度,婚姻状况,职业等)。一般放在结尾,但有时也可放在开头。5.2.4问卷的使用使用问卷获得数据的具体实施方法:自填式问卷、访谈问卷、电话访问和在线调查。5.2.5问卷法的特点问卷法的优点是节省时间、经费和人力;具有很好的匿名性;所得资料便于定量处理和分析;可避免某些人为误差。问卷的回收率有时难以保证,自填问卷法对被调查者的文化水平有一定要求,调查资料的质量常常得不到保证;访问调查对访问员的要求较高,时间和成本都较大。
Part35.3资料的整理
5.3.1资料的审核
资料的审核内容研究者对所收集的原始资料进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。
资料的审核工作有两种不同的做法(1)实地审核或收集审核:收集资料的过程中进行,即边收集边审核。(2)系统审核或集中审核:先将资料全部收回,然后集中时间进行审核。5.3.2资料的整理(1)资料的编码:用阿拉伯数字来代替问卷中每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。(2)资料的录人:一是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。(3)数据清理:有效范围清理、逻辑一致性清理、数据质量抽查。
Part45.4微观调查数据库
5.4.1CFPS数据库:中国家庭追踪调查中国家庭追踪调查(ChinaFamilyPanelStudies,CFPS)通过追踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁,为学术和政策研究提供数据基础。家庭收入、支出和资产是CFPS家庭层面问卷的主要内容。研究者根据CFPS可以研究收入、消费、资产的分布和变化情况以及相关因素;可以进行各类有关金融知识和经济行为的研究;可以和其他数据库联合进行跨数据库的研究。链接:/cfps/sjzx/gksj/index.htm文章:“高房价会扭曲公众的价值观吗?基于中国家庭追踪调查(CFPS)的实证分析”[J],经济学季刊,2021(5):1753-17725.4.2CGSS数据库:中国综合社会调查中国综合社会调查(ChineseGeneralSocialSurvey,CGSS)全面地收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,探讨具有重大科学和现实意义的议题,推动国内科学研究的开放与共享,为国际比较研究提供数据资料,充当多学科的经济与社会数据采集平台。CGSS的调查问卷由三部分构成:核心模块调查全部样本,年度调查,固定不变;主题模块调查全部样本,5年重复一次,两次调查内容重合率>80%;附加模块为调查1/3或1/4随机样本,不确保重复周期和内容。其中核心模块与主题模块主要服务于描述与解释社会变迁的宗旨,扩展模块则主要服务于跨国比较研究的目的。链接:/5.4.3CHARLS数据库:中国健康与养老和追踪调查中国健康与养老追踪调查(ChinaHealthandRetirementLongitudinalSurvey,CHARLS)旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,为制定和完善我国相关政策提供更加科学的基础。CHARLS设计了三种类型问卷:家户问卷、政策问卷、社区问卷。链接:/5.4.4CHIP数据库:中国家庭收入调查中国家庭收入调查(ChineseHouseholdIncomeProject,CHIP)已经进行了五次入户调查。它们分别收集了1988、1995、2002、2007和2013年的收支信息,以及其他家庭和个人信息。CHIP适合的论文主题主要与就业、收入、支出等家庭和个人经济变量相关的主题,特别适合长期趋势的展示和分析。链接:/chip/index.asp5.4.5CSS数据库:中国社会状况综合调查中国社会状况综合调查(ChineseSocialSurvey,CSS)是一项全国范围内的大型连续性抽样调查项目,目的是通过对全国公众的劳动就业、家庭及社会生活、社会态度等方面的长期纵贯调查,来获取转型时期中国社会变迁的数据资料,从而为社会科学研究和政府决策提供翔实而科学的基础信息。其基础模块固定不变,包含了个人基础信息、劳动与就业、家庭结构、家庭经济状况等内容;更替模块如社会阶层地位流动、社会保障、休闲消费、社会价值观等,隔一定周期后重复调查;热点模块则与时俱进,目前已进行了社会群体利益关系、民生问题、城镇化等主题的研究。链接:/css_sy/5.4.6其他微观调查数据库中国教育追踪调查(ChinaEducationPanelSurvey,CEPS)是由中国人民大学中国调查与数据中心设计与实施的大型追踪调查项目,目的是旨在揭示家庭、学校、社区以及宏观社会结构对于个人教育产出的影响,并进一步探究教育产出在个人生命历程中发生作用的过程,为相关学术研究及政策制定提供具有全国代表性的多层次基础数据支持。5.4.6其他微观调查数据库中国家庭金融调查数据(ChinaHouseholdFinanceSurvey,CHFS)是西南财经大学中国家庭金融调查与研究中心在全国范围内开展的抽样调查项目,收集有关家庭金融微观层次的相关信息。调查的内容主要包括:金融资产和包括住房资产在内的非金融资产、负债和信贷约束、收入、消费、社会保障与保险、代际转移支付、人口特征和就业以及支付习惯等。5.4.6其他微观调查数据库中国劳动力动态调查(ChinaLabor-forceDynamicSurvey,CLDS)通过对中国城市和农村的村居进行两年一次的追踪调查,建立了以劳动力为调查对象的综合性数据库,包含了劳动力个体、家庭和社区三个层次的追踪和横截面数据,可为实证导向的理论研究和政策研究提供高质量的基础数据。复习思考题1.如果请你研究下区域的创新能力,你如何收集数据和资料?2.实验法开展研究的逻辑是什么?什么样的议题适用于实验法开展研究?3.如果现在想要了解公众对知识产权信息公共服务满意的情况,如何设计问卷,怎样开展调查,重点应该关注哪些问题?4.问卷调查如何进行数据的清洗与整理?第6章基本量化
分析方法
Part16.1描述性统计分析
6.1.1统计图表
统计表统计表可以分为序列表和分类表。序列表包括时间序列表和地域序列表。年份(地域)总人口(年末)按性别分单位:万人男女人口数比重(%)人口数比重(%)20101340916874851.276534348.7320111349166916151.266575548.7420121359226966051.256626248.756.1.1统计图表
统计表分类表分为定性分布表和频数分布表。频数分布产生过程:
6.1.1统计图表
统计表频数分布表参数:累积频数(CumulativeFrequency):由第一组起至第i组止各频数之和称为第i组的累积频数,记为,即:频率(PercentFrequency)就是频数除以总数n:,经常以百分数表示。
6.1.1统计图表
统计表频数分布表参数:基尼系数就是基于累积人口百分比以及累积收入百分比计算出来的,基尼系数=A/(A+B)。基尼系数衡量社会贫富差距程度:基尼系数取值贫富差距程度当基尼系数小于0.2收入绝对平均当基尼系数位于0.2-0.3收入比较平均当基尼系数0.3-0.4收入相对合理当基尼系数0.4-0.5收入差距较大当基尼系数0.5以上收入差距悬殊6.1.1统计图表
统计图统计图主要有柱状图、折线图、饼图、圆环图、雷达图、气泡图等。柱状图、折线图、散点图都适用于呈现离散变量的资料,可以呈现趋势、相关关系等规律。饼图和环形图可以对数据进行一个整合分析,很直观的通过图形来看出数据的分布占比。雷达图可以比对不同研究对象在多个维度上指标的差异。6.1.2单变量描述性统计分析
集中趋势统计量(1)定类变量:众数(EXCEL,MODE函数);(2)定序变量:中位数(EXCEL,MEDIAN函数);(3)定距和定比变量:平均数(EXCEL,MEAN函数)→①简单算术平均数;②加权算术平均数;③简单几何平均数;④加权几何平均数。
6.1.2单变量描述性统计分析
集中趋势统计量对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:①如果数据的分布是对称的,众数、中位数、平均数必定相等;②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数>中位数>平均数;③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数<中位数<平均数。6.1.2单变量描述性统计分析离中趋势统计量(1)定类变量:异众比率(非众数的频数与总体单位数的比值);(2)定序变量:四分位差(EXCEL,QUARTILE函数、PERCENTILE函数);
6.1.2单变量描述性统计分析离中趋势统计量(3)定距变量:①全距(极差、EXCEL,MAX函数和MIN函数)、②平均差(EXCEL,AVEDEV函数)、③方差(EXCEL,VAR函数)与④标准差(EXCEL,STDEV函数)以及⑤离散系数
和(分组数据)(未分组数据)6.1.2单变量描述性统计分析离中趋势统计量(3)定距变量:①全距(极差、EXCEL,MAX函数和MIN函数)、②平均差(EXCEL,AVEDEV函数)、③方差(EXCEL,VAR函数)与④标准差(EXCEL,STDEV函数)以及⑤离散系数(数据分布离中趋势的绝对测度值与其相应的算术平均数之比)和(分组数据)(未分组数据)
③④(未分组数据)和
(分组数据)
⑤6.1.2单变量描述性统计分析
(分组数据)(未分组数据)
6.1.2单变量描述性统计分析
(分组数据)(未分组数据)
6.1.2单变量描述性统计分析
(未分组数据)
(分组数据)
6.1.3双变量统计分析相关系数(1)定类变量:(2)定序变量:
6.1.3双变量统计分析相关系数(3)定距变量(Pearson系数,EXCEL中的CORREL函数):相关系数的计算需要N的个数不能小于30,如果小于30,相关系数可能失去意义。
Part26.2推断性统计分析
6.2.1概率分布基础知识概率与概率分布概率告知了随机现象某一局部结果发生的可能性有多大;概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。概率分布的一般形式合计6.2.1概率分布基础知识概率与概率分布概率分布与频率分布的区别:(1)频率分布是经资料整理而来的,概率分布却是先验的;(2)频率分布随样本不同而有所不同,概率分布却是唯一的;(3)频率分布有对应的频数分布,概率分布则没有。频率分布被称为随机变量的统计分布或经验分布,而概率分布则被称为随机变量的理论分布。6.2.1概率分布基础知识分布函数
概率密度函数:
f(x)xx1x2分布函数:
6.2.1概率分布基础知识数学期望与变异数数学期望,是反映随机变量X取值的集中趋势的理论均值(算术平均,记作E(X)。离散型随机变量:
连续型随机变量:
6.2.1概率分布基础知识
6.2.1概率分布基础知识
离散型随机变量:
连续型随机变量:
方差:6.2.1概率分布基础知识
6.2.1概率分布基础知识
6.2.1概率分布基础知识
6.2.2参数估计与假设检验
显著性水平置信水平概率度6.2.2参数估计与假设检验
6.2.2参数估计与假设检验
检验统计量:
6.2.2参数估计与假设检验
Part36.3回归分析
6.3.1.一元线性回归回归模型:基本假设:(1)回归函数线性假定:自变量与因变量之间的相关关系为线性关系;(2)独立性假定:不同时期自变量因变量是相互独立;(3)同方差假定:给定自变量后,Yi与Yt的波动程度是相同的;(4)正态性假定:给定自变量后,误差项服从正态分布;(5)零均值假定:误差项对于整个模型不是系统性的影响因素以及误差项和自变量线性无关。
6.3.1.一元线性回归
6.3.2多元线性回归回归模型:基本假设:(1)回归函数线性假定:自变量与因变量之间的相关关系为线性关系;(2)独立性假定:不同时期自变量因变量是相互独立;(3)同方差假定:给定自变量后,Yi与Yt的波动程度是相同的;(4)正态性假定:给定自变量后,误差项服从正态分布;(5)零均值假定:误差项对于整个模型不是系统性的影响因素以及误差项和自变量线性无关;(6)多重共线性假定:解释变量之间不存在多重共线性。
6.3.2多元线性回归
6.3.3几类其他回归Logistic回归:广义的线性回归分析模型,该模型常被用于估计某个事件发生的可能性以及针对某个事情的影响因素分析。基本模型:(p表示发生的概率)Logistic回归分析的因变量属于分类数据。Logistics回归的变量分布不符合正态分布,二值变量方差不是常数,存在异方差性,因此其进行系数估计时选择的是最大似然估计法,评价模型拟合度的标准也变为似然值而非离差平方和。
6.3.3几类其他回归Logistic回归:二元Logit(Logistic)回归、多分类Logit(Logistic)回归,有序Logit(Logistic)回归。Logistics回归的注意事项:(1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度专业技术人才“师带徒”培养合同3篇
- 2025年度个人房产抵押权抵押权登记服务合同8篇
- 2025年度虚拟现实教育培训平台开发与运营合同范本4篇
- 2025年无财产离婚协议书范本:财产分配与子女抚养权益保障协议9篇
- 2025年水泥砖行业节能减排技术改造合同6篇
- 2025年浙江绍兴诸暨市邮政分公司招聘笔试参考题库含答案解析
- 二零二五版出租车夜间运营特许经营合同2篇
- 2025年长沙穗城轨道交通有限公司招聘笔试参考题库含答案解析
- 2025年广东深圳市龙岗区城投集团招聘笔试参考题库含答案解析
- 2025年武汉金中石化工程有限公司招聘笔试参考题库含答案解析
- GB/T 37238-2018篡改(污损)文件鉴定技术规范
- 普通高中地理课程标准简介(湘教版)
- 河道治理工程监理通知单、回复单范本
- 超分子化学简介课件
- 高二下学期英语阅读提升练习(一)
- 易制爆化学品合法用途说明
- 【PPT】压力性损伤预防敷料选择和剪裁技巧
- 大气喜庆迎新元旦晚会PPT背景
- DB13(J)∕T 242-2019 钢丝网架复合保温板应用技术规程
- 心电图中的pan-tompkins算法介绍
- 羊绒性能对织物起球的影响
评论
0/150
提交评论