社会研究的统计应用复习笔记1_第1页
社会研究的统计应用复习笔记1_第2页
社会研究的统计应用复习笔记1_第3页
社会研究的统计应用复习笔记1_第4页
社会研究的统计应用复习笔记1_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章简化一个变项之分布第一节基本技术一、定类层次次数分布、比例、比率、图示和对比值二、定序层次累加次数累加百分比三、定距层次组限组中点矩形图多角线图第二节集中趋势测量法定义:指统计分析中用以简化一个变项的资料的分布情况的方法,就是找出一个数值来代表变项的资料分布,以反映资料的集结情况,可以根据这个代表值来估计或预测每个研究对象的数值经包括众值、中位值和均值。一、定类变项:众值二、定序变项:中位值1、根据原资料求出中位值MD的位置=(n+1)/22、根据分组资料求出中位值(以中位值去估计定序变项的数值,所犯的错误总数是最小的。MD=L+三、定距变项:均值以均值估计定距变项的资料,错误最小第四节离散趋势测量法定义:指用以简化一个变项的资料的分布的统计方法,是要求求出一个数值,来表示个案与个案之间的差异情况,主要包括离异比率、四分位差和标准差等方案。离散趋势测量法与集中趋势测量法有互相补充的作用。集中趋势所求出的是一个最能代表变项所有资料的值,但其代表性的高低却要视乎各个个案之间的差异情况。如果个案之间的差异很大,则众值、中位值、均值的代表性就会很低。一、离异比率:非众值的次数与全部个案数目的比率二、四分位差:将个案由低至高排列,然后分为四个等分,则第一个四分位置的值(Q1)与第三个四分位差(Q3)的差异,就是四分位差。三、标准差就是将各数值(X)与其均值()之差的平方和除以全部个案数目,然后取其平方根。公式如下:公式中X与的相差,就是表示以均值人微言轻代表值时会引起的偏差或错误。如果各个实际数值与均值之相差的总和很大,就表示变项的离势很大,即均值的代表性很小。方差:就是标准差的平方,其意义与标准差相同。正态分布与标准值一、正态分布定距资料可以用一条平滑的曲线表示。正态曲线可以下公式表示:正态分布具有()单峰和对称的特质,因此众值、中位值和均值都是相同的;(2)X与其均值()的差异愈大,其次数会愈少,但不会等于零;换言之,曲线两端逐渐减降,但不会接触底线。二、标准正态分布为什么要用标准正态分布呢?1、由于不同的变项会用不同的度量单位,即使是同一变项也可能用不同的度量单位,结果形成不同大小和不同形状的正态分布;2、它们的均值与标准差数值各不相同,其扁平或高耸的程度也各有不同。如果我们分别计算每一种正态分布各部分面积,就会很麻烦;3、以标准差为单位的好处,是可以使正态分布标准化,不受变项的度量单位所影响。由此可知,将正态分布的数值改用标准差为单位是有重要的意义,可以将不同形态的分布归纳为一种分布,简化了统计分析的工作。这个以标准差为单位的正态分布,一般称为标准正态分布。如果正态分布是以标准差(S)为单位,则每个变项就变为:上述的Z称为“标准值”,代表每个X值在标准正态分布上的数值。标准正态分布的均值是0,标准差是1。第三章简化两个变项这分布第一节统计相差的性质1、相关:一个变项的值与另一个变项的值有连带性。换言之,如果一个变项的值发生变化,另一个变项的值也有变化。2、正相关负相关第二节简化相关与消减误差我们选择测量法的标准:1、注意变项的测量层次;2、两个变项之间的关系是对称的还是不对称的;3、最好选择统计值有意义的相关测量法。在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。所谓PRE测量法的意义,就是表示用一个现象来解释另一个现象时能够消减百分之几的错误。第四章相关测量法与测量层次第一节两个定类变项:Lambda,tau-yLambda相关测量法:对称:不对称:=X变项下的每个值之下Y变项的众值次数tau-y系数是属于布对称相关测量法Tau-y==Y变项的某个边缘次数=X变项的某个边缘次数第二节两个定序变项:Gamma,dy一、G系数属于对称相关测量法二、dy相关测量第三节两个定距变项:简单线性回归和积距相关一、简单线性回归分析1、它是根据一个方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值,这个方程式为:Y’=bX+a回归法在绘制回归线时所根据的准则是最小平方。假定我们根据一条直线来以自变项的某个值(Xi)估计依变项的某个值(Yj),所估计的值是Y’j,而实际上该值是Yj,则误差便是e=Yj-Y’j。原则上,将全部样本个案的各个e相加起来就是误差总数,但这样做会引起正负相抵消的问题。所以,我们要改为把e的平方值相加起来。因此,如果回归直线在坐标图中的位置能够使到Σe2最小,就理应是最佳拟合线。统计学家推算出b与a的数值应是如下:b=nΣ(XY)-(ΣX)(ΣY)n(ΣX2)-(ΣX)22、回归方程式中的回归系数b具有很重要的意义。b值的大小,就是表示X对Y的影响有多大,是代表每增加一个单位的X值时,Y值的变化有多大。即:b=如果b=0,表示X对Y没有影响。b值越大,就表示X变化时所引起的Y变化愈大。因此,b值是表示自变项对依变面的影响的大小和方向。它是一个分析不对称关系的统计法。b值的大小不限于-1到1。二、积矩相关系数与简单线性回归方程式的关系1、r(pearson)系数所要表示的,就是以线性回归方程式作为预测工具时所能减少的误差比例。因此,如果r系数值越大,就表示线性回归方程式的预测能力愈强;2.R系数与b系数不同的地方,是r系数假定x与y的关系是对称的,而r的统计值是由-1至+1,同时,r的平方值具有消减误差的意义。3.在社会学研究中,最好是先计算r系数值,然后才决定是否运用简单线性回归分析法来预测。4.r系数所要表示的,就是以线性回归方程作为预测工具时所能减少的误差比例。因此,如果r系数值愈大,就表示线性回归方程式的预测能力愈强。第五章抽样与统计推论第一节抽样的意义与问题抽样的优点:1、调查费用较低。当总体包含的研究对象数目较大时,普查所需费用甚巨;2、速度快。调查全部研究对象比调查它的一部分要费时得多;3、应用范围广。上述两个特点决定抽样调查可广泛用于各个领域,各种课题,而不像普查那样只限于统计部门或政府部门;4、可获得内容丰富的资料。为了节约费用,普查一般了解少量项目,而且多是一些行政上的资料,很少关注态度、意见方面的内容;5、准确度高。专业素质人员的介入抽样的术语1、研究总体与调查总体研究总体是在理论上明确定义的整体,但在实际中很难做到使符合这一定义的一切个体都能有机会被选入样本;调查总体是研究者从中实际抽取调查样本的个体的集合体,它往往是对研究总体的进一步界定,即对时间、范围做进一步规定。2、抽样框又称抽样范畴,是从中抽取样本的抽样单位名单。3、参数值与统计值参数值是关于总体中某一变量的综合描述,如全国妇女平均受教育年限;统计值则是关于调查样本中某一变量的综合描述,如从一个样本中得到的妇女平均受教育年限。4、抽样误差与非抽样误差由于样本与总体的差异性,在用样本的统计值推算总体的参数值时会有偏差,这不是抽样误差;因误抄、计算错误等人为过失和其他一些因违反随机原则而产生的误差,称为非抽样误差。第二节抽样的基本程序1、界定总体2、搜集全部名单3、决定样本的大小4、选取样本个案5、评估样本之正误第三节随机与非随机抽样法一、随机(概率)抽样就是使总体中每一个体都有一个已知不为零的被选机会进入样本。它分为竺概率抽样和不等概率抽样。1、简单随机抽样(纯随机抽样)它是最基本的概率抽样,最直观地体现了抽样的基本原理,是其它抽样方法的基础。它要求每个个案被选取的机会是相同的。它分为重复抽样(放回)和不重复抽样(不放回)。常用的抛硬币、抽签等方法都是简单随机抽样,但社会调查中的简单随机抽样通常是使用随机数表进行的。简单随机抽样是概率抽样的理想类型,没有偏见,简单易行,且从随机样本的抽取到对总体进行推断时,有一套健全的规则。但当总体数目太多时,会费时费钱。2、系统随机抽样又称为系统抽样、等距抽样、机械抽样。它首先将全部个案排列起来,按抽样比例分成间隔,并在第一个间隔内选取第一个个案,然后每经一个间隔就选取一个个案。这样选出的个案,就是我们所需的样本。3、分层抽样先将总体按一种或几种特征分为几个子总体,每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。分层抽样的优点4、整群抽样又称为整体抽样、聚类抽样。是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽取若干子群,将抽出来的子群中所有个体合起来作为总体的样本。它与分层抽样的比较:(1)相同:在第一步都是根据某种标准将总体分为一些小群。(2)不同:第一,抽样方式不同。在分层抽样中,所有子群均要抽取一个子样本,作为总体样本的一部分;而整群抽样则不然,总体样本分布在部分子群中,有的子群可能抽不到。第二,划分子群的原则也不同:分层抽样的划分依据是层之间异质性高,层内同质性高,而整群抽样则是群间异质性低,群内异质性高。因此,分层抽样适用于界质分明的总体,整群抽样适用于界质不清的总体。5、多段(级)抽样在大规模的调查研究中,较为常用的是多段抽样,即先抽取若干集体,然后从所选取的集体中再抽取若干较小的单位。6、多期抽样如果要收集大量资料,可用这种从样本中抽取分样本,分期惦念和累积资料的方法。二、非随机(概率)抽样1、偶遇抽样又称方便抽样。是指研究者将在一定时间、一定环境晨所能遇见或接触到的人均选入样本的方法。“街头拦人”法即为一例。方便省力,但样本的代表性差。2、主观抽样又称为立意抽样、判断抽样,是根据研究者的主观见解和判断,选取他认为是典型的个案。这种样本是否具有代表性,要视乎研究员的主观判断是否正确。3、配额抽样又称为定额抽样,是根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。它与分层抽样都要进行分组,但分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。4、滚雪球抽样指先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步地扩大样本范围。当调查总体的个体信息不充分时,常采用这种方法。5、空间抽样指针对一个变动的总体,如游行队伍集会等进行抽样的方法,这种总体虽然是变动的,但在空间上是有限的。空间抽样最重要的是要在同一时间对整个总体进行抽样,以防止它的组成经历太大的变化。第四节几率与概率分布抽样分布:是根据几率的原则而成立的理论性分布,显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。1、二项抽样分布就是指所研究的变量只有两个值,如是与否、高与低、男与女。2、均值抽样分布指从总体中抽取若干个样本,每个样本都有一个均值,由这些均值构成的分布称为均值抽样分布,它具有如下特点:(1)如果样本相当大(通常指n不可少于30,最好大于100),则抽样分布接近正态分布,因而具有单峰和对称性质,众值、中位值和均值都是相同的;(2)抽样分布之均值就是总体之均值。抽样分布的标准差称为标准误差。(3)抽样分布的均值(M)两旁的面积是可以知道的。如有95%在M+1.96(SE),有99%在M+2.58(SE)。第六章参数值的估计第一节点值估计与间距估计1、参数估计:就是根据一个随机样本的统计值来估计总体之参数值是多少。2、点值估计:以一个最适当的样本统计值来代表总体的参数值。3、间距估计:就是以两个数值之间的间距来估计参数值。间距的大小取决于我们在估计时所要求的可信度。在样本大小相同的情况下,如果要求的可信度越大,则间距就会越大,通常称为“可信间距”。第二节间距估计:均值、百分率、积距相关1、均值的间距估计:95%的可信度:X+1.96(SE),即X+1.9699%的可信度:X+2.58(SE),即X+2.582、百分率(或比例)的间距估计:95%的可信度:p+1.9699%的可信度:3、积距相关系数:95%的可信度:Z’+1.96(SE),其中,Z’=1.151SE=第三节决定样本的大小基本原则是:在能够付出的研究代价的限度内,选取最大的样本。尚有两个原则可供参考:1、我们能容忍多少错误(e)?(2)所研究的个案之间的相互差异有多大(S)?公式:95%的可信区间:e=第七章假设检定:均值与百分率第一节基本知识一、重要概念:1、假设检定:指先成立一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计值来验证假设。2、研究假设与虚无假设科学的假设一般先成立假设,即假定在总体中存在某些情况,如假定绝大多数人同意某项制度或假定X与Y是相关的,这个假设称为研究假设,又称备择假设,通常用H1表示。虚无假设是指与研究假设相反的假设,通常叙述变项间没有差异没有影响,没有关系,如X与Y是不相关的,用H0表示,又称原假设。假设检定不是直接检定研究假设,而是首先检定与这个研究假设相对立的虚无假设,而间接地知道研究假设的正确可能性。3、否定域:指在假设检验中,在未分析资料以前,我们应该决定在什么情况下否定虚无假设。这样一个预定的范围,就称为否定域。确切地说,否定域,是指抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。否定域是一端还是两端,要视研究假设的性质而定。4、显著度:指否定域在整个抽样分布中所占的比例,也表示样本的统计值落在否定域内的机会。显著度越小,便越难否定虚无假设。5、甲种误差与乙种误差甲种误差,是指否定H0,但实际上H0是对的错误可能性。这个可能性,就是显著度。乙种误差,是指不否定H0,但实际上H0是不对的错误可能性。两种误差是对立的,成反比的。如果要减少甲种误差,势必增加乙种误差。要完全消除两种误差的矛盾是不可能的。但是,我们可以设法在若干程度上同时减少两者的可能性,最简单的办法,就是把样本增大。6、统计法的检定力指该统计法能够准确地判断虚无假设的正误之能力。由于在统计推论之前,已经决定显著度的大小,故检定力的大小其实是指乙种误差的大小:如果所犯的乙种误差越小,该统计法的检定力就越大。检定力=1-乙种误差机会参数检定法的检定力大于非参数检定法。参数检定法的特点,是要求总体具备某些条件:(1)定距变量;(2)随机抽样;(3)总体呈正态分布非参数检定法,其特点是不要求总体数值具备特殊的条件。7、自由度:简称df,是指有多少个个案的数值可以随意变更。t的抽样分布形状取决于自由度:df越小,则t分布越扁平;df越大,则t分布越高耸而且接近正态分布。二、假设检定的步骤1、根据研究假设H1成立与其对立的虚无假设H02、选择适当的检定统计法,并要列举其假定或要求3、确定抽样分布4、决定显著度,并依据H1的性质选用一端或二端检定,然后从抽样分布中求出否定域的位置和大小如果在成立H1时可以定出方向,则选用一端检定。5、根据样本的资料计算检定值,从而做出决策第二节单均值与均值差异单均值:要求:定距变项、随机抽样、总体呈正态分布1.Z检定法(大样本):总体均值是2.T检定法(小样本)T的抽样分布形状取决与自由度二、两个均值的差异研究两个随机样本,遇有样本的值存在差异,怎么样判断它们的均值的差异是由抽样误差所引起的,还是表示两个总体均值的确有所差异。要求:随机抽样、每个总体是正态分布、两个总体的标准差是相等的1.Z检定法(大样本)2.T检定法(小样本)三、多个均值的差异F检定(方差分析法)第三节单百分率与百分率差异一、单百分率(或比例)例如:某地的工人有多少是满意工作环境的研究假设:是总体的一个百分率Z检定二、两个百分率的差异两个样本的百分率在其总体中是否有差异,例如:一个城镇和一个农村地区的小家庭比例Z检定三、多个百分率的差异例如:老、中、青三个随机样本的家庭去想是否有差异检定第八章假设的检定:两个变项之相关第一节检定与其相关测量法一、如果两个变项(XY)都是定类变项,可用来推论在总体中两者是否相关。(非参数检定法)=df=(r-1)(c-1)愈大,就是虚假假设的正确可能性愈小,即愈能否定虚无假设。二、如果两个变项都是定序变项,可以用G系数来测量相关的程度和方向,但如果所研究的是一个随机样本,就要设法推论总体情况。可Z检定或t检定。三、一个定类变项和一个定距变项的关系,可用相关比率(eta平方系数)F检定(单因方差分析)其目的是要推算在各组总体中的均值是否相等。参数检定法的一种。要求:随机样本、一个变项是定距、总体是正态分布和具有相等的方差基本道理:将全部的方差分解为两部分:消减方差和剩余方差,F值越大,越可否否定虚无假设。表示X与Y在总体中愈可能相关。四、两个定距变项的关系,可用积距相关系数(r)或b系数虚无假设:r=b=0五、U检定和H检定U检定适合用于分析一个二分定类变项和一个定序变项的关系,也即分析两个随机样本的等级排序是否有显著差别。例如:虚无假设:大城市与小城镇的空气素质等级上无差别超过两个样本,用H检定六、总结相关测量法:目的是要理解两个变项在“样本”中的相关强弱检定假设方法:1.适用于随机样本2.其关心的都是总体的情况3.目的都在了解总体中是否相关,而不是相关的强弱程度。两变项的测量层次相关测量法(PRE)假设检定定类-定类tau-y定类-定序定序-定序G,dyZ或t定类-定距EF或t定序-定距定距-定距r,b第九章详析模式与统计控制一、重要概念1、详析模式:是指引入第三变量对两变量关系进行检验,以解释或确定这种关系的过程,被引入的变量中心任务检验因素或控制变量。它分为因果分析、阐明分析和条件分析三种。详析模式的一个主要作用是使调查研究可分享实验设计的一些优点,详析模式是一种近似的实验设计。它可以充分利用调查资料,并将研究引向深入:它一方面能对变量关系作出描述,另一方面通过引入第三变量,还可以澄清事实真相,包括两变量间关系的真伪,从而使变量关系更具体、更精确可靠。2、统计控制:是指在详析模式中,用统计方法来控制变量。统计控制的基本逻辑,可用分表法来说明,指以第三变量的值将原表拆分几个表,然后在第三变量不变的情况下分析X与Y的关系。统计控制的结果有三种可能性:(1)X与Y的关系消失,(2)维持原状,(3)X与Y的关系虽没消失,但其相关程度减小了。3、详析分析的一般步骤:(1)分析X→Y,(2)分析W→X与W→Y;(3)控制W,分析X→Y的变化4、压抑分析:指在条件分析中,本来没有关系或关系很弱的两个变量X与Y,在标明若干条件以后,X与Y显然有关系或关系强大起来,这种情况称为压抑分析。5、曲解分析:指在条件分析中,把原先的负相关变为正相关,或把原先的正相关变为负相关的。6、因果分析(辨明模式)要检定自变项x与因变项y之间是否确实有因果关系引进W,控制W以后,在W不变的情况下分析X与Y的关系。WXY研究结果原则上有三种可能:1、xy关系消失2.维持原来的关系3.仍然有关系,但相关程度减弱7、阐明分析(因果环节)就是要以事实来验证:X是通过某些因素(如T)对Y产生影响的。XTY介入变项:步骤:通过建立分表,在每个分表中研究x与y的关系。每个分表中T变项受到控制,有相同的T.R1=R2=0完全阐明。R1=R2=R不能阐明8、条件分析(标明)和互动效果条件分析就是以第三类变项(C)作为基础来了解X与Y在不同情况下的关系。依据条件变项的值,将样本分组,然后在每组中分析X与Y的关系。如果在各组中X与Y的关系大致相同。则表示,X与Y的关系具有普遍性。如果不同,说明是C变项产生互动效果。二、净相关系数所谓净相关分析,就是以一个系数值来表示在控制第三类变量以后X与Y的相关。它只能用于因果分析和阐明分析,不适用于条件分析。要求:变项间是直线关系,并且所有变项必须是定距净相关系数是由-1至+1,表示在控制第三类变项以后X与Y这两个变项的相关程度和方向,而且其平方值具有消减误差比例的意义。1、净相关系数的公式2、净相关系数的F检定3、部分净相关系数:它只是从一个变项(X或Y)中消除第三类变项的效果,然后计算剩余误差与另一个变项的关系。3、其他的净相关测量法如果X和Y是定序变项,较为常用的是净G系数。(1)净Gamma系数:其实是各个分组的G系数的加权均值。(2)净Lambda或净tau-y值第十章多因分析第一节复相关一、重要概念1、复相关:是一种以一个统计值来简化多个自变量(X1,X2,X3等)与一个依变量(Y)的关系的统计方法。它是以积矩相关系数(r)为基础的,要求所有变量都是定距变量。它的统计值(R)的范围在0到1之间。R的平方值(R2)称为决定系数,具有消减误差比例的意义,它的剩余的误差(1-R2),通常称为疏离系数。2、多因分析:指以两个或以上的自变量来预测一个依变量的数值,这个值还可以比较各个自变量的影响力的大小。3、统计性累赘:指在多因分析中,如研究X1,X2,X3这三个自变量的相对效果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论