第14章 统计分析_第1页
第14章 统计分析_第2页
第14章 统计分析_第3页
第14章 统计分析_第4页
第14章 统计分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章统计分析描述统计和推断统计双变量统计分析统计分析概述单变量统计分析多变量统计分析第一节统计分析概述一、统计分析及其目的统计分析,就是运用统计学原理和方法处理调查所获得的数据资料,简化和描述数据资料、揭示变量之间的统计关系,并进而推断总体的一整套程序和方法。二、统计分析的过程数据录入和数据清理数据预处理数据统计分析数据预处理,就是对清理后数据做预备性处理,一般包括缺损值处理、加权处理、变量重新编码、数据重新排序,以及创造新变量等等。数据统计分析,就是调用统计软件中的各种统计程序对数据进行分析,包括单变量、双变量、多变量统计分析,以及制作统计图、统计表等一系列工作。三、统计分析的层次第二节描述统计与推断统计描述统计与样本、总体有关,与变量多少无关主要是计算样本的统计量,不对总体做推断描述性研究只涉及变量多少,而不涉及样本或总体问题

只关于“是什么”,只做描述不做解释,通常只涉及单个变量一、描述统计及其内容二、推断统计与抽样分布抽样原理二、推断统计与抽样分布如果我们从任何一个平均数为μ,标准差为σ的调查总体中,用随机方法反复地抽取多个大小相同的样本;那么,当样本中的个案数n增加时,样本的抽样分布就会接近正态分布。X2中心极限定理

在样本容量足够大的情况下,样本的抽样分布接近正态分布。在样本的抽样分布中,平均数μ=μ,标准差σX=,通常称之为标准误。μ-σμ+σμ正态抽样分布,在统计分析中是一种理想的分布三、推断统计的两种基本形式统计量:由样本计算出来的统计值参数:总体统计值参数估计,就是运用样本统计量对总体参数进行推断或估计的统计过程与统计方法(一)参数估计三、推断统计的两种基本形式(一)参数估计1.点值估计点值估计的最大缺陷就是无法知道估计的误差到底有多大。因此,在实际研究工作中通常选择另一种参数估计方法,即区间估计法。三、推断统计的两种基本形式(一)参数估计2.区间估计就是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法。置信区间置信水平置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。区间的上、下限(端点)称为临界值,所确定的概率水平称为置信水平或置信度,以概率1-α表示,α称为显著性水平,表示该区间估计的不可靠性程度,即估计参数位于该区间时可能犯错误的概率。1-α则表示估计参数落入置信区间的可靠性程度或把握度。三、推断统计的两种基本形式(一)参数估计2.区间估计样本均值的抽样分布具有的特性是:总体平均数或抽样分布平均数处于样本平均数±1.96个抽样分布标准差范围内的概率为95%;处于样本平均数±2.58个抽样分布标准差范围内的概率为99%δ在95%的置信水平条件下,总体平均数的置信区间=在99%的置信水平条件下,总体平均数的置信区间=三、推断统计的两种基本形式(二)假设检验假设检验是以抽样分布原理为基础,检验调查样本中的统计特性是否在总体中同样存在的一种统计方法参数估计假设检验相同点从样本出发去推断总体必须是通过随机抽样调查得来的数据从样本出发去推断总体必须是通过随机抽样调查得来的数据不同点用具体的样本统计量来推断总体参数检验样本中的事实、关系在总体中是否也存在三、推断统计的两种基本形式(二)假设检验进行假设检验,必须首先建立两个假设,即虚无假设和备择假设(替换假设或研究假设)虚无假设备择假设含义假设在样本中观察到的事实或变量之间的关系在总体中并不存在,样本中出现的这种情形是由于抽样误差造成的假设在样本中出现的情况并不是抽样误差,在总体中也同样存在性质是一个关于“不存在”的假设,用H0表示是关于“存在”的假设,用H1表示假设检验的数理基础“小概率事件在一次抽样中不可能出现原理”即小概率事件在通常情况下是不可能出现的,如果居然在一次抽样中出现了,则有理由认为存在其他原因而拒绝H0。三、推断统计的两种基本形式(二)假设检验第三节单变量统计分析一、集中量数分析集中量数分析,是指用一个具体的统计量反映一组数据向该统计量集中趋势的统计方法,它所表示的是一组数据集中的程度或水平。平均数是最常用的集中量度,但它往往受极端数据的影响,使平均数反映数据整体集中趋势的准确性变得面目全非;当一组数据中存在极端数据、或数据中有个别数据不准确、不清楚的情况下,中位数能比平均数更准确、更稳定地反映数据整体的集中趋势;众数的优点是适用于所有类型的数据,另外在需要快速而又粗略地找出一组数据的代表值时,众数比平均数、中位数都更能表现出其优越性二、离散量数分析集中量数反映的是数据整体的平均水平和典型情况离散量数反映数据整体的分散性、变异性等情况所谓离散量数,就是表示一组数据变异程度或分散程度的量数常用的离散量数是方差与标准差、全距、异众比率和偏度系数(1)用定义公式求方差和标准差标准差公式为:方差公式为:用定义公式求方差和标准差,首先要求离差(X-X),将离差平方再相加,然后除以N1.方差与标准差方差是一种重要的离散量数,它的计算方法是,把一组数据中每个数据与该组算术平均数相减,将其差进行平方然后相加,再除以数据的个数。标准差是最重要、应用最广泛的离散量数。1.方差与标准差(2)用原始数据计算方差和标准差用定义公式求方差和标准差,先要计算平均X和离差(X-X)。如将定义公式稍加变换,则可直接用原始数据计算S2和S(3)分组数据计算方差与标准差当处理的数据为分组资料时,计算方差和标准差的公式为:x表示单值分组数据中的实际数值,或组距分组资料中的组中值f表示各组的频数2.全距(极差)是一组数据中最大值与最小值之差,通常用R表示优点是最简单的离散量数,概念清楚,含义明确,计算简便缺点没有考虑中间数据,数据反映程度太粗略、不灵敏3.异众比率是非众数的频数与全部个案数的比值,用VR表示指众数所不能代表的其他数据(即非众数数据)在总数据中的比重方差、标准差、全距等,都属于绝对离散量数,即它们都是带有与原观察值(数据)相同量纲(单位)的量数绝对离散量数的局限:只有当两种离散量数的单位相同时,才能比较其大小4.离散系数即标准差与算术平均数的百分比值,是一种无量纲的相对数,用CV表示cv表示离散系数s表示标准差x表示算术平均数可以比较不同单位数据分布的差异程度计算公式为:5.偏度系数用来描述数据分布特征的统计量数偏度,指的是数据分布的偏倾方向和程度⑴用平均数与众数的离差求偏度系数(又称皮尔逊偏度系数,记作SKp)skp表示偏度系数x

表示样本数据的平均数m0

表示众数值s表示标准差Skp=0时,数据呈严格的正态分布Skp>0时,分布呈正偏Skp<0时,分布为负偏态|Skp|越大,其偏向程度越大⑵用平均数与中位数的离差求偏度系数三、单变量统计推断单样本总体假设检验,就是对单个样本的统计量(如平均数、比率、方差)是否可推断总体的检验;

双样本差异的总体假设检验,就是要通过两样本统计量的差异(如平均数之差、比率之差、方差之差)是否在总体中也存在的检验,亦即要证明两样本的差异是否是由于来自两个不同的总体造成的参数估计是用样本统计量来估计总体参数,它通常只涉及一个变量,也有涉及两个变量的。1.参数估计2.假设检验第四节双变量统计分析一、双变量分析的内容1.两变量间的相关关系YX指当一个变量X发生变化时,另一个变量Y也随之发生变化;反之,当Y发生变化时,X也发生变化当一个变量的变化与另一个变量向相同方向变化时,这两个变量之间就存在着正相关关系,相关系数取正值当一个变量的数量完全由另一个变量的数量变化所确定时,它们之间即为完全相关当变量之间彼此互不影响,其数量变化各自独立时,则变量之间为不相关,又称零相关按相关的方向,分为正相关和负相关按相关的强度,分为完全相关、不相关和不完全相关线性相关是当一个变量变动时,另一变量随之发生大致的均等变动非线性相关是指一个变量变动时,另一变量也随之变动,但这种变动是不均等的按相关的形式分为线性相关和非线性相关一、双变量分析的内容2.两变量间的因果关系指一个变量的变化可以确定为另一变量变化的原因的关系。要确定两个变量之间的因果关系,必须同时满足三个条件:两变量间必须存在着不对称的相关关系两变量在发生顺序上必须有先后,即先有原因(自变量)的变化,再有原因(因变量)的变化必须确定两变量的关系不是由第三个变量的存在而呈现出的一种虚假关系—必要不充分条件二、双变量分析的方法双变量测量层次相关测量方法假设检验方法定类——定类定类——定序λ,tau-yX2检验定序——定序G,dyZ检验或t检验定类——定距定序——定距EtaF检验或t检验定距——定距r,b参见李沛良著:《社会研究的统计应用》,第206页,北京,社会科学文献出版社,2001双变量分析方法一览表不同测量层次变量的两两组合二、双变量分析的方法1.定类-定类、定类-定序变量分析当两个变量均为定类变量,或一变量为定类、另一个变量为定序变量时,抽样分布属于X2分布,因而进行X2检验,用λ或tau-y计算两个变量之间的相关强度与方向二、双变量分析的方法1.定类-定类、定类-定序变量分析消减误差比例(PRE)表示的就是当我们用一个变量X来解释另一个变量Y时,能够减少多少比率的误差。能够消解误差的比率越大,表明两个变量的关系越密切,亦即相互影响的作用力越大。取值区间为[0,1]计算公式为:二、双变量分析的方法2.定序-定序变量的统计分析——Gamma级序相关分析方法计算公式:G表示Gamma系数NS表示同序对数(两个数据或个案在两个变量上的相对等级相同的对数)Nd表示异序对数(两个数据或个案在两个变量上的相对等级不相同的对数)级序相关计算法,就是在计算公式中使用各原始数据的等级次序而不是数据本身。G又属于对称相关测量法(不区分自变量和因变量),具有PRE特性二、双变量分析的方法3.定类(或定序)-定距变量分析当一个变量为定类变量或定序变量(定序变量作为定类变量处理),另一个变量为定距(定比)变量时,需进行方差分析和F检验(或t检验),并用eta平方系数来测量两变量的相关强度,简写成E2;具有消减误差比例特征E2

表示eta平方系数Y表示因变量的数值

表示因变量的平均数

表示在每个自变量取值(Xi)上各因变量取值的平均数ni表示每个自变量(Xi)的个案数n表示总个案数计算公式:4.定距-定距变量统计分析两个定距变量的统计分析,包括相关分析方法和回归分析方法二、双变量分析的方法都以两个定距变量的线性关系为基础相关分析是对两个变量双向依存关系的分析;回归分析是对两个变量单向关系的分析相关分析是回归分析的前提和基础相关分析是一种描述和解释既存事实的方法;回归分析则是一种通过对已有事实的分析来推断和预测未来的方法联系区别4.定距-定距变量统计分析相关分析方法和回归分析方法(1)两个定距变量的相关分析两个定距变量的相关系数,通常使用皮尔逊积矩相关(或积差相关)公式计算(原始数据)(分组数据)二、双变量分析的方法(2)一元线性回归分析4.定距-定距变量统计分析对两个定距变量进行回归分析,称为一元线性回归分析,即只有一个自变量X,且两变量间存在线性相关关系一元线性回归方程的标准形式为:

y=bx+a回归系数Xyay=bx+a(xi,yi)定义公式:直接用原始数据计算:第五节多变量统计分析简介一、多变量相关分析本质上,多变量相关分析是用一个统计量(如偏相关系数、复相关系数等)来简化和反映多个变量之间的相互依存关系偏相关分析复相关分析典型相关分析指在控制其他变量影响的情况下,用一个统计值来测量某一变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论