spss学习笔记_第1页
spss学习笔记_第2页
spss学习笔记_第3页
spss学习笔记_第4页
spss学习笔记_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Spss学习 祁秋艳Spss统计分析方法及应用Spss学习笔记Chapter1 统计学基础知识方差(Variance):在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。设X是一个随机变量,若EX-E(X)2存在,则称EX-E(X)2为X的方差,记为D(X)或DX。协方差(covariance):两个不同参数之间的方差就是协方差。E(X-E(X)(Y-E(Y)称为随机变量X和Y的协方差,记作COV(X,Y),即COV(X,Y)=E(X-E(X)(Y-E(Y)。(1)COV(X,Y)=COV(Y,X);(2)COV(aX,bY)=abCOV(

2、X,Y),(a,b是常数);(3)COV(X1+X2,Y)=COV(X1,Y)+COV(X2,Y)。由协方差定义,可以看出COV(X,X)=D(X),COV(Y,Y)=D(Y)。标准差( Standard deviation,;SD;std):是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。r: 相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用表示,相关系数的取值范围为-1,1。|r|值越大,误差Q越小,变量之间的线性相关程度越高;|r|值越接近0,Q越大,变

3、量之间的线性相关程度越低。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。通常|r|大于0.8时,认为两个变量有很强的线性相关性。研究两个变量间线性关系的程度。用相关系数r来描述。r的计算有三种:·Pearson相关系数:对定距连续变量的数据进行计算。·Spearman和Kendall相关系数:对分类变量

4、的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。R2:方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100来表示回归方程解释Y变化的百分比。P:显著性自变量因变量:T检验值F检验值正态分布:正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数

5、学期望为、标准方差为2的高斯分布,记为:则其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是 = 0, = 1的正态分布。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可

6、服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。回归分析的步骤:1根据预测目标,确定自变量和因变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。 2建立回归预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。 3进行相关分析 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时

7、,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。 4检验回归预测模型,计算预测误差 回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。 5计算并确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。Chapter2 spss基础知识一Data editor数据编辑窗

8、口1.菜单File :文件操作(基本操作,例如新建、打开、保存、打印等)Edit:数据编辑(对数据进行基本的编辑,如复制粘贴撤销恢复等),数据查找,软件参数设置等。View:窗口外观状态管理(比如字体设置-font,表格线-grid lines,变量值是否显示等)Data:数据的操作与管理(对数据编辑窗口中的数据进行加工处理:排序、转置、抽样选取、分类汇总aggregate、加权等,data properties数据属性)下图为data下拉菜单中个选项按钮的功能:Transform:对数据编辑窗口中的数据进行基本的处理(别如说生成新变量,计数,分组等)下图为transform下拉菜单中个选项按

9、钮的功能:Analyze:统计分析(对数据编辑窗口中的数据进行统计分析和建模:基本统计分析、均值比较compare means、相关分析相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。correlate、回归分析回归分析(regression analys

10、is)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能

11、够很好的拟合,则可以根据自变量作进一步预测。regression、非参数检验检验假设或估计参数的统计过程,其中不需要关于总体分布的性质或形状的假设;也称作无分布检验。在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。nonparametric test ,Missing value Analysis缺失值分析等)Graphs:制作统计图形(条形图、直方图、饼图、散点图) Utilities:实用程序(其它辅助管理。如显示变量信息、定义变量、菜单编辑器等)Windows:窗口管理(如最小化等)2.工具栏 变量 插入变量 加权个案 标签控件打开 保存 打印 undo撤销

12、 进入个案 插入个案 分离文件 选择个案3数据编辑区点击view下的grid lines后:数据编号:4系统状态显示区用来显示系统的当前运行状态点击view下的status bar后二结果输出窗口及图像的编辑Analyze数据后,出现结果输出窗口1 图像工具栏Chapter3 利用spss进行数据分析的基本步骤一数据分析的一般步骤1明确数据分析的目标2正确收集数据3数据的加工处理4明确统计方法的含义和适用范围二Spss数据文件1.Spss数据文件包括文件内容和数据结构每一行称为一个个案(case)每一列称为变量(var)2.spss数据结构1)变量名: 要求:字符数不多于八个、首字符以英文字母

13、开头、不区分大小写2)数据结构的设置点击可进行一系列数据结构参数的设置详解:变量名 数据类型 宽度 小数 变量名标签 变量值标签 缺失数据 计量尺度 数值型 对变量名做 对变量取值含义 定距型数据通常指身高体重等连续性数据。scale 字符型 出进一步的 的解释说明信息 定序型数据具有内在固有大小或高低顺序,如教授,副教授,讲师等。ordinal日期型 解释,<120字符 定类型数据没有内在的固有大小或高低顺序,如男、女。nominal缺失数据离散缺失值,可以输入99999999三Spss数据的录入与编辑1Spss数据结构设置好以后,就可以进行数据的录入了。2注意点:ü 数据录

14、入可以逐行进行,即录完一个数据后按Tab键,于是,当前单元的右临单元便自动成为当前单元;数据录入也可以逐列进行,即录完一个数据之后按Enter键,于是当前单元的下一个单元便成为了当前单元。ü 录入带有变量值标签的数据时,可以通过下拉按钮完成。但在此之前应先打开变量值标签的显示开关,选择的菜单是:View Value Labels 。如下:ü3.数据的定位数据定位的目的是将当前数据单元定位到某个特定的单元中。共有两种: 人工定位:人工浏览数据,确定当前的数据单元。(按page up page down 翻页) 按个案:data-go to case自动定位: 按变量值:edi

15、t-find 4.插入和删除个案、变量 将当前数据单元确定在一个个案/变量上选择Data-insert case/insert variable 删除:在欲删除的个案/变量号码上单击鼠标左键单击鼠标右键,选中cut5 数据的移动、复制和删除选中 copy paste6 spss支持的数据格式Spss数据格式:.savExcel数据格式:.xlsDbf格式文件:.dbf文本格式:.dat1)打开file read text data,出现:2)单击进入下列窗口。观察该窗口回答下列两个问题:a) 数据项间是如何分割;b) 数据文件的第一行上是否有变量名。然后再单击3)回答三个问题:a) 数据()部

16、分从文本文件的第几行开始导入,如果文本文件的第一行是变量名,则这里应该填上2;b) 个案数据在文本文件中式如何安排的,是一行一条个案,还是一行多条个案,一般选择第一种;c) 将文本文件中的数据全部导入还是部分导入。4)指定文件中的数据项之间的分隔符号。5)对随后出现的两个问题,一般情况下可以不回答。7Spss数据文件合并1) 在数据量较少时,一般情况下可以按照上述方法将数据录入,但是当数据量较为庞大时,经常会把一份大的数据分成几个部分,由几个工作人员分别录入,以期加快数据录入速度,节省时间。2) 纵向合并:首尾对接(依据变量名)方式 横向合并: 纵向合并的步骤:a) 在数据编辑窗口中打开一个需

17、要合并的spss数据文件b) 选择菜单data merge file add case,出现如下的窗口:c) 中显示的是两个文件中相同的变量名, spss默认它们有相同的含义。如果不接受这种默认,可单击将它们剔除到中。d) 如果希望合并后的数据文件中看出哪些个案来自合并前的哪个spss数据文件,那么可以选indicate case source as variable。0表示个案来自第一份数据文件,1表示来自第二份。横向合并:a) 两个数据文件必须至少有一个变量名是相同的,该变量是两个数据文件横向拼接的依据,成为关键变量。b) 两个数据文件必须事先按关键变量进行排序。c) 不同数据文件中数据含

18、义不同的数据项,变量名不应相同。步骤:a) 在数据编辑窗口中打开一个需要合并的数据文件b) 选择菜单data merge file add variable注:表示该变量是数据编辑窗口中的变量表示该变量是(2)中指定磁盘中文件中的变量公有变量选择关键变量点击可将变量设置为关键变量Chapter 4 spss数据的预处理 缺失值和异常数据的处理 数据的转换处理:在原有数据的基础上,计算生成更具丰富信息的新数据,或 数据的预处理 对数据原有分布进行转换处理的过程。数据抽样:并不是所有的数据都是有用的,要按一定规则抽取。 选择变量:并非所有的数据项都是有意义的,有可能要选取部分。一各种预处理基本知识

19、及操作方法简介(一)排序1目的:1) 便于浏览2) 能迅速的找出最大值最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度。3) 能够发现异常值2基本概念排序变量:将要排序的变量单值排序:排序变量只有一个多重排序:排序变量有多个主排序变量:多重排序中,第一个指定的排序变量,以后的一次为第二排序变量,第三排序变量等。排序原则:首先按照主排序变量值的大小次序排序,然后对那些具有相同主排序变量值的数据,再按照第二排序变量值的次序进行排序,依次排下去。3.基本操作1)选择菜单中的data sort case。显示如下的窗口:2)指定主排序变量到中,并选择框中的选项指定按变量升序()排还是按变

20、量降序()排。3)如果是多重排序,还要依次指定第二排序变量、第三排序变量等等。否则,本步可忽略。(注意多重排序的前提条件) (二).变量计算1.目的1) 数据的转换处理:在原有的数据的基础上,产生更丰富信息的新数据。例如,根据职工的基本工资、失业保险、奖金等数据计算出职工的实际月收入。2) 对原有数据的分布状态进行转换:由于数据分析和建模过程中某些模型对数据的分布有一定的要求,因此可以利用变量计算对数据的分布进行转换。例如,利用对数或多项式转换对非正态活非线性数据进行处理。2.基本概念1)spss算术表达式(numeric expression):在变量计算过程中,应根据实际需要指出按照什么样

21、的方法计算变量。算术表达式如sr-bx。 常量:字符型常量应用引号引起来 变量:是指那些已经存在于数据窗口中的现有变量spss算术表达式 算术运算符:+、*、/、*(乘方)先计算乘方,然后依次乘除,加减 圆括号:同级计算中,按从左到右的顺序计算,圆括号改变原有的计算顺序 函数2)条件表达式:在变量计算中,通常需要对不同的个案进行不同的处理,于是就要通过一定的方式来指定个案。条件表达式能够帮助实现这一目标。a) 简单的条件表达式:如nl>35,就表示年龄大于35岁。对于年龄大于35岁的个案,该条件判断的结果为真,否则为假。(=表示不等于)b) 复合条件表达式:AND,&表示和OR表

22、示或,NOT表示非,计算顺序:NOT ,AND, OR。如(nl<=35) and not (zc<3)表示年龄小于等于35并且职称不低于三。3)函数a) 函数名:函数是事先编好并储存在软件中的,能够实现某些特定计算任务的一段计算机程序。这些程序段都有各自的名字,称为函数名。b) 算术函数c) 统计函数 d) 分布函数:分布函数为了产生一个服从某种统计分布的随机数序列。normal(x)产生服从均值等于0,标准差等于x的正态分布随机序列。如normal(1):产生服从标准正态分布的随机数序列。e) 逻辑函数:逻辑函数有两个取值。、,如果判断结果为真,则函数值为1,否则为0。Rang

23、e(变量名,x1,x2):判断变量值是否在x1,x2之间;Any(变量名,x1,x2,x3,x4):判断变量值是否是这其中的一个。f) 字符函数:用来对字符型数据进行处理。如length(s)表示计算s的字符个数。g)日期函数:对日期进行处理。h) 缺失值函数:用于判断缺失值。如missing(变量名)是判断某变量是否是系统缺失值或是用户缺失值。4)变量计算的基本操作a)transform computeb) 在输入给定的表达式或者函数,可手工输入,也可按函数下拉菜单选中c) 在中输入存放计算结果的变量名,该变量可以是一个新变量,也可以是已经存在的变量。(修改存放变量名的属性)。d) 如果希望

24、对符合一定条件的个案计算产生变量,则单击,选择并输入条件表达式。否则,本步骤可省略。(三)数据选取(样本抽样)1.方法1)按指定条件抽样(if condition is satisfied):选取符合条件的数据2)随机抽样(random sample of cases)a) 近似抽样:要求用户给出一个百分比数值,spss按要求自动从数据编辑窗口中随机抽取相应比例数目的个案。transform random number seed(随机数种子发生器)表示随机数种子为一个具体的正整数,一般用于随机化结果需要重复出现的情况;为系统默认项。b) 精确抽样:要求用户给出两个参数,一是希望选取的个案数,二

25、是指定在前几个个案中选取。3)选取某一区域内的样本:这种抽样通常适用于时间序列数据4)通过过滤变量选取样本:2.数据选取的基本操作1) Data select cases其中,filtered表示将未被选中的个案划上/,deleted表示将未选中的个案删除。2) 抽取后,新生成变量名,选中的用1表示,未选中的用0表示,并且个案名称上显示。(四)计数1.关键点指定哪些变量参与计数,计数的结果存入哪个新变量中;指定计数区间:单个变量值 系统缺失值 系统缺失值或者用户缺失值:spss会对各个样本依次计算诸多变量中有几个变量取了缺失值。 给定最大值或者最小值的区间 小于等于某指定值的区间 大于等于某指

26、定值的区间2.spss计数的基本操作操作未成功,找机会再操练几次。1)transform count,出现如下的窗口: 2)选择需要计数的变量到3)中输入存放结果的变量名,在中输入存放技术结果的变量名标签。4)在中定义计数区间,出现如下窗口: :if condition is satisfied.设置满足条件的个案。(五)分类汇总1 注意点按照哪个变量进行分类;对哪个变量进行汇总,并指定对汇总变量计算哪些统计量。2.基本操作1) Data aggretate:2) 指定分类变量到3) 指定汇总变量到4) 对汇总变量进行哪些统计量。Spss默认计算均值。5) :计算结果的储存。6) 默认储存的文

27、件名。(六)数据分组1.定义 将数据按照某种标准重新划分为不同的组别,在数据分组的基础上进行的频数分析,更能够概括和体现数据的分布特征,另外,分组还能实现数据的离散化处理等。如对职工的收入状况进行统计时,我们可以将职工的收入分为高收入,中收入和低收入,之后再进行频数分析,绘制直方图等。2 分组方法 单变量值分组分组方法 组距分组 分位数分组1) 单变量值分组:把每一个变量值作为一组,这种方法通常适用于离散变量且变量值较少的情况下步骤:a)Transform automatic recode b)存放分组结果的变量名。填好后,再点击此按钮即可。c)结果输出:2) spss的组距分组:在连续变量或

28、者变量值较多的情况下,数据分组通常采用组距分组。组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。关键点:组距的确定:组距=(最大值-最小值)/组数组数的确定:Sturges经验公式:K=1+lgn/lg2(n为数据个数)存放分组变量:into same variables(覆盖原变量),into different variables(存放到新变量),一半选择后者。步骤(into different variables):Transform recode into different variables选择变量到中;在中输入存放分组结果的变量名,并按change确认,

29、然后输入相应的变量名标签;定义分组区间,指定分组区间的上限和下限(),并在new value框中(),给出该区间对应的分组值,单击add按钮确认分组区间。出现3) 分位数分组:与组距分组非常类似,所不同点的是,分位数分组中各组的下限值和上限值是由分位数决定的。(此方法简要了解)(七)数据预处理的其它功能1.数据转置1)定义:即将数据编辑窗口中的行列互换2)步骤:a) Data transpose,出现如下窗口:b) 指定数据转置后应该保留哪些变量,放入variablec) 指定各个变量转置后的变量名,应选择一个取值唯一的变量作为标记变量到Name variable中。结果显示在结果输出窗口中。

30、2 加权例子:学校算期末成绩,期中考试占30%,期末考试占50%,作业占20%,假如某人期中开始得了84,期末92,作业分91,如果是算数平均,那么就是(84+92+91)/3=89;加权后的,那么加权处理后就是84*30%+92*50%+91*20%=89.4;统计学认为,在统计中计算平均数等指标时,对各个变量值具有权衡轻重作用的数值就称为权数它们每个数都有一些相同数,表示为:k1,k2,k3.kn;加权平均的公式是:(k1p1+k2p2+k3p3+knpn)/(k1+k2+k3+.kn)处理操作:1) Data weight cases,出现如下窗口:3) 选择,并选择加权变量到框中。一旦

31、指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权后()。4) 加权的过程本质是数据复制。3.数据的拆分目的还不是很了解1)Spss的数据拆分与数据排序很相似,但有一个重要的不同点即,拆分不仅是指定变量进行简单的排序,更重要的是根据变量对数据进行分组,为以后所进行的分组统计分析提供便利。2)步骤:a) Data split file b) 选择(结果显示在同一张表格中),或者(结果显示在其它的表格中)。c) 选择拆分变量到4 .spss变量集1) 在实际统计分析中,收集并定义到的spss数据编辑窗口中的变量会有几十甚至上百个,这样在进行分析处理的时候很不方便,spss变量集就是

32、一种通过减少变量显示个数而简化变量选择操作的方式。2) Spss变量集是存放许多spss变量名的集合。Spss变量集包括系统变量集和用户变量集两大类ü 系统变量集(系统事先定义好的变量集):ALL VARIABLES:所有的变量名NEW VARIABLES:所有尚未存盘的变量名ü 用户变量名(用户根据实际需要自己定义的变量名)如果用户需要对某些变量进行相同的处理,则可将这些变量名放入同一个变量集中,然后在指定使用这些变量集。3) 用户变量集步骤:a)定义变量集ü Utilities define variable setsü 在Set name输入变量集

33、的名称ü 选择变量放入相应的变量集b) 指定使用该变量集ü Utilities use setsü 选择需要的变量集放入中。Chapter5 spss基本统计分析一 频数分析(一)频数分析的基本概念1.频数分布表频数分布表主要包括:ü 频数(frequency):变量值落在某一区间的次数ü 百分比(precent):个频数占总样本数的百分比ü 有效百分比(valid percent):频数占有效总样本数的百分比,有效总样本数=总样本数-缺失样本数ü 累计百分比(cumulative percent):各百分比逐渐累加的结果。2.频数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论