spss复习题03730_第1页
spss复习题03730_第2页
spss复习题03730_第3页
spss复习题03730_第4页
spss复习题03730_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS复习资料 一、选择题1、SPSS数据文件的扩展名是( )。.sav2、SPSS软件的三种运行管理方式:( )、( )和( )。完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式输出窗口的主要功能:( )。显示和管理SPSS统计分析结果、报表和图形。3、统计学依据数据的度量尺度将数据划分为三大类,( )、( )和( )。定距型数据 定类型数据 定序型数据4、SPSS有两个基本窗口:( )和( )。数据编辑窗口和结果输出窗口。5、SPSS数据的组织方式有两种:( )和( )。原始数据的组织方式和计数数据的组织方式5、常见的基本描述统计量有三大类:( )、( )和( )。刻画集中趋

2、势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量6、数据编辑窗口的主要功能:( )、( )和( )。定义SPSS数据的结构 录入编辑 管理待分析的数据。7、填写下面的方差分析表 ANOVA()ModelSum of SquaresdfMean SquareFSig1Regression12521 41.8560.000Residual-Total177419-1252 522 18 29 8、SPSS对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有( )、( )和( )。Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。9、利用样本相关系

3、数r进行变量间线性关系的分析,一般( ) 表示两变量有较强的线性关系; ( ) 表示两变量之间的线性关系较弱。|r|>0.8表示两变量有较强的线性关系; |r|<0.3表示两变量之间的线性关系较弱10、利用样本相关系数r进行变量间线性关系的分析,r( ) 表示两变量存在完全正相关;r( ) 表示两变量存在完全负相关; r( )表示两变量不相关。r1表示两变量存在完全正相关;r-1表示两变量存在完全负相关;r0表示两变量不相关11、样本相关系数r的取值范围是( )。在-1+1之间12、对回归方程的检验主要包括( )、( )、( )和( )。回归方程的拟合优度检验 回归方程的显著性检验

4、 回归系数的显著性检验 残差分析13、层次聚类有两种类型,分别是( )和( )。Q型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是( )和( )。凝聚方式聚类和分解方式聚类。14、根据控制变量的个数可将方差分析分为( )和( )。单因素方差分析、多因素方差分析;根据观测变量的个数可将方差分析分为( )和( )。一元方差分析(单因变量方差分析)和多元方差分析(多因变量方差分析)。5、方差分析的适用条件 、 和 。6 、spss进行数据的行列互换时,选择 菜单下的 命令。二、简答题1、简述SPSS数据文件的特点答: SPSS数据文件的特点:SPSS是一个有别于其他文件的特殊格式的文件,SPSS

5、数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。2、简述数据排序的作用答:数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮

6、助。3、简述频数分析的目的和基本任务 答:目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 基本任务:(1)频数分析的第一个基本任务是编制频数分布表。(2)频数分析的第二个任务是绘制统计图4、简述回归分析的一般步骤答:(1)确定回归方程中的解释变量(自变量)和被解释变量(因变量)(2)确定回归方程;(3)对回归方程进行各种检验;(4)利用回归方程进行预测。5、什么是回归分析?答:回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把

7、握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。6、什么是聚类分析?答:聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。7、简述聚类分析中凝聚方式聚类过程答:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体

8、或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。8、简述聚类分析中分解方式聚类过程答:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。9、假设检验的基本思想。答:假设检验的基本思路是首先对总体参数提出假设,然后再利用样本告知的信息去验证先前提出的假设是否

9、成立。如果样本数据不能够充分证明和支持假设,则在一定的概率条件下,应拒绝假设;相反,如果不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。上述假设检验推断过程所依据的原理是小概率原理。10、简述假设检验的步骤答:提出原假设(零假设)H0;确定适当的检验统计量;计算检验统计量的值发生的概率(P值);给定显著性水平a;作出统计决策。11、多选项分析有两种方法:(1)多选项二分法;(2)多选项分类法。三、分析题(共50分)1、根据保险公司人员构成情况数据,分析全国性保险公司与外资和合资保险公司中具有高等教育水平员工比例的均值有无显著差异?为什么?分析全国性保险公司与外资和合资保

10、险公司中年轻人比例的均值有无显著差异?为什么?(显著性水平=0.05)Group Statistics公司类别NMeanStd. DeviationStd. Error Mean年轻人比例全国性公司8.5923.11386.04026外资和中外合资16.7940.11018.02755受高等教育比例全国性公司8.6657.16957.05995外资和中外合资10.8257.13178.04167Independent Samples Test年轻人比例受高等教育比例Equal variances assumedEqual variances not assumedEqual variances

11、 assumedEqual variances not assumedLevene's Test for Equality of VariancesF.181.912Sig.675.354t-test for Equality of Meanst-4.183-4.135-2.256-2.191df2213.6891613.032Sig. (2-tailed).000.001.038.047Mean Difference-.20169-.20169-.16000-.16000Std. Error Difference.04822.04878.07091.0730195% Confiden

12、ce Interval of the DifferenceLower-.30170-.30653-.31033-.31770Upper-.10168-.09685-.00968-.00231答:上述问题的两个原假设分别为:两类公司中具有高等教育水平员工比例均值无显著差异。H0 :1-2=0两类公司中年轻人比例均值无显著差异。H0 :1-2=0由上表可知:全国性公司、外资和中外合资公司中,外资和中外合资公司具有高等教育水平员工比例均值要高于全国性公司。通过检验应推断这种差异是由于抽样误差造成的还是系统性的。分析结论应通过两步完成:第一步,两总体方差是否相等的F检验。 该检验的F统计量的观察值为0

13、.912,对应的概率P-值为0.354. 显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。第二步,两总体均值的检验。在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。T统计量的观测值为-2.256,对应的双尾概率P-值为0.038,显著性水平=0.05,由于概率P-值小于0.05,可以认为两总体的均值存在显著性差异,即国性保险公司与外资和合资保险公司中具有高等教育水平员工比例的均值有显著差异。同时两总体均值差的95%置信区间没有跨零,也从另一角度证实了这一结论。由上表可知:全国性公司、外资和中外合资公司中,外资和中外合资公司年轻人比例均值要高于

14、全国性公司。通过检验应推断这种差异是由于抽样误差造成的还是系统性的。分析结论应通过两步完成:第一步,两总体方差是否相等的F检验。 该检验的F统计量的观察值为0.181,对应的概率P-值为0.657. 显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。第二步,两总体均值的检验。在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。T统计量的观测值为-4.183,对应的双尾概率P-值为0.000,显著性水平=0.05,由于概率P-值小于0.05,可以认为两总体的均值存在显著性差异,即国性保险公司与外资和合资保险公司中年轻人比例的均值有显著差异。同时两总体

15、均值差的95%置信区间没有跨零,也从另一角度证实了这一结论。1、根据保险公司人员构成情况数据,分析全国性保险公司与区域性公司中具有高等教育水平员工比例的均值有无显著差异?为什么?分析全国性保险公司与区域性公司中年轻人比例的均值有无显著差异?为什么?(显著性水平=0.05)Group Statistics公司类别NMeanStd. DeviationStd. Error Mean年轻人比例全国性公司8.5923.11386.04026区域性公司2.5593.16133.11408受高等教育比例全国性公司8.6657.16957.05995区域性公司1.5689.Independent Sampl

16、es Test年轻人比例受高等教育比例Equal variances assumedEqual variances not assumedEqual variances assumedEqual variances not assumedLevene's Test for Equality of VariancesF.254.213Sig.628.656.t-test for Equality of Meanst.346.273.538.df81.2627.Sig. (2-tailed).738.823.607.Mean Difference.03305.03305.09684.096

17、84.09552.12097.17986.95% Confidence Interval of the DifferenceLower-.18721-.92222-.32845.Upper.25331.98832.52214.答:由上表可知:全国性公司、区域性公司中,全国性公司年轻人比例均值要高于全国性公司。通过检验应推断这种差异是由于抽样误差造成的还是系统性的。分析结论应通过两步完成:第一步,两总体方差是否相等的F检验。 该检验的F统计量的观察值为0.254,对应的概率P-值为0.628. 显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。第二步,两总体均值的

18、检验。在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。T统计量的观测值为0.346,对应的双尾概率P-值为0.738,显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体的均值不存在显著性差异,即国性保险公司与外资和区域性公司中年轻人比例的均值无显著差异。同时两总体均值差的95%置信区间跨零,也从另一角度证实了这一结论。由上表可知:全国性公司、区域性公司中,全国性公司具有高等教育水平员工比例均值要高于全国性公司。通过检验应推断这种差异是由于抽样误差造成的还是系统性的。分析结论应通过两步完成:第一步,两总体方差是否相等的F检验。 该检验的F统计量的观察值为0.213

19、,对应的概率P-值为0.656. 显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。第二步,两总体均值的检验。在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。T统计量的观测值为0.538,对应的双尾概率P-值为0.607,显著性水平=0.05,由于概率P-值大于0.05,可以认为两总体的均值不存在显著性差异,即国性保险公司与外资和区域性公司中具有高等教育水平员工比例的均值无显著差异。同时两总体均值差的95%置信区间跨零,也从另一角度证实了这一结论。3、一家产品销售公司在30个地区设有销售分公司。为了研究产品销售量(y)与该公司产品的销售价格(x

20、1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。进行多元线性回归分析所得的部分分析结果如下:ANOVAModelSum of SquaresdfMean SquareFSig1Regression4008924.7 0.000Residual-Total13458586.729-Cofficients(a)ModelUnstandardizedCoefficientstSig.1 BStd.ErrorConstant7589.10252445.02133.10390.002X1-117.886131.8974-3.69580.001X280.61071

21、4.76765.45860.002X30.50120.12593.98140.206(1) 将第一张表中的所缺数值补齐。(2) 写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。(3) 检验回归方程的线性关系是否显著?(4) 检验各回归系数是否显著?(5) 计算调整的判定系数,并解释它的实际意义。(6) 计算回归方程的估计标准误差,并解释它的实际意义。答:(1)SSA=12026774.1 、p=3、SSE=1431812.6、 n-p-1=26、 55069.7、F=72.797(2)y=-117.8861*x1+80.6107*x2+0.5012*x3+

22、7589.1025x1的系数的含义是,当其他解释变量不变的前提下,销售价格每提高一个单位,产品销售量减少117.8861单位。X2的系数的含义是,当其他解释变量不变的前提下,各地区的年人均收入每提高一个单位,产品销售量增加80.6107单位。X3的系数的含义是,当其他解释变量不变的前提下,广告费用每提高一个单位,产品销售量增加0.5012单位。(3)原假设为:各个偏回归系数同时与0无显著性差异。由表ANOVA知,F检验统计量的观测值为72.797,对应概率P-值为0.000,显著性水平=0.05,由于概率P-值小于显著性水平,应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为0,被解释变

23、量与解释变量全体的线性关系式显著地,可建立线性模型。(4)回归系数显著性检验的原假设是:i=0,即第i个偏回归系数与0无显著性差异。由表可知,在显著性水平=0.05下,x1与x2的概率P-值分别为0.001、0.002,都小于显著性水平,因此拒绝原假设,认为解释变量x1与x2与被解释变量y的之间的线性关系显著,解释变量x3所对应的概率P-值为0.206,大于显著性水平,因此不应拒绝原假设,认为解释变量x3与被解释变量y的之间的线性关系不显著。 (5)调整的判定系数=1-。由于调整的判定系数接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,不能解释的部分较少。1、 下面是72名

24、学生身高的茎叶图,请分析它的频次分布及极值。学生身高(cm) Sstem-and PlotFrequency Stem & Leaf3.00 8. 4484.00 9. 236614.00 10. 0000022444566814.00 11. 0000000244688820.00 12. 000000002244466688886.00 13. 0002446.00 14. 0002462.00 15. 063.00 Extremes (>=176)Stem width: 10Each leaf: 1 case(s)SPSS有两个基本窗口:数据编辑窗口和结果输出窗口。数据编辑

25、窗口的主要功能:定义SPSS数据的结构、录入编辑、管理待分析的数据。数据编辑区是显示和管理SPSS数据结构和数据内容的区域。数据编辑区有两个视图:data view和variable view 。data view:录入显示和编辑管理SPSS的数据。variable view:定义和修改SPSS数据的结构。 每条数据都有一个顺序编号显示在编辑区的最左边。数据编辑区中的表格可以通过view菜单下的grid lines选项设置成显示或不显示状态。 SPSS结果输出窗口(窗口标题为Viewer)是SPSS的另一个主要窗口。 输出窗口的主要功能:显示和管理SPSS统计分析结果、报表和图形。SPSS统计

26、分析的所有输出结果都显示在该窗口中。输出窗口内容以.spv存于磁盘上 SPSS软件的三种运行管理方式:1、完全窗口菜单运行管理方式 程序运行管理方式混合运行管理方式简述利用SPSS进行数据分析的基本步骤答:1、明确数据分析目标;2、正确收集能够说明分析目的的数据;3、数据的加工整理;4、弄清统计概念和统计含义,知道各种统计方 法的统计思想和使用范围,无需记忆公式;5、选择一种或几种统计分析方法探索性的分析统计数据;6、读懂统计分析结果,发现规律,得出结论简述SPSS数据文件的特点答: SPSS数据文件的特点:SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,

27、它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。SPSS数据的组织方式有两种:原始数据的组织方式和计数数据的组织方式SPSS数据的结构是对SPSS每列变量及其相关属性的描述,主要包括变量名、数据类型、变量宽度、变量名标签、变量值标签、显示宽度、缺失值、对齐方式、度量尺度等信息。变量名是变量访问和分析的唯一标志。在定义SPSS数据结构时应首先给出每列变量的变量名。变

28、量的命名规则如下:1. 首字符应以英文字母开头,后面可以跟除了!、?、*之外的字母或数字。下划线、圆点不能为变量名的最后一个字符。SPSS允许用汉字作为变量名。2.变量名的字符个数最好不多于8个;变量名不区分大小写字母。3. SPSS有默认的变量名,以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00012等。变量名不能与SPSS内部特有的具有特定含义的保留字同名,如ALL,BY,AND,NOT,OR等。4.变量名最好与其代表的数据含义相对应,每个变量名必须具有唯一性。数据类型是指每个变量取值的类型。SPSS中有三种基本数据类型:数值型、字符型和日期型。数据中存在明显错误或明

29、显不合理的数据或漏填数据项时统计学上称为不完全数据或缺失数据。用户缺失值与系统缺失值统计学依据数据的度量尺度将数据划分为三大类,即定距型数据(Scale),如身高、体重;定序型数据(Ordinal),如职称、职务、对某事物的赞同程度;定类型数据(Nominal),如民族、宗教信仰、性别、党派。定距型数据通常指连续型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以用数值或字符表示;定类型数据没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。插入一个个案,即在数据编辑窗口的某个个案前插入一个新个案:将当前数据单元确定在一个个案上,选择菜单 Data+Inser

30、t CaseSPSS支持的数据格式: 1、SPSS文件格式,扩展名为.sav 2、Excel格式文件,扩展名为.xls 3、dbf格式文件,扩展名为.dbf 4、文本格式文件,扩展名为.datSPSS支持的数据合并的方式有两种:纵向合并和横向合并。 从外部数据文件增加变量到当前数据文件,称为横向合并,横向合并文件时要注意以下三个问题:1、 相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量;2、两个数据文件都必须先按关键变量进行升序排列;3、不同数据文件中数据含义不相同的数据项变量名不应相同。简述数据排序的作用1、 数据排序便于数据的浏览,有助于了解数据

31、的取值状况、缺失值数量的多少等;2、 通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;3、 通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。SPSS数据排序选择菜单DataSort Cases数据选取的基本操作选择菜单DataSelect cases简述频数分析的目的和基本任务 答:目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 基本任务:(1)频数分析的第一个基本任务是编制频数分布表。(2)频数分析的第二个任务是绘制统计图常见的基本描

32、述统计量有三大类:刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量刻画集中趋势的描述统计量有:均值、中位数、众数、均值标准误差刻画离散程度的描述统计量有:全距、方差、标准差、刻画分布形态的描述统计量有:偏度、峰度CH6 SPSS的方差分析1、 什么是方差分析?答:方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的。2、 方差分析认为观测变量的值得变化受两类因素的影响:第一类是控制因素(控制变量)不同水平所产生的影响;第二类是随机因素(随机变量)所产生的影响。3、

33、 方差分析对观测变量个总体分布有两个基本假设前提:(1)观测变量各总体服从正态分布;(2)观测变量各总体的方差相同。4、 根据控制变量个数可以将方差分析分成单因素方差分析、多因素方差分析和协多因素方差分析。5、简述方差分析的基本原理 答:方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。 建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异

34、的推断问题了。 综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。6、单因素方差分析的基本步骤提出原假设:控制变量不同水平下观测变量各总体的均值无显著差异计算检验统计量和概率P值 给定显著性水平与p值做比较:如果p值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。7、在多因素方差分析中,影响观测值变动的因素是那些?答:(1)控制变量独立作用;(2)控制变量交互作用;(3)随机因素。CH8 SPSS的相关分析1、客观事物之间大致可归纳为两大

35、类:函数关系和统计关系。2、散点图的作用:绘制散点图时相关分析过程极为常用且非常直观的分析方式。它将数据以点的形式画在直角平面上。通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。3、相关系数是以数值的方式精确地反映了两个变量间线性关系强弱程度。利用相关关系进行变量间线性关系的分析的两大步骤:第一、 利用样本数据计算相关系数。样本相关系数反映了两变量间线性关系程度的强弱。对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即l 相关系数r的取值在-1+1之间。l r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线

36、性相关关系;l r=1表示两变量存在完全正线性相关关系;r=-1表示两变量存在完全负线性相关关系;r=0表示两变量不存在线性相关关系;|r|>0.8表示两变量之间具有较强的线性相关关系;|r|<0.3表示两变量之间的线性相关关系较弱;第二、 对样本来自的两总体是否存在显著的线性关系进行推断。由于存在抽样的随机性和样本量较少等原因,通常样本相关系数不能直接来说明样本来自的两总体是否具有显著性的线性相关关系,需要通过假设检验的方式对样本来自的总体是否存在线性相关关系进行统计推断。基本步骤:l 提出原假设,即两总体无显著线性关系,存在零相关。l 选择检验统计量。l 计算检验统计量的观测值

37、和对应的概率P-值。l 决策。如果检验统计量的概率P-值小于给定的显著性水平,则应拒绝原假设,认为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率P-值大于给定的显著性水平,则不能拒绝原假设,认为两总体存在零相关关系。4、相关系数的种类:对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有pearson简单相关系数、spearman等级相关系数和kendall相关系数等。pearson简单相关系数用来度量定距型变量间的线性相关关系;spearman等级相关系数用来度量定序型变量间的线性相关关系;kendall相关系数采用非参数统计的方法度量定序型变量间的线性相关关系。5、

38、下表给出居民住房调查中家庭收入与计划购买的住房面积的相关分析,试分析两变量间的相关性。(显著性水平=0.05)Correlations家庭收入计划面积家庭收入Pearson Correlation1.323*Sig. (2-tailed).000计划面积Pearson Correlation.323*1Sig. (2-tailed).000*. Correlation is significant at the 0.01 level (2-tailed).答:原假设:家庭收入与计划面积所在的两总体零相关。由上表可知其相关系数检验的概率P-值近似为0,当显著性水平=0.05或=0.01时,应拒绝

39、原假设,认为两总体存在相关性。pearson简单相关系数值为0.323,说明两总体存在弱相关。6、偏相关分析:偏相关分析是在控制其他变量的线性影响条件下分析两变量间的线性相关性,所采用的工具是偏相关分析。7、利用偏相关系数进行变量间偏相关分析的分析的两大步骤:第一、 计算样本的偏相关系数。利用样本数据计算样本偏相关系数,反映了两变量间净相关的强弱程度。第二、对样本来自的两总体是否存在显著的净相关关系进行推断。基本步骤:l 提出原假设,即两总体的偏相关系数与零无显著差异。l 选择检验统计量。l 计算检验统计量的观测值和对应的概率P-值。l 决策。如果检验统计量的概率P-值小于给定的显著性水平,则

40、应拒绝原假设,认为两总体存在显著性的线性相关关系;反之,如果检验统计量的概率P-值大于给定的显著性水平,则不能拒绝原假设,认为两总体存在零相关关系。CH9 SPSS回归分析CH10 SPSS聚类分析1、 聚类分析:聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验经验的情况下进行的自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类间个体特征的差异性较大。2、 对“亲疏程度”的测度一般有两个角度:第一、个体间的相似程度;第二、个体间的差异程度。3、 衡量个体间的相似程度通常可采用简单相关系数或等级相关系数等。衡量个体

41、间的差异程度通常通过某种距离来测量。4、 聚类分析首先消除数量级对聚类的影响,消除数量级最常有的方法是:标准化处理。5、 层次聚类有两种类型:Q型聚类和R型聚类。Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。R型聚类是对变量进行聚类,它使差异性大的变量分离开来,具有相似特征的样本聚集在一起。6、 层次聚类的聚类方式有两种:凝聚方式聚类和分解方式聚类。7、简述K-Means聚类分析的核心步骤答:K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是:第一,指定

42、聚类数目K第二,确定K个初始类中心SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。第三,根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。第四,重新确定K个类中心中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。第五,判断是否已满足中止聚类分析的条件条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类。CH11 SPSS因子分析1、 因子分析:因子分析是研究

43、如何以最少量的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。2、因子分析中因子的特点:(1)因子个数远远少于原有变量的个数。(2)因子能够反应原有变量的绝大部分信息;(3)因子之间不存在线性关系;(4)因子具有命名解释性。3、简述因子分析的基本步骤答:(1)因子分析的前提条件; 因子分析的前提条件是原始变量之间应存在较强的相关关系。(2)因子提取;(3)使因子更具有命名可解释性;(4)计算各样本的因子得分。4、简述因子个数的确定方法。答:(1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数

44、;(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。5、简述因子分析的意义。答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。统计分析软

45、件答案一、选择题(每空2分,共30分)1、SPSS有两个基本窗口:( )和( )。数据编辑窗口和结果输出窗口。2、SPSS数据的组织方式有两种:( )和( )。原始数据的组织方式和计数数据的组织方式3、统计学依据数据的度量尺度将数据划分为三大类,( )、( )和( )。定距型数据 定类型数据 定序型数据4、根据控制变量的个数可将方差分析分为( )和( )。单因素方差分析、多因素方差分析;5、SPSS软件的三种运行管理方式:( )、( )和( )。完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式6、SPSS对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有( )、( )

46、和( )。Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。二、简答题(每题5分,共20分)1、简述SPSS数据文件的特点答: SPSS数据文件的特点:SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。2、简述数据排序的作用答:数据排序便于数据的浏

47、览,有助于了解数据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。3、什么是回归分析?答:回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。 4、简述因子分析的意义。答:在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够

48、比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。 因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。5、简述方差分析的基本原理 答:方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,

49、那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。 建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。 综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。三、分析题(共50分)1、(10分)根据各保险公司人员构成情况数据,研究我国目前保险公司从业人员的受高等教育的程度和年轻化的程度。根据以下表格进行推断:(显著性水平=0.05)(1)保险公司具

50、有高等教育水平的员工比例的平均值是否不低于0.8?为什么?(2)年轻人比例的平均值与0.5是否有显著差异?为什么?One-Sample StatisticsNMeanStd. Deviation年轻人比例26.7139.15068One-Sample StatisticsNMeanStd. Deviation受高等教育比例19.7448.16734One-Sample TestTest Value = 0.5 tdfSig. (2-tailed)Mean DifferenceLowerUpper年轻人比例7.23725.000.21388.1530.2747One-Sample TestTes

51、t Value = 0.8 tdfSig. (2-tailed)Mean DifferenceLowerUpper受高等教育比例-1.43718.168-.05515-.1358.0255答:上述问题的两个原假设分别为:保险公司具有高等教育水平的员工比例的平均值不低于0.8。H0 :0.8年轻人比例的平均值与0.5无显著差异。H0 :=0.5由上表可知:被调查的19家保险公司中,具有高等教育水平员工比例均值为0.745,标准差为0.167;单样本t检验中t统计量的双尾概率P-值为0.168,比例总体均值的95%置信区间为(0.6530,0.7747)。显著性水平=0.05,由于应进行单尾检验且

52、0.168/2大于显著性水平,因此不应拒绝原假设,不能认为保险公司具有高等教育水平的员工比例的平均值不显著高于0.8。同时0.8大于95%的置信区间的下限值,也从另一角度证实了这一结论。由上表可知:被调查的26家保险公司中,年轻人比例的均值为0.714,标准差为0.151;单样本t检验中t统计量的双尾概率P-值接近于0,比例总体均值的95%置信区间为(0.6642,0.8255)。显著性水平=0.05,由于概率P-值小于显著性水平,因此应拒绝原假设,认为保险公司年轻人比例的平均值与0.5无显著差异。同时0.5不在相应的置信区间内,也从另一角度证实了这一结论。2、(10分)根据8个国家300场的

53、打分特点,按照层次聚类将其分类。根据所给出的层次聚类分析中的凝聚状态表分析聚类过程,画出树形图;如果将裁判分成三组怎么分法?层次聚类分析中的凝聚状态表StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 212428.56000323532.56000432652.92010643753.83020551393.033046612219.550537718233.297600答:聚类分析的第一步中,2号样本与4号样本聚成一小类,他们的个体距

54、离是28.560,这个小类将在第3步用到;聚类分析的第二步中,3号样本与5号样本聚成一小类,他们的个体距离是32.560,这个小类将在第4步用到;聚类分析的第三步中,6号样本与第一步小类又聚成一小类,他们的个体距离是52.920,形成的小类将在下面第6步用到。聚类分析的第4步中,7号样本与第2步形成的小类又聚成一小类,他们的个体距离是53.830,这个小类将在第5步用到;聚类分析的第5步中,1号样本与第4步形成的小类又聚成一小类,他们的个体距离是93.033,这个小类将在第6步用到;聚类分析的第6步中,第5步形成的小类与第3步形成的小类又聚成一小类,他们的个体距离是219.550,这个小类将在

55、第7步用到;经过7步聚类过程,8个样本最后聚成了一大类。judge2      2     judge4      4        judge6      6                                              judge3      3    

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论