炼数数据分析与共12周spss02sh512guangjie shan_第1页
炼数数据分析与共12周spss02sh512guangjie shan_第2页
炼数数据分析与共12周spss02sh512guangjie shan_第3页
炼数数据分析与共12周spss02sh512guangjie shan_第4页
炼数数据分析与共12周spss02sh512guangjie shan_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析与SPSS第 2 周2012.09.28DATAGURU专业数据分析基本统计分析SPSS基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。本节主要如何在SPSS中进行均值、中位数、众数、方差、百分位、频数、峰度、偏度、探索分析、交叉联列表分析、多选项分析、基本统计报表制作等的操作。2012.09.28DATAGURU专业数据分析均值(Mean)和均值标准误差(S.E.mean)定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员

2、工的平均收入、某班级学生的平均身高等。计算公式如下。总体平均数:若一组数据X1,X2,XN,代表一个大小为N的有限总体,则其总体平均数为样本平均数:若一组数据x1,x2,xn,代表一个大小为n的有限样本,则其样本平均数为样本数据来自总体。样本的统计描述量可以反映总体数据的特征,但由于抽,使得样本数据不一定能够完全准确地反映总体,它可能与总体的真实样等值之间一定的差异。进行不同次抽样,会得到若干个不同的样本均值,它们 与总体均值着不同的差异。 DATAGURU专业数据分析2012.09.28均值(Mean)和均值标准误差(S.E.mean)均值标准误差(Standard Error of Mea

3、n,S.E. mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。研究问题求某班级学生在一次数学测验中的平均成绩,数据如表1所示。实现步骤:选择“分析”->描述统计->频率DATAGURU专业数据分表1 :数 学 成 绩99887959548979568999 2389705067788956统计量数学N180有效72.94均值4.751均值的标准误2012.09.28DATAGURU专业数据分析中位数(Median)定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以性。受到数值的影响,具有较高的稳健计算公式:一个大小为

4、的数列,要求其中位数,首先应把该数列按大小顺序N + 1排列好,如果为奇数,那么该数列的中位数就是位置上的数;如果N为偶数,2N2N2中位数则是该数列中第与第+1位置上两个数值的平均数。研究问题求某班级学生身高的中位数,数据如表2所示。2012.09.28DATAGURU专业数据分析表2:身高(cm)174168164174176150183162171146189167实现步骤2012.09.28DATAGURU专业数据分析众数(Mode)定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。计算公

5、式:手工计算众数比较麻烦,需要统计数据的次数分布。研究问题求某医院当天出生新生儿的体重的众数,数据如表3所示。2012.09.28DATAGURU专业数据分析表3:体重(斤)8767545687564765.574实现步骤2012.09.28DATAGURU专业数据分析全距(Range)定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。计算公式:最大值最小值。研究问题求某班级学生数学成绩的全距,数据如表1所示。2012.09.28DATAGURU专业数据分析表1:数 学 成 绩9988795954897956

6、89992389705067788956实现步骤2012.09.28DATAGURU专业数据分析方差(Variance)和标准差(StandardDeviation)定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。研究问题 求某班级学生数学成绩的方差和标准差,数据如表1所示。表1:数 学 成 绩9988795954897956829012.090999.282389705067788956DATAGURU专业数

7、据分析实现步骤统计量数学N180有效20.157406.291标准差方差2012.09.28DATAGURU专业数据分析四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距 离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。十分位数是将一组数据由小到大(或由大到小)排序后,用

8、9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2, D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99 个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,P99,表示1%的 数据落在P1下,2%的数据落在P2下,99%落在P99下。研究问题1求某班级学生数学成绩的四分位数,数据如表1所示。2012.09.28DATAGURU专业数据分析表1:数 学 成 绩99887959548979568999 2389705067788956统计量数学N实现步骤1

9、80147.3055.6056.0058.1068.8078.5082.6089.0089.0089.0099.00有效23.00百分位数10202530405060707580902012.09.28DATAGURU专业数据分析研究问题2测量54个某种机械零件的重量(克),求零件重量的D6,数据如表所示。研究问题3测量出54个某种机械零件的重量(克),求零件重量的P37,数据如表所示。2012.09.28DATAGURU专业数据分析零件重量(克)46547525250475549475252424540606354405550564649534655444557525049554858425

10、259实现步骤统计量重量N5403752.00有效48.35百分位数602012.09.28DATAGURU专业数据分析频数(Frequency)定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。变量的频数分析正是实现上述分析的最好解变量取值的分布情况。,它可以使人们非常清楚地了研究问题10个学生在某次数学、语学中成绩如表所示,试求学生在3门课程上的频数分布。2012.09.28DATAGURU专业数据分析学生成绩姓名数学语学hxh99.0098.00100.00yaju88.0089.0

11、045.00yu99.0080.0056.00shizg89.0078.0067.00hah94.0078.0078.00lisa90.0089.0087.00watet79.0087.0089.00jess75.0076.0097.00wish89.002012.09.2856.0076.00DATAGURU专业数ii据ia分k析i80.0076.00100.00实现步骤2012.09.28DATAGURU专业数据分析峰度(Kurtosis)定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示

12、比正态分布要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的要平坦,为平顶峰。具体的计算公式为 研究问题年龄人数某班级40个学生的布如表所示,试求学生峰度。分20222182012.0292.282DATAGURU专业数据分析实现步骤统计量N50有效-1.200峰度2.000峰度的标准误2012.09.28DATAGURU专业数据分析偏度(Skewness)定义:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。具体的计算公式为这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度

13、小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。2012.09.28DATAGURU专业数据分析研究问题某班级41个学生的身高分布如表示,试求学生身高分布偏度。学 生 身 高2012.09.28DATAGURU专业数据分析身高(cm)人 数02201实现步骤统计量身高N60有效.386偏度.845偏度的标准误2012.09.28DATAGURU专业数据分析标准化Z分数及其线性转换研究问题1求某班级学生数学成绩的Z分数,数据如表1所示。2012.09.28DATAGURU专业数据分析实现步骤2012.09.28DATAGURU专业数据分

14、析研究问题2从左图中可以看到学生数学成绩的Z分数有正有负,而且小数点位数较多,因此可以把它线性转换为T分数。2012.09.28DATAGURU专业数据分析实现步骤2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析探索分析定义:调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。探索分析的内容包括:检查数据是否有错误:过大或过小的数据均有可能是奇异值、影

15、响点或错误数据。要找出这样的数据,并分析,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如,两个变量间是否线性相关。2012.09.28DATAGURU专业数据分析探索分析的考查方法 探索分析一般通过数据文件在分组与不分组的情况下,获得常用统计量和图 形。一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否合适。 正态分布检验常用的正态分布检验是 方差齐次性检验图。本例中进行了正态分布检验。对数据分析不仅需要进行正态分布检验,有时

16、候还需要比较各个分组的方差是否相同,这就要进行方差齐次性检验。例如,在进行需要事先确定两个数据的方差是否相同。右边的T检验之前,就如果通过分析发现各个方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。在探索分析中可以使用Levene检验。Levene检验对数据进行方差齐次性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到显著性水平小于0.05,那么就可以拒绝方差相同的假设。2012.09.28DATAGURU专业数据分析研究问题20名10岁少儿的身高(cm)资料,数据如表9所示,试作探

17、索性分析。DATAGURU专业数据分析Id男孩身高(cm)身高(cm)1123.00126.002125.00121.003127.00120.004130.00125.005134.10139.706135.80133.007140.40140.308136.00124.009128.20125.4010137.40137.5011135.50120.9012129.00138.8013132.20138.6014140.90141.4015129.30137.5016130.00137.0017121.40133.4018131.50132.7019132.60130.1020129.20

18、2012.09.28136.70实现步骤2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析结果和讨论在结果输出窗口中将看到如下统计数据。(1)首先输出如下个案观察量摘要表,如下表所示。案例处理摘要案例N有效 百分比100.0%100.0%合计 百分比0.0%0.0%N 00N 2020百分比100.0%100.0%122020身高(2) 然后输出如下表格。(3) 接着输出如下4个不同权重M-估计器中心趋势的粗略最大似然确定数,Huber 的 M-估计器aTukey 的双权重bHampel 的 M-估计器cAndrews 波d12131.259813

19、2.6411131.1540132.5960131.2882132.1503131.1548132.5963身高2012.09.28DATAGURU专业数据分析(4) 再接着输出百分位数,也是分组后的百分位数(5) 分别输出两个组中的最大5个数和最小5个数,并且包括这些值对应的ID(6) 输出方差齐次性检验结果。(7) 系统还进行数据的茎叶情形描述。(8) 系统输出箱图(9) 输出Spread vs. Level图(10) 输出身高正态概率图(Normal(11) 输出离散正态概率图(DetrendedPlot of身高)NormalPlotof身高)2012.09.28DATAGURU专业数

20、据分析交叉列联表分析定义:前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,

21、如Kendall等级相关系数、Eta值等。2012.09.28DATAGURU专业数据分析SPSS提供了多种适用于不同相关系数的相关关系,这些检验的零假设是:行和列变量之间彼此,不显著的相关关系。SPSS将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。计算公式如下。(1)卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验零假设是:行列变量之间,计算公式为卡方统计量服从(行数- 1)×(列数- 1)个自由度的卡方统计,SPSS在自动计算卡方统计量后,还会给出相应的相关概率。2012.09.28DATAGU

22、RU专业数据分析(2)Contingency coefficient:列数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为其中,N为样本系数(3)Phi and Cramers V:系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为数值界于01之间,其中K为行数和列数较小的实际数。2012.09.28DATAGURU专业数据分析研究问题用两个班级学生进行两个感冒的试验,两个班级学生患感冒结果如表所示,问两个班级学生的患病比例有无差别。两班级学生的患病情况2012.09.28DATAGURU专业数据分析班 级患 病不 患 病实现步骤2012.09.2

23、8DATAGURU专业数据分析DATAGURU专业数据分析多选项分析定义:多选项分析是对多选项问题的分析方法。所谓多选项问题,就是一个问题的都是顺序变量或名义变量,并且选择的可以有多种组合。对于多选项问题,分解(编码方案)的方法有两种。1多选项二分法(Multiple Dichotomies Method这种方法将每个可能的设置为一个SPSS变量,变量的取值有两个,分别表示选中或没选中。这种方法的缺点是需要的变量数比较多。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。好处是比较简单。2多选项分类法(Multiple Category Method)多选项分类法首先估计多选项问题

24、可能出现的个数。比如一个多选题,如果最多有3个果某个案的,那么就设置3个SPSS变量,分别用来存放3个可能的。如只有两个,那么第3个SPSS变量取值为值。2012.09.28DATAGURU专业数据分析采用多选项分类法,进行普通的频数分析或交叉列联表分析有时候不能达到我们的要求。比如,我们要了解某选项的选中次数,就需要将3个变量中该选项的次数都累加起来,而不仅仅是一个变量中该选项的累加。这种情况,SPSS提供了多选项分析方法,专门多选项问题。SPSS在处理的过程中会自动地将3个变量中相同的频率累加起来。研究问题1某商场对6种品牌的电视机进行消费者满意度,随机了20位消费者,让他们选出最满意的3

25、个电视机品牌,收集到相应的数据,如表11所示。试用多选项二分法利用SPSS对该问题进行分析,包括频数分析和交叉列联表分析。2012.09.28DATAGURU专业数据分析20名消费者情况2012.09.28DATAGURU专业数据分析ID康 佳长 虹西 湖TCL东 芝创 维性 别110101012101100030001110410110005100101060011100001101110001111100001210100111011000111000001100111101001实现步骤2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析201

26、2.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析研究问题2上面实现过程是采用多选项二分法,本例采用多选项分类法对该问题进行分析。在本次中,每个被人最多选择3个品牌,因此有3个变量,用来保存每个被人的选择,数据表格如下所示。2012.09.28DATAGURU专业数据分析20名消费者情况DATAGURU专业数据分析ID答 案 1答 案 2答 案 3性 别953401042301131201236110012012 9.281实现步骤2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析基本统计分析的报表制作报表分

27、类本次课程以上各节讨论了SPSS的一些基本统计功能。SPSS还提供了这些基本统计分析的报表制作功能,根据报表制作的侧重点不同,可以分为以下3种。1个案简明统计报表(Cases Summary) 2行形式报表(Report Summaries in Rows) 3列形式报表(Report Summaries in Columns)研究问题1个案简明统计报表某公司两个部门共有20名员工,收集到员工的基本工资、奖金和分红信息,生成个案简明统计报表。数据如下表(13)所示。2012.09.28DATAGURU专业数据分析20名员工的收入DATAGURU专业数据分析部 门基 本 工 资奖 金分 红010

28、00100040008001000400080010008000900100050009001000400080010004001110010005002012.09.28实现步骤2012.09DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析研究问题2 行形式报表仍用研究问题1中的例子,数据见表13。实现步骤2012.09.28DATAGURU专业数据分析研究问题3列形式报表某公司两个部门共有20名员工,收集到员工的基本工资、奖金和分红信息,数据见表13,生成列形式报表。2012.09.28DATAGURU专业数据分析小结描述性统计是进行其他统计分析的基础和前提。利

29、用这些基本统计方法,可以对要分析数据的总体特征有比较准确的把握,同时也为更深入的分析提供了依据。Frequencies命令可用于数字型或字符型变量的统计分析,如均值、标准差、最小值、最大值、众数、中位数、方差、全距等14种统计量。探索分析可对变量进行更为深入详尽的描述性统计分析,有助于用户思考对数据进行进一步分析的方案。2012.09.28DATAGURU专业数据分析T检验方法在正态或近似正态分布的计量资料中,经常在使用前一章统计描述过程分析后,还要进行组与组之间平均水平的比较。本节的T检验方法,主要应用在两个样本间比较。如果需要比较两组以上样本均数的差别,这时就不能使用上述的T检验方法作两两

30、间的比较。对于两组以上的均数比较,可以使用下一周差分析方法。的方2012.09.28DATAGURU专业数据分析Means过程定义:Means过程是SPSS计算各种基本描述统计量的过程。与第3章中的计算某一样本总体均值相比,Means过程其实就是按照用户指定条件,对样本进行分组计算均数和标准差,如按计算各组的均数和标准差。用户可以指定一个或多个变量作为分组变量。如果分组变量为多个,还应指定这些分组变量之间的层次关系。层次以是同层次的或多层次的。同层次意味着将按照各分组变量的不同取值分别对个案进行分组;多层次表示将首先按第一分组变量分组,然后对各个分组下的个案按照第二组分组变量进行分组。Mean

31、s过程的计算公式为2012.09.28DATAGURU专业数据分析研究问题比较不同同学的数学成绩平均值和方差。数据如下表所示。2012.09.28DATAGURU专业数据分析性 别数 学Male99795989798999Female88545623实现步骤2012.09.28DATAGURU专业数据分析2012.09.28DATAGURU专业数据分析单一样本T检验定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较, 进行的是其均数与已知总体均数间的比较。计算公式如下。单样本T检验的零假设为H0:总体均值和指

32、定检验值之间不采用T检验方法,按照下面公式计算T统计量:显著差异。2012.09.28DATAGURU专业数据分析研究问题分析某班级学生的高考数学成绩和的平均成绩70之间是否显著性差异。数据如上表所示。2012.09.28DATAGURU专业数据分析实现步骤2012.09.28DATAGURU专业数据分析结果和讨论单个样本统计量N均值74.00标准差23.444均值的标准误7.06811数学单个样本检验检验值 = 70t的 95% 置信区间dfSig.(双侧)均值差值差分下限-11.75上限19.75.56610.5844.000数学2012.09.28DATAGURU专业数据分析两样本T检验

33、定义:所谓样本是指两个样本之间彼此没有任何关联,两个样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异。这个检验的前提如下。两个样本应是互相的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。· 样本来自的两个总体应该服从正态分布。两样本T检验的零假设H0:为两总体均值之间不显著差异。在具体的计算中需要通过两步来完成:第一,利用F检验两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出。2012.09.28DATAGURU专业数据分析1两个总体的方差是否

34、相同SPSS采用Levene F方法检验两总体方差是否相同。2根据第一步的结果,决定T统计量和自由度计算公式(1)两总体方差未知且相同情况下,T统计量计算公式为2012.09.28DATAGURU专业数据分析(2)两总体方差未知且不同情况下T统计量计算公式为T统计仍然服从T分布,但自由度采用的自由度,公式为从两种情况下的T统计量计算公式可以看出,如果待检验的两样本均值差异较小,t值较小,则说明两个样本的均值不显著差异;相反,t值越大,说明两样本的均值显著差异。2012.09.28DATAGURU专业数据分析研究问题分析A、B两所高校大一学生的高考数学成绩之间是否显著性差异。在分析结果中,SPS

35、S还自动给出了两样本均值差值的估计标准误差(Std.Error Difference)。在方差相同的情况下,估计标准误差的计算方法是在方差不相同的情况下,估计标准误差的计算方法是2012.09.28DATAGURU专业数据分析数 学998879595489795689992389705067788956在方差不相同的情况下,估计标准误差的计算方法是2012.09.28DATAGURU专业数据分析两配对样本T检验定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种 不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后的效果比较。前者推断两种效果有无差别,后者推断某种处理是否有效。两配对样本T检验的前提要求如下。两个样本应是配对的。在应用领域中,主要的配对资料包括:具有、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同, 其次两样本的观察值顺序不能随意改变。样本来自的两个总体应服从正态分布。两配对样本T检验的零假设H0:为两总体均值之间不显著差异。首先求出每对观察值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论