spss多元统计分析(共6讲)_第1页
spss多元统计分析(共6讲)_第2页
spss多元统计分析(共6讲)_第3页
spss多元统计分析(共6讲)_第4页
spss多元统计分析(共6讲)_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一讲 计数与统计第一节 计数11 计数计数就是数(动词)数(名词)。对存在于数据库里的浩如烟海的大量记录,数出具有某种特征的记录个数,没有什么高深的理论,但也决不是一件轻而易举的事情。这方面,计算机可以在相应软件的帮助下,轻松地完成这一任务。在以下的课程中,把计数分为简单计数与复合计数。所谓简单计数,就是只按照一个特征(变量)的值计数,例如:按照性别这个变量的值“男”和“女”计算人数;复合计数则要求按照至少两个特征(变量)的值计数,例如除变量性别外,同时还要按照变量年龄段的不同值“老”、“中”、“青”计算人数。12 简单计数命令frequenciesfrequencis命令用于简单计数,只要

2、把代表计数特征的变量输入variables变量框,点击ok,系统便输出计数结果。以数据文件data01为例,将年龄组(mage)输入variables,点击ok,即得如下输出文件表格:表中valid指有效数据(个数),frequency指频数,percent指频率,valid percent指有效频率,cumulative percent指累计频率。这张表格明确告诉我们:该表格共有员工66人,其中青年为34人,占人员总数的51.5%,中年为24人,占人员总数的36.4%,老年为8人,占人员总数的12.1%。由于没有缺失数据,所以有效频率valid percent与频率percent相同。如果把

3、数据文件中的第二条到第八条记录中的年龄组值(都是中年,值为2)删去,这时的变量mage出现7个缺损值,总有效数据为59个。和以上相同,统计不同年龄组的人数,得到以下的输出表格:与前面的表格比较,发现percent与valid percent都有所不同,差别之处在于现在的表格中:也就是有效频率是用频数除以实有总人数得到的。在生成计数表格时,还可以生成统计图,这只要点击charts并在bar charts(棍图)和pie charts(饼图)中选择一个,就可以达到目的。(读者试自行练习)13 复合计数命令crosstabs复合计数结果由一个二维表表示。仍旧用data01文件,按照变量性别(sex)

4、与年龄组(mage)统计人数与频率。打开对话框,其中的row(s)指二维表的行,colum(s)指列,layer则指层,在只有两个变量时,不需要分层,只有当变量多于两个时才要分层。把sex输入row(s),把mage输入column(s)。这时如点击ok便得到输出表格:这个表格只有人数,没有频率。如果需要频率,在运行前还要点击cells在percentages中选择row、colum和total,在运行程序,就得到输出表格:例如:男青年19人,占全体男性人数的48.7%,占全体青年人数的55.9%,占总人数28.8%。又如:老年女性3人,占全体女性人数的11.1%,占全体老年人数的37.5%,

5、占总人数的4.5%。需要分层的情况:以上是根据性别与年龄组统计人数,现在添加一个变量收入水平(minc),在crosstabs.对话框中,将minc键入layer其他同上。点击ok,便得到输出表格。这个表格的意义应该十分清楚,无需多做解释。最后要指出的是:分层越多,表格越复杂,不利于阅读与理解。第二节 编码、文件拆分与生成新变量21 编码 1在许多情况下,需要对一个数值变量的所有观察值按给定的标准分组,例如对变量年龄的观察值按一定标准,转换为青年、中年和老年;对变量收入的观察值按给定标准转换为低收入、中收入和高收入。这一过程称为编码(recode)。 2编码命令recode实现编码的命令是tr

6、ansformrecode,它有两个子命令:1) into same variables 使用这个子命令时,编码值存放在原变量名下,也就是说,编码值将覆盖原变量值。如果变量的原始值还有用,切勿使用此子命令。2) into different variables使用这个子命令,编码值将用一个不同于原变量名的新变量存放,既得到编码值,又保留了变量的原始值。这个命令更实用,下面就介绍它的用法。打开数据文件data02,按以下要求将全体职工按年龄(age)分为三组:组别1,青年,age35;组别2,中年,35age60;组别3,老年,age60.分组后的编码变量取名bge。操作:transform r

7、ecode into different variables对话框:将变量age输入input variablesoutput variables在output variables下的name框中键入bge,点击change点击old and new values,进入新对话框。新对话框的左边为old value栏,右边是new value栏,两者为映射关系,即前者的数据为原像,后者的数据为映像。映射方式为:点或区间点。具体到现在的年龄分段问题,将第一个区间age35转换为oldvalue栏中的range lowest through 35然后,在new value栏中键入编码值value 1

8、,同时点击add,在oldnew中,便显示结果lowest thru 351, 系统告诉你,已经把age35的所有观察值转换成码值bge=1; 下一步是把第二个区间35age60转换为old value栏中的range 36 through 59然后在new value栏中键入编码值value 2,同时点击add在oldnew中显示结果36 thru 592;最后range 60 through highestvalue 3将age60内的所有观察值转换为码值bge=3,点击add显示60thru highest3。至此,编码完成。点击continue返回,再点击ok,编码变量bge在数据文件

9、中生成。如果还要继续编码工作,例如对变量当前薪金(salary)按以下要求编码:组别1:低收入,salary30000;组别2:中收入,3000050000。在打开recode into different variable对话框后,应首先点击reset,清除上一次编码留下的命令,再将变量salary输入。读者自己完成编码。22 文件拆分命令split file1文件拆分指把一个数据文件按某个指定变量(一般应该是水平变量)的值,分成几个文件。例如按性别的值“男”和“女”分成两个文件,这样在处理的时候就可以做到更具针对性。需要说明的是,这种拆分属于后台作业,在原始数据文件上并无显示。 2命令da

10、tasplit file现在用数据文件data02说明命令split file的用法与功能。在菜单data下点击split file,系统显示对话框。这时系统处于默认状态:analize all cases, do not create groups。如要拆分文件,则必须将系统状态改变为:compare groups状态或者organize output by groups。我们选择compare groups。这时把拆分变量性别(gender)键入groups based on,点击ok,文件按性别拆分完成。现在如果用frequencis统计不同职务(jobcat)人数,得到结果是:可见,数

11、据文件data02按性别(gender)拆分后,统计运算均按照“男”、“女”两个不同的数据子集合进行,并分别输出相应结果。因此,split file这个功能,可以使我们在今后的所有统计运算中,很方便地处理一个数据文件的子集合。关于organize output by groups的结果如何,它和compare groups又有何区别,读者自己留作练习。23 生成新变量 1所谓生成新变量,指在原有变量基础上,通过一定的函数形式,产生新的变量。 2命令transformcompute该命令对话框中,target variable指新变量名,numeric expression为新变量的函数表达式,

12、functions为备用函数。 例 数据data02,要建立一个新变量:薪金增量(dsal),它的表达式是:薪金增量(dsal) 当前薪金(salary) - 起始薪金(salbegin)在compute对话框的target中输入dsal,在numeric expres-sion中输入上述表达式,点击ok ,在原数据文件中即生成新变量dsal及相应的值。第三节 观察值的排序与求秩31 排序 1排序 设有变量x的n个观察值:x1,x2,xn,对它排序就是按照下面的一种方式对它重新排列:方式1 升序(ascending),重排后的数据有顺序x(1)x(2)x(n)方式2 降序(descending

13、),重排后的数据有顺序x(1)x(2)x(n) 2排序命令sort cases这个命令很简单,只要在对话框中把被排序变量(只能一个)键入sort by,然后选择ascending或是descending,点击ok,相应变量的排序即已完成。在数据文件data02中,求年龄最大的职工的代码(id)、性别(gender)、年龄(age)、受教育年限(educ)、职务(jobcat)和当前薪金(salary)。读者自己完成。32 求秩 1秩的概念 数列x1,x2,xn中的一个观察值xk的秩(rank),是指该数列按升序排列后,xk在新数列中所处的位置。xk的秩记为r(xk)。例如一个数列是:9,3,2

14、1,8,15,将它按升序排列成为:3,8,9,15,21。于是9在新数列中处在第3位,称9的秩为3,记为r(9)=3,同样道理,我们有r(15)=4,r(3)=1等。 2重复观察值的秩 求秩时常常会发生同一个数值多次发生的事,例如数列:9,3,21,3,8,9,3,15,8,21,3,按升序排列成为:3,3,3,3,8,8,9,9,15,21,21。重排的升序数列中,数值3占据了第一位到第四位,这时是确定r(3)=1还是r(3)=4,或者还有其他规定?对此,有以下不同处理方法: 1)均值法(mean) 先依序计秩,然后把同一个重复观察值的所有秩求算术平均值,并把它作为此重复观察值的公共秩。例如

15、在上面的例中,重复观察值3占了1,2,3,4共四个秩数,取其算术平均值2.5作为3的值,即这四个3具有相同的秩r(3)=2.5,同样紧随其后的两个8具有相同的秩r(8)=5.5,类似有r(9)=7.5,r(15)=9,r(21)=10.5。 2)低值法(low) 也是先依序计秩,然后把同一个重复观察值的所有秩取其最小值作为公共秩。按此法有:r(3)=1,r(8)=5,r(9)=7,r(15)=9,r(21)=10。 3)高值法(high) 和低值法不同在于取同一个重复观察值的所有秩的最大值作为公共秩。 4)唯一法(sequential ranks to unique values) 相同的观察

16、值同秩,秩数不能间断。按此法有:r(3)=1,r(8)=2,r(9)=3,r(15)=4,r(21)=5。 3求秩的命令rank cases打开rank casea对话框,将需要求秩的变量键入variable(s)中,点击ties ,在rank assigned to ties中选择一项(系统默认选择mean),返回主对话框,点击ok ,求秩完成,秩数存放在数据文件中。对话框中有一个栏目assign rank 1 to,提供两种秩序,smallest value就是通常秩序:由小到大顺序排列,这也是系统默认的秩序;还有一种秩序largest value和它相反,是由大到小排列按这种顺序,上面的

17、r(21)=1,r(3)=5。例:数据文件data02,按从低到高的排列,当前薪金(salary)处于第13位的职工是哪些人?将salary键入variable(s),在ties中选择sequential ranks tounique values。得到秩数等于13的是id=167和id=267的两位职工,皆为女性,前者1932年出生,现年67岁,后者1969年出生,现年30岁。当前薪金都是18150元,受教育程度都是12年,且都是办事员。第四节 描述统计41 描述统计量的名称与定义 以下假设一个数值变量x的n个观察值为:x1,x2,xn。将它们按升序排列的顺序记为:x(1),x(2),x(n

18、)。以下是常用的描述统计量(descriptive statistics)计算公式: 1均值(mean)2方差(variance)3标准差(std.deviation)4均值的标准误(std.error of mean)5中位数(median) 数列x(1),x(2),x(n)中位于中间位置的数,记中位数为x(m),则有:6众数(mode)发生频率最大的数。7极差(range)最大值与最小值的差。8百分位数(percentile)在数列x(1),x(2),x(n)中,若至少有t%的数不超过数yt,则称yt为该数列的t百分位数。一般,百分位数为yt,则有:9偏度(skewness)用来研究分布是

19、否对称。若g10,则可以认为分布是对称的;若g10,则认为分布有右偏态;若g10,认为分布有左偏态。10峰度(kurtosis)用来度量分布的形状,它以正态分布为标准,比较两侧极端数据分布的情况。对于正态分布有g2=0;若g20,表示数据中有较多远离均值的极端数据;若g20,则均值两侧极端数据较少。42 计算描述统计量的命令 1命令frequencisstatistics此命令包含上述所有描述统计计算,并且可以根据需要舍取,尤其适合求分位点,一般情况下是首选命令。 2命令explor此命令也包含以上所有描述统计量,但不能舍取。特点是可以分类计算描述统计量。此命令还包含其他数据浏览功能,如数据分

20、布概况,异常数据的提示。 3命令descriptive此命令的默认计算结果很少,一般不能满足需要。如需更多的统计量计算结果,需要在options 中选择。但此命令可以完成数据的标准化,并把结果以变量的形式存放在数据文件上。43 计数描述 1计数描述指:不仅统计具有某些特征的个体数目,而且计算这类个体的描述统计特点。实现这一功能的命令是means。 2命令means 对话框中的dependent list存放需要计算描述统计量的数值变量,independent list存放计数变量,它可以分层,分层功能由layer实现。optings 打开后,可以选择需要计算的统计量。以data02为例,统计不

21、同职务中之男、女性人数及占全体职工人数的比率,并且计算每一部分人员的平均受教育年限、平均年龄和平均当前薪金。在means对话框中,将educ、age和salary键入dependent list,将jobcat键入independent list的第一层(layer 1),将gender键入independent list的第二层(layer 2)。打开options ,将std.deviation键回statistics,将percent of total n键入cell statistics。返回,点击ok ,得输出表格。表格表达的信息十分清楚,读者可以自行研读,这里不再多做解释。第五节

22、统计检验51 统计检验概述1什么是统计检验世界上有许多试验结果不能用严格的数学逻辑推导,因为它们不具备做这类推导的条件。但这些试验积累的大量数据显然包含结果的相关信息,从数据出发,运用统计的方法,去推断与试验有关的命题是否成立,这种方法称为统计检验。统计检验要验证其是否成立的命题称为原假设,记为h0;与原假设对立的命题称为备选假设,记为h1,它是原假设被否定时需要接受的假设。一般来说,原假设是从大量试验数据中总结出来的命题,只是无法用形式逻辑方法予以证明,因此原假设在检验过程中应该慎重对待。2抽样统计检验通过抽取样本执行。一个容量为n的样本就是对总体(变量)x的n次独立观察,记为x1,x2,x

23、n,通常用一个n维向量表示,我们把它看成是n维空间rn的一个点。如果原假设h0为真,rn中的大多数事件(表现为n维点集)都应该支持h0所表达的命题,不支持的只是极少数。我们把rn中支持h0的所有n维点记为c0,把不支持h0 的所有n维点记为c1,统计检验的规则就成为:样本c0时,接受原假设h0,这时称h0显著;当样本c1时,不接受h0,而接受h1,这时称h0不显著。从以上c0和c1的构成可知:在原假设h0为真时,一次随机抽样中,抽到c0中事件的概率要比抽到c1 中事件的概率大得多。或者说:c0中包含的事件具有较大的概率,c1中包含的是小概率事件。3检验法所谓检验法,就是要找出c0和c1来,数学

24、上把这称为对空间rn的一个划分:使得当时,接受原假设h0;当时,不接受原假设h0,转而接受备选假设h1。区域c1称为(该检验法的)临界域。求检验法实际就是求临界域。4两类错误由上可知:统计检验的结果由抽样来决定,抽样又是随机的,即使原假设h0为真,也有可能抽到c1中的事件,这时检验就给出错误的结论,只不过出现这种情况的概率较小而已。一个好的检验法可以把这种情况发生的概率限制在非常小的水平之下,为此首先讨论统计检验可能犯的两种错误: 1)原假设h0为真,但检验结果却接受h1。这种错误叫第一类错误;2)原假设h0不真(备选假设h1为真),但检验结果却接受h0。这种错误叫第二类错误。犯第一类错误的概

25、率记为a,它可以表示成:犯第二类错误概率记为b,显然有:5检验的显著性水平一个检验法的显著性水平指它犯第一类错误概率的上限值。原假设一般是通过长期试验观察得出的,通常具有实践与经验支持,在做统计检验时尤其不愿因为犯错误被否定。但是统计检验的做法使得犯错误无法避免,只能设法降低犯错误的概率,特别是犯第一类错误的概率。因此,在寻找检验法之前,要给定犯第一类错误概率a的上限a0,关系式给出了检验的临界域c1,也就给出了符合上述显著性水平的检验法。犯两类错误的概率a和b不能同时减少,一般是此消彼长,但不是互补关系。检验的显著性水平a0通常取0.05、0.01或0.1。在做统计检验前,必须确定检验的显著

26、性水平值,同一个问题在不同的水平值之下,可能结论截然相反。52 怎样确定原假设h0是否应该接受1在明白了c0、c1的来历以及检验显著性水平a0的含义后,就很容易明白:按显著性水平为a0(例如0.05)确定的检验法,临界域c1中的事件发生概率不超过a0(例如0.05)。如果抽样结果是一个概率小于a0(例如0.05)的事件,就不接受原假设h0,或称h0不显著。所以只要计算出抽样结果事件的概率,然后与检验的显著性水平a0比较,就可以得出h0是否显著的结论。 2在spss中的实现spss中,把抽样结果事件发生的概率值用sig.表示,如果检验的显著性水平记为a0,则判断规则是:如果sig.a0,则接受h

27、0,即原假设h0显著;如果sig.a0,则拒绝h0,即原假设h0不显著。因此使用spss做统计检验是一件非常轻松的事情,但是必须知道检验的原假设h0是什么,这是软件包不能告诉用户的。53 正态总体均值检验以下出现的总体都假定服从均值为m方差为s2的正态分布:。各种检验的命令都在compare means之中。 1一个正态总体的均值检验one sample t-test检验命题:总体均值等于某个常数m0。原假设:h0:m=m0。检验类型:参数,t检验。检验统计量: 例:数据data03,该文件记录了上海市18841982年99年的年降雨量。在0.05的显著性水平下,能否认为上海市的年均降雨量是:

28、1)1200mm;2)1150mm。1)原假设是h0:m1200。在one sample t-test对话框中把变量rain(雨量)输入test va-riable(s)中,又在test value中输入1200。点击ok即得输出表格:此表格显示:检验统计量的值t=-2.994,自由度df=98,(双测)显著性sig.=0.004。因为sig. 0.05,所以接受原假设h0,即上海市年均降雨量为1150mm基本符合实际。 2两个正态总体均值比较检验independent samples t-test这类检验针对两个相互独立的正态总体:检验命题:总体1的均值m1与总体2的均值m2相等。原假设:h

29、0:m1=m2。检验类型:参数,t检验。注意事项:这类检验分为两种情况,两总体方差相等(equal variances assumed)与两总体方差不等(equal variances not assumed)。两种情况下,均值相等检验的方法有所不同。所以,在做均值相等检验前,先要做方差相等检验(levenes test for equality of variances),即首先检验假设:h10:s1=s2。如方差相等,检验统计量为:例 数据data01,设该文件是一个随机样本,试在0.05的显著性水平下判断:1)男女职工的收入(income)有无显著差别;2)45岁(含)以上职工与其他职工

30、的收入(income)有无显著差别。 1)在independent samples t-test对话框中,将变量income输入test variable(s),然后将变量gend输入grouping variable,点击define groups,在对话框中输入性别代码1,2。返回,ok。输出表格:第一张表格指出:男39人,人均收入1122.56元;女,27人,人均收入1032.96元。第二张表格是检验结果:在方差相等检验一栏(levenes test for equality of variances)指出,检验类型为f,检验统计量值f=3.787,对应水平值sig.=0.056,说明在

31、0.05的检验水平下,可以认为方差相等。因此,进入均值相等检验一栏(t-test for equality of means)时,只需要看与equal variances assumed对齐的一行(第一行),这一行指出:检验类型为t,检验统计量值t=0.934,自由度df=64,(双测)水平值sig.=0.354,所以在0.05的显著性水平下可以认为男、女人均收入没有显著差别。 2)作法同上,但在grouping variable中输入变量age,在define groups对话框中,选择cut point,并输入年龄分段值45。返回,ok。输出表格:读者自己解读,并得出结论。 3多个正态总体

32、均值相等的检验one-way anova这类问题面临3个或更多正态总体:检验命题:m个正态总体均值是否有显著性差异。原假设:h0:m1=m2=mm。检验类型:参数,f检验。 例 数据data01,检验老、中、青这三部分人平均收入有无显著差别?检验的显著性水平取0.05。 原假设:h0:m1(青年)=m2(中年)=m3(老年)在one-way anova对话框中,把变量income输入dependent list,把变量mage输入factor,点击options,选择descriptive,返回,ok。得:表格descriptives列出老、中、青三组的人数、平均收入、最大及最小收入等信息。而

33、表格anova则是检验结果,其中有三个平方和的值:组间平方和(between groups sum of squares)、组内平方和(within groups sum of squares)和总和(total sum of squares)三者关系是:between groups + within groups = totaldf一栏为自由度,mean square为均方和,它是由:mean square = sum of squares / df计算得到。f则是统计量f的值,它是由:f=between group mean square / within group mean squar

34、e计算得到。以上平方和与均方和的概念,学过方差分析的读者应该知道。最后的sig.=0.000表明原假设不能接受。即老、中、青三部分人的人均收入存在显著差异。54 列联表的独立性检验一个二维列联表涉及两个变量,表中每一个单元格中的数值是这两个变量在不同取值水平的作用下,被观察对象所取的值。列联表的独立性检验是检验这两个变量是否相互独立。为此,我们要把问题提得更一般性一些。设有一个rc的二维列联表,即它有r行,c列;一共n次观察,落在单元格(i, j)中的频数是nij,i=1,r;j=1,c.显然有记:.j=1,c; i=1,r此外,还记pij是观察值落在单元格(i,j)中的概率,i=1,r;j=

35、1,c.待检验假设为: h0 : i=1,r;j=1,c h1: h0 不成立检验统计量取若h0为真,则当n 时,统计量q的渐近分布为c2(r-1)(l-1),当显著性水平为时,由确定检验的临界值。例 数据文件data01,考察:1)年龄组对收入水平是否存在显著影响;2)性别差异是否对收入水平有显著影响。以上检验均在0.05显著性水平下进行。调用crosstabs.命令,并选择statistics中的chi-square。 1年龄组(mage)对收入水平(minc)影响的检验结果:无论是c2检验(pearsonchi-square)抑或似然比检验(likelihood ratio)其近似sig

36、.都是0.000,都小于检验的显著性水平0.05,因此年龄组和收入水平间的独立性不显著,故年龄组对收入水平存在影响。 2性别(gend)对收入水平(minc)影响的检验结果:结论由读者自己去下。55 p-p图、q-q图与k-c检验 1这一段介绍几个检验总体分布的方法。由于正态分布对于统计分析的重要性,重点就放在如何检验一个总体是否正态分布上。其实所用方法完全可以用来检验其他分布。 2q-q(quantile-quantile)图检验法 q-q图可以用来检验总体是否服从正态分布,其原理是:绘制散点的散布图,其中为正态总体的pi分位数,为样本的pi分位数。如果总体为正态分布,则这些散点应该落在一条

37、直线上。 3p-p(probability-probability)图检验法 p-p图的原理与q-q图相似,只不过散点改为,其中函数fn()为经验分布函数,是正态总体在点的值。 4k-s检验所谓k-s检验即kolmogorov-smirnov检验,被冠以两位前苏联科学家的姓名。这种检验可以用来检验总体分布。检验的基本原理是用经验分布函数拟合被检验的已知分布(原假设),如果拟合误差在设定的范围内,就接受总体为已知分布。否则,则拒绝原假设。以上方法都需要大样本支持。例 数据data11记录了120位学生的身高,变量high表示身高。检验学生身高high是否服从正态分布。 原假设为 h0:变量hig

38、h服从正态分布。 方法1 作q-q图检验 命令graphs q-q,在q-q plots对话框中,将变量high输入variables,并在test distribution的下拉菜单中选择normal,点击ok ,得输出文件:model: mod_1.distribution tested: normal(被检验分布:正态分布)proportion estimation formula used: blomsrank assigned to ties: mean_for variable high .(被检验总体:high)normal distribution parameters est

39、imated: location = 139.65 and scale = 7.3118529(正态分布参数估计:总体期望139.65,总体标准差7.3118529)从第一张图可见,散点基本落在对角线上,因此可以认为总体high服从正态分布 n(139.65, 7.31185292)。第二张图称作非趋势化正态q-q图,如果散点分布在0点横轴的上下方个数差不多,且无规律,则也可以认为总体服从正态分布。方法2 作p-p图命令 graphs p-p,对话框与q-q相同,操作也一样。输出如下:model: mod_1.distribution tested: normalproportion esti

40、mation formula used: blomsrank assigned to ties: mean_for variable high .normal distribution parameters estimated: location = 139.65 and scale = 7.3118529解读也与q-q图相同。方法3 k-s检验命令 nonparametric tests 1-sample k-s,在对话框中将变量high输入test variable list,并在test distribution中选择normal,点击ok。输出为:表格中列出分布参数均值与标准差如下:

41、normal parameters mean 139.650std. deviation 7.3119检验统计量值: kolmogorov-smirnov z 0.659以及该统计量值对应的显著水平: asymp. sig.(2-tailed) 0.777注a显示:检验原假设为正态分布。于是有:在0.05或0.01的显著性水平下,检验结果都是接受原假设,即认为总体服从正态分布:highn(139.650, 7.31192)。第二讲 相关分析与回归分析第一节 相关分析11 变量的相关性 1变量的相关性分两种,一种是研究两个变量x与y的相关性,另一种是研究两组变量x1,x2,xp与y1,y2,yq

42、之间的相关性。本节只研究前者,即两个变量之间的相关性;后者,即两组变量之间的相关称为典型相关,不在本节研究范围之内。 2两个变量x与y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。这个问题的难处在于“关系”二字,从数学角度看,两个变量x、y之间的关系具有无限的可能性,因此泛泛谈“关系”不会有什么出路。一个比较现实的想法是:确立一种“样板”关系,然后把x、y的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标。 3取什么关系做“样板”关系?线性关系。这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对

43、这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。12 相关性度量 1概率论中用相关系数(correlation coefficient)度量两个变量的相关程度。变量x和y的相关系数定义为:其中cov(x,y)是协方差,var(x)和var(y)分别是变量x和y的方差。相关系数corr(x,y)有性质: 1); 2)当且仅当。而且当corr(x,y)=1时,有b0,称为正相关;corr(x,y)=-1时,有b0,称x和y正相关;时,b0,称x和y负相关。 和总体相关系数一样,如果,称x和y不相关。这时它们没有线性关系。多数情况下,样本相关系数取区间(-1, 1)中的一个值。相关系数的

44、绝对值越大,表明x和y之间存在的关系越接近线性关系。13 相关性检验两个变量x和y之间的相关性检验是对原假设h0:corr(x,y) = 0的显著性进行检验。检验类型为t。如果h0显著,则x和y之间没有线性关系。14 计算样本相关系数correlatebivariate 例1 数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。打开correlatebivariate对话框,将变量salary、salbegin、educ和prevexp输入variables,点击ok,即得表格:表格中的pearson correlation指样本相关系数,例如起始薪金与受教育

45、年限的相关系数为0.633;sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为sig.=0.000,在0.05和0.01的水平下,都能否定它们不相关的假设。n为观察值个数。15 偏相关系数 1控制变量 以上在计算变量x和y的相关系数时,并没有考虑有其他变量的影响。例如:计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此0.890这个数字不完全真实。如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。这个被扣除的变量就叫控制变

46、量,这里educ便是控制变量。控制变量可以不止一个。 2偏相关系数 扣除控制变量影响后得到的相关系数称为偏相关系数(partial correlation),计算命令为:correlatepartial. 例2 数据data02,计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。在partial correlations对话框中,将变量salary、salbegin输入variables,将变量educ输入controlling for,然后ok,得:其中corrlation指偏相关系数,df自由度,significance是对原假设h0:pcorr(x,y)0检验结果得到的水平值。可

47、见:偏相关系数值等于0.795;不能接受不相关的假设。第二节 线性回归方程21 一元线性回归方程 1相关分析是以线性关系为“样板”,讨论变量x和y的相关程度,这一程度用相关系数表示。我们不禁要问:这个“样板”是什么?也就是把这个做“样板”的线性表达式:给出来,这也就相当于把系数b0和b1估计出来。这样,变量x和y的关系就可以表示成为:其中e为误差,是一个随机变量。显然,相关系数绝对值越大,误差e在表达式中占的比重就越小,也就是线性部分占的比重越大,这就有可能用线性表达式(1)近似表达变量x和y的关系。称线性表达式(1)为变量y对于x的(一元线性)回归方程。回归分析的主要任务是回答: 1)回归方

48、程(1)能否近似代表变量x和y的关系。这实际是对线性部分与误差部分各占比重的估量; 2)怎样估计回归方程(1),也就是怎样估计参数b0和b1。 显然,在任务2)完成前,任务1)无从开始。 2回归的基本假设解决回归分析的主要任务还是要从样本:入手。套用(2),样本(3)可以写成:以下所有分析推导都从(4)出发。显然,需要用到一些数学方法。为此提出以下基本假设: 假设1 e(ei) = 0,i=1,2,n; 假设2 var(ei) = s2 = const,i=1,2,n; 假设3 cov(ei, ej) = 0,ij; 假设4 ein(0, s2),i=1,2,n。 3回归系数b0、b1的最小二

49、乘估计这一部分内容实际是估计回归方程。作为变量x和y实际关系的近似,自然要求回归方程(1)计算出的y值与样本观察值具有最小误差。即把x代入(1)计算出的y值:与实际观察到的yi误差最小。为此,取误差的平方和:在求最小值过程中,得到b0、b1的估计。数学上把这一方法叫最小二乘法。利用多元函数求极值方法,令:得到关于b0与b1的线性方程组:解之得:这就是回归系数的估计式。通过它,可以完全确定回归方程。 4回归方程的评价确定了回归方程后,一个重要问题浮出水面:这个回归方程有多大的代表性?能否投入使用? 1)平方和分解公式 数理统计中有一个很著名的公式:其中yi是(3)式给出的变量y的观察值,则是由观

50、察值(3)经最小二乘法得到的y对于x的回归方程(1)计算得的yi的估计值。公式中的三个平方和分别叫做:总平方和(total) 残差平方和(residual) 回归平方和(regression) 于是(9)式也可以写成: st = se + sr。设就是平方和分解公式。 平方和分解公式指出一个事实:残差平方和se与回归平方和sr之和是一个常量,而残差平方和se越大,表明回归方程跟样本观察值拟合得越差,反之则越好。但从回归平方和sr看,则正好相反,即:sr越大,回归方程跟样本观察值拟合得越好。 2)判决系数与复相关系数 定义 回归平方和sr与平方总和st的比值称为回归方程的判决系数,用r2表示判决

51、系数,则有:判决系数的算术平方根称为回归方程的复相关系数。显然:。判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。判决系数也回答了(2)中线性部分所占比重的问题。 3)回归方程的显著性检验原假设 h0:b1 = 0 (回归方程不显著)检验统计量:在给定检验的显著性水平a0(例如0.05)后,如果计算得统计量f对应得水平值sig.a0,则拒绝接受h0,这时称原假设h0不显著,也就是回归方程显著,这就意味着:接受回归方程近似代表变量y和x的关系。5回归分析命令regressionlinear 例3 数据data04,计算身高(high)与体重(weight)的相关系数,并以身高为

52、自变量,体重为因变量求线性回归方程,同时计算判决系数、检验回归方程的显著性(取检验水平a00.05)。打开linear rgression对话框,将体重(weight)输入dependent,将身高(high)输入independent,点击ok,得输出文件表格系列: 该表格是变量进入或移出回归方程的记录,它指出:进入方程的变量是high,没有变量移出方程,使用的方法为enter(在回归方程的优化一节中会讨论)。两个注是:a.所有提供的自变量都进入方程。b.因变量是weight。 模型概况表格。其中r square是判决系数,r是复相关系数,adjusted r square是校正的判决系数(

53、容以后介绍)。注a.预测元素为:(常数),high。即回归方程等号右端是这两部分组成。方差分析表。这部分做回归方程的显著性检验,原假设h0:回归方程不显著。表中sum of square一列:regression是回归平方和,residual是残差平方和,total是总平方和。df是相应的自由度,mean square为对应均方和,它的定义是:mean sqare = sum of square dff是统计量的值,f = regression mean square residual mean square最后的sig.是f值对应的显著性。由于sig.=0.0000.05,故原假设h0为不显著,即回归方程显著。最后一个表格是系数表:其中unstandard coefficients(非标准化系数)给出回归方程的常数项(constant)与变量high的系数,它们在b列中显示。因此,回归方程是:22 多元线性回归方程 1模型 在变量y和变量x1,x2,xp,(p2)之间建立关系:其中e为随机变量,表示误差。线性部分对于(x1, x2,xp,y)的一个容量为n的观察值应有对(14)中的随机误差ei有与一元线性回归相同的假设。称(12)为变量y对于变量x1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论