




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章均值比较与方差检验本章主要内容:1、单个总体均值的t检验(One-SampleTTest);2、两个独立总体样本均值的t检验(Independent-SampleTTest);3、两个有联系总体均值均值的t检验(Paired-SampleTTest);4、单因素方差分析(One-WayANOVA);5、双因素方差分析(GeneralLinearModel
Univariate)。假设条件:研究的数据服从正态分布或近似地服从正态分布。在Analyze菜单中,均值比较检验可以从菜单CompareMeans,和GeneralLinearModel得出。7.1假设检验的基本问题一、假设检验的基本思想假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中几乎不可能发生。也就是说,如果对总体的某个假设是真实的,那么不利于或不能支持这一假设的小概率事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。假设检验的基本思想
前提:承认原假设小概率事件发生大概率事件发生拒绝原假设接受原假设进行一次实验根据样本观测值来判断一个有关总体的假设是否成立的问题,就是假设检验问题(hypothesistesting)。
某厂生产一种供出口的罐头,经验表明罐头的净重服从正态分布。标准规格是每罐净重250克,标准差是3克。现从生产线上随机抽取100罐进行检查,称得其平均净重251克。问这批罐头是否合乎规格净重?则样本均值服从均值为250,标准差0.3的正态分布250250假设总体服从均值为250,标准差3的正态分布250250.6249.4样本均值服从均值为250,标准差0.3的正态分布2510.95450样本均值服从均值为250,标准差0.3的正态分布2.00-2.003.330接受域拒绝域拒绝域临界值临界值Z统计量显著性水平假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本提供的信息,根据小概率原理对假设的正确性进行判断的一种统计推断方法。二、假设的表达式例:由统计资料得知,1989年某地新生儿的平均体重3190千克,现从1990年的新生儿中随机抽取100个,测得其平均体重为3210千克,问1990年的新生儿与1989年相比,体重有无显著差异。原假设(nullhypothesis)采用等式的方式,即如果原假设不成立,就要拒绝原假设。在需要的另一个假设中做出选择,这个假设称为备择假设(alternativehypothesis)。备择假设表达式为:假设基本形式
H0:原假设,H1:备择假设假设检验:运用统计理论对上述假设进行检验,在原假设与备择假设中选择其一。提出原假设和备择假设某厂生产一种供出口的罐头,经验表明罐头的净重服从正态分布。标准规格是每罐净重250克,标准差是3克。现从生产线上随机抽取100罐进行检查,称得其平均净重251克。问这批罐头是否合乎规格净重?确定检验统计量规定显著性水平α显著性水平α对应犯拒真错误的概率,通常取α=0.05或α=0.01或α=0.0455计算检验统计量的值作出统计决策拒绝原假设,即这批罐头不符合规格净重。假设检验的另一种方法:p-值的应用
p-值是一个概率值,它是用于确定是否拒绝H0的另一种方法。如果假定原假设为真,则p-值是所获得的样本结果至少与实测结果不同的概率值。例题:某商品标签上标明其重量至少为3公斤以上,现抽取36瓶该产品组成的一个简单随机样本,得其样本均值2.92公斤,已知总体标准差为0.18时,在显著性水平α=0.01的情况下检验其商品标签所标内容是否真实?求解过程:(1)原假设H0:μ≥3,备择假设H1:μ<3(2)检验统计量为:代入数据得:(4)0.0038<0.010,所以拒绝H0。(3)z=-2.67所对应的p值为0.0038三、假设检验的两类错误
接受或拒绝H0,都可能犯错误
I类错误——弃真错误,发生的概率为α(αerror)
II类错误——取伪错误,发生的概率为β(βerror)7.2正态总体参数的假设检验正态总体参数假设检验的步骤第一步:建立原假设H0和备择假设H1。原假设应该是希望犯第Ι类错误概率小的假设。
常用的假设形式:第二步:选择检验用的统计量。z检验t检验F检验常用统计量第三步:确定显著水平α的值,查相应的分布表得其临界值以及拒绝域。第四步:进行显著性判别。7.2.1一个正态总体的参数检验在一个正态总体的参数检验中,用到的检验统计量主要有三个:Z统计量,t统计量,统计量。Z统计量和t统计量常用于均值和比例的检验,统计量则用于方差检验。选择什么统计量进行检验需要考虑一些因素,这些因素主要有:总体的标准差是否已知,样本量的大小。(一)总体标准差是否已知总体方差检验统计量μ=μ0时检验统计量的分布假设
拒绝域σ2已知σ2未知(二)样本量总体标准差已知未知Z统计量样本容量Z统计量t统计量大小二、总体均值的检验例题:某厂加工一种零件,根据经验知道,该厂加工的零件的椭圆度渐近服从正态分布,其总体均值为0.081mm,总体标准差为0.025mm。今另换一种新机床进行加工,取200个零件进行检验,得到椭圆度均值为0.076mm。问新机床加工零件的椭圆度总体均值与以前有无显著差别。(α=0.05)接受域拒绝域拒绝域例题:某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取了100个灯泡,得其均值为960小时,批发商是否应该购进这批灯泡。解一:接受域拒绝域解二:接受域拒绝域
例题:电视机显像管批量生产的质量标准为平均使用寿命1200小时,标准差为300小时。某电视机厂宣称其生产的显像管质量大大超过规定标准。为了进行验证,随机抽取100件为样本,测得平均使用寿命为1245小时。能否说该厂的显像管质量显著地高于规定标准。解一:接受域拒绝域解二:接受域拒绝域
某机器制造出的肥皂的标准厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.01的显著性水平检验机器性能良好的假设。接受域拒绝域拒绝域
一个汽车轮胎制造商声称,某一等级轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000km,对一个由120个轮胎组成的随机样本作了试验,测得平均值和标准差分别为41000km和5000km。已知轮胎寿命的公里数近似服从正态分布。能否根据这些数据作出该制造商的产品同他所说的标准相符的结论。接受域拒绝域例题:某高尔夫球场在过去几个月里高尔夫运动者有20%是女性,为增加女性运动者比率,球场以特价方式吸引女性运动者,一周以后,一个400名运动者所组成的样本中,300名为男性,100名为女性。能否得出结论认为球场的女性运动者比率上升了(α=0.05)。三、总体比例的检验接受域拒绝域7.2.2两个总体参数的检验一、两个总体参数之差的抽样分布大样本(n1≥30且n2≥30)情形下,近似服从正态分布,即:式中:σ1──总体1的标准差
σ2──总体2的标准差
n1──来自总体1简单随机样本的的样本容量
n2──来自总体2简单随机样本的的样本容量σ1和σ2已知式中:s1──来自总体1的样本标准差
s2──来自总体2的样本标准差
n1──来自总体1简单随机样本的的样本容量
n2──来自总体2简单随机样本的的样本容量σ1和σ2未知大样本(n1≥30且n2≥30)情形下,近似服从正态分布,即:小样本情形下,存在自由度为n1+n2-2的t分布,即:式中:s1──来自总体1的样本标准差
s2──来自总体2的样本标准差
n1──来自总体1简单随机样本的的样本容量
n2──来自总体2简单随机样本的的样本容量σ1和σ2未知,但已知σ1=σ2
有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知,第一种方法生产出的产品其抗拉强度的标准差为8kg,第二种方法的标准差为10kg。从两种方法生产的产品中各抽一个随机样本,样本的容量分别为n1=32,n2=40,测得=50kg,=44kg。问两种方法生产出来的产品平均抗拉强度是否有显著差别(α=0.05)。
一个车间研究用两种不同的工艺组装某种产品所用的时间是否相同。让一个组的10工人用第一种工艺组装该种产品,平均所需时间为26.1分钟,样本标准差为12分钟。另一组8名工人用第二种工艺组装,平均所需时间为17.6分钟,标准差为10.5分钟。已知用两种工艺组装产品所用时间服从正态分布,且σ1=σ2,试问能否认为用第二种方法组装比第一种方法要好。
某制造公司有两种方法可供员工执行某生产任务。为使产出最大化,公司试图确认哪种方法有最短完成时间。抽取样本有两个可供选择的方案1、独立样本方案:抽取工人的一个简单随机样本,其中每个工人使用方法1;抽取工人的另一个简单随机样本,其中每个工人使用方法2。均值差的检验可采用前述独立样本条件下的检验方法。2、匹配样本方案:抽取工人的一个简单随机样本,每个工人选用一种方法,后用另一种方法,两种方法的次序是随机排列的;每个工人提供一对数据,一个是方法1的,另一个是方法2的。工人方法1的完成时间(分钟)方法2的完成时间(分钟)完成时间的差值(di)1234566.05.07.06.26.06.45.45.26.55.96.05.80.6-0.20.50.30.00.6匹配样本数据
匹配样本方案中,两种生产方法是在相似的条件下被检验的(即由同一个工人执行),所以该方案往往比独立样本方案有更小的抽样误差。这主要是由于匹配样本方案中作为抽样误差来源之一的工人个体间的差异被去掉了。差值(di)的样本均值与样本标准差假设差值(di)服从正态分布,则检验统计量样本数据没有提供足够的证据拒绝H0。对α=0.05,自由度为n-1=5的t分布(t0.025=2.571),双侧检验的拒绝法则为:如果t<-2.571或t>2.571,则拒绝H0。检验的统计量的值为:二、两个总体比率之差的检验大样本情形下,p1-p2近似服从正态分布,即:p1-p2抽样分布
对两个大型企业青年工人参加技术培训的情况进行调查,调查结果如下:甲厂:调查60人,18人参加技术培训。乙厂:调查查40人,14人参加技术培训。能否根据以上调查结果认为乙厂工人参加技术培训的人数比例高于甲厂(α=0.05)。7.3.1单个总体的t检验
(One-SampleTTest)分析
单个总体的t检验分析也称为单一样本的t检验分析,也就是检验单个变量的均值是否与假定的均数之间存在差异。如将单个变量的样本均值与假定的常数相比较,通过检验得出预先的假设是否正确的结论。例1:根据2002年我国不同行业的工资水平,检验国有企业的职工平均年工资收入是否等于10000元,假设数据近似地服从正态分布。首先建立假设:H0:国有企业工资为10000元;H1:国有企业职工工资不等于10000元检验过程的操作按照下列步骤:1、单击Analyze
CompareMeans
One-SampleTTest,打开One-SampleTTest主对话框,如图所示。
2、从左边框中选中需要检验的变量(国有单位)进入检验框中。3、在TestValue框中键入原假设的均值数10000。4、单击Options按钮,得到Options对话框,选项分别是置信度(默认项是95%)和缺失值的处理方式。选择后默认值后返回主对话框。5、单击OK,得输出结果。如表所示。从上面检验结果表(1)可以得出国有单位职工工资的平均值、标准差和均值的标准误等反映数据特征的数据。从表(2)中可知检验的结果。即相应的检验统计量t值为4.121,自由度为30,假设检验的P值(sig)小于0.05,故原假设不成立,检验结论是拒绝原假设H0,接受假设H1。即认为国有企业职工的平均工资与10000元的假设差异显著。例题:为确认某市12—15岁青少年是否达到160.0厘米的标准身高,对该市同年龄段的青少年作了一次抽样调查,获样本数据如下。试以0.05的显著性水平作出统计推断。序号性别年龄身高体重序号性别年龄身高体重1
2
3
4
5
6
7
8
9
101112131415男男男男男女女女女女男男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名学生的身高与体重数据7.3.2两个总体的t检验7.2.1两个独立样本的t检验(Independent-samplesTTest)Independent-sampleTTest是检验两个没有联系的总体样本均值间是否存在显著的差异,两个没有联系的总体样本也称独立样本。例2.某医药研究所考察一种药品对男性和女性的治疗效果是否有显著差异,调查了10名男性服用者及7名女性服用者,对他们服药后的各项指标进行综合评分,服用的效果越好,分值就越高,每人所得的总分见下表,试根据表中的数据检验这种药品对男性和女性的治疗效果是否存在显著差异。解:由于药品对男性或女性的影响是无联系的,因此这两个样本是相互独立的。可以应用两独立样本的假设检验。首先,建立假设H0:该药品对男性和女性的治疗效果没有显著差异;H1:该药品对男性和女性的治疗效果有显著差异。具体操作步骤:1、单击Analyze
CompareMeans
Independent-sampleTTest,打开Independent-sampleTTest主对话框如图。2、选择要检验的变量“综合得分”进入检验框中。3、选择分组变量“性别”进入分组框中,然后单击DefineGroup按纽,打开分组对话框如图所示,确定分组值后返回主对话框,如果没有分组,可以选择Cutpoint单选项,并在激活的框内输入一个值作为分组界限值。4、由Option选择按纽确定置信度值和缺失值的处理方式。5、点击OK可得输出结果。第三列和第四列是检验两样本数据的方差是否相等,从检验结果得知两样本的方差没有显著差异。从第五列开始是对两个样本的均值的是否相等进行检验。从假设检验的P值看出,它大于显著性水平0.05,所以说男女之间的机械能力之间并无显著差异,因此接受原假设H0。而第八列之后分别是均值差、均值差标准误、均值差的置信区间。序号性别年龄身高体重序号性别年龄身高体重1
2
3
4
5
6
7
8
9
101112131415男男男男男女女女女女男男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1三十名学生的身高与体重数据试以0.10的显著性水平,对该市男女青少年的身高进行比较。7.3.3两个有联系总体间的均值比较
(Paired-SampleTTest)
Paired-SampleTTest是检验两个有联系正态总体的均值是否存在显著的差异。又称配对样本的t检验。
例3:某企业对生产线上的工人进行某种专业技术培训,要对培训效果进行检验,从参加培训的工人中抽取30人,将他们培训前后的数据每加工500个零件的不合格品数进行对比,得到数据表见表。试根据表中数据检验培训前后工人的平均操作技术水平是否有显著提高,也就是检验培训效果是否显著。解:这显然是配对样本均值的假设检验的问题。所以要建立假设:H0:培训前后工人的技术水平没有显著差异;H1:培训前后工人的技术水平有显著差异;根据中心极限定理,在大样本的情况下,样本均值近似地服从正态分布。所以可以利用正态参数的检验方法进行均值的检验。其检验过程的具体操作步骤为:1、单击Analyze
CompareMeans
Paired-SampleTTest,打开Paired-SampleTTest主对话框如图
2、选择要检验的两变量进入检验框中,注意,一定要选择两个变量进入检验框内,否则将无法得到检验结果。3、由Option选择按纽确定置信度值95%和缺失值的处理方式。4、点击OK得输出结果。5、根据输出结果作出结论如表所示。上表的检验结果知,假设检验的P值小于0.05,因此可以得出培训前后的差异是显著的,故拒绝假设H0,接受假设H1,认为培训的效果是显著的。
为分析不同促销形式对商品销售额是否产生显著影响,分别搜集了7种商品在不同促销形式下的销售额数据。试对两种促销效果作出统计推断。商品促销形式1促销形式2123456765737330735673343637264337607.4方差分析7.4.1方差分析的基本问题一、方差分析的内容1、定义:方差分析就是对多个总体均值是否相等这一假设进行检验。
某饮料企业生产一种新型饮料。饮料的颜色分为黄色、无色、粉色和绿色四种。为确定饮料的颜色是否对饮料的销售量有显著影响,从5个超市中搜集了该种饮料的样本数据如下表所示。管理者想用这些样本数据来检验假设:颜色对销售量没有显著影响。超市黄色无色粉色绿色1234527.925.128.524.226.526.528.725.129.127.231.228.330.827.929.630.829.632.431.732.8样本均值
样本方差=26.44=3.298=27.32=2.672=29.56=2.143=31.46=1.658总均值=28.695
方差分析是对多个总体均值是否相等这一假设进行检验。四种颜色饮料销售量样本数据总体1总体2总体3总体4因变量或称响应变量自变量或称因素水平1水平2水平3水平4处理1处理2处理3处理4样本1样本2样本3样本4方差分析的基本原理方差分析的假定条件1.对每个总体,响应变量服从正态分布:2.对每个总体,响应变量的方差相同:3.观察值是独立的总体1总体3总体4总体2不尽相等方差分析的基本原理于是:各个水平下的观测值可视为相应总体的随机样本。方差分析的问题就变为:检验所有数据是否可以看作来自同一总体的样本。
原假设为假时,样本均值来自不同的抽样分布。
原假设为真时,样本均值来自同一个抽样分布。不尽相等不尽相等1m方差分析的基本原理二、方差分析的原理(一)数据差异的来源1、因素的水平不同(系统性差异);2、随机因素(随机性差异)。(二)、数据差异的度量1、水平之间的方差(组间方差)——系统性因素和随机因素的共同作用。2、水平内部的方差(组内方差)——随机性因素的作用。(三)、方差分析的基本思想:如果因素对结果没有影响,那么水平间的方差就只含随机性差异而没有系统性差异,其值与水平内部方差就应该很接近,两个方差的比值就会接近于1;反之,水平间方差就同时包含系统性差异和随机性差异,两个方差的比值就会明显大于1,当这个比值大到某个程度(比如说大于某个临界值)就可以作结论:不同水平间存在显著差异。三、检验统计量1、方差分析的统计假设:;2、检验的统计量:组间均方差与组内均方差之比
是一个统计量,服从分布(Distribution)。至少两个总体的均值不等7.4.2单因素方差分析观测值因素(i)(j)A1A2…Ak1x11x21…xk12x12x22…xk2……………nx1nx2n…xkn一、单因素方差分析的步骤(一)计算水平均值和总体均值二、关系强度的测量7.4.1单因素方差分析-spss单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个(大于两个)总体样本的均值是否存在显著差异的检验方法。其目的也是对不同的总体的数据的均值之间的差异是否显著进行检验。单因素方差分析的应用条件:在不同的水平(因素变量取不同值)下,各总体应当服从方差相等的正态分布。例4,某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测试,其值如表所示。假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著差异。解:首先建立假设H0:三个地区的零件强度无显著差异;H1:三个地区的零件强度有显著差异。具体操作过程如下:1、单击Analyze
CompareMeans
One-WayANOVA,打开One-WayANOVA对话框。2、从左框中选择因变量”零件强度”进入Dependentlist框内,选择因素变量”地区”进入Factor框内。点击OK就可以得到方差分析下表。由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三个地区的零件强度有显著差异。如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按钮Option选项,contrast对照比较,PostHoc多重比较去实现。3、单击Option按纽,打开Option对话框如图所示:在Option选项中选择输出项。主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。本例中选择Homogeneityofvariancetest进行不同水平间方差齐性的检验以及Descriptive基本统计描述。在MissingValue栏中选择系统默认项。完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表。4、Contrasts按钮可以用来进一步分析随着控制变量水平的变化,观测值变化的总体趋势以及进一步比较任意指定水平间的均值差异是否显著。单击Contrasts按钮,打开One-WayANOVA:Contrasts对话框,见图。如果要对组间平方和进行趋势成分检验,选中Polynomial多项式复选项,选中后激活Degree参数框,在Degree框中选择趋势检验多项式的阶数,有最高次数可达5次。系统将给出指定阶数和低于指定阶次各阶次的自由度、F值和F检验的概率值。在Contrast栏,指定需要对照比较两个水平的均值。在Coefficients框中输入一个系数,单击Add按纽,系数就进入到Coefficients框中。重复上述,依次输入各组均值的系数。注意系数的和应当等于0。如;图就是指第一个水平与第三个水平的均值差比较。5、如果需要将水平间两两比较,可以单击PostHoc按纽,打开多重比较对话框。在该对话框中列出了二十种多重比较检验,涉及到许多的数理统计方法,在实际中只选用其中常用的方法即可。对话框下部的Significancelevel表示显著性水平,默认值是0.05,也可以根据需要重新输入其它值。如果满足在水平间方差相等的条件,常用LSD(least-significantdifference最小显著性差异法),表示用t检验完成各组均值间的配对比较。当方差不等的情况下,可以选择Tamhane
sT2,用t检验进行各组均值间的配对比较。从表可以看出,地区2与地区3之间的差异是非常显著的,它们均值差的检验的尾概率为0.005,明显小于显著性水平0.05。
四种颜色饮料销售量样本数据超市黄色无色粉色绿色1234527.925.128.524.226.526.528.725.129.127.231.228.330.827.929.630.829.632.431.732.8[数据集12]=2=3=4color=1sale定义变量单因素方差分析调用此过程可完成单因素方差分析单因素方差分析
单因素方差分析的基本过程可采纳系统的默认方式。各种
选项多重比较F统计量=10.544的P值=0.000<0.05。故拒绝原假设,接受备择假设,即不同颜色的饮料的销售量有显著差异。单因素方差分析
对四种颜色下各总体的均值进行多重比较。最小显著性差异法
由于方差分析的前提是各水平下的总体服从方差相等的正态分布,因此须对方差分析的前提进行检验。输出不同水平下的描述性统计量输出方差相等性的检验结果输出各水平下均值的折线图。计算中涉及的变量含有缺失值时暂时剔除观测剔除所有含有缺失值的观测
检验统计量=0.255相伴P值=0.856>0.05故可以认为4种水平下各总体的方差无显著差异,满足单因素方差分析中的方差相等性要求。单因素方差分析样本数据所显示的四种颜色饮料销售量的差异。单因素方差分析第8章非参数检验
前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。但是如果总体的分布未知,如何进行总体参数的检验,或者如何检验总体服从一个指定的分布,都可以归结为非参数检验方法。非参数检验包括下列内容: 本章主要内容:1、总体分布的假设检验;2、两种以上的现象之间的关联性检验(见列联分析);3、总体分布未知时,关于单个总体均值的检验;两个总体均值或分布的差异是否显著的检验,以及多个未知总体的单因素方差分析。4、某种现象的出现的随机性检验;在SPSS分析软件中,非参数检验在菜单Analyze®NonparametricTest中显示,共有8种检验方法。这8种检验方法依次是:Chi-square卡方检验Binomial二项分布检验Runs游程检验1-SampleK-S单个样本柯尔莫哥洛夫-斯米诺夫检验2Independentsample两个独立样本检验KIndependentsampleK个独立样本检验2RelatedIndependentsample两个相关样本检验KRelatedIndependentsampleK个相关样本检验8.1Chi-SquareTest卡方检验卡方检验是一种常用的检验总体分布是否服从指定的分布的一种非参数检验方法。其检验思想是:将总体的取值范围分成有限个互不相容的子集,从总体中抽取一个样本,考察样本观察值落到每个子集中的实际频数,并按假设的总体分布计算每个子集的理论频数,最后根据实际频数和理论频数的差构造卡方统计量,当原假设成立时,统计量服从卡方分布。以此来检验假设总体的分布是否成立。下面通过例题来说明具体的检验方法。例10.1掷一个骰子300次,每个面出现的次数(取变量名为Shi)见表,用数字1,2,3,4,5,6分别表示六个面的点数,试在显著性水平0.05下检验颗骰子是否是均匀的?解:如果这个骰子是均匀的,则每次试验出现六个点数的可能性是相等的。建立原假设H0:每个点出现的概率等于1/6;备择假设H1:每个点出现的概率不等于1/6。具体操作步骤:1、首先建立数据文件,注意变量Shi的变量值是300次试验的所有结果。然后单击Analyze
NonparametricTest
Chi-SquareTest,Chi-SquareTest打开对话框如图所示。2、指定检验统计量,本例中选择变量Shi进入检验框中。3、在ExpectValues栏内指定期望分布的频数值,有两个选择项。4、在ExpectRange
栏中指定检验值的范围。系统默认从数据中得到的最小值和最大值作为取值范围,也可选择自定义取值范围。本例中选择系统默认项。5、单击Option按钮,打开对话框如下图所示,对话框中有两个选择栏:Statistics栏,选择输出的统计量:有统计描述和四分位数两个选项,基本统计描述输出变量的均值、标准差、最大值和最小值,缺失值数量等。MissingValue栏,选择处理缺失值的方式。本例中选择系统默认项,将剔除参与对比的缺失值
7、单击OK,系统运行,输出结果如表所示。8.2一个样本的K-S检验Chi-SquareTest卡方检验在进行均匀分布时的检验比较方便,但在进行其它总体分布的检验时需要预先计算出理论分布期望值并输入到计算机中。这样操作起来比较麻烦,下面介绍一种K-S检验方法,可以非常方便快捷地检验常用的四种总体分布形式,使检验过程更加简单。一个样本的K-S检验又称单个样本柯尔莫哥洛夫-斯米诺夫检验,这种检验可以检验样本数据是否服从Normal正态分布、Poisson泊松分布、Uniform均匀分布及Exponential指数分布等四种分布形式。但一般要求在大样本条件下进行检验。下面通过例题介绍这种检验方法。例5.2:某棉织厂质量检验部门抽检验了50匹布,每匹布上的疵点数如下:21011205113011201100134001141252624151120110320233试检验布匹上的疵点是否服从的泊松分布。(α=0.05解:如果只检验疵点数的分布,可以用一个样本的K-S检验。即检验假设:H0:布匹上的疵点服从泊松分布,H1:布匹上的疵点不服从泊松分布。具体检验的操作过程如下:1、根据原始数据建立数据文件,在其数据编辑窗口单击Analyze
NonparametricTest
1-sampleK-S,打开对话框。2、选择检验变量“疵点”进入检验框;3、在TestDistribution栏中选择检验数据的分布假设,系统默认正态分布,根据本例中的要求,选择泊松分布。4、在Options对话框中选择输出结果形式及缺失值处理方式。5、单击OK。从上面的检验结果可以看出,样本平均值为1.68,由样本计算的统计量为0.569,假设检验的P值为0.902,远远大于0.05,所以可以认定疵点数服从泊松分布,故接受假设H0。如果将要检验布匹上的疵点是否服从λ=1.5.的泊松分布。则要通过Chi-square检验。即检验假设H0:布匹上的疵点服从λ=1.5.泊松分布,H1:布匹上的疵点不服从λ=1.5.泊松分布。设λ=1.5,通过泊松分布的分布计算出X取每一值概率并得出理论频数如表。具体检验步骤如下:1、打开数据文件,在数据编辑窗口单击Analyze
NonparametricTest
Chi-SquareTest,打开Chi-SquareTest对话框。2、指定检验统计量本例中选择变量疵点进入检验框中。3、在ExpectValues栏内指定理论值,选择Values,依次输入各组由给定分布所计算的理论值,每输入一个值,点击Add,直到输入全部理论值为止。4、单击OK,系统运行。
从上面的结果可以看出,由样本计算的统计量值为12.671,P值小于0.05,故接受H1,认为每匹布的疵点数不是服从λ=1.5的泊松分布。但是,注意,在这次检验中频数小于5的值太多,按照卡方检验法的条件,应当适当合并小于5的组,将疵点数大于等于4的观察值合并成一组,再进行检验,在合并时注意定义一个新的变量,给变量值重新编码,主要将变量值大于等于4(有4,5,6三个值)的值赋予同一个码值,即相当于一个组,与之相应的观测频数和理论频数合并相加后,再进行卡方检验,就可以得到最终结果。8.3两个独立样本的检验(TestforTwoIndependentSample)
如果两个无联系总体的分布是未知的,则检验两个总体的均值或分布是否有显著差异的方法是一种非参数检验方法,或者称为两个独立样本的检验。检验是通过两个总体中分别抽取的随机样本数据进行的。下面通过例题解释具体操作过程。例3:为了调查甲、乙两地的土壤对种植的同一种西瓜有无影响,从这两个产地分别随机抽取同种的8只和7只西瓜,重量(市斤)如下:试根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异。解:建立假设H0:甲乙两地的西瓜重量没有显著差异;H1:甲乙两地的西瓜重量有没有显著差异。然后根据上面给出的数据建立数据文件,注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具体操作过程如下:1、单击Analyze
NonparametricTest
2IndependentSample,打开Two-Independent-Sample对话框如图所示。2、选择检验的变量进入检验框中,选择分组变量进入GroupingVariable框中,单击DefineGroup键,打开DefineGroup对话框。3、在TestType栏中,确定检验方法。SPSS中提供了四种检验方式:这四种方式分别是:Mann-WhitneyU曼—惠特尼检验,同时适用于小样本和大样本的情况。Kolmogorov-SmirnovZK-S检验,适用于大样本的情况。MasesExtremeReactions极端反应检验,适用于小样本的情况。
Wald-Wolfowitzruns游程检验,适用于大样本的情况。这四种检验方法的侧重点有所不同,但都是先将两样本数据混合排序,再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样,所以要结合数据的探索分析考察数据的分布状况作出结论。常用的检验方法是Mann-WhitneyU方法,该方法同时适用于大样本和小样本的情况。本例中就选择Mann-Whitney和Kolmogorov-Smirnov方法。4、选择输出的结果形式及缺失值处理方式;5、单击OK,得输出结果。
上表中显示的是Mann-WhitneyU曼—惠特尼检验的秩和表,右表中有适用于大小两种样本的统计量,由于例题是小样本的情况,所以选择小样本U统计量和精确概率的计算结果,从检验结果知两个地区的西瓜重量上无显著差异。上表显示的是频数表,下表中显示检验结果,从表中看到检验统计量值Z为0.414,P值接近1,故两地种植的西瓜的重量没有显著差异。因此,上面的两种检验的结论是一致的。即两地种植的同一种西瓜地的重量没有显著差异。
8.4两个有联系样本检验
(TestforTworelatedsamples)两个有联系的样本检验一般用于比较一个现象在采取了某项措施前后的变化是否显著,或者说采取的措施是否有效。也可以检验同一个测试对象上的两种测试方法是否一致。取n个测试对象作为样本,则样本数据是成对出现的。也可以检验这样两个样本是否服从相同的分布等。这种检验在实际中应用范围很广,如对于一种药品效果比较检验,农业上对于一种新的粮食品种与原有品种的比较检验,工业中新工艺方法、新材料与原方法和材料的比较检验等等。下面通过一个例题说明两个有联系样本的检验方法。例5.4:一车间为了提高工作效率,对某种零件的加工过程进行改进,为了比较加工时间是否明显减少,抽取15名工人对比他们改革前后零件的加工时间,得到相应的数据如下:试根据数据检验改进后零件的加工时间是否明显减少(α=0.05)?改进前(m):70,76,56,63,63,56,58,60,65,65,75,66,56,59,70改进后(m):48,54,60,64,48,55,54,45,51,48,56,48,64,50,54解:根据上面的数据建立数据文件SY-15,这显然是两个有联系的样本,故采用两个有联系的样本检验方法。具体操作如下:建立假设H0:改进前后的零件加工时间没有显著差异;H1:改进前后的零件加工时间明显减少。1、单击Analyze
NonparametricTest
2RelatedSample,打开TwoRelatedSample对话框如图所示。3、在TestType栏中选择检验方式。SPSS中给出了三种检验方法,分别是:Wilcoxon:威尔克科森秩和检验,只给出大样本近似检验概率。Sign:符号检验,给出精确检验概率。McNemar:适用于二值变量的检验本例中选择Wilcoxon和Sign检验。2、选择检验的两个变量进入检验框中。
4、在Options框内选择输出结果形式和缺失值处理方式。5、单击OK,输出结果如表。SignTest符号检验
WilcoxonSignedRanksTest威尔克科森秩和检验
威尔克科森秩和检验,检验统计量Z的值为-2.870,假设检验的P值为0.004,小于0.05;而符号检验的频数表和检验表,同样,假设检验的P值为0.035,也小于0.05,故拒绝原假设,认为改进前后的差异是显著的。8.5多个样本的非参数检验
(KSamplesTest)
一、多个独立样本的单因素方差分析(TestforSaveralIndependentSamples)在总体分布未知的情况下,多个独立样本的检验是检验多个独立总体的平均值是否存在显著的差异。由于总体分布未知,所以检验过程是建立秩的基础上。下面通过例题来说明具体的检验方法。例5.6仍以2002年全国职工平均工资表为例,如果定义一个分组变量,将我国东部、中部和西部各省标上1,2,3作为分组值,下面来考察东部、中部和西部的职工平均工资是否存在显著差异(α=0.05)?解:建立假设H0:各地区的职工平均工资没有显著差异;H1:各地区的职工平均工资有显著差异;可以从分组中得到三个独立的样本数据,显然可以用多个独立样本的检验。具体操作步骤如下:1.打开数据,在数据窗口单击Analyze
NonparametricTest
KIndependentSample,打开K-Independent-Sample对话框如图所示。2.选择检验的变量进入检验框中。本例中选择国有单位,城镇集体和港澳台商进入TestVariableList框内。3.在TestType栏中选择检验方式。SPSS软件给出两种检验方式,Kruskal-WallisH检验,利用秩平均建立检验统计量,检验多个独立总体的分布是否存在显著差异。Median中位数检验,利用卡方统计量检验多组样本的中位数差异是否显著。本例中选择Kruskal-Wallis统计量。4.在Options对话框内选择输出结果形式和缺失值处理方式。5.单击OK,输出结果如表。Ranks秩和表中给出每个变量各组的秩平均。TestStatistics(a,b)检验统计表中给出检验结果,其结果显示:卡方统计量结果显示:国有企业、城镇集体及港澳台商企业这三个变量的职工平均工资在中国的东部、中部和西部地区的的差异都是显著的。
Ranks秩和表
TestStatistics(a,b)检验统计表
二、多个有联系样本的方差分析
(KRelatedSamplesTest)多个有联系样本的方差分析,又称多个配对样本的检验,是在总体分布未知的情况下,用于比较多个有联系的总体分布的差异性。可以归纳为:多个有联系的总体是否存在显著差异;多个评判结果是否存在显著差异(一致性检验);由于总体分布未知,所以检验都是建立秩和的基础上。下面通过例题来说明具体的检验方法。例7对于五个企业生产的同一类型产品,由四个使用单位分别对这些企业生产的产品进行评价,以打分的形式表示评价结果,满分是10分,得出评价结果如表所示。试检验使用单位的判断标准是否一致(α=0.05)。解:建立假设H0:使用单位的判断标准没有显著差异;H1:使用单位的判断标准有显著差异。根据评分表建立数据文件,多个有联系样本检验的具体操作步骤如下
1.打开数据,在数据窗口单击Analyze
NonparametricTest
KRelatedSamples,打开K-Related-Samples对话框如图所示。2.选择检验的变量进入检验框中。本例中选择企业的产品A、B、C、D、E进入TestVariableList框内。3.在TestType栏中选择检验方式。SPSS软件给出三种检验方式:Friendman检验,适用于等间距变量数据,利用秩平均建立Friendman检验统计量,检验多个有联系的总体的分布是否存在显著差异。原假设是无显著差异。Kendall′sW一致性检验,适用于分析评判者的判别标准是否一致。通过Kendall一致性系数W值越接近1,说明评判者的评价标准一致性越好。Cochran′sQ检验,适用于二值变量数据,原假设是无显著差异。4.在Statistics对话框内选择输出结果形式和缺失值处理方式。5.单击OK,输出
Kendall'sWTest检验表如表。Ranks秩TestStatistics检验统计表
Ranks秩表示每个企业产品的秩平均值,TestStatistics检验统计表输出统计检验的结果可以看出,Kendall一致性系数W比较小,即四个使用单位的评价结果明显是不一致的。解:根据题意建立数据文件.检验假设:
H0:四种品牌之间的差异不显著
H1:四种品牌之间的差异显著检验步骤如下:例8某企业为了比较该企业的产品在顾客中的满意程度,同时调查了包括自己企业在内的四种畅销品牌的顾客满意程度,得到数据如表所示:试根据上面调查结果分析,四种品牌之间的差异是否显著(α=0.05)?1.打开数据,在数据窗口单击Analyze
NonparametricTest
KRelatedSamples,打开K-Related-Samples对话框如图所示。2.选择检验的变量进入检验框中。本例中选择所有变量进入TestVariableList框内。3.在TestType栏中选择检验方式。本例中的数据是二值变量,故选择Cochran′sQ检验。4.在Statistics对话框内选择输出结果形式和缺失值处理方式。本例中取默认项。5.单击OK,输出
Cochran′sQ检验表如表。Frequencies频数表TestStatistics检验表
从检验表中看出,Cochran′sQ统计量值为29.809,假设检验的P值远远地小于0.05,故拒绝H0,认为该企业的产品与其它品牌的差异是显著的。如果需要,企业还可以与其它品牌进行两两比较分析,读者可以自行做出两个有联系的样本检验。8.6游程检验(RunsTest)游程检验可以检验下面两种情况:单样本变量的取值是否是随机的。两独立总体的分布是否存在显著差异。例5:为了鉴别两种操作方法对劳动效率的影响,随机抽取12人用第一种操作方法。10人用第二种操作方法,每人的日产量见表,试问这两种操作方法有无显著差异?解:如果两种操作方法差异不显著,则有这两组工人的日产量排列是随机的,故根据表中数据建立数据文件,将两组工人的日产量数据进行统一排序,观察排序后工人所在组的标志值的排列是否是随机的。建立原假设H0:两种操作方法没有显著差异;备择假设H1:两种操作方法的差异是显著的。1、单击Analyze
NonparametricTest
Runs,打开RunsTest对话框如图所示。2、选择检验的变量:将变量“组别”进入检验框中。3、在Cutpoint栏中选择划分二类的检验分类点,系统默认中位数。本例中选择1.5作为检验分类点。4、在在Options框内选择输出结果形式和缺失值处理方式。5、单击OK,输出结果见表。由表给出的检验结果知,按照产量排序后,组别标志值的游程为2,由样本计算的检验统计量Z为-4.417,P值为0.017,小于0.05,拒绝原假设H0,即认为两种操作方法的差异显著。第十六章卡方检验
--两个定性变量之间的关系@文彤老师统计学回顾χ2检验是用途很广的一种假设检验方法,主要用于分类资料统计推断,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等它最基本的无效假设是:H0:观察频数与期望频数没有差别其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值。2025年3月19日@文彤老师126Crosstabs过程分析实例在CCSS的分析报告中,所有受访家庭会按照家庭年收入被分为低收入家庭和中高收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同。2025年3月19日@文彤老师127方法原理理论频数基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来2025年3月19日@文彤老师128方法原理残差设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度2025年3月19日@文彤老师129方法原理另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:2025年3月19日@文彤老师130方法原理从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和自由度有关2025年3月19日@文彤老师131方法原理卡方分布显然,卡方值的大小不仅与A、E之差有关,还与单元格数(自由度)有关2025年3月19日@文彤老师132结果解释列出的检验结果2025年3月19日@文彤老师133四格表
2值的校正英国统计学家Yates认为,
2分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的
2值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)若n>40,此时有1<T
5时,需计算Yates连续性校正
2值T<1,或n<40时,应改用Fisher确切概率法直接计算概率2025年3月19日@文彤老师134Crosstabs过程如何阅读卡方检验结果教科书的看法当n≥40且所有T≥5时,用普通的卡方检验,若所得P约等于Alpha,改用确切概率法;当n≥40但有1≤T<5时,用校正的卡方检验;当n<40或有T<1时,不能用卡方检验,改用确切概率法。实际的做法一律向下看齐2025年3月19日@文彤老师135配对卡方检验分析实例某公司期望扩展业务,增开几家分店,但对开店地址不太确定。于是选了20个地址,请两位资深顾问分别对20个地址作了一个评价,把它们评为好、中、差三个等级,以便确定应对哪些地址进行更进一步调查,那么这两位资深顾问的评价结果是否一致?2025年3月19日@文彤老师136配对卡方检验方法原理显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计按照配对设计的思路进行分析,则首先应当求出各对的差值,然后考察样本中差值的分布是否按照H0假设的情况对称分布按此分析思路,最终可整理出如前所列的配对交叉表2025年3月19日@文彤老师137方法原理注意主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献非主对角线上的单元格才代表了检验方法间的差异假设检验步骤如下(以四格表为例):H0:B=CH1:B
C2025年3月19日@文彤老师138方法原理2025年3月19日@文彤老师139分层卡方检验进一步控制城市的影响,在控制城市影响的前提下得到更准确的家庭收入分级和轿车拥有情况的关联程度测量指标。层间差异的检验条件独立性的检验2025年3月19日@文彤老师140第17章相关分析与回归模型的建立与分析
相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。本章主要内容:对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(CurveEstimation)。数据条件:参与分析的变量数据是数值型变量或有序变量。9.1相关分析在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图所示。8.1.1简单相关分析两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。8.1.1.1散点图SPSS软件的绘图命令集中在Graphs菜单。下面通过例题来介绍具体操作方法。例1:数据库中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。单击Graphs
Scatter,打开Scatterplot散点图对话框,如图3.2所示。然后选择需要的散点图,图中的四个选项依次是:Simple简单散点图
Matrix矩阵散点图Overlay重叠散点图
3-D三维散点图
如果只考虑两个变量,可选择简单的散点图Simple,然后点击Define,打开SimpleScatterplot对话框,如图所示。9.1.1.2简单相关分析操作简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出定量分析。仍然上题为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:1、打开数据库后,单击Analyze
Correlate
Bivariate打开Bivariate对话框,见图所示。
2、从左边的变量框中选择需要考察的两个变量进入Variables框内,从CorrelationCoefficients栏内选择相关系数的种类,有Pearson相关系数,Kendall′s一致性系数和Spearman等级相关系数。从检验栏内选择检验方式,有双尾检验和单尾检验两种。3、单击Options按纽,选择输出项和缺失值的处理方式。本例中选择输出基本统计描述。4、单击OK,可以得到相关分析的结果。9.1.2偏相关分析简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。例2:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。试求火柴销售量与煤气户数的偏相关系数.解:根据数据表建立数据文件,求解火柴销售量与煤气户数的偏相关系数具体操作如下:1、首先打开数据文件,单击Analyze
Correlate
Partial,打开PartialCorrelations对话框,见图所示。2、从左边框内选择要考察的两个变量进入Variables框内,其它客观存在的变量作为控制变量进入Controllingfor框内,如本例中考察煤气户数与火柴销量的偏相关系数进入Variables框内,其它相关变量(除年份外)进入Controllingfor框内。3、单击Options按纽,打开Options对话框如图所示。从Statistics栏中选择输出项,有平均值及标准差,Zero-ordercorrelations表示在输出偏相关系数的同时输出变量间的简单相关系数。另外还有缺失值的处理方式。本例中选择简单相关系数。4、选择结束后,单击OK得输出结果
表中的上半部分是简单相关系数,下半部分是偏相关系数。从表中可以看出,火柴销量与煤气户数的简单相关系数为0.8260,自由度为13,检验的P值为0.000;而偏相关系数为0.6046,自由度为10,检验的P值为0.037,表示煤气户数对火柴销量的真实影响是显著的。9.2线性回归分析线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍SPSS软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。9.2.1线性回归模型假设条件与模型的各种检验1、线性回归的假设理论(1)正态性假设:即所研究的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;(3)独立性假设,即各变量之间是相互独立的;(4)残差项无自相关性,即误差项之间互不相关,Cov(
i,
j)=02、线性回归模型的检验项目(1)回归系数的检验(t检验)。(2)回归方程的检验(F检验)。(3)拟合程度判定(可决系数R2)。(4)D.W检验(残差项是否自相关)。(5)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。9.2.2线性回归分析的具体步骤
SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear。例3.仍然用例2的数据,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。解:建立线性回归模型的具体操作步骤如下:1、打开数据文件,单击Analyze
Regression
Linear打开Linear对话框如图所示。2、从左边框中选择因变量Y进入Dependent框内,选择一个或多个自变量进入Independent框内。从Method框内下拉式菜单中选择回归分析方法,有强行进入法(Enter),消去法(Remove),向前选择法(Forward),向后剔除法(Backward)及逐步回归法(Stepwise)五种。本例中选择逐步回归法(Stepwise)。3、单击Statistics,打开LinearRegression:Statistics对话框,可以选择输出的统计量如图所示。RegressionCoefficients栏,回归系数选项栏。Estimates(系统默认):
输出回归系数的相关统计量:包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。本例中只选择此项。Confidenceintervals:输出每一个非标准化回归系数95%的置信区间。Covariancematrix:
输出协方差矩阵。与模型拟合及拟合效果有关的选择项。Modelfit是默认项。能够输出复相关系数R、R2及R2修正值,估
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年茶艺师兴趣小组活动试题及答案
- 2025妇幼保健员考试挑战应对试题及答案
- 妇幼保健员考试常见准备材料试题及答案
- 掌握妇幼保健员考试试题及答案技巧
- 2025年度货车买卖及车辆安全性能提升合同
- 二零二五年度城市应急车辆雇佣司机合同
- 2025年度车位使用权附赠房东房屋租赁合同
- 2025年度酒店退房押金退还协议
- 二零二五年度广告传媒行业营销人员派遣协议
- 二零二五年度情感忠诚保障合同
- 运用精益管理(TPS)缩短医院门诊患者就诊时间医院品质管理成果汇报
- 《铁路轨道维护》课件-混凝土枕硫磺改锚作业
- 2024年资助政策主题班会课件
- 电子教案-《3D打印技术概论》
- 学校门卫室改造合同范例
- 2024年高考真题-地理(河北卷) 含答案
- DB11∕T 2077-2023 城市副中心 新型电力系统10kV及以下配电网设施配置技术规范
- 石油钻井平台受限空间作业规范
- 屋顶分布式光伏电站专项施工方案
- 不合格产品处置管理制度
- 2024年中考语文考点专题复习标点符号含解析
评论
0/150
提交评论