统计学期末复习题要点_第1页
统计学期末复习题要点_第2页
统计学期末复习题要点_第3页
统计学期末复习题要点_第4页
统计学期末复习题要点_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学期末复习题要点统计学期末复习题要点PAGE27/27PAGE27统计学期末复习题要点PAGE__________________________________________统计学___________________________________________

统计学

解答题局部

1、一组数据的散布特点可以从哪几个方面进行描述?答:数据散布的特点可以从三个方面进行测度和描述:〔1〕散布的集中趋势,反响各数据向其中心值靠拢或齐聚的程度;〔2〕散布的离散程度,反响各数据远离其中心值的趋势;〔3〕散布的形状,反响数据散布的偏态和峰态。2、影响样本量大小的因素有哪些?简述这些因素与样本量的关系。答:(1)研究对象的变化程度;(2)所要求或允许的误差大小〔即精度要求〕;(3)要求推断的置信程度。关系:当所研究的现象越复杂,差别越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。3、简述统计数据的种类和特点。答:一、种类:1〕按计量尺度:分类数据、序次数据和数值型数据;2〕按收集方法:察看数据和实验数据;3〕按被描述的现象与时间的关系:截面数据和时间序列数据。二、特点:1〕按计量尺度分时:分类数据中各种类之间是同样的并列关系,各种类之间的序次是可以任意改变的;序次数据的种类之间是可以比较序次的;数值型数据其结果表现为详尽的数值。2〕按收集方法分时:察看数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。3〕按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。4、在假设查验中,当不拒绝原假准时,为什么不采取“接受原假设〞的表示方式?答:〔1〕从假设查验的原理看,不拒绝原假设意味着我们所组成的与原假设相矛盾的小概率事件没有发生,但可能还有好多其他的与原假设矛盾的小概率事件,我们没有也无法证实所有的这些小概率事件不会发生。〔2〕在假设查验中平时先确定显著性水平,这就等于控制了第I类错误的概率,但是犯第Ⅱ类错误的概率却是不确定的。〔3〕综上,我们把假设查验中出现接受H0的结果解释为“没有发现充分的凭据反对H0〞,也许更严格的解释为“在显著性水平α下没有发现充分的凭据反对H0〞,而不用“接受原假设H0〞的表示方式,因为我们无法证明原假设是真的。

5、什么是判断系数?它在回归解析中的主要作用是什么?

答:①判断系数是回归平方和占总平方和的比率,记为R2,其计算公式为:

R2=SSR/SST。

②在回归解析中,R2主若是用于测度回归直线对察看数据的拟合程度。取值范围为[0,1]。

R2越凑近于1,回归直线的拟合程度就越好;R2越凑近于0,回归直线的拟合程度就越差。

假设所有的察看点都落在直线上,R2=1,拟合是完全的;如果R2=0,那么回归直线对数据

完全没有拟合。

①__________________________________________统计学___________________________________________

6、解释95%的置信区间。

答:如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不

包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。

7、说明区间估计的根本源理?

答:区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间平时是

由样本统计量加减估计误差获得的。与点估计不同,进行区间估计时,根据样本统计量

的抽样散布,可以对统计量与总体参数的凑近程度给出一个概率胸襟。

8、测度两个分类变量相关性的统计量有哪些?他们有什么不同?

答:测度两个分类变量相关性的统计量有以下几个:Φ相关系数、列联相关系数〔c系

数〕相关系数、v〔1〕Φ相关系数:描述2×2列联表数据相关程度最常用的一种相

关系数且Φ系数没有上限。〔2〕列联相关系数〔c系数〕:主要用于大于2×2列联表

的情况且c系数小于1.〔3〕v相关系数:取值在0-1之间,当两个变量相互独马上,

v=0;当两个变量完全相关时,v=1.假设列联表中有一维为2,v相关系数=Φ相关系数。

9、什么是方差解析?它研究的是什么?

答:〔1〕方差解析:就是经过查验各总体的均值是否相等来判断分种类自变量对数值型因变量是否有显著影响。〔2〕本质上来说它所研究的是分种类自变量对数值型因变量的影响。

10、方差解析中有哪些根本假设?

答:方差解析有三个根本假设:〔1〕每个总体都应听从正态散布。也就是说,关于因素的每一个水平,其察看值是来自正态散布总体的简单随机样本。2〔2〕各个总体的方差σ必须相同。也就是说,各组察看数据是从拥有相同方差的正态总体中抽取的。〔3〕察看值是独立的。也就是说,每个样本数据是来自因子各水平的独立样本。11、相关解析主要解决哪些问题?答:相关解析就是对两个变量之间线性关系的描述与变量,它要解决的问题包括:1.变量之间是否存在关系?2.如果存在关系,它们之间是什么样的关系?3.变量之间的关系强度怎样?4.样本所反响的变量之间的关系能否代表总体变量之间的关系?为解决这些问题,在进行相关解析时,对总体主要有以下两个假设:1.两个变量之间是线性关系。2.两个变量都是随机变量。12、在回归解析中,F查验和t查验各有什么作用?答:一元线性回归中,自变量只有一个,t查验和F查验是等价的。被t查验拒绝,它也被F查验拒绝。在多元回归解析中,F查验只是用来查验总体回归关系的显著性,而t查验那么是用来查验各个回归系数的显著性。13、解释回归模型和估计的回归方程的含义答(1)回归模型:描述因变量y怎样依赖于自变量x和误差项的方程。只涉及一个自变量的一元线性回归模型可表示为:y=β0+β1x+ε(2)估计的回归方程:回归模型中的参数β0和β1是未知数,必须利用样本数据去估计他们。用样本统计量^β0和^β1代替回归方程中的未知数β0和β1,就获得了估计的回归方程。它是根据样本数据求出的回归方程的估计。关于一元线性回归,估计的回归方程形式是:^y=^β0+^β1x14、解释多重判断系数和调整的多重判断系数的含义和作用?答:多重判断系数:是多元回归中的回归平方和占总平方和的比率,它是胸襟多元回归方程拟合程度的一个统计量,反响了在因变量y的变差中被估计的回归方程所解释的比率。调整的多重判断系数:用样本容量n和自变量的个数k去调整R获得作用:防备增加自变量而高估R22

②__________________________________________统计学___________________________________________

15、解释多重共线性的含义。

答:当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。

16、多重共线性的鉴识方法主要有哪些?

答:〔1〕模型中各对自变量之间显著相关。〔2〕当模型的线性关系查验〔F查验〕显

著时,几乎所有回归系数βi的t查验却不显著。〔3〕回归系数的正负号与预期的相反。

〔4〕容忍度与方差扩大因子〔VIF〕。容忍度越小,多重共线性越严重,当小于0.1时,

存在严重多重共线性。VIF越大,多重共线性越严重,一般认为VIF大于10时,存在严

重多重共线性。

17、时间序列由哪几个要素组成?

答:时间序列由4要素组成,即趋势〔T〕、季节性或季节变动〔S〕、周期性或循

环转动〔C〕、随机性或不规那么波动〔I〕。①趋势是时间序列在长时期内体现出来的某

种持续向上或持续下降的变动,也称长久趋势。②季节性也称季节变动,它是时间序列在

一年内重复出现的周期性波动。③周期性也称循环波动,它是时间序列中体现出来的围绕

长久趋势的一种波浪形或振荡变动。④时间序列除掉趋势、周期性和季节性之后的偶然性

波动,称为随机性,也称不规那么波动。

18、解释时间序列的预测程序。

答:在对时间序列进行预测时,平时包括以下几步骤:第一步:确准时间序列所包含

的成分,也就是确准时间序列的种类。第二步:找出适合此类时间序列的预测方法。第三

步:对可能的预测方法进行评估,以确定最正确预测方案。第四步:利用最正确预测方案进行

预测。

计算题局部

第四章统计数据的概括性描述

4.1一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:

24710101012121415

要求:

1〕计算汽车销售量的众数、中位数和平均数。

根据定义公式计算四分位数。

计算销售量的标准差。

说明汽车销售量散布的特点。

解:〔1〕众数:M010。中位数:中位数地址n11015.5,Me101010。222nxi24141596平均数:xi19.6。n1010〔2〕QL地址n102.5,QL475.5。442QU地址3n3107.5,Q121212。44U2

③__________________________________________统计学___________________________________________

nx)2(xi(49.6)2(149.6)2(159.6)2〔3〕si1(29.6)2n1101156.44.29〔4〕由于平均数小于中位数和众数,所以汽车销售量为左偏散布。

4.2随机抽取25个网络用户,获得他们的年龄数据如下:单位:周岁19152925242321382218302019191623272234244120311723要求;

(1)计算众数、中位数:

(2)根据定义公式计算四分位数。

(3)计算平均数和标准差;

(4)计算偏态系数和峰态系数:

〔5〕对网民年龄的散布特点进行综合解析。

解:〔1〕从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即M019和M023。将原始数据排序后,计算的中位数的地址为:中位数地址n1251,第13个地址2132上的数值为23,所以中位数Me23。〔2〕QL地址n256.25,QL190.25(1919)19。4432518.75,QU250.75〔27-25〕26.5。QU地址4nxi19151723600〔3〕平均数xi124。n2525nx)2(xi(1924)2(1524)2(1724)2(2324)2si1n1251〔4〕偏态10626.65251

④__________________________________________统计学___________________________________________

25xi2431.08。系数:SK2)6.653(251)(2525(251)(xi24)43(xi24)22(251)峰态系数:K(251)(252)(253)6.6540.77。5〕解析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准

差较大,说明网民年龄之间有较大差别。从偏态系数来看,年龄散布为右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正当,所以为尖峰散布。

4.3某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一

种是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处排队3排等待。

为比较哪一种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得

到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队

方式的等待时间(单位:分钟)如下:

5.56.66.76.87.17.37.47.87.8

要求:

(1)画出第二种排队方式等待时间的茎叶图。

(2)计算第二种排队时间的平均数和标准差。

(3)比较两种排队方式等待时间的离散程度。

(4)如果让你选择一种排队方式,你会选择哪—种?试说明原因。

解:〔1〕茎叶图如下:茎叶数据个数551667837134885

〔2〕x5.56.67.87.8637。99(5.57)2(6.67)2(7.87)2(7.87)24.08s910.714。8

〔3〕由于两种排队方式的平均数不同,所以用离散系数进行比较。

第一种排队方式:v11.970.7140.274;v20.102。由于v1v2,说明第一种排7.27队方式的离散程度大于第二种排队方式。

4〕选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。

⑤__________________________________________统计学___________________________________________

4.4某百货企业6月份各天的销售额数据如下:单位:万元257276297252238310240236265278271292261281301274267280291258272284268303273263322249269295要求:(1)计算该百货企业日销售额的平均数和中位数。(2)按定义公式计算四分位数。(3)计算日销售额的标准差。nxi8223解:〔1〕xi1n274.1。30301272273272.5。中位数地址15.5,Me22〔2〕QL地址307.5258261259.5。4,QL233022.5284291287.5。QU地址4,QU2nx)2(xi13002.7〔3〕si121.17。n13014.5甲乙两个企业生产三种产品的单位本钱和总本钱资料如下:产品单位本钱总本钱(元)名称(元)甲企业乙企业A1521003255B2030001500C3015001500要求:比较两个企业的总平均本钱,哪个高,并解析其原因。总本钱210030001500660019.41。解:〔1〕甲企业的平均本钱总产量210030001500340152030总本钱325515001500625518.29.乙企业的平均本钱总产量325515001500342152030原因:只管两个企业的单位本钱相同,但单位本钱较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均本钱。

⑥__________________________________________统计学___________________________________________

4.6在某地区抽取120家企业,按收益额进行分组,结果如下:按收益额分组(万元)企业数(个)200~30019300~40030400~50042500~60018600以上11合计120要求:(1)计算120家企业收益额的平均数和标准差。

(2)计算散布的偏态系数和峰态系数。

解:〔1〕平均数计算过程见下表:组中值企业数按收益额分组MifiMifi200~300250194750300~4003503010500400~5004504218900500~600550189900600以上650117150合计—12051200kMifi51200xi1426.67。n120标准差计算过程见下表:按收益额分组组中值Mi企业数fi(Mix)2(Mix)2fi200~3002501931212.3593033.5300~400350305878.3176348.7400~50045042544.322860.1500~6005501815210.3273785.2600以上6501149876.3548639.2合计—120102721.51614666.7kx)2(Mifi1614666.7si1n1116.48。1201

〔2〕偏态系数和峰态系数的计算过程见下表:

⑦__________________________________________统计学___________________________________________

按收益额分组组中值Mi企业数fi(Mix)3fi(Mix)4fi200~30025019-104771226.518509932589.2300~40035030-13520652.31036628411.8400~50045042533326.912442517.1500~6005501833765928.74164351991.6600以上65011122527587.627364086138.8合计—12038534964.451087441648.4kx)3fi(Mi38534964.4偏态系数:SKi10.203。ns3120216.483kx)4fi(Mi51087441648.4峰态系数:Ki1330.688。ns4120216.484

4.7为研究少年儿童的成长发育状况,某研究所的一位检查人员在某城市抽取100名7~

17岁的少年儿童作为样本,另一位检查人员那么抽取了1000名7~17岁的少年儿童作为样本。

请答复下面的问题,并解释其原因。

(1)两位检查人员所获得的样本的平均身高是否相同?如果不同,哪组样本的平均身高较

大?

(2)两位检查人员所获得的样本的标准差是否相同?如果不同,哪组样本的标准差较大?

(3)两位检查人员获得这l100名少年儿童身高的最高者或最低者的时机是否相同?如果

不同,哪位检查研究人员的时机较大?

解:〔1〕两位检查人员所获得的平均身高应该差不多相同,因为均值的大小根本上不受样本大小的影响。

2〕两位检查人员所获得的身高的标准差应该差不多相同,因为标准差的大小根本上不受样本大小的影响。

3〕拥有较大样本的检查人员有更大的时机取到最高或最低者,因为样本越大,变化的范围便可能越大。

4.8一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请答复下面的问题:

(1)是男生的体重差别大仍是女生的体重差别大?为什么?

解:女生,因为标准差同样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。

(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。

解:都是各乘以2.21,男生的平均体重为60kg×2.21=132.6磅,标准差为5kg×

2.21=11.05磅;女生的平均体重为50kg×2.21=110.5磅,标准差为5kg×2.21=11.05磅。

(3)大概地估计一下,男生中有百分之几的人体重在55kg一65kg之间?

⑧__________________________________________统计学___________________________________________

解:计算标准分数:

xx5560xx6560Z1===-1;Z2===1,根据经验规那么,男生大体有68%s5s5的人体重在55kg一65kg之间。

(4)大概地估计一下,女生中有百分之几的人体重在40kg~60kg之间?

解:计算标准分数:

xx4050xx6050Z1===-2;Z2===2,根据经验规那么,女生大体有95%s5s5的人体重在40kg一60kg之间。

4.9一家企业在招收职员时,首先要经过两项能力测试。在A项测试中,其平均分数是

100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一

位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该

应试者哪一项测试更为理想?

解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。

xx115100xx425400ZA===1;ZB===0.5s15s50因此,A项测试结果理想。

4.10一条产品生产线平均每天的产量为3700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制〞。下面是一周各天的产量,该生产线哪几天失去了控制?时间周一周二周三周四周五周六周日产量(件)3850367036903720361035903700解:经过标准分数来判断,各天的标准分数如下表:日期周一周二周三周四周五周六周日标准分数Z3-0.6-0.20.4-1.8-2.20周一和周六两天失去了控制。

4.11对10名成年人和10名幼儿的身高进行抽样检查,结果如下:

成年组166169l72177180170172174168173幼儿组686968707l7372737475要求:解:〔1〕如果比较成年组和幼儿组的身高差别,你会采用什么样的统计量?为什么?

答:应该采用离散系数,因为它除掉了不同组数据水平上下的影响。

〔2〕比较解析哪一组的身高差别大?

答:成年组身高的离散系数:vs4.20.024;172.12.50.035;幼儿组身高的离散系数:vs71.3由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

4.12一种产品需要人工组装,现有三种可供选择的组装方法。为查验哪一种方法更好,随

⑨__________________________________________统计学___________________________________________

机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量:单位:个方法A方法B方法C164129125167130126168129126165130127170131126165]30128164129127168127126164128127162128127163127125166128126167128116166125126165132125

要求:

(1)你准备采用什么方法来评论组装方法的优劣?

(2)如果让你选择一种方法,你会作出怎样的选择?试说明原因。

解:〔1〕应该从平均数和标准差两个方面进行评论。在对各种方法的离散程度进行比较时,应该采用离散系数。

〔2〕下表给出了用Excel计算一些主要描述统计量。方法A方法B方法C平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126标准差2.13标准差1.75标准差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:vA2.130.013,165.61.752.770.014,vC0.022。方法A的离散程度最小。因此应选择方法vB125.53128.73A。

4.13在金融证券领域,一项投资的预期收益率的变化平时用该项投资的风险来权衡。预

⑩__________________________________________统计学___________________________________________

期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下

面的两个直方图,分别反响了200种商业类股票和200种高科技类股票的收益率散布。

在股票市场上,高收益率往往陪同着高风险。但投资于哪一种股票,往往与投资者的类

型有一定关系。

(1)你认为该用什么样的统计量来反响投资的风险?

用方差或标准差来评论投资的风险。

(2)如果选择风险小的股票进行投资,应入选择商业类股票仍是高科技类股票?

选择离散系数小的股票,那么选择商业股票。

(3)如果进行股票投资,你会选择商业类股票仍是高科技类股票?

考虑高收益,那么选择高科技股票;考虑风险,那么选择商业股票。

第十章方差解析10.3一家牛奶企业有4台机器装填牛奶,每桶的容量为4L。下面是从4台机器中抽取的样本数据:机器l机器2机器3机器44.053.993.974.004.014.023.984.024.024.013.973.994.043.993.954.0l4.004.004.00取显著性水平a=0.01,查验4台机器的装填量是否相同?

解:

ANOVA

每桶容量〔L〕

平方和df均方F显著性组间0.00730.0028.7210.001组内0.004150.000总数0.01118不相同。

10.7某企业准备用三种方法组装一种新的产品,为确定哪一种方法每小时生产的产品数量

11__________________________________________统计学___________________________________________

最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。经过对每个工人生产的产品数进行方差解析获得下面的结果;

方差解析表差别源SSdfMSFP-valueFcrit组间42022101.478102190.2459463.354131组内383627142.0740741———总计425629————要求:

完成上面的方差解析表。

(2)假设显著性水平a=0.05,查验三种方法组装的产品数量之间是否有显著差别?

解:〔2〕P=0.025>a=0.05,没有显著差别。

10.9有5种不同品种的种子和4种不同的施肥方案,在20块同样面积的土地上,分别采用5各种子和4种施肥方案搭配进行试验,取得的收获量数据如下表:品种施肥方案1234112.09.510.49.7213.711.512.49.6314.312.311.411.1414.214.012.512.0513.014.013.111.4查验种子的不同品种对收获量的影响是否有显著差别?不同的施肥方案对收获量的影响是否有显著差别(a=0.05)?

解:这线图:

均施肥方法值15.00收获量

14.00

施肥方法1

施肥方法2

施肥方法3

施肥方法4

13.00

12.00

11.00

10.00

9.00

品种1品种2品种3品种4品种5

品种

__

似乎交互作用不显然:

〔1〕考虑无交互作用下的方差解析:

12__________________________________________统计学___________________________________________

主体间效应的查验

因变量:收获量源III型平方和df均方FSig.校正模型37.249(a)75.3218.0820.001截距2,930.62112,930.6214,451.0120.000Fertilization_Methods18.18236.0619.2050.002Variety19.06744.7677.2400.003误差7.901120.658总计2,975.77020校正的总计45.15019a.R方=.825〔调整R方=.723〕

结果说明施肥方法和品种都对收获量有显著影响。

〔2〕考虑有交互作用下的方差解析:

主体间效应的查验

因变量:收获量源III型平方和df均方FSig.校正模型45.150(a)192.376..截距2,930.62112,930.621..Fertilization_Methods18.18236.061..Variety19.06744.767..Fertilization_Methods*Variety7.901120.658..误差0.0000.总计2,975.77020校正的总计45.15019a.R方=1.000〔调整R方=.〕

由于察看数太少,得不到结果!

10.11一家超市连锁店进行一项研究,确定超市所在的地址和竞争者的数

量对销售额是否有显著影响。下面是获得的月销售额数据(单位:万元)。超市地址竞争者数量0123个以h位于市内4138594730314840居民小区45395139位于写字2529444331354842楼2230505318722924位于郊区2917282733252632取显著性水平a=0.01,查验:(1)竞争者的数量对销售额是否有显著影响?(2)超市的地址对销售额是否有显著影响?

13__________________________________________统计学___________________________________________

(3)竞争者的数量和超市的地址对销售额是否有交互影响?

解:画折线图:

均55.00超市地址值位于市内居民小区月位于写字楼销位于郊区售额50.00〔万元〕45.0040.0035.0030.0025.000个竞争者1个竞争者2个竞争者3个以上竞争者竞争者数量交互作用不十清楚显。〔1〕进行无交互方差解析:主体间效应的查验因变量:月销售额〔万元〕源III型平方和df均方FSig.校正模型2814.556(a)5562.91115.2050.000截距44,802.778144,802.7781,210.1590.000Location_SuperMaket1,736.2222868.11123.4480.000Amount_competitors1,078.3333359.4449.7090.000误差1,110.6673037.022总计48,728.00036校正的总计3,925.22235a.R方=.717〔调整R方=.670〕看到超市地址有显著影响,而竞争者数量没有显著影响,且影响强度仅为0.327,因此考虑是否存在交互作用。2〕有交互方差解析:

看到超市地址有显著影响,而竞争者数量和交互作用均无显著影响。

主体间效应的查验因变量:月销售额〔万元〕源III型平方和df均方FSig.校正模型3317.889(a)11301.62611.9190.000截距44,802.778144,802.7781,770.4720.000Location_SuperMaket1,736.2222868.11134.3050.000Amount_competitors1,078.3333359.44414.2040.000Location_SuperMaket*683.8893.3150.016Amount_competitors503.333

14__________________________________________统计学___________________________________________

误差607.3332425.306总计48,728.00036校正的总计3,925.22235a.R方=.845〔调整R方=.774〕

第十一章一元线性回归

11.5一家物流企业的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了

企业最近10个卡车运货记录的随机样本,获得运送距离(单位:km)和运送时间(单位:天)

的数据如下:

运送距离x825215107055048092021503256701215

运送时间y3.51.04.02.01.03.04.51.53.05.0

要求:

绘制运送距离和运送时间的散点图,判断二者之间的关系形态:

计算线性相关系数,说明两个变量之间的关系强度。

利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。

解:〔1〕

y运

时间〔天〕

x运送距离〔km〕__可能存在线性关系。

2〕

相关性

x运送距离〔km〕y运送时间〔天〕x运送距离〔km〕Pearson相关性1.949( )显著性〔双侧〕0.000N1010y运送时间〔天〕Pearson相关性.949( )1显著性〔双侧〕0.000N1010.在.01水平〔双侧〕上显著相关。

有很强的线性关系。

3〕

系数(a)

15__________________________________________统计学___________________________________________

非标准化系数标准化系数模型B标准误Betat显著性1〔常量〕0.1180.3550.3330.748x运送距离〔km〕0.0040.0000.9498.5090.000因变量:y运送时间〔天〕

回归系数的含义:每公里增加0.004天。

11.6下面是7个地区2000年的人均国内生产总值〔GDP〕和人均消费水平的统计数据:地区人均GDP(元)人均消费水平(元)北京224607326辽宁112264490上海3454711546江西48512396河南54442208贵州26621608陕西45492035要求:

人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系

形态。

计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。

利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。

计算判断系数,并解释其意义。

查验回归方程线性关系的显著性(a=0.05)。

如果某地区的人均GDP为5000元,预测其人均消费水平。

(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。

解:〔1〕

人均12000消费水

〔元〕

8000

6000

4000

2000

0

010000200003000040000

人均GDP〔元〕__

可能存在线性关系。

〔2〕相关系数:

相关性

16__________________________________________统计学___________________________________________

人均GDP〔元〕人均消费水平〔元〕人均GDP〔元〕Pearson相关性1.998( )显著性〔双侧〕0.000N77人均消费水平〔元〕Pearson相关性.998( )1显著性〔双侧〕0.000N77.在.01水平〔双侧〕上显著相关。

有很强的线性关系。

〔3〕回归方程:

系数(a)

非标准化系数标准化系数模型B标准误Betat显著性1〔常量〕734.693139.5405.2650.003人均GDP〔元〕0.3090.0080.99836.4920.000a.因变量:人均消费水平〔元〕回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。〔4〕模型大纲模型RR方调整的R方估计的标准差1.998(a)0.9960.996247.303a.预测变量:(常量),人均GDP〔元〕。人均GDP对人均消费的影响到达99.6%。〔5〕F查验:ANOVA(b)模型平方和df均方F显1回归81,444,968.680181,444,968.6801,331.692残差305,795.034561,159.007合计81,750,763.7146a.预测变量:(常量),人均GDP〔元〕。b.因变量:人均消费水平〔元〕回归系数的查验:t查验系数(a)非标准化系数标准化系数模型B标准误Betat显著性1〔常量〕734.693139.5405.2650.003人均GDP〔元〕0.3090.0080.99836.4920.000a.因变量:人均消费水平〔元〕〔6〕某地区的人均GDP为5000元,预测其人均消费水平为2278.10657元。〔7〕

17__________________________________________统计学___________________________________________

人均GDP为5000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。

11.9某汽车生产商欲认识广告费用(x)对销售量(y)的影响,收集了过去12年的相关数据。

经过计算获得下面的相关结果:

方差解析表

变差本源dfSSMSFSignificanceF

回归11602708.61602708.6399.10000652.17E—09

残差1040158.074015.807——

总计111642866.67———

参数估计表Coefficients标准误差tStatP—valueIntercept363.689162.455295.8231910.000168XVariable11.4202110.07109119.977492.17E—09要求:

完成上面的方差解析表。

汽车销售量的变差中有多少是由于广告费用的变动引起的?

销售量与广告费用之间的相关系数是多少?

写出估计的回归方程并解释回归系数的实际意义。

(5)查验线性关系的显著性(a=0.05)。2,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。解:〔2〕R=0.97563〕r=0.9877。

〔4〕回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。

5〕回归系数的查验:p=2.17E—09<α,回归系数不等于0,显著。回归直线的查验:p=2.17E—09<α,回归直线显著。

11.11从20的样本中获得的相关回归结果是:SSR=60,SSE=40。要查验x与y之间的线

性关系是否显著,即查验假设:H0:10。

(1)线性关系查验的统计量F值是多少?

给定显著性水平a=0.05,Fa是多少?

是拒绝原假设仍是不拒绝原假设?

(4)假设x与y之间是负相关,计算相关系数r。(5)查验x与y之间的线性关系是否显著?

解:〔1〕SSR的自由度为k=1;SSE的自由度为n-k-1=18;

18__________________________________________统计学___________________________________________

SSR60因此:F=k=1=27SSE40nk1182〕F1,18=F0.051,18=4.41

3〕拒绝原假设,线性关系显著。

〔4〕r=SSR=0.6=0.7746,由于是负相关,因此r=-0.7746SSRSSE〔5〕从F查验看线性关系显著。

11.15随机抽取7家超市,获得其广告费支出和销售额数据如下:超市广告费支出(万元)销售额(万元)Al19B232C444D640E1052F1453G2054要求:

用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。

查验广告费支出与销售额之间的线性关系是否显著(a=0.05)。

(3)绘制关于x的残差图,你感觉关于误差项的假设被知足了吗?(4)你是采用这个模型,仍是另寻找一个更好的模型?解:〔1〕系数(a)非标准化系数标准化系数模型B标准误Betat显著性1〔常量〕29.3994.8076.1160.002广告费支出〔万元〕1.5470.4630.8313.3390.021a.因变量:销售额〔万元〕

〔2〕回归直线的F查验:ANOVA(b)模型平方和df均方F显著性1回归691.7231691.72311.147.021(a)残差310.277562.055合计1,002.0006a.预测变量:(常量),广告费支出〔万元〕。

b.因变量:销售额〔万元〕

显著。

19__________________________________________统计学___________________________________________

回归系数的t查验:

系数(a)

非标准化系数标准化系数模型B标准误Betat显著性1〔常量〕29.3994.8076.1160.002广告费支出〔万元〕1.5470.4630.8313.3390.021a.因变量:销售额〔万元〕

显著。

〔3〕未标准化残差图:

10.00000

5.00000laudiseRdezidradnatsnU

0.00000

-5.00000

-10.00000

-15.00000

05101520

广告费支出〔万元〕__

标准化残差图:

lau

diseRdezidr

ad

natS

1.00000

0.00000

-1.00000

-2.00000

05101520

广告费支出〔万元〕

学生氏标准化残差图:

20__________________________________________统计学___________________________________________

la

duiesRdzetindetuS

2.00000

1.00000

0.00000

-1.00000

-2.00000

05101520

广告费支出〔万元〕

看到残差不全相等。

4〕应考虑其他模型。可考虑对数曲线模型:y=b0+b1ln(x)=22.471+11.576ln(x)。

第十二章多元线性回归

12.2根据下面Excel输出的回归结果,说明模型中涉及多少个自变量、少个察看值?写出回归方程,并根据F,se,R2及调整的Ra2的值对模型进行议论。

SUMMARYOUTPUT

回归统计MultipleR0.842407RSquare0.709650AdjustedRSquare0.630463标准误差109.429596察看值15方差解析dfSSMSFSignificanceF回归3321946.8018107315.60068.9617590.002724残差11131723.198211974.84总计14453670Coefficients标准误差tStatP-valueIntercept657.0534167.4595393.9236550.002378XVariable15.7103111.7918363.1868490.008655XVariable2-0.4169170.322193-1.2939980.222174XVariable3-3.4714811.442935-2.4058470.034870

解:自变量3个,察看值15个。

回归方程:?-0.416917X2-3.471481X3y=657.0534+5.710311X1

拟合优度:判断系数R2=0.70965,调整的Ra2=0.630463,说明三个自变量对因变量的影

21__________________________________________统计学___________________________________________

响的比率占到63%。

估计的标准误差Syx=109.429596,说明随即变动程度为109.429596

回归方程的查验:F查验的P=0.002724,在显著性为5%的情况下,整个回归方程线性关系显著。回归系数的查验:1的t查验的P=0.008655,在显著性为5%的情况下,y与X1线性关系显著。2的t查验的P=0.222174,在显著性为5%的情况下,y与X2线性关系不显著。3的t查验的P=0.034870,在显著性为5%的情况下,y与X3线性关系显著。因此,可以考虑采用逐步回回去除X2,从头成立线性回归模型。12.3根据两个自变量获得的多元回归方程为?2.01x14.74x2,并且n=10,y18.4SST=6724.125,SSR=6216.375,s?0.0813,s?=0.0567。要求:12(1)在a=0.05的显著性水平下,x1,x2与y的线性关系是否显著?(2)在a=0.05的显著性水平下,1是否显著?(3)在a=0.05的显著性水平下,2是否显著?解〔1〕回归方程的显著性查验:假设:H0:1=2=0H1:1,2不全等于0SSE=SST-SSR=6724.125-6216.375=507.75SSRp6724.1252=42.85F==21SSEnp1507.7510

2,7=4.74,F>F2,7,认为线性关系显著。〔2〕回归系数的显著性查验:

假设:H0:1=0H1:1≠0t=1=2.01=24.72S10.0813t2np1=2.36,t>t27,认为y与x1线性关系显著。〔3〕回归系数的显著性查验:

22__________________________________________统计学___________________________________________

假设:H0:2=0H1:2≠0t=2=4.74=83.6S20.0567t2np1=2.36,t>t27,认为y与x2线性关系显著。

12.4一家电器销售企业的管理人员认为,每个月的销售额是广告费用的函数,并想经过

广告费用对月销售额作出估计。下面是近8个月的销售额与广告费用数据:

月销售收入y(万元)电视广告费用工:x1(万元)报纸广告费用x2(万元)965.01.5902.02.0954.01.5922.52.5953.03.3943.52.3942.54.2943.02.5要求:

用电视广告费用作自变量,月销售额作因变量,成立估计的回归方程。

用电视广告费用和报纸广告费用作自变量,月销售额作因变量,成立估计的回归方

程。

上述(1)和(2)所成立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。

根据问题(2)所成立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比率是多少?

(5)根据问题(2)所成立的估计方程,查验回归系数是否显著(a=0.05)。

解:〔1〕回归方程为:y?88.64+1.6x

2〕回归方程为:y?83.232.29x11.3x2

〔3〕不相同,〔1〕中说明电视广告费用增加1万元,月销售额增加1.6万元;〔2〕中说明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加2.29万元。22〔4〕判断系数R=0.919,调整的Ra=0.8866,比率为88.66%。〔5〕回归系数的显著性查验:Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept83.230091.57386952.882484.57E-0879.1843387.2758579.1843387.27585电视广告费用工:x1(万元)2.2901840.3040657.5318990.0006531.5085613.0718061.5085613.071806报纸广告费用x2(万元)1.3009890.3207024.0566970.0097610.4765992.1253790.4765992.125379

23__

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论