统计学第六版课后习题与答案_第1页
统计学第六版课后习题与答案_第2页
统计学第六版课后习题与答案_第3页
统计学第六版课后习题与答案_第4页
统计学第六版课后习题与答案_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

...wd......wd......wd...第一章导论1.1.1〔1〕数值型变量。〔2〕分类变量。〔3〕离散型变量。〔4〕顺序变量。〔5〕分类变量。1.2〔1〕总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。〔2〕参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3〔1〕总体是所有IT从业者的集合。〔2〕数值型变量。〔3〕分类变量。〔4〕截面数据。1.4〔1〕总体是所有在网上购物的消费者的集合。〔2〕分类变量。〔3〕参数是所有在网上购物者的月平均花费。〔4〕参数〔5〕推断统计方法。第二章数据的搜集1.什么是二手资料使用二手资料需要注意些什么与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料〞。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,防止错用、误用、滥用。在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原那么抽取样本。每个单位被抽中的概率或可以计算,当用样本对总体目标量进展估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原那么,而是根据研究目的对数据的要求,采用某种方式从总体中抽出局部单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、式,除此之外,还有那些搜集数据的方法实验式、观察式等。4.自填式、面方式、式调查个有什么利弊自填式优点:调查组织者管理容易,成本低,可以进展较大规模调查,对被调查者可以刻选择方便时间答卷,减少答复敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:答复率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿答复时,不宜劝服。5.请举出〔或设计〕几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调查中的答复误差对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法消除被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量防止敏感问题。7.怎样减少无答复请通过一个例子,说明你所考虑到的减少无答复的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无答复率降到最低程度。无答复出现后,分析武答复产生的原因,采取补救措施。比方要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意答复时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章数据的图表搜集一、思考题3.1数据的预处理包括哪些内容答:审核、筛选、排序等。3.2分类数据和顺序数据的整理和显示方法各有哪些答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作穿插表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。3.3数值型数据的分组方法有哪些简述组距分组的步骤。答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏〞和“上限不在内〞的原那么。3.4直方图和条形图有何区别答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。3.5绘制线图应注意问题答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开场,数据与0距离过大的话用折断符号折断。3.6饼图和环形图的不同答:饼图只能显示一个样本或总体各局部所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞〞,每个样本或总体的数据系类为一个环。3.7茎叶图比直方图的优势,他们各自的应用场合答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保存了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.8鉴别图标优劣的准那么答:P65明确有答案,我就不写了。3.9制作统计表应注意的问题答:1,合理安排统计表构造;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。二、练习题3.1答:〔1〕表中数据属于顺序数据。(2)用Excel制作一张频数分布表。服务等级家庭数目〔个〕好14较好21一般32较差18差15(3)绘制一张条形图,反映评价等级的分布。(4)绘制评价等级的帕累托图。3.2某行业管理局所属40个企业2002年的产品销售收入数据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进展适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数:,取k=62、确定组距:组距=(最大值-最小值)÷组数=〔152-87〕÷6=10.83,取103、分组频数表销售收入频数频率%向上累计频数向上累计频率%80–90252590–10037.5512.5100-110922.51435110–12012302665120–130717.53382.5130–1404103792.5140–15025.03997.5150以上12.540100合计40100.0——(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进展分组。频数频率%向上累计频数向上累计频率%先进企业10251025良好企业12302255一般企业922.53177.5落后企业922.540100合计40100——3.3某百货公司连续40天的商品销售额如下:单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进展适当的分组,编制频数分布表,并绘制直方图。答:1、确定组数:,取k=62、确定组距:组距=(最大值-最小值)÷组数=〔49-25〕÷6=4,取53、分组频数表〔根据实际资料,调整成分5个组〕销售收入〔万元〕频数频率%向上累计频数向上累计频率%30以下41041030-35615102535-401537.52562.540-45922.5348545以上61540100合计40100.0——4、直方图3.4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答:茎叶图FrequencyStem&Leaf3.001.8895.002.011337.002.68889992.003.133.003.5693.004.1233.004.6673.005.0121.005.7箱线图3.5答:频数分布表灯泡寿命频率向上累积频率〔%〕660以下22%660-67057%670-680613%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740397%740以上3100%合计100—直方图从直方图看,数据的分布呈左偏分布。3.6答:频数分布表,取k=72、确定组距:组距=(最大值-最小值)÷组数=〔61-40〕÷7=3,取33、分组频数表〔根据实际资料,调整成分5个组〕食品重量〔g〕频数频率%向上累计频数向上累计频率%43以下334343-4699121246-492424363649-521919555552-552424797955-581414939358以上77100100合计100100.0——从直方图看,数据的分布呈双峰分布。3.7频数分布表重量误差〔g〕频数频率%向上累计频数向上累计频率%19-2951051029-39714122439-49816204049-591326336659-69918428469-79612489679-892450100合计50100——获取完整版答案,请翻开微信扫一扫下方二维码,关注微信公众号:帮帮ING如果无法扫码关注,请按照下方提示操作:从直方图看,数据的分布呈左偏分布3.8〔1〕数值型数据〔2〕频数分布表,取k=72、确定组距:组距=(最大值-最小值)÷组数=〔9+25〕÷7=4.86,取5气温〔℃〕频数频率%向上累计频数向上累计频率%〔-25,-20〕610.00610.00〔-20,-15〕813.331423.33〔-15,-10〕1016.672440.00〔-10.-5〕1321.673761.67〔-5.0〕1220.004981.67〔0,5〕46.675388.33〔5,10〕711.6760100.00合计60100——从直方图看,数据的分布呈左偏分布。3.9自学考试人员年龄分布集中在20-24之间,分布图呈右偏。3.103.113.12〔1〕复式条形图〔2〕甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。〔3〕根据雷达图,两班成绩分布不相似。3.133.14第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15〔1〕众数:10;中位数:10平均数:9.6〔2〕四分位数:Q位置==2.5.所以Q==5.5Q位置==7.5,所以Q==13〔3〕标准差:4.17〔4〕峰度—0.25,偏度—0.694.2〔1〕众数:19;23中位数:23平均数:24〔2〕四分位数:Q位置==6.25.所以Q=19+0.25^0=19Q位置==18.75,所以Q=25+2^0.75=26.5〔3〕标准差:6.65〔4〕峰度0.77,偏度1.084.3(1)茎叶图略(2)平均数:7,标准差0.71〔3〕第一种方式的离散系数==0.28第二种方式的离散系数==0.10所以,第二种排队方式等待时间更集中。〔4〕选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4〔1〕平均数:274.1,中位数:272.5〔2〕Q位置==7.5.所以Q=258+0.25^3=258.75Q位置==22.5,所以Q=284+7^0.75=289.25〔3〕日销售额的标准差:21.174.5.产品名称单位成本〔元〕总成本/元产量甲企业乙企业甲企业乙企业A1521003255140217B203000150015075C30150015005050合计——66006255340342甲企业总平均成本==19.41〔元〕乙企业总平均成本=所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。4.6计算数据如表:按利润额分组〔万元〕组中值企业数〔个〕利润额200~300250194750593033300~4003503010500176349400~500450421890022860500~600550189900273785600以上650117150548639合计-120512001614666利润总额的平均数=利润总额标准差=峰态系数偏态系数=4.7〔1〕不同。1000名的平均身高较高;〔2〕不同。100名的样本容量的标准差更大;〔3〕不同,调查1000名的样本容量得到最高和最低者的时机较大。4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:;〔1〕女生的体重差异大,因为离散系数大;〔2〕以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5磅,标准差为11.05磅〔3〕,所以大约有68%的人体重在55kg~65kg之间;〔4〕,所以大约有95%的女生体重在40kg~60kg之间。4.9;;由此可以判断第二项测试更理想。4.10时间周一周二周三周四周五周六周日产量3850367036903720361035903700z值30.60.20.41.82.20可以看出,周一和周六两天生产线失去了控制。4.11〔1〕采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体;〔2〕,所以,儿童的身高差异更大。4.12〔1〕对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式〔2〕选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0.012,所以选择A方法。4.13〔1〕用离散系数〔2〕商业类〔3〕高科技第六章统计量与抽样分布由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进展加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进展推断,如果统计量中含有总体的未知参数就没方法再对参数进展统计推断。2、是统计量,在不是统计量。4、假假设一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。二、练习1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为标准差为,故2、假设,那么,即,又知,故。3、易知服从自由度为6的卡方分布,得〔左侧分位数〕4、因为服从分布,我们,故服从9〕分布,,我们假设取,那么可以得到,,故。〔题中均为左侧分位数〕第七章参数估计7.1〔1〕〔2〕由于1-α=95%α=5%所以估计误差7.2〔1〕〔2〕因为所以〔3〕μ的置信区间为7.3由于n=100所以μ的95%置信区间为7.4〔1〕μ的90%置信区间为〔2〕μ的95%置信区间为〔3〕μ的99%置信区间为7.5〔1〕〔2〕〔3〕7.6〔1〕〔2〕〔3〕〔4〕7.790%置信区间为95%置信区间为99%置信区间为7.8所以95%置信区间为7.9由于所以95%置信区间为7.10〔1〕〔2〕中心极限定理7.11〔1〕〔2〕由于所以合格率的95%置信区间为7.12由于所以99%置信区间为7.13所以90%置信区间为7.14〔1〕〔2〕〔3〕7.15〔1〕90%置信区间为〔2〕95%置信区间为7.16所以n为1667.17〔1〕所以n为254〔2〕所以n为151〔3〕所以n为2687.18〔1〕〔2〕所以n为627.19〔1〕所以〔2〕〔3〕7.20〔1〕〔2〕7.21=〔1〕的90%置信区间为:==〔2〕的95%置信区间为:==〔3〕的99%置信区间为:=7.22〔1〕==〔2〕==18==〔3〕=17.78==〔4〕=18.714==〔5〕=20.05==7.23〔1〕==〔2〕=7.24,的置信区间为:==7.25〔1〕==〔2〕==7.26==2.464=0.405767.27==47.06所以n=487.28==138.30所以n=139第8章假设检验二、练习题〔说明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点。其他分位点也可。为了便于查找书后t分布表方便,本答案中,正态分布的分位点均采用了上侧分位点。〕8.1解:根据题意,这是双侧检验问题。:总体方差当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为现在生产的铁水平均含碳量为4.55。〔注:为正态分布的1-α/2下侧分位点〕8.2解:根据题意,这是左单侧检验问题。:总体方差当,查表得。拒绝域W={}因为,所以拒绝H0,认为该元件的使用寿命低于700小时。〔注:为正态分布的1-α下侧分位点〕8.3解:根据题意,这是右单侧检验问题。:总体方差当,查表得。拒绝域W={}因为,所以拒绝H0,认为这种化肥能使小麦明显增产。〔注:为正态分布的1-α下侧分位点〕8.4解:根据题意,这是双侧检验问题。方差未知。:总体根据样本计算得:当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为该日打包机工作正常。〔注:为t分布的α/2上侧分位点〕8.5解:根据题意,这是右单侧检验问题。:当,查表得。拒绝域W={}因为,所以拒绝H0,认为不符合标准的比例超过5%,该批食品不能出厂。〔注:为正态分布的1-α下侧分位点〕8.6解:根据题意,这是右单侧检验问题。:当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为该厂家的广告不真实。〔注:为t分布的α上侧分位点〕8.7解:根据题意,这是右单侧检验问题。:当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为元件的平均寿命不大于225小时。〔注:为t分布的α上侧分位点〕8.8解:根据题意,这是右侧检验问题。:当,查表得。拒绝域W={}因为,所以拒绝H0,认为成立。〔注:为-分布的α上侧分位点〕8.9解:根据题意,这是双侧检验问题。:总体方差当,查表得。拒绝域W={}因为,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压强度不一样。〔注:为正态分布的1-α/2下侧分位点〕8.10解:根据题意,这是双侧检验问题。:总体方差,但未知2.3579当,查表得。拒绝域W={}因为,所以拒绝H0,认为两种方法的装配时间有显著差异。〔注:为t分布的α上侧分位点〕8.11解:根据题意,这是双侧检验问题。:在大样本条件下当,查表得。拒绝域W={}因为,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气管炎〞这种观点。〔注:为正态分布的1-α/2下侧分位点〕8.12解:根据题意,这是右单侧检验问题。〔1〕等同于〔2〕:在n=144情况下,〔2〕中的H0成立时,t近似服从标准正态分布。因此P=P(t>2.16)=1-0.9846=0.0154。所以在α=0.01的显著水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。8.13解:根据题意,这是左单侧检验问题。:在大样本条件下当,查表得。拒绝域W={}因为,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。〔注:为正态分布的1-α下侧分位点〕8.14解:〔1〕根据题意,这是双侧检验问题。:当,利用EXCEL提供的统计函数“CHIINV〞,得。拒绝域W={}因为,所以不能拒绝H0,认为成立。〔注:为-分布的α上侧分位点〕〔2〕根据题意,这是双侧检验问题。:总体方差当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为螺栓口径为7.0cm。〔注:为正态分布的1-α/2下侧分位点〕因此,由〔1〕和〔2〕可得:这批螺栓到达了规定的要求。8.15〔1〕根据题意,这是双侧检验问题。:当,利用EXCEL提供的统计函数“FINV〞,得。拒绝域W={}因为,所以不能拒绝H0,认为成立。〔注:为F-分布的α/2上侧分位点〕〔2〕根据题意,这是右单侧检验问题。由〔1〕的分析可知:总体方差,但未知当,查表得。拒绝域W={}因为,所以拒绝H0,认为有显著大学中男生学习成绩比女生好。〔注:为t分布的α上侧分位点〕第十章方差分析一、思考题10.1什么是方差分析它研究的是什么答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。10.2要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法答:做两两比较十分繁琐,进展检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显著性检验的次数,偶然因素导致差异的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而防止一个真实的原假设。10.3方差分析包括哪些类型它们有何区别答:方差分析可分为单因素方差分析和双因素方差分析。区别:单因素方差分析研究的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。10.4方差分析中有哪些基本假定答:〔1〕每个总体都应服从正态分布〔2〕各个总体的方差σ2〔3〕观测值是独立的10.5简述方差分析的基本思想答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。10.6解释因子和处理的含义答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。10.7解释组内误差和组间误差的含义答:组内平均值误差的误差〔SSE〕是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差〔SSA〕是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。10.8解释组内方差和组间方差的含义答:组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。10.9简述方差分析的基本步骤答:〔1〕提出假设〔2〕构造检验统计量〔3〕统计决策10.10方差分析中多重比较的作用是什么答:通过对总体均值之间的配比照拟来进一步检验哪些均值之间存在差异。二、练习题10.1解:方差分析差异源SSdfMSFP-value组间618.91672309.45834.65740.04087724组内598966.44444总计1216.91711一样10.2解:方差分析差异源SSdfMSFP-value组间93.76812423.4420315.823371.02431E-05组内26.66667181.481481总计120.434822不一样10.3解:ANOVA每桶容量〔L〕平方和df均方F显著性组间0.00730.0028.7210.001组内0.004150.000总数0.01118不一样。10.4解:方差分析差异源SSdfMSFP-value组间29.60952214.8047611.755730.000849组内18.89048151.259365总计48.517有显著性差异。10.5解:方差分析差异源SSdfMSFP-value组间615.62307.817.068390.00031组内216.41218.03333总计83214有显著差异。LSD检验:计算得,,,有因为,那么决策:〔1〕,所以A生产企业生产的电池与B生产企业生产的电池平均寿命有显著差异;〔2〕,所以不能认为A生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异;〔3〕,所以B生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异。10.6解:方差分析差异源SSdfMSFP-value组间5.34915622.6745788.2745180.001962组内7.434306230.323231总计12.7834625有显著性差异10.7〔1〕方差分析表差异源SSDfMSFP-valueFcrit组间42022101.478102190.2459463.354131组内383627142.0740741———总计425629————〔2〕假设显著性水平a=0.05,检验三种方法组装的产品数量之间是否有显著差异?P=0.025>a=0.05,没有显著差异。10.8解:方差分析差异源SSdfMSFP-valueFcrit行1.54933340.38733321.719630.0002367.006077列3.48421.74297.682242.39E-068.649111误差0.14266780.017833总计5.17614〔1〕或p=0.000236<,所以不同车速对磨损程度有显著性差异;〔2〕或p=2.39E-06<,所以不同供应商生产的轮胎的磨损程度有显著性差异。10.9解:方差分析差异源SSdfMSFP-valueFcrit行19.06744.766757.2397160.0033153.259167列18.181536.06059.2046580.0019493.490295误差7.901120.658417总计45.149519结果说明施肥方法和品种都对收获量有显著影响。10.10解:方差分析差异源SSdfMSFP-valueFcrit行22.22222211.111110.0727270.9310566.944272列955.55562477.77783.1272730.1521556.944272误差611.11114152.7778总计1588.8898〔1〕或p=0.931056>,所以不同销售地区对食品的销售量无显著性差异;〔2〕或p=0.152>,所以不同包装对食品的销售量无显著性差异。10.11解:方差分析差异源SSdfMSFP-valueFcrit样本1752287648.666675.49E-086.012905列798239922.166671.4E-056.012905交互182.6667445.666672.5370370.0759024.579036内部3241818总计3056.66726竞争者的数量对销售额有显著影响超市位置对销售额有显著影响无交互作用10.12解:方差分析差异源SSdfMSFP-valueFcrit样本344217210.750.0103865.143253列4814830.1339755.987378交互562281.750.2519325.143253内部96616总计54411广告方案对销售量有显著影响广告媒体形式对销售量无显著影响无交互作用第11章一元线性回归一、思考题11.1.变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点:⑴变量之间确实存在着数量上的依存关系;⑵变量之间数量上的关系是不确定、不严格的依存关系。11.2.相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括:⑴变量之间是否存在关系⑵如果存在关系,它们之间是什么样的关系⑶变量之间的关系强度如何⑷样本所反映的变量之间的关系能否代表总体变量之间的关系11.3.在进展相关分析时,对总体主要有以下两个假定:⑴两个变量之间是线性关系;⑵两个变量都是随机变量。11.4.相关系数的性质:⑴r的取值范围是[-1,1],r为正表示正相关,r为负表示负相关,r绝对值的大小表示相关程度的上下;⑵对称性:X与Y的相关系数和Y与X之间的相关系数相等;⑶相关系数与原点和尺度无关;⑷相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;⑸相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;⑹假设X与Y统计上独立,那么它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性。11.5.在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r的取值也会不同,因此r是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进展显著性检验。11.6.相关系数显著性检验的步骤:⑴提出假设;⑵计算检验统计量t值;⑶在给定的显著性水平和自由度,查t分布表中相应的临界值,作出决策。11.7.回归模型是对统计关系进展定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项的方程称为回归模型。回归方程是对变量之间统计关系进展定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本统计量代替回归方程中的未知参数,就得到了估计的回归方程。11.8.一元线性回归模型通常有以下几条基本的假定:⑴变量之间存在线性关系;⑵在重复抽样中,自变量x的取值是固定的;⑶误差项ε是一个期望为零的随机变量;⑷)对于所有的x值,误差项的方差都一样;⑸误差项是一个服从正态分布的随机变量,且相互独立。即。11.9.参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。11.10.总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的程度或不确定性的程度。回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化局部,这是可以由回归直线来解释的局部,衡量的是被解释变量y不确定性程度中能被解释变量x解释的局部。残差平方和是除了x对y的线性影响之外的其他因素引起的y的变化局部,是不能由回归直线来解释的局部。它们之间的关系是:总平方和=回归平方和+残差平方和。11.11.回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。11.12.在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显著,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显著性水平,作出判断。t检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造t检验统计量,提出假设,根据显著性水平,作出判断。11.13.线性关系检验的步骤:⑴提出假设;;⑵构造F检验统计量;;⑶根据显著性水平,作出判断。回归系数检验的步骤:⑴提出假设;;⑵构造t检验统计量;;⑶根据显著性水平,作出判断。11.14.回归分析结果的评价可以从以下几个方面:⑴回归系数的符号是否与理论或事先预期相一致;⑵自变量与因变量之间的线性关系,在统计上是否显著;⑶根据判定系数的大小,判断回归模型解释因变量取值差异的程度;⑷误差项的正态假定是否成立。11.15.置信区间估计是对x的一个给定值,求出y的平均值的区间估计。预测区间估计是对x的一个给定值,求出y的一个个别值的区间估计。二者的区别是:置信区间估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一个特定值或个别值更准确。11.16.残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法.判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。二、练习题11.1.〔1〕散点图如下:从散点图可以看出,产量与生产费用之间为正的线性相关关系。〔2〕利用Excel的“CORREL〞函数计算的相关系数为。〔3〕首先提出如下假设:,。计算检验的统计量当时,。由于检验统计量,拒绝原假设。说明产量与生产费用之间的线性关系显著。11.2〔1〕散点图如下:从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。〔2〕利用Excel的“CORREL〞函数计算的相关系数为。相关系数,说明复习时间与考试分数之间有较强的正线性相关关系。11.3.(1)表示当时的期望值为10。〔2〕表示每增加一个单位,平均下降0.5个单位。〔3〕时,。1.4.〔1〕表示,在因变量取值的变差中,有90%可以由与之间的线性关系来解释。〔2〕表示,当用来预测时,平均的预测误差为0.5。11.5.〔1〕散点图如下:从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。〔2〕利用Excel的“CORREL〞函数计算的相关系数为。相关系数,说明运送距离与运送时间之间有较强的正线性相关关系。〔3〕由Excel输出的回归结果如下表:回归统计MultipleR0.948943RSquare0.900492AdjustedRSquare0.888054标准误差0.480023观测值10方差dfSSMSFSignificanceF回归分析116.6816216.6816272.395852.79E-05残差81.8433790.230422总计918.525Coefficients标准误差tStatP-valueIntercept0.1181290.3551480.332620.74797XVariable10.0035850.0004218.5085752.79E-050.002613得到的回归方程为:回归系数表示运送距离每增加1公里,运送时间平均增加0.003585天。11.6.〔1〕散点图如下:从散点图可以看出,人均GDP与人均消费水平为正的线性相关关系。〔2〕利用Excel的“CORREL〞函数计算的相关系数为。相关系数接近于1,说明人均GDP与人均消费水平之间有非常强的正线性相关关系。〔3〕Excel输出的回归结果如下表:回归统计MultipleR0.998128RSquare0.996259AdjustedRSquare0.995511标准误差247.3035观测值7方差分析dfSSMSFSignificanceF回归181444969814449691331.6922.91E-07残差530579561159.01总计681750764Coefficients标准误差tStatP-valueIntercept734.6928139.54035.2650940.003285XVariable10.3086830.00845936.492362.91E-07得到的回归方程为:。回归系数表示人均GDP每增加1元,人均消费水平平均增加0.308683元。〔4〕判定系数。说明在人均消费水平的变差中,有99.6259%是由人均GDP决定的。〔5〕首先提出如下假设:,由于SignificanceF<,拒绝原假设,说明人均GDP与人均消费水平之间的线性关系显著。〔6〕〔元〕。〔7〕当时,,。置信区间为:即〔1990.7,2565.5〕。预测区间为:即〔1580.3,2975.9〕11.7.〔1〕散点图如下:从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。〔2〕由Excel输出的回归结果如下表:回归统计MultipleR0.868643RSquare0.75454AdjustedRSquare0.723858标准误差18.88722观测值10方差分析dfSSMSFSignificanceF回归分析18772.5848772.58424.591870.001108残差82853.816356.727总计911626.4Coefficients标准误差tStatP-valueIntercept430.189272.154835.9620290.000337XVariable1-4.700620.947894-4.959020.001108得到的回归方程为:。回归系数表示航班正点率每增加1%,顾客投诉次数平均下降4.7次。〔3〕回归系数检验的P-Value=0.001108<〕,拒绝原假设,回归系数显著。〔4〕〔次〕〔5〕当时,,置信区间为:即〔37.7,70.7〕预测区间为:即〔7.6,100.8〕11.8.Excel输出的回归结果如下:MultipleR0.7951RSquare0.6322AdjustedRSquare0.6117标准误差2.6858观测值20方差分析dfSSMSFSignificanceF回归1223.1403223.140330.93322.79889E-05残差18129.84527.2136总计19352.9855Coefficients标准误差tStatP-valueIntercept49.31773.805012.96120.0000XVariable10.24920.04485.56180.0000由上表结果可知,出租率与月租金之间的线性回归方程为:。回归系数表示:月租金每增加1元,出租率平均增加0.2492%。,说明在出租率的变差中被出租率与租金之间的线性关系所解释的比例为63.22%,回归方程的拟合程度一般。估计标准误差表示,当用月租金来预测出租率时,平均的预测误差为2.6858%,说明预测误差并不大。由方差分析表可知,SignificanceF=2.79889E-05<回归方程的线性关系显著。回归系数检验的P-value=0.0000<,说明回归系数显著,即月租金是影响出租率的显著性因素。11.9.〔1〕方差分析表中所缺的数值如下方差分析表如下:变差来源dfSSMSFSignificanceF回归11422708.61422708.6354.2772.17E-09残差1040158.074015.807——总计111642866.67———〔2〕根据方差分析表计算的判定系数说明汽车销售量的变差中有86.60%是由于广告费用的变动引起的。〔3〕相关系数可由判定系数的平方根求得:〔4〕回归方程为:。回归系数表示广告费用每增加一个单位,销售量平均增加1.420xx1个单位。〔5〕由于SignificanceF=2.17E-09<,说明广告费用与销售量之间的线性关系显著。11.10.Excel输出的回归结果如下:回归统计MultipleR0.968167RSquare0.937348AdjustedRSquare0.916463标准误差3.809241观测值5方差分析dfSSMSFSignificanceF回归分析1651.2691651.269144.883180.006785残差343.5309414.51031总计4694.8Coefficients标准误差tStatP-valueIntercept13.625414.3994283.0970860.053417XVariable12.3029320.3437476.6994910.006785由上述结果可知:回归方程为,回归系数说明,每增加一个单位平均增加2.3029个单位;判定系数,说明回归方程的拟合程度较高;估计标准误差,说明用来预测时平均的预测误差为3.8092。11.11.〔1〕检验统计量:〔2〕〔3〕由于,所以拒绝原假设〔4〕根据相关系数与判定系数之间的关系可知,〔5〕提出假设:,由于,拒绝,线性关系显著。11.12.〔1〕当时,。当,。的平均值的95%的置信区间为:即〔15.95,18.05〕〔2〕预测区间为:即〔14.65,19.35〕11.13.Excel输出的回归结果如下:回归统计MultipleR0.947663RSquare0.898064AdjustedRSquare0.881075标准误差108.7575观测值8方差分析dfSSMSFSignificanceF回归分析1625246.3625246.352.860650.000344残差670969.211828.2总计7696215.5Coefficients标准误差tStatP-valueIntercept-46.291864.89096-0.713380.502402XVariable115.239772.0961017.2705330.000344得到的线性回归方程为:当时,。当,。〔2〕销售收入95%的置信区间为:即〔270.65,685.04〕。。11.14.回归1残差图:回归2残差图:结论:回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是适宜的。回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。11.15.〔1〕估计的回归方程为:〔2〕由于SignificanceF=0.020<,说明广告费支出与销售额之间的线性关系显著。〔3〕残差图从图上看,关于误差项的假定不满足。〔4〕广告费支出x与销售额y关系的散点图:从广告费支出x与销售额y关系的散点图上看,用二次函数或其它曲线模型会更好。第十二章多元线性回归解释多元回归模型、多元回归方程、估计的多元回归方程的含义。答:设因变量为,个自变量分别为,,…,,描述因变量如何依赖于自变量,,…,和误差项的方程称为多元回归模型。其中,,,…,是模型的参数;为误差项。在多元回归模型的基本假定下,因变量的期望,该式被称为多元回归方程。回归方程中的参数,,…,是未知的,需要利用样本数据去估计它们。当用样本统计量,,…,去估计回归方程中的未知参数,,…,时,就得到了估计的多元回归方程。12.2多元线性回归模型中有哪些基本假定答:〔1〕误差项是一个期望值为0的随机变量,即。〔2〕对于自变量,,…,的所有值,的方差都一样。〔3〕误差项是一个服从正态分布的随机变量,且相互独立,即。12.3解释多重判定系数和调整的多重判定系数的含义和作用。答:多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。为防止增加自变量而高估,统计学家提出用样本量和自变量的个数去调整,计算出调整的多重判定系数,其意义与类似,表示在用样本量和模型中自变量的个数进展调整后,在因变量的变差中被估计的回归方程所解释的比例。12.4解释多重共线性的含义。答:当回归模型中两个或两个以上的自变量彼此相关时,那么称回归模型中存在多重共线性。12.5多重共线性对回归分析有哪些影响答:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是的正负号有可能同预期的正负号相反。12.6多重共线性的判别方法主要有哪些答:〔1〕模型中各对自变量之间显著相关。〔2〕当模型的线性关系检验〔F检验〕显著时,几乎所有回归系数的检验却不显著。〔3〕回归系数的正负号与预期的相反。〔4〕容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小于0.1,也即VIF大于10时,存在严重的多重共线性。12.7多重共线性的处理方法有哪些答:〔1〕将一个或多个相关的自变量从模型中剔除,使保存的自变量尽可能不相关。〔2〕如果要在模型中保存所有的自变量,那就应该:防止根据统计量对单个参数进展检验;对因变量值的推断〔估计或预测〕限定在自变量样本值的范围内。12.8在多元线性回归中,选择自变量的方法有哪些答:向前选择、向后剔除、逐步回归、最优子集等。二、练习题12.1表示,在不变的条件下,每增加1个单位,会使平均减少0.049714个单位;表示,在不变的条件下,每增加1个单位,会使平均增加1.928169个单位。多重判定系数和调整的多重判定系数显示:该多元回归方程的拟合效果较差,在因变量的变差中,能被估计的回归方程所解释的比例很少。检验说明,与、之间的线性关系不显著。检验说明,自变量、对因变量的影响均不显著。12.2模型中涉及3个自变量,15个观测值。多重判定系数和调整的多重判定系数显示:该多元回归方程的拟合效果较好,在用样本量和模型中自变量的个数进展调整后,在因变量的变差中,能被估计的回归方程所解释的比例为63.0463%。检验说明,与、、之间的线性关系显著。检验说明,自变量、对因变量的影响均显著,但对因变量的影响不显著。12.3(1)故与、、之间的线性关系显著。〔2〕,故显著。〔3〕,故显著。12.4〔1〕〔2〕〔3〕上述〔1〕和〔2〕所建设的估计的回归方程,电视广告费用的系数符号一样但数值大小不同。其中,〔1〕中表示,电视广告费用每增加1万元,会使月销售收入平均增加1.603865万元;〔2〕中表示,在报纸广告费用不变的条件下,电视广告费用每增加1万元,会使月销售收入平均增加2.290184万元。〔4〕根据问题〔2〕所建设的估计的回归方程,在月销售收入的总变差中,被估计的回归方程所解释的比例是88.6650%。〔5〕根据问题〔2〕所建设的估计的回归方程,,故显著。,故显著。12.5〔1〕〔2〕表示,春季降雨量每增加1mm,会使早稻收获量平均增加22.386461kg/hm2;表示,春季温度每增加1。C,会使早稻收获量平均增加327.671713kg/hm2。〔3〕可能存在。因为自变量春季降雨量与春季温度的简单线性相关系数为0.965067。且模型的线性关系检验〔F检验〕显著,但回归系数的t检验不显著。12.6〔1〕〔2〕在销售价格的总变差中,被估计的回归方程所解释的比例是87.83%。〔3〕故回归方程的线性关系显著。〔4〕,故回归系数不显著。,故回归系数显著。,故回归系数不显著。12.7〔1〕,故二元回归模型的线性关系显著。〔2〕,故显著,不应从模型中剔除。〔3〕,故显著,不应从模型中剔除。。12.8〔1〕故无证据说明二者之间存在线性关系。〔2〕,,故无证据说明二者之间存在线性关系。〔3〕对预测无用。〔4〕检验说明,与、之间的线性关系显著。检验说明,自变量、对因变量的影响均显著。这与〔3〕所得结论不一样。〔5〕,说明模型存在多重共线性。12.9〔1〕,,故无证据说明销售价格与购进价格之间存在线性关系。,,故无证据说明销售价格与销售费用之间存在线性关系。〔2〕根据〔1〕中结果,用购进价格和销售费用来预测销售价格无用。〔3〕检验说明,与、之间的线性关系不显著。检验说明,自变量、对因变量的影响均显著。〔4〕调整的多重判定系数显示:在用样本量和模型中自变量的个数进展调整后,在因变量的变差中,能被估计的回归方程所解释的比例仅为24.4537%。这与〔2〕中的判断是一致的。〔5〕,说明模型存在多重共线性。〔6〕模型中存在多重共线性。第十四章统计指数1.某企业生产甲、乙两种产品,资料如下:产品名称计量产量单位成本〔元〕单位基期报告期基期报告期甲乙台吨2000500022006000126.212.56要求:〔1〕计算产量与单位成本个体指数。〔2〕计算两种产品产量总指数以及由于产量增加而增加的生产费用。〔3〕计算两种产品单位成本总指数以及由于成本降低而节约的生产费用。解:产品名称计量产量单位成本〔元〕指数〔%〕单位q0q1z0z1产量单位成本甲乙台吨2000500022006000126.212.56110120104.296.8〔2〕产量指数:〔3〕单位成本指数:2.某商场销售的三种商品资料如下:商品名称计量单位销售数量单价〔元〕基期报告期基期报告期甲乙丙千克台件10020030011522031510050201005525要求:〔1〕计算三种商品的销售额总指数。〔2〕分析销售量和价格变动对销售额影响的绝对值和相对值。解:商品名称销售量单价〔元〕销售额〔元〕q0q1p0p1p0q0p1q1p0q1甲乙丙100200300115220315100502010055251000010000600011500121007875115

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论