版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、仅供个人参考仅供个人参考不得用于商业用途不得用于商业用途不得用于商业用途不得用于商业用途第一章导论1.11数值型变量。分类变量。离散型变量。顺序变量。分类变量。1.2总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3(1)总体是所有IT从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。1.4(1)总体是所有在网上购物的消费者的集合。(2)分类变量。参数是所有在网上购物者的月平均花费。(4)参数(5)推断统计方法。第二章数据的搜集什么是二手资料?使用二手资料需要注意些什么?与研
2、究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的
3、数量特征,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感
4、问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于
5、记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章数据的图表搜集一、思考题数据的预处理包括哪些
6、内容?答:审核、筛选、排序等。分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。数值型数据的分组方法有哪些?简述组距分组的步骤。答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般515组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整
7、理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“
8、空洞”,每个样本或总体的数据系类为一个环。茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。鉴别图标优劣的准则?答:P65明确有答案,我就不写了。制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。二、练习题3.1答:(1)表中数据属于顺序数据。(2)用Excel制作一张
9、频数分布表。(较差183)绘差15制张条形图,反映评价等级的分布。绘制评价等级的帕累托图。32某行业管理局所属40个企业2002年的产品销售收入数据如下1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。lg(n)g(40)1.602061、确定组数:K-1+汉丿-1+-:1+6.32,取k=6lg(2)lg20.301032、确定组
10、距:组距=(最大值-最小值)三组数=(152-87)三6=10.83,取103、分组频数表销售收入频数频率向上累计频数向上累计频率80-90252590-10037.5512.5100-110922.51435110-12012302665120-130717.53382.5130-1404103792.5140-15025.03997.5150以上12.540100合计40100.0(2)按规定,销售收入在125万元以上为先进企业,115125万元为良好企业,105115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。频数频率向上累计频数向上累计频
11、率%先进企业10251025良好企业12302255频数频率向上累计频数向上累计频率%先进企业10251025良好企业12302255一般企业922.53177.5落后企业922.540100合计4010033某百货公司连续40天的商品销售额如下:单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答:1、确定组数:lg(n)1lg(40)1.60206K=1+1+=1+=632m1plg(2)lg20.3010
12、3,k=62、确定组距:组距=(最大值-最小值)三组数=(4925)三6=4,取53、分组频数表(根据实际资料,调整成分5个组)销售收入(万兀)频数频率向上累计频数向上累计频率30以下41041030-35615102535-401537.52562.540-45922.5348545以上61540100合计40100.04、直方图3.4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答:茎叶图FrequencyStem&Leaf3.001.8895.002.011337.002.6888
13、9992.003.133.003.5693.004.1233.004.6673.005.0121.005.7箱线图3.5答:频数分布表灯泡寿命660以下660-670670-6802%7%13%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740740以上合计97%100%灯泡寿命660以下660-670670-6802%7%13%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740740以上合计97%100%直方图直方图频率(个)
14、302520120.00%100.00%80.00%60.00%频率(个)302520120.00%100.00%80.00%60.00%40.00%20.00%0.00%15灯泡寿命的直方图匚二1频率-累积灯泡寿命(小时)从直方图看,数据的分布呈左偏分布。3.6从直方图看,数据的分布呈左偏分布。3.6答:频数分布表1+阳=11+阳=1+=1+0.30=6.64取k=72、确定组距:组距=(最大值-最小值)三组数=(61-40)三7=3,取33、分组频数表(根据实际资料,调整成分5个组)食品重量(g)频数频率向上累计频数向上累计频率43以下334343-4699121246-492424363
15、649-521919555552-552424797955-581414939358以上77100100合计100100.0从直方图看,数据的分布呈双峰分布。3.7频数分布表重量误差(g)频数频率向上累计频数向上累计频率19-2951051029-39714122439-49816204049-591326336659-69918428469-79612489679-892450100合计50100从直方图看,数据的分布呈左偏分布3.81)数值型数据2)频数分布表=6.91取k=7k二i+也二i+=i+177815lg(2)lg20.30103=6.91取k=72、确定组距:组距=(最大值-最
16、小值)三组数=(9+25)三7=4.86,取5气温(C)频数频率向上累计频数向上累计频率%(25,-20)10.0010.00(20,15)13.331423.33(15,10)1016.672440.00(10.5)1321.673761.67(5.0)1220.004981.67(0,5)6.675388.33(5,10)11.6760100.00合计60100从直方图看,数据的分布呈左偏分布。3.9年龄分布直方图年龄分布直方图自学考试人员年龄分布集中在2024之间,分布图呈右偏。3.103.11(1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏(3)根据雷达
17、图,两班成绩分布不相似。3.133.14第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15众数:10;中位数:10平均数:9.64+7TOC o 1-5 h z四分位数:Q位置=10=2.5所以Q=5.5L4L2Q位置二-30=7.5,所以Q=12+14=13U4U2标准差:4.17(4)峰度0.25,偏度0.694.2众数:19;23中位数:23平均数:24四分位数:Q位置=25=6.25.所以Q=19+0.250=19L4LQ位置=75=18.75,所以Q=25+20.75=26.5U4U(3)标准差:6.65峰度0.77,偏度1.084.3(1)茎叶图略(
18、2)平均数:7,标准差0.71TOC o 1-5 h zs1.97第一种方式的离散系数v二=0.28sx7.2s0.71第二种方式的离散系数v二=0.10sx7所以,第二种排队方式等待时间更集中。选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4(1)平均数:274.1,中位数:272.5(2)Q厶位置=曽=7.5.所以Ql=258+0-253=258-75Q位置=见=22.5,所以Q=284+70.75=289.25U4U(3)日销售额的标准差:21.174.5产品名称单位成本(元)15甲企业2100总成本/元乙企业3255产量甲企业140乙企业2172030001500150
19、75C产品名称单位成本(元)15甲企业2100总成本/元乙企业3255产量甲企业140乙企业217203000150015075C合计3015001500505066006255340342艺Mf甲企业总平均成本x二十=當=19-41(元)艺Mf乙企业总平均成本X=41=18.29(兀)n342所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。4.6计算数据如表:按利润额分组(万元)组中值企业数(个)利润额200300250194750593033300400350301050017634940050045042189002286050
20、0600550189900273785600以上650117150548639合计120512001614666工Mfii51200利润总额的平均数X二4=二426.67(万兀)n120(x-X)2*fH614666利润总额标准差b和b讣=115.99(万元)n120丈(M-丈(M-x)4fii峰态系数K=4ns43_510874416483-120 x(115.99)4_2.352-3_0.6479i=i_1120 x(115.99)3丈(M-X)3ff(Mi=i_1120 x(115.99)3iiii偏态系数SK_i二4_0.2057ns34.7(1)不同。1000名的平均身高较高;(2)
21、不同。100名的样本容量的标准差更大;(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:s5s5v男_8.3%;v女_10%sx60sx50(1)女生的体重差异大,因为离散系数大;(2)以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5磅,标准差为11.05磅3)zi4)zi4.9z二x_65560_13)zi4)zi4.9zs5匸丄_芈聖_2,所以大约有95%的女生体重在40kg60kg之间。s5115-10015i425-400i425-40050_0.5;由此可以判断第二项
22、测试更理想。时间周一周二周三周四周五周六产量385036703690372036103590z值30.60.20.41.82.24.10周日3700可以看出,周一和周六两天生产线失去了控制。4.11(1)采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体;Vs成年4.20172.1_2.44%Vs成年4.20172.1_2.44%,2.50s儿童71.3_3.5%所以,儿童的身高差异更大。4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式(2)选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0
23、.012,所以选择A方法。4.13(1)用离散系数(2)商业类(3)高科技第六章统计量与抽样分布1、设X,X,-,X是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X,X?,,X),不依赖于任何未知参数,则称函数T(X,X,X)是一个统计量。12n由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的未知参数就没办法再对参数进行统计推断。2、T和T是统计量,T和T在卩和o未知的情况下不是统计量。1234
24、3、设X,X,X是从总体X中抽取的一个样本,X称为第i个次序统计量,TOC o 1-5 h z12n(i)它是样本(X,X,X满足如下条件的函数:每当样本得到一组观测值12nx,x,,x时,其由小至【j大的排序xWx()xWx(中第i个值x就作12n(1)(2)(i)(n)(i)为次序统计量x(|)的观测值,而x),X),,Xq称为次序统计量。4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、咒2分布和正态分布关系:nT+a时,咒2分布的极限分布是正态
25、分布。t分布和正态分布的关系:t分布的密度函数曲线与标准正态分布的密度函数曲线非常相似,但tCi)分布的密度函数在两狈的尾部都要比标准正态的两侧尾部粗一些,方差也比标准正态分布的方差大。随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。仅供个人参考仅供个人参考仅供个人参考仅供个人参考2不得用于商业用途2不得用于商业用途2不得用于商业用途2不得用于商业用途F分布和正态分布关系:若Xt(n)贝怀Fl,n)并且随着自由度的增加,X也越来越接近于标准正态笳,若扌把C看成近似服从标准正粉布的一个随机变量,则X2fCnl7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频
26、数分布为统计量的抽样分布。8、中心极限定理:设从均值为卩,方差为Q2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为卩,方差为壬的n正态分布。中心极限定理解决了在总体为非正态的情况下,样本平均数的抽样分布问题,为总体参数的推断提供了理论基础。二、练习x2、若0.3)_0.95,贝yP1、易知由这台机器灌装的x2、若0.3)_0.95,贝yP0.3_0.95,即_1.96,ggnn_196丫_42.68,故n_43oI0.3丿3、易知丈Z2服从自由度为6的卡方分布,得b_x2(6)_12.59(左侧分位数)i0.95i_1(n-1)S24、因为服从X2(n-
27、1)分布,我们已知n_10,g_1,故9S2服从咒2(9)g2S2b29S29bS2b29S29b)_0.05,229b10.05,贝可以得到9b2_X02.95(9)_16.929b_x2_3.33,故b_0.37,b_1.88。(题中均为左侧分位数)10.0512第七章参数估计7.1(1)g_G_-_0.79xn40(2)由于1-a=95%a=5%Z_1.96a2所以估计误差Z_L96x沁L55n.40仅供个人参考仅供个人参考仅供个人参考仅供个人参考不得用于商业用途不得用于商业用途不得用于商业用途不得用于商业用途7.2(1)c-=2.14Xvnv49(2)因为Z=1.96o2所以Z2=1.
28、96xE沁4.20oQnv492M的置信区间为xZ需=120土420273由于Z二1.96x二104560c二85414n=100o2所以M的95%置信区间为7.4(1)M的90%置信区间为XZ応=81心珞=8122)的95%置信区间为X土Z=81土1.96x=81土2.35oJnJ10023)的99%置信区间为xZ-佥=81土258=81土09627.5(1)X+Z二=25土1.96X=25土0.89oJn6022)s2389X土Z=119.6土2.326x=119.6土6.416oJn#7523)x土Zo.2s0.974.=3.419土1.645x.=3.419土0.283n327.6(1
29、)X土Z二=8900土1.96x型=8900土253.035fnJ1522)X土Z二=8900土1.96x聖=8900土165.650oInv3523)X土ZX=8900土1.645x聖=8900土139.028ovn3524)X土Zo=8900土2.326XH=8900土196.58327.7x=-工x=3.317艺(x-x=1.609nii=1TOC o 1-5 h zs1.60990%置信区间为x土Z=3.317土1.645x=3.317土0.441aJn362s1609a、:n95%置信区间为x土Z一=3.317土1.96x=3.317a、:n HYPERLINK l bookmark
30、117 o Current Document nv36s160999%置信区间为x土Z一=3.317土2.576x=3.317土0.6908367.8x=-7.8x=-工x=10s=.工(x-x=3.464nii=13.464所以95%置信区间为x土t=10土2.3646x=10土2.896a(n-i)Jn寸827.9x=丄Vx=9.375ni由于t:(n-7.9x=丄Vx=9.375ni由于t:(n-1)=t(15)=2.1310.025所以95%置信区间为x土ts4.113=9.375土2.131x=9.375土2.191亠(n-1)51627.10(1)x土Zs1.93丄=149.5土1
31、.96x=149.5土0.63n3622)中心极限定理7.11-1V(1)x=x=ni1x5066=101.1325045(2)由于p=50=0.9所以合格率的95%置信区间为7.12=-工x7.12=-工x=16.128nita(n-1)2=t(24)=3.7450.005所以99%置信区间为x土t(n1)2=161.28土3.745x。空6=161.28土0.653avnJ2527.13t(n-1)=t(17)=1.7396x=1工x=13.5567.13niani2s7.8所以90%置信区间为x土t(n1)13.556土1.7396x13.556土3.198aVn(n1)scX2,a!2
32、(1)1414sS23.6848x.2c叫65x.2-.15c.433)X2(n1)=Xa/、2,(n1)20.052a1-a2(221)=32.676XscX2aI2,(n1)s=,X211-a27.20(1)1x=Yx.=7.15ni2(n1)=X2(221)=11.59131a.95122121Ex31气為x31n2485c41725s飞n15x.4767V19.228V19.228x4767时x4767=328-87,l(n1)scX2fa12(2)(n1)Isn.X211-a27.21s2=(n1Ds12+(n2D汽=13x%8+6x1298.442pn+n212cz19片一巴的9%
33、置信区间为:_11_11(xx)t(n+n2)s+12a212p.n111=9.8土1.729xJ98.442x、n1472.Tn=9.8土7.9411(2)卩-M的95%置信区间为:=9.8土7.9411(2)卩-M的95%置信区间为:12(xx)土t(n+n2)s112a212p111+=9.8土2.093x、.98.442x+- HYPERLINK l bookmark294 o Current Document nn14712=9.8土9.613巴的%置信区间为:n19.8土2.86。9心乔卞+7=98土131407.22(1)(xx)za+“12a2Vnn121s2亶=2土1.96x
34、J036=2土1.176(2)s2=p(n1)s2+(n1)s29x16+9x201122=18n+n212仅供个人参考仅供个人参考仅供个人参考仅供个人参考不得用于商业用途不得用于商业用途不得用于商业用途不得用于商业用途|11,_11(X-X)t(n+n-2)s+=22.1X;18x=23.9812a212pnn512(注+逞)2nnV=(s2n)2&2n)2=17-7811+22-n-1n-112Is2s2i(X-X)土t(V).+=2土2.1x3.6=2土3.9812a2nn121(4)t(28)=2.0480.025(n-1)s2+(n-1)s2s2二+22=18.714pn+n-212
35、TOC o 1-5 h z111.I11(X-X)土t(n+n-2)s+=2土2.04818.714x+-12a?127pnn102012s2s2(十+4s2s2(十+4)2nn121(5)V=12-(s2,n)2(s2.n)211+22-n-1n一1121620(+)2420=20.051.6212+-919Is2s2,X)t(v)a+a=22.086xv1.6+1=2+3.3642a2nnl1217.231)巴匕-d)27.231)巴匕-d)2=JHl“閒1n-1482)d土t(n一1)a2s7需=4土4.1857.24:0一1)二2.6216d二11,s厂6.53197卩的置信区间为:7
36、.24_s653197d土t(n-1)亠=11土2.6216x=11土5.4152a2壬n2.16)=1-0.9846=0.0154。所以在a=0.01的显着水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。8.13解:根据题意,这是左单侧检验问题。p1已知:pp1已知:p2104=,n=11000,11000i189=,n=11000,110002293p=,显著水平a=0.0522000在大样本条件下当a=0.05,杳表得z=1.645。1-a拒绝域W=ZYz1-a因为z=-4.9992Yz,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。1a0(注:z为正态分布的1-a下侧分位
37、点)1-a8.14解:(1)根据题意,这是双侧检验问题。已知:52=0.03,s2=0.0375,n=80,显著水平a=0.050当a=0.05,利用EXCEL提供的统计函数“CHIINV”,得X2(79)=56.3089,咒2(79)=105.4727。TOC o 1-5 h z1-a/2a/2拒绝域W=X2YX2(79)或咒2AX2(79) HYPERLINK l bookmark213 o Current Document 1-a、2a、2因为X2(79)YX2=98.75YX2(79),所以不能拒绝也,认为H:52=0.03 HYPERLINK l bookmark215 o Curr
38、ent Document 1-a/2a/200成立。(注:X2(79)为X2-分布的a上侧分位点)a(2)根据题意,这是双侧检验问题。已知:总体方差52=0.03当a=0.05,查表得z=1.96。1-a/2拒绝域W=比卜乂_a/2l因为|z|=0.5196Y|z10t/2|,所以不能拒绝H0,认为螺栓口径为7.0cm。(注:z为正态分布的1-a/2下侧分位点)1-a/2因此,由(1)和(2)可得:这批螺栓达到了规定的要求。8.15(1)根据题意,这是双侧检验问题。已知:s2=56,n=25,s2=49,n=16,显著水平a=0.051122当a二0.05,利用EXCEL提供的统计函数“FIN
39、V”,得F(79)二0.4195,F(79)二2.6138。TOC o 1-5 h z1-a/2a/2拒绝域W=FYF(79)或尸AF(79)1-a、2a、2因为F(25,16)YF=2.6138YF(25,16),所以不能拒绝H0,认为1-a/2a/20H92=2成立。012(注:F(25,16)为F-分布的a/2上侧分位点)a/2(2)根据题意,这是右单侧检验问题。由(1)的分析可知:总体方差2=2,但未知12当a=0.05,查表得t(39)=1.6849。a拒绝域W=tAt(39)因为t=1.7112At(39),所以拒绝H0,认为有显着大学中男生学习成绩比女生a/20好。(注:t(39
40、)为t分布的a上侧分位点)a第十章方差分析一、思考题什么是方差分析?它研究的是什么?答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显着影响。它所研究的是分类型自变量对数值型因变量的影响。要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?答:做两两比较十分繁琐,进行检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显着性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真实的原假设。方差分析包括哪些类型?它们有何区别?答:方差分析可分为单因素方差分析和双因素
41、方差分析。区别:单因素方差分析研究的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。方差分析中有哪些基本假定?答:(1)每个总体都应服从正态分布(2)各个总体的方差宀必须相同(3)观测值是独立的简述方差分析的基本思想答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显着影响。解释因子和处理的含义答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。解释组内误差和组间误差的含义答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(S
42、SA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。解释组内方差和组间方差的含义答:组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。简述方差分析的基本步骤答:(1)提出假设(2)构造检验统计量(3)统计决策方差分析中多重比较的作用是什么?答:通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。二、练习题10.1解:方差分析差异源SSdfMSFPvalue组间618.91672309.45834.65740.04087724组内598966.44444总计1216.91711相同10.2解:方差分析差异源SSdfMSFP
43、-value组间93.76812423.4420315.823371.02431E-05组内26.66667181.481481总计120.434822不相同10.3解ANOVA每桶容量(L)平方和df均方F显着性组间0.00730.0028.7210.001组内0.004150.000总数0.01118不相同。10.4解:方差分析差异源SSdfMSFP-value组间29.60952214.8047611.755730.000849组内18.89048151.259365总计48.517有显着性差异。10.5解:方差分析差异源SSdfMSFP-value组间615.62307.817.068
44、390.00031组内216.41218.03333总计83214有显着差异。LSD检验:计算得XA=44.4,XB=30,XC=42.6,有因为nA=nB=nc=5,则决策:(1)X一x|=|44.4一30=14.45.62,所以a生产企业生产的电池与B生产企AB业生产的电池平均寿命有显着差异;(2)X一x|=|44.4一42.6=1.8v5.62,所以不能AC认为A生产企业生产的电池与C生产企业生产的电池平均寿命有显着差异;(3)X-X=|30-42.6=12.65.62,所以b生产企业生产的电池与C生产企业生产的电BC池平均寿命有显着差异。10.6解:方差分析差异源SSdfMSFP-va
45、lue组间5.34915622.6745788.2745180.001962组内7.434306230.323231总计12.7834625有显着性差异1071)方差分析表差异源SSDfMSFP-valueFcrit组间42022101.0.2459463.354131组内383627142.0740741总计425629(2)若显着性水平a=0.05,检验三种方法组装的产品数量之间是否有显着差异?P=0.025a=0.05,没有显着差异。10.8解:方差分析差异源SSdfMSFP-valueFcrit行1.54933340.38733321.719630.0002367.006077列3.4
46、8421.74297.682242.39E-068.649111误差0.14266780.017833总计5.17614F=21.71963F=7.006077或p=0.000236F=8.649111或p=2.39E-06vx=0.01,所以不同供应商生Cx产的轮胎的磨损程度有显着性差异。10.9解:方差分析差异源SSdfMSFP-valueFcrit行19.06744.766757.2397160.0033153.259167列18.181536.06059.2046580.0019493.490295误差7.901120.658417总计45.149519结果表明施肥方法和品种都对收获量
47、有显着影响。10.10解:方差分析差异源SSdfMSFP-valueFcrit行22.22222211.111110.0727270.9310566.944272列955.55562477.77783.1272730.1521556.944272误差611.11114152.7778总计1588.8898F=0.072727vF=6.944272或p=0.931056x=0.05,所以不同销售地区Rx对食品的销售量无显着性差异;=3.127273vF=6.944292或p=0.i52x=0.05,所以不同包装对食品的销售量无显着性差异。解:方差分析差异源SSdfMSFP-valueFcrit样
48、本1752287648.666675.49E-086.012905列798239922.166671.4E-056.012905交互182.6667445.666672.5370370.0759024.579036内部3241818总计3056.667261)竞争者的数量对销售额有显着影响(2)超市位置对销售额有显着影响(3)无交互作用10.12解:方差分析差异源SSdfMSFP-valueFcrit样本344217210.750.0103865.143253列4814830.1339755.987378交互562281.750.2519325.143253内部96616总计54411广告方案
49、对销售量有显着影响广告媒体形式对销售量无显着影响无交互作用第11章一元线性回归一、思考题111变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点:八、变量之间确实存在着数量上的依存关系;变量之间数量上的关系是不确定、不严格的依存关系。112相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括:变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?113在进行相关分析时,对总体主要有以下两个假定:1两个变量之间是线性关系;两个变量都是随机变量。11.4.相关系数的性质:(l)r
50、的取值范围是-1,1,r为正表示正相关,r为负表示负相关,r绝对值的大小表示相关程度的高低;对称性:X与Y的相关系数r和Y与X之xy间的相关系数r相等;相关系数与原点和尺度无关;相关系数是线性关联或线性相依yx的一个度量,它不能用于描述非线性关系;相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性。11.5.在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r的取值也会不同,
51、因此r是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进行显着性检验。11.6.相关系数显着性检验的步骤:(1)提出假设;计算检验统计量t值;在给定的显着性水平Q和自由度,查t分布表中相应的临界值,作出决策。11.7.回归模型是对统计关系进行定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项的方程称为回归模型。回归方程是对变量之间统计关系进行定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本统计量
52、代替回归方程中的未知参数,就得到了估计的回归方程。11.8.元线性回归模型通常有以下几条基本的假定:变量之间存在线性关系;在重复抽样中,自变量x的取值是固定的;误差项是一个期望为零的随机变量;)对于所有的X值,误差项的方差b2都相同;误差项是一个服从正态分布的随机变量,且相互独立。即口N(0Q2)。11.9.参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。11.10.总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的程度或不确定性的程度回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量y不
53、确定性程度中能被解释变量x解释的部分残差平方和是除了x对y的线性影响之外的其他因素引起的y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是:总平方和=回归平方和+残差平方和。11.11.回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。11.12.在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显着,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显着性水平,作出判断。t检验是回归系数的显着性检验,要检验自变量对因变量的影响是否显着,通过构造t检验统计量,提出假设,根据显着性水平,作出判断。11.13.线性关系检验的步骤:提出
54、假设;H:0=0;构造F检验统计量;01SSR/1SSR/1MSRF=SSE/(n-2)MSE;根据显着性水平,作出判断。回归系数检验的步骤:提出假设;Ho:0i二0;Hi:0i丰0;构造t检验统计量;t二T;根据显着性水平,作出判断。sB111.14.回归分析结果的评价可以从以下几个方面:回归系数的符号是否与理论或事先预期相一致;自变量与因变量之间的线性关系,在统计上是否显着;根据判定系数的大小,判断回归模型解释因变量取值差异的程度;误差项的正态假定是否成立。11.15.置信区间估计是对X的一个给定值X,求出y的平均值的区间估计。预测区0间估计是对x的一个给定值X,求出y的一个个别值的区间估
55、计。二者的区别是:置信区0间估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一个特定值或个别值更精确。11.16.残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法.判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。二、练习题11.1.(1)散点图如下:从散点图可以看出,产量与生产费用之间为正的线性相关关系。利用Excel的“CORREL”函数计算的相关系数为r二0.920232。首先提出如下假设:H0:p=0,H1:pH0。计算检
56、验的统计量当a=0.05时,t(122)=2.228。由于检验统计量t7.435t=2.228,拒0.052a2绝原假设。表明产量与生产费用之间的线性关系显着。11.2(1)散点图如下:从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。利用Excel的“C0RREL”函数计算的相关系数为r0.8621。相关系数r0.8,表明复习时间与考试分数之间有较强的正线性相关关系。11.3.(1)匚10表示当x0时y的期望值为10。(2)B0.5表示x每增加一个01单位,y平均下降0.5个单位。(3)X6时,E(y)100.5x67。1.4.(1)R2SSR1.4.(1)R2SSRSSTSSRS
57、SR+SSE3636+490%R290%表示,在因变量y取值的变差中,有90%可以由x与y之间的线性关系来解释。s=Js=J巫“工n-218-2=0.5S二0.5表示,当用x来预测y时,平均的预测误差为0.5。e115(1)散点图如下:从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。利用Excel的“C0RREL”函数计算的相关系数为r二0.9489。相关系数r0.8,表明运送距离与运送时间之间有较强的正线性相关关系。由Excel输出的回归结果如下表:回归统计MultipleR0.948943RSquare0.900492AdjustedRSquare0.888054标准误差0.4
58、80023观测值10方差dfSSMSFSignificanceF回归分析116.6816216.6816272.395852.79E-05残差81.8433790.230422总计918.525Coefficients标准误差tStatP-valueIntercept0.1181290.3551480.332620.74797XVariable10.0035850.000421&5085752.79E-050.002613得到的回归方程为:y=0.118129+0.003585x回归系数=0.003585表示运送距离每增加1公里,运送时间平均增加0.003585天。116(1)散点图如下:从散
59、点图可以看出,人均GDP与人均消费水平为正的线性相关关系。利用Excel的“C0RREL”函数计算的相关系数为r二0.998128。相关系数接近于1,表明人均GDP与人均消费水平之间有非常强的正线性相关关系。Excel输出的回归结果如下表:回归统计MultipleR0.998128RSquare0.996259AdjustedRSquare0.995511标准误差247.3035观测值7方差分析dfSSMSFSignificanceF回归11331.6922.91E-07残差530579561159.01总计6Coefficients标准误差tStatP-valueIntercept734.6
60、928139.54035.2650940.003285XVariable10.3086830.00845936.492362.91E-07得到的回归方程为:y二734.6928+0.308683x。回归系数P=0.308683表示人均1GDP每增加1元,人均消费水平平均增加0.308683元。判定系数R2二0.996259。表明在人均消费水平的变差中,有99.6259%是由人均GDP决定的。首先提出如下假设:H:0=0,H:0H00111由于SignificanceFa二0.05,拒绝原假设,表明人均GDP与人均消费水平之间的线性关系显着。y二734.6928+0.308683x5000二22
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 目标工作计划模板集锦五篇
- 大学生认识实习报告范文九篇
- 公司年会演讲稿15篇
- 学科渗透工作计划合集7篇
- 道德讲堂安全主题
- 安全教案范文合集8篇
- 公司周年庆演讲稿模板合集六篇
- 公司新员工转正工作总结10篇
- 高二演讲稿怎么写?【五篇】
- 会计岗位实习报告3000字7篇
- 《基于javaweb的网上书店系统设计与实现》
- 《皇帝的新装》课件
- 国家开放大学电大《基础写作》期末题库及答案
- 劳动教育五年级上册北师大版 衣服破了我会补(教案)
- DB3502∕T 139-2024“无陪护”医院服务规范通 用要求
- 期中模拟练习(试题)-2024-2025学年统编版语文二年级上册
- 人教版九年级历史下册第10课-《凡尔赛条约》和《九国公约》(共31张课件)
- 2023年法律职业资格《客观题卷一》真题及答案
- 教科版 三年级上册科学知识点归纳梳理
- 2024年初级经济师考试经济基础知识真题及答案
- 2024年人教版七年级英语(上册)期末考卷及答案(各版本)
评论
0/150
提交评论