统计学重点整理_第1页
统计学重点整理_第2页
统计学重点整理_第3页
统计学重点整理_第4页
统计学重点整理_第5页
免费预览已结束,剩余13页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章导论1.1参数:用来描述总体特征的概括性数字度量,用来描述总体特征.统计量:用来描述样本特征的概括性数字度量.1.3一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60加答他们的月收入在5000元以上,50%勺人答复他们的消费支付方式是用信用卡.这一研究的总体是什么?样本是什么?样本量是多少?详细答案:总体是“所有IT从业者,样本是“所抽取的1000名IT从业者,样本量是1000.1.4一项调查说明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格廉价.1这一研究的总体是什么?2研究者所关心的参数是什么?3研究者所使用的主要是描述统计方法还

2、是推断统计方法?详细答案:1总体是“所有的网上购物者.2网上购物消费者的平均花费3推断统计方法.推断统计是研究如何用样本数据来推断总体特征的统计方法.第二章数据的搜集1、根据统计数据的收集方法,可以将其分为观测数据和实验数据.2、收集数据的根本方法是自填式、面访式和式.第三章数据的图表展示1.1为评价家电行业售后效劳的质量,随机抽取由100家庭构成的一个样本.效劳质量的等级分别表示为:A.好;B.较好;C.一般;D.较差;E.差.调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEA

3、BDDCADBCCAEDCBCBCEDBCCBC1用Excel制作一张频数分布表.(2).绘制一张条形图,反映评价等级的分布.(3).绘制评价等级的Pareto帕累托图,4.绘制一张饼图,反映评价等级的构成.详细答案:1频数分布表如下:效劳质量等级评价的频数分布效劳质量等级家庭数频数频率%A1414B2121C3232D1818E1515合计100100精选3.4利用下面的数据构建箱线图和茎叶图精选41252947383430384340463645373736454333443528463430374426384442363737493942323635按销售额分组万元频数天频率%25304

4、10.03035615.035401537.54045922.54550615.0合计40100.04直方图:2条形图如下:评价等线3帕累托图如下:4饼图如下:3.3某百货公司连续40天的商品销售额如下单位:万元根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图.详细答案:1确定组数:数据中最大值为49,最小值为25,知数据全距为49-25=24,确定将数据分为5组;2确定组距:组距=最大值-最小值/组数=49-25/5=4.8,取组距为5;3频数分布表:某百货公司日商品销售额频数分布表某百道公司三商品锚售领分布的直方图572929363123472328283551391846182

5、650293321464152282143194220详细答案:1箱线图:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数下四分位数QL和上四分位数QU,然后连接两个四分位数画出箱子,再将两个极值点与箱子相连接4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B3539404444485152525455565657575758596061616263646668687070717173747479818283838485

6、9091919495961001001001将两个班的测试成绩用一个公共的茎制成茎叶图;精选左偏分布电检错售茄Stt-m-iirwFrequencyitem&Loot3.003.001 1. .HR9HR95.5.0000U*01037r.M2.2.002.003.13IMIM3.5fi93.5fi93,003,004.4.1 1必3.幽t.6673.003.005.0t2|kOO5 5唱7 7Stemwidth:10Eachleaf:Eachleaf:1CHKEKG分布的形状与轴线图对称分布右偏分布(2)比拟两个班的测试成绩的离散程度.(3)如果让你选择一个班,你会选择哪一个?试说明

7、理由(4)比拟两个班测试成绩分布的特点.详细答案:(1)Stem-and-LeafPlotFrequencyLeafA班StemLeafB班Frequency03592144044842975122456677789121197665332110601123468892398877766555554443332100700113449876655200812334566632220901145660100003Stemwidth:10Eachleaf:1casesA、B两个班学生的数学测试成绩分布的茎叶图第四章数据的概括性度量24710101012121415(2)A班的测试成绩的离散系数vs

8、S标准差=1.97/7.2=0.2736XB班的测试成绩的离散系数vsS标准差=0.74/6.93=0.1068X(3)选择第二种.由于第二种方式平均等待时间为6.96,比第一种方式平均等待时间短,而且第二种排队方式的标准差离散系数V2=0.1068,小于第一种排队方式的标准差离散系数VI=0.2736,说明第二种方式的等待时间离散程度也小于第一种3.12A*甲流乙就优6 6理皤申LHLH及福9 9不MfrMfr1 12 21几何平均数:cG一、Vr卜n(蹙!乘符号);异众比率:nxii1fmff是变量值的总频数,口是众数的频数);四分位差:Q=QU-Q;平均差:MXx|;标准分数:xiXZi

9、-1.1一家汽车零售店的n10名销售人员5月份销售的汽车数量(单位:辆)排序后如下:(4)比拟可知:A班测试成绩的分布比拟集中,且平均分数较高;B班测试成绩的分布比A班分散,且平均成绩较A班低1 1根飘上加的昼孤.町百个比庄或成柒曲可上条段用,界电3.12甲乙M个二II芥仃帽.必学Uk末统计学与W展演为分相七卜!:匕“Htn.认工瑞,;也为心.,./启中由*,分和分人/比乙913,40!913,40!与打表施缝甲嚷叫4 4?收卷,附怅驿依小.0 0?册田马足.此横杵4iliAMhi)4iliAMhi)也比dfiIKLdfiIKL精选(1)计算汽车销售量的众数、中位数和平均数.(2)根据定义公式

10、计算四分位数.(3)计算销售量的标准差.(4)说明汽车销售量分布的特征.详细答案:将汽车销售数量按升序排序:24710101012121415(1)汽车销售数量出现频数最多的是10,所以众数M=10(辆)中位数位置=(10+1)/2=5,5,所以中位数为Me=(10+10)/2=10(辆)nXii1平均数X=(2+4+7+10+10+10+12+12+14+15)/10=9.6(辆)(2)下四分位数 QL的位置=n/4=10/4=2.5即 QL在第2个数和第3个数之间0.5的位置上因此,Q=4+(7-4)*0.5=5.5(辆)上四分位数Q的位置=3n/4=3*10/4=7.75即QU在第7个数

11、和第8个数之间0.75的位置上因止匕,Q=12+(12-12)*0.75=12.75(辆)(3)1n2(Xix)si1标准差:I In1n1=,(2-9.6)2+(4-9.6)2+(7-9.6)2+(10-9.6)2+(10-9.6)2+(10-9.6)2+(12-9.6)2+(12-9.6)2+(14-9.6)2+(15-9.6)2/9=2.042(辆)(4)(可画出数据分布直方图.)数据集中在Q和Q之间,分布较为集中,数据稍有左偏分布,稍微扁平分布.(集中趋势离散程度偏态(左偏、右偏、对称)峰态(扁平、尖峰、峰态适中)xcM-x*.1/.左偏分布对莉由布4.8经验法那么说明:当一组数据对称

12、分布时,约有68%勺数据在平均数土1个标准差的范围之内;约有95%勺数据在平均数土2个标准差的范围之内;约有99%勺数据在平均数土3个标准差的范围之内.4.9标准分数:4Xx、选择高的.1S第11章一元线性回归r=0时,说明丫的取值与X无关,即二者不存在线性相关关系.都不能说X与丫不相关或不存在任何关系.r的绝对值大于0.8时为高度相关;在0.5到0.8之间为中度相关;0.3与0.5之间为低度相关;小于0.3视为不相关.11.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:企业编号产量(台)生产费用(万元)企业编号产量(台)生产费用(万元)1一40130784165242150

13、81001703501559116167精选甲粒 eQ中康的以yMt,2(6-2)=0.069,拒绝H0,产量与生产费用之间存在着显著的线性相关关系.假设t,2,不拒绝H0,没有证据说明产量和生产费用之间有显著的线性关系.(4)Xiynxy-ncoXinXy?4回归系数1的意义:表示生产费用每增加万元,产量平均增加1.027895台.(5)判定系数R2SSRSSTn?i1nyi1ny?2i1n-2?yi1费用的变动引起的.注:判定系数等于相关系数的平方,即,SST=SSR+SSE所以R2=85.43%,说明在产量的变差中,有85.43%是由于生产R2=r2)一、Se估计标准误差nyy?2i1n

14、2SSEMSEn2,所以Se=0.5o意义:表示用生产费用预测产量的平均估计误差为0.5台.(6)提出假设:H0:0尸0,H1:0产0;计算检验的统计量:作出决策:假设|t|t,2,拒绝140-140-17C-17C-产 IDO-IDO-奈 80-80-60-60-W-W-精选uSSR1MSR.F.-F(1,n2)(7)提出假设:H0:01=0,两个变量之间线性关系不显著;计算检验统计量F:SSEn2MSE,所以求得F=11.235;根据显著性水平“、分子自由度df1=1和分母自由度df2=n-2查F分布表,找到临界值F“作出决策:假设FF,拒绝H0,说明产量和生产费用之间的线性关系是显著的;

15、假设FF,不拒绝H0,没有证据说明产量和生产费用之间有显著的线性关系.X145)o求出置信区间:147.49,148.6711.9某汽车生产商欲了解广告费用(x)对销售量(V)的影响,收集了过去12年的有关数据.通过计算得到下面的有关结果:方差分析表变差来源dfSSMSFSignificanceF回归2.17E-09残差40158.07一一总计111642866.67一一一参数估计表Coefficients标准误差tStatP-valueIntercept363.689162.455295.8231910.000168XVariable11.4202110.07109119.977492.17

16、E-09(1)完成上面的方差分析表.(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?(3)销售量与广告费用之间的相关系数是多少?详细答案:(1)方差分析表的.,_2,_(3)r=VR=V0.9725=98.62%第十二章多元线性回归12.2根据下面Excel输出的回归结果,说明模型中涉及多少个自变量?多少个观察值?写出回归方程,值对模型进行讨论.SUMMARYOUTPUT回归统计MultipleR0.842407变差来源dfSSMSFSignificanceF回归1(1)1422708.6(SSR)1422708.6(MSR=SSR/df)399.1000065(F=MSR/MSE)

17、2.17E-09残差10(n-2)40158.07(SSE)4015.807(MSE=SSE/df)一一总计111642866.67一一一2nn_2t2(n2)Se(8)置信区间:1XOn1i12)x2Xx,预测区间:?0t.2(n2)Se|1n2X0 xnXii1(其中 y y0=-0.3295+1.027895预测区间:150.46,155.73R2(2)判定系数SSRSST22o所以yR=V422708.6/14e?866fe7=97.25%,说明在汽车销售量的变差中,有97.25%是由于广告费用的变动引起2并根据F、Se、R及调整的Ra的r1RSquare0.709650(0.8424

18、072)精选AdjustedRSquare0.630463标准误差109.429596观测值15(n)方差分析df88MSFSignificanceF回归3(k)321946.8018107315.60068.9617590.002724残差11(n-k-1)131723.198211974.84总计14(n-1)453670Coefficients标准误差tStatP-valueIntercept657.0534167.4595393.9236550.002378XVariable15.7103111.7918363.1868490.008655XVariable2-0.4169170.32

19、2193-1.2939980.222174XVariable3-3.4714811.442935-2.4058470.034870详细答案:(1)模型中涉及3个自变量,15个观察值.(2)估计的回归方程为:?=657.0534+5.710311X1-0.416917X2-3.471481X3.(3)拟合优度:从判定系数R2=0.709650和调整的判定系数Ra2=0.630463,说明在因变量的变差中,有63.05%是由于三个自变量的变动引起的.(4)估计标准误差8.=109.429596,表示用自变量预测因变量的平均估计误差为109.429596,预测误差比拟大.(5)线性关系的显著性检验:

20、SignificanceF=0.002724a=0.05,说明因变量丫与3个自变量之间的线性关系显著.(5)回归系数的检验:01的t检验的P=0.008655a=0.05,y与X2线性关系不显著;03的t检验的P=0.034870a=0.05,y与X3线性关系显著.这可能意味着模型中存在多重共线性.12.4一家电气销售公司的治理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计.下面是近8个月的销售额与广告费用数据.月销售收入y(万元)电视广告费用勺(万元)报纸广告费用叼(万元)965.01.5902.02.0F954.01.5922.52.5953.03.3943.5

21、2.3942.54.2943.02.5(1)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程.(2)对上述估计方程中电视广告费用的回归系数进行解释.(3)在销售收入的总变差中,被估计的回归方程所解释的比例是多少.精选(4)检验线性关系是否显著(a=0.05).(5)检验回归系数是否显著(a=0.05).详细答案:?.?.(1)?-01X1-2X2o需要用Excel计算,得出y=83.23+2.29xi+1.3x2O(2)电视广告费用的回归系数表示:在报纸广告费用不变的情况下,电视广告费用每增加1万元,月销售额平均增加2.29万元._222(yy)(y?t)(?y)D2

22、2、n1Ra1(1R)(3)多重判定系数R2=SSR/SSTSSTSSES乐,所以R2=0.919;调整的 nk1,2Ra=0.88665o说明在销售收入的息变差中,被估计的多兀回归万程所解释的比例为88.665%.(4)提出假设:H0:01=02=0,H1:01和02至少有一个不等于0;计算检验统计量F:,所以求得F=19.704;作出决策:根据显著性水平、分子自由度df1=2和分母自由度df2=n-k-1=5查F分布表,找到临界值FF,拒绝H0,说明销售收入与电视广告费用和报纸广告费用之间的线性关系是显著的;假设Ft/2,拒绝H0,说明y与X1之间有显著的线性关系;|t2|t倒,拒绝H0,

23、说明y与X2之间也有显著的线性关系.第十三章时间序列分析和预测13.1下表是1981年一1999年国家财政用于农业的支出额数据年份支出额(亿元)年份支出额(亿元)1981110.211991347.571982120.491992376.021983132.871993440.451984141.291994532.981985153.621995574.931986184.21996700.431987195.721997766.391988214.0719981154.761989265.9419991085.761990307.84(1)绘制时间序列图描述其形态.(2)计算年平均增长率.

24、(3)根据年平均增长率预测2000年的支出额.详细答案:(1)时间序列图如下:(5)提出假设:对于任意参数0i(i=1,2),H0:0尸0,H1:0iW0计算检验的统计量:SeSSEnk1),得出11=2.29/0.304=7.53,12=1.3/0.32=4.05作出决策:根据给定显著性水平Sea=0.05和自由度=n-k-1=5查表得ti21.、2Xi(Xi)精选Y.-JWS57&-1=113.55%-1-13.554年平均增长率Gn1,所以G=Y110,21Y.(3)2000年的支出额预测值为=105576x(1-1355J4)=1232S8O第十三章时间序列分析和预测1.时间序

25、列类型:平稳序列、有趋势的序列、有季节性的序列、有季节性和趋势的序列、有周期性的序列、随机性序列.1、增长率:环比增长率与定基增长率.环比增长率:G=Y/Yi-i-1,表现逐渐变化的程度;定基增长率:G=Y/Yb1,表现总增长变化程13.1下表是1981年一1999年国家财政用于农业的支出额数据年份支出额(亿元)年份支出额(亿元)1981110.211991347.571982120.491992376.021983132.871993440.451984141.291994532.981985153.621995574.931986184.21996700.431987195.7219977

26、66.391988214.0719981154.761989265.9419991085.761990307.84(1)绘制时间序列图描述其形态.(2)计算年平均增长率.(3)根据年平均增长率预测2000年的支出额.详细答案:MSE度.均方误差:增长1脸勺绝对值表示增长率每增长1个百分点而增加的绝对数量.误差平方和误差个数n(YFi)2i1n精选班悌从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势.年份国另财神用T农业的支出靓河I(1)时间序列图如下:从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势.(2)年平均增长率为:Gn!Y1=n,(1085.76/1

27、10.21)-1=113.55%-1=13.55%丫.“(3)2000年的支出额预测值为:丫=1085.76*(1+13.55%)=1232.8813.2下表是1981年一2000年我国油彩油菜籽单位面积产量数据(单位:kg/hm2)年份单位面积产量年份单位面积产量1981145119911215198213721992128119831168199313091984123219941296198512451995141619861200199613671987126019971479198810201998127219891095199914691990126020001519(1)绘制时间

28、序列图描述其形态.(2)用5期移动平均法预测2001年的单位面积产量.(3)采用指数平滑法,分别用平滑系数a=0.3和a=0.5预测2001年的单位面积产量,并说明用哪一个平滑系数预测更适宜?(4)建立一个趋势方程预测各月的营业额,计算出估计标准误差.详细答案:(1)时间序列图如下:(2)2001年的预测值为:丫(1367+1479+1272+1469+1519)/5=1421.2(3)年份单位面积产量指数平滑预测误差平方指数平滑预测误差平方a=0.3a=0.519811451198213721451.06241.01451.06241.0198311681427.367236.51411.5

29、59292.3198412321349.513808.61289.83335.1198512451314.34796.51260.9252.0198612001293.58738.51252.92802.4198712601265.429.51226.51124.3198810201263.859441.01243.249833.6198910951190.79151.51131.61340.8199012601162.09611.01113.321518.4199112151191.4558.11186.7803.5199212811198.56812.41200.86427.7199313

30、091223.27357.61240.94635.8精选比拟误差平方可知,a=0.5更适宜.199412961249.02213.11275.0442.8199514161263.123387.71285.517035.9199613671308.93369.91350.7264.4199714791326.423297.71358.914431.3199812721372.210031.01418.921589.8199914691342.116101.51345.515260.3200015191380.219272.11407.212491.7合计一一291455.22001年a=0.3

31、时的预测值为:F2001239123.0Y2000(1)F2000=0.3*1519+(1-0.3)*1380.2=1421.82001年a=0.5时的预测值为:F2001丫2000(1)F2ooo=0.5*1519+(1-0.5)*1407.1=1263.1ABCDE1年/季度时间标号t销售量Y中央化移动平均值CMA比值(Y/CMA)22000/1125-32232-43337(1)1.208254426(2)0.812562001/15300.89897263834.5001.10148374234.8751.20439483034.8750.8602102022/192936.0000.8056112103937.6251.0365123115038.3751.3029134123538.5000.9091142022/1133038.6250.7767152143939.0001.0000式,即得a和 bobo13.5以下为某啤酒生产企业1完整表格.2计算各季的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论