统计学第三版袁卫编辑课后复习资料_第1页
统计学第三版袁卫编辑课后复习资料_第2页
统计学第三版袁卫编辑课后复习资料_第3页
统计学第三版袁卫编辑课后复习资料_第4页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学第一章1. 什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系, 统计学阐述的统计方法来源于对统计数据的研究, 目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域, 主要通过统计调查方式来获得, 如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。 非抽样误差是由于

2、调查过程中各环节工作失误造成的, 从理论上看, 这类误差是可以避免的。 抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。4.答:( 1)有两个总体: A 品牌所有产品、 B 品牌所有产品(2)变量:口味(如可用10 分制表示)(3)匹配样本:从两品牌产品中各抽取 1000 瓶,由 1000 名消费者分别打分,形成匹配样本。( 4)从匹配样本的观察值中推断两品牌口味的相对好坏。第二章、统计数据的描述思考题1 描述次数分配表的编制过程答:分二个步骤:( 1) 按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时, 可将其每个具体的表现作为一个组, 或者几个表现

3、合并成一个组,这取决于分组的粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组; 组距式分组将变量的取值范围 (区间)作为一个组。统计分组应遵循“不重不漏”原则( 2) 将数据分配到各个组,统计各组的次数,编制次数分配表。2解释洛伦兹曲线及其用途答:洛伦兹曲线是20 世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。 洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常1/1

4、8用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。4 怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值, 数据信息提取得最充分,具有良好的数学性质, 是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性, 由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。5 对比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征, 不同于一般数据的和为总量的性质,由此需采用几何平均。6.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个

5、主要测度, 众数和中位数是从数据分布形状及位置角度来考虑的, 而均值是对所有数据计算后得到的。 众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。7 为什么要计算离散系数?答:在比较二组数据的差异程度时, 由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。练习题:1. 频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率 %A1414B2121C3232D1818E1515合计100100条形图(略)2 (1)采用等距分组:n=40全距

6、=152-88=64取组距为10组数为64/10=6.4取 6 组频数分布表如下:40 个企业按产品销售收入分组表按销售收入分组企业数频率向上累积向下累积(万元)(个)( % )企业数频率企业数频率100 以下512.5512.540100.02/18100 110922.51435.03587.5110 1201230.02665.02665.0120 130717.53382.51435.0130 140410.03792.5717.5140 以上37.540100.037.5合计40100.0(2 )某管理局下属40 个企分组表按销售收入分组(万元)企业数(个)频率( %)先进企业112

7、7.5良好企业1127.5一般企业922.5落后企业922.5合计40100.03 采用等距分组全距 =49-25=24n=40 取组距为 5,则组数为 24/5=4.8 取 5 组频数分布表:按销售额分组(万元)频数(天数)25-30430-35635-401540-45945-506合计403/1851510y19cneuqer66F540253035404550sales4. ( 1 )排序略。( 2 )频数分布表如下:100 只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率( % )65066022660670556706806668069014146907002626

8、7007101818710720131372073010107307403374075033合计100100直方图(略)。( 3)茎叶图如下:65186614 5686713 46796811 2333455588996900 1111222334455666778888997000 11223456667788897100 223356778894/187201225678997335 67414 75 等距分组n=65 全距 =9-(-25)=34取组距为 5,组数 =34/5=6.8, 取 7 组频数分布表:按气温分组天数-25-208-20-158-15-1010-10-514-5-0

9、140-545-107合计655114140101yc88neu7qerF540-30-20-10010tempture7 (1)茎叶图如下:A 班树茎B 班数据个数树叶树叶数据个数03592144044842975122456677789121197665332110601123468895/182398877766555554443332100787812334566632220901145660100003(3 )A 班考试成绩的分布比较集中, 且平均分数较高; B 班考试成绩的分布比A 班分散,且平均成绩较 A 班低8. 箱线图如下:(特征请读者自己分析)各城市相对湿度箱线图95857

10、5655545Min-Max3525%-75%Median value北京长春南京郑州武汉广州成都昆明兰州西安9(1 ) x=274.1 (万元); Me =272.5; QL=260.25 ; QU =291.25 。( 2) s21.17 (万元)。310甲企业平均成本i 1m1ix1 19.41(元),3m1ii 1x1i3i1m2i乙企业平均成本x2 18.29(元);3m1ii1x2i原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。kxi fi11 x =i 1426.67(万元);kfisi 1k2xi xfii 1116.

11、48( 万元 )kf i1i 113(1)离散系数,因为它消除了不同组数据水平高低的影响。6/18vs4.20.024172.1(2)成年组身高的离散系数:;vs2.30.03271.3幼儿组身高的离散系数:;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。14 表给出了一些主要描述统计量方法 A方法 B方法 C平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126标准偏差2.13标准偏差1.75标准偏差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值12

12、8先考虑平均指标,在平均指标相近时考虑离散程度指标。应选择方法 A,其均值远高于其他两种方法,同时离散程度与其他两组相近。15(1) 风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值( value at risk )。( 2)无论采用何种风险度量,商业类股票较小( 3)个人对股票的选择,与其风险偏好等因素有关。第四章1. 总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n 的样本x1 , x2 ,L , xn ,它的分布称为样本分布。由样本的某个函数所形成的统计量 f x1,

13、x2 ,L , xn ,它的分布称为抽样分布(如样本均值、样本方差的分布)2. 重复抽样和不重复抽样下,样本均值的标准差分别为:22Nnn,N1n因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3. 解释中心极限定理的含义答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在, 对总体进行重复抽样时, 当样本容量充分大, 样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。7/18第四章、参数估计1简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有 ?1 和 ?2 ,如果 E?,称

14、 ?1 是无偏估计量;如果?1和 ?2是无偏估计1量,且D ?1 小于D?2 ,则 ?1 比 ?2 更有效;如果当样本容量n, ?1,则 ?1 是相合估计量。2.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下, 根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间, 使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。3解释置信水平为95的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为 95的置信区间的含义是指, 在相同条件下多次抽样下, 在所有构造的置信区间里大约有 95包含总体参数的

15、真值。4简述样本容量与置信水平、总体方差、允许误差的关系z /222答:以估计总体均值时样本容量的确定公式为例:n2E样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。练习题:2.解:由题意:样本容量为n49( 1) 若15,x152.143n49( 2)0.05, Ez /21.96*2.1434.20028nx120, xz / 2, x z / 2120 4.20028,120 4.20028(3) 若nn115.7997,124.200283. 解:由题可得: n36, x3.317, s1.609尽管采用不重复抽样,但因为样本比例很小(不到 0.5%),其抽样误差与重复抽

16、样下近似相同,采用重复抽样的抽样误差公式来计算。8/18n36 为大样本,则在的显著性水平下的置信区间为:x z / 2s , x z / 2snn当0.1, z / 21.64 ,置信区间为( 2.88,3.76)当0.05, z / 21.96 ,置信区间为 (2.80,3.84)当0.01, z / 22.56 ,置信区间为 (2.63,4.01)5 解:假设距离服从正态分布,n16, x9.375, s 4.113平均距离的95的置信区间为s, x t 0.025 15sx t0.025 15nn( 7.18,11.57)7 解:由题意: n50, p3264% 。50因为 np, n

17、 1p 均超过 5,大样本(1)总体中赞成比率的显著性水平为的置信区间为pp 1 pp 1pz / 2n, p z /2n当0.05时, Ez / 2p 1p1.96*64%*36%n13.3%50置信区间为( 50.7%,77.3%)(2) 如果要求允许误差不超过 10,置信水平为 95,则应抽取的户数:211.962 *0.8*0.2z / 262n20.12E8. 此题需先检验两总体的方差是否相等:2222H0: 12,H1: 12在 5%的显著性水平下, Fs12 / s2296.8 /102.0 0.949F0.025 (13,6)5.37, F0.975 (13,6)1/ F0.0

18、25 (6,13) 1/ 3.6 0.28 , 不拒绝原假设认为两总体方差是相同的。( 1)211190%, x1 x2 t0.05 19 sp1479.8 1.729 98.44*0.21 9.8 1.729*4.559/18即( 1.93 ,17.669 )( 2)195%, x1 x2 t0.025 19 sp2 119.8 2.093 98.44*0.21 9.8 2.093*4.55147即( 0.27 ,19.32 )11. 大样本的情况p1p2p11p1p2 1p2z /2n1n2( 1) 90%置信度下40% 30% 1.645*40%*60%30%*70%6.979%(3.0

19、21%,16.979 )25010%250( 2) 95%置信度下40% 30% 1.96*40%*60%30%*70%8.316%( 1.684%,18.316%)25025010%12解:由题可计算: s120.2422 , s220.0762两个总体方差比12 /22 在 95的置信区间为:s12 / s22,s12 / s224.06,14.35F /2 n1 1,n2n11,n211F1/214解:由题意:120, z /21.96, E20z221.962 *120 2则必须抽取的顾客数为:n/ 2139E 2202第五章、 假设检验思考题11理解原假设与备择假设的含义, 并归纳常

20、见的几种建立原假设与备择假设的原则 .答:原假设通常是研究者想收集证据予以反对的假设; 而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:( 1)原假设和备择假设是一个完备事件组。 ( 2)一般先确定备择假设。再确定原假设。(3)等号“”总是放在原假设上。 ( 4)假设的确定带有一定的主观色彩。( 5)假设检验的目的主要是收集证据来拒绝原假设。10/182第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?答:第 I 类错误指,当原假设为真时, 作出拒绝原假设所犯的错误, 其概率为。第 II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在

21、其他条件不变时,增大,减小;增大,减小。3什么是显著性水平?它对于假设检验决策的意义是什么?答:假设检验中犯第一类错误的概率被称为显著性水平。 显著性水平通常是人们事先给出的一个值, 用于检验结果的可靠性度量, 但确定了显著性水平等于控制了犯第一错误的概率, 但犯第二类错误的概率却是不确定的, 因此作出 “拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。4什么是 p 值? p 值检验和统计量检验有什么不同?答:p 值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。 P 值常常作为观察到的数据与原假设不一致程度的度

22、量。统计量检验采用事先确定显著性水平 ,来控制犯第一类错误的上限, p 值可以有效地补充 提供地关于检验可靠性的有限信息。 p 值检验的优点在于,它提供了更多的信息, 让人们可以选择一定的水平来评估结果是否具有统计上的显著性。5什么是统计上的显著性?答:一项检验在统计上是显著的(拒绝原假设) ,是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的练习题3解( 1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60 克,但店方拒收并投诉。( 2)第二类错误是, 供应商提供的炸土豆片的平均重量低于 60 克,但店方没有拒收。(3)顾客会认为第二类错误很

23、严重, 而供应商会将第一类错误看得较严重。4解:提出假设H 0 :6,H2 :6已知1.19,n 100,0.05(1) 检验统计量为 Zx6 : a N 0,1n11/18(2) 拒绝规则是:若 Zz ,拒绝 H 0 ;否则,不拒绝 H 0(3) 由 x 6.35 得: Z6.3561.64 ,拒绝 H 0,认为改进工1.192.94 z0.05100艺能提高其平均强度。5 解: 设为如今每个家庭每天收看电视的平均时间(小时)需检验的假设为:H 0 :6.70, H 1 :f6.70调查的样本为: n200, x7.25, s2.5大样本下检验统计量为:x6.707.256.700.55*1

24、4.14zn2.5 /2003.11s /2.5在 0.01 的显著性水平下,右侧检验的临界值为z0.012.33因为 z2.33 ,拒绝 H 0 ,可认为如今每个家庭每天收看电视的平均时间增加了6.解:提出假设H 0 :222, H 1:22TVVCR 0.75TV 0.75已知: n30, s22,0.05检验统计量2n1 s229*210322942.557220.05VCR0.75拒绝 H 0 ,可判定电视使用寿命的方差显著大于VCR7.解:提出假设: H 0 :125,H1 : 1250.02, n1100, n2 50 ,独立大样本,则检验统计量为:x1 x2514.810.45z

25、5.1458s12s220.820.62n1n210050而 z0.012.33因为 zz / 2 ,拒绝 H 0 ,平均装配时间之差不等于5 分钟8. 解:匹配小样本提出假设: H 0 :ab , H 1 :ab由计算得: d0.625, sd1.302, n8,0.05 ,检验统计量为12/18d00.6257 1.8946 ,不拒绝 H 0 ,不能认为广告提高tn1.3577 t0.05sd /1.302/ 8了潜在购买力的平均得分。9.解:提出假设: H 0 : 12,H1:12已知: n1288, p11970.684,n2367, p23010.82,0.1288367大样本,则检

26、验统计量为:p1n1p2n2288*0.684367*0.820.76pn2288367n1zp1 p20.6840.824.04761111p 10.76*0.24pn2288 367n1而 z0.11.29 ,因为 zz0.1 ,拒绝 H 0 ,可认为信息追求者消极度假的比率显著小于非信息追求者。10.解:提出假设: H22220 : 12, H 1: 12由题计算得: n125, s10.221,n222, s20.077检验统计量为:Fs120.22128.2376,而 F0.02524,212.37s220.0772F F / 2 n1 1, n2 1 ,所以拒绝 H 0 ,认为两种

27、机器的方差存在显著差异。第七章相关与回归分析思考题1相关分析与回归分析的区别与联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法, 相关分析主要是判断两个或两个以上变量之间是否存在相关关系, 并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。 它们均是统计方法, 不能揭示现象之间的本质关系。3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例, 总体回归函数是总体因变量的条件期望表现为自变量的函数: E Y X ifX iXi ,或 YiX iui 。

28、总体回归函数是13/18确定的和未知的, 是回归分析所估计的对象。 样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系: y?i ? ?xi 或 yi ? ?xi ei 。回归分析的目的是用样本回归函数来估计总体回归函数。 它们的区别在于, 总体回归函数是未知但是确定的, 而样本回归函数是随样本波动而变化; 总体回归函数的参数 , 是确定的,而样本回归函数的系数?, ? 是随机变量;总体回归函数中的误差项 ui 不可观察的,而样本回归函数中的残差项ei 是可以观察的。4.什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项 ui 表示自变量之外其他变量的对因变量产生的影响

29、,是不可观察的,通常要对其给出一定的假设。残差项 ei 指因变量实际观察值与样本回归函数计算的估计值之间的偏差, 是可以观测的。 它们的区别在于, 反映的含义是不同且可观察性也不同,它们的联系可有下式 :ei yi垐垐xi uixi?xiuixi5. 为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?答 : 最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。 只有在一系列的经典假定下, 最小二乘估计量才是 BLUE。15. 为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数R2 会随之增

30、加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。16在多元线性回归中, 对参数作了 t 检验后为什么还要作方差分析和 F 检验?答:t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验, 方差分析和 F 检验就是对回归方程的整体统计显著性进行的检验方法。练习题1.解:设简单线性回归方程为:y12 x(1) 采用 OLS 估计:?xixyi y334229.092xi20.786x425053.73?y?40.56611x 549.8 0.786*647.

31、8814/18回归系数经济意义:销售收入每增加1 万元,销售成本会增加0.786 万元。xixyi2334229.092( 2) 可决系数为: R2y0.9998xi2yi2425053.73*262855.25xySSE1R2yi20.0002*262855.25回归标准误:?y2.29n212210( 3) 检验统计量为:?0.786t22223.762Se ?2? /xi x2.29/425053.73所以2 是显著不为零( 4) 预测:?12 xf40.5660.786*800669.366y f95%的预测区间为:1x f x212?1.96*?1669.366800 647.88y

32、fnxi21.96*2.29 1425053.73x12即(664.579 , 674.153)2.( 1)2.118.y6.4.2.6570758085x( 2)负相关关系15/18( 3)SourceSSdfMSNumber of obs =9F( 1,7) =24.67Model.6381186861.638118686Prob > F= 0.0016Residual.1810369067.025862415R-squared= 0.7790Adj R-squared =0.7474Total.8191555928.102394449Root MSE=.16082yCoef. St

33、d. Err.t P>|t| 95% Conf. Intervalx-.0704144.0141757-4.970.002-.1039346-.0368941_cons6.0178311.052265.720.0013.5296328.50603( 4)估计的斜率系数为 7.0414 ,表示航班的正点率每提高 1,百万名乘客的投诉次数会下降:次。( 5)如果 x f0.8 ,则 yf6.01780.38468 次3.Results of multiple regression for ySummary measuresMultiple R0.9521R-Square0.9065Adj R

34、-Square0.8910StErr of Est3.3313ANOVA TableSourcedfSSMSFp-valueExplained31937.7485645.916258.20480.0000Unexplained18199.751511.0973Regression coefficientsCoefficientStd Errt-valuep-valueLower limitUConstant32.99313.138610.51210.000026.3991x10.07160.01484.85390.00010.0406x216.87273.99564.22280.00058.4

35、782x317.90424.88693.66370.00187.637216/184.SourceSSdfMSNumber of obs =29F(1,27) =3034.13Model2.9873e+101 2.9873e+10Prob > F=0.0000Residual26583184627 9845623.91R-squared=0.9912Adj R-squared =0.9909Total3.0139e+1028 1.0764e+09Root MSE=3137.8consumpCoef.Std. Err.tP>|t|95% Conf. Intervalgnp.54590

36、54.009910655.080.000.5255705.5662403_cons2426.563809.87893.000.006764.829 4088.298SourceSSdfMSNumber of obs =29F(1,27) =3034.13Model2.9873e+101 2.9873e+10Prob > F= 0.0000Residual26583176927 9845621.08R-squared=0.9912Adj R-squared =0.9909Total3.0139e+1028 1.0764e+09Root MSE=3137.8consumpCoef.Std. Err.t P>|t|95% Conf. Intervalgnpf.5459054.009910655.080.000.5255705.5662403_cons131260.21869.52870.210.000127424.3135096.25.SourceSSdfMSNumber of obs =28F(2,26) =12845.95Model6.2442e+102 3.1221e+10Prob > F=0.0000Residual6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论