统计学高教第三版课后习题答案.pdf_第1页
统计学高教第三版课后习题答案.pdf_第2页
统计学高教第三版课后习题答案.pdf_第3页
统计学高教第三版课后习题答案.pdf_第4页
统计学高教第三版课后习题答案.pdf_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学 第一章 1. 什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与 统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研 究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于 统计学就失去了其存在意义。 2简要说明统计数据的来源 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观 察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得, 如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络 等渠道获得。 3.简要说明抽样误差和非抽样误差 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调 查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免 的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的, 但可以控制的。 4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品 (2)变量:口味(如可用10分制表示) (3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分 别打分,形成匹配样本。 (4)从匹配样本的观察值中推断两品牌口味的相对好坏。 第二章、统计数据的描述 思考题 1描述次数分配表的编制过程 答:分二个步骤: (1) 按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个 表现合并成一个组,这取决于分组的粗细。 按数量标志进行分组,可分为单项式分组与组距式分组 单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围 (区间)作为一个组。 统计分组应遵循“不重不漏”原则 (2) 将数据分配到各个组,统计各组的次数,编制次数分配表。 2解释洛伦兹曲线及其用途 答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利 经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质 的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。 3. 一组数据的分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来 测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散 系数、偏态系数和峰度系数。 4 怎样理解均值在统计中的地位? 答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取 得最充分, 具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特 征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到 非常重要的基础地位。受极端数值的影响是其使用时存在的问题。 5 对比率数据的平均,为什么采用几何平均? 答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和 为总量的性质,由此需采用几何平均。 6. 简述众数、中位数和均值的特点和应用场合。 答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位 数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后 得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直 观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的 信息最充分,但受极端数据的影响。 7 为什么要计算离散系数? 答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和 计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。 练习题: 1. 频数分布表如下: 服务质量等级评价的频数分布 服务质量 等级 家庭数(频 率) 频率% A1414 B2121 C3232 D1818 E1515 合计100100 条形图(略) 2 (1)采用等距分组: n=40 全距=152-88=64 取组距为10 组数为 64/10=6.4 取6组 频数分布表如下: 40个企业按产品销售收入分组表 按销售收入 分组 (万元) 企业数 (个) 频率 (%) 向上累积向下累积 企业 数 频率企业 数 频率 100以下 100110 110120 120130 130140 140以上 5 9 12 7 4 3 12.5 22.5 30.0 17.5 10.0 7.5 5 14 26 33 37 40 12.5 35.0 65.0 82.5 92.5 100.0 40 35 26 14 7 3 100.0 87.5 65.0 35.0 17.5 7.5 合计40100.0 (2) 某管理局下属40个企分组表 按销售收入分组 (万元) 企业数 (个) 频率(%) 先进企业 良好企业 一般企业 落后企业 11 11 9 9 27.5 27.5 22.5 22.5 合计40100.0 3 采用等距分组 全距=49-25=24 n=40 取组距为5,则组数为 24/5=4.8 取5组 频数分布表: 按销售额分组 (万元) 频数(天数) 25-30 30-35 35-40 40-45 45-50 4 6 15 9 6 合计 40 4. (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组 (小时) 灯泡个数 (只) 频率(%) 65066022 66067055 67068066 6806901414 6907002626 7007101818 7107201313 7207301010 73074033 74075033 合计100100 直方图(略)。 (3)茎叶图如下: 6518 6614568 67134679 6811233345558899 6900111122233445566677888899 70001122345666778889 710022335677889 720122567899 73356 74147 5 等距分组 n=65 全距=9-(-25)=34 取组距为5,组数=34/5=6.8, 取 7组 频数分布表: 按气温分组天数 -25 - -20 -20 - -15 -15 - -10 -10 - -5 -5 - 0 0 - 5 5 - 10 8 8 10 14 14 4 7 合计65 7 (1)茎叶图如下: A班树茎B班 数据 个数 树 叶 树叶数据个 数 0 3592 14404484 297512245667778912 119766533211060112346889 23988777665555544433321007001134498 7665520081233456 663222090114566 0 100003 (3) A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分 散,且平均成绩较A班低 8. 箱线图如下:(特征请读者自己分析) 9(1) =274.1(万元);Me =272.5 ;QL=260.25;QU =291.25。 (2) (万元)。 10甲企业平均成本19.41(元), 乙企业平均成本18.29(元); 原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重 较大,因此拉低了总平均成本。 11 =426.67(万元); 116.48(万元) 13(1)离散系数,因为它消除了不同组数据水平高低的影响。 (2)成年组身高的离散系数: ; 幼儿组身高的离散系数: ; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼 儿组身高的离散程度相对较大。 14 表给出了一些主要描述统计量 方法A 方法B 方法C 平均165.6平均128.73平均125.53 中位数165中位数129中位数126 众数164众数128众数126 标准偏 差2.13 标准偏 差1.75 标准偏 差2.77 极差8极差7极差12 最小值162最小值125最小值116 最大值170最大值132最大值128 先考虑平均指标,在平均指标相近时考虑离散程度指标。 应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两 组相近。 15(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要 采用标准差这个统计测度来反映,现代金融中,采用在险值(value at risk)。 (2)无论采用何种风险度量,商业类股票较小 (3)个人对股票的选择,与其风险偏好等因素有关。 第四章 1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它 是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本,它 的分布称为样本分布。由样本的某个函数所形成的统计量,它的分布称 为抽样分布(如样本均值、样本方差的分布) 2.重复抽样和不重复抽样下,样本均值的标准差分别为: 因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个 调整系数 3.解释中心极限定理的含义 答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要 其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大, 样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论 基础。 第四章、参数估计 1 简述评价估计量好坏的标准 答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体 参数的估计量有和,如果,称是无偏估计量;如果和是无偏估计量,且 小于,则比更有效;如果当样本容量,则是相合估计量。 2.说明区间估计的基本原理 答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽 样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包 含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的 长度反映估计的精确度。 3解释置信水平为95的置信区间的含义 答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平 为95的置信区间的含义是指,在相同条件下多次抽样下,在所有构造 的置信区间里大约有95包含总体参数的真值。 4简述样本容量与置信水平、总体方差、允许误差的关系 答:以估计总体均值时样本容量的确定公式为例: 样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。 练习题: 2. 解:由题意:样本容量为 (1) 若 (2) (3) 若 2 解:由题可得: 尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误 差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。 为大样本,则在的显著性水平下的置信区间为: 当,置信区间为(2.88,3.76) 当,置信区间为(2.80,3.84) 当,置信区间为(2.63,4.01) 5解:假设距离服从正态分布, 平均距离的95的置信区间为(7.18,11.57) 7解:由题意:。 因为均超过5,大样本 (1)总体中赞成比率的显著性水平为的置信区间为 当时, 置信区间为(50.7%,77.3%) (2)如果要求允许误差不超过10,置信水平为95,则应抽取的户 数: 8.此题需先检验两总体的方差是否相等: 在5%的显著性水平下, ,不拒绝原假设 认为两总体方差是相同的。 (1) 即(1.93,17.669) (2) 即(0.27,19.32) 11.大样本的情况 (1)90%置信度下 (3.021%,16.979) (2)95%置信度下 (1.684%,18.316%) 12解:由题可计算: 两个总体方差比在95的置信区间为: 14解:由题意: 则必须抽取的顾客数为: 第五章、假设检验 思考题 11理解原假设与备择假设的含义,并归纳常见的几种建立原假设与 备择假设的原则. 答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常 是研究者想收集证据予以支持的假设。建立两个假设的原则有: (1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假 设。再确定原假设。(3)等号“”总是放在原假设上。(4)假设的 确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒 绝原假设。 2第一类错误和第二类错误分别是指什么?它们发生的概率大小之间 存在怎样的关系? 答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其 概率为。第II类错误指当原假设为假时,作出接受原假设所犯的错误, 其概率为。在其他条件不变时,增大,减小;增大,减小。 3什么是显著性水平?它对于假设检验决策的意义是什么? 答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通 常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显 著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不 确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作 出“不拒绝原假设”的结论,其可靠性是难以控制的。 4什么是p值?p值检验和统计量检验有什么不同? 答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本 数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原 假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制 犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有 限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一 定的水平来评估结果是否具有统计上的显著性。 5什么是统计上的显著性? 答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本) 结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义 在于“非偶然的 练习题 3解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60 克,但店方拒收并投诉。 (2)第二类错误是,供应商提供的炸土豆片的平均重量低于60 克,但店方没有拒收。 (3)顾客会认为第二类错误很严重,而供应商会将第一类错误看 得较严重。 4解:提出假设 已知 (1) 检验统计量为 (2) 拒绝规则是:若,拒绝;否则,不拒绝 (3) 由得:,拒绝,认为改进工艺能提高其平均强度。 5解: 设为如今每个家庭每天收看电视的平均时间(小时) 需检验的假设为: 调查的样本为: 大样本下检验统计量为: 在0.01的显著性水平下,右侧检验的临界值为 因为,拒绝,可认为如今每个家庭每天收看电视的平均时间增加了 6. 解:提出假设 已知: 检验统计量 拒绝,可判定电视使用寿命的方差显著大于VCR 7. 解:提出假设: ,独立大样本,则检验统计量为: 而2.33 因为,拒绝,平均装配时间之差不等于5分钟 8. 解:匹配小样本 提出假设: 由计算得:,检验统计量为 ,不拒绝,不能认为广告提高了潜在购买力的平均得分。 9. 解:提出假设: 已知: 大样本,则检验统计量为: 而,因为,拒绝,可认为信息追求者消极度假的比率显著小于非信息 追求者。 10. 解:提出假设: 由题计算得: 检验统计量为:,而 ,所以拒绝,认为两种机器的方差存在显著差异。 相关与回归分析 思考题 1 相关分析与回归分析的区别与联系是什么? 答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相 关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析 变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象 间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有 明显区别。它们均是统计方法,不能揭示现象之间的本质关系。 3.什么是总体回归函数和样本回归函数?它们之间的区别是什么? 答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望 表现为自变量的函数:,或。总体回归函数是确定的和未知的,是回归 分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与 自变量之间的函数关系:或。回归分析的目的是用样本回归函数来估计 总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而 样本回归函数是随样本波动而变化;总体回归函数的参数是确定的,而 样本回归函数的系数是随机变量;总体回归函数中的误差项不可观察 的,而样本回归函数中的残差项是可以观察的。 4. 什么是随机误差项和残差?它们之间的区别是什么? 答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不 可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与 样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在 于,反映的含义是不同且可观察性也不同,它们的联系可有下式: 5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假 定? 答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具 有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定 下,最小二乘估计量才是BLUE。 15. 为什么在多元回归中要对可决系数进行修正? 答:在样本容量一定下,随着模型中自变量个数的增加,可决系数会随 之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精 度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加 自变量的合适性。 16在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F 检验? 答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着 较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F 检验就是对回归方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论