版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计案例一、一周知识概述统计案例是在概率统计内容的基础上, 通过典型案例进一步介绍回归分析的基本思 想、方法及其初步应用; 通过典型案例介绍独立性检验的基本思想、 方法及其初步应用, 使同学们认识统计方法在决策中的应用回归分析的部分内容在必修3 中已出现过,在此基础上, 本章通过典型案例 “女大学生身高和体重的关系 ”进一步讨论一元线性回归模 型,分析产生模型中随机误差项的原因还介绍了一元线性回归模型的残差平方和分解 的思想在独立性检验中,如何结合例题介绍独立性检验的思想是重点内容二、重难点知识归纳1回归分析的基本思想及其初步应用(1) 回归分析:对具有相关关系的两个变量进行统计分析的一种常用
2、方法(2) 线性回归模型与一次函数的区别线性回归模型方程为 y=bx a e,e 称为随机误差(或为残差变量),在实际问题 中,线性回归模型适用的范围要比一次函数大得多当残差变量恒等于时,线性回归 模型就变为一次函数模型 因此一次函数模型是线性回归模型的特殊形式, 线性回归模 型是一次函数模型的一般形式(3) 总偏差平方和、残差平方和、回归平方和偏差平方和分解公式: 其中 称为总偏差平方和, 称为回归平方和, 称 为残差平方和偏差平方和分解公式也可以表示为:总的偏差平方和回归平方和残差平方和相关指数公式:又可表示为(4) 残差分析利用残差图进行残差分析的具体步骤如下: 计算每组观测数据的残差
3、,即残差等于观测值减预测 值 画残差图残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量 x、或因变量的预测值等,残差图是一种散点图 分析残差图 找异常值根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离 横坐标轴的点,如果存在远离坐标轴的点,就要研究它出现的原因,如是否在数据收集 和录入中发生了错误,如果有错误,改正后重新建立回归模型2独立性检验的基本思想及其初步应用(1) 分类变量与定量变量分类变量:也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取 值仅表示个体所属的类别定量变量:定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值 之间的运算也
4、有特定的含义(2) 列联表列联表一般为两个以上分类变量的汇总统计表, 书中仅限于研究两个分类变量的列 联表,并且每个分类变量只取两个值,这样的列联表称为22 的列联表(3) 应用假设检验方法解决实际问题把两个分类变量独立性检验的基本思想表述为:当很大时,就把假设检验的基本思想具体化到独立性检验中,就可以通过随机变量认为所涉及的两个分类变量有关系;否则,就认为没有充分的证据显示这两个变量有关 系三、典型例题剖析 例 1一位母亲记录了儿子 39岁的身高, 数据如下表 由此建立的身高与年龄的回归 模型为 用这个模型预测这个孩子 10 岁时的身高,则正确的叙述是 ()年龄岁3456789身高 cm94
5、.8104.2108.7117.8124.3130.8139.0A 身高一定是 145.83 cmB 身高在 145.83 cm 以上C身高在 145.83 cm 左右D身高在 145.83 cm 以下解析例 2 若有一组数据的总偏差平方和为120,相关指数为 0.6,则回归平方和为(B72D120A60C48解析例 3若一组观测值( x1,y1)( x2,y2)(xn,yn)之间满足 yi=bxi+a+ei (i=1,2, ,n若), ei 恒为 0,则 R2 为.解析例 4 某厂为了研究生产率与废品率之间的关系,记录了7 天的数据,试根据以下数据建立废品率与生产率的回归模型生产率个 周11
6、000200030003500400045005000废品率 /%5.26.56.88.110.210.313解析例 5 在对人们的休闲方式的一次调查中,共调查了124 人,其中女性 70 人,男性 54人女性中有 43人主要的休闲方式是看电视,另外 27 人主要的休闲方式是运动;男性 中有 21人主要的休闲方式是看电视,另外 33 人主要休闲方式是运动(1)根据以上数据建立一个 22 的列联表;(2)判断性别与休闲方式是否有关系例一 解析:回归方程得出的并不是其精确身高,而只是其预报身高一般身高还要 受到随机误差的影响 故并不能确定身高的具体数据或范围,只能根据回归模型得到其 大约数值故选
7、C.例二 解析:根据公式有 ,则可得残差平方和 48,又总的偏差平方和回归平方和残差平方和,故可得回归平方和 12048=72故选.例三 解析: ei 恒为 0,则说明残差变量为 0,那么有残差平方和为 0,则有1例四解析:用 y 表示废品率,用 x 表示生产率那么废品率和生产率的关系可以用以下的线性回归模型来表示:,y=bxa e利用最小二乘法公式:那么可算得则线性回归方程为 例五解析: (1)2 2 的列联表为(2) 假设“休闲方式与性别无关”,计算因为 ,所以有理由认为假设 “休闲方式与性别无关是” 是不合理的, 即有 97.5%的把握认为“休闲方式与性别有关” 在线测试一、选择题 1在
8、画两个变量的散点图时,下面哪个叙述是正确的()A 预报变量在 x 轴上,解释变量在 y 轴上B解释变量在 x 轴上,预报变量在 y 轴上C可以选择两个变量中任意一个变量在x 轴上D可以选择两个变量中任意一个变量在y 轴上2炼钢时钢水的含碳量与冶炼时间有()A确定性关系B相关关系C函数关系)分析来分析D无任何关系3身高与体重有关系可以用(A残差B回归C二维条形图D独立检验4.在两个变量 y与 x的回归模型中,分别选择了 4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )A模型 1的相关指数 R2为 0.98B模型 2的相关指数 R2为 0.80C模型 3 的相关指数R2 为
9、0.50D模型 4 的相关指数Ay 平均增加 2.5 个单位Cy 平均减少 2.5 个单位D y 平均减少 2 个单位R2 为 0.25 5设有一个回归方程为 y=22.5x,则变量 x 增加一个单位时( )B y 平均增加 2 个单位6已知 x 与 y 之间的一组数据:x0123y1357则 y 与 x 的线性回归方程为 y=bx a 必过点( )A2,2)B( 1.5,0)C1,2)D( 1.5,4)7在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A越大B越小D以上都不对C无法判断8下列结论正确的是()函数关系是一种确定
10、性关系;相关关系是一种非确定性关系;回归关系是对具有函数关系的两个变量进行统计分析的一种方法;回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法ABCD9有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;相关指数 R2 来刻画回归的效果, R2值越大,说明模型的拟合效果越好;比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟 合效果越好其中错误命题的个数是( )A0B1C2D310在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A若 K 2的观测值为 k=6.635,我们有 99%的把握认为吸烟与患肺病有关系,那么
11、在10 个吸烟的人中必有 99人患有肺病;B从独立性检验可知有 99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟 那么他有 99%的可能患有肺病;C若从统计量中求出有 95% 的把握认为吸烟与患肺病有关系, 是指有 5% 的可能性使得推判出现错误;D以上三种说法都不正确B卷、填空题11有下列关系:( 1)人的年龄与他(她)拥有的财富之间的关系;(2)曲线上的点与该点的坐标之间的关系;( 3)苹果的产量与气候之间的关系;( 4)森林中的同一种 树木,其断面直径与高度之间的关系;( 5)学生与他(她)的学号之间的关系,其中 有相关关系的是 12回归直线方程为 y=0.5x 0.81,则 x=2
12、5时, y的估计值为 13许多因素都会影响贫穷,教育也许是其中之一在研究这两个因素的关系时,收集 了美国 50 个州的成年人受过 9 年或更少教育的百分比( x)和收入低于官方规定的贫困 线的人数占本州人数的百分比 (y)的数据,建立的回归方程为 y 0.8x4.6斜率的估计 等于 0.8说明 ,成年人受过 9年或更少教育的百分比 (x)和收入低于官方的贫困线的人数占本州人数的百分比(y)之间的相关系数 (填充“大于 0”或 “小于 0”)14若由一个 22 列联表中的数据计算得 k2=4.013,那么有把握认为两个 变量有关系答案三、解答题15.一台机器使用的时间较长, 但还可以使用, 它按
13、不同的转速生产出来的某机械零件有 一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽 样试验的结果:转速 x(转 /秒 )1614128每小时生产有缺点的零件数 y (件)119851)变量 y 对 x 能否进行相关性检验;(2)如果 y对 x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10 个,那么机器的运转速度应控制在什么范围内?答案16为了研究患慢性气管炎与吸烟量的关系, 调查了 228 人,其中每天的吸烟支数在 10 支以上的 20支以下的调查者中,患者人数有 98 人,非患者人数有 89 人,每天的吸烟 支数在 2
14、0支以上的调查者中,患者人数有 25人,非患者人数有 16 人(1) 根据以上数据建立一个 22 的列联表;(2) 试问患慢性气管炎是否与吸烟量相互独立?答案第 1 题答案错误 !正确答案为B第 2 题答案错误 !正确答案为B第 3 题答案错误 !正确答案为B第 4 题答案错误 !正确答案为A第 5 题答案错误 !正确答案为C第 6 题答案错误 !正确答案为D第 7 题答案错误 !正确答案为A第 8 题答案错误 !正确答案为C第 9 题答案错误 !正确答案为A第 10 题答案错误 !正确答案为C提示:1根据散点图的特征可以得出,解释变量在x轴上,预报变量在 y 轴上4根据相关指数含义,相关指数
15、越高,拟合效果越好5是斜率估计值,因为是一个负值,就说明当 x 每增加一个单位时, y就减少 2.5 个单位y=2x1,6根据表中数据作出的散点图为一直线,可求得线形回归方程为 那么此图象必过点( 1.5,4)11 (1)(3)(4)1211.6913一个地区受过 9 年或更少教育的百分比每增加 1%,收入低于官方规定的贫困 线的人数占本州人数的百分比将增加0.8%左右,大于 01495%15解: (1)可算得 r 0.995 ,r 接近与 1,所以 y与 x 有线性性相关关系(2) 可以把 y 与 x 的关系用下面的线形回归模型来表示:y=bxa e根据最小二乘法,可算得 ,故线形回归方程为
16、 y=0.7286x 0.8571 (3) 由 0.7286x0.8571 10,可算得 x 14.901316解:( 1)根据已知数据建立 22 的列联表如下:2)假设“患慢性气管炎与吸烟量无关”,则又 ,有 40%的把握认为患慢性气管炎与吸烟相互独立(或作答:没有充分证据认为患慢性气管炎与吸烟有关)高考解析例 1、 (2009 年辽宁文 )某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在( 29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出500 件,量其内径尺寸的结果如下表:甲厂:分组29.86,29.90 )29.90,29.94)29.94,29.9
17、8)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂:分组29.86,29.90 )29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数2971851597662181)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面 22 列联表,并问是否有 99%的把握认为 “两个分厂生 产的零件的质量有差异 ”甲厂乙厂合计优质品非优质品合计解析:1)甲厂抽查的产品中有 360 件优质品,从而甲厂生产的零件的优
18、质品率估计为乙厂抽查的产品中有 320 件优质品,从而乙厂生产的零件的优质品率估计为2)甲厂乙厂合计优质品360320680非优质品140180320合计5005001000x、y 有观测数据( xi ,yi )( i=1 , 2, , 10), vi)( i=1 ,2,10),得散点图 2.由这所以有 99%的把握认为 “两个分厂生产的零件的质量有差异例 2 、( 2009 年宁夏海南卷)对变量 得散点图 1:对变量 u,v 有观测数据( ui, 两个散点图可以判断( )A变量 x与y正相关, u与 v正相关B 变量 x 与 y 正相关, u 与 v 负相关C变量 x 与 y 负相关, u 与 v 正相关D变量 x 与 y 负相关, u 与 v 负相关答案: C解析:由题图 1 可知,各点整体呈递减趋势, x 与 y 负相关由题图 2 可知,各点整体呈 递增趋势, u 与 v 正相关例 4 、下列有关线性回归的说法不正确的是()A变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关 系B在平面直角坐标系中用描点的方法得到具有相关关系的两个变量的一组数据的图形
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工聘用协议书2023
- 个人租房的合同协议书范本10篇
- 再婚离婚协议书2025年
- 重症肌无力样综合征病因介绍
- T-CIECCPA 011-2024 高杂贵金属冶炼渣资源化处理技术规范
- 中考历史复习第一部分教材知识速查模块2中国近代史第1讲列强的侵略与中国人民的抗争公开课一等奖省
- (2024)汽车内饰用品项目可行性研究报告写作范本(一)
- 2023年金属门窗及类似制品项目融资计划书
- 2023年纺织产品项目筹资方案
- 《开环伯德图的绘制》课件
- 妊娠期高血压疾病诊治指南(2022版)解读
- 公章证照使用登记表
- 政府经济学网上作业-第2次任务-以“政府支出”为主题-撰写一篇不少于1000字的小论文
- 哈萨克斯坦劳动法中文版
- 格构护坡施工方案完整
- 肾恶性肿瘤的护理查房
- 软件项目验收确认书
- 环境科学统计与建模方法-南京大学中国大学mooc课后章节答案期末考试题库2023年
- 青岛科技大学机械设计基础期末复习题
- 全国优质课大赛一等奖道德与法治人教版八年级上册《维护国家安全》大单元教学设计精美课件
- 幼儿园大班科学聪明的中国人
评论
0/150
提交评论