高中参考资料数学-变量间的相关关系与统计案例_第1页
高中参考资料数学-变量间的相关关系与统计案例_第2页
高中参考资料数学-变量间的相关关系与统计案例_第3页
高中参考资料数学-变量间的相关关系与统计案例_第4页
高中参考资料数学-变量间的相关关系与统计案例_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、13第六单元第3讲 变量间的相关关系与统计案例(3课时)一基础知识1 .相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内, 对于两个变量的这种相关 关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的 这种相关关系称为负相关.2 .线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3 .回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小 二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(xi, yi), (x2, y2),,(xn, yn),其回归方

2、程为 y=bx+a,则'、Xyi nxy % (xi x)( y - y) _b = nZT =Z,a = y - bx工 xi2 - nx工(x -x)2i 1i 1其中,b是回归方程的斜率,a是在y轴上的截距.4 .样本相关系数n_nv (xi -x)(yi - y)v XV -nxyr=,用它来衡量两个变量n _ n _ n _2 n _ 2v (xi -x)2v (yi -y)20 xi2 -nx ) y2 - ny )i gi 1 i 1i 1间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表

3、明两个变量的线性相关性越强-r的绝对值越接近于0, 表明两个变量之间几乎不存在线性相关关系.(4)相关性检验的步骤:作统计假设根据小概率0.05与n-2在附表中找出r的一个临界值 S05根据样本相关系数计算公式算出r值 用统计判断,如果| r区ro.o5,那么可以认为y与x之间的线性相关关系不显著,从而接 受统计假设.如果1rA ro.05,表明一个发生的概率不到 5%的事件在一次试验中竟发生了.这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系.5.线性回归模型(1)y= bx+ a+e中,a、b称为

4、模型的未知参数;e称为随机误差.(2)相关指数用相关指数 R2来刻画回归的效果,其计算公式是:nR2=1-¥=1 - /H2%,R2的值越大(接近1),R2的值越大,说二, 2总偏差平万和(yi -小) i 1明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.(2) r具有以下性质:(1)当r>0时,表明两个变量正相关;当 r<0时,表明两个变量负相关;(2)当|r|W1,并且|r|越接近1时,两个变量的线性相关程度越强;当|r|越接近0时,两个变量的线性相关程度越弱;(3)相关性检验

5、的步骤:作统计假设根据小概率0.05与n-2在附表中找出r的一个临界值ro.05根据样本相关系数计算公式算出r值 用统计判断,如果| r |<r0 05,那么可以认为y与x之间的线性相关关系不显著,从而接 受统计假设.如果| r |a r0.05,表明一个发生的概率不到 5%的事件在一次试验中竟发生了.这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系.6.独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例 如:是否吸烟,宗教信仰,国籍等.列出的两个分类变量的频数表

6、,称为列联表.(3)一般地,假设有两个分类变量 X和Y,它们的值域分别为xi, X2和yi, y2, 其样本频数列联表(称为2X2列联表)为:2X2列联表Viy2总计x1aba+ bx2cdc+d总计a+ cb+da+b+c+dK2=止. C Jbc2小丁/ (其中n = a+b+c+d为样本容量),可利用独立性 (a+ b ja+ c jc+ d jb+ d y检验判断表来判断“ x与y的关系”.这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.当K2> 3.841时,则有95%的把握说事A与B有关;当K26.635时,则有99%的

7、把握说事件A与B有关; 当K2三2.706对八则认为事件A与一旦无关二三.题型分析 题型1相关关系的判断题1.某棉业公司的科研人员在 7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):施化肥量x15202530354045棉花)M y330345365405445450455画出散点图;(2)判断是否具有相关关系.审题视点(1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解(1)散点图如图所示H棉花产量500450. , 400*3如."*:0 10 20 30

8、 40 50施化肥或x与产量y具有线(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量 性相关关系.方法总结“利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.题2.根据两个变量x, y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系 殖“是”与“否” ).120« * * 则 6。1*30*«0 150 160

9、 170 L80 L9O解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线 性相关关系.答案否题型2.独立性检验题3为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500老年人,结果如下:姓别 男女 I 1 需要4030不需要160270(1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2) 能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3) 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由审题视点第(2)问由a=40, b = 30, c= 160, d = 2

10、70,代入公式可求 K2,由K2的值与6.635比较断定.第(3)问从抽样方法说明.解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为册14%.2(2)K =_ 一 一 2500X(40X27030X 160 270X430X 200 X 3009.967.由于9.967> 6.635,所以有99%的把握认为该地区老年人是否需要帮助与性别有由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能 看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再

11、把老年人分成男、女两层,采用分 层抽样方法,这要比采用简单随机抽样方法更好.方法总结独立性检验的步骤:(1)根据样本数据制成2X2列联表;(2)根据公式K?=2n ad bc计算K2的观测值;(a+b (a+cj(b+d )(c+ d)(3)比较K2与临界值的大小关系作统计推断.题4.甲乙两个学校高三年级分别有1100人和1000人,为了了解这两个学校全体高三年级学生在该地区二模考试中的数学成绩情况,采用分层抽样方法从两个学校一共抽取了 105名学生的数学成绩,并作出了如下的频数分布统汁表,规定考试成绩在120,150内为优秀.甲校:分组70.80)80,90)90400)>00/110

12、)卷数231015 .分组110,120)120,130)130,140) !140J50)烟数1531甲校乙秩总计优秀非优秀*总计-乙校:分组70,80)80,90)90J001100J10)频教1298110,120)120,130)130,】钳)140,150)1G10y3(I)试求x, y的值;(II)由以上统计数据填写右面 2X2列联表, 若按是否优秀来判断,是否有 97.5%的把握 认为两个学校的数学成绩有差异。(III )根据抽样结果分别估计甲校和乙校的 优秀率,若把频率视为概率,现从乙校学生中任取3人,求优秀学生人数 E的分布列和数学期望。解1(I)由分层抽样知.军校抽取了 5

13、5人成绩.乙校抽取了 50人的成领.所以.产6, y=74分(II)由以上统计数据原写右面2X2列联表如E中校乙校海计优秀10'2030非优秀453075苒计5550105因为或1,6,109 >53.105ao *30-2缶 45 130x75k5Qx55故有97.5%的把握认为,这两个学校的数学成绩有差异.g分(1H)也题意可知:甲校的优秀率为京,己校的优秀率为2.由题意可知t随机变盘§=0,1.2.3r且严4 = 02匚“氏一+、晶*-2)=。舟(1凸,* -一JJ 口从而求得4的分布列为:.0123P2754125示T故e的数学期里E4=3又2 = 612分?彳

14、题型3.线性回归方程题5(2012范泽模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记 录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y2.5344.5请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a; (3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出 的线性回归方程.预测生产 100吨甲产品的生产能耗比技改前降低多少吨标准 煤?(参考数值:3X2.5 + 4X3+5X4+6X4.5=66.5) . A A 一 审题视点(2)问利用公式求a、b,即可求出线性回归方程.问将x=

15、 100代入回归直线方程即可.解(1)由题设所给数据,可得散点图如图所示.近能耗:吨标准盘)4由对照数据,计算得:2x2 = 86,i=13+4+5+644.5(吨)2.5 3 4 4.5y 二 4;3.5(吨).4已知 £xiyi=66.5, i= 1所以,由最小二乘法确定的回归方程的系数为:4Zxiyi 4 x ya _ i = 166.5 4X4.5X3.5 _b = -4二二86 4X4.52 二 °.乙%x2-4x21 = 1A a a= y b x =3.5 0.7X4.5=0.35.因此,所求的线性回归方程为y=0.7x+ 0.35.(3)由(2)的回归方程及

16、技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90(0.7X 100+0.35)= 19.65(吨标准煤).方法总结在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.题6.有10名同学高一(x)和高二(V)的数学成绩如下:局,成绩x74717268767367706574高二成绩y76757170767965776272(1) y与x是否具有相关关系?(2)如果y与x具有相关关系,求回归直线方程.参考数据:_1010101010x -71, y -72.3?y -710?y, -723?xiyi =51467r

17、 x2-50520? y;=52541.i 1i 1i 1i 1i 1r,然后根据显著性%时认为不具有相关分析:判断两变量之间是否具有相关关系,首先要求出其相关系数水平a及自由度df = n -2查相关系数临界值表找临界值r,当r >关系;当r >ro(时认为具有相关关系,求回归直线方程则比较简单,只要求出a与b的值即可.解:(1):由已知表格中所给数据进行计算,得:_1010101010x -71, y -72.3? yi -710? y产723r xiyi =51467: xi2 =50520p y; =52541.i 1i 1i 1i 1i 110“ Xiyi -10xyi

18、1厂 1010Xi2 10X2)yt2 -10y2)i 1i J51467-71 723:2_ _2(50520-10 71 )(52541-10 72.3 ):0.7802972又查得附表3中相应在于显著性水平0.05和df =n-2的相关系数临界值bos =0.632由r a s.05知,y与x具有相关关系.说明:这类问题思路一般不是很复杂,掌握比较容易,但往往运算量较大,很容易出现计算错误,这就需要在计算时仔细准确,还要能熟练地使用科学计算器,从而解题速度和准确性.第六单元第3讲作业1 .(人教A版教材习题改编)下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格

19、C.身高与体重D.铁块的大小与质量解析 A, B, D都是函数关系,其中A一般是分段函数,只有 C是相关关系.答案 C2 .对变量x, y有观测数据(Xi, yi)(i = 1,2,,10),得散点图(1);对变量u, v 有观测数据(Ui、vi)(i = 1,2,10),得散点图(2).由这两个散点图可以判断()图(1)图(2)A.变量 x与y正相关,u与 v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析 由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各 点整体呈递增趋势,u与v正相关.答案 C3. (

20、2012南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方 程可能是().A. _ _ A. _A.y= - 10x+200B.y=10x+200a . _ _ _a_ _ _ _C.y = 10x 200D.y =10x 200解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为x, y不能为负数,再排除C,故选A.答案 A4. (2012枣庄模拟)下面是2X2列联表:y1y2合计xia2173x2222547合计b46120则表中a, b的值分别为().A. 94,72 B. 52,50 C. 52,74 D. 74,52解析.a + 21 = 73,a = 52

21、,又 a + 22=b,b=74.答案 C5 .在一项打鼾与患心脏病的调查中,共调查了 1 671人,经过计算K2的观测值 k= 27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的(有 关,无关).解析由观测值k=27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关.答案有关6 .某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了 1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x(。C)1011131286就诊人数y(个)22252926

22、1612该兴趣小组确定白研究方案是 :先从这六组数据中选取 2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(I)求选取的2组数据恰好是相邻两个月的概率;(II )若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;(m)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?n n_、xyi -nxy '、(Xi -x)(yi -y) _(参考公式:b =冲=t ,a = y-bx)n2n, xi nx '、 (xi x) i 1i

23、 1解:(I )设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情一 .一. .5况有5种,所以P=?15(n)由数据求得x=11、=24 由公式求得b=7再由 a = y-bx =7所以y关于x的线性回归方程为1830y = 一 x77(出)当x=10时,y =150150,I -22|<2;同样,当 x=6 时,y=78, | 78 -14 |<2 77所以,该小组所得线性回D3方程是理想的.7 .某食品厂为了检查甲乙两条自动包装流水线的生产情况,随即在这两条流水线上各抽取40件产品作为样本称出它

24、们的重量(单位:克) ,重量值落在(495,510的产品为合格品,否则为不合格品.图1是甲流水线样本的频率分布直方图,表1是乙流水线样本频数分布表.(I)若以频率作为概率, 试估计从甲流水线上任取 5件产品,求其中合格品的件数 X的数 学期望;(n)从乙流水线样本的不合格品中任意取2件,求其中超过合格品重量的件数Y的分布列;甲流水线乙流水线合计合格品a =b =不合格品c =d =合计n 二(出)由以上统计数据完成下面 2父2列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”附:下面的临界值表供参考:2 -P(K 士k)0.150.100.050.0250.0100

25、.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:K2n(ad -bc)2(a b)(c d)(a c)(b d),其中 n = a b c d )解:(I)由图1知,甲样本中合格品数为(0.06 +0.09+ 0.03)父5M 40 = 36 ,敢合格品的频率为下二0一9,据此可估计从甲流水线上任取一件产品该产品为合格品的概率 40产=0 9,则故=4 分(II)由表1簸遍煨样本中不合格品共1口公,超过合格品重量的有4件;则Y的取值为CTC20,1,2;且 P(Y=k) = C4LC6C;°(k = 0,1,2),于是有:182p(y=0)=3, P(Y=1户行P(Y=2)二126 分30 20 25 2517 Y的分布列为10分Y012P13821515甲流水线乙流水线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论