




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
成对数据的线性相关性1、所求直线方程叫做回归直线方程;相应的直线叫做回归直线。2、对两个变量进行的线性分析叫做线性回归分析。回归直线方程温故知新最小二乘法:称为样本点的中心。温故知新2、求回归直线方程的步骤:(3)代入公式(4)写出直线方程为y=bx+a,即为所求的回归直线方程。^温故知新
我们知道,如果变量y是变量x的函数,那么由x就可以唯一确定y.然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度.
例如,人的体重与身高存在关系,但由一个人的身高并不能确定他的体重值.那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题.引入新课
我们知道,一个人的体重与他的身高有关系.一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.像这样,两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.变量的相关关系两个变量具有相关关系的事例在现实中大量存在.例如:1.子女身高y与父亲身高x之间的关系;2.商品销售收入y与广告支出x之间的关系;3.空气污染指数y与汽车保有量x之间的关系;4.粮食亩产量y与施肥量x之间的关系.
对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断.“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足.
因为在相关关系中,变量y的值不能随变量x的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系.因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或判断.思考1:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示.表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.编号1234567年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2编号891011121314年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征.
用横轴表示年龄,纵轴表示脂肪含量,则上表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了下面的统计图,我们把这样的统计图叫散点图.
观察图象可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄的增加,相应的脂肪含量值呈现增加的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
根据图象,能够推断脂肪含量与年龄这两个变量正相关.
散点图是描述成对数据之间关系的一种直观方法.观察图象,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在一条直线附近.
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
观察下面的散点图,我们发现:图(1)中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;图(1)图(2)图(3)
类似地,图(2)中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;图(3)中的散点杂乱无章,无规律可言,看不出这两个变量有什么相关性.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.例1.(多选)下列关系中,属于相关关系的是(
)A.正方形的边长与面积之间的关系B.农作物的产量与施肥量之间的关系C.出租车费与行驶的里程D.降雪量与交通事故的发生率之间的关系BD变式:1.已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)(3)分别反映的两变量间的相关关系是(
)A.①②③B.②③①C.②①③D.①③②D
问题提出相关系数
如图7-7,易知这7组成对数据均位于单位圆上,所以X和Y不具备线性关系.
因此,为了使建立的线性回归方程有意义,在利用最小二乘法求线性回归方程之前,我们需要先对变量之间的线性关系作一个判断,如果数据不多,可以根据给定的数据画出散点图,再从直观上进行观测.但是对一般的情形又如何判断呢?分析理解
抽象概括
显然,样本(线性)相关系数r的取值范围为[―1,1].
|r|值越接近1,随机变量之间的线性相关程度越强;|r|值越接近0,随机变量之间的线性相关程度越弱.
当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关;
当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关;
当r=0时,此时称两个随机变量线性不相关.相关系数r>0正相关;r<0负相关.通常,,认为两个变量有很强的相关性.本例中,由上面公式.2024/2/72024/2/7如何描述两个变量之间线性相关关系的强弱?
我们学习了用相关系数r来衡量两个变量之间线性相关关系的方法。相关系数r2024/2/72024/2/7相关关系的测度
(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加2024/2/72024/2/71.思考辨析(正确的画“√”,错误的画“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.(
)(2)两个变量的相关系数越大,它们的相关程度越强.(
)(3)当一个变量的值增加时,另一个变量的值随之减少,则称这两个变量负相关.(
)(4)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.(
)√××√巩固提升2.对变量
x,y,由观测数据得散点图(1);对变量
y,z,由观测数据得散点图(2).由这两个散点图可以判断(
)A.变量
x与
y正相关,
x与
z正相关B.变量
x与
y正相关,
x与
z负相关C.变量
x与
y负相关,
x与
z正相关D.变量
x与
y负相关,
x与
z负相关D3.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是(
)A.-0.95B.-C.0.15D.解析:相关系数r<0时,成对数据负相关,且|r|越大,两个变量之间的线性相关程度越强.答案:A4.用线性回归模型求得甲、乙、丙3组不同的数据的线性相关系数分别为,-,,其中________(填甲、乙、丙中的一个)组数据的线性相关性最强.解析:|r|越接近1,两个变量的线性相关性越强,而|-0.98|>|0.81|>|0.63|,所以乙组数据的线性相关性最强.答案:乙例1计算表7-1中随机变量之间的样本相关系数度(结果保留到小数点后的第9位),并谈谈通过计算发现了什么.
解(1)根据表7-1,得到表7-4.
例2计算表7-5中两个随机变量之间的样本相关系数二并谈谈通过计算发现了什么.
解(1)根据表7-5.
变式1:
为了对2020年某校期末成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:学生编号12345678数学成绩x6872788185889193物理成绩y7066818379809289
变式2:在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753解:变式2:在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753列出残差表为因而,拟合效果较好。0成对数据的线性相关性
我们知道,一名学生学习中的不同学科成绩有着密不可分的关系,但它们之间的相关性如何呢?与我们的普遍认识之间是否存在差异呢?下面以化学成绩和物理成绩为例加以说明.例3
表7-7中是在某校高二年级中抽取了246名学生的化学成绩(单位:分)和物理成绩(单位:分),求这组成对数据中化学成绩和物理成绩的样本相关系数.解鉴于学生人数较多,手动计算样本相关系数工作量较大,这里借助Excel软件进行分析(注意:分析时,需要将数据进行整理,排成3列,246行).(1)画出它们的散点图,如图7-10.(2)求出样本相关系数r=0.397.这个结果说明该校高二年级学生的化学成绩和物理成绩之间的线性相关性比较弱.案例
一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?温度xoC21232527293235产卵数y/个711212466115325非线性回归问题补充提升选模型由计算器得:线性回归方程为y=x
相关指数R2=r22估计参数解:选取气温为解释变量x,产卵数为预报变量y。选变量所以,一次函数模型中温度解释了74.64%的产卵数变化。探索新知画散点图050100150200250300350036912151821242730333639方案1分析和预测当x=28时,y=19.87×28-463.73≈93一元线性模型假设线性回归方程为:奇怪?93>66?模型不好?
y=bx2+a变换y=bt+a非线性关系线性关系方案2问题1选用y=bx2+a,还是y=bx2+cx+a?问题3
产卵数气温问题2如何求a、b?合作探究
t=x2二次函数模型方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=t,相关指数R2将t=x2代入线性回归方程得:
y=x2当x=28时,y=0.367×282-202.54≈85,且R2,所以,二次函数模型中温度解释了80.2%的产卵数变化。t问题2变换y=bx+a非线性关系线性关系问题1如何选取指数函数的底?产卵数气温指数函数模型方案3合作探究对数方案3解答温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数y/个711212466115325xz当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为
对数变换:在中两边取常用对数得令,则就转换为z=bx+a.相关指数R2最好的模型是哪个?产卵数气温产卵数气温线性模型二次函数模型指数函数模型比一比函数模型相关指数R2线性回归模型0.7464二次函数模型0.80指数函数模型0.98最好的模型是哪个?回归分析(二)则回归方程的残差计算公式分别为:由计算可得:x21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.00-40.104-58.26577.968因此模型(1)的拟合效果远远优于模型(2)。变式.
某出版社单册图书的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123571011202530y9.025.274.063.032.592.282.211.891.801.75例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西省安康市2024-2025学年高三下学期第二次质量考试(二模)地理试题(含答案)
- 企业对外沟通与合作记录表
- 乡村旅游规划设计服务协议
- 产品保密与知识产权保护契约书
- 倒装句的构成与识别:英语语法知识巩固教案
- 乡村土地承包经营奖补资金使用协议
- 二手房买卖过户网签协议
- 健康饮食品牌推广合同书
- 本季度销售业绩汇报与展望
- 高体三教授治疗眩晕病学术思想研究
- 《元德秀字紫芝》2019年山东潍坊中考文言文阅读真题(含答案与翻译)
- 建设“三型三化551”财务体系加快财务转型创建一流财务指导意见
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
- 湖北省华中师大一附中2020-2021高一物理期中检测试卷【含答案】
- 2021年合肥职业技术学院职业适应性测试试题及答案解析
- 2022年三年级美术下册教案课题美化教室一角
- 初中物理公式MicrosoftWord文档
- 诈骗案件授课PPT课件
- 弗洛姆异化理论
- 碳纳米管_ppt课件
- 【课件】第2课如何鉴赏美术作品课件-高中美术人教版(2019)美术鉴赏
评论
0/150
提交评论