




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.1成对数据的统计相关性8.1.2样本的相关系数复习回顾1、变量的相关关系2、散点图
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.复习回顾3、变量相关关系的分类正相关和负相关线性相关和非线性相关4、两个变量之间相关关系的确定(1)经验作出推断(2)通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断探究新知通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中将数据以
为零点进行平移,得到平移后的成对数据为…,
并绘制散点图.探究新知问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?将数据以
为零点进行平移,得到平移后的成对数据为…,
并绘制散点图.探究新知线性负相关线性正相关无相关关系非线性相关线性负相关线性正相关无相关关系非线性相关数据预处理的常用方法:中心化(零均值化)中心化探究新知如果变量x和变量y负相关,那么关于均值平移后的大多数点将分布在第二、四象限,对应的成对数据异号居多.一般地,如果变量x和变量y正相关,那么均值平移后的大多数点将分布在第一、三象限,对应的成对数据同号居多;························探究新知思考1:
根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?根据散点图特征,初步构造统计量.利用散点
的横、纵坐标是否同号,可以构造一个量
一般情形下,Lxy>0表明成对样本数据正相关;Lxy<0表明成对样本数据负相关.探究新知思考2:
你认为Lxy的大小一定能度量出成对样本数据的相关程度吗?
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度.=100Lxy>0我们发现,Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小.探究新知为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用分别除为简单起见,把上述“标准化”处理后的成对数据分别记为(x′1,y′1),(x′2,y′2),…,(x′n,y′n),仿照Lxy的构造,可以得到探究新知为简单起见,把上述“标准化”处理后的成对数据分别记为(x′1,y′1),(x′2,y′2),…,(x′n,y′n),仿照Lxy的构造,可以得到概念讲解样本相关系数当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.我们称r为变量x和变量y的样本相关系数.
样本相关系数r是一个描述成对样本数据的数字特征,它的正负和绝对值的大小可以反映成对样本数据的变化特征:探究新知思考3:样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?相关系数r的取值范围是多少呢?
观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量
的数量积仍然定义为
,其中θ为向量
的夹角.
类似于平面或空间向量的坐标表示,对于向量
=(a1,a2,…,an)和
=(b1,b2,…,bn),我们有=a1b1+a2b2+…+anbn.“标准化”处理后的成对数据:(x′1,y′1),(x′2,y′2),…,(x′n,y′n)探究新知设其第一分量构成n维向量设其第二分量构成n维向量
同理可得探究新知思考3:样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?相关系数r的取值范围是多少呢?样本相关系数r的取值范围为[-1,1]=cosθ∵-1≤cosθ≤1∵∴-1≤r≤1由向量的知识可知,存在实数λ,使得
,探究新知思考4:
相关系数|r|=1时,成对样本数据之间具有怎样的关系呢?r=cosθ这时,成对样本数据的两个分量之间满足一种线性关系.这表明成对样本数据(xi,yi)都落在直线
上.当|r|=1时,r=cosθ中的θ=0或π,向量
共线.概念讲解相关系数的性质:
由此可见,样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.②
|r|≤1;③当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系(但不排除它们间有其他相关关系);
当|r|=1时,成对数据都落在一条直线上.探究新知图(1)中成对样本数据的正线性相关程度很强.图(2)中成对样本数据的负线性相关程度比较强.图(3)中成对样本数据的线性相关程度很弱.图(4)中成对样本数据的线性相关程度极弱.问题:观察以下散点图,判断成对数据间的相关关系判断线性相关程度:散点图+r
两个随机变量的相关性可以通过散点图对成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度:①r的符号反映相关关系的正负性;②|r|的大小反映两个变量线性相关的程度,即散点集中于一条直线的程度.1、为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的样本线性相关系数,其数值分别为0.939,0.937,0.948,则().随堂练习A、甲组数据的线性相关性最强,乙组数据的线性相关性最弱B、乙组数据的线性相关性最强,丙组数据的线性相关性最弱C、丙组数据的线性相关性最强,甲组数据的线性相关性最弱D、丙组数据的线性相关性最强,乙组数据的线性相关性最弱解:因为样本线性相关系数的绝对值越大,则线性相关性越强,所以丙组数据的线性相关性最强,乙组数据的线性相关性最弱.D1、根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.例题解析年龄2327394145495053545657586061脂肪9.517.821.225.927.526.328.229.630.231.430.833.535.234.6参考数据:解:先画出散点图,如图所示.观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.例题解析参考数据:根据样本相关系数的定义,由样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同.小结
散点图可以从直观上判断成对样本数据的相关性,通过样本相关系数则可以从定量的角度刻画成对样本数据相关的正负性和线性相关程度.2、有人收集了某城市居民收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如下表所示.例题解析第n年12345678910居民年收入/亿元32.231.132.935.837.138.039.043.044.646.0A商品销售额/万元25.030.034.037.039.041.042.044.048.051.0画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.解:从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.居民年收入/亿元504540352030253035404550·······55A商品销售额/万元···2、有人收集了某城市居民收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如下表所示.例题解析第n年12345678910居民年收入/亿元32.231.132.935.837.138.039.043.044.646.0A商品销售额/万元25.030.034.037.039.041.042.044.048.051.0画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.解:r≈0.95由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.3、在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.例题解析体重与身高、臂展与身高分别具有怎样的相关性?解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.3、在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.例题解析体重与身高、臂展与身高分别具有怎样的相关性?解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高.2、对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()随堂练习AA、r2<r4<0<r3<r1B、r4<r2<0<r1<r3C、r4<r2<0<r3<r1D、r2<r4<0<r1<r33、根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.随堂练习02468345x(千克)y(百千克)5·····依据数据的散点图可以看出,y与x之间有较强的线性相关关系.请计算样本相关系数r并加以说明(若|r|>0.75,则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业保险对家庭间接碳排放的影响
- 江苏省淮安市淮阴区2024-2025学年七年级下学期3月月考数学试题(原卷版+解析版)
- 艺术领域师徒结对创作计划
- 二年级下册数学复习计划的重点分析
- 2024-2025学年人教版七年级数学实践活动计划
- 航空零部件供货安装计划
- 学校美术教育综合改革计划
- 家长学校志愿者服务发展计划2024-2025
- 2025年直流脉冲电源项目可行性研究报告
- 2025年T305型氧化锌脱硫剂项目合作计划书
- GB/T 37356-2019色漆和清漆涂层目视评定的光照条件和方法
- 第十章:茅盾30年代小说(三)课件
- GB 15763.2-2005建筑用安全玻璃第2部分:钢化玻璃
- 四年级美术艺术测评学业指标试题及答案
- 浙江省门诊病历检查评分标准
- 晏殊浣溪沙(赏析)课件
- 2022年江苏财会职业学院单招职业技能考试笔试试题及答案解析
- 植物生理教案
- 《前厅服务与管理》课程标准(中职)
- 异常停机记录分析表
- 遥感原理与应用:第三章 平台及传感器
评论
0/150
提交评论