版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、变量间的相关关系、统计案例1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法(2)回归方程方程 x 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中 , 是待
2、定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中(,)称为样本点的中心(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性4独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个
3、分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验【思考辨析】判断下面结论是否正确(请在括号中打“”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系(×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值()(4)
4、某同学研究卖出的热饮杯数y与气温x()之间的关系,得回归方程2.352x147.767,则气温为2时,一定可卖出143杯热饮(×)(5)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀(×)1(2014·湖北)根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为x,则()A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0答案B解析作出散点图如下:观
5、察图象可知,回归直线x的斜率<0,当x0时,>0.故>0,<0.2下面是2×2列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为()A94,72 B52,50 C52,74 D74,52答案C解析a2173,a52.又a22b,b74.3为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K20.99,根据这一数据分析,下列说法正确的是()A有99%的人认为该电视栏目优秀B有99%的人认为该电视栏目是否优秀与改革有关系C有99%的把握认为该电视栏目是否优秀与改革有关系D没有理由认为该电
6、视栏目是否优秀与改革有关系答案D解析只有K26.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K26.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关故只有D正确4在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(填“有关”或“无关”)答案有关题型一相关关系的判断例1x和y的散点图如图所示,则下列说法中所有正确命题的序号为_x,y是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关指数为R,用x拟合时的相关指数为R,则R&
7、gt;R;x、y之间不能建立线性回归方程思维点拨本题散点图对应的曲线类似于指数型曲线,因此,用x拟合的效果差,所以R小答案解析显然正确;由散点图知,用yc1ec2x拟合的效果比用 x 拟合的效果要好,故正确;x,y之间能建立线性回归方程,只不过预报精度不高,故不正确思维升华判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱(1)(2013·湖北)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:y与x负相关且 2.34
8、7x6.423;y与x负相关且 3.476x5.648;y与x正相关且 5.437x8.493;y与x正相关且 4.326x4.578.其中一定不正确的结论的序号是()A B C D(2)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1 B0 C. D1答案(1)D(2)D解析(1)由回归方程x知当>0时,y与x正相关,当<0时,y与x负相关,一定错误(2)利用相关系数的意义直接作出判断样本点都在直线上时,其数据的估计值与真实值
9、是相等的,即yi,代入相关系数公式r 1.题型二线性回归分析例2某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程x,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?(注:, )思维点拨求线性回归方程的系数时,为防止出错,应分别求出公式中的几个量,再代入公式解(1)散点图如图(2)由表中数据得:iyi52.5,3.5,3.5,54, 0.7,1.05,0.7x1.05,回归直线如图所示(3)将x10代入
10、线性回归方程,得0.7×101.058.05,故预测加工10个零件约需要8.05小时思维升华(1)回归直线x必过样本点的中心(,)(2)正确运用计算,的公式和准确的计算,是求线性回归方程的关键(3)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值某种产品的广告费支出x与销售额y(单位:万元)之间有如下对应数据:x24568y3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为10万元时,销售额多大?解(1)根据表中所列数据可得散点图如下:(2)5,50,又已知145,iyi1 380.于是可得:6.5
11、, 506.5×517.5,因此,所求线性回归方程为6.5x17.5.(3)根据上面求得的线性回归方程,当广告费支出为10万元时,y6.5×1017.582.5(万元)即这种产品的销售额大约为82.5万元题型三独立性检验例3为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下: 性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年
12、人中,需要志愿者提供帮助的老年人的比例?说明理由思维点拨利用公式计算K2,由观测值对照表得出结论解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为×100%14%.(2)K29.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单
13、随机抽样方法更好思维升华(1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答(2014·安徽)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10
14、,12,估计该校学生每周平均体育运动时间超过4小时的概率(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2.解(1)300×90,所以应收集90位女生的样本数据(2)由频率分布直方图得:12×(0.0250.100)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0
15、.75225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210份是关于男生的,90份是关于女生,所以每周平均体育运动时间与性别列联表如下:男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K24.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”求线性回归方程的方法技巧典例:(12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量/万吨2362462572
16、76286(1)利用所给数据求年需求量与年份之间的线性回归方程x;(2)利用(1)中所求出的线性回归方程预测该地2012年的粮食需求量规范解答解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:年份200642024需求257211101929对处理的数据,容易算得0,3.2,4分6.5, 3.2.6分由上述计算结果,知所求线性回归方程为2576.5(x2006)3.2,即6.5(x2006)260.2.8分(2)利用所求得的线性回归方程,可预测2012年的粮食需求量大约为6.5×(20122006)260.26.5×6260.
17、2299.2(万吨)12分温馨提醒求线性回归方程时,重点考查的是计算能力若本题用一般法去解,计算更烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决.方法与技巧1求回归方程,关键在于正确求出系数 , ,由于 , 的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意线性回归方程中一次项系数为 ,常数项为 ,这与一次函数的习惯表示不同)2回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线
18、性回归方程3根据K2的值可以判断两个分类变量有关的可信程度失误与防范1相关关系与函数关系的区别相关关系与函数关系不同函数关系中的两个变量间是一种确定性关系例如正方形面积S与边长x之间的关系Sx2就是函数关系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提2回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.A组专项基础训练(时间:45分钟)1某商品销售量y
19、(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.10x200 B.10x200C.10x200 D.10x200答案A解析由题意知回归方程斜率应为负,故排除B,D,又销售量应为正值,故C不正确,故选A.2通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110以下结论正确的是()A有99%以上的把握认为“爱好该项运动与性别有关”B有99%以上的把握认为“爱好该项运动与性别无关”C在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与
20、性别无关”答案A解析根据独立性检验的定义,由K27.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3(2014·重庆)已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是()A.0.4x2.3 B.2x2.4C.2x9.5 D.0.3x4.4答案A解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.4相关变量x、y的样本数据如下表:x12345y22356经回归分析可得y与x
21、线性相关,并由最小二乘法求得线性回归方程为1.1x,则等于()A0.1 B0.2 C0.3 D0.4答案C解析由题意,3,3.6,线性回归方程为1.1x,3.61.1×3,0.3.5某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得线性回归方程 x 中的 为9.4,据此模型预报广告费用为6万元时销售额为()A63.6万元 B65.5万元C67.7万元 D72.0万元答案B解析,42,又 x 必过(,),42×9.4 , 9.1.线性回归方程为 9.4x9.1.当x6时, 9.4×69.165.5(万
22、元)6以下四个命题,其中正确的序号是_从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;在线性回归方程 0.2x12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大答案解析是系统抽样;对于,随机变量K2的观测值k越小,说明两个相关变量有关系的把握程度越小7某班班主任对全班30名男生进行了“认为作业量多少”的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏12820不喜欢玩
23、电脑游戏2810总计141630该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过_答案0.050解析计算得K2的观测值为k4.286>3.841,则推断犯错误的概率不超过0.050.8已知x,y之间的一组数据如下表:x23456y34689对于表中数据,现给出如下拟合直线:yx1;y2x1;yx;yx.则根据最小二乘法的思想求得拟合程度最好的直线是_(填序号)答案解析由题意知4,6, ,x,填.9某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得
24、结果如下表:甲厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数12638618292614乙厂:分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂合
25、计优质品非优质品合计附解(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%64%.(2)完成的2×2列联表如下:甲厂乙厂合计优质品360320680非优质品140180320合计5005001 000由表中数据计算得K2的观测值k7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”10(2013·重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位
26、:千元)的数据资料,算得i80,i20,iyi184,720.(1)求家庭的月储蓄 对月收入x的线性回归方程 x ;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄解(1)由题意知n10,i8,i2,又n 272010×8280,iyin 18410×8×224,由此得 0.3, 20.3×80.4,故所求线性回归方程为 0.3x0.4.(2)由于变量y的值随x值的增加而增加( 0.3>0),故x与y之间是正相关(3)将x7代入回归方程可以预测该家庭的月储蓄为 0.3×70.41.7(千
27、元)B组专项能力提升(时间:20分钟)11下列说法:将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;设有一个回归方程 35x,变量x增加一个单位时,y平均增加5个单位;回归方程 x 必过(,);有一个2×2列联表中,由计算得K213.079,则有99.9%的把握确认这两个变量间有关系其中错误的个数是()A0 B1C2 D3答案B解析一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),正确;回归方程中x的系数具备直线斜率的功能,对于回归方程 35x,当x增加一个单位时,y平均减少5个单位,错误;由线性回归方程的定义知,线性回归方程
28、x 必过点(,),正确;因为K213.079>10.828,故有99.9%的把握确认这两个变量有关系,正确故选B.12(2013·福建)已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归方程 x ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是()A. >b, >a B. >b, <aC. <b, >a D. <b, <a答案C解析b2,a2,由公式 求得 , ×, <b, >a.故选C.13在一次独立性检验中,得出2
29、215;2列联表如下:y1y2合计x12008001 000x2180m180m合计380800m1 180m且最后发现,两个分类变量x和y没有任何关系,则m的可能值是()A200 B720 C100 D180答案B解析计算K2当m200时,K2103.37>3.841,此时两个分类变量x和y有关系;当m720时,K20由K23.841知此时两个分类变量x和y没有任何关系,则m的可能值是720.14某小卖部销售一品牌饮料的零售价x(元/瓶)与销售量y(瓶)的关系统计如下:零售价x(元/瓶)3.03.23.43.63.84.0销量y(瓶)504443403528已知关系符合线性回归方程x,其中20, .当单价为4.2元时,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗服务劳务分包合同分析
- 手办产品在线销售合同
- 留学中介服务合同
- 酒店智能客房控制系统开发与服务合同
- 2024版夫妻离婚子女共同监护权及生活费用支持合同3篇
- 2024年度房屋销售资金监管合同3篇
- 2024版学校与家长学生安全管理合同3篇
- 2024版房地产项目场地安全风险评估与应急预案编制合同3篇
- 2024版商铺租赁品牌形象维护合同范本3篇
- 2024年度房产权益互换合同2篇
- DB3204T 1026-2022 危险化学品储存柜安全技术要求及管理规范
- 《大数据环境下的网络安全问题探讨(论文)8000字》
- 基础换填施工方案完整版
- 人工肩关节置换术手术配合共47张课件
- 癫痫发作应急预案
- 一般设备评估常用数据和参数
- 光伏发电项目监理工作制度
- (完整)《神经病学》考试题库及答案
- Q∕SY 201.4-2015 油气管道监控与数据采集系统通用技术规范 第4部分:数据需求与管理
- 闲置固定资产明细表
- 2022年雅思翻译句精华版
评论
0/150
提交评论