新苏教版高中数学(选修1-2)(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)_第1页
新苏教版高中数学(选修1-2)(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)_第2页
新苏教版高中数学(选修1-2)(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)_第3页
新苏教版高中数学(选修1-2)(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)_第4页
新苏教版高中数学(选修1-2)(基础版)(全册知识点考点梳理、重点题型分类巩固练习)(家教、补习、复习用)_第5页
已阅读5页,还剩165页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档 精心整理精品文档 精心整理 苏教版高中数学(选修1-2)重难点突破全册知识点梳理及重点题型举一反三巩固练习独立性检验的基本思想及其初步应用 【学习目标】1. 了解独立性检验(只要求22列联表)的基本思想、方法及初步应用2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.【要点梳理】要点一、分类变量有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。要点诠释:(1)对分类变量的理解。这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指

2、的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。(2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。要点二、22列联表1. 列联表用表格列出的分类变量的频数表,叫做列联表。2. 22列联表对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:事件B事件合计事件Aaba+b事件cdc+d合计a+cb +da+b+c+d这样的表格称为22列联表。要点三:卡方统计量公式为了研究分类变量X与Y的关系,经调查得到一张22列联表,如下表所示 Y1Y2合计X1aba+bX2cdc+d合计a+cb+dn=a+b+c+d统计中

3、有一个有用的(读做“卡方”)统计量,它的表达式是: (为样本容量)。要点四、独立性检验独立性检验通过22列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。变量独立性的判断通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:如果3.841时,认为事件A与B是无关的。如果3.841时,有95%的把握说事件A与事件B有关;如果6.635时,有99%的把握说事件A与事件B有关;要点诠释:(1)独立性检验一般是指通过计算统计量的大小对两个事件是否

4、有关进行判断;(2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。3独立性检验的基本步骤及简单应用 独立性检验的步骤:要推断“A与B是否有关”,可按下面步骤进行:(1)提出统计假设H0:事件A与B无关(相互独立);(2)抽取样本(样本容量不要太小,每个数据都要大于5);(3)列出22列联表;(4)根据22列联表,利用公式:,计算出的值;(5)统计推

5、断:当3.841时,有95的把握说事件A与B有关;当6.635时,有99的把握说事件A与B有关;当10.828时,有99.9的把握说事件A与B有关;当3.841时,认为事件A与B是无关的要点诠释:使用统计量作22列联表的独立性检验时,要求表中的4个数据都要大于5一定要弄清的表达式中各个量的含义独立性检验的基本思想类似于反证法要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理根据随机变量的含义,由实际计算的6.635,说明假设不合理的程

6、度约为99,即“两个分类变量有关系”这一结论成立的可信程度约为99当3.841时,认为两个分类变量是无关的【典型例题】类型一、利用22列联表计算卡方例1为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表:喜欢数学不喜欢数学合计男131023女72027合计203050根据表中的数据,计算【思路点拨】利用公式计算【解析】得到【思路点拨】在利用列联表计算统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。举一反三:【变式1】研究两个事件A,B之间的关系时,根据数据信息列出如下的22列联表:B合计An11n1

7、2n1+n21n22n2+合计n+1n+2n则以下计算公式正确的是( )A BC D【答案】A【变式2】由列联表合计4316220513121134合计56283339则随机变量 。(精确到0.001)【答案】由公式计算得:7.469 类型二、独立性检验例2 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:阳性例数阴性例数

8、合计新57075旧101828合计1588103 问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由 【思路点拨】 这是一个列联表的独立性检验问题,根据列联表的数据求解判断。【解析】 提出假设H0:新防护服对预防工人患职业性皮肤炎无效 将表中数据代入,得,查表可知:P(10.828)0.001,而13.82610.828,故有99.9的把握认为新防护服对预防这种职业性皮肤炎有效【总结升华】 在掌握了独立性检验的基本思想后我们一般通过计算的值,然后比较的值与临界值的大小来精确地给出“两个分类变量”的相关程度举一反三:【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽

9、取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论?【答案】由已知数据得到下表合格品不合格品合计设备改造后653095设备改造前364985合计10179180根据公式得12.38。由于12.386.635,可以得出产品是否合格与设备改造是有关的。【变式2】考察黄烟经过培养液处理与否跟发生青花病的关系。调查了457株黄烟,得到下表中数据,请根据数据作统计分析。培养液处理未处理合计青花病25210235无青花病80142222合计105352457分析:计算的值与临界值的大小关系。【答

10、案】根据公式41.61。由于41.616.635,说明经过培养液处理的黄烟跟发生青花病是有关的。【变式3】为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:男女正常442514色盲386根据上述数据试问色盲与性别是否是相互独立的?【答案】由已知条件可得下表男女合计正常442514956色盲38644合计4805201000依据公式得27.139。由于27.1396.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。【独立性检验的基本思想及其初步应用406875 例题 1】例3. 对196个接受心脏搭桥手术的病人和196个接受血管清

11、障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392 试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别【思路点拨】先提出假设,然后根据的大小做出准确估计判断。【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系 由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,所以 。 因为1.7790.455。由下表中数据P(K2k)0.500.400.250.15

12、0.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828得:P(K20.455)0.50,从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。【总结升华】(1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。(2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论

13、不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2的值比较小,且P(K20.653)0.42,说明事件(K20.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。 举一反三:【变式1】 在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关你所得到的结论在什么范围内有效? 【答案】 根据题目所给的数据作出如下的列联表:色盲不色盲合计男38442480女6514520合计44

14、9561000 作出相应的二维条形图,如图所示由二维条形图可知在男人中患色盲的比例要比在女人中患色盲的比例大,其差值比较大,因而我们可以认为性别与患色盲是有关的; 根据列联表中所给的数据可知: a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000, 代入公式 得,因为27.110.828,所以我们有99.9的把握认为性别与患色盲有关系这个结论只对所调查的480名男人和520名女人有效【变式2】 某年高考后,某市教育主管部门对该市一重点中学高考上线情况进行统计,随机抽查244名学生,得到如下表格:语文数学英语综合科目上线不上线上线不

15、上线上线不上线上线不上线总分上线201人17427178231762517526总分不上线43人3013232024192617总计20440201432004420143 试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大? 【答案】对于上述四个科目,分别构造四个随机变量, 由表中数据可以得到: 语文:, 数学:, 英语:, 综合科目:所以,有99的把握认为语文上线与总分上线有关系,有99.9的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大【变式3】有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列

16、联表.优秀非优秀合计甲班10乙班30合计105已知在全部105人中随机抽取1人为优秀的概率为.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号,试求抽到6或10号的概率【答案】(1)优秀非优秀合计甲班104555乙班203050合计3075105(2)根据列联表中的数据,得到,因此有95%的把握认为“成绩与班级有关系”(3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(

17、x,y)所有的基本事件有(1,1)、(1,2)、(1,3)、(6,6),共36个事件A包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个,P(A).【巩固练习】一、选择题1. 对两个分类变量A、B的下列说法中正确的个数为( ) A与B无关,即A与B互不影响;A与B关系越密切,则K2的值就越大;K2的大小是判定A与B是否相关的唯一依据 A1 B2 C3 D02在检验双向分类列联表数据中,两个分类特征(即两个因素变量)之间是彼此相关还是相互独立的问题,在常用的方法中,最为精确的做法是( )A三维柱形图 B二维条形图 C等高条形图

18、 D独立性检验3对于分类变量X与Y的统计量,下列说法正确的是( )A越大,说明X与Y有关的把握越小B越大,说明X与Y无关的把握越大C越小,说明X与Y有关的把握越小D越接近于0,说明X与Y无关的把握越小4.右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )(A)(B)(C)(D)5为了研究色盲与性别的关系,调查了1 000人,调查结果如下表所示:男女正常442514色盲386根据上述数据,试问色盲与性别关系是( ) A. 相互独立 B.不相互独立 C. 有99.9的把握认为色盲与性别无关 D. 只有0.1的把握认为色盲与性别有关6对长期吃含三聚氰胺的婴幼儿奶粉与患肾结石这两个分类变量的

19、计算中,下列说法正确的是 ( )A. 若的值大于 6.635,我们有99%的把握认为长期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,那么在100个长期吃含三聚氰胺的三鹿奶粉的婴幼儿中必有99人患有肾结石病;B.从独立性检验可知有99%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系时,我们说某一个婴幼儿吃含三聚氰胺的三鹿婴幼儿奶粉,那么他有99%的可能患肾结石病;C.若从统计量中求出有95% 的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确。7通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男

20、女总计爱好402060不爱好203050总计6050110由算得, 附表:P(K2k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是( ) A在犯错误的概率不超过0.1的前提下,认为“爱好该项运动与性别有关” B在犯错误的概率不超过0.1的前提下,认为“爱好该项运动与性别无关” C有99以上的把握认为“爱好该项运动与性别有关” D有99以上的把握认为“爱好该项运动与性别无关”8.根据下面的列联表得到如下几个判断:有的把握认为患肝病与嗜酒有关;有的把握认为患肝病与嗜酒有关;认为患肝病与嗜酒有关的出错的可能为;认为患肝病与嗜酒有关的出错的可能为。 其中正

21、确命题的个数为( )(A) (B) (C) (D)二、填空题9.下表是关于出生男婴与女婴调查的列联表那么,A= ,B= ,C= ,D= ,E= ;10. 独立性检验中,假设:变量X与变量Y没有关系则在成立的情况下,估算概率表示的意义是 11根据下表,计算K2的观测值k_(保留两位小数)又发病未发病做移植手术39157未做移植手术2916712.某学校对校本课程人与自然的选修情况进行了统计,得到如下数据:那么,选修人与自然与性别有关的把握是 ;三、解答题13.有甲、乙两个班,进行数学考试,按学生考试及格与不及格统计成绩后,得到如下的列联表根据表中数据,你有多大把握认为成绩及格与班级有关?14.某

22、企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论?15.在大街上,随机调查339名成人,有关吸烟、不吸烟、患支气管炎、不患支气管炎的数据如下表根据表中数据,(1)判断:吸烟与患支气管炎是否有关?(2)用假设检验的思想予以证明。【答案与解析】1【答案】A 【解析】 正确。A与B无关即A与B相互独立;不正确,K2的值的大小只是用来检验A与B是否相互独立;不正确,例如借助三维柱形图、二维条形图等,就可判定A与B是否相关。2【答案】D

23、 【解析】 前三种方法只能直观地看出两变量x与y是否相关,不能看出相关的程度,独立性检验可以通过计算得出相关的可能性。3【答案】C【解析】 越大,说明“X与Y有关”的把握越大,越小,说明“X与Y有关”的把握越小,故选C。4. 【答案】D【解析】由5【答案】 B 【解析】 ,所以的99.9的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立.6【答案】C 【解析】对于A,若的值为6.635,我们有99%的把握认为吃含三聚氰胺的三鹿奶粉的婴幼儿与患肾结石有关系,但在100个吃含三聚氰胺的三鹿婴幼儿奶粉婴幼儿中未必有99人患有肺病; 对于B同样不成立,C是正确的,故选C.7【

24、答案】C 【解析】 根据独立检测的思想方法,正确选项为C项。8. 【答案】D;【解析】由9. 【答案】A=47,B=92,C=88,D=82,E=53; 【解析】由公式可得。10. 【答案】变量X与变量Y有关系的概率为。【解析】由定义可得。11【答案】1.78 【解析】 。12. 【答案】【解析】,即有的把握,认为选修人与自然与性别有关。13. 【解析】由列联表中的数据,得没有充分的证据显示“及格或不及格否与班级有关”。14. 【解析】先转化为二元独立性检验问题。由已知数据得到下表合格品不合格品合计设备改造后653095设备改造前364985合计10179180根据公式得12.38。由于12.

25、386.635,可以得出产品是否合格与设备改造是有关的。15. 【解析】(1)由列联表中的数据,得所以,有的把握认为吸烟与患支气管炎有关。(2)假设吸烟与患支气管炎无关,由于,即为小概率事件,而小概率事件发生了,进而假设错误,得到吸烟与患支气管炎有关。 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。2. 能作出散点图,能求其回归直线方程。3. 会用所学的知识对简单的实际问题进行回归分析。【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法

26、则唯一确定例如圆的面积S与半径r之间的关系S=r2为函数关系 (2)相关关系:这是一种非确定性关系当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图它直观地描述了两个变量之间有没有相关关系这是我们判断的一种依据4. 回归分析

27、:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。要点二、线性回归方程: 1回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。2回归直线方程对于一组具有线性相关关系的数据,其回归直线的截距和斜率的最小二乘法估计公式分别为:,其中表示数据xi(i=1,2,n)的均值,表示数据yi(i=1,2,n)的均值,表示数据xiyi(i=1,2,n)的均值 、的意义是:以为基数,x每增加一个单位,y相应地平均变化个单位要点诠释:回归系数,也可以表示为,这样更便于实际计算。;。称为样本中心

28、点,回归直线必经过样本中心点。回归直线方程中的表示x增加1个单位时的变化量,而表示不随x的变化而变化的量。3求回归直线方程的一般步骤:作出散点图由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。求回归系数、计算,利用公式求出,再由求出的值; 写出回归直线方程;利用回归直线方程预报在x取某一个值时y的估计值。要点诠释:一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为:(1)回归直线的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的

29、偏差。(2)即使截距和斜率的估计没有误差,也不可能保证对应于x的预报值能够与实际值y很接近。我们不能保证点(x,y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,这里是随机变量,预报值与实际值y的接近程度由随机变量决定。尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所得到的结论,因而结论正确的概率很大。故我们可以放心地利用回归直线方程进行预测。要点三、相关性检验(1)相关系数r的定义对于变量x与y随机抽取到的n对数据,称为x与y的样本相关系数。(2)相关系数r的作用样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱

30、:越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱。当r0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少当r0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加若r=0,则称x与y不相关。当,认为x与y之间具有很强的线性相关关系。当大于时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当时,寻找回归直线方程就没有意义。(3)利用相关系数r检验的一般步骤:法一:作统计假设:x与y不具有线性相关关系。根据样本相关系数计算公式算出r的值。比较与0.75的大小

31、关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。法二:作统计假设:x与y不具有线性相关关系。根据样本相关系数计算公式算出r的值。根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值(n未数据的对数)。比较与,作统计推断,如果,表明有95%的把握认为x与y之间具有线性相关关系。如果,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。要点四、线性回归分析与非线性回归分析1线性回归分析 对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题否则求线性回归方程

32、没有实际意义,它不能反映变量x与y,之间的变化规律只有在x与y之间具有相关关系时,求线性回归方程才有实际意义 相关性检验的依据:主要利用检验统计量 (其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r|1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱2. 线性回归分析的一般步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)判断两变量是否具有线性相关关系作散点图由样本点是否呈条状分布来判断两个量是否具有线性相关关系。求相关系数r当,认为x与y之间具有很强的线性相关关系。(3)若

33、两变量存在线性相关关系,设所求的线性回归方程为,求回归系数、。(4)写出回归直线方程;(5)利用回归直线方程预报在x取某一个值时y的估计值。 3非线性回归分析 (1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,进一步求出,对新元的线性回归方程,换回x即可得y对x的回归曲线方程(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回

34、归分析问题作相关性检验,即判断寻找线性回归方程是否有意义当寻找线性回归方程有意义时,计算系数,得到线性回归方程代回x得y对x的回归曲线方程【典型例题】【回归分析的基本思想及其初步应用407591例题1】类型一、利用散点图判断两个变量的线性相关性 例1 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示x秒510152030405060y微米610111316171923 (1)画出散点图 (2)根据散点图,你能得出什么结论? 【思路点拨】 利用散点图,直观地归结出相关关系的两个变量所具备的特点 【解析】 (1)如图所示散点图 (2)结论:设x与y是具有相关关系的两个

35、变量,且相应于n组观测值的n个点大致分布在一条直线附近,其中整体上与这n个点最接近的一条直线最能代表x与y之间的关系【总结升华】解决此类问题,最直观也最直接的方法就是画散点图。如果散点图中的点分布在一条直线附近,那么就可判断两个变量之间具有近似的线性相关关系。可进一步对它进行回归分析。解决本题的关键是正确建立坐标系,合理地选取单位长度准确地描出所有点,然后观察散点图中的点呈现在一条直线附近即说明二者具有线性相关关系。解决此类题目,由于有时数据较大,在建立平面直角坐标系时,若单位长度确定不合适,往往容易造成描点的困难。因此必须选择适当的单位长度。举一反三:【变式1】给出x与y的数据如下:x245

36、68y3040605070 画出散点图,并由图判断x、y之间是否具有线性相关关系。【答案】散点图如图所示: 从图中可以看出,各点散布在一条直线附近,即可认为x与y具有线性相关关系。【变式2】 如图所示的5组数据中,去掉_点,剩下的4组数据的线性相关系数最大 【答案】D,由本图的直观性可得。【变式3】如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试画出散点图,并由图判断x、N之间是否具有线性相关关系。震级33.23.43.63.844.24.44.64.85.0地震数28381203801479510695764155023842269819191356973震级5.25

37、.45.65.866.26.46.66.87地震数74660443527420614898574125【答案】由表中数据得散点图如下:从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.类型二、运用样本相关系数r检验线性相关关系例2下表是随机抽取的对母女的身高数据,试根据这些数据探讨与之间的关系母亲身高女儿身高【思路点拨】相对于用散点图检验相关性,利用相关系数r,检验两个变量之间的线性相关关系的强弱更为准确。【解析】所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近, 因为, ,所以,由检验水平及,在附录中查得,

38、因为,所以可以认为与之间具有较强的线性相关关系【总结升华】(1)讨论x与y之间的线性相关关系,一般称之为相关性检验。一般地,相关性检验是讨论线性回归模型的第一步。当时,可以认为两个变量有很强的线性相关关系,此时,建立线性回归模型是有意义的,其他情况下,建立线性回归模型意义就不大了,基本上没有什么价值。(2)相关系数r的计算公式:(3)利用相关系数r检验两个变量之间的线性相关关系的强弱的步骤:运用公式求出相关系数r;比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。举一反三:【变式1】给出x与y的数据如下:x24568y3040605070判断x与y的线性相关性

39、。【答案】相关性检验:,所以。因为,所以x与y之间有很强的线性相关关系。【变式2】要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:学生编号入学成绩高一期末成绩计算入学成绩与高一期末成绩的相关系数;【答案】(1)因为,因此求得相关系数为结果说明这两组数据的相关程度是比较高的。类型三、求线性回归方程例3. 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据: (1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;【思路点拨】本题考查如何求回归直线的方程,可先把有关数据用散点图表示出

40、来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。【解析】(1)数据对应的散点图如图所示: (2),设所求回归直线方程为,则故所求回归直线方程为【总结升华】如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模。举一反三:【变式1】下面是两个变量的一组数据。x12345678y1491625364964求x与y两个变量之间的回归直线方程。【答案】根据表中的数据,可以计算出有关数据,列成下表。序号11111224483399274416166455252512566363621677494

41、9343886464512362042041296所以有,。所以,。于是回归直线方程为。【回归分析的基本思想及其初步应用407591例题1】【变式2】从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重. 【答案】所给数据的散点图如图:类型四、线性回归分析及应用例4.近几年来,随着我国经济的发展,汽车已进入普通百姓家中根据某汽车协会资料统计,国产某种型号家庭轿车的使用年限x(年)

42、和所支出的维修费用y(千元),如下表:使用年限年23456维修费用千元2.23.85.56.57.0 (1)求出相关系数r,并根据所求的r判断两个变量之间的线性相关关系的强弱; (2)试求出回归直线方程,若某家庭购得此型号的汽车,请你为他们估计一下使用年限为10年时,维修费用是多少? 【思路点拨】 通过求出相关系数r,从而判断出是否具有相关关系;再求回归方程,从而进行回归预测 【解析】 (1)根据公式,求得r0.97920.878,故两个变量之间有较强的线性相关关系(2)设所求的回归方程为则, 即所求的回归直线方程为 当x=10时,代入回归直线方程得=12.38,所以传计使用年限为10年时,维

43、修费用是1.238万元【总结升华】 求x与y的回归直线方程,应首先判断x与y是否具有线性相关关系,如果直接求x与y的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x与y之间的变化规律 举一反三:【变式1】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据。x3456y2.5344.5 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤。试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准

44、煤?(参考数值:32.5+43+54+64.5=66.5)【答案】(1)由题设所给数据,可得散点图如图所示:(2)计算得,已知,所以,由最小二乘法确定的回归方程的系数为,。因此,所求的线性回归方程为。(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90(0.7100+0.35)=19.65(吨标准煤)。【变式2】 测得某地10对父子身高(单位:英寸)如下: 父亲身高(x)60626465666768707274儿子身高(y)63.665.26665.566.967.167.468.370.170 如果x与y之间具有线性相关关系,求线性回归方程如果父亲的身高为78

45、英寸,试估计儿子的身高【答案】 解法一:先将两个变量的有关数据在表中计算出来,如下表所示:序号xiyixi2yi2xiyi16063.636004044.96381626265.238444251.044042.43646640964356422446565.542254290.254257.556666.943564475.614415.466767.144894502.414495.776867.446244542.764583.287068.349004664.89478197270.151844914.015047.2107470547649005180668670.144796449

46、41.9344842.4由表中数据可计算,代入公式所以因而所求得线性回归方程为:当x=78时,所以当父亲的身高为78英寸时,估计儿子的身高约为72.2英寸【变式3】 已知某地每单位面积菜地年平均使用氮肥量x(kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:年份19851986198719881989199019911992xkg7074807885929095yt5.16.06.87.89.010.210.012.0年份1993199419951996199719981999xkg92108115123130138145yt11.511.011.812.212.512.813.0

47、 (1)求x与y之间的相关系数,并检验是否线性相关; (2)若线性相关,求蔬菜产量y与使用氮肥量x之间的回归直线方程,并估计每单位面积施肥150 kg时,每单位面积蔬菜的年平均产量 【答案】(1)使用样本相关系数计算公式来完成(2)先作统计假设,由小概率0.05与n2在附表中查得相关系数临界值r0.05,若r0.05则线性相关,否则不线性相关 列出下表,并用科学计算器进行相关计算:i12345678xi7074807885929095yi5.16.06.87.89.010.210.012.0 xiyi357444544608.4765938.49001140i9101112131415xi92

48、108115123130138145yi11.511.011.812.212.512.813.0 xiyi1058118813571500.616251766.41885(1)由小概率0.05与n2=13在附表中查得r0.05=0.514,|r|r0.05,x与y线性相关回归直线方程为多=0093 7x+0646 3(2),回归直线方程为 当每单位面积施肥150 kg时,每单位面积蔬菜的年平均产量为0.0937150+0.6463=14.701314.7(t)类型五、 非线性回归的转化 例5 在一化学反应过程中某化学物质的反应速度y gmin与一种催化剂的量x g有关,现收集了8组数据列于表中

49、,试建立y与x之间的回归方程催化剂量xg1518212427303336化学物质反应速度y(gmin)6830277020565350 【思路点拨】 两个变量不一定是线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法将非线性关系转化为线性回归模型 【解析】 根据收集的数据作散点图: 根据样本点分布情况,可选用两种曲线模型来拟合 (1)可认为样本点集中在某二次曲线y=c1x2+c2的附近令t=x2,则变换后样本点应该分布在直线,y=bt+a(b=c1,a=c2)的周围 由题意得变换后的t与y的样本数据表如下:t22532444157672990010891296y68302

50、77020565350 作y与x的散点图 由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合,即不宜用二次曲线y=c1x2+c2来拟合y与x之间的关系 (2)根据x与y的散点图也可以认为样本点集中在某一条指数型函数曲线的周围 令,则, 即变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围, 由y与x数据表可得z与x的数据表x1518212427303336z1.7922.0793.4013.2964.2485.3234.1745.858 作出z与x的散点图 由散点图可观察到大致在一条直线上,所以可用线性回归方程来拟合它 由z与x的数据表

51、,得到线性回归方程,=0.1812x0.8485, 所以非线性回归方程为, 因此,该化学物质反应速度关于催化剂的量的非线性回归方程为【总结升华】 非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图。把它与学过的各种函数图像作比较,挑选一种跟这些散点拟合得最好的函数,然后像本例这样,采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决举一反三: 【变式1】某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15 检测每册书的成本费y

52、与印刷册数的倒数之间是否具有线性相关关系?如有,求出y对x的回归方程【答案】首先作变量置换,题目所给数据变成如下表所示的数据ui10.50.330.20.10.050.030.020.010.005yi10.155.524.082.852.111.621.411.301.21.15 可以求得 由r0.999 80.75,因此,变量y与u之间具有较强的线性相关关系,并且, 最后回代可得 因此y与x的回归方程为 【回归分析的基本思想及其初步应用407591例题3】【变式2】一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与之间的回归方程.温度21232527293235产卵数个

53、711212466115325【答案】观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围(其中是待定的参数),故可用指数函数模型来拟合这两个变量.在上式两边取对数,得,再令,则,而与间的关系如下:X21232527293235z1.9462.3983.0453.1784.1904.7455.784观察与的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.利用计算器算得,与间的线性回归方程为,因此红铃虫的产卵数

54、对温度的非线性回归方程为.【巩固练习】一、选择题1.下列关系中为相关关系的有( )学生的学习态度和学习成绩之间的关系;教师的执教水平与学生的学习成绩之间的关系;学生的身高与学生的学习成绩之间的关系;某个人的年龄与本人的知识水平之间的关系.(A)(B)(C)(D)2对于线性相关系数r,下列叙述正确的是( ) A|r|(0,+),|r|越大,相关程度越大,反之,相关程度越小 B|r|(,+),r越大,相关程度越大,反之,相关程度越小 C|r|1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小 D以上说法都不对3判断图中的两个变量,具有相关关系的是( ) 4变量x与y相对应的一组数

55、据为(10,1),(11.3,2),(11.8,3),(125,4),(13,5);变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量y与x之间的线性相关系数,r2表示变量v与u之间的线性相关系数,则( ) Ar2r10 B0r2r1 Cr20r1 Dr2= r15工人月工资y(元)按劳动生产率x(千元)变化的回归方程为=50+80 x,下列判断正确的是( ) 劳动生产率为1000元时,则月工资为130元;劳动生产率提高1000元时,则月工资提高80元;劳动生产率提高1000元时,则月工资提高130元;当月工资为210元时

56、,劳动生产率为2000元 A B C D6在一次试验中,测得(x,y)的四组值分别是(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程是( )A B C D7线性回归方程必过( ) A(0,0) B(,0) C(0,) D(,)8已知两个变量x和y之间具有线性相关关系,5次试验的观测数据如下:x100120140160180y4554627592经计算得回归方程=bx+a的系数b=0.575,则a=( ) A14.9 B13.9 C12.9 D14.99.一位母亲记录了她儿子3到9岁的身高,数据如下表:年龄(岁)3456789身高(94.8104.2108.7117.8

57、124.3130.8139.0由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是( )A.她儿子10岁时的身高一定是145.83 B.她儿子10岁时的身高在145.83以上C.她儿子10岁时的身高在145.83左右 D.她儿子10岁时的身高在145.83以下二、填空题10.经调查知,某品牌汽车的销售量y(辆)与广告费用x(万元)之间的回归直线方程为 y=250+4x,当广告费用为50万元时,预计汽车销售量约为 _辆.11.某市居民20052009年家庭平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表所示:根据统计资料,居民家庭年平均收入

58、的中位数是 _,家庭年平均收入与年平均支出有 _的线性相关关系.(填“正相关”、“负相关”)12一唱片公司所支出出歌费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽选了10张,得到如下的资料:,则y与x的相关系数r的绝对值为_三、解答题13弹簧长度y(cm)随所挂物体质量x(g)不同而变化的情况如下:物质质量x51015202530弹簧长度y7.258.128.969.9010.9611.80 (1)画出散点图; (2)求y对x的回归直线方程; (3)预测所挂物体的质量为27 g时的弹簧长度(精确到0.01 cm)14随着人们经济收入的不断增长,购买家庭轿车已不再是一

59、种时尚车的使用费用,尤其是随着使用年限的增加,所支出的费用到底会增长多少,一直是购车一族非常关心的问题某汽车销售公司为此进行了一次抽样调查,并统计得出某款车的使用年限x与所支出的总费用y(万元)有如下的数据资料:使用年限x23456总费用y2.23.85.56.57.0若由资料知,y对x呈线性相关关系试求: (1)线性回归方程的回归系数、; (2)估计使用年限为10年时,车的使用总费用是多少?15某工业部门进行一项研究,分析该部分的产量与生产费用之间的关系,从这个工业部门内随机抽选了10个企业作样本,有如下资料:产量x(千件)40424855657988100120140生产费用y(千元)15

60、0140160170150162185165190185 (1)计算x与y的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为,求系数,。【答案与解析】1.【答案】A【解析】据相关性的定义可知为相关关系,无相关关系.2【答案】C 【解析】 对相关系数的性质应熟练掌握。3【答案】B 【解析】由图易知,A、C为函数关系,B、D为散点图,只有B中两个变量成相关关系。4【答案】C 【解析】 对于变量y与x而言,y随x的增大而增大,故y与x正相关,即r10;对于变量v与u而言,v随u的增大而减小,而v与u负相关,即r20,所以有r20r1。5【答案】B 【解析】 回归直线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论