数学知识导航回归分析_第1页
数学知识导航回归分析_第2页
数学知识导航回归分析_第3页
数学知识导航回归分析_第4页
数学知识导航回归分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学必求其心得,业必贵于专精学必求其心得,业必贵于专精学必求其心得,业必贵于专精1。2回归分析知识梳理1.回归直线方程为______________________,其中=___________,=___________.2。回归直线不能精确地反映x与y之间的关系,y的值不能由x完全确定,它们之间是___________关系,y=a+bx+ε,其中___________是确定性函数,ε称为___________,将___________称为线性回归模型。3.随机误差产生的主要原因有:(1)所用的确立性函数不恰当引起的误差;(2)____________________________________________________________________;(3)____________________________________________________________________。4.对于x、y随机取到的n对数据(xi,yi)(i=1,2,…,n),样本相关系数γ的计算公式为γ=____________________________________________________________________=____________________________________________________________________.5。线性相关系数γ的性质:(1)|γ|≤1;(2)|γ|越接近于__________,y的线性相关程序越强;(3)|γ|越接近于__________,y的线性相关程序越弱.知识导学在研究两个变量之间的关系时,首先可以利用散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据。作相关检验的依据可以利用样本相关系数γ,当γ〉0时,表明x与y正相关;γ<0时,表明x与y负相关;当|γ|→1时,表明x与y的线性相关性越强;当|γ|→0时,表明x与y的线性相关性越弱,几乎不存在线性相关的关系。疑难突破1.建立回归模型的基本步骤是什么呢?一般地,建立回归模型的基本步骤是:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系.(例如是否存在线性关系等)(3)由经验确定回归方程的类型(如果我们观察到数据是线性关系,则选用线性回归方程y=bx+a).(4)按一定的规则估计回归方程中的参数(如最小二乘法).2.在应用回归直线方程解决问题时,应注意些什么呢?(1)回归直线方程只适合于我们所研究的样本的总体。例如:不能用女大学生的身高与体重之间的回归直线方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归直线方程,来描述北方干旱地区树木的高与直径之间的关系。(2)我们所建立的回归直线方程一般都有时间性.例如:不能用20世纪80年代人的身高、体重数据所建立的回归方程,描述现在人的身高、体重间的关系。(3)样本取值的范围会影响回归方程的适用范围,例如:我们的回归直线方程是由女大学生身高和体重的数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当。(4)不能认为回归直线方程得到的预报值就是预报变量的精确值.事实上,它是预报变量可能取值的平均值。典题精讲【例1】为了了解某地母亲身高x与女儿身高y的相关关系,现随机测得10对母女的身高,所得数据如下表所示:母亲身高x(cm)159160160163159154159158159157女儿身高y(cm)158159160161161155162157162156试对x与y进行线性回归分析,并预测当母亲身高为161cm时,女儿的身高为多少?思路分析:这是一个回归分析类问题,解决这一类问题,首先应对问题进行必要的相关性检验,如果x与y之间具有相关关系,再求出对应的回归直线方程,最后利用回归直线方程来预报当x=161cm时y的值,当γ〉0时,表明x与y正相关,γ<0时,表明x与y负相关,当|γ|→1时,表明x与y的线性相关越强,当|γ|→0时,表明x与y的相关性越弱,几乎不存在相关关系,通常认为当γ>0。75时,变量x、y有很强的相关关系,因而求回归直线方程才有意义,也才可以预测取值的情况.解:作线性相关性检验,=×(159+160+…+157)=158.8.=×(158+159+…+156)=159.1-10=(1592+1602+…+1572)—10×158。82=47.6—=(159×158+160×159+…+157×156)-10×158。8×159。1=37.2—10=(1582+1592+…+1562)-10×159.12=56。9因此γ==≈0.71由于0.71接近于1,表明x与y有较强的相关关系,因而求回归直线方程有必要。又==0。78=159。1—0.78×158。8=35.2由此得回归直线方程为=35.2+0。78x;回归系数=0.78反映出当母亲身高每增加1cm时女儿身高平均增加0.78cm,=35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身高为161cm时预报女儿身高为:=0.78×161+35.2=160.78≈161cm,这就是说当母亲身高为161cm时,女儿身高大致也为161cm。绿色通道:判断x与y是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关。黑色陷阱:有些同学不对问题进行必要的相关性检验,直接求x与y的回归直线方程,它就没有任何实际价值,也就不能发现变量x与y间的变化规律,另外,要注意计算的正确性。【变式训练】某班5名学生的数学和化学成绩如下表所示,对x与y进行回归分析,并预报某学生数学成绩为75分时,他的化学成绩是多少?学生学科ABCDE数学成绩(x)8876736663化学成绩(y)7865716461解:对x与y作相关性判断.=×(88+76+73+66+63)=73.2=×(78+65+71+64+61)=67.8=882+762+732+662+632=27174=782+652+712+642+612=23167=88×78+76×65+71×73+64×66+61×63=25054∴-=27174—5×73。22=382.8-=25054—5×73。2×67。8=239.2-=23167-5×67.82=182。8∴r=≈0.904。由于|r|=0。904接近于1,表明两个变量之间存在着线性相关关系.∴≈0.625,=67。8-73.2×0.625=22.05=0.625x+22。05∴当x=75时,≈69.故次时他的化学成绩为69分。【例2】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:零件数x(个)102030405060708090100加工时间y(个)626875818995102108115122(1)y与x是否具有线性相关关系;(2)如果y与x具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少。思路分析:这是一个回归分析问题,应先进行线性相关检验或作散点图来判断x与y是否具有线性相关关系,如果线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义.要作相关性检验,应先利用γ.γ=求出样本相关系数γ,利用当γ>0时,两个变量正相关;当γ〈0时,两个变量负相关;当|γ|→1时,表明两个变量的线性相关性越强;当|γ|→0时,表明两个变量之间几乎不存在线性相关关系;当γ〉0。75时,认为两个变量有很强的线性相关关系.解:(1)列出下表:i12345678910xi102030405060708090100yi626875818995102108115122xiyi62013602250324044505700714086401035012200∴=55,=91。7∴γ==≈0。9998由于γ=0.9998〉0.75,因此x与y之间有很强的线性相关关系,因而可求回归直线方程。(2)设所求的回归直线方程为=.则有=≈0.668=91.7-0.668×55=54。96。因此,所求的回归直线方程为y=0.668x+54。96.(3)这个回归直线方程的意义是当x每增大1时,y的值约增加0。668,而54。96是y不随x增加而变化的部分,因此,当x=200时,y的估计值为y=0.668×200+54。96=188。56≈189。因此,加工200个零件时所用的工时约为189个。【变式训练】对于x与y有如下观测数据:X1825303941424952Y356788910(1)作出散点图;(2)对x与y作回归分析;(3)求出x对y的回归直线方程___________________;(4)根据回归直线方程,预测y=20时的x值。解:(1)作出散点图(如下图所示)(2)作相关性检验。×(18+25+30+39+41+42+49+52)==37×(3+5+6+7+8+8+9+10)=7.=182+252+302+392+412+422+492+522=11920=32+52+62+72+82+82+92+102=428=18×3+25×5+30×6+39×7+41×8+42×8+49×9+52×10=2257∴—=2257—8×37×7=185-=11920-8×372=968。-=428-8×72=36∴r==≈0.991由于r=0.991>0.75,因此,认为两个变量有很强的相关关系;(3)回归系数=≈0。191=7-0。191×37=—0。067。所以y对x的回归直线方程=0.191x-0.067;(4)当y=20时,有20=0。191x-0。067,∴x=≈105.因此在y的值为20时,x的值约为105.【例3】某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下,x123510203050100200y10.155。524。082.852。111.621。411。301。211。15检测每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系,如有,求出y对x的回归方程.思路分析:本题与前面的问题有所不同,y与x之间不具有线性回归关系,因而是非线性回归问题,对于非线性回归问题有时不给出经验公式,这时我们可以画出已知数据的散点图,把它与必修1中学过的基本初等函数(幂函数、指数函数、对数函数)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使其得到解决.对于本题不妨设变量u=,题意要求对u与y作相关性检验,如果他们具有线性相关关系,就可以进一步求出y对u的回归直线方程,这时再回代u=,就得到了y对x的回归曲线方程.解:首先作变量置换u=,题目所给数据变成如下表所示的数据。ui10.50。330.20。10.050。030.020。010.005yi10.155.524。082。852.111.621.411.301.211.15可以求得,γ==0。9998由γ=0.9998>0.75,因此,变量y与ui间具有较强的线性相关关系,并且=8.973,=1.125.最后回代a=可得=1。125+因此,y与x的回归方程为=1.125+。【变式训练】一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列成下表,试建立y与x之间的回归方程。温度x/℃21232527293235产卵数y/个711212466115325解:根据收集的数据,作散点图,如下图.从图中可以看出,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,根据已有的函数知识,可以发现样本点分布在某一条直数函数曲线y=附近,其中C1、C2为待定的参数,我们可以通过对数变换把指数关系变为线性关系,令z=lgy,则变换后样本点分布在直线z=bx+a(a=lnC1,b=lnC2)的附近,这样可以利用线性回归建立y与x的非线性回归方程了。变换的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.由上表中的数据可得到变换的样本数据表如下表:x21232527293235y1.9462。3983.0453.1784.1904。7455.784可以求得线性回归直线方程为=0。272x—3。843因此红铃虫的产卵数对温度的非线性回归方程为=e0。272x—3.843,另一方面,可以认为图中的样本点集中在某二次曲线y=的附近,其中C3、C4为待定参数,因此可以对温度变量进行变换,令t=x2,然后建立y与t之间的线性回归方程.从而得到y与x之间的非线性回归方程.下表是红铃虫的产卵数和对应温度的平方的线性回归模型拟合表,作出相应的散点图如下图所示:t44152962572984110241225y7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论