回归分析的基本思想及其初步应用(1)_第1页
回归分析的基本思想及其初步应用(1)_第2页
回归分析的基本思想及其初步应用(1)_第3页
回归分析的基本思想及其初步应用(1)_第4页
回归分析的基本思想及其初步应用(1)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、必修必修3(3(第二章第二章 统计统计) )知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) )整理、分析数据整理、分析数据估计、推断估计、推断简单随机抽简单随机抽样样分层抽样分层抽样系统抽样系统抽样用样本估计总体用样本估计总体变量间的相关关系变量间的相关关系 用样本用样本的频率的频率分布估分布估计总体计总体分布分布 用样本用样本数字特数字特征估计征估计总体数总体数字特征字特征线性回归分析线性回归分析统计的基本思想统计的基本思想y = f(x)y = f(x)y = f(x)y = f(x)y = f(x)y = f(x)实际实际样本样本模模 拟拟抽抽 样样分分 析析问题问题1 1

2、:正方形的面积正方形的面积y y与正方形的边长与正方形的边长x x之间之间 的的函数关系函数关系是是y = xy = x2 2确定性关系确定性关系问题问题2 2:某水田水稻产量某水田水稻产量y y与施肥量与施肥量x x之间是否之间是否 -有一个确定性的关系?有一个确定性的关系?例如:例如:在在 7 7 块并排、形状大小相同的试验田块并排、形状大小相同的试验田上上 进行施肥量对水稻产量影响的试验,得到进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:如下所示的一组数据:施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量

3、y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455复习、变量之间的两种关系复习、变量之间的两种关系自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。1 1、定义:、定义: 1 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。2 2):):2 2、现实生活中存在着大量的相关关系。现实生活中存在着大量的

4、相关关系。探索:水稻产量探索:水稻产量y y与施肥量与施肥量x x之间大致有何之间大致有何规律?规律?10 20 30 40 5010 20 30 40 50500500450450400400350350300300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2 2:在这些点附近可画直线不止一条,:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表x x与与y y之间的关系呢?之间的关系呢?x xy y施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40

5、45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455散点图散点图10 20 30 40 50500450400350300 xy施化肥量施化肥量水稻产量水稻产量n n2 2i ii ii i= =1 1Q Q( (a a, ,b b) )= =( (y y - -b bx x - -a a) ) 取取最最小小值值时时, ,a a, ,b b的的值值. .推导过程请阅读P92推导过程请阅读P92iiii(x ,y )(x ,y )i ii i(x ,y )(x ,y )|i ii i| |y y - -y y最

6、小二乘法:最小二乘法: y = bx+a(x,y)(x,y)称为样本点的中心称为样本点的中心。n n( (x x- - x x) )( (y y- - y y) )i ii ii i= =1 1b b = =n n2 2( (x x- - x x) )i ii i= =1 1a a = = y y - - b bx x. .n nn n1 11 1其其 中中 x x = =x x , ,y y = =y y . .i ii in nn ni i= =1 1i i= =1 1n niiiii=1i=1n n2 22 2i ii=1i=1x y -nxyx y -nxy=,=,x-nxx-nx3

7、3、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性线性回归分析回归分析。2 2、回归直线方程:、回归直线方程:n nn ni ii ii ii ii i= =1 1i i= =1 1n nn n2 22 22 2i ii ii i= =1 1i i= =1 1( (x x - -x x) )( (y y - -y y) )x x- -n nx xy yb b = = =, ,( (x x - -x x) )x x - -n nx xa a = = y y- -b bx xy y2.2.相应的直线叫做相应的直线叫做回归直线回归直线。1 1、所求直线方程、所求直线方程 叫做叫做回归

8、直回归直 -线方程线方程;其中;其中 y = bx+ay = bx+a相关系数相关系数 1. 1.计算公式计算公式 2 2相关系数的性质相关系数的性质 (1)|r|1(1)|r|1 (2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r|r|越接越接近于近于0 0,相关程度越小,相关程度越小 问题:达到怎样程度,问题:达到怎样程度,x x、y y线性相关呢?它线性相关呢?它们的相关程度怎样呢?们的相关程度怎样呢?n ni ii ii i= =1 1n nn n2 22 2i ii ii i= =1 1i i= =1 1( (x x - - x x) )( (y y

9、- - y y) )r r = =( (x x - - x x) )( (y y - - y y) )负相关负相关正相关正相关n n( (x x - -x x) )( (y y - -y y) )i ii ii i= =1 1r r= =n nn n2 22 2( (x x - -x x) ) ( (y y - -y y) )i ii ii i= =1 1i i= =1 1相关系数相关系数正相关;负相关通常,正相关;负相关通常, r r-1,-0.75-0.75-负相关很强负相关很强; ; r0.75,1正相关很强正相关很强; r-0.75,-0.3-负相关一般负相关一般; ; r0.3, 0

10、.75正相关一般正相关一般; r r-0.25, 0.25-0.25-相关性较弱相关性较弱; ; 10 20 30 40 5010 20 30 40 50500500450450400400350350300300 xy施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455解解: 1.画出散点图画出散点图2.求出求出b b = = 4 4. .7 75 5, , a a = =

11、2 25 56 6. .7 79 93.写出回归方程写出回归方程 y = 4.75x+256.79y = 4.75x+256.794.计算相关系数计算相关系数r r = = 0 0. .9 97 71 18 8例题例题1 1 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身高和体重数据如下表:高和体重数据如下表:编号编号1 12 23 34 45 56 67 78 8身高身高165165165165157157170170175175165165155155170170体重体重48485757505054546464616143435959求根据一名女大学生的身高预报

12、她的体重的求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为回归方程,并预报一名身高为172172的女的女大学生的体重。大学生的体重。 y y = = 0 0. .8 84 49 9x x- -8 85 5. .1 17 72 2分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量身身高高1 17 72 2c cm m女女大大学学生生体体重重y y = = 0 0. .8 84 49 91 17 72 2- -8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16

13、6( (k kg g) )3.通过探究栏目引入通过探究栏目引入“线性回归模型线性回归模型”。此处可以引。此处可以引导学生们体会函数模型与回归模型之间的差别。导学生们体会函数模型与回归模型之间的差别。(2 2)从散点图还可以看到,样本点散布在某一条)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次直线的附近,而不是一条直线上,所以不能用一次函数来描述它们之间的关系。这时我函数来描述它们之间的关系。这时我们用下面的线性回归模型来描述身高和体重的关系:们用下面的线性回归模型来描述身高和体重的关系:+ +其中和为模型的其中和为模型的未知参数未知参数,e e是是y y与

14、与 之间的误差之间的误差, ,通常通常称为称为随机误差随机误差。 y2 2它它的的均均值值E E( (e e) )= = 0 0, ,方方差差D D( (e e) )= = 0 0(1 1)由图形观察可以看出,样本点呈条状分)由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。此可以用线性回归方程刻画它们之间的关系。 y y线性回归模型线性回归模型 + +2 2E E( (e e) )= = 0 0, , D D( (e e) )= = y+ +其中和为模型的其中和为模型的未知参数未知参数,e

15、 e是是y与与 之间的误差之间的误差,通常通常称为称为随机误差随机误差。为了衡量预报的精度为了衡量预报的精度, ,需要估计的需要估计的2 2值值? ?(1, 2,. )iiiiiiybxa inyyybxaiiiii随 机 误 差 e其 估 计 值 为 : ee 称 为 相 应 点 (x ,y )的 残 差22111(,)(2)22(,)niieQ a bnnnQ a b类 比 样 本 方 差 估 计 总 体 方 差 的 思 想称 为 残 差 平 方 和21( ,)()niiiQyx (1 1)根据散点图来粗略判断它们是否线性相关。)根据散点图来粗略判断它们是否线性相关。(2 2)是否可以用线性回归模型来拟合数据)是否可以用线性回归模型来拟合数据(3 3)通过残差)通过残差 来判断模型拟合的效来判断模型拟合的效 果这种分析工作称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论