版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一节一元线性回归分析一、变量间的两类关系二、一元线性回归模型四、回归方程的显著性检验三、回归系数的最小二乘估计五、估计与预测第一节一元线性回归分析一、变量间的两类关系二、一元线性回变量间的关系1.确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的施肥量和产量股票的时间和价格学生的期中和期末考试成绩,…2.非确定性关系xy实变量随机变量相关关系一、变量间的两类关系变量间的关系1.确定性关系或函数关系y=f(x)人的身
变量间相关关系不能用完全确定的函数关系表示,但某种意义下有一定的定量关系表达式,研究这种定量关系表达式就是回归分析的主要任务。(“回归”一词由英国生物学家兼统计学家高尔顿提出)regressiony-1.73=0.8(x-1.73)变量间相关关系不能用完全确定的函数关系表示,但某种意义(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制基本思想(x,y)采集样本信息(xi,yi)回归分析散点图
如果数学关系式描写了一个变量y与另一个变量x之间的相关关系,则称其为一元回归分析;并且称y是响应变量(ResponseVariable
)(因变量:DependentVariable);称x是预报变量(自变量:IndependentVariable、回归变量).
回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.
如果数学关系式描写了一个因变量与另外多个自变量之间的相关关系,则称其为多元回归分析.如果数学关系式描写了一个变量y与另一个变量第一类回归问题
当x也是r.v时,在知道x的取值后y的条件密度为p(y|x).我们关心的是y的平均取值E(y|x),它是x的函数:称为y关于x的理论回归函数这是第一类回归问题第一类回归问题称为y关于x的理论回归函数第二类回归问题
若x可被人为控制(成为非r.v),只是y为r.v,它们之间的关系可表示为:
y=f(x)+ε其中ε为随机误差,一般假设ε~N(0,σ2).则Ey=f(x)我们仍关心的是回归函数f(x)的确定.
这是第二类回归问题本书主要研究第二类回归问题(且是线性回归问题)第二类回归问题本书主要研究第二类回归问题(且是线性回归问题)补充:相关系数补充:相关系数散点图不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图不相关负线性【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基一元线性回归课件散点图散点图1、样本相关系数:1、样本相关系数:(例题分析)用Excel计算相关系数(例题分析)用Excel计算相关系数例.指出下面哪一个方程一定是错误的相关关系与因果关系西班牙医生GasperCasal与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃,恰恰是糙皮病发生病历最多的季节。
许多流行病专家认为这种疾病是传染性的——由昆虫传染。
1914年初,美国医生JosephGoldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。相关关系与因果关系
例1:合金强度估计与碳含量有关.为生产出强度满足用户的合金,如何控制碳含量?若已知碳含量,如何预测合金强度?现收集了12组数据如下表:序号碳含量x(%)合金强度y(107帕)1230.100.110.1242.043.045.045670.130.140.150.1645.045.047.549.080.1753.09100.180.2050.055.0110.2155.0120.2360.0例1:合金强度估计与碳含量有关.为生产出强度满足用户的合金
为了研究这些数据中所蕴含的规律性,先由12对数据作出散点图.变量x和y之间大致可看作线性关系.为了研究这些数据中所蕴含的规律性,先由12对数上式表明,y
与x间有线性关系,但受到随机误差的干扰.y称为因变量,x称为自变量,称为随机误差,β0,β1称为待估计的回归参数,β0为截矩;β1为直线斜率.两个变量之间的线性关系,可表为二、一元线性回归模型上式表明,y与x间有线性关系,但受到随机误差的干扰.注记.通常假定:在对未知参数做区间估计或假设检验时,还通常假定:注记.通常假定:在对未知参数做区间估计或假设检验时,还通如果由数据获得β0,β1的估计分别为,则经验回归方程为:其图形称为回归曲线.给出x=x0后,称两个变量之间的线性关系,其回归模型为设对
y及
x做
n次观测得数据
(xi,yi)(i=1,2,…,n).为回归值(拟合值,预测值).即y关于x的回归方程回归系数如果由数据获得β0,β1的估计分别为,KarlGauss的最小化图xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^KarlGauss的最小化图xy(xn,yn)(x1三、回归系数的最小二乘估计1、由最小二乘估计可得到回归方程。记
二元函数的最小值点称为β0,β1的最小二乘估计,简记为LSE.LeastSquaresEstimation三、回归系数的最小二乘估计1、由最小二乘估计可得到回归方程。由正规方程组其中由最小二乘估计所得回归方程为由正规方程组其中由最小二乘估计所得回归方程为例:设其中a,b
是未知参数,试求出a,b的最小二乘估计。例:设其中a,b是未知参数,试求出a,b的最小二乘估
例1(续):应用合金强度与碳含量的数据,试求回归方程.例1(续):应用合金强度与碳含量的数据,试求回归方程.所得回归方程为所得回归方程为2、最小二乘估计的性质2、最小二乘估计的性质这表明:这表明:四.回归方程的显著性检验H0:β1=0vs
H1:β1≠0①.提出假设
为寻找检验H0的方法,将x对y的线性影响与随机波动引起的偏差平方和分开。数据总的波动的偏差平方和回归值记为残差记为1、F检验四.回归方程的显著性检验H0:β1=0vs误差的分解
(图示)xyy误差的分解
(图示)xyy反映了回归自变量的波动反映了其它因素的影响记回归平方和残差平方和可证:在计算时:反映了回归自变量的波动反映了其它因素的影响记回归平方和残差平定理:设y1,y2,…,yn相互独立,且则上述记号下,有(1)(2)(3)SR与Se、独立.关于SR与Se的分布故:进一步,若H0成立,则有定理:设y1,y2,…,yn相互独立,且则上述记号下,有②、选择检验统计量③、对于给定的显著性水平α,当时,就拒绝H0,认为回归方程有显著意义.②、选择检验统计量③、对于给定的显著性水平α,当
t-检验(1)(2)检验统计量:(3)(4)若t>t1-/2,
拒绝
H0
若tt1-/2,
不拒绝
H0t-检验(1)查|r|分布的临界值表(附表9)得r1-(n-2),当|r|≥r1-(n-2)时拒绝H0检验统计量:样本相关系数r提出假设
H0:ρ
=0vsH1:ρ
≠0相关系数检验:设ρ为二维总体(x,y)的相关系数注:称r2为判定系数,它度量了经验回归方程对观测数据的拟合程度.0≤r2≤1,它的值越大,表明因变量与自变量之间的相关性越强.查|r|分布的临界值表(附表9)得r1-(n-2
例1(续):应用合金强度与碳含量的数据,得到了回归方程.试用相关系数法验证回归方程的显著性。查表得临界值r1-(n-2)=r0.99(10)=0.708,从而拒绝H0.=0.01时,例1(续):应用合金强度与碳含量的数据,得到了回归方程.试(1)y
与x
之间的关系不是线性关系;回归效果不显著的原因分析:(2)影响y
取值的,除x
及随机误差外,还有其它不可忽略的因素;(3)
y
与x
之间可能不存在关系。(1)y与x之间的关系不是线性关系;回归效果不显著的
已知,寻求均值的点估计与区间估计.(1)Ey0的点估计:即为回归方程计算所得回归值.当回归方程经过显著性检验之后,可用来估计和预测.五.估计与预测1.Ey0的估计问题.已知,寻求均值(2)Ey0的区间估计:由于且与相互独立.(2)Ey0的区间估计:由于且与置信区间为其中置信区间为其中所求即x=x0
时,对应y0的1-α取值区间.由于
2.y0的预测区间.(个值预测)Ey0的区间估计(均值预测)所以y0的1-α预测区间为其中所求即x=x0时,对应y0的1-α取值区间.由于
2置信区间、预测区间、回归方程xpyxx预测上限置信上限预测下限置信下限置信区间、预测区间、回归方程xpyxx预测上限置信上限预测1.线性回归模型不宜用于长期预测。2.事物发展与历史数据的趋势有过大的差异。例如:航空运量的增长在1996年以前是经济增长的线性趋势。应用回归模型需要的注意问题19961.线性回归模型不宜用于长期预测。应用回归模型需要的注意问第一节一元线性回归分析一、变量间的两类关系二、一元线性回归模型四、回归方程的显著性检验三、回归系数的最小二乘估计五、估计与预测第一节一元线性回归分析一、变量间的两类关系二、一元线性回变量间的关系1.确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的施肥量和产量股票的时间和价格学生的期中和期末考试成绩,…2.非确定性关系xy实变量随机变量相关关系一、变量间的两类关系变量间的关系1.确定性关系或函数关系y=f(x)人的身
变量间相关关系不能用完全确定的函数关系表示,但某种意义下有一定的定量关系表达式,研究这种定量关系表达式就是回归分析的主要任务。(“回归”一词由英国生物学家兼统计学家高尔顿提出)regressiony-1.73=0.8(x-1.73)变量间相关关系不能用完全确定的函数关系表示,但某种意义(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制基本思想(x,y)采集样本信息(xi,yi)回归分析散点图
如果数学关系式描写了一个变量y与另一个变量x之间的相关关系,则称其为一元回归分析;并且称y是响应变量(ResponseVariable
)(因变量:DependentVariable);称x是预报变量(自变量:IndependentVariable、回归变量).
回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.
如果数学关系式描写了一个因变量与另外多个自变量之间的相关关系,则称其为多元回归分析.如果数学关系式描写了一个变量y与另一个变量第一类回归问题
当x也是r.v时,在知道x的取值后y的条件密度为p(y|x).我们关心的是y的平均取值E(y|x),它是x的函数:称为y关于x的理论回归函数这是第一类回归问题第一类回归问题称为y关于x的理论回归函数第二类回归问题
若x可被人为控制(成为非r.v),只是y为r.v,它们之间的关系可表示为:
y=f(x)+ε其中ε为随机误差,一般假设ε~N(0,σ2).则Ey=f(x)我们仍关心的是回归函数f(x)的确定.
这是第二类回归问题本书主要研究第二类回归问题(且是线性回归问题)第二类回归问题本书主要研究第二类回归问题(且是线性回归问题)补充:相关系数补充:相关系数散点图不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图不相关负线性【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基一元线性回归课件散点图散点图1、样本相关系数:1、样本相关系数:(例题分析)用Excel计算相关系数(例题分析)用Excel计算相关系数例.指出下面哪一个方程一定是错误的相关关系与因果关系西班牙医生GasperCasal与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃,恰恰是糙皮病发生病历最多的季节。
许多流行病专家认为这种疾病是传染性的——由昆虫传染。
1914年初,美国医生JosephGoldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。相关关系与因果关系
例1:合金强度估计与碳含量有关.为生产出强度满足用户的合金,如何控制碳含量?若已知碳含量,如何预测合金强度?现收集了12组数据如下表:序号碳含量x(%)合金强度y(107帕)1230.100.110.1242.043.045.045670.130.140.150.1645.045.047.549.080.1753.09100.180.2050.055.0110.2155.0120.2360.0例1:合金强度估计与碳含量有关.为生产出强度满足用户的合金
为了研究这些数据中所蕴含的规律性,先由12对数据作出散点图.变量x和y之间大致可看作线性关系.为了研究这些数据中所蕴含的规律性,先由12对数上式表明,y
与x间有线性关系,但受到随机误差的干扰.y称为因变量,x称为自变量,称为随机误差,β0,β1称为待估计的回归参数,β0为截矩;β1为直线斜率.两个变量之间的线性关系,可表为二、一元线性回归模型上式表明,y与x间有线性关系,但受到随机误差的干扰.注记.通常假定:在对未知参数做区间估计或假设检验时,还通常假定:注记.通常假定:在对未知参数做区间估计或假设检验时,还通如果由数据获得β0,β1的估计分别为,则经验回归方程为:其图形称为回归曲线.给出x=x0后,称两个变量之间的线性关系,其回归模型为设对
y及
x做
n次观测得数据
(xi,yi)(i=1,2,…,n).为回归值(拟合值,预测值).即y关于x的回归方程回归系数如果由数据获得β0,β1的估计分别为,KarlGauss的最小化图xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^KarlGauss的最小化图xy(xn,yn)(x1三、回归系数的最小二乘估计1、由最小二乘估计可得到回归方程。记
二元函数的最小值点称为β0,β1的最小二乘估计,简记为LSE.LeastSquaresEstimation三、回归系数的最小二乘估计1、由最小二乘估计可得到回归方程。由正规方程组其中由最小二乘估计所得回归方程为由正规方程组其中由最小二乘估计所得回归方程为例:设其中a,b
是未知参数,试求出a,b的最小二乘估计。例:设其中a,b是未知参数,试求出a,b的最小二乘估
例1(续):应用合金强度与碳含量的数据,试求回归方程.例1(续):应用合金强度与碳含量的数据,试求回归方程.所得回归方程为所得回归方程为2、最小二乘估计的性质2、最小二乘估计的性质这表明:这表明:四.回归方程的显著性检验H0:β1=0vs
H1:β1≠0①.提出假设
为寻找检验H0的方法,将x对y的线性影响与随机波动引起的偏差平方和分开。数据总的波动的偏差平方和回归值记为残差记为1、F检验四.回归方程的显著性检验H0:β1=0vs误差的分解
(图示)xyy误差的分解
(图示)xyy反映了回归自变量的波动反映了其它因素的影响记回归平方和残差平方和可证:在计算时:反映了回归自变量的波动反映了其它因素的影响记回归平方和残差平定理:设y1,y2,…,yn相互独立,且则上述记号下,有(1)(2)(3)SR与Se、独立.关于SR与Se的分布故:进一步,若H0成立,则有定理:设y1,y2,…,yn相互独立,且则上述记号下,有②、选择检验统计量③、对于给定的显著性水平α,当时,就拒绝H0,认为回归方程有显著意义.②、选择检验统计量③、对于给定的显著性水平α,当
t-检验(1)(2)检验统计量:(3)(4)若t>t1-/2,
拒绝
H0
若tt1-/2,
不拒绝
H0t-检验(1)查|r|分布的临界值表(附表9)得r1-(n-2),当|r|≥r1-(n-2)时拒绝H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 6579-4:2025 EN Microbiology of the food chain - Horizontal method for the detection,enumeration and serotyping of Salmonella - Part 4: Identification of monophasic Salm
- 房产代持二零二五年度合同范本示例3篇
- 2025年度建筑劳务外包项目合同书4篇
- 郑州铁路职业技术学院《广播电视采访与写作二》2023-2024学年第一学期期末试卷
- 个人住房贷款赎回协助合同(2024年)3篇
- 2025年度医院科室承包运营质量保证合同4篇
- 2025版炊事员餐饮卫生与食品安全监管协议3篇
- 2025版个人住宅装修安全责任及维修保障协议4篇
- 2025年度购物中心门头形象升级改造合同4篇
- 2025年度住宅小区电动自行车停车库建设合同2篇
- 销售与销售目标管理制度
- 人教版(2025新版)七年级下册英语:寒假课内预习重点知识默写练习
- 2024年食品行业员工劳动合同标准文本
- 2024-2030年中国减肥行业市场发展分析及发展趋势与投资研究报告
- 运动技能学习
- 2024年中考英语专项复习:传统文化的魅力(阅读理解+完型填空+书面表达)(含答案)
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- 2024年公安部直属事业单位招聘笔试参考题库附带答案详解
- 临沂正祥建材有限公司牛心官庄铁矿矿山地质环境保护与土地复垦方案
- 六年级上册数学应用题练习100题及答案
- 死亡报告年终分析报告
评论
0/150
提交评论