版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章,一元线性回归模型,最小二乘法产生的历史,最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。,最小二乘法的地位与作用,现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 后来,回归分析法从其方法的数学原理残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。,父亲们的身高与儿子们的身高之间关系的研究,1889年F.Gallton和他的朋友K.Pearson收集了上千个
2、家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图),“回归”一词的由来,从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。 后人将此种方法普遍用于寻找变量之间的规律,主要内容,一元线性回归模型 模型参数估计(最小二乘法) 样本判定系
3、数与拟合优度检验 回归参数估计值的显著性检验 模型整体的显著性检验 一元线性回归模型预测,参数估计,假设检验,一. 一元线性回归模型的概念,1.回归模型 确定关系 (函数关系) 相关关系 (随机关系) 因果关系,Y=f(X) 相关模型 回归模型,(X的变化是Y的变化的原因),随机项的构成,模型中省略的变量 随机因素 测量误差 确定数学模型形式的误差,2.线性回归模型,模型的基本形式 Y = 0+1X1+2X2+3X3+iXi+i 基本假设 解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关; 随机误差项具有0均值和同方差; 随机误差项不存在序列相关关系; 随机误差项与解释变量之间
4、不相关; 随机误差项服从0均值、同方差的正态分布。,3.一元线形回归模型,只含有一个解释变量的线形回归模型 满足基本假设: 1 E(i)= 0 2 Var (i) = 2 3 Cov (i,J)= 0 4 Cov (Xi,i)= 0 i = 1,2,3,,n ; j= 1,2,3,,n ij,同方差,无序列自相关,高斯-马尔柯夫假定,异方差,X,Y,X,Y,序列自相关,X,Y,X,Y,负相关,正相关,协方差,X,Y,X,Y,协方差为正,协方差为负,pij是X和Y的联合概率,二. 一元线性回归模型的参数估计,样本回归线(函数),总体回归模型,样本回归模型,1.基本概念,总体回归线(函数),(1)
5、散点图,变量Y与变量X的散点图,(2)回归线,(3)估计量(Estimator),一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。 统计量是样本的函数,因为抽样是随机的,估计量具有随机性 对一次已经实现的抽样,估计量又是确定的。 在应用中,由具体样本算出的估计量的数值称为估计值。,2.最小二乘法的思路(1),为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。 Y与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。 在Y与X的散点图上画出直线的方法很多。 找出
6、一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”? 最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。,最小二乘法的思路(2),最小二乘法的思路(3),纵向距离是度量实际值与拟合值是否相符的有效手段 点到直线的距离点到直线的垂直线的长度。 横向距离点沿(平行)X轴方向到直线的距离。 纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 实际值-拟合值=残差(剩余),最小二乘法的思路(4),纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。 将所有纵向距离
7、平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。,数学形式,最小二乘法的数学原理,纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。,数学推证过程,最小二乘估计量,最小二乘估计量的简化形式,中心矩形式、离差形式,统计学补充知识,总体矩 (1)总体k阶原点矩为 (2)总体k
8、阶中心矩为,统计学补充知识,样本矩 (1)样本k阶原点矩为 (2)样本k阶中心矩为,统计学补充知识,矩估计法 (1)要点就是用样本矩代替总体矩来估计总体的参数! (2)在求各阶矩时,求原点矩或求中心矩都可以,当然,对每一阶而言,二者只能选其一。,注意几个概念的区别,误差:即随机项 残差:观测值减去拟合值,是误差的估计值 离差:样本观测值减去样本平均值 (以后我们都用小写字母表示离差),3.回归直线的性质(数值性质),残差和=0,平均值相等,拟合值与残差不相关,自变量与残差不相关,注:此处的小写字母不是表示离差,而就是原值,其后4张幻灯片都是一样的意思,但以后我们常见的还是用小写字母表示离差。,
9、1估计残差和为零(Residuals Sum to zero),由第26张幻灯片的(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。,2Y的真实值和拟合值有共同的均值(The actual and fitted values of yi have the same mean),3估计残差与自变量不相关(Residuals are unrelated with independent variable),4估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi),数值性质与统计性质,OLS得到的数值性质是指由于运用普通最小
10、二乘法而得以成立的那些性质,而不管数据是怎样产生的。 OLS得到的统计性质是指仅在数据产生的方式满足一定的假设下才得以成立的性质。(课本P99-100共有基本的四个假设),4.最小二乘估计量的统计性质,线性 无偏性 有效性(最小方差性),(1)线性,参数估计量 , 是Yi的一个线性函数 参数估计量是一个随机变量,采用不同的参数估计方法,会构造出不同的参数估计量 参数估计值是采用样本数据计算的具体数值,不同样本会得出不同的参数估计值,(2)无偏性,指参数估计量的均值等于总体模型参数值,即,(3)有效性(最小方差性)P105,指在所有线性、无偏估计量中,该参数估计量方差最小,有效性(最小方差),O
11、LS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。,高斯-马尔柯夫定理,如果满足古典线性回归模型的基本假定,则在所有无偏估计量中,最小二乘估计(OLS)量具有最小方差性,即是最优线性无偏估计量(合称BLUE性质) (Best Linear Unbiased Estimator),对于高斯-马尔柯夫定理的补充材料,以下9个幻灯片的内容作为补充,有兴趣的同学可以参考,不要求掌握!,1、线性:参数估计量是Yi的线性函数,2、无偏性:参数估计量 的均值(期望)等于模型参数值。即,2、无偏性:,3、有效性:在所有线性、无偏估计量中,最小二乘估计量具有最小方差。,证明最小方差性,4、结论 普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。 具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(the Best Linear Unbiased Estimators)。 显然这些优良的性质依赖于对模型的基本假设。,三. 样本判定系数与拟合优度检验,拟合优度评价 由最小二乘法得出的直线能够反映这些点之间的关系吗? 对这些点之间的关系或趋势反映到了何种程度? 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年青海客运资格证应用能力考试题目
- 2024年玉溪客运从业资格证的考题
- 2024年厦门客运资格证考试题目
- 佛山市普通高中2025届英语高三上期末综合测试试题含解析
- 云南省昭通市三中2025届高三生物第一学期期末监测模拟试题含解析
- 2025届四川省南充市高级中学高二上数学期末统考模拟试题含解析
- 山东省日照市莒县、岚山2025届生物高三第一学期期末学业水平测试模拟试题含解析
- 西安市重点中学2025届高三生物第一学期期末复习检测模拟试题含解析
- 2025届广东省广州市八区联考高一上数学期末学业水平测试试题含解析
- 福建省泉州市泉港区一中2025届英语高三第一学期期末统考模拟试题含解析
- 吉林市2024-2025学年度高三第一次模拟测试 (一模)数学试卷(含答案解析)
- 期中测试卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 电动汽车充电设施及场站测试评价规范第3部分:场站服务能力
- 2025届北京西城14中高二生物第一学期期末检测模拟试题含解析
- 部编版二年级上册-课文一-快乐读书吧:读读童话故事-孤独的小螃蟹(课件)(共26张课件)
- 消防安全方案及措施
- 《春秋》导读学习通超星期末考试答案章节答案2024年
- 工商管理大类的课程设计
- 2024-2025学年初中英语七年级上册(外研版)上课课件 Unit 5 Fantastic friends 2.Developing ideas
- 高中体育 《篮球:运球双手胸前传、接球》说课稿
- GB/T 31326-2014植物饮料
评论
0/150
提交评论