




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十一章 一元线性回归,1,2,3,4,变量间 关系的 度量,一元线 性回归,用回归 方程进 行估计 和预测,残差分 析,第一节 变量间关系的度量,变量间的关系 函数关系,是指变量之间一种严格的确定性的依存关系 例: 航程=航速x时间 利息=本金x利率 圆周长=圆周率x直径,相关关系(correlation) 变量间关系不能 用函数来精确表 达 一个变量的取值 不能由另一个变 量唯一的确定 例: 子女身高与父母身高 冬至天气与春节天气 资金投入与产出,例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和
2、月平均销售额的数据,并编制成相关表格,在平面上用点画出图形,用来描述两者的关系,相关关系的类型,相关关系的描述-散点图,相关关系的量化描述-相关系数 协方差(covariance),协方差能反映两变量间是否相关(等于或不等于零)或是正相关还是负相关(大于或小于零) 例1:计算下列两组观察值的协方差 协方差为205.214 例2:计算下列两组观察值的协方差 协方差为2052.14,相关系数(correlation coefficient) 协方差是离差的乘积和。将协方差“标准化”后,即为 称为相关系数,是对变量之间关系密切程度的度量 相关系数的另一计算公式为,相关系数的取值及其意义 r 的取值范
3、围是 -1,1 | r |=1,为完全相关; r =1,为完全正相关;r =-1,为完全负相关 r = 0,不存在线性相关关系 -1 r 0,为负相关; 0 r 1,为正相关 | r |越趋于1表示关系越密切;| r |越趋于0表示关系越不密切 一般可按三级划分:| r | 0.4为低度线性相关;0.4| r | 0.7为显著性相关;0.7| r |1为高度线性相关,例:,相关系数的显著性检验 r 的抽样分布随总体相关系数和样本容量的大小而变化 当样本数据来自正态总体时,随着n的增大,r 的抽样分布趋于正态分布 当为较大的正值时,r 呈现左偏分布 当为较小的负值时,r 呈现右偏分布 当接近于0
4、,或样本容量n很大时,才能认为r是接近于正态分布的随机变量,相关系数显著性检验的步骤 提出假设 H0: ;H1: 0 计算检验的统计量 确定显著性水平,并作出决策 若 t t ,拒绝H0 若 t t ,不能拒绝H0,例题分析 例:判别各自变量之间是否存在多重共线性,各相关系数检验的统计量,,对所有检验统计量均有 ,所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系 由Excel表输出的结果可知 Significance-F1.03539E-06 =0.05 这也暗示了模型中存在多重共线性 固定资产投资额的回归系数为-0.029193(负数),与预期的不一致,线性回归方程 如果样本变量
5、间存在直线相关关系,则可画出一条从散点中通过的直线,称为回归直线,其数学解析式称为样本回归方程,写作 这里 表示自变量的观察值 表示因变量的拟合值 表示回归直线截距 表示回归直线斜率,第二节 一元线性回归,拟合直线(样本回归方程)的获得,最小二乘估计 使因变量的观察值与估计值之间的离差平方和达到最小来确定回归直线的方法,称为最小二乘法。即要确定这样的a和b,使得 用最小二乘法拟合的直线来代表x与y之间的关系则y的估计值与实际数据的误差比用其他任何直线估计都要小,a和b的计算公式,例:为研究收入与食品支出的关系,随机抽取了10户家庭 的样本,请拟合样本回归方程,解:作散点图,通过散点图可近似看出
6、收入与食品支出之间呈线性 关系,故设两者有关系,经济意义:当收入为0时,亦须有217.26元的食品支出, 收入每增加100元,食品支出平均增加20.23 元,回归分析与相关分析的区别 相关分析中,变量 x 与变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位; x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度; 回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控
7、制,第二节 关于因变量的估计与推算,描述统计,样本数据反映的变量间协变关系,线性回归方程,总体的变量间所具有的协变关系,线性回归模型,统计推断,一元线性回归模型 如果两个变量在总体上存在着线性回归关系,可表示为 Y = + b X + e Y是 X 的线性函数(部分)加上误差项 线性部分反映了由于 X 的变化而引起的 Y 的变化 误差项 是随机变量 反映了除 X 和Y 之间的线性关系之外的随机因素对 Y的影响 不能由 X 和Y 之间的线性关系所解释的变异性 和 b 称为模型的参数,一元线性回归模型图示,一元线性回归模型基本假定 误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 X
8、 值,Y 的期望值为 E ( Y ) =+ X (总体回归方程) 对于给定的 X 值,误差项是一个服从正态分布的随机变量,即N( 0 , ),这里 为的方差 对于任意的X值,误差项的方差均相同,且相互独立 独立性意味着对于一个特定的 X 值,它所对应的与其他 X 值所对应的不相关 对于一个特定的 X 值,它所对应的 Y 值与其他 X 所对应的 Y 值也不相关(无自相关),总体回归方程 描述 Y 的平均值或期望值如何依赖于 X 的方程称为总体回归方程 一元线性总体回归方程的形式如下 方程的图示是一条直线,也称为直线回归方程 是回归直线在 Y 轴上的截距,是当X=0 时Y 的期望值 是直线的斜率,
9、称为回归系数,表示当 X每 变动一个单位时,Y 的平均变动值,估计的总体回归方程 总体回归参数 和 是未知的,必须利用样本数据去估计 用样本统计量 a 和 b 代替回归方程中的未知参数 和 ,就得到了估计的总体回归方程 (样本回归方程) 一元线性回归中估计的总体回归方程为 其中:a是估计的回归直线在 y 轴上的截距,b是直线的斜率,也表示 x 每变动一个单位时y 的平均变动值, 是 y 的估计值,估计的总体回归方程(续),图示,估计标准误差 总体回归模式中的方差记为 。由于未知,我们用样本数据来估计。记 它是样本数据 y 观察值与其回归直线拟合值的离差,称为残值 称为估计标准误差,它描述用样本
10、数据拟合回归直线时,在X取特定值时Y观察值对于相应的拟合值的离散程度。又可写为,例:调查得各地区某季度家具销售额和前一季度住宅建筑许可证颁发数的数据为:,根据这些样本数据,拟合样本线性回归方程和计算估计标准误差 所求的样本回归方程为 斜率b表示每多发一份许可证,家具销售额可望增加 0.1055万元。估计标准误差是,根据自变量 x 的取值估计或预测因变量 y的取值 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,第三节 用回归方程进行估计和预测,点估计 对于自变量 x 的一个给定值 ,根据回归方程得到因变量
11、y 的一个估计值 点估计值有 y 的平均值的点估计 y 的个别值的点估计 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,例: 根据下列数据,计算估计的回归方程. 解:,回归方程为: y = -0.8295 + 0.037895 x,y 的平均值的点估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 例: 我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计 。根据估计的回归方程得,y 的个别值的点估计 利用估计的回归方程,对于自变量 x 的一个给定值 x
12、0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计 例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计 。根据估计的回归方程得,区间估计 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate),置信区间估计 利用估计的回归方程,对于自变量
13、x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在 1- 置信水平下的置信区间为 其中: 为估计标准误差,例:求出贷款余额为100亿元时,不良贷款95%置信水平下的置信区间 解:根据前面的计算结果,已知n=25, =1.9799, 置信区间为 当贷款余额为100亿元时,不良贷款的平均值在2.1141亿元到3.8059亿元之间,预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval)
14、y0在 1- 置信水平下的预测区间为,例:求出贷款余额为72.8亿元的那个分行,不良贷款95%的预测区间 解:根据前面的计算结果,已知n=25, 预测区间为 贷款余额为72.8亿元的那个分行,其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间,置信区间、预测区间、回归方程,离差平方和的分解,SST = SSR + SSE,总平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的
15、取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,线性关系的检验 检验自变量与因变量之间的线性关系是否显著 将回归均方和(MSR)同残差均方和(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方和:回归平方和SSR除以相应的自由度(自变量的个数p) 残差均方和:残差平方和SSE除以相应的自由度(n-p-1),线性关系检验的步骤 提出假设 H0: =0 线性关系不显著 H1: 0 线性关系显著 计算检验统计量F 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 决策:若FF ,拒
16、绝H0 ;若FF ,不拒绝H0,例: 检验不良贷款与贷款余额关系的线性关系是否显著 解: 提出假设 : =0 不良贷款与贷款余额之间的线性关系不 显著 : 0 计算检验统计量F 确定显著性水平=0.05,并根据分子自由度1和分母自由度25-2找出临界值F =4.28 作出决策:若FF ,拒绝 ,线性关系显著,回归系数的检验 给定显著性水平,检验样本斜率b与总体斜率之间是否有差异 对于一元线性回归分析中,对b的检验就是要判断是否为零 检验的理论基础是回归系数 b 的抽样分布 在一元线性回归中,等价于线性关系的显著性检验,回归系数的检验(样本统计量 b 的分布) b是根据最小二乘法求出的样本统计量
17、,它有自己的分布 b的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于 未知,需用其估计量 来代替得到b的估计的标准差,回归系数检验的步骤 提出假设 H0: b = 0 (没有线性关系) H1: b 0 (有线性关系) 计算检验的统计量 确定显著性水平,并进行决策 t ,拒绝 ; t ,不拒绝,对例题的回归系数进行显著性检验(0.05) 提出假设 : = 0 : 0 计算检验的统计量 t=7.533515 =2.201,拒绝 ,表明不良贷款与贷款余额之间有线性关系,判定系数 (coefficient of determination) 判定系数为回归平方和占总离差平方和的比例
18、反映回归直线的拟合程度 取值范围在 0 , 1 之间 1,说明回归方程拟合的越好; 0,说明回归方程拟合的越差 判定系数等于相关系数的平方,总体判定系数 总体判定系数是总体回归平方和占总体离差平方和的比例,可表示为 经调整样本判定系数(adjusted coefficient of determination) 总体判定系数一般未知,用样本统计量来估计。于是有,例:计算不良贷款对贷款余额回归的判定系数,并解释其意义 解: 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系,残差(residual) 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示 反映了用估计的回归方程去预测而引起的误差 确定有关误差项 的假定是否成立 检测有影响的观测值 正态性,第四节 残差分析,用残差证实模型的假定 残差图(residual plot)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 随笔关于高一学生2025年终总结(9篇)
- 2024年二手车评估师考试复习计划试题及答案
- 2024年小自考行政管理在职人员的必修课试题及答案
- 2025年高分子合成材料项目建议书
- 2024年宠物营养师考试难点分析试题及答案
- 2024年计算机基础考试基本概念试题及答案
- 2024年计算机基础重要知识回顾及试题和答案
- 宠物肠道微生物与营养的关系试题及答案
- 统计图形与数据呈现试题及答案
- 2024年汽车维修工资格考试难度题目及答案
- 合伙开办教育培训机构合同范本
- 嵌入式机器视觉流水线分拣系统设计
- 江苏省盐城市东台市第一教育联盟2024-2025学年七年级下学期3月月考英语试题(原卷版+解析版)
- 湖南省2025届高三九校联盟第二次联考历史试卷(含答案解析)
- 2024年全国职业院校技能大赛(高职组)安徽省集训选拔赛“电子商务”赛项规程
- 2025年中考数学复习:翻折问题(含解析)
- (统编版2025新教材)语文七下全册知识点
- 家具全屋定制的成本核算示例-成本实操
- 第二单元第1课《精彩瞬间》第2课时 课件-七年级美术下册(人教版2024)
- 放射科危急值报告流程质量控制方案
- 2023-2024学年江苏南京江宁区七年级下册语文期中试卷及答案A卷
评论
0/150
提交评论