




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲一元线性回归演示文稿现在是1页\一共有50页\编辑于星期五(优选)第三讲一元线性回归现在是2页\一共有50页\编辑于星期五Y=10.766+0.005X+u现在是3页\一共有50页\编辑于星期五测试成绩和学生/教师比关系的OLS估计值及其分析。打开数据文件:score.dtaregtestscrstr现在是4页\一共有50页\编辑于星期五testscr=698.93-2.28str+u现在是5页\一共有50页\编辑于星期五回归结果的分析现在是6页\一共有50页\编辑于星期五现在是7页\一共有50页\编辑于星期五1。截距项和斜率的含义是什么?本题的截距表示:学生教师比为0(没有学生时)的测试成绩的最高值,因此没有实际意义。可以理解为确定回归线的系数。现在是8页\一共有50页\编辑于星期五斜率:表示弹性
-2.28的斜率表示当每个教师对应的学生人数增加1个时,学区测试成绩将平均下降2.28分。而当每个教师对应的学生人数减少2个时,测试成绩平均提高:((-2)×(-2.28))=4.56分,负的斜率表明每个教师对应的学生人数越多(较大规模的班),则相应的测试成绩越差。现在是9页\一共有50页\编辑于星期五
2。方程的经济预测能力:得到回归结果后,可以进行简单的预测,只要给定学生/教师比(X)取值后就能预测全学区的测试成绩了。
testscr=698.93-2.28×str+u
如每个教师对应20个学生的学区,其测试成绩预测值为698.93-2.28×20=653.30。当然,由于其他决定学区成绩的因素(u)的影响,预测不会是绝对正确的。预测的准确程度取决于模型的优劣。现在是10页\一共有50页\编辑于星期五3。方程的斜率的大小评估:观察选取的420个样本的总体分布(分位数)现在是11页\一共有50页\编辑于星期五一个例子:
假设某个学区处于加利福尼亚学区的中位数,对应的学生/教师比为19.7,现在想减少到17.7。一方面:她的学区学生/教师比从50%分位数移到接近10%分位数。这是一个相当大的变动。另一方面:带入方程,测试成绩预计从654.5提高到659.1,从50%分位数移到将近60%分位数。现在是12页\一共有50页\编辑于星期五股票的beta值:证券组合的风险与报酬(一)证券组合的风险同时投资于多种证券的方式称为证券的投资组合,简称证券组合或投资组合。证券组合的风险分为可分散风险与不可分散风险。可分散风险不可分散风险别称非系统性风险公司特别风险系统性风险市场风险含义某些因素对单个证券造成经济损失的可能性某些因素给市场上所有证券都带来经济损失的可能性特性可通过证券持有的多样化来抵消不能通过证券组合分散掉13可分散风险可通过证券组合来消减现在是13页\一共有50页\编辑于星期五Rm是市场组合的期望收益,一般用C&P500组合收益,Rf是市场无风险收益,可以理解为各类存款收益。现在是14页\一共有50页\编辑于星期五我们把利用OLS方法估计出的参数b0和b1称为OLS估计量,用表示。用OLS方法估计出的方程:现在是15页\一共有50页\编辑于星期五残差的概念残差是每个样本的拟合值和实际值之间的差。用ei或者表示。样本回归模型:样本拟合线:残差值:现在是16页\一共有50页\编辑于星期五基本原理:1。确定样本个数n,给出观测值(Xi,Yi),
i=1,2,3,…n。由于样本容量已定,样本回归模型可写为:其中称为回归系数(拟合参数),称为残差(拟合误差)。普通最小二乘法(OLS)现在是17页\一共有50页\编辑于星期五2。利用OLS法寻找残差的平方和最小的直线,估计出的具体值。3。此时可得到利用OLS方法测算出的Y的拟合值,注意,并不是实际的Y值,有如下计算公式:因此,是Y的估计值或拟合值,而残差的大小决定了模型的优劣。现在是18页\一共有50页\编辑于星期五思考:与ui是否是一回事?有什么区别和联系?现在是19页\一共有50页\编辑于星期五直线上的点的坐标是,样本点的坐标是Yi
是从样本点到直线的距离。现在是20页\一共有50页\编辑于星期五拟合优度拟合优度R2:描述OLS回归线对样本数据的拟合效果;描述观测值在回归线附近的离散程度;同时描述了样本数据有多大程度可以被回归方程所解释。回归R2是指可由Xi解释(或预测)的Yi样本方差的比例。现在是21页\一共有50页\编辑于星期五OLS方法得到的拟合线一定是所有直线中拟合效果最好的,但由于样本自身的原因,拟合效果有好有坏。最典型的例子是错误的函数形式现在是22页\一共有50页\编辑于星期五这是一个典型的对数函数的例子,用线性方程,模拟效果较差。现在是23页\一共有50页\编辑于星期五拟合优度现在是24页\一共有50页\编辑于星期五
对于所有样本点的平方和,均有下列结论:记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares
)现在是25页\一共有50页\编辑于星期五TSS=ESS+RSS(证明见附录)
Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此
拟合优度:回归平方和ESS/Y的总离差TSS现在是26页\一共有50页\编辑于星期五2、拟合优度R2统计量
称R2为(样本)拟合优度/可决系数/判定系数(coefficientofdetermination)。
拟合优度的取值范围:[0,1]
R2越接近1,说明实际观测点离样本线越近,拟合优度越高。现在是27页\一共有50页\编辑于星期五由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义“校正的拟合优度”
现在是28页\一共有50页\编辑于星期五察看上述例题的拟合优度注意:1。拟合优度一定程度上反映了选取变量的对被解释变量的“解释能力”。2。拟合优度低一般说明方程忽略了某些重要的解释因素。3。在大样本下,拟合优度一般不会太高。现在是29页\一共有50页\编辑于星期五回归标准误差(SER)回归标准误差(standarderroroftheregression.SER)是回归误差u的标准差估计量,是用因变量单位度量的观测值在回归线附近的离散程度。对于误差项ui,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。由于ui本身是不可知的,因此,实际上sui是无法获得的,为了模拟其数值大小,我们用的标准差作为ui的标准差的估计值,称为回归的标准误差。现在是30页\一共有50页\编辑于星期五为什么要除以n-2?n-2是自由度。现在是31页\一共有50页\编辑于星期五模型中样本值可以自由变动的个数,称为自由度。自由度=样本个数—样本数据受约束条件(方程)的个数。例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df=n-k。现在是32页\一共有50页\编辑于星期五其中n-2为自由度。由于随机变量必须满足k+1个正规方程(一元线形回归模型中有2个方程),故只有n-k-1个是相互独立的。经过这样校正后,才是无偏估计。现在是33页\一共有50页\编辑于星期五如果无任何特征和规律可言,整个计量模型的建立将无法开展,因此,我们需要人为地为它设定一些假定条件。如果下列假定条件满足,我们就可以用最小二乘法对模型进行回归估计。本书中的经典假设是对于大样本数据而言,根据中心极限定理,大样本数据有很好的分布特征。现在是34页\一共有50页\编辑于星期五假设1:给定Xi时ui的条件分布均值为零(1)随机误差项ui的数学期望为0。
E(ui|Xi)=0。同时:
E(Yi|Xi)=E()=E()=
理论上,随机误差项被假定为没有被纳入到模型中的微小影响,因此,没有理由相信这样一些影响会以一种系统的方式使被解释变量变大或者变小,可以假定其均值为0。现在是35页\一共有50页\编辑于星期五现在是36页\一共有50页\编辑于星期五例如对某一给定的班级规模Xi,如每班20个学生,其他因素ui有时使成绩高于预测值(ui>0),有时使成绩低于预测值(ui<0),但就总体平均而言,ui的分布的均值为零。同时,给定班级规模Xi,由于ui的干扰,某些Y’i的值大于Yi,某些Y’i的值小于Yi,但就总体平均而言,Y’i的分布的均值为E(Yi|Xi)=B0+B1Xi,即总体均值在回归线上。现在是37页\一共有50页\编辑于星期五推论E(ui|Xi)=0意味着ui和Xi不相关,即:Corr(ui,Xi)=0这是最小二乘法最基本的假设,如果Corr(ui,Xi)<>0,模型是有偏的。现在是38页\一共有50页\编辑于星期五假设2:(Xi,Yi)满足独立同分布每次从总体中的抽样都包含相同的分布;同时,每次抽样均是独立进行的。可以证明:(Xi,Yi)满足独立同分布,则Xi也满足独立同分布。现在是39页\一共有50页\编辑于星期五假设3:不太可能出现大异常值有限峰度假设现在是40页\一共有50页\编辑于星期五当出现大异常值时,X和Y分布的峰度会变得很大。包含四阶距,要求其有限。即:0<E(Xi4)<∞0<E(Yi4)<∞现在是41页\一共有50页\编辑于星期五出现大异常值的一种可能是数据登录错误,如印刷错误或对不同观测错误地采用了不同的单位:如设想一下收集以米为单位的学生身高数据,但不小心把其中一个学生的身高记成了以厘米为单位。发现异常值的一种方法是画出数据图。如果你确定是由于数据登录错误造成了异常值,则你可以改正这个错误,如果不能改正就把它从数据集中删除。现在是42页\一共有50页\编辑于星期五最小二乘假设的作用主要作用:大样本下,抽样分布服从正态分布。同时,假设样本数据没有错误。现在是43页\一共有50页\编辑于星期五OLS估计量的抽样分布现在是44页\一共有50页\编辑于星期五OLS估计量的抽样分布在ui满足高斯假定条件时,通过OLS方法,我们可以得到回归系数的估计量成为的拟合值。注意:是不是两个常数?现在是45页\一共有50页\编辑于星期五计量回归模型中,对于要研究的问题,可以建立方程:这是总体的方程描述。应该能够确定。但事实上我们没有能力获得整体信息,只能通过部分数据模拟整体分布,即抽样。现在是46页\一共有50页\编辑于星期五我们是在总体中进行抽样。每抽取一组样本就会有一组相应的回归系数,因此,一定不是常数,而是随机变量,并且具有一定的概率分布。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省聊城市2024-2025学年高二下学期期中教学质量检测物理试卷(含解析)
- 河北省邢台市质检联盟2024-2025学年高二下学期4月期中物理试题(含答案)
- 安徽省宿州市2024-2025学年高二下学期4月期中化学试题 (含答案)
- 2025年甘肃省兰州市学府致远学校九年级适应性考试化学试卷(含答案)
- 2024-2025人教版高二下学期期末复习之电磁感应
- 智慧城市安防系统规划保障城市安全的新篇章
- 人造板家具结构创新创业项目商业计划书
- 高效固体制剂造粒机行业跨境出海项目商业计划书
- 自助咖啡机维护服务企业制定与实施新质生产力项目商业计划书
- 网红美妆体验店行业跨境出海项目商业计划书
- 二年级下册数学教案 《生活中的大数》练习课 北师大版
- GB∕T 16762-2020 一般用途钢丝绳吊索特性和技术条件
- 电网施工作业票模板
- 精选天津市初中地理会考试卷及答案
- T∕CAEPI 31-2021 旋转式沸石吸附浓缩装置技术要求
- 国家级高技能人才培训基地建设项目实施管理办法
- 彩盒成品检验标准
- 落地单排脚手架
- 高层购物中心AAC墙体板材施工方案
- 人教精通版小学英语五年级下册期末测试
- 《活板》综合练习
评论
0/150
提交评论