版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十讲第十讲简单线性回归模型简单线性回归模型1n建立两个变量X和Y间的关系模型,推断变量Y如何依赖于变量X, 从而可以用X预测Y.n例:n广告费用和销售量n公司的市值与CEO的年薪n原始股的销售数量和期望价格n证券市场收益率与某只股票的收益率n商品价格和销售量n装配线的速度和次品数量n年收入与信用卡消费金额n年龄与手机话费n连锁店附近的人流与店的利润n气温与滑雪场门票销量n2阿姆德阿姆德比萨饼连锁店的问题比萨饼连锁店的问题 阿姆得阿姆得(Armand)比萨饼连锁店坐落在美国的比萨饼连锁店坐落在美国的5个州内,它们通常的位置是在大学旁边,而且管理人个州内,它们通常的位置是在大学旁边,而且管理人员
2、相信附近大学的人数与这些连锁店的季度销售额是员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是有关系的。下面是10家连锁店附近大学的学生人数和家连锁店附近大学的学生人数和季度销售收入的数据:季度销售收入的数据: 根据以上数据,你能否判断学生人数根据以上数据,你能否判断学生人数(x)如何影如何影响到销售收入响到销售收入(y)?根据一家连锁店附近大学的人数,根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?你能够预测该家连锁店的季度销售收入吗?连锁店连锁店1 12 23 34 45 56 67 78 89 91010学生人数/千人学生人数/千人2 26 68 88 8
3、121216162020202022222626销售额/千元销售额/千元585810510588881181181171171371371571571691691491492022023描述学生人数和销售收入之间的关系描述学生人数和销售收入之间的关系n协方差协方差(315.56)和相关系数和相关系数(0.95),散点图;,散点图;n根据这些你可以得到什么结论?根据这些你可以得到什么结论? 050100150200250051015202530学生人数/千人季度销售收入/千美圆4Types of Regression Models Positive Linear RelationshipNega
4、tive Linear RelationshipRelationship NOT LinearNo Relationship5模型的引入模型的引入n对于给定的学生人数,销售收入是唯一确定的对于给定的学生人数,销售收入是唯一确定的一个数,还是一个随机变量?一个数,还是一个随机变量?n学生人数的变化如何影响到销售收入?学生人数的变化如何影响到销售收入?n使用的模型使用的模型 6简单线性回归模型XY10 Y 的截距斜率 随机误差因变量(响应变量,被预测变量)自变量(解释变量,预测变量)7i = 随机误差YX观测值观测值YX01YXiii018 模型的假定模型的假定n1) E()=0; (E(y)=x
5、)n2) 对于所有的x,Var()=.n3) 是服从正态分布N(0, ) 的.n4) 对于不同的x, 是相互独立的.n这些假定意味着什么?9X1X2XY fy 服从在回归直线附近的正态分布服从在回归直线附近的正态分布对每个对每个 x 值,值, y分布的方差相同分布的方差相同.回归直线回归直线10估计的回归方程估计的回归方程n如何估计参数如何估计参数 和和 ?n最小二乘准则最小二乘准则 xbbyxbybnxxnyxyxbbbxyiiiiiiinii101022110102101, ,/)(/ )() ,()( min10 估计的回归直线的点估计和为得出达到最小值点求解11阿姆德阿姆德连锁店的回归
6、直线连锁店的回归直线n估计参数估计参数 b1=5 b0=60n回归直线回归直线n你对系数的含义怎么你对系数的含义怎么理解?理解? 050100150200250051015202530学生人数/ 千人季度销售收入/ 千美圆xy56012回归方程的判定系数回归方程的判定系数ny的总变差的分解n定义判定系数R2=SSR/SST.n判定系数的含义是什么?判定系数的含义是什么?n阿姆德比萨饼连锁店的例子:R2=0.9027.n判定系数和相关系数的关系。 SSRSSEyyyyyyyyyySSTiiiiiii2222)()()()(13Coefficients of Determination (r2)
7、and Correlation (r) r2 = 1,r2 = 1,r2 = .8,r2 = 0,YXY XY YXr = +1r = -1r = +0.9r = 0X14 的估计的估计n理解误差平方和n的一个无偏估计 s2=MSE=SSE/(n-2) 2102)()(iiiixbbyyySSE15关于回归系数的假设检验关于回归系数的假设检验n检验统计量检验统计量n给定显著水平给定显著水平 时,选择时,选择拒绝域拒绝域 0 : 0 :1110HH的标准误差是其中12121)( 11bxxsssbtinibb)2()2(2/2/nttntt或者16关于回归方程整体的检验关于回归方程整体的检验n变
8、量x的确对y有解释作用吗?(H0: =0)n检验统计量 F=MSR/MSE 其中MSR=SSR/自变量的个数n拒绝域 FF(1, n-2)17回归方程的方差分析表回归方程的方差分析表方差来源方差来源平方和平方和自由度自由度均方均方F值F值回归回归SSR1 1MSRMSR/MSE误差误差SSEn-2MSE总计总计SSTn-118阿姆德阿姆德连锁店的情形连锁店的情形 使用EXCEL对阿姆德连锁店的数据建立模型,并进行分析,基于EXCEL的输出结果,你对该模型有些什么认识?19使用你建立的模型(一)使用你建立的模型(一)n问题一:对于那些附近学校人数是1万的连锁店,他们的季度销售收入一定是一样吗?这
9、种连锁店平均的季度销售收入平均的季度销售收入是多少?你能够给出一个估计吗?n问题二:某家连锁店附近学生总数约1万人,你能够给出它的季度销售收入的一个估计值吗?n点估计:11020使用你建立的模型(二)使用你建立的模型(二)n对于问题一,如何得到这种连锁店平均销售收入的一个95%的置信区间? piippppyppnxxxxnyyyppppppsntyyEssyENyyExbbyx2/)()(1222210)2( 1)( ), ),()( ,222置信区间是的的估计是其中的分布是的无偏估计。是对于给定的( 98.58, 121.42)21使用你建立的模型(三)使用你建立的模型(三)n对于问题二,如
10、何给出一个预测区间,使得这家连锁店的季度销售收入落在该区间里面的概率是1-?nxxxxnindindppiipsssntyy/)()(1222/2221 )2( 1其中的预测区间是的概率为( 76.13, 143.87)22两种区间的关系两种区间的关系xp预测区间边界均值的置信区间23对模型作进一步的探讨对模型作进一步的探讨n回忆我们使用的模型;n对模型作了什么假定?n逻辑问题:如何判断我们的问题符合这些假定?n分析的方案:残差分析 niyyiiii, 2 , 1 个残差:第24通过残差你能够了解什么?通过残差你能够了解什么?n对误差项作的假定适合吗? 1)等方差; 2)相互独立; 3)正态分
11、布;n哪些数据属于异常值?n哪些观测属于对回归模型有很大影响的?25残差图残差图n关于自变量的残差图;n关于因变量的预测值的残差图;n学生化的标准残差图: 22)()(1 ,1 /Std_ xxxxniiiiiiiihhsssi其中个标准化残差第26如何分析残差图如何分析残差图n如果模型是符合的,那么残差图上的散点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。n使用EXCEL对阿姆德连锁店的数据产生残差图。你能得到什么结论?27非线性非线性线性线性X X28方差不等方差相等XX29不独立不独立独立独立XX30一个残差不独立的例子一个残差不独立的例子-0.8-0.6-0.4-0.200.20.40.60.831异常值的检测异常值的检测n异常值是与其它点显示的趋势不合的点。检查它是否可能是被错误输入的数据。n检测异常值的方法: 散点图; 利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。 32带有异常值的散点图示例010203040506070800123456733检测有影响的观测值检测有影响的观测值n什么是有影响的观测?什么是有影响的观测?n观测的杠杆率:观测的杠杆率:n高杠杆率的点意味着它的自变量距离别的自变高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。量的值距离较大的点。n识别影响的观测识别影响的观测: 杠
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中考物理复习主题单元11第28课时焦耳定律课件
- 冀少版八年级生物上册第五单元第一节细菌课件
- 冀少版八年级生物上册第三单元第二节光合作用的原料课件
- 初三化学第一轮复习教学教案
- 《马诗》教学设计
- 住宅小区监理廉洁自律协议
- 五年级语文下册第二单元教学设计教案
- 木材加工厂工人工作证使用办法
- 船舶制造乳胶漆粉刷施工合同
- 碳基金碳资产管理办法
- 体育教师技能培训课件
- 交通运输系统安全生产治本攻坚三年行动方案
- 《平衡計分卡》课件
- 设计管理策划书
- 文化与艺术行业2024年人力资源管理与制度优化
- 《区块链原理详解》课件
- 利用质量管理工具改进医院感染控制标准的执行与管理研究
- 掌握动物园营销技巧
- 第4课+中古时期的亚洲【中职专用】《世界历史》(高教版2023基础模块)
- 五年级上册英语期中试卷-闽教版
- 特种设备的安全使用与维护培训教材
评论
0/150
提交评论