版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、二章多元线回归multiplelinearregression二章多元线回归multiplelinearregressio解读X与y的相关系数为0.6,x与z的相关系数为0.3第2页,共67页幻灯片。解读X与y的相关系数为0.6,x与z的相关系数为0.3第2页答案:只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍第3页,共67页幻灯片。答案:第3页,共67页幻灯片。二、计算相关的思路定距:数量上的“共变”定类、定序:“连同发生”隐含根据一个变量去预测或估计另一个变量的意思人们正是根据预测的准确程度来界定定类或定序变量之间的关系的消减误差比例第4页,共67页幻灯片。二、计算相
2、关的思路第4页,共67页幻灯片。三、相关测量逻辑展示(一)Lambda相关测量法基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差公式:第5页,共67页幻灯片。三、相关测量逻辑展示第5页,共67页幻灯片。练习:根据下表数据计算lambda志愿性别男女总数快乐家庭103040理想工作401050增广见闻10010总数6040100第6页,共67页幻灯片。练习:根据下表数据计算lambda志愿性别男女总数快乐家庭1第7页,共67页幻灯片。第7页,共67页幻灯片。思考并运算:如果数据有如下变化,lambda值会发生什么变化呢?志愿性别男女总数快乐家庭10
3、1020理想工作403070增广见闻10010总数6040100第8页,共67页幻灯片。思考并运算:如果数据有如下变化,lambda值会发生什么变化存在的问题:1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。2、因为上述计算方式,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数会等于0,相关失去意义第9页,共67页幻灯片。存在的问题:第9页,共67页幻灯片。(二)相关系数r1、协方差的思想2、r系数计算3、PRE计算思路第10页,共67页幻灯片。(二)相关系数r第10页,共67页幻灯片。四、回归回归是相关分析的深入回归分析的结果是建立一个数学模
4、型以表达变量之间的关系在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式第11页,共67页幻灯片。四、回归回归是相关分析的深入第11页,共67页幻灯片。线性关联整体研究方案1(多)个定距(类)变量1个定距变量理论思路经验支撑方法论指导第12页,共67页幻灯片。线性关联整体研究方案1(多)个1个理论思路经验支撑方法论指导注意回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开第13页,共67页幻灯片。注意回归模型只是整个研究方案中的一环,它必须依赖理论和经验的研究变量间的因果关系预测是否吻合预先构想评价模型拟合度求解模型参数估
5、计第14页,共67页幻灯片。研究变量间的因果关系预测是否吻合预先构想评价模型拟合度求解模第二节一元线性回归参见:卢叔华社会统计学,北京大学出版社1997 第十二章 回归与相关一、回归方程与线性回归方程二、回归方程的建立与最小二乘法三、回归方程的假定与检验第15页,共67页幻灯片。第二节一元线性回归参见:卢叔华社会统计学,北京大学出版一、回归方程与线性回归方程两变量x与y对于确定的xi,yi是随机变量,可计算其均值回归方程是研究自变量不同取值时,y的均值的变化当因变量y的均值与自变量x呈线性规律时,称线性回归方程根据x个数不同,分为一元线性回归、多元线性回归第16页,共67页幻灯片。一、回归方程
6、与线性回归方程两变量x与y第16页,共67页幻灯关于模型现实数据=模型+误差没有误差的不是模型,是复制复制很精确,但是往往太不简洁设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度第17页,共67页幻灯片。关于模型现实数据=模型+误差第17页,共67页幻灯片。二、回归方程的建立与最小二乘法回归分析的目的:找出错误最小的方法来预测因变量的数值拟合思路:各点到待估直线铅直距离之和为最小最小二乘 第18页,共67页幻灯片。二、回归方程的建立与最小二乘法回归分析的目的:找出错误最小的原理:(1)散点图(2)每个x值对应的y的均值,构成回归线(曲折)(3)用最小平方法绘制回归直线(各个样本
7、个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线)第19页,共67页幻灯片。原理:第19页,共67页幻灯片。线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值第20页,共67页幻灯片。线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或回归系数的意义:b值的大小表示每增加一个单位的x值,y值的变化有多大第21页,共67页幻灯片。回归系数的意义:第21页,共67页幻灯片。三、回归方程的假定与检验(一)基本假定1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计2、对于每一个
8、x值,yi都是随机变量。Y的所有子总体y1,y2yn,方差相等3、y的所有子总体,其均值都在一条直线上线性假定4、随机变量yi是统计独立的5、 y的所有子总体都满足正态分布第22页,共67页幻灯片。三、回归方程的假定与检验(一)基本假定第22页,共67页幻灯(二)检验F检验第23页,共67页幻灯片。(二)检验第23页,共67页幻灯片。第三节 多元线性回归模型一、多元的思路二、回归方程的建立三、回归方程的解释四、标准化回归系数第24页,共67页幻灯片。第三节 多元线性回归模型一、多元的思路第24页,共67页幻一、多元的思路关联性 Association 和因果性Causality统计意义上的关联
9、性很容易发现 , 难的是,如何确立因果联系。然而我们在研究中更加关心的是因果性的解释。 第25页,共67页幻灯片。一、多元的思路关联性 Association 和因果性Cau因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。 第26页,共67页幻灯片。因果关系存在的必要条件: 第26页,共67页幻灯片。对观察数据的统计控制我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社会现象发生的环境。对于观察数据, 因果性问题可以部分地通过统计控制来解决即, 我们可以把个体根据我们所
10、要控制的特征分成几个小组, 来比较组内的结果变量的差异对定量变量最常用的统计控制体现在多元回归模型中。 第27页,共67页幻灯片。对观察数据的统计控制我们如何排除其他备选解释? 第27页,共二、回归方程的建立多元回归模型一般表达式建立的多元回归方程:其中, 称y对x的回归系数或偏回归系数可用最小二乘法求解第28页,共67页幻灯片。二、回归方程的建立多元回归模型一般表达式建立的多元回归方程:多元回归系数的估计首先看只有两个自变量的模型 :我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分, Let Z(a, b1, b2)= (Y-a-b1X1-b2X2)2第29页
11、,共67页幻灯片。多元回归系数的估计首先看只有两个自变量的模型 :Let Z(对三个未知参数a, b1, and b2 求导: 第30页,共67页幻灯片。对三个未知参数a, b1, and b2 求导: 第30页,解方程:第31页,共67页幻灯片。解方程:第31页,共67页幻灯片。这种方法可以扩展到任意多的自变量的模型。计算机可以直接给出估计的系数。第32页,共67页幻灯片。这种方法可以扩展到任意多的自变量的模型。第32页,共67页幻三、回归方程的解释在任何情况下, a 始终为当所有自变量为0时的应变量值 (截距)斜率系数 b1 到 bk 表示在其他变量不变的情况下,相关的X增加一个单位,Y所
12、对应的变化。第33页,共67页幻灯片。三、回归方程的解释在任何情况下, a 始终为当所有自变量为0对于方程:如果xi增加一个单位,即xi变为xi+1,而其他自变量均保持不变,相应有则y的变化幅度为第34页,共67页幻灯片。对于方程:如果xi增加一个单位,即xi变为xi+1,而其他自规范解读方式(在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位第35页,共67页幻灯片。规范解读方式(在其他变量不变的情况下,)xi平均变化一个单位x及未包括进方程中的其他与x有关的一切因素对y的总影响一元回归系数多元回归系数偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影
13、响回归系数的意义第36页,共67页幻灯片。x及未包括进方程中的其他与x有关的一切因素对y的总影响一元回四、标准化回归系数问题需要判别所考察的因素的重要程度解决将回归系数标准化做法1、先将变量标准化,再 计算2、利用回归系数计算第37页,共67页幻灯片。四、标准化回归系数问题需要判别所考察的因素的重要程度解决将回变量 每平均变化一个标准分数,y将平均变化 个标准分数第38页,共67页幻灯片。变量 每平均变化一个标准分数,第38页,共67页幻灯第四节方程的解释能力一、确定系数二、调整的确定系数三、多元相关系数四、方差分析第39页,共67页幻灯片。第四节方程的解释能力一、确定系数第39页,共67页幻
14、灯片。一、确定系数(01)回归方程解释的差异与用y均值解释的差异之比模型中所有变量解释y的变化占总变化的比例受奇异值影响散点图第40页,共67页幻灯片。一、确定系数(01)回归方程解释的差异与用y均值解释的差异 预测与残差 e=(Y - )The sum of squared errors 我们通过对该项(残差)最小化方法求得 a and bi. 第41页,共67页幻灯片。 预测与残差 e=(Y - )The sum of拟合优度where and第42页,共67页幻灯片。拟合优度where 第42页,共67页幻灯片。 和前面一样, 是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 越高
15、, 模型拟合数据的程度就越好。 当加入新的变量时, 只升不降。 由于常常是随着自变量数目的增加而增加, 所以直接比较 没有太大的意义。第43页,共67页幻灯片。 和前面一样, 是衡量 Y的所有变异中由所有自变量的二、调整的确定系数自变量个数样本规模(1:10)(1:5)自变量个数样本规模偏高第44页,共67页幻灯片。二、调整的确定系数自变量个数样本规模(1:10)(1:5三、多元相关系数R因变量观测值和预测值之间的相关程度第45页,共67页幻灯片。三、多元相关系数R第45页,共67页幻灯片。四、方差分析y的总变差平方和回归平方和余差平方和第46页,共67页幻灯片。四、方差分析y的总变差平方和回
16、归平方和余差平方和第46页,共检验统计推断回归方程回归系数回归系数的置信区间为什么不显著?第五节回归方程的检验和回归系数的推断统计第47页,共67页幻灯片。检验统计推断回回回归系数的置信区间为什么不显著?第五节回归实质假设计算H0:B1B2Bk0 (BSS/k)/ ESS/(n-k-1)在总体中,X1,Xk的变化都不引起Y的线性变化P与a比较,决定是否拒绝H0检验在a水平统计性显著,并拒绝H0、接受H1我们有相当大的把握断定,统计量b1,bk不等于0不是由于抽样误差造成的。表述检验样本y与x1,xk的线性关系是否显著判断能否肯定总体回归系数中至少有一个不等于0一、回归方程的显著性检验第48页,
17、共67页幻灯片。实质假设计算H0:B1B2Bk0 当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。回归模型希望:保留最重要的变量,删除不显著的变量对每个变量的回归系数进行检验二、回归系数的显著性检验第49页,共67页幻灯片。当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是具体做法:TSig T H0:Bj0 H1:Bj0第50页,共67页幻灯片。具体做法:T H0:Bj0第50页,共三、回归系数的置信区间回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。用样本回归系数b及其标准误,可以推断Bj值的置信区间P(b
18、j-ta/2sjBj回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。用样本回归系数b及其标准误,可以推断Bj值的置信区间P(bj- sjBjbj+ sj)=1-a第51页,共67页幻灯片。三、回归系数的置信区间回归系数的统计检验只能说明Bj与0有显样本量太小变量数太多Xj标准差过小自变量线性相关确实不相关非线性关系四、回归系数不显著的原因第52页,共67页幻灯片。样变量数太多Xj标准差过小自变量线性相关确实不相关非线性关系第六节虚拟变量的应用什么变量需要虚拟?分类变量第53页,共67页幻灯片。第六节虚拟变量的应用什么变量需要虚拟?分类变量第53页,共虚拟变量一个变量只有
19、两个可能值1 or 0. 对于一个两分的变量: gender: 1. male 2. female 我们可以重新编码 1=male and 0=female. 由此, gender 就变成了一个虚拟变量 , 表示被访者是否男性 . 第54页,共67页幻灯片。虚拟变量一个变量只有两个可能值1 or 0. 对于一个两分如何虚拟?二分变量(是、否)把二分状态看作连续变化的过程将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化均值的意义是编码为1的案例占样本的比例第55页,共67页幻灯片。如何虚拟?二分变量把二分状态看作连续
20、变化的过程将某一个分类变为什么要在回归分析中引入虚拟变量?有时我们社会研究的样本数据中观察的个体可以分成不同的组别。组与组、或群体与群体间的在自变量和应变量的平均数会有差异在这种情况下, 不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。 特别是, 系数可能低估或者高估一个自变量对应变量的影响强度。 第56页,共67页幻灯片。为什么要在回归分析中引入虚拟变量?有时我们社会研究的样本数据第七节多重共线性及其解决方案多元线性回归的解释方式:“在其他变量不变的前提下,xi平均变化一个单位y将平均变化bi个单位”如果xi与另一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”
21、不可能实现此即所谓的“多重共线性”第57页,共67页幻灯片。第七节多重共线性及其解决方案多元线性回归的解释方式:“在其回归方程整体显著,但各个自变量都不显著多重共线性的表现之一:自变量之间存在高度线性相关后果: 影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确第58页,共67页幻灯片。回归方程整体显著,多重共线性的表现之一:自变量之间存在高度线鉴别多重共线性的思路:在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数若值较大,说明至少有一个自变量与x1相关,也即存在共线性
22、问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题第59页,共67页幻灯片。鉴别多重共线性的思路:在自变量之间建立回归方程,以该回归方程检查多重共线性容限度(tolerance)特征值和条件次数(eigen-values and condition indexes)方差膨胀因子(variance inflation factor)以每个自变量作为因变量对其他自变量回归得到的余差比例是容限度的倒数。表示所对应的偏回归系数的方差由于多重共线性而扩大的倍数小于0.1,则认为多重共线性严重大于10,则认为多重共线性严重第60页,共67页幻灯片。检查多重共线性容限度(tolerance)特征值和条件次数(去掉与y相关较低,而与其他自变量相关高的变量去掉可以被其余自变量线性表出的变量增加样本规模采用新的样本数据利用先验信息组合变量逐步删除(逐步回归方法即可消除此问题)变量变换补救办法第61页,共67页幻灯片。去掉与y相关较低,而与其他自变量相关高的变量去掉可以被其余自全部纳入全部删除向前回归逐步回归向后回归选择最优回归方程第62页,共67页幻灯片。全部纳入全部删除向前回归逐步回归向后回归选择最优回归方程第6第八节计算机操作第63页,共67页幻灯片。第八节计算机操作第63页,共67页幻灯片。第九节 研究实例社会意识的行动逻辑性别不平等的现象学社会学解释框架浙江学刊20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华师大版初中科学1.2 水的三态变化(30课件)
- 20XX年1月华懋达集团年会庆典概念方案
- 2024年烟台货运资格证模拟考试题
- 算法设计与分析 课件 5.9-动态规划应用-最优二叉搜索树
- 2024年宣城客运资格证考试答题
- 2024年贵州客运从业资格证的考试题目是什么题
- 吉首大学《结构试验》2021-2022学年第一学期期末试卷
- 吉首大学《当代中国电影》2021-2022学年期末试卷
- 《机床夹具设计》试题4
- 吉林艺术学院《音乐文论写作Ⅱ》2021-2022学年第一学期期末试卷
- 6.2共筑生命家园 课件-2024-2025学年统编版道德与法治九年级上册
- 2024年秋新沪教牛津版英语三年级上册课件 Unit 5 第2课时
- 中图版七年级下册信息技术 2.1规划影片任务 教学设计
- 2024中科院心理咨询师考试复习题库(官方版)-上单选题汇
- 小学未成年人思想道德建设工作实施方案
- 化工公司安全知识竞赛题库(共1000题)
- GB/T 44421-2024矫形器配置服务规范
- 福建省福州市(2024年-2025年小学二年级语文)统编版期中考试试卷(含答案)
- 2024-2024部编版九年级语文上册期末考试测试卷(附答案)
- 争做“四有好老师”-当好“四个引路人”
- 2024-2025学年八年级生物上册第一学期 期末综合模拟测试卷( 人教版)
评论
0/150
提交评论