




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 学习目标学习目标1. 1. 变量间的相关关系与相关系数的计算变量间的相关关系与相关系数的计算2. 2. 总体回归函数与样本回归函数总体回归函数与样本回归函数3. 3. 线性回归的基本假定线性回归的基本假定4. 4. 简单线性回归参数的估计与检验简单线性回归参数的估计与检验5. 5. 多元线性回归参数的估计与检验多元线性回归参数的估计与检验6. 6. 7. 7. 常用的可以转换为线性回归的非线性函数常用的可以转换为线性回归的非线性函数8. 8. 非线性相关指数非线性相关指数第1页/共66页实例实例1: 1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么? ?妇女生育水平除了受
2、计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1. 影响中国妇女生育率变动的因素有哪些?2. 各种因素对生育率的作用方向和作用程度如何?3. 哪些因素是影响妇女生育率主要的决定性因素?4. 如何评价计划生育政策在生育水平变动中的作用?5. 计划生育政策与经济因素比较,什么是影响生育率的 决定因素?6. 如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?第2页/共66页 据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前
3、,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文)问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?这些类型的问题可以运用相关分析与回归分析的这些类型的问题可以运用相关分析与回归分析的方法去解决。方法去解决。实例2:全球吃死的人比饿死的人多?第3页/共66页8.1 8.1 相关与回归的基本概念相关与回归的基本概念一、变量间的相互关系变量间的相互关系二、相关关系的类型二、相关关系的类型三、相关分析与回归分析三、相关分析与回归分析第4页/共66页 一、变量间的相互关系一、变量间的相互关系 确定性的函数关系确定性的函数关系 Y=f (X) 不确定性的统计关系相
4、关关系相关关系 Y= f(X)+ (为随机变量) 没有关系没有关系 变量间关系的图形描述: 坐标图(散点图) 第5页/共66页相关关系的类型相关关系的类型 从涉及的变量数量变量数量看 简单相关 多重相关(复相关) 从变量相关关系的表现形式表现形式看 线性线性相关散布图接近一条直线(左图) 非线性非线性相关散布图接近一条曲线(右图)第6页/共66页 从变量相关关系变化的方向方向看正相关正相关变量同方向变化 A 同增同减 (A)(A)负相关负相关变量反方向变化 一增一减 (B)(B) B 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C) 相关关系的类型相关关系的类型第7
5、页/共66页相关分析与回归分析相关分析与回归分析回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系: : 无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势第8页/共66页 回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的目的(实质)(实质): 由固定的自变量去估计因变量的平均值估计因变量平均值第9页/共66页 相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才
6、有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相关分析中相关系数的确定建立在回归分析的基础上第10页/共66页82 简单线性相关与回归分简单线性相关与回归分析析一、简单线性相关系数及检验一、简单线性相关系数及检验二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的估计三、回归系数的估计四、简单线性回归模型的检验四、简单线性回归模型的检验 五、简单线性回归模型预测五、简单线性回归模型预测第11页/共66页 一、简单线性相关系数及检验一、简单线性相关系数及检验 总体相关系数总体相关系数 对于所研究的总体,表示两个相互联系变量
7、相关程度 的总体相关系数为: 总体相关系数反映总体两个变量总体相关系数反映总体两个变量X X和和Y Y的线性相关程度。的线性相关程度。 特点:特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。 (, )()( )Cov X YVar X Var Y第12页/共66页 样本相关系数 通过X和Y 的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用 表示 特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。 XYrXYrXYrXYrXYr_22()()()()iiXYiiXX YYrXXYY第13页/
8、共66页 相关系数的特点: 相关系数的取值在-1与1之间。当r=0时,表明X与Y没有线性相关关系。当 时,表明X与Y存在一定的线性相关关系: 若 表明X与Y 为正相关; 若 表明X与Y 为负相关。当 时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。01r0r 0r 1r 第14页/共66页 使用相关系数的注意事项:X和Y 都是相互对称的随机变量,所以相关系数只反映只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。XYYX第15页/共66页 相关系数的检验 为什么要检验?为什
9、么要检验? 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:检验的依据: 如果X和Y都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布: 0221(2)tr nrtn第16页/共66页 相关系数的检验方法相关系数的检验方法给定显著性水平 ,查自由度为 n-2 的临界值 若 ,表明相关系数 r 在统计上是显著的,应否定 而接受 的假设;反之,若 ,应接受 的假设。 2t2tt0002tt第17页/共66页 二、总体回归函数与样本回归函数 若干基本概念 Y的条件分布条件分布: Y在X取某固定值条件下的分布
10、。 对于X的每一个取值,都有Y的条件期望条件期望与之对应,在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线回归线。 如果把Y的条件期望 表示为X的某种函数: , 这个函数称为回归函数回归函数。 如果其函数形式是只有一个自变量的线性函数,如 , 称为简单线性回归函数简单线性回归函数。 ()iE Y X()()iiE Y Xf X()iiE Y XX第18页/共66页 总体回归函数(PRF) 概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)()iiE Y
11、XXiiiYXu第19页/共66页 样本回归函数(SRF)概念:概念: Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线样本回归线。 如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数样本回归函数 (简记为SRF)。表现形式:表现形式:线性样本回归函数可表示为 或者 iiiYXeiiYX第20页/共66页 样本回归函数与总体回归函数的关系 相互联系 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。 和 是对总体回归函数参数的估计。 是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机 误差u。回归分析的目的: 用样本回归函
12、数去估计总体回归函数。 iY()iE Y X第21页/共66页样本回归函数与总体回归函数的关系 相互区别 总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。 样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 总体回归函数中的 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。 iuie第22页/共66页 三、回归系数的估计三、回归系数的估计回归系数估计的思想:回归系数估计的思想:为什么只能对未知参数作估计为什么只能对
13、未知参数作估计? ? 参数是未知的、不可直接观测的、不能精确计算的参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值能够得到的只是变量的样本观测值结论结论: :只能通过变量样本观测值选择适当方法去近似只能通过变量样本观测值选择适当方法去近似 地估计回归系数。地估计回归系数。前提前提: : u u是随机变量其分布性质不确定,必须作某些是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。假定,其估计才有良好性质,其检验才可进行。原则原则: : 使参数估计值使参数估计值“尽可能地接近尽可能地接近”总体参数真实值总体参数真实值第23页/共66页
14、简单线性回归的基本假定假定假定1 1:零均值假定。假定假定2 2:同方差假定。 假定假定3 3:无自相关假定。 假定4:随机扰动 与自变量 不相关。假定假定5 5:正态性假定()0iiE u Xiu222()()()iiiiiiVar u XE uE u XE u ( ,)( )()( ,)0ijiijjijCov u uE uE uuE uE u uiX2(0,)iuN( ,)( )()0iiiiiiCov u XE uE uXE X第24页/共66页 回归系数的回归系数的最小二乘估计估计基本思想: 希望所估计的 偏离实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标
15、准最小二乘准则估计式: iYiYie2ieiYiY22()iiiiiiNX YX YNXX_2()()()iiiXX YYXXYX第25页/共66页 最小二乘估计的性质 高斯高斯马尔可夫定理马尔可夫定理 前提: 在基本假定满足时最小二乘估计是因变量的线性函数线性函数 最小二乘估计是无偏估计无偏估计,即 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小方差最小。 结论:回归系数的最小二乘估计是最佳线性无偏估计最佳线性无偏估计()E()E第26页/共66页 最小二乘估计的概率分布性质最小二乘估计的概率分布性质 和和 都是服从正态分布的随机变量,其都是服从正态分布的随机变量,其期望为期望为方
16、差和标准误差为方差和标准误差为 结论:结论:()E()E2()iVarx2()iSEx22()iiXVarNx22()iiXSENx22(,)iNx22( ,)iiXNNx 第27页/共66页 的无偏估计 为什么要估计 ? 确定所估计参数的方差需要 由于 不能直接观测, 也是未知的 对 的数值只能通过样本信息去估计。怎样估计 ? 可以证明 的无偏估计为: iu222ien2222222第28页/共66页 拟合优度的度量拟合优度的度量 基本思想:基本思想:样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上 总离差平方
17、和总离差平方和 回归平方和回归平方和 残差平方和残差平方和 可决系数定义:可决系数定义:_222()()()iiiiYYYYYY222()()iiYYrYY222()1()iiiYYrYY 第29页/共66页 对可决系数的理解YXiXYiYYYiiiYY YYi222()()iiYYrYY第30页/共66页 可决系数的特点 可决系数是非负的统计量;可决系数取值范围: ;可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方: ,201r2rr 2222()()()()iiiiXXYYrXXYY第31页/共66页 回归系数显著性的
18、回归系数显著性的 t t 检验检验目的目的: 根据样本回归估计的结果对总体回归函数回归 系数的有关假设进行检验,以检验总体回归系数是 否等于某个特定的数值。思想思想: 是未知的,而且不一定能获得大样本,这时可用 的无偏估计 代替 去估计参数的标准误差:22()iSEx22( )iiXSENx222第32页/共66页 回归系数显著性的回归系数显著性的 t t 检验检验( (续续) ) 用估计的参数标准误差对估计的参数作标准化变 换,所得的 t 统计量将不再服从正态分布,而是服 从 t 分布: 可利用 t 分布作有关的假设检验。 (2)()tt nSE (2)()tt nSE第33页/共66页 回
19、归系数显著性回归系数显著性 t t 检验的方法检验的方法(1) 提出假设一般假设:常用假设:(2) 计算统计量(3)给定显著性水平,确定临界值 (4) 检验结果判断 若 则拒绝原假设,而接受备择假设 若 则接受原假设 , 拒绝备择假设0:*H*1:H*0:0H1:0H2(2)tn*2(2)ttn*2(2)ttn*()( )ttSESE或第34页/共66页回归系数显著性的回归系数显著性的P P值检验值检验P P值的意义值的意义P值的意义: 在既定原假设下计算回归系数的t统计量 ,可求得 统计量大于 的概率 : 这里的 是 t 统计量大于 值的概率,是尚不能拒 绝原假设 的最大显著水平,称为所估
20、计的回归系数的P值。*t*0()P tt H*02:0H*t*t第35页/共66页回归系数显著性的回归系数显著性的P P值检验值检验 检验方法检验方法回归系数显著性的P值检验方法: 将所取显著性水平与P值对比 所取的显著性水平 (例如取0.05)若比P 值更大,就可在显著性水平 下拒绝 所取的 若小于P值,就应在显著性水平 下接受 02:0H02:0H第36页/共66页五、简单线性回归模型预测五、简单线性回归模型预测对平均值的点预测值 : Y的个别值置信度为1的预测区间: fYffYX_222()11fffiXXYYtnx第37页/共66页 因变量的区间预测的特点 (1)个别值的预测区间大于平
21、均值的预测区间: Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响; Y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响(2)对 预测区间随 变化而变化: 时, =0,此时预测区间最窄, 越是远离 , 越大,预测区间越宽。fYfX_FXX_2()FXXFX_X_2()FXX第38页/共66页 因变量的区间预测的特点因变量的区间预测的特点( (续续) )(3)预测区间与样本容量有关:样本容量n越 大, 越大,预测误差的方差越小,预 测区间也越窄。(4)当样本容量趋于无穷大(即n)时, 不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的
22、方差。2ix第39页/共66页8.3 多元线性相关与回归分析多元线性相关与回归分析一、多元线性回归模型及假定多元线性回归模型及假定二、多元线性回归模型的估计多元线性回归模型的估计三、多元线性回归模型的检验三、多元线性回归模型的检验四、多元线性回归模型的预测四、多元线性回归模型的预测五、复相关系数和偏相关系数五、复相关系数和偏相关系数第40页/共66页 一、多元线性回归模型及假定一、多元线性回归模型及假定 多元总体线性回归函数一般形式 条件均值形式 12233iiikkiiYXXXu23(,)iikiE Y XXX12233iikkiXXX多元线性样本回归函数:一般形式条件均值形式12233ii
23、ikkiYXXX12233iiikkiiYXXXe第41页/共66页 多元线性回归模型的矩阵多元线性回归模型的矩阵表示多元总体线性回归模型的矩阵表示多元总体线性回归模型的矩阵表示 Y=X+UY=X+U多元线性样本回归函数的矩阵表示 Y=X + e 偏回归系数:多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数。121311112223222223111kknnnknknYXXXuYXXXuYXXXu第42页/共66页 二、多元线性回归模型的估计多元线性回归模型的估计 多元回归模型的假定多元回归模型的假定 相同的假
24、定: 零均值、同方差、无自相关、 随机扰动项与自变量不相关、U正态性增加的假定:各自变量之间不存在线性关系。 在此条件下,自变量观测值矩阵X X列满秩 Rank( X ) = k方阵X X 满秩 Rank()= k 意义: 可逆,-1(X X)存在 X X X X 第43页/共66页多元回归参数的最小二乘估计多元回归参数的最小二乘估计使残差平方和达到最小,其充分必要条件 212233()iiikkiYXXX2ie 2()01,2,ijejk正规方程组 122ikkiinXXY 2122222iikikiiiXXX XX Y - 2122kiikikkikiiXX XXX Y 第44页/共66页
25、 多元线性回归的最小二乘估计式正规方程组可简记为矩阵形式 (XX)XY-1(XX)存在 参数向量的最小二乘估计为1(X X) X Y参数最小二乘估计的性质参数最小二乘估计的性质可以证明:多元线性回归的最小二乘估计也是最佳线性无偏估计。第45页/共66页 随机误差项方差的估计随机误差项方差的估计方差 未知,需要利用样本回归的残差平方和去估计。2可以证明, 22ienknkNke eY Y XY2是随机扰动项方差的无偏估计 22第46页/共66页 三、多元线性回归模型的检验三、多元线性回归模型的检验拟合优度检验拟合优度检验多元线性回归离差平方和的分解式多元线性回归离差平方和的分解式 变差变差 22
26、2()()()iiiiYYYYYY TSS = RSS + ESS (总离差平方和) (残差平方和) (回归平方和)自由度自由度 n-1 = n-k + k-1多重可决系数: 22211()iieESSTSSRSSRSSRTSSTSSTSSYY 第47页/共66页 修正的可决系数修正的可决系数 为什么要修正? 可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和 相互关系:2211 (1)nRRnk 22222()111()(1)()iiiienkenRYYnnkYY 第48页
27、/共66页 回归参数的显著性检验回归参数的显著性检验 t t 检验检验 在多元回归中可以证明()jjE2()jjjVarc 其中:jjc是矩阵1(XX)第 j 行第 j 列的元素。因为2未知,故()jVar也未知。现用2代替对原假设 分别作 t 检验 2,可构造统计量 ()jjjjtt nkC :0H0:0jH(1,2)jk第49页/共66页 回归方程的显著性检验回归方程的显著性检验 F F 检验检验目的: 检验多个变量联合对因变量是否有显著影响方法: 在方差分析的基础上利用F检验进行假定: 012:0kH不全为零方差分析表离差来源平方和自由度方差源于回归源于残差k-1n-kESS/(k-1)
28、RSS/( n-k)总离差n-11:(1,2, )jHjk2()iESSYY2()iiRSSYY2()iTSSYY第50页/共66页 F检验的方法 给定显著性水平,在F分布表中查出自由度为k-1和n-k 的临界值 0H(1)(1,)()ESSkFF knkRSSnkF服从自由度为 k-1 和 n-k 的 F 分布。 F F检验:检验:在成立的条件下,统计量(1,)F knk:若 ,则拒绝 , 说明回归方程中所有自变量联合起来对因变量有显著影响 012:0kH(1,)FF knk0H若 ,则接受 , 说明回归方程中所有自变量联合起来对因变量影响不显著 (1,)FF knk0H第51页/共66页四
29、、多元线性回归模型的预测四、多元线性回归模型的预测点预测值预测的残差 可证明用 代替 则构造 t 统计量 给定显著性水平 ,可得临界值 置信度为 的预测区间为 122ffkkfYXX -fY fffeYY20,1feN1ffX (XX) X1efS1ffX (XX) X () 1fffYYtt nk1fX (XX) X2()tnk0Y12211fffffYtYYt11ffX (XX) XX (XX) X第52页/共66页 五、复相关系数和偏相关系数五、复相关系数和偏相关系数复相关系数: 度量一个变量与其他若干个变量联合线性联系程度 在数值上在数值上: : 多重可决系数的平方根等于复相关系数 偏
30、相关系数: 对于相互联系的多个变量,当控制其他变量保持不变的条件下,度量其中两个变量之间线性相关程度的指标称为偏相关系数。22()()()()iiiiYYYYRYYYY第53页/共66页偏相关系数与简单相关系数的内在联偏相关系数与简单相关系数的内在联系系 可以证明:(以三个变量为例) 1213 2312 3221323(1)(1)rr rrrr1312 2313 2221223(1)(1)rr rrrr23121)(1)rr rrrr第54页/共66页8.4 非线性相关与回归分析非线性相关与回归分析一、非线性回归的函数形式与估计方法一、非线性回归的函数形式与估计方法二
31、、非线性相关指数二、非线性相关指数第55页/共66页一、非线性回归的函数形式与估计方一、非线性回归的函数形式与估计方法法常用的可以转换为线性的非线性函数形式常用的可以转换为线性的非线性函数形式幂函数参数度量了变量Y对变量X的弹性,即X的单位百分比变动引起Y变动的百分比 对数函数参数说明当变量X每变动一个百分点,引起因变量Y绝对量的变动量 21iuiiYXelniiiYabXu第56页/共66页 非线性回归的函数形式非线性回归的函数形式(续)(续)指数函数如可转换为线性函数 双曲函数多项式函数注意:注意:各种函数参数的经济意义不同共同特点: 虽然对于变量而言都是非线性的,虽然对于变量而言都是非线性的,但对但对 于参数而言却是线性的于参数而言却是线性的 可以转换为线性回归去估计其参数。可以转换为线性回归去估计其参数。 iiXuiYab elnlnlniiiYaXbu1iiiYabuX2012kiiikiiYbb Xb Xb Xu第57页/共66页 二、非线性相关指数二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 快速记忆的人力资源管理师试题及答案
- 供应链优化中的马工学技巧试题及答案
- 地理环境与人类健康的相关性研究试题及答案
- 2024年4月份实验性核电站外围辐射安防服务合同
- 投资咨询工程师的个人职业规划试题及答案
- 新手指南:计算机二级试题及答案
- 电子商务教师能力素质评估试题及答案
- 服务管理中的马工学应用试题及答案
- 地震带与火山带分布试题及答案
- 婴幼儿行为管理技巧试题及答案
- 人教版一年级数学上册《6-10的认识和加减法》同步练习题及答案
- 二十案例示轮回
- 老年营养示范化病房创建方案
- 设备安全操作培训
- 西方文化概论(第二版)课件全套 曹顺庆 第0-6章 绪论 西方文化的渊源与流变、西方文学 -西方社会生活与习俗
- 某地区现代有轨电车施工方案
- GB/T 6974.3-2024起重机术语第3部分:塔式起重机
- DB11T 2103.1-2023 社会单位和重点场所消防安全管理规范 第1部分:通则
- 物业品质巡查管理制度
- 高中物理-《互感与自感》课件-新人教版选修3
- 养殖林麝合作协议书模板
评论
0/150
提交评论