




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第7章 回归分析第7.1节 一元回归分析模型第7.2节 回归系数的最小二乘估计第7.3节 回归估计的统计推断第7.4节 预测第7.5节 多元回归分析返回变量间的关系确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的产量和施肥量股票的价格和时间学生的期中和期末考试成绩,非确定性关系如果对于任何已知的x值,变量y和按某个概率取某些特殊的值,则x和y之间的关系为随机的.xY实变量随机变量非确定性关系第7.1节 一元回归分析模型(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制基本思想如果数学关系式描写了一个变量与另
2、一个变量之间的关系,则称其为一元回归分析;如果数学关系式描写了一个变量与另多个变量之间的关系,则称其为多元回归分析,并且称这一个变量是被影响变量(因变量:Dependent Variable);称这多个变量是影响变量(自变量:Independent Variable).回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.某市场在t时刻黄瓜销量的数据如下(其中qt表示t时刻销售黄瓜的数量,单位为:斤,pt表示t时刻的销售价格,单位为:元):这是一个确定性关系:例如 称为随机扰动或随机误差项.其中 为随机变量.表8.4.1 合金钢强度y与碳含量x的数据 序号x(
3、%)y (107Pa)序号x(%)y (107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0对于回归模型,我们假设:可得到:如果给出a和b的估计量分别为 ,则经验回归方程为:一般地,称为残差,y称为因变量,x称为自变量, 称为随机扰动,a,b称为待估计的回归参数,下标i表示第i个观测值。两个变量之间的线性关系,其回归模型为残差 可视为扰动 的“估计量”。 设对y及x做n次观测得数据(xi ,yi) (i=1,2,n
4、 ).以(xi ,yi)为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.若散点呈直线趋势,则认为y 与x的关系可以用一元回归模型来描述. 设线性回归方程为 Y=a + bx+ 其中:是随机误差, N(0,2).将(xi,yi) (i=1,2,n)逐一代入上式:第7.2节 回归系数的最小二乘估计二元函数 的最小值点 称为a,b的最小二乘估计(简记为OLSE ).记其中例7.2.1 某市场连续12天卖出黄瓜的价格和数量的调查数据如下:试求:黄瓜销量对价格的回归方程.1a,b 的点估计(1)估计量 分别是a,b的无偏估计量;(2)由于 均为相互独立正态变量 的线性组合,根据正态分布的性质
5、,它们也一定是正态的。2a,b 的点估计的方差(2)自变量x的值越分散, 的方差越小. (1)扰动i的方差2越大, 的方差也越大. (3) 当 时, 的方差最小.第7.3节 回归估计的统计推断5 的区间估计计算得所以,记则的置信水平为 的区间估计是:=06y的样本变差的分解其中故反映了回归自变量变差的贡献反映了其它因素的影响回归平方和残差平方和 离差平方和=回归平方和+残差平方和即 SST = SSR + SSE称R2=SSR/SST为判定系数,它度量了经验回归方程对观测数据的拟和程度.0R21,它的值越大,表明因变量与自变量之间的相关性越强.提出原假设和备择假设 H0:b=0; H1:b0(
6、2) 选择检验统计量(3) 对于给定的显著性水平,当 时就拒绝H0,认为回归方程有显著意义.7回归方程的显著性检验或者提出原假设和备择假设 H0:b=0; H1:b0(2) 选择检验统计量(3) 对于给定的显著性水平,当 时就拒绝H0,认为回归方程有显著意义.注 以上两种方法检验结果相同, 后一种检验可用于多个自变量的情况.例7.3.1 某市场连续12天卖出黄瓜的价格和数量的调查数据如下:由此可知:(1) R2 = 0.889, S = 8.360 = (698.889/10)0.5,平方和分解SST = 6300 =5601.111+698.889=SSR+SSE ,(2)回归方程的显著性检
7、验,从t检验和F检验均有:显著性概率值p=4.34E-06103.39151)=2.242E-050.05 ,所以认为回归方程是显著有效的。(1)复相关分析复相关是指一个因变量同多个自变量之间的相关关系。复相关系数的计算指标为R,它表明所有自变量同因变量关系的密切程度,也是对回归模型拟和优度的测定.(2)偏相关分析偏相关是指多元回归中各个自变量在其它自变量固定不变时,单个自变量同因变量的相关关系.其相关程度用偏回归系数测定(偏相关系数的计算要使用更高级的统计分析软件,如SAS、SPSS等来实现)。多元线性回归模型的相关分析 从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线
8、性相关关系,这个相关关系可以表示为 y =0+ 1x+ (8.4.2) 这便是y关于x的一元线性回归的数据结构式。通常假定 E() =0, Var() = 2 (8.4.3) 在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y N(0+ 1x, 2 ) (8.4.4) 显然,假定(8.4.4) 比 (8.4.3) 要强。 由于 0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行, 即假定y1, y2, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型: (8.4.5)
9、 由数据(xi,yi),i=1,2,n,可以获得0, 1的估计 ,称 (8.4.6) 为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后, 称 为回归值(在不同场合也称其为拟合值、预测值)。 8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应该满足 称这样得到的 称为0, 1的最小二乘估计,记为LSE。 最小二乘估计可以通过求偏导数并命其为0而得到: (8.4.7) 这组方程称为正规方程组,经过整理,可得 (8.4.8) 解(8.4.8)可得 (8.4.9)这就是参数的最小二乘估计,其中 表8.4.2 例8.4.2的
10、计算表 xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此给出回归方程为: 例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表. 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)对给定的x0,关于最小二乘估计的一些性质罗列在如下定理之中 定理8.4.1 说明 分别是0, 1的无偏估计; 是E(y0)=0+ 1 x0的无偏估计; 除 外, 与 是相关的; 要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即
11、要求x1, x2, xn较 分散)。 8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 如果1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果10,E(y)随x的变化作线性变化,称回归方程是显著的。 综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:1=0 vs H1: 10 拒绝H0表示回归方程是显著的。一、F 检验 采用方差分析的思想,我们从数据出发研究各yi不同的原因。 数据总的波动用总偏差平方和 表示。引起各yi不同的原因主要有两个因素:其一是
12、H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元线性回归中有三种等价的检验方法,下面分别加以介绍。定理8.4.2 设yi=i+ 1 xi + i,其中i n相互独立, 且Ei=0,Var(yi)= 2,i=1,n,沿用上面的记号,有 (8.4.14) (8.4.15) 这说明 是 2的无偏估计。 关于SR 和 Se所含有的成分可由如下定理说明。 进一步,有关SR 和 Se的分布,有
13、如下定理。 定理8.4.3 设 y1, y2, yn 相互独立,且 yiN(i + 1 xi , 2), i=1, , n, 则在上述记号下,有 (1)Se / 2 2(n2), (2)若H0成立,则有SR / 2 2(1) (3) SR与Se , 独立(或 与Se , 独立)。 如同方差分析那样,我们可以考虑采用F比作为检验统计量: 在1 =0时,FF(1, n2),其中fR =1, fe =n2. 对于给定的显著性水平,拒绝域为 F F1-(1, n2) 整个检验也可列成一张方差分析表。 来源平方和自由度均方和F比回归SR =317.2589fA=1MSA=317.2589176.55残差
14、Se =17.9703fe=10MSe= 1.79703总和ST =335.2292fT=11例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 若取=0.01,则F0.99(1,10) =103.1698,因此,在显著性水平0.01下回归方程是显著的。 三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0 (8.4.18) 所用的检验统计量为样本相关系数 (8.4.19) 拒绝域为W=rc,其中临界值c应是H0:
15、 =0成立下r的分布的1 分位数,故记为c=r1- (n2). 由样本相关系数的定义可以得到 r与F统计量之间的关系 这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为 譬如,对 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 为实际使用方便,人们已对r1- (n-2)编制了专门的表,见附表9。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于0.97280.708,因此,在显著性水平0.01下回归方程是显著的。 在一元线性回归场合,三种检验方法是等价的
16、:在相同的显著性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。 F 检验可以很容易推广到多元回归分析场合,而其他二个则否,所以,F检验是最常用的关于回归方程显著性检验的检验方法。 8.4.5 估计与预测 当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: (1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间 估计(注意这里E(y0)是常量)是估计问题; (2)当x=x0时,y0的观察值在什么范围内?由于y0是随机 变量,为此只能求一个区间,使y0落在这一区间的概 率为1- ,即要求,使 称区间 为y0的概率为1- 的预测区间, 这是预测问题。 一
17、、 E(y0)的估计 在x=x0时,其对应的因变量y0是一个随机变量,有一个分布,我们经常需要对该分布的均值给出估计。由于E(y0)=0+ 1 x0,一个直观的估计应为 我们习惯上将上述估计记为 (注意这里 表示的是E(y0)的估计,而不表示y0的估计,因为y0是随机变量,它是没有估计的)。由于 分别是0, 1的无偏估计,因此, 也是E(y0)的无偏估计。 为得到E(y0)的区间估计,我们需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且与 相互独立,故于是E(y0)的1 的置信区间(CI)是 (8.4.20)其中 (8.4.21) 二、 y0的预测区
18、间 实用中往往更关心x=x0时对应的因变量y0的取值范围。 y0的最可能取值为 ,于是,我们可以使用以 为中心的一个区间 作为y0的取值范围。经推导, 的表达式为 (8.4.23) 上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。 预测区间的长度2与样本量n、x的偏差平方和lxx、 x0 到 的距离 有关。 当 时,预测精度可能变得很差,在这种情况下的预测称作外推,需要特别小心。另外,若x1, x2, xn较为集中时,那么lxx就较小,也会导致预测精度的降低。因此,在收集数据时要使x1, x2, xn尽量分散,这对提高精度有利。 当n较大时(如n 30), t分布可以用正态
19、分布近似,进一步,若x0与 相差不大时, 可以近似取为 。 例8.4.4 在例8.4.2中,如果x0=0.16,则得预测值为 若取 =0.05,则t0.975(10)=2.2281, 又 ,应用(8.4.21), 故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168) 应用(8.4.23), 从而y0的概率为0.95的预测区间为 E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多,这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来。 8.5 一元非线性回
20、归 例 8.5.1 炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y (kg)表示,相应的试验次数用x表示。数据见表8.5.1,要找出y 与x的定量关系表达式。 表8.5.1 钢包的重量y与试验次数x数据 序号xy序号xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49下面我们分三步进行。 8.5.1 确定可能的函数形式 为对数据进行分析,首先描
21、出数据的散点图,判断两个变量之间可能的函数关系,图8.5.1是本例的散点图。 观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。 首先,如果可由专业知识确定回归函数形式,则应尽可能利用专业知识。当若不能有专业知识加以确定函数形式,则可将散点图与一些常见的函数关系的图形进行比较,选择几个可能的函数形式,然后使用统计方法在这些函数形式之间进行比较,最后确定合适的曲线回归方程。为此,必须了解常见的曲线函数的图形,见图8.5.2 。 本例中,散点图呈现呈现一个明显的向上且上凸的趋势,可能选择的函数关系有很多,比如,参照图8.5.2,我们可以给出如下四个曲线函数: 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步选出可能的函数关系(即方程)后,我们必须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣? 8.5.2 参数估计 对上述非线性函数,参数估计最常用的方法是“线性化”方法。 以1/y=a+b/x为例,为了能采用一元线性回归分析方法,我们作如下变换u=1/x,v=1/y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年地铁隧道加固维修工程分包合同范文
- 医疗机构信息化建设及服务合同
- 2025年发电机组租赁合同范文样本
- 物业与保安公司合同5篇
- 2025年离婚不迁出和谐共处合同
- 2025年离婚夫妻财产划分正规合同
- 2025年协商离婚财产权益处理合同范文
- 2025年医药产品分销代理的海运出口合同
- 2025年上海市家庭和解离婚协议合同
- 2025年离婚夫妻共同关怀子女成长协议合同
- 2024年河南省中考满分作文《成功所至诸径共趋》
- 2025年陕西国防工业职业技术学院单招综合素质考试题库学生专用
- 2025年浙江宁波市奉化区农商控股集团有限公司招聘笔试参考题库附带答案详解
- 2025年中考百日誓师大会校长发言稿:激扬青春志 决胜中考时
- (一模)2025年汕头市2025届高三高考第一次模拟考试 语文试卷(含答案详解)
- 上海浦东新区2024-2025高三上学期期末教学质量检测(一模)物理试卷(解析版)
- 2023年中小学心理健康教育课程标准
- 2025河南中烟工业限责任公司一线岗位招聘128人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年中国中压变频器行业深度调研与投资战略规划分析报告
- 公司往来客户对帐确认单 6个套模版
- 云管理系统CRM系统操作手册
评论
0/150
提交评论