商务统计学Ch12_第1页
商务统计学Ch12_第2页
商务统计学Ch12_第3页
商务统计学Ch12_第4页
商务统计学Ch12_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、编辑课件Chap 12-1第第12章章一元线性回归商务统计学(第5版)编辑课件Chap 12-2学习目标在本章中你将学到在本章中你将学到: n如何利用一元线性回归分析理论,由自变量来预测因变量n回归系数 b0 和 b1的含义n如何评价一元线性回归分析的假设条件,并且了解假设违背时的处理方法n斜率和相关系数的推断n均值估计和个值预测编辑课件Chap 12-3相关与回归n一个 散点图 可以用来表示两个变量之间的关系n相关性 分析是用来测量两个变量之间的关联(线性关系)强度n相关性仅仅是关心关联的强度n没有因果关系是隐含相关性n散点图首次出现在第2章n相关性首次出现在第3章编辑课件Chap 12-4

2、回归分析简介n回归分析被应用于:n基于至少一个自变量的值,预测因变量的值n解释一个自变量的变化对因变量的影响因变量: 我们要预测或解释的变量自变量: 用来预测或解释因变量的变量编辑课件Chap 12-5一元线性回归模型n只有一个自变量一个自变量XnX与Y的关系可以通过线性函数表示n假定Y的变化与X的变化有关编辑课件Chap 12-6相关类型YXYXYYXX线性相关线性相关曲线相关曲线相关编辑课件Chap 12-7关系类型YXYXYYXX强相关强相关弱相关弱相关(续)编辑课件Chap 12-8相关类型YXYX不相关不相关(续)编辑课件Chap 12-9ii10iXY线性组成部分一元线性回归模型总

3、体的 Y轴截距总体的斜率 随机误差项因变量自变量随机误差部分编辑课件Chap 12-10(续)取值Xi时,因变量的随机误差YX与Xi对应的Y的观测值与Xi 对应的Y的预测值ii10iXYXi斜率 = 1截距 0 i一元线性回归模型编辑课件Chap 12-11i10iXbbY一元线性回归方程可以估计总体回归直线一元线性回归方程 (预测线)回归截距的估计值回归斜率的估计值第i个观测值的Y的估计(预测)值第 i个观测值X的值编辑课件Chap 12-12最小二乘法我们可以求出使得Y 和 的离差平方和最小的b0 和 b1的值2i10i2ii)Xb(b(Ymin)Y(YminY编辑课件Chap 12-13

4、求出最小二乘方程的解n系数 b0 和 b1 ,以及本章的其它回归结果,通过Excel或者Minitab求出文章中为感兴趣的读者列出了公式编辑课件Chap 12-14nb0 是当X 为零时, Y 的期望值nb1 是当X 发生一个单元的变化时,Y的期望值发生的变化对斜率和截距的解释编辑课件Chap 12-15n一个房地产经纪人希望得出房屋售价与房屋大小(以平方英尺为单位)的关系n随意抽取10间房子作为一个样本n因变量 (Y) = 房价( 1000美元)n自变量 (X) = 平方英尺一元线性回归的例子编辑课件Chap 12-16一元线性回归例子:数据房价房价(1000美元)美元)(Y)平方英尺平方英

5、尺 (X)2451400312160027917003081875199110021915504052350324245031914252551700编辑课件Chap 12-17一元线性回归例子: 散点图房价模型: 散点图编辑课件Chap 12-18一元线性回归的例子: 利用 Excel编辑课件Chap 12-19一元线性回归的例子: Excel 输出Regression StatisticsMultiple R0.76211R Square0.58082Adjusted R Square0.52842Standard Error41.33032Observations10ANOVA dfSS

6、MSFSignificance FRegression118934.934818934.934811.08480.01039Residual813665.56521708.1957Total932600.5000 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept98.2483358.033481.692960.12892-35.57720232.07386Square Feet0.109770.032973.329380.010390.033740.18580回归方程为: 98.24833 0.10977 ()

7、房价平方英尺编辑课件Chap 12-20一元线性回归的例子: Minitab 输出The regression equation isPrice = 98.2 + 0.110 Square Feet Predictor Coef SE Coef T PConstant 98.25 58.03 1.69 0.129Square Feet 0.10977 0.03297 3.33 0.010 S = 41.3303 R-Sq = 58.1% R-Sq(adj) = 52.8% Analysis of Variance Source DF SS MS F PRegression 1 18935 18

8、935 11.08 0.010Residual Error 8 13666 1708Total 9 32600回归方程为:房价 = 98.24833 + 0.10977 (平方英尺)编辑课件Chap 12-21一元线性回归的例子: 图表分析法房价模型: 散点图和预测线 98.24833 0.10977 ()房价平方英尺斜率 = 0.10977截距= 98.248 编辑课件Chap 12-22 98.24833 0.10977 ()房价平方英尺一元线性回归的例子: 对 bo的解释nb0 是当X 的值为零时,Y 的期望值(如果 0 在被观测到的X的取值范围内)n因为一个房子的面积不可能为0,所以截

9、距b0没有实际解释意义编辑课件Chap 12-23nb1 是X增加一个单位,导致Y的期望值发生的变化n这里, b1 = 0.10977意味着,房子每增加一平方英尺,房价的期望值平均增加0.10977(1000美元) = 109.77 美元 98.24833 0.10977 ()房价平方英尺一元线性回归的例子: 对b1的解释编辑课件Chap 12-24 98.25 0.1098 ()98.25 0.1098(2000)317.85房价平方英尺预测有2000平方英尺的房子的价格:一个有2000平方英尺的房子的预测价格是317.85(1,000美元) = 317,850美元一元线性回归的例子 :预测

10、编辑课件Chap 12-25一元线性回归的例子: 预测n使用回归模型进行预测时,只能在数据的相关范围内做预测相关范围内插值不要试图推断超出观测X的相关范围的房价编辑课件Chap 12-26离差的度量n总方差有两部分组成:SSE SSR SST总平方和回归平方和残差平方和2i)YY(SST2ii)YY(SSE2i)YY(SSR其中: = 因变量的均值Yi = 因变量的观测值 = 与Xi 对应的Y的观测值iYY编辑课件Chap 12-27(续)离差的度量nSST = 总平方和 (总变差)n度量 观测值Yi与均值Y的差异nSSR = 回归平方和 (能解释的离差平方和)n由X和Y之间的关系所决定的偏差

11、nSSE = 残差平方和 (不能解释的离差平方和)n由X和Y关系以外的其它因素所造成的偏差编辑课件Chap 12-28(续)XiYXYiSST = (Yi - Y)2SSE = (Yi - Yi )2 SSR = (Yi - Y)2 _Y YY_Y 离差的度量编辑课件Chap 12-29n可决系数 是总变差中由回归模型解释的部分所占的比例n可决系数也被称为: r-平方 ,并以 r2表示可决系数 r21r02注意:2 SSRrSST回归平方和总平方和编辑课件Chap 12-30r2 = 1r2 值的例子YXYXr2 = 1r2 = 1X 和和 Y是强线性关系是强线性关系: 100% 的的Y的离差

12、可以由的离差可以由 X的离的离差来解释差来解释编辑课件Chap 12-31r2 值的例子YXYX0 r2 1X 和和 Y之间是弱线性关系之间是弱线性关系: 一部分但并不是所有的一部分但并不是所有的Y的离的离差都可以用差都可以用X的离差可以解释的离差可以解释编辑课件Chap 12-32r2 值的例子r2 = 0X 和和 Y之间没有线性关系之间没有线性关系: Y 的值不依赖于的值不依赖于X. (Y的离差的离差不能用不能用X的离差解释的离差解释)YXr2 = 0编辑课件Chap 12-33一元线性回归的例子: 在Excel输出中的可决系数r2Regression StatisticsMultiple

13、 R0.76211R Square0.58082Adjusted R Square0.52842Standard Error41.33032Observations10ANOVA dfSSMSFSignificance FRegression118934.934818934.934811.08480.01039Residual813665.56521708.1957Total932600.5000 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept98.2483358.033481.692960.12892-35

14、.57720232.07386Square Feet0.109770.032973.329380.010390.033740.1858058.08%的房价离差可以由平方英尺的离差来解释0.5808232600.500018934.9348SSTSSRr2编辑课件Chap 12-34一元线性回归的例子: 在Minitab 输出中的可决系数r2The regression equation isPrice = 98.2 + 0.110 Square Feet Predictor Coef SE Coef T PConstant 98.25 58.03 1.69 0.129Square Feet 0

15、.10977 0.03297 3.33 0.010 S = 41.3303 R-Sq = 58.1% R-Sq(adj) = 52.8% Analysis of Variance Source DF SS MS F PRegression 1 18935 18935 11.08 0.010Residual Error 8 13666 1708Total 9 326000.5808232600.500018934.9348SSTSSRr258.08%的房价离差可以有平方英尺的离差来解释编辑课件Chap 12-35估计值的标准误差n观测值偏离回归线的标准差的计算公式为:2)(212nYYnSSES

16、niiiYX其中SSE = 残差平方和 n = 样本量编辑课件Chap 12-36一元线性回归的例子:在Excel中,估计值的标准差Regression StatisticsMultiple R0.76211R Square0.58082Adjusted R Square0.52842Standard Error41.33032Observations10ANOVA dfSSMSFSignificance FRegression118934.934818934.934811.08480.01039Residual813665.56521708.1957Total932600.5000 Coef

17、ficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept98.2483358.033481.692960.12892-35.57720232.07386Square Feet0.109770.032973.329380.010390.033740.1858041.33032SYX编辑课件Chap 12-37一元线性回归的例子:在 Minitab中,估计值的标准差The regression equation isPrice = 98.2 + 0.110 Square Feet Predictor Coef SE Coef T

18、PConstant 98.25 58.03 1.69 0.129Square Feet 0.10977 0.03297 3.33 0.010 S = 41.3303 R-Sq = 58.1% R-Sq(adj) = 52.8% Analysis of Variance Source DF SS MS F PRegression 1 18935 18935 11.08 0.010Residual Error 8 13666 1708Total 9 3260041.33032SYX编辑课件Chap 12-38标准差的比较YYXXSYX小 SYX大SYX表示Y的观测值偏离回归线的程度SYX的 大小应

19、该是相对于样本数据中Y值的大小而言的例如,相对于房价在200000美元-400000美元的范围 SYX = $41.33K 比较小编辑课件Chap 12-39回归的假设条件L.I.N.En线性(Linearity)nX 和Y 之间的关系是线性的n误差项相互独立(Independence of Errors)n误差值是在统计上是独立的n误差项呈正态分布(Normality of Error)n给定任意 X值,误差项是服从正态分布的n同方差(方差齐性)(Equal Variance)n误差项所服从分布的方差为常数编辑课件Chap 12-40残差分析n对于第 i个观测的残差 ei,是观测值与预测值之

20、间的差 n通过残差检验回归的假设条件 n检验线性假设n评估独立性假设 n评估正态分布假设 n对各种层次的X,检验方差相同(方差齐性)的假设n残差的图形分析n可以画出残差随X的变化图iiiYYe编辑课件Chap 12-41检验线性的残差分析非线性非线性线性线性x残差xYxYx残差编辑课件Chap 12-42检验独立性的残差分析不独立不独立独立独立XX残差残差X残差编辑课件Chap 12-43检验正态性n检查残差的茎叶图n检查残差的盒须图n检查残差的直方图n建立残差的正态概率图编辑课件Chap 12-44检验正态性的残差分析百分率百分率残差残差当使用正态概率图时, 正态误差大约将会排列在一条直线上

21、-3 -2 -1 0 1 2 30100编辑课件Chap 12-45检验同方差的残差分析 不同方差同方差xxYxxYresidualsresiduals编辑课件Chap 12-46一元线性回归的例子:残差在Excel 中的输出残差输出预测的房价 残差1251.92316-6.9231622273.8767138.123293284.85348-5.8534844304.062843.9371625218.99284-19.992846268.38832-49.388327356.2025148.797498367.17929-43.179299254.667464.3326410284.853

22、48-29.85348没有违背任何回归假设编辑课件Chap 12-47有关斜率的统计推断n回归的斜率(b1) 的标准差可以通过下式求出:2iYXYXb)X(XSSSXSS1其中:= 斜率标准差的估计值 = 这个估计值的标准差1bS2nSSESYX编辑课件Chap 12-48有关斜率的统计推断: t 检验n总体斜率的t检验nX 和 Y之间存在线性关系吗?n零假设与备择假设n H0: 1 = 0(不存在线性关系)n H1: 1 0(线性关系确实存在)n检验统计量 1b11STATSbt2nd.f.其中: b1 = 回归斜率系数 1 = 斜率假定值 Sb1 = 样本斜率的标准差编辑课件Chap 12

23、-49有关斜率的统计推断: t 检验的例子房价(1000)(y)平方英尺 (x)2451400312160027917003081875199110021915504052350324245031914252551700 98.25 0.1098 ()房价平方英尺估计的回归方程估计的回归方程:这个模型的斜率 0.1098 房价与房子建筑面积(平方英尺)有关系吗?编辑课件Chap 12-50H0: 1 = 0H1: 1 0来自来自 Excel 的输出的输出: CoefficientsStandard Errort StatP-valueIntercept98.2483358.033481.692

24、960.12892Square Feet0.109770.032973.329380.010391bSb13293830329700109770Sbt1b11STAT.Predictor Coef SE Coef T PConstant 98.25 58.03 1.69 0.129Square Feet 0.10977 0.03297 3.33 0.010来自来自 Minitab 的输出的输出: b11bS有关斜率的统计推断: t 检验的例子编辑课件Chap 12-51检验统计量: tSTAT = 3.329有足够的证据表明建筑面积影响房价决策: 拒绝 H0拒绝 H0拒绝 H0a/2=.025

25、-t/2不拒绝 H00t/2a/2=.025-2.30602.30603.329d.f. = 10- 2 = 8H0: 1 = 0H1: 1 0有关斜率的统计推断: t 检验的例子编辑课件Chap 12-52H0: 1 = 0H1: 1 0来自来自 Excel输出输出 : CoefficientsStandard Errort StatP-valueIntercept98.2483358.033481.692960.12892Square Feet0.109770.032973.329380.01039p-值有足够的证据表明建筑面积影响房价.决策: 拒绝 H0, 因为 p-值 Predicto

26、r Coef SE Coef T PConstant 98.25 58.03 1.69 0.129Square Feet 0.10977 0.03297 3.33 0.010来自来自 Minitab输出输出: 有关斜率的统计推断: t 检验的例子编辑课件Chap 12-53显著性的F检验nF 检验统计量:其中 MSEMSRFSTAT21nSSEMSESSRMSR其中 FSTAT 服从自由度为1和 (n 2)的F 分布编辑课件Chap 12-54显著性F检验的Excel 输出Regression StatisticsMultiple R0.76211R Square0.58082Adjusted

27、 R Square0.52842Standard Error41.33032Observations10ANOVA dfSSMSFSignificance FRegression118934.934818934.934811.08480.01039Residual813665.56521708.1957Total932600.5000 11.08481708.195718934.9348MSEMSRFSTAT自由度为自由度为1和和8F检验的检验的p-值值编辑课件Chap 12-55显著性F检验的Minitab 输出Analysis of Variance Source DF SS MS F P

28、Regression 1 18935 18935 11.08 0.010Residual Error 8 13666 1708Total 9 3260011.08481708.195718934.9348MSEMSRFSTAT自由度为自由度为1和和8F检验的检验的p-值值编辑课件Chap 12-56H0: 1 = 0H1: 1 0a = .05df1= 1 df2 = 8 检验统计量检验统计量: 决策决策:结论结论:拒绝 H0 ,在显著性水平 a a = 0.05的 情况下有足够的证据表明房子的大小影响销售价格0 a = .05F.05 = 5.32拒绝 H0不拒绝 H011.08FSTATM

29、SEMSR临界值临界值: Fa a = 5.32显著性的F检验(续)F编辑课件Chap 12-57斜率的置信区间估计斜率置信区间的估计:房价的Excel打印输出:在 95%的置信水平下, 斜率的置信区间为 (0.0337, 0.1858)1b2/1Sbt CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept98.2483358.033481.692960.12892-35.57720232.07386Square Feet0.109770.032973.329380.010390.033740.18580d.f.

30、= n - 2编辑课件Chap 12-58由于变量房价的变化单元为1000美元,我们有 95% 的把握保证,每平方英尺的建筑面积对销售价格的影响在33.74美元到185.8美元之间 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept98.2483358.033481.692960.12892-35.57720232.07386Square Feet0.109770.032973.329380.010390.033740.18580 95% 的置信区间 不包括 0.结论: 在0.05的显著性水平下,房价与平方英尺的

31、关系是显著的(续)斜率的置信区间估计编辑课件Chap 12-59相关系数的t检验n假设H0: = 0 (X 与 Y不相关) H1: 0 (相关)n检验统计量 (自由度为 n 2)2nr1-rt2STAT2121 b 0 b 0rrrr 如果如果其中编辑课件Chap 12-60在.05的显著性水平下,有证据显示平方英尺与房价是线性关系吗?H0: = 0 (不相关)H1: 0 (相关) a =.05 , df = 10 - 2 = 83.329210.76210.7622nr1rt22STAT(续)相关系数的t检验编辑课件Chap 12-61结论结论:在在5%的显著性水的显著性水平下,有证据表平下

32、,有证据表明存在线性关系明存在线性关系决策决策:拒绝 H0拒绝 H0拒绝 H0a/2=.025-t/2不拒绝 H00t/2a/2=.025-2.30602.30603.329d.f. = 10-2 = 83.329210.76210.7622nr1rt22STAT(续)相关系数的t检验编辑课件Chap 12-62均值的估计和单个数值的预测YX XiY = b0+b1Xi 给定Xi,Y 均值的置信区间给定Xi, 单个Y值的预测区间目标: 对于给定的Xi, 形成因变量均值的置信区间表示对其值的不确定Y 编辑课件Chap 12-63给定X,Y均值的置信区间给定特定的Xi,估计 Y 均值的置信区间区间

33、的大小取决于与均值X的距离iY|X X/2YX : SiYtha的置信区间2i2i2ii)X(X)X(Xn1SSX)X(Xn1h编辑课件Chap 12-64给定X,单个因变量Y的预测值区间给定特定的Xi,估计单个因变量Y的预测值区间为了反映单个个别事件的不确定性,将区间宽度增加一项额外项iX X/2YXY: S1iYtha的预测区间为编辑课件Chap 12-65均值估计的例子求面积为2,000英尺的房子平均售价的95%置信区间预测价格 Yi = 317.85 (1,000美元) 估计Y|X=X置信区间37.12317.85)X(X)X(Xn1StY2i2iYX0.025置信区间的端点是 280.66 和 354.90,或者从 280,660美元到 354,900美元i编辑课件Chap 12-66单个因变量估计的例子一个面积有2,000英尺的95%预测价格区间预测价格 Yi = 317.85 (1,000美元) 估计 YX=X的预测值区间102.28317.85)X(X)X(Xn1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论