版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、相关关系与回归分析(Correlation 斜率 = 0.35 温度每增加一度,可以预期密封强度平均增加 .35 g/cm2 或(通过增加温度 10 度,平均密封强度增加 3.5 g/cm2)。 5: 压盘加热到 250 F 平均可获得 189.1 g/cm2 的密封强度 (= 101.61 + .35 x 250)。 6: 利用回归方程式求 X。 205 = 101.61 + .35(X) 表示 X = 295 F 将压盘加热到 295 F 可获得 205 g/cm2 的密封强度 7: R-sq = 83.3%(见下页),R 平方(R-sq 或 R2):可解释变化百分比 (%),R 平方 =
2、 R-sq 测量 Y 值变化的百分比,该变化通过与 X 的线性关系来解释。 范围从 0 到 1(= 0% 到 100%) 尝试使用下面的图理解可解释的变化。*,讨论:解释 R 平方 (R2),1.从密封强度数据求得的 R-Sq 值是多少? 2.它表示什么含义? 3.您对压盘温度加热到 250 F 时所预测的密封强度把握有多大?,讨论:答案,1. 从密封强度数据求得的 R-Sq 值是多少? 83.3% 2. 它表示什么含义? 密封强度几乎有 85% 的变化都可通过压盘温度来解释。大约有 15% 的变化是无法解释的。 3. 您对压盘温度加热到 250 F 时所预测的密封强度把握有多大? 由于 25
3、0 F 在研究的数据范围内(我们无需外推),而且由于 R2 相当大,因此我们对密封强度的预测相当满意。,相关性 (r):关系的“强度”,相关性 r: 范围从 1 到 1 r = 1=完全负(或反)相关 r = 0=无线性关系 r = +1=完全正相关 测量关系的“强度”(密切) R2 等于 r 的平方 称为 Pearson 相关系数,相关性 (r):关系的“强度”(续),注意:如果斜率 b1 = 0 ,则 r = 0。否则斜率值 b1 和相关性值 r 之间没有关系。,练习:求相关系数 (r),目的:练习使用 Minitab 求相关系数并对其进行解释。 时间:2 分钟 数据:打开文件FoilSe
4、al.mtw 要求:使用 Minitab 求密封强度和压盘温度之间的相关性: Stat Basic Statistics Correlation 1.r 的值是多少? 2. 用计算器检查拟合图的 r2 = R-Sq 是否成立。,练习:答案,问题 1:Minitab 输出 问题 2 r2 = (.913)2 = .834,相关性 (Pearson) 密封强度 (g/cm2) 和温度 (F) 之间的相关性 = 0.913 , P 值 = 0.000,小心!相关性并不表示因果关系,当散点图上的两个变量显示某种关系时,则称它们是相关的,但这并不一定表示它们有因果关系。 相关性表示两件事情一起变化 因果
5、关系表示一个变量的变化将造成另一个变量的变化 示例 1,两个变量都受第三个变量年龄的影响,40,42,44,46,48,50,52,54,56,58,0,2,4,6,8,10,12,身高(英寸),读书水平(年级),小心!相关性并不表示因果关系(续),示例 2,发票周期,部门 A,部门 B,发票上的错误数,原始,分层,发票上的错误数,将图分层后,我们看不到相关性,而是看到了由于部门的不同造成的差异,检查 X 变量的范围 如果 X 的范围过窄,可能会看不出关系。在正常的情况下,雇员有 20 至 30 名,这种情况的数据虽然较多,该小组最初却省略这种情况以外的数据。,按其它离散变量分层 将图分层后,
6、我们看到了原本不明显的关系。,小心!没有相关性并不表示没有因果关系,如果在您希望看到一种关系时,却没有关系出现:,职员数,候时间,电话等,20,30,A,B,发票上的错误数,部门,发票,周期,应用到您的企业,目的:练习将回归应用到您的企业。 时间:5 分钟 要求:思考您的企业中可能彼此相关的两个变量(连续、离散计数或离散百分比)。 1.X 是哪一个变量?(输入变量可望用来控制或处理它以影响 Y,或者至少使用它来预测 Y) 2.Y 是哪一个变量?(输出变量对您的客户而言很重要的测量数据) 3.总结这些变量: X: _数据类型: _ 是否可控制?_ Y: _数据类型: _ 4.回归方程式对您是否有
7、用? 5.要求自愿者向整个组发表自己的看法。,回归类型,回归假设:残差,关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差: 与 X 无关 稳定而且独立, 不随时间变化 是常量,不随预测的 Y 增加 而增大 是正态的(钟形的), 平均值为 0,使用 Minitab:回归分析,数据:打开文件FoilSeal.mtw 第一部分:拟合方程式并检查残差 1. 使用 Minitab 对密封强度和压盘温度进行回归分析。 Stat Regression Regression,Response = Minitab 的 Y 名称,Predictor = Minitab 的 X 名称,如果没有异常值,值
8、范围从 -3 到 3,将 X 变量放在此处,使用 Minitab:回归分析(续),这些变量将存储在工作表的 Fits1、Resi1 和 SRes1 列中;下一次回归将把它们标记为 Fits2、Resi2 和 SRes2。,Minitab 的预测Y 或拟合 Y 的名称,使用 Minitab:回归分析(续),2.首先检查残差图。是否有问题,或这些假设有效?,200,250,300,-3,-2,-1,0,1,2,3,4,5,温度 (F),标准化残差,残差对温度 (F),(响应是密封 (g/),50,100,150,200,-3,-2,-1,0,1,2,3,4,5,观测顺序,标准化残差,残差对数据顺序
9、,(响应是密封 (g/),180,190,200,210,-3,-2,-1,0,1,2,3,4,5,拟合值,标准化残差,残差对拟合值,(响应是密封 (g/),使用 Minitab:回归分析(续),-4,-3,-2,-1,0,1,2,3,4,5,0,10,20,30,40,50,标准化残差,频率,残差的直方图 (响应是密封 (g/),-3,-2,-1,0,1,2,3,4,5,-3,-2,-1,0,1,2,3,正态值,标准化残差,残差的正态概率图 (响应是密封 (g/),使用 Minitab:回归分析(续),180,190,200,210,-3,-2,-1,0,1,2,3,4,5,拟合值,标准化残
10、差,残差对拟合值 (响应是密封 (g/),50,100,150,200,-3,-2,-1,0,1,2,3,4,5,观测顺序,标准化残差,残差对数据顺序 (响应是密封 (g/),200,250,300,-3,-2,-1,0,1,2,3,4,5,温度 (F),标准化残差,残差对温度 (F) (响应是密封 (g/),如果只有一个 X 变量,这两个图中的模式将是相同的,看起来有一个模糊的模式(波浪形或循环)。与时间有关的什么变量可能造成这种现象?尽量找到它并将它添加到回归分析中。稍后我们将说明如何识别此变量。,变化随温度升高略有增大。这看起来似乎是合理的,但固定变异数的假设并不完全成立。您可以尝试对
11、Y 求平方根进行变换。我们将在本节稍后介绍此方法。,使用 Minitab:回归分析(续),问题 2 的答案(续),-3,-2,-1,0,1,2,3,4,5,-3,-2,-1,0,1,2,3,正态值,标准化残差,残差的正态概率图 (反应是密封 (g/),-4,-3,-2,-1,0,1,2,3,4,5,0,10,20,30,40,50,标准化残差,频率,残差直方图 (响应是密封 (g/),有一条直线几乎通过所有的点,这表示残差呈正态分布。仔细检查极端数据点。确定是将它们留在那里还是将它们去掉。,残差看起来似乎为正态分布(好)。,使用 Minitab:回归分析(续),下几步 A. 尝试找到另一个与时
12、间有关的变量(如湿度、压力、每日设置等)并进行多重回归分析。 B. 尝试进行平方根变换,看看是否它改进了残差的不变性。 C. 检查异常值(即大的残差)。 为了教学的目的,我们先进行 #C,然后进行 #A 和 #B。,使用 Minitab:回归分析(续),3.检查工作表,找出存储的残差和预测的 Y。将它们与方程式和图中显示的实际数据联系起来。 a.当压盘温度为 208时预测的密封强度是多少? b.检查第一行:是否残差 = 观测的 Y 预测的 Y? c.为何第 11 行和第 12 行的残差不同(尽管每行中的 X = 295)?,使用 Minitab:回归分析(续),密封强度= 101.61 + 0
13、.35 (温度) = 拟合值 = 预测的值,不正常的观测数据,Minitab 标记不正常的观测数据,这样您可以: 检查它们是否有错误 研究是否发生了不正常的事件 去掉这些数据重新运行回归分析,以确定系数(b0 和 b1)变化有多大 如果系数变化很大,您必须确定是否将这些不正常的观测数据用于建立回归方程式 回归线应清楚地表示 X 和 Y 之间的关系 清除某些观测数据可能减小 X 数据的范围 如果不清除某些真正的异常值,可能会不合理地影响回归方程式,影响较大的观测数据,影响较大的点通常位于 X 轴的任一端 回归线取决于这些影响较大的点是保留在数据集中还是从数据集中除去,使用 Minitab:回归分
14、析(续),第二部分:处理不正常的观测数据(续) 7a. 将 C5 (Y) 复制到 C10,并将它命名为 Ymissing。编辑 C10 观测数据 1、49、98、121、122、145、169、193:用 *替换这些值(将它们标记为缺少的值)。 7b. 用 Ymissing 重新进行回归分析。(关闭所有的残差图)。,使用 Minitab:回归分析(续),第二部分:处理不正常的观测数据(续) 7c. 重叠两条回归线: Graph Plot (Fits1 vs. Temp) & (Fits2 vs. Temp) Frame Multiple plots overlaygraphs on same
15、page 7d. File Save Current Worksheet As Seal2 结论:右侧(温度 250)的预测值没有很大的变化。8 个有影响的点将左侧(温度 250)的直线略微向上拉。在该范围内这是一种更好的预测。因此,保留所有的数据并使用由 240 个观测数据得出的方程式。 (在第二次回归分析中,其它影响较大的点标记在低温 (214, 217, 220) 处,但由于类似的原因我们也保留了它们)。,温度 (F),第三部分:获得残差图的其它方法 使用储存在工作表中的残差列 a.获得残差的正态概率图 Graph Probability Plot (选择 RES1 或 SRES1;或者
16、 works。) b.残差是否为正态分布? 结论 是,残差是正态分布。尾部有几个我们已研究过的异常值。,使用 Minitab:回归分析(续),区域 1:用于计算个别系数的值 结论 b0(截距)远大于 0 通常,因为 X 总不为 0 ,所以有关截距的信息不象有关斜率的信息那样令人感兴趣因此它没有实际意义 b1(斜率)远大于 0 X(温度)与 Y(密封强度)有明显的线性关系,Minitab 输出:区域 1,解释回归中的 P 值,对于模型中的每个 Xi 项: 虚假设: H0i:斜率 = 0 (或) 当 X 变化时 Y 没有变化 (或) Y 与 X 之间的关系方程式是 Y = 替代假设: Ha:斜率
17、0 (或) Y 随 X 变化而变化 (或) Y 与 X 之间的关系方程式是 :,解释回归中的 P 值(续),如果 pi .05 不要拒绝 H0 没有足够的证据说明统计上存在显著的斜率 如果存在真实的斜率,则变化太大或样品数量太小,以致无法检测到它 如果 pi .05 拒绝 H0,采用 Ha 统计上存在显著的斜率 措施:估计关系的重要性(是否有进一步采取措施的充分理由?),Minitab 输出:区域 2,区域 2:用于观察可解释的和无法解释的变化,S = 4.195R-Sq = 83.3%R-Sq(adj) = 83.2,直线四周剩余的或无法解释的变化的标准偏差:1 st. dev. = 4.2
18、 grams/cm2,调整模型中的 X 数目。(实质上与只有一个 X 的 R-sq 相同。)稍后将在多重回归中讨论。,可解释的变化百分比 (%),Minitab 输出:区域 3,区域 3:用于从整体角度评价回归模型 结论 线性模型解释显著的变化。(或者说,“密封强度”中的显著变化可通过它与压盘温度之间的线性关系解释。),Analysis of Variance SourceDF SS MS F P Regression 12091420914 1188.65 0.000 Residual Error 238 4187 18 Total 23925101,可解释的变化显著性测试,n 1,可解释的
19、 无法解释的,of variation,置信区间和预测区间,置信区间 C.I. = 可能包含“最佳拟合”直线的区间。 如果再次重复回归分析,可定出拟合 Y 的预测值范围。 基于给定的 X 值 对于给定的置信度而言,预测区间 P.I. = 可能包含给定 X 的实际 Y 值的区间 定出可能的实际 Y 值范围 基于给定的 X 值 对于给定的置信度而言,使用 Minitab:回归分析(续),第四部分:计算置信区间和预测区间 继续进行先前开始的数据分析 9a. 计算压盘加热到 275 F 时密封强度的置信区间和预测区间: Stat Regression Regression (使用原始的 Y Seal
20、g/cm2) Options:,使用 Minitab:回归分析(续),我们 95% 确信在压盘温度为 275时, 198.5 到 199.6 包含密封强度的最佳拟合(估计),我们 95% 确信在压盘温度为 275时,密封强度将在 190.7 和 207.3 g/cm2 之间,预测值,拟合,标准偏差拟合,95.0% CI 95.0% PI,199.027 0.272 ( 198.490, 199.563) ( 190.746, 207.307),Minitab 输出(您必须记住您选择的 X 值本例中 X = 275),使用 Minitab:回归分析(续),第四部分:计算置信区间和预测区间(续),
21、9b. 计算包含置信区间和预测区间的拟合直线图,Stat Regression Fitted Line Plot (使用原始 Y Seal g/cm2) Options (同时选择置信区和预测区),小心!应始终将数据绘制成图,没有绘制数据,就不要进行回归分析。 示例:四个 X, Y 数据集 每个有相同的汇总统计数据 相同的 X 平均值 相同的 Y 平均值 相同的 r(相关性) 每个有相同的回归方程式 Y = 3.0+ 0.5X,小心!应始终将数据绘制成图(续),示例:四个 X, Y 数据集(续) 相同的回归方程 Y = 3 + .5X 四种完全不同的关系。直线模型最能代表哪一个数据集?,0,5
22、,10,15,20,0,5,10,15,法则,将数据绘制成图,“图形的优点在于可清楚、准确而且有效地表达复杂的意念它 可以在最短的时间、用最少的语言、在最小的空间中给读者提供最多的意念。” Edward R. Tufte,用图来: 研究 分析 报告结果,使用 Minitab:回归分析(续),第五部分:检查原始数据图 返回到先前开始的数据分析 10.绘制原始数据图 (本页和下页显示这些图)。 在进行回归分析之前了解此信息有用吗?,使用 Minitab:回归分析(续),按“星期几”分层的散点图。我们没有看出任何模式。,星期一,星期二,星期三,星期四,星期五,200,250,300,175,185,195,205,215,225,温度 (F),密封强度 (g/cm2),使用 Minitab:回归分析(续),第五部分:检查原始数据图(续) X 和 Y 变量是按全部 10 天内 30 分钟的时间增量(12 小时一班,有 24 个时段)绘制的。它显示这两个变量如何随一天各个时段发生变化。什么因素造成这种形状?压盘缓慢地加热,最后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度云南省高校教师资格证之高等教育心理学题库练习试卷B卷附答案
- 2023年异噻唑啉酮投资申请报告
- 加氢工艺理论考试题库及答案
- 福建师范大学《移动通信系统优化》2021-2022学年第一学期期末试卷
- 福建师范大学《体育统计学》2023-2024学年第一学期期末试卷
- 果园亏损财务分析报告示例
- 福建师范大学《环境监测实验》2023-2024学年第一学期期末试卷
- 福建师范大学《关系管理》2023-2024学年第一学期期末试卷
- 第二章 能量和营养素第一节基本概念课件
- 机械加工常用材料的热处理工艺表
- 《计算机视觉》教学大纲
- DB37∕T 5087-2021 建筑与市政工程绿色施工评价标准
- 电缆火灾事故应急演练
- 一只想飞的猫PPT课件(PPT 14页)
- 《生物物理学》课件第五章生物膜离子通道(新 )
- DB∕T29-297-2021 海绵城市雨水控制与利用工程施工及验收标准
- 第25届厨师节、cre第五届餐饮展cre2015招展手册0728
- 滚轴筛检修步骤工艺及质量标准
- 施工现场环境保护检查表
- 选矿工艺矿物学
- 药理学案例分析
评论
0/150
提交评论