
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、相关回归( Correlation & Regression )DefineMeasureAnalyzeImproveControlStep 8- Data 分析Step 9- Vital Few X的选定 Multi Vari Central limit Hypothesis testing Confidence interval ANOVA, T-test Chi-square Correlation,regressionStep 7- Data 收集路径位置目的定义并计算相关系数 讨论相关性及因果关系 绘制并分析拟合直线图介绍回归分析的基本知识使用回归分析技术建立数学预测模型X和Y数据类
2、型研究 Y 是什么? _ 数据类型? _ X 是什么? _ 数据类型?_你将使用哪种工具? _设计小组想了解引擎寿命与车辆重量有无关系分析路线图(单一 X :单一 Y)X Data离散 连续 Y Data离散连续Chi-SquareLogistic RegressionT test/ANOVAMeans / Medians TestsRegression相关(Correlation):是什么?“相关”为什么如此重要 ?你是否经历过测量某些产品合格后送给顾客,但他们 告诉你你的产品不符合规格?在奥运会滑冰比赛上,你认为两个裁判成绩的相关性 有多高?这两张图有何不同?“+” 相关的强度与趋向“-”
3、 负相关的强度与趋向相关系数(r) 的确认有几种方法可以决定 r 值相关研究拟合直线图回归分析让我们一一探讨各个方法打开文件 Correlation.MPJ 中的工作表 Correlation Example依据产品特性,确定 Customer 与 Supplier 之间的相关性 相关性分析既然我们使用统计检验方法,则 “假设” 需被检验! Ho: 没有相关存在 Ha: 有相关存在若p值大于 0.05,即接受 Ho ,亦即 X 与Y 之间没有相关存在;若p值小于0.05,则 Ho 被拒绝且 Ha 将被接受,亦即有相关存在相关性分析结果: Correlation Example相关: Suppl
4、ier, Customer Supplier 和 Customer 的 Pearson 相关系数 = 0.834 P值 = 0.000结果显示在对话窗中注意,我们得到相关系数及P值你对 Supplier 和 Customer 之间的关系有何见解?相关性分析r 应该多大?依样本大小,若所得的相关系数比表中的值大,则可视为 “重要” 或统计显著 r 应该多大?勿需担心此表,Minitab 可以帮助我们在 “相关” 程序中选取 显示 p 值 选项, Minitab 将会显示是否显著寻找比 0.05 小的 p-值 在1930 1936 年间,曾有人跟踪德国城镇 Oldenburg 的人口与鹳鸟数量之间
5、的关系结果如下(人口以千为单位)显然,鹳鸟送来了婴儿 !?相关举例相关(Correlation)直线倾向 (正或负)斜率:直线角度其测量值为 r回归(Regression)回归预测方程其测量值为 R2残差分析线性,二次或三次拟合 最佳拟合直线相关与回归回归的定义/术语 回归分析 是一种用于分析变量间相关性的统计工具。在统计课程中通常被称为:“计算最佳拟合直线”本课程将讨论简单回归分析,其探讨对象为单一连续Y 与单一连续X的关系下列术语可经常交换使用:回归方程式* 回归线 预测方程式 预测线 模型回归分析路线图规划分析內容收集数据利用 Minitab 绘制 拟合直线图评估 R2和 P 值的显著性
6、评估残差制订决策分析路线图范例:brake.mtw336325418375355367445385365375455395395395. . . . .SpeedBraking Distance进行21次速度测试,你对此数据有何看法?拟合直线图我也想对相关性进行检验,并观察线性关系和数据点的之间的拟合性使用 Fitted Line Plot 选项来看此关系提供视觉化图表和方程式拟合直线图Minitab :输出结果Y = 182.807 + .476288x该线性方程为Y = m(x) + bm = 直线斜率b = 截距该方程给我们一个对能力的估计值注意 R2 = .695稍后将作详细讨论一些基
7、础知识回顾Y 截距斜率()YmXb=+中学代数所学的方程式在回归中,以 b0 和 b1 表示()YbbX=+01使用回归方程:內推法与外推法Y = 182.807 + .476288 x例: 若速度测量值为 400,我们对刹车距离的合理估计值应该是多少?例: 若速度测量值为 1000,我们对距离的合理估计值应该是多少?例: 若速度测量值为 0,我们对距离的合理估计值应该是多少?此拟合直线从何而来?Minitab 将找出一条直线,使各点至该直线的距离为最小. * * * * * * * * *拟合线实际数据点实际点与直线的距离输入变量 (X)输出变量(Y)拟合直线图:预测带 置信区间 Confi
8、dence Interval:代表基于系数 b0 及 b1 的置信区间预测区间 Prediction Interval: 给定X,在单一测试中Y有95% 的可能性会落在预测带内拟合直线图:预测带 R2 :其意义是什么?R2 与P 值,有助于我们基于统计作决策。R2 被称为决定系数 (coefficient of determination )R2 值代表“多少”输出变异总量可由回归模型所解释,其值介于 0 到 1 (0% 到 100%)之间。此值越高表示该模型的可信度越高 R2100%0%R2 :值大小应为多少 ?视分析对象而定 就像安全系统或文件夹例如,排放废气系统实验的结果将送交交通部审查
9、,你的数值应该“好”到什么程度?不同的课题决定不同的决策标准 (通常为 +60%)。我们必须认识到 R2 越高相关性就越强。 还记得 ANOVA 及我们对 X 显著性的看法吗?区分变异的来源生产周期的所有变异周间的变异周內的变异=+对CycleTim的方差分析来源 自由度 SS MS F PWeek 3 1032.48 344.16 299.38 0.000Error 96 110.36 1.15Total 99 1142.84 SS 或 Sum of the Squares 将数据的变异量化 通过计算 Epsilon2 值,来检验X 实际的显著性 此值告诉我们有多少总变异可被 X 所解释Ep
10、silon 2 = = = 90.34%SS for X1032.48SS Total1142.84还记得 ANOVA 及我们对 X 显著性的看法吗?ANOVA 与回归有什么关系?SSE( Sum of Squares due to the Error )目标:最小化此值SST ( Sum of Squares Total )SSR (Sum of Squares due to the Regression)总变异 = 群内变异 + 群间变异解释时,请使用可靠的判断理解R2R-Squared .80 相关可能显著R-Squared .50 且 .80 需要判断R-Squared .50 相关可
11、能不显著01相关可能不显著0.80.5相关可能显著需要判断即:有多少比率的 Y 变异可归因于与 X 的关系SpeedDistanceRESI1FITS1 336325-17.8392342.839残差与拟合值: 它们是什么?拟合线336325实际数据点残留距离 (-17.8392)理论点SpeedDistanceRESI1FITS1336325-17.8392342.839418375-6.8948381.89535536715.1113351.889445385-9.7546394.75536537518.3484356.652455395-4.5175399.51739539524.059
12、8370.940405365-10.7031375.7033463557.3979347.60. . . . . . . . .Minitab:更多的输出结果残差与拟合值数据应该通过“Fat Pencil Test”(粗铅笔检测)残差分析数据分布应趋近于正态曲线数据应该受控,探讨异常点数据应呈现无规则状残差分析为什么进行残差分析?关键的回归假设基于残差(而不是原始数据)的属性。 我们假设残差:与 X 无关稳定而且独立, 不随时间变化是常量,不随预测的 Y 增加而增大是正态的(钟形的), 平均值为 0残差2残差7是否总是线性关系?打开工作表 Multiwet.mtw执行 Fitted Line
13、Plot 并假定 Y=WetPU 且 X=ol_phR2 = 27.2% 是该关系的正确评估吗?你可利用二次或三次方程,得到较合适的拟合线 中学代数 y = 3 + 4x + 2x2在讨论温度或压力数据值时,常看到此关系R2 值由 27% 增加到 79%多项式回归分析:wet_pu 与 ol_ph 回归方程为wet_pu = - 11.42 + 8.405 ol_ph - 1.113 ol_ph*2S = 0.0911530 R-Sq = 79.5% R-Sq(调整) = 78.7%方差分析来源 自由度 SS MS F P回归 2 1.54843 0.774213 93.18 0.000误差
14、48 0.39883 0.008309合计 50 1.94725方差的序贯分析来源 自由度 SS F P线性 1 0.53021 18.33 0.000二次 1 1.01822 122.55 0.000注意,在此我们检验多个假设我们如何计算 Epsilon2值?小测验1) 下列哪组数据适于应用相关和回归分析?顾客类型与销售量顾客大小与利润 月与库存2) 解释下页图表的意义A) Wet_pu 与sl_vi 之间有无关系B) 其关系为正向还是负向?C) 若sl_vi 为 47.3 ,预测 Wet_pu 的值为多少?3) 是/非:若能确立 X 与 Y间的相关性,我就可以认为 Y 的变化是由 X 所引起的?陈述因果关系应该小心 即使我们建立了 y 与 x 的相关性,但并不能代表 x 的变异将一定导致 y 的变异。其他潜在的变量,可能造成 x 与 y 的改变。研究指出,医院规模增加,病人死亡率亦显著提升。这么说来,我们应该避免去大型医院就诊吗?回归问题探讨:X 丢失0 1 2 4 5 X= 医院规模Y =死亡率15105回归问题探讨:研究范围过于狭窄0 1 2 4 5 X=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年九年级语文上册 第一单元 第1课《沁园春 雪》教学设计1 新人教版
- 九年级化学下册 第8单元 金属和金属材料 课题3 金属资源的利用和保护 第2课时 金属资源的保护教学设计 (新版)新人教版
- 6营养要均衡 教学设计-2024-2025学年科学四年级上册教科版
- 自考现代教育技术实践课
- 联合申报合作协议
- ICU专科护理评审方法课件
- 《第五单元 唱歌 其多列》(教学设计)-2023-2024学年人教版(2012)音乐一年级下册
- 2024-2025版新教材高中化学 第1章 第1节 第1课时 物质的分类及物质的转化教学设计 新人教版必修第一册
- 七年级信息技术 8.3制作基本动画教学设计 人教新课标版
- 统计学培训课件
- 财政投资评审咨询服务预算和结算评审项目 投标方案(技术方案)
- 细胞制备中心建设与管理规范
- 商业空间设计(高职环境艺术设计专业和室内设计专业)全套教学课件
- 2024公路工程岩石试验规程
- 幼儿园课件:《父爱如山》
- 四川乡村振兴文旅策划方案-全面推进农业与旅游、教育、文化、健康养老等多产业带深度融合
- 2024年上海杨浦区社区工作者招聘笔试冲刺题(带答案解析)
- 个人医保代办委托书
- 2023年-2024年新《管理学原理》考试题库(含答案)
- 家长会培养孩子正确使用电子设备的习惯
- 提高幼儿学习能力
评论
0/150
提交评论