Minitab系统相关和回归分析(共39页).ppt_第1页
Minitab系统相关和回归分析(共39页).ppt_第2页
Minitab系统相关和回归分析(共39页).ppt_第3页
Minitab系统相关和回归分析(共39页).ppt_第4页
Minitab系统相关和回归分析(共39页).ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1(分析阶段)(分析阶段)(ZTE-GB402-V1.5)(ZTE-GB402-V1.5)相关和回归分析相关和回归分析 2主要内容主要内容1. 1. 相关分析相关分析2. 2. 回归分析回归分析 3q 学习目的学习目的变量(X1)与变量(X2)间或X与Y间 -有多少相关性 相关分析相关分析- -变量间关系式的推测 回归分析回归分析 它们之间有关系吗它们之间有关系吗? ? 有多强的关系有多强的关系? ? 有什么样的关系式有什么样的关系式? ? 机动车的数量 vs 交通事故发生率l 网板厚度 vs 焊膏厚度 41. 1. 相关关系是相关关系是? ?相关关系可以用数据来看出两个变量(Y与X,或两个

2、X)间紧密程度如何.两者之间关系的强度通过相关系数(r)可以计数化.(Minitab使用Pearson product moment 相关系数) -1.0-1.0 0 0 +1.0+1.0 负的相关系负的相关系 正的相关关系正的相关关系r 弱相关关系弱相关关系 决定点决定点 5r值值 r 接近 -1 r 接近 +1(+) 正的相关关系() 负的相关关系接近0时几乎没有相关关系相关系数的性质相关系数的性质为调查相关关系,需要数据构造为成对的2个变量数据 622)()()(yyxxyyxxriiii相关系数相关系数( (Correlation Coefficient)Correlation Coe

3、fficient) 一般表示为 (总体的相关关系),其范围是 1 1. 一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从 如下公式得出且范围是 -1 r 1 . 一般样本大小一般样本大小(30(30个以上个以上) )为基准为基准 如果 |r| 0.80 时具有强的相关关系 如果 0.3 |r| 0.80 时具有弱的相关关系. 如果 |r| Basic Statistics Stat Basic Statistics CorrelationCorrelation从上面点来看从上面点来看, ,可以猜可以猜测有强的相关关系测有强的相关关系 12分析结果根据分析结果根据 刮刀压力和焊膏

4、厚度的相关系数为刮刀压力和焊膏厚度的相关系数为r = 0.955,r = 0.955,可看出具有强的负相关可看出具有强的负相关. .从上述结果可以得出从上述结果可以得出: :为了保证焊膏厚度符合要求为了保证焊膏厚度符合要求. .必须监控刮刀的压力必须监控刮刀的压力. . q 统计分析统计分析q 结果解释结果解释 13事例分析事例分析下面给出下面给出13家上市公司的每股账面价值和每股红利,以家上市公司的每股账面价值和每股红利,以1.账面价值作为横轴,画散点图账面价值作为横轴,画散点图2.计算相关系数并解释计算相关系数并解释公司名称账面价值红利海尔22.442.40中兴23.542.98深科技22

5、.092.06深发展14.481.09清华同方20.731.96上海一汽19.251.55第一铅笔20.732.16陕西旅游26.431.60云南白药12.140.8粤电力23.311.94北大方正16.233.00深彩虹18.051.80咸阳偏转12.451.21 14从散点图我们可以看出什么?从散点图我们可以看出什么?相关系数可以看出什么?相关系数可以看出什么? 15通过它我们可以知道哪个输入对输出值通过它我们可以知道哪个输入对输出值 有多少影响有多少影响? ?为了得到想要的输出值为了得到想要的输出值, , 我们应按什么水我们应按什么水 平管理平管理X X的规格的规格回归回归寻找寻找“Y”

6、与与“X”关系的方法关系的方法什么是回归?什么是回归?描述“ Y”与“X”关系的数学方法 创建过程的“模型”。2. 2. 回归分析回归分析 16 相关是告诉关系的程度相关是告诉关系的程度, ,回归分析是找出回归分析是找出Y=F(X)Y=F(X)的函数关系式的函数关系式 回归分析的种类回归分析的种类 单纯回归模型:独立变量为一个 多重回归模型:独立变量为两个以上例 Y = a + bx1 + cx2 + dx3 单纯线性回归模型:设定直线关系后分析例 Y = a + bx 曲线回归模型 : 设定曲线关系后分析例 Y = a + bx + cx2 + dx3 Y = a bx 17单纯线性回归单纯

7、线性回归回归分析的阶段回归分析的阶段Data Data 收集收集用散点图确认关系用散点图确认关系用最小二乘法用最小二乘法推断总体推断总体进行方差分析进行方差分析画直线画直线( (Line Fitting)Line Fitting)分析残差分析残差此章的因子为一个此章的因子为一个, ,因子和输出值因子和输出值( (Y)Y)的关系为直线关系的单纯线性的关系为直线关系的单纯线性回归回归( (Simple Linear Regression)Simple Linear Regression) 18通过样本推测的直线通过样本推测的直线未知的真实直线未知的真实直线 Y Yi i = = + + x xi

8、i + + i i ( (i i = 1,., = 1,., n n) ) i i 是相互独立的 遵守N(0, 2) 的概率变量单纯线性回归模型单纯线性回归模型bxayxxy/i ie ei i( (x xi i, y, yi i) )x xy y在这里在这里, , i i iid N(0, iid N(0,2 2) )ModelModel定义定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示的方法 19将误差平方和最小化的推断方法,找出将残差平方最小化的直线. 420 410 400 390 380 370 360 350 340 330 320 350 400 450 独

9、立变量独立变量 从属变量最小平方和的单纯回归最小平方和的单纯回归单纯回归直线单纯回归直线与回归直线的与回归直线的差异差异( (误差误差) )直线是以直线是以“最小平方和推断法最小平方和推断法( (least square estimation)”least square estimation)”的的原则画出的原则画出的. .从资料的点到直线从资料的点到直线的距离的平方和最小化的距离的平方和最小化. . 20e eb bScatter Plot Y vs.X with Fitted LineScatter Plot Y vs.X with Fitted LineY = a + bXY = a +

10、 bX直线的方程式是直线的方程式是 Y = a +bXY = a +bX a a是是 常数常数, b, b是斜率是斜率. . “ “拟合线拟合线”是包括实际点和直线的是包括实际点和直线的平平 方差的和最小化后形成的直线方差的和最小化后形成的直线. . 实际资料的点和直线的差异称为实际资料的点和直线的差异称为 残差残差( (residuals(e).residuals(e).拟合线拟合线, ,回归方程式构造回归方程式构造 21残差(e)是对误差的最佳推断值,是实际结果值和回归方程式推测的最佳值间的差异.iy ie iy 残差 : 实际观测值(yi )和推测值 的差),.1(niyyeiii)(i

11、y残差越小推断的回归式更能说明实际结果,残差是误差的最好的推断值.残差按大小排列或按资料的顺序排列时,它们以“0”为轴相对称,并且不能存在特别的倾向. 22大家用MINITAB对上述数据进行回归分析.打开打开 : : A A1313. .mtw.mtw.下面是对硅胶强度有重要影响的SiO2使用量的关系的分析数据.事例分析事例分析 23Graph Graph PlotPlot从散点图看似乎有一从散点图看似乎有一定相关性定相关性!那么要进一步分析有那么要进一步分析有多少相关性多少相关性. 24Stat Regression Regression回归方程式回归方程式方差分析方差分析 25s:残差(误

12、差)的标准差。残差为观测值预测值。换句话说,指观 测点至回归方程式中描述的拟合线的距离。(对于优秀的模型, 此值应较小) s = MS(error)1/2R-Sq:由拟合线能够“ 解释”的总变差的百分数。由“ X”解释的变差。 (对于优秀的模型,此值应较大)R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整,它将包括 模型中的项数与观测值的个数进行对比 其中 n = 观测值数量 p =模型中项数,包括常数判断的方法判断的方法R adjRnn p21211() New 26“ X” 变量的变量的p值值 - 速度速度 Ho: 斜率= 0 H1: 斜率 = 0或者,另一种表达方式: Ho

13、: “ X” 不显著 H1: “ X” 显著常数常数的的p-值值H0:直线通过原点(0,0) (0硬度=0使用量) H1:直线不通过原点(0,0)结果判断结果判断R2越大,模型对工序模拟得越好越大,模型对工序模拟得越好New 27SSregression:由模型中的“ X” 解释变量“ Y”的变动 每一X值对应的模型预测值和Y的总平均值之 差的平方和。SSerror:未被解释未被解释的“Y”的变差。每个数据点的Y观测 值和该数据点Y的预测值之差的平方和。值 越小越好。SStotal:Y值相对其平均值的总变差。结果判断结果判断回归项(的SS 和 MS) 应比误差项的 (SS 和 MS)大通过查看

14、通过查看R-Sq, R-Sq(adj),s和和p值来评估模型值来评估模型p-值应值应 Regression Stat Regression Fitted Line Plot(Fitted Line Plot(拟合线拟合线) )R-sqR-sq值称为决定系数值称为决定系数, ,用用R R2 2 表示表示, ,范围是范围是0 0 R R2 2 1 ,1 ,R R2 2 越接近越接近 1 1时可以说明越接时可以说明越接近回归线近回归线. . 29Stat Regression Stat Regression Fitted Line PlotFitted Line Plot 残差分析残差分析Stora

15、ge OprionStorage Oprion中选择中选择ResidualResidual和和 FitsFits时时, ,可可得出如下数据得出如下数据. . 30Stat Regression Stat Regression Residual Plots(Residual Plots(残差图表残差图表) )残差具有多少正态性残差具有多少正态性条状图是钟型的曲线吗条状图是钟型的曲线吗? ?要无视要无视(30)(30)以下的资料以下的资料. .个别残差能看出多少倾个别残差能看出多少倾向向? ?或异常点或异常点? ?是否没有倾向是否没有倾向, ,对对“0”“0”是随机的是随机的? ? 31回归分析结

16、果解释回归分析结果解释 SiO2的使用量(X)与强度(Y)间的推断回归式是 强度强度( (Y) = 3.07+6.9 Y) = 3.07+6.9 SiOSiO2 2使用量使用量( (X)X) . 且两个变量回归系数为72%,可以说具有强的关系. (使用Adj. R-sq) 即,用上述回归直线可以说明的变动量为72%. 观察方差分析表 32回归相关警告回归相关警告 - - 图表图表 ! !R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%R-Sq. 66.2%对4个不同的资料群从基本统计结果来

17、看似乎一样,但期间很明显有差异.总是要用一种以上的方法来看总是要用一种以上的方法来看 ! !不要忘记忆原始资料不要忘记忆原始资料( (raw data)! raw data)! 画散点图画散点图! 33相关与回归的概要相关与回归的概要 相关分析可以作为非常有用的工具活用于实际生活中.相关关系是看出两个连续型变量间相关性的尺度 假定因果关系时需要更加注意. 回归模型将变量间的关系显示为线型或非线型函数.回归分析可以从回归式预测期望值. 34您相信我们的家电所占据的展示厅面积的大小会影响销您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去售量。您已经收集了过去12个月内,多个零

18、售点销售量个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否据,看占地面积是否确实确实与年销售量存在某种关系。与年销售量存在某种关系。应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。 ($K) (平方英尺)New 35分析阶段总结分析阶段总结q如果我们的数据量比较大,采集数据非常容易时,我们可如果我们的数据量比较大,采集数据非常容易时,我们可 以使用描述型的统计工具进行分析。以使用描述型的统计工具进行分析。 1.如果想知

19、道变量的分布形状、平均值的位置、离散程度、倾斜度、如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、 峰态等具体的统计信息,可以用峰态等具体的统计信息,可以用Display DescriptiveDisplay Descriptive StatisticsStatistics 工具来分析工具来分析. . 2. 2.如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗 略信息时,我们可以用略信息时,我们可以用HistogramHistogram、 Multiple DotploMultiple Dotplot t等工具分析等

20、工具分析. . 3.3.如果我们要比较两个变量或者想知道在不同如果我们要比较两个变量或者想知道在不同“条件条件”下变量发生什么下变量发生什么 样的变化时,我们可以用样的变化时,我们可以用Box plotBox plot、 Multiple DotploMultiple Dotplot t工具来分析工具来分析. . New 36 4.如果我们想知道变量之间的相互关系时,可以使用如果我们想知道变量之间的相互关系时,可以使用Scatter plotScatter plot 、 Marginal plotMarginal plot (两个变量之间的关系)和两个变量之间的关系)和 Matrix plot

21、 Matrix plot(多个变量之多个变量之 间的相互作用)间的相互作用). . 5. 5.如果我们想知道随着时间变化,变量怎样变化时可以使用如果我们想知道随着时间变化,变量怎样变化时可以使用Time series Time series plotplot进行分析进行分析. . 6.6.如果我们要知道多个输入变量(如果我们要知道多个输入变量(X X)对输出变量(对输出变量(Y)Y)的影响程度,可以的影响程度,可以 使用使用Multi-Vari ChartMulti-Vari Chart、Main Effects PlotMain Effects Plot进行分析进行分析. . 7. 7.如果

22、我们要知道不良品如果我们要知道不良品, ,缺陷数缺陷数, ,争议点争议点, ,事故的现象或原因等集中在哪事故的现象或原因等集中在哪 些方面的时候,可以使用些方面的时候,可以使用Pareto chart、 Pie chart进行分析进行分析. New 37q如果我们的数据量比较小,采集数据非常难,我们可以使如果我们的数据量比较小,采集数据非常难,我们可以使 用假设检验工具对用假设检验工具对均值均值进行分析。进行分析。 一、我们涉及的数据是连续性的数据时一、我们涉及的数据是连续性的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差如果我们想知道一个变量跟一个基准值是否在统计

23、意义上有显著性差 异的时候(也就是判断这个变量是否发生了异常原因的波动),可以异的时候(也就是判断这个变量是否发生了异常原因的波动),可以 使用使用1 1 sample tsample t工具分析工具分析. . 2. 2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性 差异的时候,可以使用差异的时候,可以使用2 sample t2 sample t、 Paired t Paired t工具分析工具分析. . 3.3.如果我们要比较多个变量或者一个变量在如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差多个水平下是否有显著性差 异时异时,可以用,可以用ANOVAANOVA工具来分析工具来分析. . New 38二、我们涉及的数据是离散型的数据时二、我们涉及的数据是离散型的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显如果我们想知道一个变量跟一个基准值是否在统计意义上有显 著性差著性差 异

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论