六西格玛统计工具介绍课件_第1页
六西格玛统计工具介绍课件_第2页
六西格玛统计工具介绍课件_第3页
六西格玛统计工具介绍课件_第4页
六西格玛统计工具介绍课件_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

六西格玛统计工具介绍(二)——2014年2月六西格玛统计工具介绍(二)——2014年2月精益六西格玛理论体系全景图客户流程描述控制计划测量系统控制过程能力分析多变量分析实验设计VoC分析失效模式分析流程图(I/O)因果矩阵统计过程控制定性分析定量分析头脑风暴+KJ失效树鱼骨图Why-Why分析PFMEA对标分析访谈现场调研流程观察……回归分析软件使用项目管理精益六西格玛意识统计基础精益工具基本图表精益六西格玛持续改进体系精益六西格玛推行综合管理精益六西格玛理论体系全景图客户流程描述控制计划测量系统过程能课程大纲假设检验概述相关与回归课程大纲假设检验概述统计基础-数据类型计数型数据(离散型数据,属性型数据):通常表示事物的分类不良品数量/不良率缺陷品数量/缺陷率机器A,机器B,机器C白班/中班/夜班计量型数据(连续型数据):通常是通过测量仪器测量得到的数据压力时间长度重量统计基础-数据类型计数型数据(离散型数据,属性型数据):通常目录假设检验相关基础概念总体参数及样本统计量推定置信区间假设检验介绍目的与意义假设检验概念介绍假设检验原理假设检验步骤假设检验常见路径双样本T与配对T的区别讨论及问答目录假设检验相关基础概念假设检验相关基础概念总体参数与样本统计量s=样本标准差X=样本平均值

参数

估计统计量

=总体平均值=总体标准差抽样(Sampling)AABDDDCCCCBAAAAAAABBBBBBCCCCCCDDDDDDD总体标本假设检验相关基础概念总体参数与样本统计量s=样本标准差X=估计的概念点估计:通过抽样用一个具体的值估计总体的参数举例:通过抽样调查中秋月饼的保质期是3个月点估计的种类:平均的估计、标准差、方差的估计、比率的估计等区间估计:通过抽样用一个具体的值估计总体的参数举例:通过抽样调查中秋的月饼的保质期是1-6个月估计的概念点估计:通过抽样用一个具体的值估计总体的参数置信区间置信区间的概念(ConfidenceInterval)误差是α,相同样本量的样本重复抽样测量样本中存在实际总体参数的可能性的区间,即100(1-α)%置信水平(ConfidenceLevel)是指区间估计时,能够包含总体参数的能力水平,即1-α。=0.5(50%)=0.1(10%)信赖水准信赖区间误差置信区间置信区间的概念(ConfidenceInterva置信区间90%的置信区间举例如下图如下图总体平均为μ,连续抽取10个样本,其中有一个样本不包含总体平均95%置信区间的解释:大约100个置信区间中有95个会包含总体参数,或者我们有95%的把握确定总体参数在置信区间内通常我们计算95%的置信区间

总体的平均样本

1样本

2

样本

10μ置信区间90%的置信区间举例如下图总体的平均样本1μ置信区间置信区间的计算通用公式:置信区间C.I.=统计量±K*S(标准偏差)统计量=平均值、方差、Cp等K=统计分布常数正态分布的置信区间公式(σ知道的时候):样本的置信区间公式(σ不知道,只能计算S):样本的平均遵循t分布置信区间置信区间的计算置信区间Minitab中置信区间的计算这些都可以计算出置信区间置信区间Minitab中置信区间的计算这些都可以计算出置信区假设检验假设检验的目的假设检验是对差异较小的情形进行差异性比较,从而通过数据作出客观的判断。是为了解决选择的困难性假设检验的意义用统计的方法,通过数据进行客观的判断把我决策的风险,提高决策水准假设检验是我们政府部门最需要的工具之一。假设检验假设检验的目的假设检验假设检验的概念对观测的样本资料分析后对总体差异的估计是作出选择与否判断的统计性方法假设检验术语假设设定:对要进行判断的情况进行假设设定H0

-NullHypothesis:说明没有变化或者差异的设定Ha-AlternativeHypothesis:说明有变化或者差异的设定假设设定练习:为了确认小学生男女身高是否有差异为了确认小学生男生比女生高为了确认小学生身高和性别是否有相关性假设检验假设检验的概念假设检验假设检验的种类单边检验One-sidedhypothesis双边检验Two-sidedhypothesis假设检验假设检验的种类假设检验的两种错误第1种

错误

(TypeⅠError,α-风险)不顾NullHypothesis真实.NullHypothesis放弃的错误把良品判断为不良的时候(误判)既,可以说生产者危险1-α就是置信区间第2种错误(TypeⅡError,β-风险):

不顾NullHypothesis假的.NullHypothesis接受的错误不良品当成良品的时候(漏失)即,可以说顾客危险1-β是检定力,即检出能力假设检验的两种错误假设检验的两种错误说明你的判定接受Ho真实情况Ho

对Ho

错I类错误

(α-风险)II类错误(β-风险)正确正确拒绝Ho假设检验的两种错误说明你的判定接受Ho真Ho对Ho错I假设检验的两种错误举例陪审团的判决他无罪事实实际清白他有罪实际有罪正确正确清白的人进监狱罪犯逍遥法外I类错误

(α-风险)后果:II类错误(β-风险)后果:假设检验的两种错误举例陪审团的判决他无罪事实实际清白他有罪实假设检验假设检验原理假设检验其实是个比较的过程两种假设的比较,是A还是B?我们总是用H0

来说话我们的初衷多数时候是想看区别和差异,所以我们总是想放弃H0

放弃H0

的决策不会总是正确的,任何决定都会有风险但风险的高低及严重度,会影响我们决策于是我们很急切的指导,我们做出放弃H0的决策的风险有多大?于是我们通过抽样数据进行运算,算出放弃H0的决策的风险的大小就是我们长见的P值(P-value)假设检验假设检验原理假设检验假设检验原理(续)知道了做出放弃H0的决策的风险的大小,那么风险小于多少时我们才敢于做出放弃H0的决策呢?于是我们需要提前设定一个风险判断标准α而根据我们承受力的大小及后果的严重度,这个标准各有不同,0.01、0.05、0.1等但我们通常设定α为0.05这也就是我们通常拿P值和0.05进行大小比较的原因。如果P>0.05接受H0;P<0.05放弃H0(PLowH0Go)理解练习为什么正态检验,等方差检验P要大于0.05?假设检验假设检验原理(续)假设检验假设检验原理(续)α(SignificanceLevel)置信水平:风险判断标准P-value做出放弃H0的决策犯错误的最大风险值

p值

Ho选择域Ho弃却域

Ho选择域Ho弃却域

p值P值<α放弃H0认为有差异或影响

P值>α接受H0

不能做决策

,不能说有差异TPT

αTPT

α假设检验假设检验原理(续)p值Ho选择域Ho弃却域假设检验假设检验步骤假设

设定检定统计量选择留意水准

决定p-value计算(弃却域

,检定统计量

计算)判定(统计结论)p-value<

Ho弃却实际结论遵循假设检验路径图假设检验假设检验步骤假设设定检定统计量选择留意水准决Stat-Tables-Chi-squareTestStat-BasicStats-2proportionStat-BasicStats-1proportionHo:m1=m2H1:m1¹m2Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差选择按钮”选择Ho:M1=M(中值)H1:M1¹M(中值)Stat-Nonparametric-1Sample-Sign或者Stat-Nonparametric-1Sample-Wilcoxon数据形态检验假设检定One-wayANOVA计数型数据Chi-square检定Ho:m1=m2=m3=...H1:至少一个是不一样Stat-Anova-One-wayHo:跟随正态分布,H1:不是正态分布Stat-BasicStat-NormalityTest置信水平

=0.05时候:P-值>0.05时

Ho接受P-值<0.05时

Ho放弃正态数据标准偏差的置信区间一个总体两个以上的总体2Samplet(方差相等)2Samplet(方差不相等)

1Samplet或者1SampleZHo:m1=m(平均值)H1:m1¹m(平均值)Stat-BasicStats-1Sample-t(s不知道时候)1SampleZ(s知道时候)1Sample-Sign或者

1Sample-WilcoxonMann-WhitneyTest两个以上的总体两个母集团1-Proportion2-Proportion一个总体两个总体两个以上的总体非正态数据等

方差YesNoKruskal-WallisTest一个总体一个总体两个以上的总体Ho:M1=M2H1:M1¹M2Stat-Nonparametric-Mann-WhitneyHo:M1=M2=M3=...H1:至少一个是不一样Stat-Nonparametric-Kruskal-WallisHo:m1=m2H1:m1¹m2Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差选择按钮”

不选择TestforEqualVariances(Levene’sTest)TestforEqualVariances(FTestorBartlett’sTest)Ho:s1=s2=s3=...H1:至少有一个不一样Stat-Anova-TestforEqualVariances两个总体比较的时候

用F-testHo:s1=s(标准差)H1:s1¹s(标准差)标准差的置信区间使用Minitab路径Stat-BasicStatistics-DisplayDescriptiveStats计量型数据数据稳定性研究(控制图)配对T(PairedT)Ho:D=0(差值)H1:D¹0(差值)要对差值进行正态性检验Minitab路径Stat-BasicStatistics–Pairedttest(配对T)假设检验-常用路径图Stat-Tables-Chi-squareTest假设检验-单样本T检验假设检验-单样本T检验“单样本t检验”解决什么问题?典型的问题为:

“我们抽取了新坐席员Bob的30通电话录音数据,想知道坐席员A的话后整理时长的平均值是否刚好等于考核要求的25秒?”当然问题也可以是“Bob的平均整理时长大于25秒吗?”或者“Bob的平均整理时长刚好小于25秒吗?”“单样本t检验”解决什么问题?典型的问题为:建立零假设和备选假设:

平均整理时间等于目标值 平均整理时间不等于目标值决定显著性水平:

=0.05(5%)随机抽取30通电话的整理时间数据作为样本选取适合方法计算P值(参考下页详细步骤)依据P值结果做出结论按照以下步骤完成如果P值大于或等于0.05,不能推翻零假设H0如果P值小于a,推翻零假设H0建立零假设和备选假设:按照以下步骤完成如果P值大于或等于0.选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性样本量不足,n<25样本量足够多,n>25不是正态分布是正态分布单样本T检验单样本T检验单样本T检验先把数据转换为正态后再使用单样本T检验检验数据正态性数据不稳定应先解决稳定性问题NOYES算出P值样本数据n个选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性打开文件1-MakingComparison.JMP分析路线图–单样本T打开文件分析路线图–单样本T步骤1:检验稳定性步骤1:检验稳定性步骤1:检验稳定性我们得到什么结论?是否有任何明显的变化趋势或模式,足以证明数据并非来自单一的总体/流程?步骤1:检验稳定性我们得到什么结论?是否有任何明显的变化步骤2:检验正态性1234步骤2:检验正态性1234步骤2:检验正态性P值<0.05,数据非正态P值>0.05,数据是正态步骤2:检验正态性P值<0.05,数据非正态步骤3:检验均值Ho:均值(Bob)=25Ha:均值(Bob)=25我们得到什么结论?无法推翻零假设步骤3:检验均值Ho:均值(Bob)=25我结论的陈述由于p值大于临界置信水平(本例中P=0.3468>0.05),或者说,由于均值的置信区间包含了目标值,我们可以作出下述结论:我们没有足够的证据拒绝零假设。是否可以说零假设是正确的(Bob的均值=25秒)?不!但是,我们通常在假定零假设是正确的情况下执行操作。结论的陈述由于p值大于临界置信水平(本例中P=0.3468>延伸…如果问题是:

“Bob的平均整理时长大于25秒吗?”或者“Bob的平均整理时长刚好小于25秒吗?”如何构造零假设和备选假设?你的结论是什么?如何利用刚才的结果?延伸…如果问题是:假设检验-双样本t检验假设检验-双样本t检验“双样本t检验”解决什么问题?典型的问题为:“我们各抽取了坐席员Bob和Jane的30通电话样本,想知道坐席员A和B的平均话后整理时长是否相等?”当然问题也可以是“Bob的平均整理时长大于Jane的平均整理时长吗?”或者“Bob的平均整理时长小于Jane的平均整理时长吗?”“双样本t检验”解决什么问题?典型的问题为:建立零假设和备选假设:

Bob的平均值等于Jane的平均值

Bob的平均值不等于Jane的平均值决定显著性水平:

=0.05(5%)随机抽取Bob和Jane各30通电话的整理时间数据作为样本选取适合方法计算P值(参考下页详细步骤)依据P值结果做出结论按照以下步骤完成如果P值大于或等于0.05,不能推翻零假设H0如果P值小于a,推翻零假设H0JaneBob:1HJaneBob:0Hm¹mm=m建立零假设和备选假设:按照以下步骤完成如果P值大于或等于0.选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性样本量不足,n<25不是正态分布是正态分布数据变换为正态或非参数检验双样本T检验检验数据正态性检验方差是否相等数据不稳定应先解决稳定性问题NOYES算出P值样本数据n个等方差不等方差等方差不等方差双样本T检验双样本T检验*双样本T检验*双样本T检验双样本T检验*数据变换为正态或非参数检验方差相等双样本T的公式方差不等双样本T的公式样本量足够多,n>25选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性样本量在获取数据并试图得出一些陈述之前,我们需要确定进行这种检验数要多少数据.记住,我们有一些基于估计值的抽样“经验方法RulesofThumb’并不要求Bob和Jane的两组样本量一定是相同的注意:我们将在以后的模块中讲解样本量的计算样本量在获取数据并试图得出一些陈述之前,我们需要确定进行这工具或统计

最小样本量平均值 5-10

标准偏差

25-30

有缺陷的比例(P) 100并且nP>=5

直方图或帕累托图

50

散点图 25

控制图 20不同工具的样本量通常:连续数据:>30属性数据>100工具或统计 最小样本量不同工具的样本量通常步骤1:检验稳定性步骤1:检验稳定性步骤1:检验稳定性步骤1:检验稳定性步骤2:检验正态性123步骤2:检验正态性123步骤2:检验正态性步骤2:检验正态性步骤2:检验正态性数据是否为正态分布?小P-Value(<.05),数据为非正态分布注意样本大小的问題步骤2:检验正态性数据是否为正态分布?处理数据JMP喜欢数据按栏输入我们希望下列表格结构:测量的数据至于单独的一栏“标识符”在一栏在我们的范例中,我们希望有下列栏:坐席员Operator(用Bob和Jane作为值)话后整理时长Time(用所用Bob和Jane的通话时间值)我们显然希望这些数据按照测量值和答复电话的人之间适当的关系安排.JMP能帮助我们完成这项任务…处理数据JMP喜欢数据按栏输入堆叠数据——为下一步进行数据格式转换数据变换堆叠数据——为下一步进行数据格式转换数据变换步骤3:等方差检验步骤3:等方差检验Ho:s(Bob)=s(Jane)Ha:s(Bob)=s(Jane)步骤3:等方差检验我们得到什么结论?P-值!EqualVarianceNotequalvariance方差不等时的解决方法Ho:s(Bob)=s(Jane)步骤3:等方步骤4:均值检验步骤4:均值检验Ho:Mean(Bob)=Mean(Jane)Ha:Mean(Bob)=Mean(Jane)步骤4:均值检验我们得到什么结论?Ho:Mean(Bob)=Mean(Jane)步骤结论的陈述由于P值小于临界置信水平(本例中P=0.0157<0.05,我们可以作出下述结论:我们有足够的证据拒绝零假设如果问题是:

“Bob的平均整理时长大于Jane的平均整理时长吗?”或者“Bob的平均整理时长小于Jane的平均整理时长吗?”结论的陈述由于P值小于临界置信水平(本例中P=0.0157<假设检验–多样本比较假设检验–多样本比较假设检验用于比较2个或更多数据样本的均值ANOVA检验陈述的原假设(nullhypothesis)是所有样本的均值都相同Ho:

a=b=c=d=eANOVA检验陈述的备择假设(alternatehypothesis)是至少有一个均值是不同的Ha:至少一对

是不同的方差分析ANOVA假设检验用于比较2个或更多数据样本的均值方差分析ANOV“方差分析(ANOVA)”解决什么问题?典型的问题为:“我们各抽取了坐席员Bob,Jane和Walt的各30通电话样本,想知道坐席员的平均话后整理时长是否相等?”“方差分析(ANOVA)”解决什么问题?典型的问题为:建立零假设和备选假设:Ho:

Bob=Jane=san三个坐席员的平均值彼此相等Ha:至少一对

是不同的至少一个坐席员得平均值和其他人不同决定显著性水平:

=0.05(5%)随机抽取Bob和Jane各30通电话的整理时间数据作为样本选取适合方法计算P值(参考下页详细步骤)依据P值结果做出结论按照以下步骤完成如果P值大于或等于0.05,不能推翻零假设H0如果P值小于a,推翻零假设H0建立零假设和备选假设:按照以下步骤完成如果P值大于或等于0.选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性样本量不足,n<25不是正态分布是正态分布数据变换为正态或非参数检验方差分析ANOVA检验数据正态性检验方差是否相等数据不稳定应先解决稳定性问题NOYES算出P值样本数据n个等方差不等方差等方差不等方差方差分析ANOVAWelch方差分析Welch方差分析方差分析ANOVAWelch方差分析数据变换为正态或非参数检验样本量足够多,n>25选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性步骤1

&2——不再重复步骤1:稳定性检验分别使用控制图检验三名坐席员样本数据的稳定性步骤2:正态性检验分别使用分布图检验三名坐席员样本数据的正态性步骤1&2——不再重复步骤1:稳定性检验堆叠数据数据变换堆叠数据数据变换步骤3:等方差检验步骤3:等方差检验Ho:s(Bob)=s(Jane)=s(Walt)Ha:至少一对S不相等步骤3:等方差检验我们得到什么结论?P-值!Ho:s(Bob)=s(Jane)=s(Wa步骤4:均值检验步骤4:均值检验Ho:Mean(Bob)=Mean(Jane)=Mean(Jane)Ha:至少有一对均值不相等步骤4:均值检验我们得到什么结论?Ho:Mean(Bob)=Mean(Jane)=步骤4:均值检验从左侧圆环可以观察到相互之间是否相等步骤4:均值检验从左侧圆环可以观察到相互之间是否相等ANOVA:我们了解到什么?有一个操作员与其它操作员之间存在差异同样我们可以从菱形图看到,Walt用的时间比其它两位操作员用的长一些现在我们需要问“为什么?”致使长于整体周期的根源是CWalt么?你将如何找到答案?ANOVA:我们了解到什么?有一个操作员与其它操作员之间假设检验-非正态(非参数检验)假设检验-非正态(非参数检验)Mann-Whitney检验查看工作表

2-Non-NormalShipping

中的数据我们希望了解在周末和工作天期间发货的时间是否有差异遵循分析路径图研究稳定性研究形状研究散布(离散程度)Mann-Whitney检验查看工作表2-Non-No研究稳定性我们得到什么结论?研究稳定性我们得到什么结论?研究正态性我们得到什么结论?研究正态性我们得到什么结论?我们得到什么结论?注意你一定要堆栈数据.研究等方差性我们得到什么结论?注意你一定要堆栈数据.研究等方差性p-值!P值不低,所以我们说,没有差异.Wilcoxon/KruskalWallis检验p-值!Wilcoxon/KruskalWallis检p-值!P值不低,所以我们说,没有差异.中位数检验p-值!中位数检验总结全面的数据分析包括查看稳定性,形状,散布(离散程度),居中(中心趋势)和相关性T-检验(单样本,双样本)检查居中,ANOVA(2个或2个以上样本)检查居中等方差检验检查离散程度检验关系是下一步如要检查的卡方检验总结全面的数据分析包括查看稳定性,形状,散布(离散程度),居比例数据检验比例数据检验单比例检验例:缺陷品率3单比例检验.jmp以前,合同审批发现的不合格率为12%对过程进行了变更。从新过程抽样300个产品,其中45个存在缺陷是不合格品请问:过程是否得到了改善单比例检验例:缺陷品率3单比例检验.jmp单比例检验步骤1.)

建立备选假设和零假设新过程产生12%或更多的的缺陷率新过程的缺陷率少于12%单比例检验步骤1.)建立备选假设和零假设新过程产生12%或单比例检验步骤2.)

决定显著性水平

a=0.053.)

随机抽取数据 抽样数量为300

发现有45个产品为缺陷品。单比例检验步骤2.)决定显著性水平b.)

决定显著性水平:a=0.05c.)

随机抽取数据:抽样数量为300,发现有45个为缺陷品。d.)

计算P值:分析>分布>检验概率单比例检验步骤b.)决定显著性水平:a=0.05单比例检验步骤e.)

比较P值和显著性水平:

P-value=0.9507 a=0.05 0.951>0.05f.)

结论:所以我们不能否定零假设,流程没有得到改善!单比例检验步骤e.)比较P值和显著性水平:f.)结论:所以我们不能否定卡方分析卡方分析检验相互关系:卡方检验当y和x都是属性数据,要检验相互关系时使用我们假设变量是独立的。Ho:数据是独立的(不相关)Ha:数据不独立(相关)如果p值<0.05,拒绝Ho还需要满足以下假定:数据是随机抽取的对于正交表中每个数据,期望的频次至少5(不要求每个观察的频次都必须至少为5)这些假定不要求抽样母体必须是哪种具体分布。检验相互关系:卡方检验当y和x都是属性数据,要检验相互关系卡方检验解决的典型实际问题一代理公司从美国四年制大学随机选择了2500个在校大学生发出调查表。他们想知道各学院(大学内的学院)录取学生时是否独立于性别。随后的表格是1820位的汇总情况。卡方检验解决的典型实际问题一代理公司从美国四年制大学随机选择学院工程营销教育总计性别男512357127996女215220389824总计7275775161820性别是否与学院有关?H0:学院与性别无关H1:学院与性别有关举例学院工程营销教育总计性别男512357127996女2152方法:使用列联表,假设所有数据都相互独立检验标准存在与卡方统计中iEiEi2)0(2-S=c这里:Oi=

每个结果的观察频率;Ei=当原假设为真时我们期望获得的频率。卡方统计方法:iEiEi2)0(2-S=c这里:卡方统计实际的数据4卡方分析.jmp期望频率的计算学院工程商务教育总计性别男512357127996女215220389824总计7275775161820实际的数据4卡方分析.jmp期望频率的计算学院工程商务397.851820(996)(727)x=计算出每个单元的期望频率,既假定零假设成立的条件下,这个单元格应当出现的频率对于每一个单元,期望频率值=列总数x行总数总数之和期望频率的计算学院工程营销教育总计性别男512357127996女215220389824总计7275775161820397.851820(996)(727)x=计算出每个单计算卡方值重点大的卡方值值代表着实际频率和期望频率之间的差异很大,这就意味着零假设游客能不正确273.08233.632)389-233.62(...315.762)357-315.76(397.852)512-397.85(2=+++=ci2)ii0(2EE-S=c卡方计算O:实际观察到的频率E:期望的频率计算卡方值重点大的卡方值值代表着实际频率和期望频率之间的差异273.082=c5.992=临界的c查卡方表,

=0.05,DF=2.临界2计算2c>c所以,我们否定零假设。因为比较计算的卡方和临界值这种查表的方法并不方便,更常使用的方法利用软件直接计算卡方值对应的P值(概率值)273.082=c5.992=临界的c查卡方表,=0.JMP软件计算P值用JMP建立列联表和P数值分析>以X拟合YP值JMP软件计算P值P值因为P值=0.000,小于

=0.05,我们将否定零假设,既学院招生与性别之间并不是独立的,观察马赛克图可以看到教育学院女生比例较高结论JMP输出因为P值=0.000,小于=0.05,我们将否定零假设JMP输出进一步扩展使用“对应分析”可以看到,图中相距比较近说明而这之间具有紧密关系,例如教育学院和女生而这相距很近,而工程学院和男生距离很近。说明教育女生比例高,工程男生比例高JMP输出进一步扩展使用“对应分析”可以看到,图中相距比较近卡方检验注释卡方检验是我们本周将学到的“较易分析”工具的一种,但它并不如其他假设检验那样“富有洞察力”属性数据的结果对于卡方检验,为了满足假设,期望频率必须至少为5如果该值小于5,将告警数据必须确保随机性注意其他隐藏的因子(X’s)卡方检验注释卡方检验是我们本周将学到的“较易分析”工具的一种范例:

贷款审批通过率JMP工作表结构我们的信用审批部处理小宗商业贷款申请。许多申请得到批准,但有一些被拒绝。部门经理猜想拒绝率可能与该申请是哪天被处理的有关。她的猜想正确吗?打开文件

5-LoanApproval.JMP

范例:

贷款审批通过率JMP工作表结构我们的信用审批部范例:

贷款审批通过率P值<0.05,表明贷款审批时间和通过与否存在显著相关性,本例中周五贷款通过率明显低于其他时间范例:

贷款审批通过率P值<0.05,表明贷款审批时间和范例:

贷款审批通过率对应分析图中周五和拒绝距离比较近范例:

贷款审批通过率对应分析图中周五和拒绝距离比较近星期五是否不寻常?第一次卡方检验趋向于显示星期五与其他工作日不同。我们将通过把星期一到星期四相加编为一组,按照通过/不通过计算数目,并与星期五的数据相比较。JMP工作表结构星期五是否不寻常?第一次卡方检验趋向于显示星期五与其他工作日星期五是否不寻常?P值<0.05,表明周五贷款通过率确实和其它天存在显著差别星期五是否不寻常?P值<0.05,表明周五贷款通过率确实和其其他几天呢?最后,我们不再分析星期五的数据,只分析星期一到星期四。我们试图发现剩下的几天之间是否有相互关系。JMP数据表结构其他几天呢?最后,我们不再分析星期五的数据,只分析星期一到星其他几天呢?较高的P值表示剩下的几天没有明显的相互关系。星期五才是我们要找的!其他几天呢?较高的P值表示剩下的几天没有明显的相互关系。星期还有哪些情况我能使用卡方检验?行政流程充满属性数据-例如:

职能: (Y) 和 (X)人力资源:

病假天数和员工或部门财会:

错误的费用报告数和员工或部门销售: 失去的销售额和帐户或区域或国家后勤: 迟到的交货次数和配送中心或国家呼叫中心:错过的客户电话数和公司人员或班次安装: 反复服务电话数和区域技术(fieldtech)采购: 订单的交货天数和供应商库存: 零件数和配送中心

如果你的数据成比例或百分比,将其转换为次数#还有哪些情况我能使用卡方检验?行政流程充满属性数据-例如:如实际意义明确问题“我关心吗?”P值可能显示统计上的意义样本容量越大,p值越小对非常大的样本容量而言,即使很小的差异或相互关系通常都比较显著在实际上这些细小的差异可能并不显著通过关注组间差异评估实际的显著性差异是否大到有所影响?如果是,那么在实际中这些差异就是显著的。既统计显著又实际显著的因子可以用于操作流程实际意义明确问题“我关心吗?”相关性分析与简单线性回归相关性分析与简单线性回归相关性从这张图我们可以看出什么?这些变量是否相关?相关性从这张图我们可以看出什么?相关性:它对我们意味着什么?当我们提到相关性时,我们怎么想?广告投入是否与销售量有关?资本的利用与定价是否有关?你认为奥运会溜冰项目两个裁判员之间有多大的相关性?为什么当我携带雨伞时,天色看起来都不会下雨呢?相关性:它对我们意味着什么?当我们提到相关性时,我们怎么想?相关性与回归分析当y和x都是连续数据,检验相互关系时使用假设变量不相关。Ho:数据独立(不相关)Ha:数据不独立(相关)如果p值<0.05,拒绝Ho相关性与回归分析当y和x都是连续数据,检验相互关系时使用X数据单一X多元XsY数据单一Y多元Ys多变量分析(注:此表和多变量图表不同)X数据离散连续Y数据离散连续卡方检验逻辑回归ANOVA均值/中位数检验回归分析X数据离散连续Y数据离散连续多元回归逻辑回归多元中位数检验2,3,4way...ANOVA逻辑回归多重何时使用相关性和回归分析X数据单一X多元XsY数据单一Y多元Ys相关定义:决定两个来自不同变量源的响应(或输出)之间线性关系的方法。也代表两个变量间的线性关联程度。由一个相关系数(R)来衡量两个变量间的联系强度,在这里-1R1。按照惯例,R

表示真实的系数,R表示我们的最佳估算。

相关定义:决定两个来自不同变量源的响应(或输出)之间线性关系R值取值范围从-1.0到+1.0,即-1R1,R值越接近+1或-1说明线性相关性越强R<0意味着一个负线性相关,即是Y随着X的增加而减少。R>0意味着一个正线性相关,即是Y随着X的增加而增加。R=-1意味着一个完全负线性关系R=1意味着一个完全正线性关系R=0意味着无线性关系。相关系数:RR值取值范围从-1.0到+1.0,即-1R11009080706050110100908070605040InputOutputR-Squared

=

0.359Y

=

25.7595

+

0.645418XModerate

Positive

Correlation弱的正相关强的正相关中等正相关弱的负相关强的负相关中等负相关散点图-图形展示关系100908070605011010090807060504R应该多大:如果你真想知道的话

…依样本大小,若所得的相关系数比表中的值大,则可视为“重要”或统计显著R应该多大:如果你真想知道的话…依样本大小,若所得的相关相关系数总的原则:

相关系数(r)>.80或者<-.80是强相关与其他的统计检验一样,相关性分析的有效性和洞察力与样本数量有关研究中包括越多的样本,可以界定的弱相关性在统计上就越显著P值用于确定统计的显著性相关系数总的原则:范例:JMP相关性打开项目文件6-CorrelationExample.JMP范例:JMP相关性打开项目文件6-CorrelatJMP范例–相关性Y和X有多大相关性?Y2和X2有多大相关性?JMP范例–相关性Y和X有多大相关性?JMP范例–输出Y和X显示了较高的、正的依赖关系,在10个样本情况下这在统计上是显著的P值小于0.05相关性系数为0.88JMP范例–输出Y和X显示了较高的、正的依赖关系,在1JMP范例–输出Y2和X2显示之间没有太强的相关性,10个样本情况下这在统计上是不显著的P值大于0.05我们需要更多的样本来估计相互关系!JMP范例–输出Y2和X2显示之间没有太强的相关性,1R=0意味着无线性关系。R=0并不意味着无关系,可能属于曲线或其他相关性YXR=0R=0意味着无线性关系。YXR=0相关分析的常见错误收集数据范围过窄外推法因果归属掩饰真正的相关或创造虚假的相关过多的集中在相关系数上相关分析的常见错误收集数据范围过窄收集的数据覆盖范围过窄X的范围越宽就会产生更佳的估算回归线。在窄范围内收集数据较宽范围的数据可提供一个较佳估算YXYX错误1:数据覆盖范围过窄收集的数据覆盖范围过窄X的范围越宽就会产生更佳的估算回归线数据范围内的关系在其他区域内不一定适用。在数据范围以外对相关性进行外推

错误2:外推法数据范围内的关系在其他区域内不一定适用。在数据范围以外对相关相关并不意味着因果,仅仅是两个变量间存在的关系。TotalNumberOfHospitalsInShenzhenNumberOfNewBornBabiesPerMonth错误3:因果归属相关并不意味着因果,仅仅是两个变量间存在的关系。Total数据实际上是来自不同的数据来源。掩饰真实的相关或创造虚假的相关+MachineA机器AMachineB机器BYX+++++++++错误4:曲解数据数据实际上是来自不同的数据来源。掩饰真实的相关或创造虚假的相过多的集中于相关系数

上图有相关系数R0.7错误5:过多的集中于R过多的集中于相关系数上图有相关系数R0.回归我们经常希望用一条直线来描述相关性这条直线的方程是什么?这条直线可以在多大程度上恰当描述相互关系?回归我们经常希望用一条直线来描述相关性回归分析定义:回归是确定一个响应变量(或输出)与一个或多个因变量(或输入)之间的统计关系的方法。回归分析

用于研究和模拟变量间的关系的统计技术简单线性回归

一个连续的Y和

一个连续的X之间的关系多元线性回归

一个连续的Y和

多于一个连续的X之间的关系

Y=ƒ(X1,X2,...Xn)其中:X1到Xn是因变量Y是响应变量回归分析定义:回归是确定一个响应变量(或输出)与一个或多个回归与相关回归分析回归分析建立关于因变量与响应变量之间关系的估计方程式(公式)。相关分析量化两个变量之间的线性关系的程度,即等式的适合性如何?vs回归与相关回归分析相关分析vs一般线性回归(SLR)数学模型 其中:Y=a+bX是预测(独立)变量是响应(非独立)变量是Y-轴上的截取值是斜率一般线性回归一般线性回归(SLR)数学模型 其中:Y=残差(或误差)由ei=Yi-(a+bXi)表示最适合的直线即是残差平方和最小的那条线。本方法假设X无误差ei²是最小值最小平方的方法残差(或误差)由ei=Yi-(a+R2=1表示回归等式与抽样数据完全吻合测定系数,R2是由回归线代表y中变异数量R2=SSRSSTSSR=Si(Yi-Y)2SSE=Si(Yi-Y)2SST=Si(Yi-Y)2SST=SSR+SSE

测定系数--R2定义R2=1表示回归等式与抽样数据完全吻合测定系数,R2是由回归分析–图形法打开文件7-Adsandsales.JMP回归分析–图形法回归–拟合直线图从上图我们可以看到当投入在广告上的费用增加时,销售量也增加这是直接(正)相关(r=+.877)的范例我们还能看到线性的等式和R平方值…回归–拟合直线图从上图我们可以看到当投入在广告上的费用增R平方:越大越好,说明回归方程有效性有多大,最大值为1调整R平方:与“R平方”值越接近越好均方根误差:越小越好,表明方程预测的误差大小回归分析-JMP输出说明回归方程的截距和销售额对广告投入都是有显著作用的R平方:越大越好,说明回归方程有效性有多大,最大值为1回归分回归分析-R2计算-R2决策系数R2是什么?在前面的范例中,R2

的值为76.8%,这表明:Y中76.8%的变异可以用这个模型表达Y中23.2%的变异由其他X变量、测量变异和噪声等组成。))1(n/SS())p(n/SS(1(adj)RTotalError2---=回归分析-R2计算-R2))1(n/SS())p(n回归分析-R2在只有一个输入变量的线性回归中,用r2

表示输出变异性能被输入解释的比例。在多元线性回归中,衡量方法是相似的,但被称为

“决定系数”R2。R2

是指输出的变异性可以被所有输入变量一起解释的比例,而不是可以被其中单个输入变量解释的比例。R2>80%,相关可能显著50%<R2<80%,需要判断R2<50%,相关可能不显著解释时,请使用可靠的判断回归分析-R2在只有一个输入变量的线性回归中,用r2表回归分析-R2R2

是由回归模型解释可变性的比例评估拟合性的有用方法(越大越好)R2

的值大,并不保证良好的拟合性!R2

的值小,并不表示变量不重要!用R2进行实际的判断是根据对流程和产品的分析,决定模型是否描述了足够的变异回归分析-R2R2是由回归模型解释可变性的比例回归分析的缺陷回归模型可用于内推法,但不能用于在数据范围外的外推法注意一些“X”值的影响注意异常值和坏值,但不要过快地把这些值从分析中去掉注意“胡乱”的相互关系或者错误的结论为了估计响应“Y”,需要知道预测变量“X”回归分析的缺陷回归模型可用于内推法,但不能用于在数据范围外的异常值的影响如果异常值是一个坏值,那么模型评估是错误的,而且误差被放大。然而,如果异常值是真实过程的一个值,它不应该被去掉。它是关于过程的数据的有用的一部分。参考你的日志和回归分析笔记以理解这一点分别评价有这一点和没有这一点的模型以判定其影响。

X=预测器Y=响应所发现的异常值对回归系数的影响是什么?异常值的影响如果异常值是一个坏值,那么模型评估是错误的,而且“X”值的影响在这个范例中:有影响的点是由于预测器X的值异常大评估数据,有和没有右边远处的那一点

X=预测器Y=响应没有这个有影响的点,这条线会呈什么样?“X”值的影响在这个范例中:X=预测器Y=响应没“X”值的影响如果在分析中,R2的值或者拟合斜率有较大的变化,该点的影响就太大。

X=预测器Y=响应“X”值的影响如果在分析中,R2的值或者拟合斜率有较大范例:拟合直线图比较有着相似的斜率,截距和R2的不同模型着眼于图,确认搞清统计信息的意义!范例:拟合直线图比较有着相似的斜率,截距和R2的不同模型着眼关于一座城市的数据显示当鹳的种群密度增加时,城市的人口也增加。鹳是否影响人口?01245

X=鸟的数量Y=城市人口1510

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论