统计学入门介绍2015_第1页
统计学入门介绍2015_第2页
统计学入门介绍2015_第3页
统计学入门介绍2015_第4页
统计学入门介绍2015_第5页
已阅读5页,还剩142页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程大纲一、何为统计学

1.1定义

1.2统计分析方法的类别

1.3统计学相关名词二、变量及其分布

2.1变量及类型

2.2正态分布

2.3其他常见分布

2.4中心极限定理1三、统计量及抽样分布

3.1何为统计量

3.2三大抽样分布四、参数估计

4.1点估计

4.2区间估计课程大纲五、图形分析

5.1直方图

5.2箱型图

5.3散点图

5.4时间序列图六、假设检验

6.1假设检验定义及原理

6.2均值检验2

6.3方差检验

6.4OneWayANOVA6.5TwoWayANOVA

6.6比例检验七、相关与回归

7.1相关分析

7.2回归分析何为统计学3何为统计学统计学定义以上所有例子,都要通过各种直接或间接的手段来搜集数据,都要利用相应方法来整理和分析数据,最后通过分析得到结论。4你可以借助统计说出你想要的结论,甚至撒下谎言你可以借助统计说明世界多奇妙样本总体抽样/实验推论统计学分析方法的类别5含义:大多以图表方式,简单计算等方式来对数据的分布、变化、趋势等进行描述的统计分析方法;特点:操作简单、直观有效含义:研究如何根据样本数据对统计总体特征做出以概率形式表述的推断;特点:一般需要建模,相对复杂;经典方法:估计、假设检验两大类统计分析方法描述统计方法推论统计方法一般来说,推论统计分析是在描述统计分析的基础上进行的,两种分析方法密不可分;统计学分析方法的类别描述统计与推论统计的联系:6统计名词总体:研究对象所有个体的集合样本:由总体中抽取部分个体所组成的集合一般n<30称为小样本,n≧30则称为大样本总体参数:表达总体特征的指标

统计量:表达样本特征的量数,也称样本统计量变量:统计学研究的对象,用数据衡量,根据其特性可分为:计量值(连续型):可量化表示

---例如:高度、膜厚、温度、CD、流量、阻值

---常用的总体参数或统计量有平均数、标准差计数值(离散型):可分类表示

---例如:人数、不合格品数、亮点数、良率

---常用的总体参数或统计量有比例7变量及其分布8变量当一个指标的取值固定为某个值时,我们称之为常量;当一个指标的取值不固定时(多种可能性),我们称之为变量。例如:——若用X表示32A05产品的mura检测结果,因该结果的值可能是”OK”、”NG”等各种可能,故X为变量。——若用CD表示28”产品的CD值,因制程的波动该值也是波动的,CD值不固定,故CD为变量。变量:变量的具体取值是用数据衡量的9变量的数据类型变量不能连续取值,能一一列出样本点;一般用数据表示其频数,故用计数型数据表示变量能够连续取值,无法一一列出样本点;具体取值可用计量型数据表示例:某产品defect类型检验结果;一次掷20个硬币,硬币正面朝上的数量;例:

28”产品的CD值;

华星员工食堂吃午饭,打饭的排队时间;离散型变量:连续型变量:10变量特征的测度变量特征中心趋势分散程度众数中位数平均值一般用μ表示一般用σ表示标准偏差全距变异数形状特征偏态系数峰态系数11变量的分布

为变量X的分布函数。称X服从例:投掷一个骰子,求点数X不超过3的概率。

解:分布离散型变量分布列连续型变量概率密度函数不同数据类型的变量用不同的方式衡量其分布状况

X……P……12离散型变量的分布列对离散型随机变量,常用以下定义的分布列来表示其分布:例:X为投掷两个骰子的点数之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/361/36

为X的概率分布列,简称分布列,记为

逐一列出每个可能的取值的概率13练习现同时投掷两个骰子,Y为6点的骰子个数,Z为最大点数,求随机变量Y的分布列求随机变量Z的分布列Y012P25/3610/361/36Z123456P1/363/365/367/369/3611/3614连续型变量的概率密度函数例

膜厚X是一个随机变量。假如记录10000笔膜厚值,我们将各膜厚的频率用直方图形式表示出来,x轴表示膜厚,y轴表示单位长度上的频率

对连续型随机变量,用概率密度函数来表示其分布状况:

即为膜厚的概率密度函数

15正态分布在统计学上最重要的连续型分布是正态分布特点:正态分布的概率密度函数中间高,两边低,对称的钟型;均值=中位数=众数m=median=mode50%50%量测值

16

为位置尺度,决定图形的中心位置;为形状尺度,决定图形的胖瘦。

m=1

m=2

m=3

ms=1s=2s=3固定s,变动m固定m,变动s17正态分布的概率计算中心到各标准偏差(σ)之概率如下μ-3σμ-2σμ-σμ+σμ+2σμ+3σμ0.02150.13590.34130.34130.13590.02150.68260.95440.9973曲线以下的面积等于概率18正态分布的概率计算Excel计算公式如下:P(X<=15)=NORM.DIST(15,𝜇,𝜎,TRUE

)P(X>15)=1-P(X<=15)若已知概率(假设P(X<=z1)=0.8),求区间点Z1,则Z1=NORM.INV(p,𝜇,𝜎)1015

19练习假设1370站点CD值服从正态分布,平均值为16.5,标准差为0.5,规格为16.8~18.2求超出规格上限的概率CD大于Z的概率为0.025,求Z值求该CD值的不良率(即,超出规格的概率)20一般正态分布=1Z标准正态分布标准正态分布表示为任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布21标准正态分布的概率计算Excel计算公式如下:P(X<=1.96)=NORM.S.DIST(1.96,TRUE)P(X>1.96)=1-P(X<=1.96)若已知概率(假设P(X<=Z1)=0.8),求区间点则Z1=NORM.S.INV(p)已知X服从N(0,1)分布,求X大于1.96的概率。01.96???X~N(0,1)22正态性检验23其他常见连续分布均匀分布指数分布例如:比如旅客进机场的时间间隔、电话通话时间电子元器件的寿命、动物的寿命许多电子产品的寿命分布一般服从指数分布f(x)=,其他0,a<x<b

0abxf(x)10abxF(x)概率密度函数l=0.5l=1l=2其中参数λ>0,记作X~Exp(λ)期望:E(X)=1/λ方差:D(X)=1/(λ^2)记作X~U(a,b)期望:E(X)=(a+b)/2方差:D(X)=(b-a)^2/12分布函数

24常见离散分布二项分布泊松分布一般地,在n次独立重复试验中,用X表示事件A发生的次数,如果单次试验中A发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是那么就说K服从二项分布。

记作X~B(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,…n)例如:良率的问题一般属于二项分布泊松分布常与单位时间(单位面积、单位产品等)上的计数过程相联系,例如:(K=1,2,3,…)泊松分布的概率分布列为:其中参数λ>0,记作X~P(λ)期望:E(X)=λ方差:D(X)=λ在单位时间内,电话总机接到用户呼唤的次数在单位时间内,一电路受到外界电磁波的冲击次数1平方米内,玻璃上的气泡数单片panel上的defect数

25样本均值的分布假如X1,X2,…Xn是从均值为μ,方差为σ2的正态总体中抽取的样本值其抽样的均值:若将其视为另外一个变量则

的均值为μ,方差为且服从正态分布

总体分布

X

s26样本均值的分布已知总体X~N(50,10^2),若抽取样本,样本均值的分布如下:X=60s=10

27中心极限定理不论总体为何种分布,只要样本容量n≥30,样本平均值的抽样分布近似于正态分布,假设总体均值为m,标准差为s。

即,当n足够大时,样本均值服从

当样本数够大时(n≥30)

,样本平均值的抽样分布会趋近于正态分布一个任意分布的总体

JMP操作28统计量及抽样分布29统计量总体样本最常见的统计量:平均值m

标准差s

设为取自某总体的样本,若样本函数中不含任何未知参数,则称T为统计量,统计量的服从的分布称为抽样分布。定义

统计量30三大抽样分布卡方分布t分布F分布31卡方分布

32卡方分布的计算Excel计算公式:

33卡方统计量的构建设x1,x2,….,xn是来自N(m,s^2)的样本,其中样本均值和样本方差分别为

34F分布

35F分布的计算

36F统计量的构建37t分布定义:设随机变量X1与X2独立且X1~N(0,1),X2~(n),则称

的分布为自由度为n的t分布,记为t

~

t(n)。Z分布不同自由度的t分布自由度n越大,t分布越接近正态;一般n>=30,可认为正态

t分配受两个变量的影响(),因此其变异会较标准正态分布来的大当t分布的自由度越大时,会越接近标准正态分布也就是说38t分布的性质Z分布不同自由度的t分布39t统计量的构建大部分的情况下,总体标准σ是未知的!!当σ未知,且样本不够大时,可以用样本标准偏差s替代,仍可得到跟正态分布接近的性质t分布的自由度是n-140t分布的计算41参数估计42估计点估计:以样本统计量为基础估计参数推测某一分布的母数值是多少的方法,包括点估计和区间估计。总体参数样本统计量推算出样本抽取估计样本统计量总体参数xmsspP^估计请注意:点估计没有误差的概念,即不知道抽取的样本之估计值与总体真值的接近程度。43估计估计区间估计:与点估计不同,估计参数存在的范围(区间)

=点估计±抽样误差考虑了抽样误差置信区间的计算:a.根据一组样本观察值;b.给定某区间可以估计总体参数的概率;计算出总体参数的估计范围置信水平样本统计量

(点估计)置信下限置信上限置信区间44估计置信水平置信水平一般表示为(1-α),意思是总体参数落在该置信区间内的概率。总体参数()不同取样计算出来的置信区间例如:95%的

置信区间,是指100次取样中,求得的100个置信区间中,有95个包含总体平均。α

为显著性水平,是总体参数未在区间内的概率,在假设检验中,为第一类风险;常用的置信水平(1-α)有99%,95%,90%

相对应的显著性水平α为0.01,0.05,0.1存在总体参数不在置信区间内的风险,该风险概率为α45XiX1-αα/2α/2σσμμ1)总体s已知时

对平均(μ)的置信区间μ=??=10.510.5±???σ2=??s2=3.83.8±???对平均(μ)的区间估计

对变异(σ2)的的区间估计估计置信区间的计算公式1)总体s未知时

对变异(σ2)的置信区间

46估计置信区间的计算练习:14.65314.75414.48914.2114.37514.47114.49914.77614.33414.74现抽取10片32A05产品,每片在同一点位量测其CD1值(第一层),数据如下:请问:CD1的均值和方差的置信区间分别为多少?(取α=0.05)在JMP中创建新数据表,输入以上数据;操作:分析分布47估计

JMP操作:在JMP中创建新数据表,输入以上数据;操作:分析分布平台选单置信区间注:默认置信水平为95%,可在平台选单中修改置信水平现在,请尝试用excel计算出以上结果常用统计分析方法汇总data型态常用统计分析方法常用图形分析方法YX假设检定连续单一水平1-sampleztest(σ已知)

1-samplettest(σ未知)直方图箱型图时间序列图1-variancetest连续两水平2-variancetest2-samplettest;

pairedttest连续多水平testforequalvarianceone-wayANOVA离散单一水平1-proportiontest离散两水平2-proportiontest相关与回归X、Y均为随机变数相关分析散点图X为自变量;Y为因变量回归分析48图形分析49图形分析1234直方图箱型图散点图时间序列图50直方图51区分data的区间,显示分布形态和中心位置及变异,能看到连续性资料的分布模样。直方图用以了解一群数据之分布状况,及其中心值与变异情形。直方图分析目的1.观察数据分布形态1)数据的中心位置2)数据的离散程度2.与规格的关系将产品特性值数据与规格进行比较形态可能原因参考对策形态可能原因参考对策一般显示的形状没有异常要因的变化工程稳定多种工程条件混合存在的时候可能是测定系统问题,不能准确地读出特定范围的数值或避开时发生根据层别方法,将全体散布分为许多互相不同的工程条件下进行作业时,如不同机台、不同班别、不同原材料等即规格值的下限抑制时,不取某值以下的值备注:右偏型同理为扩展Data幅,离下限接近的值也都要取因工程发生异常而引起,工程条件变化测定错误追究发生落岛型原因的话,可以掌握其改善方法.删除不满足规格的数据时测定的骗术检查错误测定误差等要提高工序能力,重新研讨规格52正态型陡壁型缺齿型偏态型平顶型孤岛型双峰型.制订层别的矩形图而比较.重新制订层别的矩形图的话,2个分布的差就明确.常见直方图形态直方图与规格进行比较53与规格比较(1)满足规格时LSLUSLLSLUSL特性值都满足规格,但制程变异尚有较大改善空间特性值都满足规格,且制程非常稳定。LSLUSL特性值都满足规格,且制程非常稳定,但是制程整体偏离中心位置(目标)。直方图与规格进行比较54与规格比较(2)不满足规格时LSLUSLLSLUSL制程稳定,但是特性值偏离中心目标值,导致超出规格中心与目标值一致,但特性值的变异大而存在超过规格的数据。LSLUSL数据的中心偏离目标值很大,特性值的变异也很大,制程很不稳定,很多数据超出规格。备注:在计算制程能力时,可先用直方图做初步观察。案例A01现已搜集32A05产品CD1,请用直方图分析其分布状况:案例55打开“直方图.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择直方图注:将数据拖到Y轴也可案例A01案例56图形看起来没有太大问题,可将其与规格进行比较,规格为15+/-1.5By机台层别分析操作:将“机台”拖到Y轴对比两个机台,可得出什么结论?图形分析1234直方图箱型图散点图时间序列图57什么是箱型图对X测定的Y值可用Box形态表示,用于确认分布的模样,以及数据的中央值、最小值、4分位数、最大值、异常点,也可以分析几个Group之间对数据分布的差异点58箱型图箱型图的解释50分位(中位数)Q3+1.5(Q3-Q1)内最大值Q1-1.5(Q3-Q1)内最小值75分位(第三四分位数)Q325分位(第一四分位数)Q1异常点(Outlies)*数据的中间

50%IQR=Q3-Q159箱型图案例A01针对上个案例A01,请做箱型图分析:打开“直方图.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择箱型图60箱型图案例A01从箱型图可得出什么结论?61箱型图范例图形分析1234Ydata分布形态—直方图根据X的Y分布比较—箱型图散点图Y的时间性变化—时间序列图62定义:以纵轴表示因变量,以横轴表示自变量,用点表示出分布型态,根据分布的型态判断对应数据之间的相互关系的图形。63散点图目的用以探索分析成对的二个连续型变量数据之间的关系适用时机原因分析、真因证实散点图常见形态散点图散点图1散点图3散点图2散点图4散点图6散点图56465散点图案例A02:散布图注意事项注意是否有异常点存在,亦即该点与其他点相距很远。是否有必要加以层别,亦即由数据看是无相关,但将数据分群后却发现具有相关,反之亦然。因此一个相关与否的散布图需放入单纯且必要的数据。层别图形分析1234直方图箱型图散点图时间序列图67时间序列图显示随时间经过的数据变化;可通过时间序列图观察特性值是否存在时间趋势或存在周期性;掌握随时间经过对制程Data有何影响,掌握是否有因异常原因的工序变化。68时间序列图69时间序列图案例A04:每月客返品中均有不规则mura,现针对每月搜集的累计不规则mura产品数,做数据分析,以期预估未来不规则mura数量趋势。打开“不规则mura.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择箱型图70时间序列图案例A04:从该时间序列图可得出什么结论?备注:必要时可在JMP软件中通过“分析建模时间序列”操作,进行时间序列建模分析71时间序列图范例:72图形分析注意事项图形分析只是数据分析的第一步,利用图形直观地做出初步判断,具体尚需做进一步推论统计分析验证做图形分析时,要注意使用层别法假设检验73假设检验12345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析74案例A1原厂内产品不良率为1.5%,工程师陈某负责该产品良率,经过1个月的努力,现将给改善对策进行小量试产,共run250片产品,发现2片不良。据此,该工程师声称,良率得到改善,决定量产。为什么需要假设检验75

基础统计量产品状况频数比例总样本量OK24899.2%250NG20.8%0.8%跟1.5%之间的差异,到底是真的存在此差异?还是差异只是因正常抽样而导致的差异?在统计上是否有意义呢?提问:别担心,假设检验可以为您解决这个困扰!原假设(简称H0):也叫虚无假或零假设;通常H0叙述的是无效果或无差别;先假设H0成立,后基于统计证据拒绝或不能拒绝H0。

对立假设(简称H1或Ha):与H0对立的假设;关于总体体参数的,在H0被拒绝时可以成立的叙述。一般含有等号,例如:H0:μ1

>=μ2

H0:μ1

<=μ2

H0:

μ1

=μ2与H0对立,例如:H1:μ1<μ2

H1

:

μ1>μ2

H1:

μ1≠μ2注意:1.含有等号的均放在H0;

2.H1通常是想验证的结果。假设检验基本概念76练习题请写出以下各情形的H0和H1:某制药会社新开发的头痛药B比原有的头痛药A,药效能多持续30分钟;AC厂某工程师想知道膜厚机台A和机台B是否有差异;以案例A1为例,建立H0和H1:H0:μ(调整前)=μ(调整后)统计意义:调整前和调整后的总体膜厚平均是相等的;实际意义:wipingtime调整前后PS膜厚没有差异H1:μ(调整前)≠μ(调整后)统计意义:调整前和调整后的总体膜厚平均是不相等的;实际意义:wipingtime调整前后PS膜厚有差异假设检验基本概念77假设检验中,建立H0&H1以后,需根据检验的对象建立相应的检验统计量,常见样本检验统计量如下:Z统计量服从正态分布t

统计量服从T分布F统计量服从F分布c2统计量服从

分布在分布已知情况下,即可通过概率求区间点,或通过区间点求概率。假设检验基本概念检验统计量:78实际状况H0H1样本结果H0判断正确概率:1-a第二类错误概率:bH1第一类错误概率:a判断正确概率:1-b第一类错误H0成立,却拒绝H0称为a风险,发生的概率用a表示第二类错误H0不成立,却接受H0称为b风险,发生的概率用b表示注意:a一般取0.05、0.1、0.01,最常用的是0.05a越小b越大,故a不可过小,否则范第二类错误概率b会很大不可知假设检验基本概念假设检验的两类错误:7980拒绝域&接受域拒绝域&接受域

m置信下限置信上限总体的95%置信区间接受域若H0成立,样本均值应该落在此区间拒绝域拒绝域若样本均值应该落在此区间,则拒绝H0,即H0不成立因在计算拒绝域时需先知道a,但是不同情况下可能选定的a不一样,此方式比较麻烦,故将计算拒绝域转换为P-valueP-value假设检验中,以指标P-value跟a比较来确认结论:若P-value≦α,则拒绝H0;若P-value>α,则接受H0假设检验基本概念P-value越小越拒绝H0

落于此中间部分为接受H081

3.确定H0&H1,选择a水平

2.判断数据类型,选择合适的检验方法1.把实际问题转化为统计问题4.抽取样本数据,进行分析(运用软件)5.判断,得出结论假设检验基本概念假设检验一般步骤建立检验统计将P-value与a比较82data型态统计量分析方法YX连续单一水平(σ已知)Z1-sampleztest(σ未知)t1-samplettest连续两水平(独立样本)t2-samplettest;(相关样本)Zpairedttest连续多水平Fone-wayANOVA各均值检验及方差检验方法定义data型态统计量分析方法YX连续单一水平c21-variancetest连续两水平F2-variancetest

连续多水平(近似)c2Bartlett

test检验均值检验方差(变异数)data型态统计量分析方法YX离散单一水平Z1-Ptest离散两水平Z2-Ptest检验比例83假设检验12345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析841

sampleZ/t检验如何验证膜厚是否等于目标值?如何确认首件与之前产品均值是否有差异?85案例A2:GB项目——CF厂R20CD1Cpk改善若已知CD1标准差s=0.089,问:CD1平均值是否等于目标值147.5?1

sampleZ检验解决方法——搜集数据资料,25片Glass的CD值(每片量30个点)A2_CD1.jmp861

sampleZ检验H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

CD1为连续型数据,只有一组样本,标准差s已知,故用1sampleZ检验检验统计量:若H0成立,则Z~N(0,1)

根据实际情况可设为H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0871

sampleZ检验打开“A2_CD1.jmp”文档。功能选单:分析分布假设均值实际标准差功能选单:CD1平台选单检验均值P-value<0.05,拒绝Ho故CD1均值不等于目标值147.5881

samplet检验H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

但是,实际工作中,基本上是不知道总体标准差s的,因此,需要用样本标准差s来预估s,故用1samplet检验根据实际情况可设为H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0检验统计量:若H0成立,则t~t(n-1)

891

samplet检验打开“A2_CD1.jmp”档案。功能选单:分析

分布假设均值未知,不需要填功能选单:CD1平台选单检验均值P-value<0.05,拒绝Ho故CD1均值不等于目标值147.5901

sampleVariance检验

单样本,用1sampleVariance检验

91打开“CD1.jmp”文档。1

sampleVariance检验功能选单:

分析

分布

;CD1平台选单检验标准差填入欲验证的标准差P-value>0.05,无法拒绝Ho故CD1标准差并没有大于0.089综合均值和变异数检验结果,CD1的CPK差主要是由于精度问题导致921.如何知道A机台与B机台CD是否存在机差?2.如何判断两个不同温度条件下膜厚是否受影响?3.如何判断参数调整后,某特性是否变好?2

samplet检验932

samplet检验案例A3:GB项目——CF厂PS月产能114K提升至120K能否直接调节wipingtime来降低Coater涂布时间,从而提升月产能?解决方法——搜集数据资料,25片Glass的CD值(每片量30个点)PS月产能提升Coater涂布时间WipingtimeCoatingTimeCSPSuctionTime衍生指标:PSHCpkY小yX942

samplet检验显然,Wipingtime降低

Coater涂布时间降低;但可能会有副作用,即PSHCpk变差。要降低wipingtime,必须确保PSH不受影响。故,问题转换为“如何判断wipingtime调整前后PSH是否受影响”调整前2.86612.87442.86612.85532.88112.87622.86852.85942.86822.86312.86432.85252.85542.87442.86472.86242.86082.85592.85912.85342.86882.87712.85612.85712.8612调整后2.85362.85092.85722.85152.85672.85172.84122.84662.84052.85532.8492.85862.85822.85232.84982.85472.85772.86252.86312.85732.85952.86182.85252.8512.8597数据资料:搜集调整前和调整后的单片glass的平均PHS值,各25笔X:wipingtime参数(调整前(7.9s)、调整后(5.95s))——两水平Y:PHS(膜厚)——连续判断层别因子(wipingtime)(两水平)的显著性均值检定2-samplet检验A3_2-sample_wipingtime.jmp952

sampleVariance检验由于在进行2samplettest时,检验统计量的选择会受到方差是否相等的影响,故在进行均值检验之前先进行等方差检验;PS:方差也是PHS是否收到影响的其中一方面;(即PHS均值跟方差都要同时考虑)

双样本,用2sampleVariance检验

96P-value>0.05,无法拒绝Ho故wipingtime调整前后PHS标准差没有差异。2

sampleVariance检验打开A3_2-sample_wipingtime.Jmp档案。功能选单:分析以X拟合Y平台选单分位数功能选单:

平台选单不等方程箱型图观察分析972

samplet检验H0:PHS1=PHS2V.SH1:PHS1≠PHS2

(a取0.05)

检验统计量:

;若H0成立,则t~t(m+n-2)

根据实际情况可设为H0:

m1<=m2

V.S

H1:

m1>m2或H0:

m1>=m2

V.SH1:m1<m2或H0:

m1=m2

V.SH1:m1≠m2

982

samplet检验检验统计量:

;若H0成立,则t近似服从~t(L)(L推算复杂,此处不做解释)

992

samplet检验回到案例A3,验证等方差性后,发现调整前后方差相等,故均值检验操作如下:功能选单:

平台选单均值/方差/合并的tP-value<0.05,拒绝Ho故wipingtime调整前后PHS均值不一样。综合变异数和均值检验结果发现:wipingtime调整前后PHS变异无差别,但均值受到影响,故不能将wipingtime调整至5.95s,需要另寻因子,或检验其他调整幅度。1002

samplet检验在案例A3中,平台选单t检验备注:方差不等情况下,检验统计量近似服从t分布。101Pairedt检验在双样本连续型变量检验中,若样本一一对应,此时“2samplet检验”不再适用;例如:

1.同一批样品的CD,由两种不同量具量测结果的比较;2.同一批样品在不同温度下的某连续型特性值。102案例A4:Pairedt检验某研究学者欲了解补习班能否增进学习能力,选一组随机样本12位小朋友,以α=0.05的显著水平,验证补习后成绩是否高于补习前:

补习前:22、31、28、27、29、32、26、27、31、28、25、30

补习后:29、27、32、25、33、30、36、29、33、28、32、29该案例中,两组样本是一一对应的,此时2samplet检验不再适用;此时,使用Pairedt检验。首先对两组样本做如下处理:di=补习后成绩-补习前成绩,得到新的样本数据:7、-4、4、-2、4、-2、10、2、2、0、7、-1A4_Pairedt_补习成绩.jmp103Pairedt检验

则检验两样本均值的问题转化为单样本零均值检验的问题;根据实际情况可设为H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0检验统计量:,sd为新的数据列di的样本标准差若H0成立,则t~t(n-1)

104Pairedt检验打开Pairedt_补习成绩.jmp档案。功能选单:分析配对P-value<0.05,拒绝Ho故补习后成绩确实大于补习前,补习有一定成效。备注:pairedt检验,要求两列数据样本量要一样;

2samplet检验,两列数据样本量可以不一样。105假设检验12345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析106单因子方差分析(OneWayANOVA)1.两个机台之间的CD是否有差异可以用2samplet检验,如果是三个机台或更多呢?2.如何判断两个以上不同温度条件下膜厚是否受影响?107定义:

方差分析(AnalysisofVariance,简称ANOVA),又称“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。原理:OneWayANOVA机台1的样本数据机台2的样本数据总变异包括:组间变异

+

组内变异不同机台引起的波动随机因素引起的波动在总变异中,当组间变异占比重较大时,说明不同机台之间差异显著,即该因子有影响,这就是ANOVA的原理。108OneWayANOVAH0:m1

=m2

=……=m

k

,即,所有水平样本平均值均相等H1:

各样本平均值不全相等,即至少有一个与其他不相等原假设&对立假设:检验统计量:

109案例A5:32A05TTNPT(CVD小黑点)不良降低OneWayANOVA问:R2处理时间是否对TTNPTdefectdensity有影响?TTNPTdefectdensityHDCCV转速R2处理气体种类R2处理时间Y

X清洁功率清洁距离NF3流量光阻厚度干燥压力2200HDC4300PHOTO2200CVD110R2处理时间为连续型变量,取三个水平10、12.5、15;以25片计算一个TTNPTdefectdensity值,当成连续型数据;故,问题转换为“如何判断三个不同R2处理时间下的defectdensity是否有差异”数据资料:每个R2处理时间下搜集10-15笔TTNPTdefectdensity数据X:R2处理时间(10、12.5、15)——三水平Y:TTNPTdefectdensity——连续判断层别因子(R2处理时间)(三水平)的显著性均值检定OneWayANOVA检验OneWayANOVA.jmpOneWayANOVA111OneWayANOVAH0:三个TTNPTdefectdensity全部相等

H1:三个TTNPTdefectdensity不全相等

(a取0.05)

来源偏差平方和自由度均方和F统计量HDCCV转速(A)SSAdfA=r-1MSA=SSA/dfAF=MSA/Mse误差(e)SSedfe=n-rMse=SSe/dfe总计SSTn-1方差分析表备注:r为因子水平数;

n为总样本数。112A5变异数检验因OneWayANOVA前提假设是等方差,故在使用该方法检验均值前,先进行变异数检验;PS:方差也是PHS是否收到影响的其中一方面;(即PHS均值跟方差都要同时考虑)

样本组数大于2,用修正的Bartlett检验113备注:若不等方差,则使用非参数检验进行均值验证A5_变异数检验114P-value>0.05,无法拒绝Ho故三个R2处理水平下的TTNPT

defectdensity满足等方差假设。打开A5_OneWayANOVA.Jmp档案。功能选单:分析

以X拟合Y平台选单分位数功能选单:

平台选单不等方差箱型图观察分析A5_OneWayANOVA115H0:defectdensity(10)=defectdensity(12.5)=defectdensity(15)

H1:defectdensity(10)、defectdensity(12.5)、defectdensity(15)

不全相等(a取0.05)

检验统计量:若H0成立,则F~F(dfA,dfe)

dfA=3-1=2(3为因子水平数)Dfe=18-3=15(18为样本量,3为因子水平数)116A5_OneWayANOVAP-value=0.0145<0.05,拒绝Ho故三个R2处理时间下的TTNPT

defectdensity不全相等,即R2处理时间对TTNPT

defectdensity有影响。承接变异数检验功能选单:平台选单均值/方差分析方差分析表图形显示,15S情况下TTNPT最低,但统计上到底哪两个水平有显著差异,需进一步分析117A5_多重比较法承接变异数检验功能选单:平台选单比较

均值所有对,TukeyHSD118TwoWayANOVA案例A6:现有一笔有关Sandy暗点不良率的数据,包含两个因子,请针对该数据进行分析,判断这两个因子对Sandy的影响状况,资料见数据表“TwoWayANOVA.jmp”操作:分析拟合模型TwoWayANOVA.jmp119TwoWayANOVA假设检验12345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析1201samplep检验当某厂工程师告诉你,目前厂内不良率已控制在3.5%以下时,你如何通过数据分析确认是否要相信他的结论?121案例A61samplep检验以前,32A04的defect发生率为9%,对相应制程进行了改善,从新抽取300个产品,其中25个存在defect。问:defect是否真的得到改善?a=0.05122解:本题要验证改善后的是defect发生率是否低于9%,属于单样本;Y取值为“发生defect””未发生defect”,为离散型资料,只能用频数来衡量;故,该题用1samplep进行验证。1samplep检验

根据实际情况可设为H0:p≥p0

V.SH1:p<p0

H0:p≤p0

V.SH1:p>p0

H0:p=p0

V.SH1:p≠p0

H0:

p

9%

V.SH1:

p>9%

(a取0.05)

注意:取样时样本n需足够大,一般需满足np≥5,且n(1-p)

≥51231samplep检验124打开A6_1-ptest.jmp

档案功能选单:分析分布第二层平台选单检验概率P-value=0.03908>0.05,无法拒绝H0

;改善后defect并没有降低,改善措施无效。输入要检验的概率值选择相应的对立假设H12samplep检验如何确认两个机台的良率或不良率是否有差异?如何确认对策实施前后,良率是否有提升?1252samplep检验126案例A7:55UD模组组装不良率降低问:如何验证BLU转板机速度是否对55UD模组组装不良率有影响?55UD模组组装不良率8.5%Y

XBLU异物不良率2.28%BLU脏污不良率1.91%显示异常不良率2.14%风枪风力1BLU转板机速度Panel翻转速度Panel在BLU位置吸盘作业高度2samplep检验127现搜集转板机速度为1m/s和0.8m/s条件下的产品状况,均搜集200片样品,记录如下:BLU转板机速度产品状况数量1m/sOK1711m/sNG290.8m/sOK1850.8m/sNG15X(BLU转板机速度)取两水平,属于两样本;Y取值为“OK””NG”,为离散型资料,只能用频数来衡量;故,该题用2samplep进行验证。2samplep检验

根据实际情况可设为H0:p1≥p2

V.SH1:p1<p2或

H0:p1≤p2V.SH1:p1>

p2

H0:p1=p2V.SH1:p1≠

p2

注意:取样时样本n需足够大,一般需满足np≥5,且n(1-p)

≥51282samplep检验129打开A7_2samplep.jmp

档案功能选单:分析以X拟合Y平台选单比例均值分析1.P-value=0.0274<0.05,拒绝H0,即BLU转板机速度对组装不良率确实有影响,22.从图形以及单尾检验结果可知,0.8m/s的不良率显著低于1m/s的不良率。图形分析平台选单双样本比例检验注意:此处JMP的检验统计量与前面的Z统计量不一样。假设检验总结非参数检定方法非正态总体检定均值两组相关样本检定均值检定变异数两组独立样本检定均值检定变异数一组样本正态总体σ不等σ相等σ未知σ已知σ未知σ已知Z统计量T统计量Z统计量近似T统计量T统计量F统计量χ2

统计量检定比例检定比例JMP操作Z统计量Z统计量检验统计量分布>检验均值分布>检验均值分布>检验概率

T统计量分析>配对以X拟合Y>方差不齐以X拟合Y>t检验NA(使用Excel)以X拟合Y

>双样本比例检验

以X拟合Y

>均值/方差分析/合并的t两组或两组以上样本检定均值F统计量分析>以X拟合Y>均值/方差分析检验方法1-Z

test1-t

test2-Z

test2-ttestPairedttest2-variancetest1-variancetest1-ptest2-ptest2-ttestOneWayANOVA分布>检验标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论