基础统计相关知识简介课件_第1页
基础统计相关知识简介课件_第2页
基础统计相关知识简介课件_第3页
基础统计相关知识简介课件_第4页
基础统计相关知识简介课件_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础统计1基础统计1教育目标

订立进行6-SIGMA必要的基础统计的概念理解离散概率分布及连续概率分布的概念基础统计的内容与6-SIGMAMetrics联贯理解熟知Minitap的基础使用方法基础统计与Minitap联贯理解收集的数据利用Minitap分析2教育目标订立进行6-SIGMA必要的基础统计的概念2统计学统计学的概念在日常生活中经常接触,且每天都在使用-为预测棒球比赛的胜负,调查各个Team的过去胜率-用收集的气象资料预测天气统计学为了对不确实的未来的预测提供必要的情报收集,分类,分析资料及以此为基础提示结论的学问3统计学统计学的概念在日常生活中经常接触,且每天都在使用3母集团的标本作为关心对象的所有个体的集合称母集团,在母集团中作为调查对象采纳的一部分称为标本母集团标本

母集团的特性:母数平均µ

分散2

标准偏差

标本的特性:统计量平均分散S2

标本偏差S如果能够正确计算母集团的母数时没有问题,但如果很难知道的情况下,用标本计算出的统计量推定母数。4母集团的标本作为关心对象的所有个体的集合称母集团,在母集团中母集团,标本及资料母集团(Population)和种类1)有限母集团:形成母集团的元素的个数为有限例)出荷LOT内制品的数2)无限母集团:形成母集团的元素的个数为无限例)工程中生产的制品数

标本(Sample)取出的重要性-标本取出时应尽可能没有偏差例)尝一锅汤的味道时,如不用勺子搅匀,而只尝上面部分会怎样?-标本取出方法:单纯随机取出,层别取出,群集取出,体系的取出

资料(Data)的种类1)量的变量:大小和量可以用数字表现的变量-离散型变量:可数的,如不良品数,缺点数等计数值数据-连续型变量:是连续的值,拉力,长度等计量值数据2)质的变量:无法表示大小或量的变量:性别,宗教,职业等5母集团,标本及资料母集团(Population)和种类分布的特性统计分析是找出资料分布具有的特性用数字表示的作业。

分布的特性

集中化倾向(算术平均,中央值,最频数)-显示资料集中在什么位置分散度(范围,分散,标准偏差)-资料以算术平均为中心扩散的程度非对称度-资料倾向于哪一侧?6分布的特性统计分析是找出资料分布具有的特性用数字表示的作业。集中化倾向

最频数(Mode)

最频数是资料分布中出现频率最多的数

中央值(Median)

数值按大小排序观察其位置1)资料为单数时:中间的资料2)资料为偶数时:(中间两个资料的和)/2

算术平均

母集团的平均标本的平均µ==X1+X2+X3+…+Xn

N∑Xi

NX==X1+X2+X3+…+Xnn∑Xi

n7集中化倾向最频数(Mode)

最频数是资料分布分散度

范围资料的集团中最大的数值和最小数值的差异

分散和标本偏差母集团的分散母集团的标准偏差

标本的分散标本的标准偏差算术平均为一次元的值,分散是二次元,因此求分散的开方标准偏差。标本统计量失去一个自由度,因此标本时具有n-1的自由度2=∑(Xi–X)2

N

=∑(Xi–X)2

NS2=∑(Xi–X)2

n-1S

=∑(Xi–X)2

n-18分散度范围2=∑(Xi–X)2特性值 母数 统计量集团数 N n平均 X分散 2 s2标准偏差 s相关系数 r回归系数 , a,b误差 e母数和统计量的符号比较9特性值 母数 统计量母数和统计量的符号比较9概率理论

概率的定义:对所有具有发生可能性,特定事件发生的可能性

标本空间:发生的可能性相同的全部情况的数思想:属于事件A的情况的数概率变量:从测定值可得到的所有集合称为标本空间,对标本空间的各各值付予实数的函数称为概率变量。如(H,1/2)集合的概论概率分布:对概率变量可取的所有值,将其取值的概率用图或表显示的称为概率分布离散概率分布:对应于可数的概率变量如不良数或缺点数的概率分布连续概率分布:具有不可数的连续值如制品的重量或尺寸的概率分布P(A)

=思想标本空间10概率理论概率的定义:对所有具有发生可能性,特定事件发生的概率理论

概率密度函数(ProbabilityDensityFunction)对应于概率变量的概率的关系表示为函数的称为概率密度函数概率密度函数总是+值,全体的和为1。6-Sigma使用的概率密度函数1)离散概率密度函数•超几何分布•二项分布•帕松分布2)连续型概率密度函数•正态分布•t-分布•F-分布•2-分布

11概率理论概率密度函数(ProbabilityDens超几何分布(Hyper-geometricdistribution)超几何分布是以非复元取出,每次成功概率不一定时适用的分布,每次实行独立时为二项分布,从属时超几何分布。超几何分布的概率模型:大小为N的母集团中,N1中X1个,N2中X2个 取出的概率超几何分布的密度函数

P(N1中x1,N2中x2)=N1Cx1*N2Cx2

(N1+N2)C(x1+x2)

NN1N2Xx2x112超几何分布(Hyper-geometricdistribu超几何分布例题由20个制品构成的LOT中有5个不良品。此时抽取4个制品时,有2个不良品的概率是多少?正确答案是0.217(请实际计算后比较)不良品是4个,良品是6个的制品集团中随机抽取3个制品,选择的3个制品全部为良品的概率是多少?正确答案是0.618(请实际计算后比较)13超几何分布例题由20个制品构成的LOT中有5个不良品。此时抽二项分布(Binomialdistribution)贝鲁诺实验的条件-例)掷铜钱

1)实验的结果一个事件成功(S),别一事件为失败(F)区分为相互排斥的两个事件2)各个实验中成功出现的概率为p=P(S),失败出现的概率为q=P(F)=1-p因此成功与失败出现的概率和为p+q=1.3)各个实验是相互独立的,一个实验结果对另外实验结果无任何影响.二项分布是反复进行贝鲁诺实验后显示的分布二项分布的概率密度函数P(X=x)=nCxpx(1-p)n-x

nCx=()=

nxn!x!(n-x)!排列与组合!还记得吗?14二项分布(Binomialdistribution)贝鲁诺01234P(X)x1/162/163/164/165/166/1601234P(X)x0.10.20.3n=4,p=1/2的二项分布n=9,p=1/3的二项分布56789二项分布的形状1)n即使小p=0.5时概率分布总是对称2)即使不是p=0.5,n越大越接近于对称二项分布的期望值,标准偏差,分散期望值:=E(X)=np分散:2=Var(X)=np(1-p)=npq标准偏差:

=√np(1-p)=√npq二项分布的形态1501234P(X)x1/162/163/164/165/16超几何分布与二项分布的比较说明如下图有三个白球,七个蓝球的箱子中取出2个球时,取出白球的概率分为非复元取出和复元取出的情况分析.非复元取出的情况:1次取出时取出白球的概率=3/10 2次取出时取出白球的概率=2/9即,2次实行的概率受1次实行结果的影响.超几何分布复元取出的情况:1次取出时取出白球的概率=3/102次取出时取出白球的概率=3/10即,1次实行的结果并不影响2次实行的概率.二项分布16超几何分布与二项分布的比较说明如下图有三个白球,七个蓝球的箱帕松分布(Poissondistribution)用于定义单位时间或单位空间里特定事件的发生次数-钢板,织物等的连续体有平均m个瑕疵,随机抽取一定单位调查瑕疵时,瑕疵出现x个的概率遵守帕松分布.-单位时间内到银行的顾客的数,某一地域内一天交通事故数.帕松分布的密度函数

P(X=x)=e-mmx

x!m:平均发生次数x:事件发生次数

帕松分布的特性-二项分布中p<0.1时,变成帕松分布-帕松分布中m>5时,变成正态分布17帕松分布(Poissondistribution)用于定义帕松分布和RTY的关系

帕松分布观察帕松分布的概念,与Unit内Defect分布是同一概念,即可以如下开展事件的平均发生次数m成为dpu.RTY是最终工程无缺点的概率,帕松分布中x=0的情况.因此在帕松分布的分布式中代入上面的结果,成立下面等式.

RTY=e-dpudpu=-ln(RTY)P(X=x)=e-mmx

x!m:平均发生次数x:事件发生次数18帕松分布和RTY的关系帕松分布P(X=x)=e-m正态分布(Normaldistribution)正态分布是最自然的分布可以取任何一定范围内的所有实数值的概率分布,是连续概率分布中最具代表性的分布.

正态分布的特点1)正态分布的形状与位置由分布的平均和标准偏差决定

2)正态分布的概率密度函数以平均()为中心相对称的钟形.3)正态曲线不接触X轴,因此X取值的范围是-<X<+.

(但观察值的99.7%在3内)

4)分布的平均()和标准偏差()无论取什么值,正态曲线与X轴的全部面积为1.

正态分布的密度函数

f(X)=1

√22e-(x-)2/22-<X<+:3.142(元周率)

e:2.7183

:分布的平均:分布的标准偏差19正态分布(Normaldistribution)正态分布是正态曲线(Normalcurve)95.5%43210-1-2-3-468.3%99.73%121=112121221[与决定的正态分布形状]12,1=2

1=2,1

2

12,1

2

应熟知教材后部分收录的标准正态分布的读法20正态曲线(Normalcurve)95.5%43210-1标准正态分布标准正态分布是把正态分布标准化为平均=0,标准偏差=1.某一观察值X的值,从其分布的平均的距离是标准偏差的多少倍,如下用标准化的概率变数Z表示,表示为N(0,12)X-

Z=————

0Z=0到Z=1.5之间概率变数存在的概率P(0≤Z≤1.5)=0.43320Z=0到±45%相应的Z值Z=±1.64490比Z=-2小或比Z=2大的范围内存在概率变量的概率-22P(-2≥Z,Z≥2)=0.0456P=0.0228P=0.022821标准正态分布标准正态分布是把正态分布标准化为平均=0,标对正态分布的说明影响制造工程的平均值或分散的要因分为1)偶然原因和2)异常原因。偶然原因是如作业环境的温度变化等不可避免的要因,异常原因是指设备异常,作业者的失误等要因不介入异常要因,只有偶然要因作业时取出的数据必然遵守正态分布。教育时可感觉到,在利用连续型概率变量进行统计分析时首先应考虑分布是否是正态分布。今后要学的t-分布,F-分布,2-分布是人们人为作出来的概率密度函数,但正态分布是说明自然现象的自然分布。最自然的不就是最美的吗?每个铜钱掷10次掷100个时每个铜钱正面出现的次数与反面出现的次数画在直线上时是否取正态分布?22对正态分布的说明影响制造工程的平均值或分散的要因分为1)偶然练习题1.X~N(10,4)的正态分布中X在8≤X≤12范围的概率是?Z=X-

=12-10

4=0.5,此时概率是0.691510128Z=X-

=8-10

4=-0.5此时概率是(1-0.6915)因此0.6915-0.3085=0.382923练习题1.X~N(10,4)的正态分布中X在8≤X≤1√n平均标本分布

标本分布?在母集团中按一定大小把能够取出的标本全部取出后,各标本的特性值(统计量)的概率分布

平均的标本分布? 在特定的母集团按一定大小把能够取出的标本全部取出后计算各个标本的平均时其平均的概率分布。x2=_2

nx=_

平均标本分布的分散

平均标本分布的标准偏差

平均标本分布的平均=24平均标本分布标本分布?平均的标本分布中心极限定理(CentralLimitTheorem)平均为,分散为2的无限母集团中随机抽取大小为n的样品时n充分大时与母集团的分布状态无关,标本平均近似地遵守N(,2/n)。即,的分布近似为N(0,1)。Z=/nX-母集团遵守正态分布时标本的平均必然遵守正态分布,但此时标本平均的分散分为标本的大小(n),因此变小。如果母集团不是正态分布的任意分布时,标本大小充分大时标本的平均分布也遵守正态分布但此时标本平均的分散分为标本的大小(n),也变小。25中心极限定理(CentralLimitTheorem)t-分布:互不相同的两个集团的平均的统计验证从正态分布概率标本不大,且标准偏差()未知时

遵守自由度n-1的t-分布。.0S2=(xi-x)

n-1X=xi1

nt=X-

S/√n正态分布=7=3=1T-分布的特点t分布比正态分布的形状扩散,自由度()越大越接近于正态分布。

这是因为标本的大小小,标准偏差(s)比母集团的标准偏差()具有不确信性,所以标本的大小n越大,标本的标准偏差越接近于母集团的标准偏差。t分布根据自由度变化,自由度是标本的大小减1,表示为n-1。26t-分布:互不相同的两个集团的平均的统计验证从正态分t-分布的应用

积层薄膜事业部的CERAMICPOWDER从业体受入后使用。1月受入的POWDER的平均径为0.35m,2月是0.38m,2个月间的POWDER径是否可以下结论有差异。t-分布利用于以原来的数据为本,统计地判断有无平均值的差异比较2个集团间的平均时需要下列2项前提条件。请思考一下理由.2个集团应具有相当正规的分布2集团的分散均匀利用t-分布进行比较时一个集团内有30个以上的数据时可以减少误差。27t-分布的应用积层薄膜事业部的CERAMICPOWD标本分布中计算平均的位置1.正态分布:已知母集团的标准偏差()时可以适用(可能性很少)Z=X-

/√nMINITAP的1-SPLZTest实际上在我们想知道母集团的平均时,我们提前知道母集团的标准偏差而去接近的情况极少。2.t-分布:t=X-

S/√n参照MINITAP的1-SPLtTest,2-SPLtTest想知道母集团的平均时,虽然不知道母集团的标准偏差,但并不难求出样品的标准偏差(S)。28标本分布中计算平均的位置1.正态分布:已知母集团的标准偏2-分布:不相同的两个以上集团的概率的统计验证根据情况不仅平均的标本分布,连分散的标本分布也很重要。例如罐头厂罐头的平均重量与罐头的重量都很重要母集团的分散的标本分布可利用2分布表示,两个母集团的分散的标本分布可利用F分布表示。对正态母集团N(,2)的概率分布X1,X2,….Xn 的分布称为自由度为n-1的2分布.2

=(Xi-X)2

2(n-1)S2

2=f(x)0n=1n=5n=10292-分布:不相同的两个以上集团的概率的统计验证根据2-分布:实际的使用例题

现有1元的硬币1个,张课长掷硬币100次时正面出现63次,反面出现37次。理想的结果是正面50次,反面50次。此时是否可以下结论上述结果是偶然出现的,或者认为是因为硬币的形状不正常出现的必然结果得出这种比率的结论时,可以有效使用2分布近似的情况有在生产现场白班作业的不良率为2.0%,夜班作业的不良率为2.5%那么是否可以确信夜班不良率高于白班不良率?请用MINITAB得出结果.302-分布:实际的使用例题现有1元的硬币1个,张课长F-分布:不同的两个以上集团的分散的均一性验证.母集团是正态分布,从具有分散12,22

的两个母集团中抽取大小为n1,n2两个标本计算标本分散.两个标本分散为S12,S22时由标本分散与母分散的比率形成的两个2的比率形成F分布,F分布具有两个自由度.12

=(n1-1)S12

12

~

12(n1-1)22

=(n2-1)S22

22

~

22(n2-1)12/(n1-1)22/(n2-1)=S12/12S22/22~F(n1-1,n2-1)上式内容中可知F分布是比较两个母集团的分散31F-分布:不同的两个以上集团的分散的均一性验证.母集F-分布:实际的使用例1=2,2=41=12,2=121=4,2=6金代理在进行工程变化后,将变化前后的平均值用t-Test比较的结果,认为没有差异认为工程变化对制品特性无影响.这个判断正确吗答)错误.分布的特性不仅是平均值,还要考虑分散.在上述情况平均相同,但工程变化后的分散比变化前增加了2倍,得出结论是工程变化影响制品特性.F-分布是用在比较分散的均一性.了解一下利用MINITAB的实际的使用方法和解释方法.32F-分布:实际的使用例1=2,2=41=12,推定与验证

推定?母集团的特点由分布函数来体现,母集团具体的特点由分布函数的母数来决定因此为了解母集团的具体的性格对母数进行的推测叫推定(Inference).

验证?假设母集团的母数,以样品的情报来判断其假设的真伪的过程叫假设验证.(HypothesisTesting).33推定与验证推定?33推定为了解母集团的特点推测母集团的分布函数推定的种类

1)点推定

未知的母数用一个推定值表示,但因未包括误差的范围,无法保障与母数一致。

2)区间推定

预想包括母数的真值的预想区间,按照信赖区间范围不同对母数进行区间推定时指求P(L<<U)=1-的L与U此时[L,U]称为信赖区间,1-为信赖水平.34推定为了解母集团的特点推测母集团的分布函数推定的种类34推定母集团平均的信赖区间0/2=0.025-Z0.025=-1.96/2=0.025Z0.025=1.96=0.05时Z/2和-Z/2的值即,信赖区间:95%1)已知标准偏差:利用正态分布P(-Z/2<<Z/2)=1-

X-

/√nP(L<<U)=1-

对此解X-Z/2/√n<<X+Z/2/√n的100(1-)信赖区间因可得出上述所有变数,可以推定平均的区间推定35推定母集团平均的信赖区间0/2=0.025-Z0.02推定母集团平均的信赖区间=0.05时t/2与-t/2的值即,信赖区间:95%2)未知标准偏差时:利用t-分布P(-t/2<<t/2)=1-

X-

S/√nP(L<<U)=1-对此解X-t/2S/√n<<X+t/2S/√n的100(1-)信赖区间因可得出上述所有变数,可以推定平均的区间推定t-分布的形状按照自由度不同而相异,是否会读附录的t-分布表参考)上述的所有t-分布意味着自由度为n-1的t/2,n-1.36推定母集团平均的信赖区间=0.05时t/2与-t推定母集团平均的置信区间的例题1.为了解女社员一个月零用钱使用水平,任意选择100名调查的结果,平均零用钱为82,000元母集团的标准偏差为10万元,母集团为正态分布时,求女社员零用钱平均(用90%的信赖区间)2.任意选择12个BEARING测定直径的结果平均为5.6mm,标准偏差为0.032mm.直径的分布为正态分布时,用95%信赖区间求直径的真值.对上述问题大家应当会用手算及MINITAB计算出结果另外,到现在为止都假设遵守正态分布状态下进行37推定母集团平均的置信区间的例题1.为了解女社员一个月零用钱使对假设验证

假设验证?假设母集团的母数,以标本的情报来判断其假设的真伪.归零假设?.作为验证对象的假设,无变化或无差异的叙述文用H0来表示对立假设?与归零假设相对立的相反的假设,变化或有差异的叙述文用H1

或Ha来表示.即,已存在的事实称归零假设,新的主张称对立假设.留意水准?归零假设正确,但放弃归零假设的概率的限度.信赖区间(ConfidenceLevel)与留意水平(SignificanceLevel)的关系

1-信赖区间=留意水平38对假设验证假设验证?38验证统计量?判定是否放弃归无假设的统计量.即Z,t,F,2

等.此时验证统计量可取的区间按照适当的基准分为采纳域与放弃域,统计量的值属于放弃域时放弃归零假设,属于采纳域时不放弃归零假设临界值:区分放弃域与采纳域的界限值单侧验证与两侧验证对归零假设H0:=0的对立假设可设定为H1:>0,H1:<0

及H1:0的3种形态,根据对立假设的形态前两个对立假设的情况叫单侧验证,最后对立假设的情况叫两侧验证.留意差:统计的假设结果视为偶然造成的是具有太多的差异,为了叙述此结果用的统计用语对假设验证39对假设验证39假设验证的错误错误实际上是归零假设正确,但验证结果放弃归零假设的的错误称为第一种错误.错误实际上是归零假设错误,但验证结果接受归零结果的错误称为第二种错误事实判断H0H1H0正确决定H1错误正确的决定错误

错误:与留意水平相同,一般以5%为基准值错误:一般为10%,验证力=1-40假设验证的错误错误实际上是归零假设正确,但验证结果放弃归假设验证的顺序1.设定归零假设与对立假设2.设定验证统计量3.决定满足留意水平的临界值4.假设归零假设正确的前提下计算统计量与临界值比较.41假设验证的顺序1.设定归零假设与对立假设41例题)罐头的重量为16克,标准偏差为1.5克的正态分布.但是有顾客提出罐头不是16克.为此作为标本确认了25个罐头,调查结果平均为15.5克.=5%时,是否可以说罐头重量为16克.1.归零假设与对立假设的设定=H0:=16,H1:<16

2.验证统计量的决定:已知母集团

Z=/nX-3.临界值的决定:在标准正态分布表=0.05相应的Z=1.64因此采纳领域:Z>-1.64,放弃领域:Z<-1.64

4.在假设归零无假设正确的前提下计算统计量后,与临界值比较。Z=-1.67放弃H0(罐头的重量不足16克.)

42例题)1.归零假设与对立假设的设定=H0:说明在前页对罐头重量验证的过程中因已知母集团的标准偏差利用正态分布进行了说明。除正态分布外适用t-分布,F-分布以及2-分布时可以按照同样的过程。但为验证首先应理解的是各验证统计量的理解,附录表搜索的方法,以及最终验证统计量的值与附录表数据的比较后得出结论等。在上面已经说明过各验证统计量适用于什么时简单进行总结。t-分布:已知母集团的标准偏差时母集团的平均验证F-分布:未知母集团的标准偏差时母集团和平均验证2-分布:两个集团间的比率的统计验证43说明在前页对罐头重量验证的过程中因已知母集团的标准偏差利用正MINITAB与验证与推定那么在MINITAB如何进行验证与推定,是否要向前面所说要全部计算后录入不是,如果已经知道大家要进行的验证与推定的特点适用于哪个验证统计量时在MINITAB只要简单一击就可以代替前面的所有说明。那么所有验证统计量的临界值互相不同,实行MINITAB后,是否应在统计量附录表中找到临界值后与MINITAB结果统计量进行比较吗?不是MINITAB自己比较,最终用p-值来判断,大家只要记住看MINITAB显示的p-值判断就可以了。一般p>0.05:统计量无差异(无留意)p<0.05:统计量有差异(留意)44MINITAB与验证与推定那么在MINITAB如何进行验证与基础统计45基础统计1教育目标

订立进行6-SIGMA必要的基础统计的概念理解离散概率分布及连续概率分布的概念基础统计的内容与6-SIGMAMetrics联贯理解熟知Minitap的基础使用方法基础统计与Minitap联贯理解收集的数据利用Minitap分析46教育目标订立进行6-SIGMA必要的基础统计的概念2统计学统计学的概念在日常生活中经常接触,且每天都在使用-为预测棒球比赛的胜负,调查各个Team的过去胜率-用收集的气象资料预测天气统计学为了对不确实的未来的预测提供必要的情报收集,分类,分析资料及以此为基础提示结论的学问47统计学统计学的概念在日常生活中经常接触,且每天都在使用3母集团的标本作为关心对象的所有个体的集合称母集团,在母集团中作为调查对象采纳的一部分称为标本母集团标本

母集团的特性:母数平均µ

分散2

标准偏差

标本的特性:统计量平均分散S2

标本偏差S如果能够正确计算母集团的母数时没有问题,但如果很难知道的情况下,用标本计算出的统计量推定母数。48母集团的标本作为关心对象的所有个体的集合称母集团,在母集团中母集团,标本及资料母集团(Population)和种类1)有限母集团:形成母集团的元素的个数为有限例)出荷LOT内制品的数2)无限母集团:形成母集团的元素的个数为无限例)工程中生产的制品数

标本(Sample)取出的重要性-标本取出时应尽可能没有偏差例)尝一锅汤的味道时,如不用勺子搅匀,而只尝上面部分会怎样?-标本取出方法:单纯随机取出,层别取出,群集取出,体系的取出

资料(Data)的种类1)量的变量:大小和量可以用数字表现的变量-离散型变量:可数的,如不良品数,缺点数等计数值数据-连续型变量:是连续的值,拉力,长度等计量值数据2)质的变量:无法表示大小或量的变量:性别,宗教,职业等49母集团,标本及资料母集团(Population)和种类分布的特性统计分析是找出资料分布具有的特性用数字表示的作业。

分布的特性

集中化倾向(算术平均,中央值,最频数)-显示资料集中在什么位置分散度(范围,分散,标准偏差)-资料以算术平均为中心扩散的程度非对称度-资料倾向于哪一侧?50分布的特性统计分析是找出资料分布具有的特性用数字表示的作业。集中化倾向

最频数(Mode)

最频数是资料分布中出现频率最多的数

中央值(Median)

数值按大小排序观察其位置1)资料为单数时:中间的资料2)资料为偶数时:(中间两个资料的和)/2

算术平均

母集团的平均标本的平均µ==X1+X2+X3+…+Xn

N∑Xi

NX==X1+X2+X3+…+Xnn∑Xi

n51集中化倾向最频数(Mode)

最频数是资料分布分散度

范围资料的集团中最大的数值和最小数值的差异

分散和标本偏差母集团的分散母集团的标准偏差

标本的分散标本的标准偏差算术平均为一次元的值,分散是二次元,因此求分散的开方标准偏差。标本统计量失去一个自由度,因此标本时具有n-1的自由度2=∑(Xi–X)2

N

=∑(Xi–X)2

NS2=∑(Xi–X)2

n-1S

=∑(Xi–X)2

n-152分散度范围2=∑(Xi–X)2特性值 母数 统计量集团数 N n平均 X分散 2 s2标准偏差 s相关系数 r回归系数 , a,b误差 e母数和统计量的符号比较53特性值 母数 统计量母数和统计量的符号比较9概率理论

概率的定义:对所有具有发生可能性,特定事件发生的可能性

标本空间:发生的可能性相同的全部情况的数思想:属于事件A的情况的数概率变量:从测定值可得到的所有集合称为标本空间,对标本空间的各各值付予实数的函数称为概率变量。如(H,1/2)集合的概论概率分布:对概率变量可取的所有值,将其取值的概率用图或表显示的称为概率分布离散概率分布:对应于可数的概率变量如不良数或缺点数的概率分布连续概率分布:具有不可数的连续值如制品的重量或尺寸的概率分布P(A)

=思想标本空间54概率理论概率的定义:对所有具有发生可能性,特定事件发生的概率理论

概率密度函数(ProbabilityDensityFunction)对应于概率变量的概率的关系表示为函数的称为概率密度函数概率密度函数总是+值,全体的和为1。6-Sigma使用的概率密度函数1)离散概率密度函数•超几何分布•二项分布•帕松分布2)连续型概率密度函数•正态分布•t-分布•F-分布•2-分布

55概率理论概率密度函数(ProbabilityDens超几何分布(Hyper-geometricdistribution)超几何分布是以非复元取出,每次成功概率不一定时适用的分布,每次实行独立时为二项分布,从属时超几何分布。超几何分布的概率模型:大小为N的母集团中,N1中X1个,N2中X2个 取出的概率超几何分布的密度函数

P(N1中x1,N2中x2)=N1Cx1*N2Cx2

(N1+N2)C(x1+x2)

NN1N2Xx2x156超几何分布(Hyper-geometricdistribu超几何分布例题由20个制品构成的LOT中有5个不良品。此时抽取4个制品时,有2个不良品的概率是多少?正确答案是0.217(请实际计算后比较)不良品是4个,良品是6个的制品集团中随机抽取3个制品,选择的3个制品全部为良品的概率是多少?正确答案是0.618(请实际计算后比较)57超几何分布例题由20个制品构成的LOT中有5个不良品。此时抽二项分布(Binomialdistribution)贝鲁诺实验的条件-例)掷铜钱

1)实验的结果一个事件成功(S),别一事件为失败(F)区分为相互排斥的两个事件2)各个实验中成功出现的概率为p=P(S),失败出现的概率为q=P(F)=1-p因此成功与失败出现的概率和为p+q=1.3)各个实验是相互独立的,一个实验结果对另外实验结果无任何影响.二项分布是反复进行贝鲁诺实验后显示的分布二项分布的概率密度函数P(X=x)=nCxpx(1-p)n-x

nCx=()=

nxn!x!(n-x)!排列与组合!还记得吗?58二项分布(Binomialdistribution)贝鲁诺01234P(X)x1/162/163/164/165/166/1601234P(X)x0.10.20.3n=4,p=1/2的二项分布n=9,p=1/3的二项分布56789二项分布的形状1)n即使小p=0.5时概率分布总是对称2)即使不是p=0.5,n越大越接近于对称二项分布的期望值,标准偏差,分散期望值:=E(X)=np分散:2=Var(X)=np(1-p)=npq标准偏差:

=√np(1-p)=√npq二项分布的形态5901234P(X)x1/162/163/164/165/16超几何分布与二项分布的比较说明如下图有三个白球,七个蓝球的箱子中取出2个球时,取出白球的概率分为非复元取出和复元取出的情况分析.非复元取出的情况:1次取出时取出白球的概率=3/10 2次取出时取出白球的概率=2/9即,2次实行的概率受1次实行结果的影响.超几何分布复元取出的情况:1次取出时取出白球的概率=3/102次取出时取出白球的概率=3/10即,1次实行的结果并不影响2次实行的概率.二项分布60超几何分布与二项分布的比较说明如下图有三个白球,七个蓝球的箱帕松分布(Poissondistribution)用于定义单位时间或单位空间里特定事件的发生次数-钢板,织物等的连续体有平均m个瑕疵,随机抽取一定单位调查瑕疵时,瑕疵出现x个的概率遵守帕松分布.-单位时间内到银行的顾客的数,某一地域内一天交通事故数.帕松分布的密度函数

P(X=x)=e-mmx

x!m:平均发生次数x:事件发生次数

帕松分布的特性-二项分布中p<0.1时,变成帕松分布-帕松分布中m>5时,变成正态分布61帕松分布(Poissondistribution)用于定义帕松分布和RTY的关系

帕松分布观察帕松分布的概念,与Unit内Defect分布是同一概念,即可以如下开展事件的平均发生次数m成为dpu.RTY是最终工程无缺点的概率,帕松分布中x=0的情况.因此在帕松分布的分布式中代入上面的结果,成立下面等式.

RTY=e-dpudpu=-ln(RTY)P(X=x)=e-mmx

x!m:平均发生次数x:事件发生次数62帕松分布和RTY的关系帕松分布P(X=x)=e-m正态分布(Normaldistribution)正态分布是最自然的分布可以取任何一定范围内的所有实数值的概率分布,是连续概率分布中最具代表性的分布.

正态分布的特点1)正态分布的形状与位置由分布的平均和标准偏差决定

2)正态分布的概率密度函数以平均()为中心相对称的钟形.3)正态曲线不接触X轴,因此X取值的范围是-<X<+.

(但观察值的99.7%在3内)

4)分布的平均()和标准偏差()无论取什么值,正态曲线与X轴的全部面积为1.

正态分布的密度函数

f(X)=1

√22e-(x-)2/22-<X<+:3.142(元周率)

e:2.7183

:分布的平均:分布的标准偏差63正态分布(Normaldistribution)正态分布是正态曲线(Normalcurve)95.5%43210-1-2-3-468.3%99.73%121=112121221[与决定的正态分布形状]12,1=2

1=2,1

2

12,1

2

应熟知教材后部分收录的标准正态分布的读法64正态曲线(Normalcurve)95.5%43210-1标准正态分布标准正态分布是把正态分布标准化为平均=0,标准偏差=1.某一观察值X的值,从其分布的平均的距离是标准偏差的多少倍,如下用标准化的概率变数Z表示,表示为N(0,12)X-

Z=————

0Z=0到Z=1.5之间概率变数存在的概率P(0≤Z≤1.5)=0.43320Z=0到±45%相应的Z值Z=±1.64490比Z=-2小或比Z=2大的范围内存在概率变量的概率-22P(-2≥Z,Z≥2)=0.0456P=0.0228P=0.022865标准正态分布标准正态分布是把正态分布标准化为平均=0,标对正态分布的说明影响制造工程的平均值或分散的要因分为1)偶然原因和2)异常原因。偶然原因是如作业环境的温度变化等不可避免的要因,异常原因是指设备异常,作业者的失误等要因不介入异常要因,只有偶然要因作业时取出的数据必然遵守正态分布。教育时可感觉到,在利用连续型概率变量进行统计分析时首先应考虑分布是否是正态分布。今后要学的t-分布,F-分布,2-分布是人们人为作出来的概率密度函数,但正态分布是说明自然现象的自然分布。最自然的不就是最美的吗?每个铜钱掷10次掷100个时每个铜钱正面出现的次数与反面出现的次数画在直线上时是否取正态分布?66对正态分布的说明影响制造工程的平均值或分散的要因分为1)偶然练习题1.X~N(10,4)的正态分布中X在8≤X≤12范围的概率是?Z=X-

=12-10

4=0.5,此时概率是0.691510128Z=X-

=8-10

4=-0.5此时概率是(1-0.6915)因此0.6915-0.3085=0.382967练习题1.X~N(10,4)的正态分布中X在8≤X≤1√n平均标本分布

标本分布?在母集团中按一定大小把能够取出的标本全部取出后,各标本的特性值(统计量)的概率分布

平均的标本分布? 在特定的母集团按一定大小把能够取出的标本全部取出后计算各个标本的平均时其平均的概率分布。x2=_2

nx=_

平均标本分布的分散

平均标本分布的标准偏差

平均标本分布的平均=68平均标本分布标本分布?平均的标本分布中心极限定理(CentralLimitTheorem)平均为,分散为2的无限母集团中随机抽取大小为n的样品时n充分大时与母集团的分布状态无关,标本平均近似地遵守N(,2/n)。即,的分布近似为N(0,1)。Z=/nX-母集团遵守正态分布时标本的平均必然遵守正态分布,但此时标本平均的分散分为标本的大小(n),因此变小。如果母集团不是正态分布的任意分布时,标本大小充分大时标本的平均分布也遵守正态分布但此时标本平均的分散分为标本的大小(n),也变小。69中心极限定理(CentralLimitTheorem)t-分布:互不相同的两个集团的平均的统计验证从正态分布概率标本不大,且标准偏差()未知时

遵守自由度n-1的t-分布。.0S2=(xi-x)

n-1X=xi1

nt=X-

S/√n正态分布=7=3=1T-分布的特点t分布比正态分布的形状扩散,自由度()越大越接近于正态分布。

这是因为标本的大小小,标准偏差(s)比母集团的标准偏差()具有不确信性,所以标本的大小n越大,标本的标准偏差越接近于母集团的标准偏差。t分布根据自由度变化,自由度是标本的大小减1,表示为n-1。70t-分布:互不相同的两个集团的平均的统计验证从正态分t-分布的应用

积层薄膜事业部的CERAMICPOWDER从业体受入后使用。1月受入的POWDER的平均径为0.35m,2月是0.38m,2个月间的POWDER径是否可以下结论有差异。t-分布利用于以原来的数据为本,统计地判断有无平均值的差异比较2个集团间的平均时需要下列2项前提条件。请思考一下理由.2个集团应具有相当正规的分布2集团的分散均匀利用t-分布进行比较时一个集团内有30个以上的数据时可以减少误差。71t-分布的应用积层薄膜事业部的CERAMICPOWD标本分布中计算平均的位置1.正态分布:已知母集团的标准偏差()时可以适用(可能性很少)Z=X-

/√nMINITAP的1-SPLZTest实际上在我们想知道母集团的平均时,我们提前知道母集团的标准偏差而去接近的情况极少。2.t-分布:t=X-

S/√n参照MINITAP的1-SPLtTest,2-SPLtTest想知道母集团的平均时,虽然不知道母集团的标准偏差,但并不难求出样品的标准偏差(S)。72标本分布中计算平均的位置1.正态分布:已知母集团的标准偏2-分布:不相同的两个以上集团的概率的统计验证根据情况不仅平均的标本分布,连分散的标本分布也很重要。例如罐头厂罐头的平均重量与罐头的重量都很重要母集团的分散的标本分布可利用2分布表示,两个母集团的分散的标本分布可利用F分布表示。对正态母集团N(,2)的概率分布X1,X2,….Xn 的分布称为自由度为n-1的2分布.2

=(Xi-X)2

2(n-1)S2

2=f(x)0n=1n=5n=10732-分布:不相同的两个以上集团的概率的统计验证根据2-分布:实际的使用例题

现有1元的硬币1个,张课长掷硬币100次时正面出现63次,反面出现37次。理想的结果是正面50次,反面50次。此时是否可以下结论上述结果是偶然出现的,或者认为是因为硬币的形状不正常出现的必然结果得出这种比率的结论时,可以有效使用2分布近似的情况有在生产现场白班作业的不良率为2.0%,夜班作业的不良率为2.5%那么是否可以确信夜班不良率高于白班不良率?请用MINITAB得出结果.742-分布:实际的使用例题现有1元的硬币1个,张课长F-分布:不同的两个以上集团的分散的均一性验证.母集团是正态分布,从具有分散12,22

的两个母集团中抽取大小为n1,n2两个标本计算标本分散.两个标本分散为S12,S22时由标本分散与母分散的比率形成的两个2的比率形成F分布,F分布具有两个自由度.12

=(n1-1)S12

12

~

12(n1-1)22

=(n2-1)S22

22

~

22(n2-1)12/(n1-1)22/(n2-1)=S12/12S22/22~F(n1-1,n2-1)上式内容中可知F分布是比较两个母集团的分散75F-分布:不同的两个以上集团的分散的均一性验证.母集F-分布:实际的使用例1=2,2=41=12,2=121=4,2=6金代理在进行工程变化后,将变化前后的平均值用t-Test比较的结果,认为没有差异认为工程变化对制品特性无影响.这个判断正确吗答)错误.分布的特性不仅是平均值,还要考虑分散.在上述情况平均相同,但工程变化后的分散比变化前增加了2倍,得出结论是工程变化影响制品特性.F-分布是用在比较分散的均一性.了解一下利用MINITAB的实际的使用方法和解释方法.76F-分布:实际的使用例1=2,2=41=12,推定与验证

推定?母集团的特点由分布函数来体现,母集团具体的特点由分布函数的母数来决定因此为了解母集团的具体的性格对母数进行的推测叫推定(Inference).

验证?假设母集团的母数,以样品的情报来判断其假设的真伪的过程叫假设验证.(HypothesisTesting).77推定与验证推定?33推定为了解母集团的特点推测母集团的分布函数推定的种类

1)点推定

未知的母数用一个推定值表示,但因未包括误差的范围,无法保障与母数一致。

2)区间推定

预想包括母数的真值的预想区间,按照信赖区间范围不同对母数进行区间推定时指求P(L<<U)=1-的L与U此时[L,U]称为信赖区间,1-为信赖水平.78推定为了解母集团的特点推测母集团的分布函数推定的种类34推定母集团平均的信赖区间0/2=0.025-Z0.025=-1.96/2=0.025Z0.025=1.96=0.05时Z/2和-Z/2的值即,信赖区间:95%1)已知标准偏差:利用正态分布P(-Z/2<<Z/2)=1-

X-

/√nP(L<<U)=1-

对此解X-Z/2/√n<<X+Z/2/√n的100(1-)信赖区间因可得出上述所有变数,可以推定平均的区间推定79推定母集团平均的信赖区间0/2=0.025-Z0.02推定母集团平均的信赖区间=0.05时t/2与-t/2的值即,信赖区间:95%2)未知标准偏差时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论