版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6个西格码运用之所需统计手法的统计学之十大概念6个西格码运用之所需统计手法的
通过对数据的统计分析,掌握数据分布及变化规律,运用各类模型分析和把握各类过程中各种因变量特点,可以大大提高过程改进、新产品新工艺开发的效率统计学概要经验、勇气、直觉统计学概要经验、勇气、直觉统计学契合如下科学的思维方式模型演绎数据归纳专业专业统计学契合如下科学的思维方式模型演绎数据归纳专业专业MINITAB介绍统计软件包1972年诞生于美国不断升级(最新16版)MINITAB:运用广泛,数据分析能力强,且具有相当好的处理固定因子和随机因子的实验分析能力Design-Expert:侧重实验设计的软件包MINITAB介绍统计软件包1972年诞生于美国MINTAB介绍MINTAB介绍统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误基本概念:试验、随机事件、随机变量、概率概念导入朝上还是朝下?X={0,1}P(x)=50%基本概念:试验、随机事件、随机变量、概率概念导入随机样本:等可能抽样出来的样本,可以用来说明总体(代表)表达随机变量所用数据的两种形式数据时间、温度、距离、重量、等可连续分割的数据,要求数据准确,但对数据量要求不大好/坏、正面/反面、等不可分割的数据,要求数据准确度不高,但要求数据量大数据连续数据离散数据随机样本:等可能抽样出来的样本,可以用来说明总体(代表)表达基本概念:母集团(总体)、样本、样本容量、样本函数、统计量母集团样本统计量:样本均值、样本中位数、众数样本极差、样本方差、样本标准差等等概念导入随机抽样基本概念:母集团(总体)、样本、样本容量、样本函数、统计量母随机抽样产生简单随机样本,并产生抽样分布,它是假设检验理论的基础。抽样随机样本:1.等可能性2.独立性自相关样本由于不具备独立性而不具有代表性如天气温度,CPI数据等随机样本:1.样本均值分布---标准正态或t分布2.方差分布-------卡方分布3.两个方差之比的分布---F分布随机抽样产生简单随机样本,并产生抽样分布,它是假设检验理论的简单随机样本抽样方式分两种,都要求抽样的随机化(1)抽签法(2)滚球法(3)计算机模拟法
(4)随机数表法(1)比例分配法
(2)适度分配法
(3)经济分配法简单型分层型ninNiN=ninNiσi=ΣNiσininNiσi=ΣNiσiCiCi抽样简单随机样本抽样方式分两种,都要求抽样的随机化(1)抽签法随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计一下全国所有12岁女性身高样本浙江XXX新疆沈阳随机抽样母集团实例导入随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计直方图随机样本:等可能抽样出来的样本,可以用来说明总体(代表)全国所有12岁女性身高直方图表达直方图随机样本:等可能抽样出来的样本,可以用来说明总体(代表位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计量:反映总体不同特征的、不含有未知参数的样本函数(1)描述中心位置的统计量-----1.样本均值位置效应位置效应位置效应
X=Xinni=1S位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学对事件的描述------位置效应均值=120.2均值=154.3μμ矮个高个位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学处理的对象:数据统计量(散度效应)(2)描述波动情况的统计量-----1.样本方差2.样本标准偏差散度效应统计量:反映总体不同特征的、不含有未知参数的样本函数nS2
=1)(21--å=nXXii
1)(21--å=nXXniiS=随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计散度效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学对事件的描述------散度效应标准差=7.691标准差=0.821σσ个头匀称个头差别大散度效应随机样本:等可能抽样出来的样本,可以用来说明总体(代位置和散度效应的工程指导意义1543210-1-2-3-4-51.00.50.0XvalDistWideUSLLSLA(白体)B1A(白体)B1过程B1与A的均值相同但离散程度大。Action:缩小过程的波动。位置和散度效应的工程指导意义1543210-1-2-3-4-B2过程散度的幅度与A相同,但均值不同。
Action:将过程的均值移近目标值(为实现正确性)。LSLUSLAAB2B2位置和散度效应工程指导意义2B2过程散度的幅度与A相同,但均值不同。LSLUSLB3AB1、B2、B3的工程能力比A的小AB3B3过程比A过程的幅度宽,均值也不同。Action:将均值移近目标值,同时也要缩小波动。位置和散度效应工程指导意义3B3AB1、B2、B3的工程能力比A的小AB3B3过程比A过实际工作中的例子新产品开发时过程能力的计算实际工作中的例子新产品开发时过程能力的计算总体和样本的联系和区别“母集团分布函数”μ=母集团均值s=母集团的标准(偏)差s2=母集团的方差“样本分布函数”
s=样本标准(偏)差X=
样本均值s2=样本方差两者间的统计量表达是不一样的总体和样本的联系和区别“母集团分布函数”μ=母集团均值s总体和样本的联系和区别“母集团分布函数”μ=母集团均值s=母集团的标准(偏)差s2=母集团的方差“样本分布函数”
s=样本标准(偏)差X=
样本均值s2=样本方差X)=μE(s2)=s2E(E(s)=s无偏估计量:由样本推测总体的长期数学期望值,且具有最小方差数学期望?总体和样本的联系和区别“母集团分布函数”μ=母集团均值sS样本nS2
=1)(21--å=nXXii总体X=
Xinni=1=
S
XiNμs2
=)(2-åXiμNs
=)(2-åNXiμ
1)(21--å=nXXniiS=总体和样本的联系和区别在计算样本方差(标准差)时使用的自由度不同,自由度=n-1SS样本nS2=1)(21--å=nXXii总体X=均值和方差的性质设X为随机变量,a与b为任意实数,则
E(a*X+b)=a*E(X)+b对任意两个随机变量X1和X2则
E(X1+X2)=E(X1)+E(X2)对任意两个独立的随机变量X1和X2则
Var(X1±X2)=Var(X1)+Var(X2)特别对于方差的性质要注意!X0X1X2Y=X0-X1-X2X0、X1、X2只要做的大小符合一般公差大小就行了,反正有正负误差抵消的可能。这样理解可以吗?均值和方差的性质设X为随机变量,a与b为任意实数,则特别对于偏差平方和及自由度1234567在暗箱中任意摸出六个珠子后,未被摸出的第7个珠子
的状态就已知了。所以自由度数DOF=6这也是样本方差(标准偏差)和总体方差(样本)方差公式不一样的原因(什么地方不一样?)SS=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2偏差平方和统计量(SS):每个数值与平均值的差的平方和自由度:偏差平方和中独立元素的个数偏差平方和及自由度1234567在暗箱中任意摸出六个珠子后,残差和自由度n个观测的残差之和0,为一个线性约束,因为它们中的任何n-1个残差完全确定剩下的一个残差,因此残差和样本方差(标准差)一样有n-1个自由度一个模型中要计算几个样本特征量时有必要在残差上加载若干个约束。若有p个加在n个残差上的线性约束,则残差只有υ=n—p个自由度观测与样本均值的偏差称为残差(residuals)残差和自由度n个观测的残差之和0,为一个线性约束,因为它一个计算自由度的实例5个因子(处理)对血液凝固的影响此例在后续的方差分析中有用一个计算自由度的实例5个因子(处理)对血液凝固的影响此例在后统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)20个数据的12岁女性身高的直方图是粗糙的分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)12岁女性身高的数据增加到200个分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)12岁女性身高的数据增加到200个,图形变得细腻分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布频数概率方块顶点连线概率密度曲线=身高分布曲线n无限大,区间无限细分后矩形顶点的连线为概率密度曲线,曲线围起的面积=1P=p(x)
×d(x)分布频数概率方块顶点连线根据分布求概率MINITAB上有24中分布累计函数:求P的过程逆累计函数:求b的过程∫f(x)dx=p-∝b分布是数据的集合。表现形式是概率密度曲线。∝b-∝根据分布求概率MINITAB上有24中分布累计函数:求P的过在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布求概率在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布求概率个子高度在149.8-150.1间的概率是0.2925-0.2792=0.0133(1.33%)在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布分位数的概念“百年一遇”的洪水?已知分布和概率,可以求分位数
出现“百年一遇”的洪水是指出现高于某水位的概率是1%逆累计概率:知道分布和概率求分位数(水位)分位数的概念“百年一遇”的洪水?已知分布和概率,可以求分位数分位数的概念“百年一遇”的洪水?对标准分布,求分位数
出现“百年一遇”的洪水是指出现高于某水位的概率是1%逆累计概率:知道分布和概率求分位数(水位)分位数的概念“百年一遇”的洪水?对标准分布,求分位数出现“分布形状的描述1负偏度(左侧)正偏度(右侧)偏度零:对称分布=正态分布偏度系数用来度量分布是否对称。偏度系数与其标准差的比值(绝对值)大于2,拒绝正态性。分布形状的描述1负偏度正偏度偏度零:偏度系数用来度量分布是否正峰度比正态分布更陡峰度为零=正态分布负峰度与均匀分布相同,尾部较短分布形状的描述2峰度是刻画数据在均值两侧的集中程度的参数,峰度系数与其标准误差的比值用来检验正态性。正峰度峰度为零负峰度分布形状的描述2峰度是刻画数据在均值两侧σ正态分布拐点由偶然原因引起波动所产生的一种分布。工程上大多数随机变量服从这种分布。残差的分布服从正态分布是统计研究的一个重要出发点1.对称分布2.拐点与均值间的距离相当于1个标准差的大小μ正态分布的特征值是均值和标准差,所以表示为N(μ,σ2)σ正态分布拐点由偶然原因引起波动所产生的一种分布。工程上大多正态分布的检验1050.999.99.95.80.50.20.05.01.001ProbabilityC9p-value:
0.000A-Squared:
11.982Anderson-Darling
Normality
TestN
of
data:
250Std
Dev:
1.94084Average:
1.95712Normal
Probability
Plot个别数据的分布样本平均的分布接近正态分布正态分布的检验1050.999.99.95.80.50.20正态分布的标准变换μ=0(Z转换)σ=11Z=sXーμ1.标准变换后根据Z值可以查表立即查得概率2.可以作为总体比较(假设检验)的统计量(均值分布服从标准分布)N(0,1)Z大于等于1.96的概率2.5%Z大于等于1.645的概率5%正态分布的标准变换μ=0(Z转换)σ=11Z=sXーμ1.正态分布有关的练习题思路:标准差=?2.5%2.5%Z=1.96(85-83)/σ=1.96
σ=1.0220个落在(81,85)区间19个落在(82,84)区间可能性?6个正态分布有关的练习题思路:标准差=?2.5%2.5%Z=1.正态分布有关的练习题Z=0.98Z=(84-83)/1.02=0.9867.3%■每个产品落在82到84克之间的概率为67.3%■6个产品同时落在82到84克之间的概率为0.6736=0.0283(2.83%)正态分布有关的练习题Z=0.98Z=(84-83)/1.02箱线图的表达从图中可以看出分布情况及异常数据Q3Q1下限上限中位数下限=max{Q1-1.5(Q3-Q1),最小值}上限=min{Q3+1.5(Q3-Q1),最大值}均值987654321箱线图的表达从图中可以看出分布情况及异常数据Q3Q1下限上限箱线图的表达从图中可以看出分布情况及异常数据下限下限=Q1-1.5(Q3-Q1),最小值上限=Q3+1.5(Q3-Q1),最大值异常值箱线图的表达从图中可以看出分布情况及异常数据下限下限=Q1-箱线图的实际运用个例可以看出强度中位数时间轴的变化情况及变动(波幅)情况箱线图的实际运用个例可以看出强度中位数时间轴的变化情况及变动概率现实中的运用的例子1.航空保险航空公司赚多少钱?2.租赁工程机械租赁者赚多少钱?某一现象(如,硬币正面朝上)发生的确切程度;若该现象偶然发生的比例有极限值时,则该极限值为该值发生的概率;现象之和=1概率现实中的运用的例子某一现象(如,硬币正面朝上)发生的确切有用的公式E(X)(均值)=ΣxipiXp(x)dxX为离散随机变量X为连续型随机变量Var(X)(方差)=Σ[xiーE(x)]2pi[xーE(x)]2p(x)dxX为离散随机变量X为连续型随机变量∫-∝∝∫-∝∝知道概率或概率密度时,均值和方差的(数学期望)计算有用的公式E(X)(均值)=ΣxipiXp(x)d随机变量
p(y2|y1=175)=p(y2|y1=155)即
身高和体重两个随机变量是统计相依的。统计独立性:
p(y2|y1=175)=p(y2|y1=155)即
身高和智商两个随机变量是统计独立的。不知道它精确值,但知道它的概率分布统计相依性:随机变量不知道它精确值,但知道它的概率分布统计相依性:联合概率譬如:身高y1=175厘米和体重y2=120公斤的概率分布
p(y1=175,y2=120)=p(y2=120)*p(y1|y2=120)p(y1=175,y2=120)=p(y1=175)*p(y2|y1=175)p(y1,y2)=p(y2)*p(y1|y2)=p(y1)*p(y2|y1)统计独立时的概率:因为p(y1|y2)=p(y1)代入上式得p(y1,y2)=p(y2)*p(y1)两个以上事件共同发生的概率统计相依时的概率:联合概率p(y1,y2)=p(y2)*p(y1|y独立同分布假定y1,y2,y3为统计独立的,则p(y1,y2,y3,)=p(y1)*p(y2)*p(y3)假定y1,y2,y3----是同分布的(密度曲线同)n个观测可以称为独立同分布的y1,y2,y3--就像是来自于单一概率密度函数p(y)所代表的某个固定总体的随机抽样而产生的NIID分布:如果这个共同的总体分布为正态,称为正态独立同分布随机变量,它可以被刻画为一个抽样,表示来自于一个密度函数p(y)所代表的总体独立同分布NIID分布:如果这个共同的总体分布为正态,称为正概率的三个例子1.航空保险卖保险,20元一张,飞行事故是百万分之一,赔偿金是80万元,问航空公司从每张票上赚多少钱?2.租赁工程机械1天为500元,晴天可以赚700元,下雨天没有的赚,假设下雨的概率是0.4,请问这生意做不做?
μ=ー800000*10-6+20=19.2元μ=700*0.6ー500*0.4=220元离散性概率运用(数学期望)概率的三个例子1.航空保险卖保险,20元一张,飞行事故是百万3.离散性概率运用(数学期望)甲=100*(1/2+(1/2)*(1/2))=75法郎乙=100*(1/2)*(1/2)=25法郎概率的三个例子100$甲乙3.离散性概率运用(数学期望)甲=100*(1/2+(1/2统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误波动―偶然原因(Commoncause)“偶然原因(得到了管理)引起的波动,可长期稳定地维持某一特定形态(分布)。过程的输出才是可以预测的.波动―偶然原因(Commoncause)“偶然原因(得波动―特殊原因(未得到很好管理)引起的波动,引起过程不稳定的要素。不是始终作用于过程的变差的原因.波动―特殊原因(未得到很好管理)引起的波动,引起过程不稳
用85MPH的稳定速度在高速公路上驾车。一般原因特殊原因小组练习-请列表总结下述过程的一般原因和特殊原因。波动原因类型分析一般原因特殊原因小组练习-请列表总结下述过程的一般原因和特殊波动原因分析
答案一般原因・高速公路的倾斜・风的阻力・踩离合器的力度・驾驶者对速度的判断・测量工具(速度计)特殊原因・堵车・机械故障・高速公路巡查
用85MPH的稳定速度在高速公路上驾车。小组练习-请列表总结下述过程的一般原因和特殊原因。波动原因分析答案一般原因特殊原因小组练习-请列表总结下述过试验误差的几种表达试验误差:当一种操作或一个试验在尽可能接近相同条件的情况下重复进行时,所的的观测结果的偏差。它的产生有多种多样的原因1.测量误差2.分析误差3.抽样误差4.材料批次不同、操作人员不同、环境条件不同等5.人为错误系统好坏的衡量,简单的说,试验误差越小越好1.偏差系数μ/σ2.信躁比S/N试验误差是客观存在的,要分析各种误差---统计学的分析对象试验误差的几种表达试验误差:当一种操作或一个试验在尽可能接近重复性和再现性重复性和再现性是测量系统分析的两个重要指标!重复性:数据群的离散程度再现性:数据群相对目标值的偏差程度σμ重复性和再现性重复性和再现性是测量系统分析的两个重要指标!重重复性和再现性重复性好再现性不好重复性不好再现性不好重复性好再现性好看一下直观图象更容易明白!重复性和再现性重复性好重复性不好重复性好看一下直观图象更容易统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误置信区间(CI:ConfidenceInterval)用于表达抽样样本发生变化,其统计特征量的变化范围(确切程度)抽样100次,有95次母集团真值会落在怎样的范围内?这个范围叫置信区间反映总体(母集团)特征量的确切程度置信区间(CI:ConfidenceInterval)用于置信区间(CI:ConfidenceInterval)置信区间是大还是小好?用于表达抽样样本发生变化其统计特征量的变化范围(确切程度)置信区间(CI:ConfidenceInterval)置信置信区间(CI:ConfidenceInterval)用于表达抽样样本发生变化其统计特征量的变化范围(确切程度)置信区间(CI:ConfidenceInterval)用于置信区间(CI:ConfidenceInterval)用于表达抽样样本发生变化其统计特征量的变化范围(确切程度)置信区间(CI:ConfidenceInterval)用于置信区间(CI:ConfidenceInterval)用于表达抽样样本发生变化其统计特征量的变化范围(确切程度)N=20(150.66,157.85)N=30(151.42,157.16)置信区间小好,表示确切程度高样本大.置信区间小置信区间(CI:ConfidenceInterval)用于中心极限定理样本平均趋向正态分布,即使所基于的个体分布不是正态的定理:设X1、X2、---Xn是n个独立同分布的随机变量,且有有限的数学期望和方差,均值为μ,方差为s2时,(1)X=X1+X2+---+Xn
近视服从均值为设nμ方差为ns2的正态分布N(nμ,ns2)
(2)X=
近视服从均值为设μ方差为
s2/
n
的正态分布N(μ,
s2/
n
)
nX1+X2+---+Xn注:Xi分布对称时,只要n≧5,近视效果就比较理想;非对称时,要n≧30中心极限定理样本平均趋向正态分布,即使所基于的个体分布不是正中心极限定理的运用现实中的直接运用是什么?中心极限定理的运用现实中的直接运用是什么?中心极限定理的运用测量中运用:难测的多测两次,取平均值控制图中运用:一般取2,5个值的平均值平均值抽样总体两个最普遍运用中心极限定理的运用测量中运用:难测的多控制图中运用:一般取平统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误END谢谢聆听END6个西格码运用之所需统计手法的统计学之十大概念6个西格码运用之所需统计手法的
通过对数据的统计分析,掌握数据分布及变化规律,运用各类模型分析和把握各类过程中各种因变量特点,可以大大提高过程改进、新产品新工艺开发的效率统计学概要经验、勇气、直觉统计学概要经验、勇气、直觉统计学契合如下科学的思维方式模型演绎数据归纳专业专业统计学契合如下科学的思维方式模型演绎数据归纳专业专业MINITAB介绍统计软件包1972年诞生于美国不断升级(最新16版)MINITAB:运用广泛,数据分析能力强,且具有相当好的处理固定因子和随机因子的实验分析能力Design-Expert:侧重实验设计的软件包MINITAB介绍统计软件包1972年诞生于美国MINTAB介绍MINTAB介绍统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误基本概念:试验、随机事件、随机变量、概率概念导入朝上还是朝下?X={0,1}P(x)=50%基本概念:试验、随机事件、随机变量、概率概念导入随机样本:等可能抽样出来的样本,可以用来说明总体(代表)表达随机变量所用数据的两种形式数据时间、温度、距离、重量、等可连续分割的数据,要求数据准确,但对数据量要求不大好/坏、正面/反面、等不可分割的数据,要求数据准确度不高,但要求数据量大数据连续数据离散数据随机样本:等可能抽样出来的样本,可以用来说明总体(代表)表达基本概念:母集团(总体)、样本、样本容量、样本函数、统计量母集团样本统计量:样本均值、样本中位数、众数样本极差、样本方差、样本标准差等等概念导入随机抽样基本概念:母集团(总体)、样本、样本容量、样本函数、统计量母随机抽样产生简单随机样本,并产生抽样分布,它是假设检验理论的基础。抽样随机样本:1.等可能性2.独立性自相关样本由于不具备独立性而不具有代表性如天气温度,CPI数据等随机样本:1.样本均值分布---标准正态或t分布2.方差分布-------卡方分布3.两个方差之比的分布---F分布随机抽样产生简单随机样本,并产生抽样分布,它是假设检验理论的简单随机样本抽样方式分两种,都要求抽样的随机化(1)抽签法(2)滚球法(3)计算机模拟法
(4)随机数表法(1)比例分配法
(2)适度分配法
(3)经济分配法简单型分层型ninNiN=ninNiσi=ΣNiσininNiσi=ΣNiσiCiCi抽样简单随机样本抽样方式分两种,都要求抽样的随机化(1)抽签法随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计一下全国所有12岁女性身高样本浙江XXX新疆沈阳随机抽样母集团实例导入随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计直方图随机样本:等可能抽样出来的样本,可以用来说明总体(代表)全国所有12岁女性身高直方图表达直方图随机样本:等可能抽样出来的样本,可以用来说明总体(代表位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计量:反映总体不同特征的、不含有未知参数的样本函数(1)描述中心位置的统计量-----1.样本均值位置效应位置效应位置效应
X=Xinni=1S位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学对事件的描述------位置效应均值=120.2均值=154.3μμ矮个高个位置效应随机样本:等可能抽样出来的样本,可以用来说明总体(代随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学处理的对象:数据统计量(散度效应)(2)描述波动情况的统计量-----1.样本方差2.样本标准偏差散度效应统计量:反映总体不同特征的、不含有未知参数的样本函数nS2
=1)(21--å=nXXii
1)(21--å=nXXniiS=随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计散度效应随机样本:等可能抽样出来的样本,可以用来说明总体(代表)统计学对事件的描述------散度效应标准差=7.691标准差=0.821σσ个头匀称个头差别大散度效应随机样本:等可能抽样出来的样本,可以用来说明总体(代位置和散度效应的工程指导意义1543210-1-2-3-4-51.00.50.0XvalDistWideUSLLSLA(白体)B1A(白体)B1过程B1与A的均值相同但离散程度大。Action:缩小过程的波动。位置和散度效应的工程指导意义1543210-1-2-3-4-B2过程散度的幅度与A相同,但均值不同。
Action:将过程的均值移近目标值(为实现正确性)。LSLUSLAAB2B2位置和散度效应工程指导意义2B2过程散度的幅度与A相同,但均值不同。LSLUSLB3AB1、B2、B3的工程能力比A的小AB3B3过程比A过程的幅度宽,均值也不同。Action:将均值移近目标值,同时也要缩小波动。位置和散度效应工程指导意义3B3AB1、B2、B3的工程能力比A的小AB3B3过程比A过实际工作中的例子新产品开发时过程能力的计算实际工作中的例子新产品开发时过程能力的计算总体和样本的联系和区别“母集团分布函数”μ=母集团均值s=母集团的标准(偏)差s2=母集团的方差“样本分布函数”
s=样本标准(偏)差X=
样本均值s2=样本方差两者间的统计量表达是不一样的总体和样本的联系和区别“母集团分布函数”μ=母集团均值s总体和样本的联系和区别“母集团分布函数”μ=母集团均值s=母集团的标准(偏)差s2=母集团的方差“样本分布函数”
s=样本标准(偏)差X=
样本均值s2=样本方差X)=μE(s2)=s2E(E(s)=s无偏估计量:由样本推测总体的长期数学期望值,且具有最小方差数学期望?总体和样本的联系和区别“母集团分布函数”μ=母集团均值sS样本nS2
=1)(21--å=nXXii总体X=
Xinni=1=
S
XiNμs2
=)(2-åXiμNs
=)(2-åNXiμ
1)(21--å=nXXniiS=总体和样本的联系和区别在计算样本方差(标准差)时使用的自由度不同,自由度=n-1SS样本nS2=1)(21--å=nXXii总体X=均值和方差的性质设X为随机变量,a与b为任意实数,则
E(a*X+b)=a*E(X)+b对任意两个随机变量X1和X2则
E(X1+X2)=E(X1)+E(X2)对任意两个独立的随机变量X1和X2则
Var(X1±X2)=Var(X1)+Var(X2)特别对于方差的性质要注意!X0X1X2Y=X0-X1-X2X0、X1、X2只要做的大小符合一般公差大小就行了,反正有正负误差抵消的可能。这样理解可以吗?均值和方差的性质设X为随机变量,a与b为任意实数,则特别对于偏差平方和及自由度1234567在暗箱中任意摸出六个珠子后,未被摸出的第7个珠子
的状态就已知了。所以自由度数DOF=6这也是样本方差(标准偏差)和总体方差(样本)方差公式不一样的原因(什么地方不一样?)SS=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2偏差平方和统计量(SS):每个数值与平均值的差的平方和自由度:偏差平方和中独立元素的个数偏差平方和及自由度1234567在暗箱中任意摸出六个珠子后,残差和自由度n个观测的残差之和0,为一个线性约束,因为它们中的任何n-1个残差完全确定剩下的一个残差,因此残差和样本方差(标准差)一样有n-1个自由度一个模型中要计算几个样本特征量时有必要在残差上加载若干个约束。若有p个加在n个残差上的线性约束,则残差只有υ=n—p个自由度观测与样本均值的偏差称为残差(residuals)残差和自由度n个观测的残差之和0,为一个线性约束,因为它一个计算自由度的实例5个因子(处理)对血液凝固的影响此例在后续的方差分析中有用一个计算自由度的实例5个因子(处理)对血液凝固的影响此例在后统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)20个数据的12岁女性身高的直方图是粗糙的分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)12岁女性身高的数据增加到200个分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)12岁女性身高的数据增加到200个,图形变得细腻分布随机样本:等可能抽样出来的样本,可以用来说明总体(代表)分布频数概率方块顶点连线概率密度曲线=身高分布曲线n无限大,区间无限细分后矩形顶点的连线为概率密度曲线,曲线围起的面积=1P=p(x)
×d(x)分布频数概率方块顶点连线根据分布求概率MINITAB上有24中分布累计函数:求P的过程逆累计函数:求b的过程∫f(x)dx=p-∝b分布是数据的集合。表现形式是概率密度曲线。∝b-∝根据分布求概率MINITAB上有24中分布累计函数:求P的过在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布求概率在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布求概率个子高度在149.8-150.1间的概率是0.2925-0.2792=0.0133(1.33%)在正态分布时根据均值和标准差和分布的形态可以求出概率根据分布分位数的概念“百年一遇”的洪水?已知分布和概率,可以求分位数
出现“百年一遇”的洪水是指出现高于某水位的概率是1%逆累计概率:知道分布和概率求分位数(水位)分位数的概念“百年一遇”的洪水?已知分布和概率,可以求分位数分位数的概念“百年一遇”的洪水?对标准分布,求分位数
出现“百年一遇”的洪水是指出现高于某水位的概率是1%逆累计概率:知道分布和概率求分位数(水位)分位数的概念“百年一遇”的洪水?对标准分布,求分位数出现“分布形状的描述1负偏度(左侧)正偏度(右侧)偏度零:对称分布=正态分布偏度系数用来度量分布是否对称。偏度系数与其标准差的比值(绝对值)大于2,拒绝正态性。分布形状的描述1负偏度正偏度偏度零:偏度系数用来度量分布是否正峰度比正态分布更陡峰度为零=正态分布负峰度与均匀分布相同,尾部较短分布形状的描述2峰度是刻画数据在均值两侧的集中程度的参数,峰度系数与其标准误差的比值用来检验正态性。正峰度峰度为零负峰度分布形状的描述2峰度是刻画数据在均值两侧σ正态分布拐点由偶然原因引起波动所产生的一种分布。工程上大多数随机变量服从这种分布。残差的分布服从正态分布是统计研究的一个重要出发点1.对称分布2.拐点与均值间的距离相当于1个标准差的大小μ正态分布的特征值是均值和标准差,所以表示为N(μ,σ2)σ正态分布拐点由偶然原因引起波动所产生的一种分布。工程上大多正态分布的检验1050.999.99.95.80.50.20.05.01.001ProbabilityC9p-value:
0.000A-Squared:
11.982Anderson-Darling
Normality
TestN
of
data:
250Std
Dev:
1.94084Average:
1.95712Normal
Probability
Plot个别数据的分布样本平均的分布接近正态分布正态分布的检验1050.999.99.95.80.50.20正态分布的标准变换μ=0(Z转换)σ=11Z=sXーμ1.标准变换后根据Z值可以查表立即查得概率2.可以作为总体比较(假设检验)的统计量(均值分布服从标准分布)N(0,1)Z大于等于1.96的概率2.5%Z大于等于1.645的概率5%正态分布的标准变换μ=0(Z转换)σ=11Z=sXーμ1.正态分布有关的练习题思路:标准差=?2.5%2.5%Z=1.96(85-83)/σ=1.96
σ=1.0220个落在(81,85)区间19个落在(82,84)区间可能性?6个正态分布有关的练习题思路:标准差=?2.5%2.5%Z=1.正态分布有关的练习题Z=0.98Z=(84-83)/1.02=0.9867.3%■每个产品落在82到84克之间的概率为67.3%■6个产品同时落在82到84克之间的概率为0.6736=0.0283(2.83%)正态分布有关的练习题Z=0.98Z=(84-83)/1.02箱线图的表达从图中可以看出分布情况及异常数据Q3Q1下限上限中位数下限=max{Q1-1.5(Q3-Q1),最小值}上限=min{Q3+1.5(Q3-Q1),最大值}均值987654321箱线图的表达从图中可以看出分布情况及异常数据Q3Q1下限上限箱线图的表达从图中可以看出分布情况及异常数据下限下限=Q1-1.5(Q3-Q1),最小值上限=Q3+1.5(Q3-Q1),最大值异常值箱线图的表达从图中可以看出分布情况及异常数据下限下限=Q1-箱线图的实际运用个例可以看出强度中位数时间轴的变化情况及变动(波幅)情况箱线图的实际运用个例可以看出强度中位数时间轴的变化情况及变动概率现实中的运用的例子1.航空保险航空公司赚多少钱?2.租赁工程机械租赁者赚多少钱?某一现象(如,硬币正面朝上)发生的确切程度;若该现象偶然发生的比例有极限值时,则该极限值为该值发生的概率;现象之和=1概率现实中的运用的例子某一现象(如,硬币正面朝上)发生的确切有用的公式E(X)(均值)=ΣxipiXp(x)dxX为离散随机变量X为连续型随机变量Var(X)(方差)=Σ[xiーE(x)]2pi[xーE(x)]2p(x)dxX为离散随机变量X为连续型随机变量∫-∝∝∫-∝∝知道概率或概率密度时,均值和方差的(数学期望)计算有用的公式E(X)(均值)=ΣxipiXp(x)d随机变量
p(y2|y1=175)=p(y2|y1=155)即
身高和体重两个随机变量是统计相依的。统计独立性:
p(y2|y1=175)=p(y2|y1=155)即
身高和智商两个随机变量是统计独立的。不知道它精确值,但知道它的概率分布统计相依性:随机变量不知道它精确值,但知道它的概率分布统计相依性:联合概率譬如:身高y1=175厘米和体重y2=120公斤的概率分布
p(y1=175,y2=120)=p(y2=120)*p(y1|y2=120)p(y1=175,y2=120)=p(y1=175)*p(y2|y1=175)p(y1,y2)=p(y2)*p(y1|y2)=p(y1)*p(y2|y1)统计独立时的概率:因为p(y1|y2)=p(y1)代入上式得p(y1,y2)=p(y2)*p(y1)两个以上事件共同发生的概率统计相依时的概率:联合概率p(y1,y2)=p(y2)*p(y1|y独立同分布假定y1,y2,y3为统计独立的,则p(y1,y2,y3,)=p(y1)*p(y2)*p(y3)假定y1,y2,y3----是同分布的(密度曲线同)n个观测可以称为独立同分布的y1,y2,y3--就像是来自于单一概率密度函数p(y)所代表的某个固定总体的随机抽样而产生的NIID分布:如果这个共同的总体分布为正态,称为正态独立同分布随机变量,它可以被刻画为一个抽样,表示来自于一个密度函数p(y)所代表的总体独立同分布NIID分布:如果这个共同的总体分布为正态,称为正概率的三个例子1.航空保险卖保险,20元一张,飞行事故是百万分之一,赔偿金是80万元,问航空公司从每张票上赚多少钱?2.租赁工程机械1天为500元,晴天可以赚700元,下雨天没有的赚,假设下雨的概率是0.4,请问这生意做不做?
μ=ー800000*10-6+20=19.2元μ=700*0.6ー500*0.4=220元离散性概率运用(数学期望)概率的三个例子1.航空保险卖保险,20元一张,飞行事故是百万3.离散性概率运用(数学期望)甲=100*(1/2+(1/2)*(1/2))=75法郎乙=100*(1/2)*(1/2)=25法郎概率的三个例子100$甲乙3.离散性概率运用(数学期望)甲=100*(1/2+(1/2统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误差重复性&再现性中心极限定理位置效应散度效应分布概率统计学基本概念十大统计学基本概念数据类型自由度置信区间试验误波动―偶然原因(Commoncause)“偶然原因(得到了管理)引起的波动,可长期稳定地维持某一特定形态(分布)。过程的输出才是可以预测的.波动―偶然原因(Commoncause)“偶然原因(得波动―特殊原因(未得到很好管理)引起的波动,引起过程不稳定的要素。不是始终作用于过程的变差的原因.波动―
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多层陶瓷片式电感市场现状及未来发展趋势(2024版)
- 融文:2024撰写现代化PR报告的专业指南
- 荣泰煤矿6-2中煤大巷煤柱回收开采方案
- 水源地合理开采及恢复机制研究
- 广州-PEP-2024年11版小学4年级上册英语第6单元测验试卷
- Python程序设计实践-教学大纲、授课计划
- 2024年电能仪表项目资金需求报告代可行性研究报告
- 预制菜分类原则(征求意见稿)编制说明
- 珠宝销售个人工作计划
- 新娘结婚致辞
- 平方差公式(课堂PPT)
- 振冲碎石桩试桩方案泉港天佑项目2018.3.8
- 超星尔雅学习通《公文写作规范》章节测试含答案
- 昆虫分类表汇总
- GB_T 28581-2021 通用仓库及库区规划设计参数(高清版)
- 天然气管道增加快速切断装置改造施工方案
- 《企业文化与变革》PPT课件.ppt
- 城市轨道交通线路选线设计-徐振廷
- 工程委外维保流程ppt课件
- 中建股份公司合同管理手册
- 超高层建筑电气设计要点分析
评论
0/150
提交评论