00.配套、数据集02统计讲稿补充_第1页
00.配套、数据集02统计讲稿补充_第2页
00.配套、数据集02统计讲稿补充_第3页
00.配套、数据集02统计讲稿补充_第4页
00.配套、数据集02统计讲稿补充_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、15.2.5 正态分布一般正态分布用记号 X N (,2 ) 表示其中,为均值, 为2 方差特别, 称 N(0,1) 为标准正态分布.性质:设 X N (, 2 )则Z X N0(,1)Z 值的含义要能深入理解。的“标准 分”,身高、体重的 Z 值代表在整个分布中的位置。2马逢时6.2.1 统计补充:导出分布及其应用1. 导出分布的定义(见蓝81 92)卡方、T分布及F分布2. 思考题:1)Z为标准正态分布,则Z2的分布为2)T为 t(n)分布,则T2的分布为3)F为 F(n,m)分布,则1/F 的分布为4)F 分布表可用,求 F0.025 (9, 7) 的值5)设 已(未)知,求 的95%置

2、信区间。6)设 已知,求 2 的95%置信区间。1马逢时2累积分布函数概念概念:Cumulative Function F(x) :当 x 给定后,F(x)代表 x 左方面积, 即随量X小于 x 的概率。(显然,随x的增大,F(x)也增大;直到x无限增大, F(x)最后达到1)F(x)代表这块面积xX4马逢时一般正态分布与标准正态分布y 如果有 Y N ( ,2 ) ,令 z 则 z N (0,1)y z 3马逢时对应Z值的理解生在期末实际成绩为72分,但折某高校算为z值时得到 z = -2。这说明什么? z值有什么用?因为 z = -2,说明大约只有2.28%的学生成绩比他低。此学生成绩在班

3、内比较差。z值作为描述其在分布中的位置非常有用。某位满岁婴儿,其身高z值为 . ,体重z值为0.7。这是什么意思?说明此婴儿发育状况如何?大约有90%的同龄婴儿比他矮,大约有76%的同龄婴儿比他轻。他的总发育状况很好,但仍不够均衡,在偏高的婴儿中他仍有些偏瘦。马逢时63分位数(le)概念当 p 给定后,XP代表 左方面积为p时, 横坐标 的位置。显然,随p的增大, XP 也增大;直到随p增大到1, XP 也增大至于无限。对于年分布,如果右侧概率为 1/T,则其分位数称为T年一遇值。例如, X0.99 为百年一遇值; X0.95 为廿年一遇值; X0.90 为十年一遇值。p代表这块面积XxP5马

4、逢时4列联表与Simpson悖论经卡方检验,车间 B 优于车间 A。对两种产品分别进行卡方检验,车间 A 都优于车间 B 两种产品不良率不同,不能用求和方法处理。8马逢时5.2.7统计量与抽样分布设Xi N (, ), i 1,., n.2 2则X N (, n )可以化为Z X N ( 0 ,1)n还有,X T s t(n 1)n这里, t (n) 是度为n 的 student T-分布. T分布与标准正态分布形状相同,只是更分散。7马逢时6.4.3 Simpson悖论原例按按人分类,不论是白人或,黑判比都高于白人。不区分刑比率高于则总的数据却是:白人。被判死为白人时判比率高,而白人白人的比

5、率高:132/(132+9)=0.93610马逢时56.4.3 Simpson悖论原例Simpson悖论(此例仅为数学悖论而非统计悖论)Florida州1976-1977年被判情况结论:白人被判比率高于9马逢时66.4.3列联表的统计分析再仔细分析更进 步数据5 个学院的报名及录取状况数据文件:学生录取.MTW这属于 3维列联表。学院是最外“层”。 结论:各学院男女录取比率均无显著差异。12马逢时6.4.3列联表的统计分析M大学录取结果全校总和的比较用列联表检验,男生录取率显著高于此结论对吗?11马逢时录取人数未录取人数报名人数录取率男生73392616590.441842898514130.

6、302976.4.3列联表的统计分析按学院列出报名人数及录取率如下:“ 总录取率低”的原因是男 报名人数的分布不同:男生在录取率高的学院考生比率高; 在录取率高的学院考生比率很低。14马逢时6.4.3列联表的统计分析将学院作为外层,各学院男录取比率均无显著差异。13马逢时8残差方法为了进行残差,要以下残差图:残差和试验顺序(时间序列)残差和响应( y )若有“喇叭口”要考虑对Y做变换%Boxcoxregres Y C1-Cp残差的正态分位图残差和输入因子(Xs)若有弯曲要考虑增加X的高阶项16马逢时6.5.7 Mood 中位数检验原理:先求出全部数据的中位数M,再在各样本内对于“比M大”、“比

7、M小”的数据个数,列联表。例题:Casting.mtw 对A-E共6个车间轮箍断裂强度比较中位数检验相当于符号 检验,数据量要求要大,但稳健性好;Kruskal-Wallis 检验相当于符号秩检验,数据量可以很小,但稳健性差。15马逢时9残差的常见处理11. 残差和响应图中若有“喇叭口”要考虑对Y做变换例:Reg_氨损失量%boxcoxregres C6 C2-C5(首列为全1,列号不必须连续)在=1处兰线位于红虚线上方,则需要对Y做变换图中可看出,当=0.5时兰线有极小值,故对Y做变换Y*=Y0.5可以使残差图消除喇叭口。18马逢时残差图例:Reg_氨损失量17马逢时的常见处理2残差残差对于

8、值也发现有弯曲但更重残差对于预测值也发现有弯曲,则要考虑增加X的高阶项。也有弯曲马逢时2010残差的常见处理22. 残差和自变量图中若有弯曲,则要考虑增加X的高阶项。例:原木体积的估算(数据文件:Reg原木体积)自变量系数 系数标准误TP 方差膨胀因子常量 -4.45980.4151 -10.74 0.000C3.21180.128325.04 0.000 1.041H0.248440.052774.71 0.000 1.041S = 0.417781 R-Sq = 96.4% R-Sq(调整) = 96.1%方差分析来源度SSMSFP回归2126.550 63.275 362.52 0.00

9、0残差误差274.713 0.175合计29 131.26319马逢时11残差的常见处理2解决办法:增加 C2 项(记为CC)行否?发现有问题。将自变量 x 与所有其它自变量作回归,设决定系数为 R2ii若 R2 接近于1,则说明 xi 有依赖于其它自变量的线性关系,i此方程应修改。为度量这种依赖性,引入方差膨胀因子VIF =1此数值肯定大于1,它越大则说明线性i-2依赖关系严重(即存在共线性)。i应增加输出“方差膨胀因子”,本例中 VIF 最大者远超过10 。若VIF 回归 二进制Logistic回归”进入。使用“响应”/“频率”格式:“响应”填写“”;“频率”填写“人数”;“模型”填写“

10、”及“”婚况”;因子填写“婚况”。打开“ ”,选存“事件概率”。得到Logistic回归,且是分4组给出的结果。分4组给出在不同段上的概率。29马逢时2 二值逻辑回归应用例3有配偶概率, 丧偶概率, 离婚概率, 未婚概率 的时间序列图1412108642012345678910指数马逢时3216数据变量有配偶概率丧偶概率离婚概率未婚概率2 二值逻辑回归应用例3Logistic 回归方程:11.9594 有配偶p 11.51603 丧偶ln 0.12416 1 p 11.84606 离婚 10.82948 未婚系数为正,表明随增长,率在上升。每增加1岁, ln p将增加0.124,也即优势比(死

11、1 p0 12416亡率与存活率的比值)将增加 e 1.1322倍。有配偶率最低;离婚者丧偶者率次之;丧偶者率较高;未婚者率最高。31马逢时3 名义值的Logistic回归响应变量取值只”或“否”,称为名义值的Logistic回归分析,仍借助于二值Logistic回归分析。离散变量取名义值的情形(品牌有A、B、C、D共 4种;车间中有A、B、C共3种车床等等)。与响应变量有关的自变量:可以是离散变量,也可以是连续变量,要建立回归方程。主要的工具就应该是二进制Logistic回归分析:从离散的响应变量的多个取值中,选出一个作为“参考值”。其余者轮流与之配对,采用二进制Logistic回归方法来分

12、析。原来如果取K个名义值,可以用K-1对二进制Logistic回归方法来解决全部问题。33马逢时3 名义值逻辑回归例3。分析汽车销售问题。了他销售的303辆汽车的各项状况:包括汽车销售商、状况、购车者国别、汽车尺寸、汽车车型,数据文件为:TBL_汽车销售MTW响应变量为汽车车型(汽车尺寸)。它们与(连续变量)、国别的定量关系从指令“统计 回归 名义Logistic回归”进入。使用“响应”/“频率”格式:“响应”填写“”;“频率”填写“人数”;“模型”填写“”及“”婚况”;因子填写“婚况”。打开“ “事件概率”。”,选存得到Logistic回归,且是分4组给出的结果。34马逢时17187.5.4

13、 响应曲面设计练习例2。提高弹力的响应曲面设计。1)对于成分A、成分B、温度3因子进行23 3试验,数据文件为 DOE弹力. mtw。分析结果及残差图都显示出现弯曲。要进行RSM。 2)安排CCC设计,共需20点,(含6个轴向点,及再补3个中心点);在原试验结果基础上,再安排 9点,但担心试验条件的变化,将这些试验划归另一个区组 。数据文件为DOE弹力RSM. Mtw3)分析要y点:1. 分析时区组作为因子,区组响应显著;2 .对于 的残差图呈现“喇叭”状,提示要对Y做变换;3 .指令确认取=-0.5可使方差达到齐性;4 .对Y进行变化,重新计算,确认结果正常。找到最优设置。5 .对于最优设置

14、进行预报时,先要在分析时删去区组作为因子,然后才能给出预报6 .考虑和不考虑区组的预报误差悬殊,对于两区组差异显著的原因要进行分析。36马逢时4 有序值逻辑回归离散变量取有序值的情形,例如空气污染等级分为I、 II、III、IV共4个级别,这里IV级污染最重,III级次之,II级更好些,I 级最好,他们之间可以排出顺序 来。这就提供了比前两种情况的信息。工具仍为二进制Logistic回归分析。I II III | VI;I II | III VI; I | II III VI 共比3次一般,序观测值分为K级,比较共K-1对。蝾螈的分为3级:1级是小于10天;2级是介于10天至30天;3级是31

15、天以上。比两次: I | II III; I II | III;回归系数是0.1199。毒性水平每增加1级,会变为原来的exp(0.1199)= 1.127倍,即出现1级的可能性与出现2、3级的优势比增加大约12.7%。35马逢时常规控制图的计算与分析例1 数据:BS钢筋.MTW (I MR)例2 数据:SPC瓷砖.MTW(Xbar-R)或先求日均值再(I-MR)相差不大。例3 数据:SPC_直径.MTW例4 数据:SPC _二极管不合格品率.MTW (2题)例5 数据:SPC _缺陷率.MTW (2题)例6 数据:SPCBarR.MTW例7 数据:SPC-EWMA.MTW例8 数据:SPC

16、_过程指标.MTW马逢时38197.5.5 响应曲面设计练习例2。双响应变量的响应曲面设计。对于框架的 3 个几何尺寸因子A、B、C 进行RSM 试验,指标Y为框架下端的下沉量,对于每个设置重复试验 3 次。希望Y的平均值越小越好且希望波动达到最小。数据文件为DOERSM2. mtw。根据3次重复试验结果,对于各设置条件下的Ybar及S分别进行响应曲面分析。全部正常且有意义;归纳出全部项皆应包含在模型内。对于各设置条件下的Ybar及S分别使用等值线进行最优设置估计。对于各设置条件下的Ybar及S联合使用“响应曲面优化器”以求得最佳点(要给出最优化出发点的粗略估计)。对于最优设置条件下的Ybar

17、及S给出。如果要求下沉量目标为 9 mm且希望波动达到最小,如何解?37马逢时20EWMA控制图如果取 0.2 则可以有:Zt 0.2xt 0.16xt 1 0.0128xt 2 0.01024xt 3 .可见,值越小时,光滑效果越好;值越大时,保真效果越好。通常取=0.2,或更小些,可以调整试算。还可以选用移动平均控制图,其效果与EWMA类似。统计控制图时间控制图移动平均40马逢时统计控制图时间控制图EWMA4. 特殊控制图指数移动平均(EWMA)控制图当过程均值有微小系统漂移时,常规控制图反应迟钝将当前数据及历史数据进行平均则可以看出可能存在的漂移趋势。指数权公式:记 xt 为当前的观测值

18、,Zt 是新统计量。递推上去,可以得到: Zt xt (1 )Zt 1Zt xt (1 )xt 1 (1 )Zt 2 xt (1 )039马逢时211)非独立数据的控制图数据不独立时画控制图:控制限不正确;异常点不正常地增多。独立性的检验:I)游程检验 II)自相关函数检验,皆不超界 III)偏自相关函数检验,皆不超界非独立数据的分析属于时间序列分析的范畴,这里可以拟合ARIMA模型,残差即可。42马逢时5. 非标准情况下的控制图标准情况的3项假定及待解决的问题1.所有数据观测值及T值 A.不验证上述条件直接画是相互独立的,控制图的;2.过程中只有单一B. 如何检验上述条件;波动源随机误差。3

19、.T值大致呈正态分布。 C.出现上述问题时的对策;41马逢时223)非正态控制图画法.使用Box-Cox变换法确定使之变为正态的Lambda值。将变换后的数据y*求出。 使用Option可以省略此步对y*求出UCL*及LCL*将UCL*及LCL*反变换为UCL及LCL将UCL及LCL标在原数据图上使用分位数方法。用%UCLC data 求出百分位数,再标在图中。44马逢时2)非单一变异源的控制图A. 带子组数据的Xbar-R图的两种画法:I) 直接画Xbar-R图,II)先求小组均值再画X-MR图当数据只有单一变异源时,二者相差不大。当数据含有多变异源时,二者相差很大。B. 画多变异图(S-Q

20、uality Tools-Multi Vari Chart)或用ANOVA计算出方差分量(随机误差应占90%以上),以判定变异源是否单一。C. 分别对Xbar,MR及R(或S)三者各自画控制图。统计控制图子组的变量控制图 I-MR-R/S(组间/组内)43马逢时二项分布下的业绩指数计算过程能力指数的计算主要目的之一是为了得出水平并估计出产品的不良率值。对于二项分布,其本身已知不良率(通常指短期),为此只需求出 Z 值(短期),反查附录表2;并求出长期能力指数将Z值加1.5即可。例。 已知生产线上的二极管的不良率求 短(长)期Z 值。45马逢时23泊松分布下的业绩指数计算泊松分布的过程能力指数计

21、算只要给定DPU即可DPU DU直通率Y eDPU缺陷率p=1-eDPUZ =-1(Y )FTFT例:的20个中平均有8个瑕疵点,求ZDPU 8 0.4直通率Y eDPU e04 0.6720FT缺陷率p=1-eDPU 1 0.67 0.33从数值上看,当DPU小于1时,缺陷率 p 的数值要比DPU还要稍小些。这是因为,瑕疵点不会恰巧每个零件上恰好一个,因此缺陷率 p (上例中为0.33)比DPU(=0.4)稍小。46马逢时不良率Z值(短期)Z值(长期)0.012.433.930.0013.094.590.00013.725.2210 ppm4.265.763.4 ppm4.506.007.4

22、.3FFD试验的分析例1.降低微型变压器耗电量问题.影响变压器耗电量至少有4个因子要考虑:A绕线速度、B矽钢厚度、C漆包厚度和D密封剂量。可以认为AD间无交互作用。 安排 12次试验的。数据文件为:DOE_变压器(部分).MTW。分析方法与全因子完全一样,但要注意,表面上AD显著,其实 AD与BC是混杂的,根据背景资料,可以断定是BC显著。(如果无背景资料则无法判断,必须增加试验才能予以区分。例2.提高离合器问题.影响离合器至少有4个因子:A弹簧长、B杆径、C槽径和D润滑油粘度。可以认为AD间无交互作用。 安排12次试验的。数据文件为:DOE离合器.MTW。同样,表面上AD显著,其实是BC显著

23、。给出最佳设置及。马逢时48247.4.2FFD试验的计划例3 。A-F 6个主因子,和 AB, BC, CE, DF 各二阶交互效应,下列哪个生成元是可行的?1)E=ABC,F=ABD ;2)E=ACD,F=BCD ;3)E=BCD,F=ABC ;4)E=ABD,F=ABC ;计算方法:将条件转化为“排除条件”:ABCE;ABDF;BCDF;CEDF EABC; FABD; FACD; EFCD这并不能得到明确结果。用淘汰法,容易看出1)及2)不可行。 4)使得EF=CD,也不可行;3)EF=AD可行综合上述结果:正确为 3)。47马逢时7.5.1响应曲面设计中的中心点(续)等精度(unif

24、orm Proci) 可保证试验中心点处的方差与 距中心距离处的相同。V y10V y距中心的距离是有一个中心点的可旋转的 CCD 设计方差。马逢时50257.4.4 带区组的因子设计及分析例3.电焊机工艺条件的改进问题.影响焊接强度至少有4个因子要考虑:A温度、B速度、C压力和D合金量。但试验时只要10套模具可以使用。 安排带4次中心点的全因子试验。如何安排。数据文件为:DOE焊接.MTW。分析方法与全因子完全一样,但要注意:1)分析时先要将“区组”当作一个因子(若不显著则可删除)2)分析因子显著性时,要将“区组”当作一个因子(以提高分析精度);3)预报时则要另求一次方程,“区组”当作一个因

25、子。4)区组效应显著时必须增加分析区组效应的次原因,以便消除区组效应。无法消除区组效应时,要对预报对象所在区组状况给出判定。49马逢时267.5.5 响应曲面设计练习例1。提高弹力的响应曲面设计。1)对于成分A、成分B、温度3因子进行 23 3试验,数据文件为 DOE弹力. mtw。分析结果及残差图都显示出现弯曲。要进行RSM。 2)安排CCC设计,共需20点,(含6个轴向点,及再补3个中心点);在原试验结果基础上,再安排 9点,但担心试验条件的变化,将这些试验划归另一个区组 。数据文件为DOE弹力RSM. Mtw 3)分析要点:1. 分析时区组作为因子,区组响应显著;2 .对于 y 的残差图呈现“喇叭”状,提示要对Y做变换;3 .指令确认取=-0.5可使方差达到齐性;4 .对Y进行变化,重新计算,确认结果正常。找到最优设置。5 .对于最优设置进行预报时,先要在分析时删去区组作为因子,然后才能给出预报6 .考虑和不考虑区组的预报误差悬殊,对于两区组差异显著的原因要进行分析。52马逢时7.5.1响应曲面设计中的中心点(续)适当增加中心点的数量,设计中心的 Vy 可一直降低到与编码的距中心距离的 Vy 相同为止。 此特性称为等精度。V y01距中心的距离Vy 是中心点数量达到等精度的可旋转的CCD设计的方差。51马逢时277.5.5 响应曲面设计练习当重要度为(1,1)时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论