




已阅读5页,还剩194页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试验设计DesignofExperiment 模块目标 在本模块中 你将学习1试验设计基本概念介绍 DOE培训一 2单因子试验设计及在实际中的应用3全因子试验设计及在实际中的应用 DOE培训一 4部分实施因子试验简介5响应曲面设计及在实际中的应6稳健参数设计试验简介 课程目标 人类在认识自然界的过程中 持续地进行着多方面的探索 试验是构成学习过程的一个要素 试验的统计设计方法开始形成在上世纪20年代 在这之前 科技工作者在试验中走了不少弯路 通过本课程的学习 使学员能理解试验设计的理论并能在实际的工作中运用以解决实际的工程问题 试验设计基本概念介绍 试验设计术语解释试验设计的基本原则试验设计的类型试验设计的基本步骤 什么是试验设计 就是研究如何以最有效的方式安排试验以获得含有最大信息量的数据 试验设计示例简介 合成氨纯度试验 在提高合成氨纯度 的工艺研究中 发现有3个因子 很重要 他们是因子A 温度 因子B 压力 因子C 反应时间 对每个因子都设定了高低两个水平 我们希望考察这3个因子中 那些因子效应 及交互效应 是显著的 其具体取值如下 A因子 温度 低水平460度 高水平500度B因子 压力 低水平250大气压 高水平270大气压C因子 时间 低水平20分钟 高水平30分钟 试验设计基本概念介绍 试验设计术语解释 因子factors 水平levels 主效应maineffects和交互效应interactioneffects 模型Model 误差error 试验设计基本概念介绍 因子factors可控因子和非可控因子 过程 x1 x2 x3 u1 u2 u3 y1 y2 y3 过程的模型 响应变量response 非可控因子 噪声因子 Uncontrolledfactor noisefactor 因子factor 试验设计基本概念介绍 可控因子 能影响响应变量且在试验总可以加以控制的因子 称为可控因子 可以是连续型的也可以是离散型的 非可控因子 影响过程及结果且能记录但不可控制的因子 称为非可控因子 通常包括环境状况 操作员 材料批次等等 可以是连续型的 也可以是离散的 通常我们把它们当做误差来处理 响应变量 我们关心的输出变量 常称为响应变量或指标 在试验设计中 只考虑单个响应变量的情况 试验设计基本概念介绍 水平 level 为了研究因子对响应变量的影响 需要用到因子的两个或更多个不同的取值 这些取值称为因子的水平 试验设计基本概念介绍 主效应maineffects和交互效应interactioneffects 例题 在农田试验中 A为灌溉 水少 水多 B为施肥 肥少 肥多 Y为产量图中可以看见优化的方向 A B 试验设计基本概念介绍 交互效应 当一项因子对响应项的作用取决于另一因子的水平或设定时 我们说这两个因子存在交互效应 主效应maineffects和交互效应interactioneffects 130 100 120 170 A A B B A的主效应 avg A avg A 30 B的主效应 avg B avg B 40 AB的交互效应 avg A B A B avg A B A B 10 试验设计基本概念介绍 主效应maineffects和交互效应interactioneffects 试验设计基本概念介绍 模型Model Y f X1 X2 Xk 误差 表达响应变量与可控因子变量之间关系的公式 误差error 试验误差experimentalerror 非可控因子 或噪声 造成的 还包含测量误差 失拟误差lackoffit 我们所采用的模型函数f与真实函数间的差异 试验设计基本概念介绍 试验设计的基本原则 重复试验 replication 随机化 randomization 划分区组 blocking 试验设计基本概念介绍 重复试验 replication 重复试验是指对一项试验组合进行不止一次的试验 也就是除正常试验次数外在相同输入因子水平组合下独立安排一次和多次试验 注意不是同一次试验下的重复测量 正常方法 全部试验安排皆重复1次或2次 代替方法 部分试验安排重复1次或2次 只在特定点处重复1次或2次 在中心点进行重复3或4次 我们在试验中一定要包含真正的重复 做重复试验的原因 显著性检验都是将不同试验间形成的差别与随机误差相比较 而重复试验就是为了得到随机误差 试验设计的基本原则 试验设计基本概念介绍 随机化 randomization 试验设计的基本原则 随机化是按随机的排序作试验 而不是依照试验设计的标准排序进行试验 防止那些试验者未知的但可能会对响应变量产生某种系统的影响 随机化并没有减少试验误差本身 但随机化可以防止未知的但可能会对响应变量产生的某种系统的影响的出现 如何做到随机化 随机化可以通过随机数据表或计算机随机数产生器完成 1 设有标准序 stdorder 及运行序 runorder 两列 初始值为自然序 2 在运行序 runorder 内形成随机数列3 将计划表中所有数据按运行序 runorder 的顺序由小到大排好 4 实施试验时 按运行序 runorder 的编号顺序执行之 试验设计基本概念介绍 试验设计的类型 根据试验的目的 可以分为4大类 1 因子设计 FactorialDesign 2 回归设计 RegressionDesign 3 稳健参数设计 RobustParameterDesign 4 混料设计 MixtureDesign 试验设计基本概念介绍 1 因子设计 FactorialDesign 试验设计的类型 目的 筛选因子分析因子及交互效应 方法 全因子试验 部分实施因子试验 2 回归设计 RegressionDesign 目的 找出Y对于X的回归方程 求出最优值 方法 响应曲面方法 3 稳健参数设计 RobustParameterDesign 目的 找出对环境条件及元器件变异不敏感的参数设置方法 田口 Taguchi 设计信噪比及内外表分析法 4 混料设计 MixtureDesign 目的 比率的总和为100 的配方问题方法 带约束条件的响应曲面设计方法 试验设计基本概念介绍 试验设计的基本步骤 1 计划阶段阐述目标选择响应变量 因子及其水平选择试验计划完成试验计划表2 实施阶段3 分析阶段 分析解释试验结果 试验设计基本概念介绍 1 计划阶段 第一步 阐述目标即问题陈述和试验目标的确定 包括 概述持续改善的总目标及本阶段的具体目标收集有效的背景信息总结与本问题有关领域的使用数据 试验设计基本概念介绍 第二步 确定因子及水平回顾试验目标定义响应变量和范围定义要研究的因子 范围和水平 因子确定宁多勿缺 因子的可行范围 因子的物理约束水平以前的知识和经验分析因子和响应之间的关系确定所选因子的水平变化范围不要过窄 效应不明显 不要过宽 规律性变差 考虑因子的交互作用 物理上不会有交互作用的可以去除 确定资源限制 包括时间 成本 材料 人员 仪器和设施 确定是否有已知的讨厌变量影响试验 考虑与试验有关的人为因素 试验设计基本概念介绍 第三步 选择试验计划筛选因子 一般选用2水平正交设计因子个数较多部分实施的因子设计 因子个数中等 全因子设计 因子个数特多 试验费用昂贵 Plackett Burman设计 试验设计基本概念介绍 回归设计 相应曲面设计 因子个数很少 2 4个 找出二阶回归方程 并希望求出最优值 通常为最大或最小 及其设置 稳健参数设计 一般选用田口 Taguchi 设计 目标为响应变量有望目特性因子个数不多 2到10个 对于误差因子的分析要求很细致因子水平可能为2或3 试验设计基本概念介绍 第四步 完成试验计划表因子水平有代码换为实际数值 顺序已经随机化 且已经按照Runorder的顺序牌好 最后一列留做记录响应变量值使用 准备试验记录格式要全面 时间 地点 操作员姓名 非可控因子的状况 一切非正常的状况 试验设计基本概念介绍 2 实施试验计划制定数据收集草案 包括谁做 干什么 在哪 何时 如何做 确定方法并获得必须的材料和设备做试验 确保按计划进行 不得随意改变原计划 记录尽可能多的信息 包括非受控但可以测量的因子 记录非正常事件备查 试验设计基本概念介绍 3 分析解释 拟合选定的模型 残差诊断 对选定的模型进行分析解释 进行验证试验 进行下批试验 模型要改进吗 目标是否已经达到 Y Y N Y 试验设计基本概念介绍 二 单因子试验设计及在实际中的应用 单因子试验设计及在实际中的应用 单因子试验的目的 一是想比较一个因子的几个不同设置间是否有显著差异 如果有显著差异 那个或哪些设置较好二是建立响应变量与自变量间的回归关系 通常是线性 二次或三次多项式 假设检验 回归分析 单因子试验设计及在实际中的应用 假设检验 假设检验HypothesisTesting 1假设检验背景知识介绍2假设检验 均值 X为离散数据 Y为连续数据 2 1单样本检验One Sampleztest OneSamplet test2 2双样本t检验Two Samplet test Paireddata2 3方差分析ANOVAoneway3假设检验 比例 X为离散数据 Y为离散数据 3 11proportion3 22proportion3 3Chi SquareTest 假设检验HypothesisTesting 1假设检验背景知识介绍目的 假设检验就是检查你的X是否对Y有 统计上的 显著影响 介绍两种方法来评估样本 置信区间 ConfidenceIntervals 和p值 p values Minitab的练习 假设检验HypothesisTesting 总体和样本PopulationsandSamples 样本 总体 统计 估计 样本是总体的子集通常我们没有总体的数据 因为要获得所有的数据很难或者代价很高 样本的特性 统计量 总体的特性 参数 假设检验HypothesisTesting 总体 全部对象举例 2003年5月在精密铸造车间生产的所有一级涡轮叶片 参数 描述总体特性的真值 总体的参数通常难以得到 假设检验HypothesisTesting 样本 sample是总体的一部分或子集 统计量 statistic是描述样本特性的数值 S 特定的样本有其特定的统计值 但是样本之间会不同 样本统计值 s 样本A 样本B 样本C 60 071 44 60 311 77 59 571 76 假设检验HypothesisTesting 假设检验是什么 假设检验是通过对样本数据的调查来推测总体参数 假设检验回答以下的实际问题 在和之间是否有显著的差异 在假设检验中 我们用相应的小样本来回答有关总体参数的问题 我们选择的样本总是有可能不代表总体 因此 通过假设检验作出的结论是有可能错的 在某些假定的情况下 我们可以评估出错误结论的风险 假设检验HypothesisTesting 假设检验的小例子你的工厂有几台发电机 没有任何一台的功率表现的显著的好或显著的差 为了提高产出 设备主管决定投资10万元来改进设备 设备主管想知道投资了更多的资金 时间和资源来更改的设备是否得到显著的改善 为此 从两台发电机收集到样本数据 一台经过改进 另一台没有 让我们从样本数据开始 发电机B是经过改进的 假设检验HypothesisTesting machineAmachineB89 784 781 486 184 583 284 891 987 386 379 779 385 182 681 789 183 783 784 588 5 问题 和发电机A相比 发电机B是否提高的产出 也就是回答这个问题 在发电机A和发电机B的产出之间是否存在着显著的差异 VariableNMeanStDevmachineA1084 2402 902machineB1085 543 65 A和B之间平均值的差异1 3是显著的差异还是仅仅是偶然原因引起的差异 假设检验可以回答这个问题 假设检验HypothesisTesting 为什么使用假设检验 1 为了改善流程 我们需要分辨出哪些因素影响平均值和标准差 2 一旦我们分辨出这些因素 就要调节它来改善 并且要追踪改善成效 用假设检验可以做出一致的判断 假设检验HypothesisTesting 何时使用假设检验 当图形显示的信息不明显时 我们使用假设检验来判断 判断两组数据的差别是真有其事 还是巧合是否有统计上的显著性或者仅仅是偶然性 假设检验HypothesisTesting 如何定义原假设Ho和对立假设Ha 先看一个例子 有罪vs无罪 司法系统判定一个人有罪需要足够的有罪证据 没有证据证明有罪 则无罪 人们不需要提出无罪的证据 原假设 Ho 人都没有罪 假设自然成立 对立假设 Ha 需要有力的证据证明被告有罪 假设检验 找到有力的证据来拒绝基本假设而采用对立假设简单的说 我们有明显的证据证明有不同的事情发生 原假设 Ho 无罪对立假设 Ha 有罪 假设检验HypothesisTesting 定义假设 Ho 假设检验的起点是原假设 Ho Ho是相同或没有差异假设举例 总体均值等于样本均值 Ha 第二条假设是Ha 对立假设 即差异假设举例 总体均值不等于样本均值总体均值大于样本均值总体均值小于样本均值 通常想证明差异是确实存在的 Ha 通常从假设相等 Ho 开始如果数据表明他们不相等 则判定差异存在 Ha 假设检验HypothesisTesting 评价决策错误 判断的正确和错误有4种可能性 Ho Ha 无罪 有罪 Ho Ha 自由 入狱 判决 实情 假设检验HypothesisTesting 决策错误评估 Ho Ha Ho Ha 判决 实情 系统有多大的能力将好的放行 系统有多大的能力将不好的找出来 风险 当Ho为真时 拒绝Ho 称为厂商风险 风险 当Ho为假时 接受Ho 称为消费者风险 假设检验HypothesisTesting 怎么用假设检验 阐述假设寻找证据作出结论例如 当你的老婆或老公极力向你辩护她 他没有说谎时 你会说 好 我先相信你没有说谎 以后要是我知道了你真的说谎了 我再也不相信你了 假设 寻找证据 作出结论 假设检验HypothesisTesting 阐述你的假设 描述一个假设 称为原假设Ho例如 击中目标 相同 无变化描述它的对立面 称为对立假设Ha事情是 没有击中目标 不同 有变化 寻找证据并做出结论 没有发现统计的不同 不像是关键的X 或者需要更多的数据来确认 找到统计的不同 数据说明这是关键的X 可作为下一步的研究 假设检验HypothesisTesting 连接真实的世界 问题解决的流程 实际问题 用实际术语描述实际问题 统计问题 用统计术语描述实际问题 Ho Ha 统计结果 P 拒绝Ho P 无法拒绝Ho 实际结果 用实际术语描述结果 假设检验HypothesisTesting 评估样本的方法 置信区间法ConfidenceIntervalCI 样本的平均值是总体平均值的最好估计总体的平均值与样本的平均值 可能会有些不同 但不会有极大的不同 假设检验HypothesisTesting 如何用置信区间法来判断原假设成立与否 Ho Ha 60 60 60 61 2 59 1 63 1 63 2 61 1 65 1 60 样本的置信区间包含Ho 我们说 无法拒绝原假设 样本的置信区间包含Ho 我们说 拒绝原假设 接受对立假设 假设检验HypothesisTesting 评估样本的方法 Pvalue法 在原假设成立的条件下 出现目前情况的可能性 Pvalue只能由计算机算出 P值大于等于0 05 没有足够的证据推翻原假设 即原假设成立 P值小于0 05 有足够的证据推翻原假设 进而对立假设成立 换句话说 有显著的不同 假设检验HypothesisTesting 含比较的工程问题陈述 确定用何种比较方法 确定产品或过程特性确定产品或过程的测量单位 确定比较方法 OnetoStandard onetoone Multiple 建立比较陈述 零假设对立假设 比较方向单向 双向样本数量 风险系数 检查独立性 如果不独立 只报告点估计和大体的图表 检查正态性 如果不正态 转换数据成正态或用非参数方法 含假设检验的比较方法流程图Comparisonflowchart 重要 假设检验HypothesisTesting 构造检验统计量 用样本的证据来接收或拒绝原假设 比较观察到的检验统计量和关键值比较Pvalue和风险系数比较 1 置信区间和标准值 写比较陈述结论 假设检验HypothesisTesting 2 1单样本检验 单样本z检验OneSampleZtest 当你有一组连续型的数据 你想检查这组数的均值是否与指定的值 目标 相同 并且已知标准差 单样本t检验OneSampleTtest 当你有一组连续型的数据 你想检查这组数的均值是否与指定的值 目标 相同 并且未知标准差 2假设检验 均值 X为离散数据 Y为连续数据 假设检验HypothesisTesting 为您的电源保险管生产线提供新生产工具的供应商称 他们的机器将提高贵工厂的平均小时产量 验证此生产法之实验生产线目前的产量是每小时3000只保险管 标准偏差为每小时300只保密管 为检验该供应商的承诺 我们购买并安装了一台新机器 试生产稳定后 本项目的指定工程师从一个月的生产量中随机抽取了16个小时的产量做为样本 此样本得出的平均小时产量大约为3199只保密管 该生产工程题应该得出怎样的结论 该工程师愿意承担5 的结论错误风险 认定新机器真地具有较高的产量 工程问题陈述 2 1单样本检验 单样本z检验OneSampleZtest 3 2假设检验HypothesisTesting SampleHourNo FusesProduced135832276433305431835283263244729488317192943103429113214123779133096143682152894163118 具体数据 3 2假设检验HypothesisTesting 实际问题陈述愿意承担5 的结论错误风险 认定新机器真地具有较高的产量 2 统计问题陈述Ho 已知 Ha 因变量X 新机器 旧机器为离散数据 项目指标Y 保险管产量 每小时为连续数据确定样本量为 小时 风险定为 属于单边比较 假设检验HypothesisTesting 3 统计结果分析检查数据的独立性 何谓数据独立性 按照时间顺序排列的数据 每个数据都不受其他数据的影响 而且我们必须确保我们所采集的数据是取自某一共同母体的随机 独立 样本 这样样本均值的方差才等于总体方差与样本量之比 为何要检验数据的独立性 确保比较的公平性和比较结果的准确性 假设检验HypothesisTesting 检验数据独立性的办法 将数据按照收集的时间顺序排列好 找出样本数据的中位数 stat basicstatistics graphicssummary 计算游程 runtest stat nonparametrics runtest 解释结果 Pvalue大于0 05即说明数据是独立的Pvalue小于0 05即说明数据是不独立的数据不独立怎么办 不独立的数据将影响我们估计方差 那么我们就不能用这门课所讨论的比较方法 对于不独立的数据 我们可以这样做 数据应该是时间上的不独立 尽量解释为什么存在不独立 报告点或位置估计 中位数 但不要估计数据的散布情况 报告按时间排列的图表 但不能是直方图 请教统计学家或黑带关于时间序列模型的问题 3 统计结果分析检查数据的独立性 假设检验HypothesisTesting 3 统计结果分析检查数据的独立性 1 中位数的获取 中位数 假设检验HypothesisTesting 检验数据独立性的Minitab演示 使用电阻丝的例子fuse mtw 2 游程计算 RunsTest FusesProducedRunstestforFusesProducedRunsaboveandbelowK 3177Theobservednumberofruns 10Theexpectednumberofruns 98observationsaboveK 8below Nissmall sothefollowingapproximationmaybeinvalid P value 0 605 3 统计结果分析检查数据的正态性 假设检验HypothesisTesting 正态性的知识可以回顾基础统计课程为何要检查数据的正态性 因为假设检验的理论基础就是正态分布 所以待检验的数据要是正态 如何检验数据的正态性 STAT BASICSTATISTICS NORMALITYTEST如何评价检验结果 H0 数据是正态的HA 数据是非正态的看Pvalue值如果小于0 05 拒绝原假设 如果大于0 05 无法拒绝原假设 假设检验HypothesisTesting 3 统计结果分析检查数据的正态性 检验数据正态性的Minitab演示 使用电阻丝的例子fuse mtw 假设检验HypothesisTesting 检验数据正态性的Minitab演示 使用电阻丝的例子fuse mtw Pvalue大于0 05 数据是正态的 假设检验HypothesisTesting 如果数据不是正态的 如何做 常常有这样的可能 对非正态数据进行转换 以创建出正态分布虽然有多种转换方式 但我们将着重介绍两种主要方法 对数 log 底数10或自然数 和平方根 如何在MINITAB中实现这两种方法 对于对数 log 用Calc Calculator选择naturallogfunctions对于平方根 用Calc Calculator选择Squareroot 假设检验HypothesisTesting 正确转换的指导方针 Box Cox转换程序 Lambda转换 2 0反平方 1 0逆向 0 5反平方根0 0对数 自然数或底数10 0 5平方根1 0未转换2 0平方 MINITAB可以提供某些指导 说明哪些是适用的转换 其具体方式是使用 Stat ControlChart BoxCoxTransformation 项下的 Box Cox转换 程序 假设检验HypothesisTesting 数据转换成正态的方法用MINITAB演示 leakagecurrent mtw 假设检验HypothesisTesting 数据转换成正态的方法用MINITAB演示 leakagecurrent mtw Stat ControlChart BoxCoxTransformation 假设检验HypothesisTesting 一但完成对数据的转换 我们可以对转换后的数据进行标准检验 所有检验值都必须转换 例如 假设你们正在进行检验 看数据是否取自平均值为600的母体 如果你们利用Ln转换来建立正态分布的数据 那么本次检验的内容变为数据是否来自一个平均值为Ln 600 6 39693的母体 特别注意 假设检验HypothesisTesting One SampleZ FusesProducedTestofmu 3000vs 3000Theassumedstandarddeviation 30095 LowerVariableNMeanStDevSEMeanBoundZPFusesProduced163199 06299 6975 003075 702 650 004 统计结果分析 样本量 样本的均值 样本数据的标准差 样本均值的标准差 置信区间 值 P值 假设检验HypothesisTesting 图示 假设检验HypothesisTesting Minitab的使用 Stat BasicStatistics 1 sampleZ 假设检验HypothesisTesting 4 实际结果陈述 因此 我们得出结论 有强烈的统计学证据说明 供应商所承诺的新机器每小时的产量大于原来旧机器每小时的产量是成立的 而且我们有95 的把握说 该新机器每小时的产量超过了3075只保险管 统计结果分析 针对抽样数据 我们根据统计学实验的结果得出结论 在原假设成立的条件下 即均值为3000 标准差为300 出现目前情况即均值为3199的可能性为0 4 小于我们能接受的风险系数5 所以我们否决保险管生产过程的母体平均值等于每小时3000只的零前提 同样 该母体平均值的单边置信区间没有包括每小时3000只保险管的标准过程平均值 假设检验HypothesisTesting 回答问号 的问题 如何确定样本量 样本量的选择依赖以下几个因素 决策错误的风险 总体的可变性 要检验的差异 针对以上三个因素 如果想降低决策错误的风险样本量必须增加如果总体的可变性增大了 样本量必须增加如果要检验的差异减小了 样本量必须增加在选择样本量的时候 我们还要考虑的是 材料成本进行抽样的成本实际可行性样本的代表性 假设检验HypothesisTesting 1 b a b 样本平均值的分布 m 1 3200 n 16 样本平均值的分布 m 0 3000 n 16 的临界值 3123 4 a 0 05时 如果H为真 o 如果H为真 A 无法否决H O 否决H O m m D 0 1 前提检验 a b误差 D 回答问号 的问题 如何确定样本量 单边样本规模公式 双边样本规模公式 用MINITAB软件操作 stat powerandsamplesize onesamplez 假设检验HypothesisTesting 回答问号 的问题 如何确定样本量 假设检验HypothesisTesting MinimumDetectableDifferenceforVariousSampleSizes 回答问号 的问题 如何确定样本量 假设检验HypothesisTesting 回答问号 的问题 如何确定样本量 1 SampleZTestTestingmean null versusnot null Calculatingpowerformean null differenceAlpha 0 05Assumedstandarddeviation 300SampleTargetDifferenceSizePowerActualPower300130 950 950076 MINITAB结果解释 最小要求的样本量是13个 目前项目中选择16个是合理的 假设检验HypothesisTesting 回答问号 的问题 如何确定样本量 假设检验HypothesisTesting 回答问号 的问题 单边比较和双边比较 单边比较 双边比较 假设检验HypothesisTesting 回答问号 的问题 样本均值的标准差 中心极限定理的原则 中心极限定理 样本的平均值是正态分布的 样本的平均值汇聚在母体平均值上 样本标准偏差取决于抽样母体的标准偏差 样本标准偏差相对于母体标准偏差按 n的系数缩小 假设检验HypothesisTesting 回答问号 的问题 Z值的含义 正态分布 假设检验HypothesisTesting Z统计量的定义1 一系列具有平均值 和标准偏差s的观测 在每次观测中减去m 从而将上述平均值重新定位到0 3 为定义名为 z 的新统计量 用s去除每一项差 以此重新标度分布 使s 1 标准化的正态分布 单位法线分布 假设检验HypothesisTesting 1标准偏差 正态分布 2标准偏差 正态分布 假设检验HypothesisTesting 假设检验HypothesisTesting 举例一家供应商提供之材料的检验报告为m 150且s 5 一位工程师从此材料的某一批次中随机抽取了10项 结果发现平均值 154 有无这样的可能 即这10项抽样的母体平均值为150 标准偏差为5 样本平均值的标准正态分布 假设检验HypothesisTesting 获得Z值等于或大于2 53的概率为0 0057 一个相对较小的数 因此从一个m 150且s 5之母体中得出平均值等于154 实属反常或意外 计算检验统计量 假设检验HypothesisTesting 2 1单样本检验 单样本t检验OneSampleTtest总体标准差未知 当你有一组连续型的数据 你想检查这组数的均值是否与指定的值 目标 相同 前面的z检验 是在总体方差已知的情况下作的假设检验 不幸的是 我们通常没有很多的历史数据来判断总体的标准差 这时 我们就要估计他们了 假设检验HypothesisTesting 2 1单样本检验 单样本t检验OneSampleTtest总体标准差未知 例题 为您的电源保险管生产线提供新生产工具的供应商称 他们的机器将提高贵工厂的平均小时产量 验证此生产法之实验生产线目前的产量是每小时3000只保险管 因为历史数据少 不能确定总体标准差 为检验该供应商的承诺 我们购买并安装了一台新机器 试生产稳定后 本项目的指定工程师从一个月的生产量中随机抽取了16个小时的产量做为样本 此样本得出的平均小时产量大约为3199只保密管 该生产工程题应该得出怎样的结论 该工程师愿意承担5 的结论错误风险 认定新机器真地具有较高的产量 假设检验HypothesisTesting 2 1单样本检验 单样本t检验OneSampleTtest总体标准差未知 学员按照前面所讲的例题 自己摸索着做此题 然后讨论 假设检验HypothesisTesting 2 2双样本t检验Two Samplet test 当你有两组连续型的数据 不配对数据 在假定这两组数的总体标准差相等的情况下 看他们的均值是否一致 例题1 ComparingtheAveragePerformanceofTwoSuppliersSupplierAandSupplierBprovideyouwithvacuumpumps Youwishtocomparetheiraverageperformanceisdifferentwheninfactitisnot YouareabletocollectarandomsampleoftenpumpsfromSupplierAandarandomsampleofeightpumpsfromsupplierB Afterperformingthepressuretests Whatshouldyouconclude 假设检验HypothesisTesting 项目过程 1 实际工程问题陈述在愿意承担10 的错误风险的前提下 检验两家供应商提供的泵的最小压力的平均性能是否有差别2 统计问题陈述Ho Ha 因变量 供应商 供应商 属于离散数据项目指标 最小压力time 5mTorr属于连续数据 厂商风险 消费者风险 供应商 提供 台泵 厂商风险 消费者风险 供应商 提供 台泵 假设检验HypothesisTesting 3 统计结果分析 1 检验两组数据的独立性 学员独立做 讲师辅导 2 检验两组数据的正态性 学员独立做 讲师辅导 3 Minitab分析结果 假设两组方差相等 Stat basicstatistic twosamplet 假设检验HypothesisTesting BoxplotofMinipressbytwosuppliers Two SampleT TestandCI MinPress SupplierTwo sampleTforMinPressSupplierNMeanStDevSEMeanA104 2900 1450 046B84 1130 1250 044Difference mu A mu B Estimatefordifference 0 17750095 CIfordifference 0 040325 0 314675 T Testofdifference 0 vsnot T Value 2 74P Value 0 014DF 16 BothusePooledStDev 0 1364 假设检验HypothesisTesting 假设检验HypothesisTesting 3 统计结果分析 从Pvalue 0 014可以得到 有强烈的统计数据证明 两组数据的总体均值是不相等的 我们拒绝原假设 接受对立假设 4 实际工程问题结果分析在我们接受供应商A40 的结论错误的风险下 供应商B45 的结论错误风险下 我们接受10 的结论错误的风险下 承认两供应商提供的泵的最小压力的平均性能是有区别的 且供应商A的泵要好于供应商B的泵 假设检验HypothesisTesting 回答问号 的问题 为何要假定两组数据的方差相等 假设检验HypothesisTesting PooledVariance 假设检验HypothesisTesting 如何检验两组数据的方差相等 Stat basicstatistic 2variances 假设检验HypothesisTesting 分析结果 Ho Ha Pvalue大于0 05 无法拒绝原假设 假设检验HypothesisTesting 回答问号 的问题 何为配对数据 PairedData 例题2 人事部的经理想知道用看装配流程的录像的培训方法对培训效果是否有好处 我们采用了两种测试方法1 我们选择10个操作工完成一项装配任务 计算完成的时间 首先让他们看操作说明书 然后完成一次这样的装配任务 计算完成的时间 接下来 让他们观看关于如何完成装配任务的录像 然后再让他们完成一次同样的装配任务 计算完成的时间 2 我们选择10个操作工 其中5人通过看操作说明书 然后完成装配任务 计算完成的时间 另外5人通过看装配过程的录像 然后完成转给任务 计算完成时间 讨论 用那种方法合理 为什么 假设检验HypothesisTesting 成对比较法将双样本问题简化为单样本分析 从而使我们可以针对差异进行一对标准的检验 成对比较法优于非结对分析的主要优点在于 减少了实验中的易变性或 噪声 差异的易变性并不包含任何由于组对因素而造成的波动 警告 非成对样本不得任意组对 这将导致对比得出错误的结论 回答问号 的问题 何为配对数据 PairedData 假设检验HypothesisTesting 例题 某团对测量矿石中二氧化锰含量的两种分析方法进行对比 随机从过程的产品中抽样 将同一个样品用两种实验分析分别测量二氧化锰含量各一次 问两个分析方法的结果在 水平上有无显著的差异 数据文件 Measureforpaireddata H0 m1 m2versusH1 m1 m2 Stat BasicStatistics Paireddata 假设检验HypothesisTesting PairedT TestandCI Mea A Mea BPairedTforMea A Mea BNMeanStDevSEMeanMea A1010 63002 45130 7752Mea B1011 04002 51850 7964Difference10 0 4100000 3871550 12242995 CIformeandifference 0 686954 0 133046 T Testofmeandifference 0 vsnot 0 T Value 3 35P Value 0 009 假设检验HypothesisTesting 假设检验HypothesisTesting 2 3方差分析AnalysisOfVariance比较多个总体均值是否相等的方法 根据因子个数的不同分为onewayANOVA twowayANOVA 先看个实际的工程例子 现有4条生产线生产同一种垫片 为了了解不同生产线的垫片的断裂强度有无明显的差异 现分别从每个生产线随机抽取5个垫片测定其断裂强度 试问4条生产线生产的垫片的平均断裂强度是否相同 line1line2line3line486 593 488 694 392 087 993 293 385 290 688 892 087 985 592 789 286 088 490 992 5 假设检验HypothesisTesting 解决此问题的步骤 1 实际工程问题的陈述 试问4条生产线生产的垫片的平均断裂强度是否相同 2 转换成统计问题陈述 比较方法 多总体均值的比较Ho a 至少有一个均值不同因变量X 生产线为离散数据水平 4条生产线项目指标Y 垫片的平均断裂强度为连续数据样本量 每条生产线抽取5个样本 风险为 假设检验HypothesisTesting 统计问题分析三个假设 各样本的数据的总体是服从正态分布N 其中 就是要比较的对象 在不同水平下的方差相等 只要诸试验是在相同条件下进行 方差相等性一般可以满足 各数据Y相互独立 这通常只要把试验次序随机化即可得到满足 假设检验HypothesisTesting 利用MINITAB计算 Stat ANOVA onewayANOVA One wayANOVA line1 line2 line3 line4SourceDFSS MS F PFactor363 2921 103 460 041Error1697 506 09Total19160 79S 2 469R Sq 39 36 R Sq adj 27 99 Individual95 CIsForMeanBasedonPooledStDevLevelNMeanStDev line1587 5202 690 line2589 1602 984 line3590 8402 134 line4592 2601 919 87 590 092 595 0PooledStDev 2 469 由于Pvalue小于0 05 所以我们认为至少一个均值在统计上与其他的不同 假设检验HypothesisTesting 方差分析的基本思想和步骤 1 平方和分解 line1line2line3line486 593 488 694 392 087 993 293 385 290 688 892 087 985 592 789 286 088 490 992 5 假设检验HypothesisTesting 是所有数的平均值 数据的不同是由两部分造成的 一个是生产线的不同 即因子水平不同 一个是由在同一个水平下的重复测量造成的 即重复误差 所有的比较都要找个基准 在这里重复误差就是基准 同一水平下的值的均值 所有的数 假设检验HypothesisTesting 上述的诸平方和的大小与数据个数有关 数据个数越多 偏差平方和会大一些 所以为了进行比较 还需要引入自由度的概念 2 自由度与均方和 假设检验HypothesisTesting Boxplot图形解释 假设检验HypothesisTesting 4 实际问题结论 从Pvalue的值可以看出 不同生产线生产的垫片的平均断裂强度有明显的差异 4号生产线的垫片的平均断裂强度均值最大 如果我们需要平均断裂强度大的垫片 那么4号生产线为好 而从过程来讲 1号和2号线应该设法改进 假设检验HypothesisTesting 3假设检验 比例 X为离散数据 Y为离散数据 3 11proportion例题 A市长想竞选州长 她决定如果她的政党们有65 以上的人支持她 那么她就放弃她现在市长的职位去竞选州长 作为她的活动经理 你随机的抽取了950个政党人员 发现其中有560人支持进行州长的竞选 同时 你愿意承担5 的决策风险 问题解决步骤 1 实际问题陈述愿意承担5 的决策风险认为有65 的政党人员支持A市长竞争州长 2 统计问题陈述Ho p 0 65Ha p 0 65因变量X 政党人员离散数据项目指标Y 同意与否离散数据 风险 选择 proportion方法 假设检验HypothesisTesting 3 统计数据分析 Minitab入口 Stat BasicStatistic 1proportion 总人数 同意的人数 95 的置信区间 认可的比率 对立假设的条件 假设检验HypothesisTesting Testofp 0 65vsp 0 6595 LowerExactSampleXNSamplepBoundP Value15609500 5894740 5625151 000 Minitab分析结果 Pvalue大于0 05 无法拒绝原假设 即没有足够的证据证明大于0 65的假设成立 4 实际问题解析 没有足够的证据证明 赞同A市长竞选州长的政党人员大于65 作为她的活动经理 应该建议她不要竞选州长 假设检验HypothesisTesting 3 22proportion 例题 做为采购经理 需要购买20台新的复印机 在比较了价格 质量 特性后 把品牌X和品牌Y作为最后选择的目标 这两个品牌公司目前已经使用了 所以采购经理想知道在一年内维修次数方面这两个品牌有何差别 采购经理对每个品牌随机抽取了50台机器的在第一年内的维修记录 其中品牌X维修了六次 品牌Y维修了八次 采购经理能接受5 的错误风险来判断两个品牌的维修频率是否相等 问题解决步骤 1 实际问题陈述 采购经理能接受5 的错误风险来判断两个品牌的维修频率是否相等 2 统计问题陈述 Ho p1 p2 0 Ha p1 p2 因变量X 不同的复印机品牌离散数据项目指标Y 第一年内的维修记录离散数据 假设检验HypothesisTesting 选用的比较方法 2proportion 风险 3 统计数据分析 Minitab入口 Stat basicstatistic 2proportion 假设检验HypothesisTesting SampleXNSamplep16500 12000028500 160000Difference p 1 p 2 Estimatefordifference 0 0495 CIfordifference 0 175790 0 0957903 Testfordifference 0 vsnot 0 Z 0 58P Value 0 564 Minitab分析结果 4 实际问题解析 因为Pvalue的值大于0 05 我们没有足够的证据证明两个品牌在第一年的维修频率上有何差别 假设检验HypothesisTesting 3 3卡方检验Chi Squaretest 比较离散数据组 研究两个变量间是否独立 例题 医学研究表明运动与生病的关联性 我们来验证该理论 现分别找了三组人 每组100个 分为 A 经常锻炼B 偶尔锻炼C 不锻炼 一年内得病的情况如下 组别生病次数A15B18C33 问 生病次数与锻炼有关吗 假设检验HypothesisTesting 问题解决步骤 1 实际问题陈述 生病次数与锻炼有关吗 2 统计问题陈述 Ho 因子 生病次数 与因子 锻炼频度 是独立的Ha 因子 生病次数 与因子 锻炼频度 是不独立的 因子生病次数 离散数据因子锻炼频度 离散数据 使用的检验方法 检验 风险 0 05 假设检验HypothesisTesting 3 统计问题分析Minitab入口 stat table chi squaretest twowaytableinworksheet illnessabcyes151833no858267 注意此数据格式的表达 abcTotal1151833662
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省菏泽市重点高中2024-2025学年高三化学试题5月最后一卷试题含解析
- 江苏省泰兴市达标名校2024-2025学年初三年级第十一次网考生物试题含解析
- 江苏省南京市鼓楼区重点达标名校2024-2025学年中考预测金卷数学试题理(湖南卷)含解析
- 西昌学院《秘书礼仪》2023-2024学年第二学期期末试卷
- 辽宁省丹东第十中学2025届初三第二学期期初模拟训练一英语试题含答案
- 宿舍文化节活动流程
- 技能培训经典案例分享
- 上海市金山区2025届高三二模语文试题(含答案)
- 下肢血管溃疡的治疗和护理
- 2025年建筑工程流动资金借款合同示例
- 2025版轮胎进出口贸易与代理服务合同范本4篇
- 2024年开封大学高职单招职业技能测验历年参考题库(频考版)含答案解析
- 危险化学品购销的合同范本
- 实时荧光聚合酶链反应临床实验室应用指南(WST-230-2024)
- 口腔医院市场营销新入职员工培训
- 瑞幸咖啡副店长认证考试题库
- 2024年生鲜配送与城市社区团购合作框架协议3篇
- 2024年出版专业资格考试《出版专业基础知识》中级真题及答案
- 大语言模型基础微课版课件 第7章 提示工程与微调
- 中医治疗协议书范本(2篇)
- 【MOOC】C语言程序设计-华中科技大学 中国大学慕课MOOC答案
评论
0/150
提交评论