统计培训教材抽样及样本容量_第1页
统计培训教材抽样及样本容量_第2页
统计培训教材抽样及样本容量_第3页
统计培训教材抽样及样本容量_第4页
统计培训教材抽样及样本容量_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样及样本容量(Sampling & Sample Size)统计培训教材抽样及样本容量什么是抽样及为何要进行抽样? 抽样是 收集所有数据的一部分。 使用该部分数据得出结论(进行推论)。 为什么要进行抽样?因为查看所有数据可能 成本太高。 费时太长。 造成破坏(例如、品尝测试)。 一般可从比较少量的数据得出可靠的结论。统计培训教材抽样及样本容量总体和过程总体 情况:在操作上您可以定义现存的总体的边界、以便可以认出 总体的每个个体、在理论上还可以进行编号。 抽样目的: 描述该总体的特征。 示例:抽样调查(8 月 31 日以前毕业的)大学校友、以确定 在今后两年中他们至少将一个小孩送进大学

2、的百分比。样本使用样本对总体进行推论:例如。平均值 = X、比例 = p统计培训教材抽样及样本容量总体和过程(续)过程 情况:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、 因为某些个体尚不存在(如明天制造的那些个体)。 目的:了解过程、以便采取行动改进或预测过程未来的行为。 示例:我们估计下月发票中有 5% 至 20% 有错误(除非更改该过程)。使用样本对过程未来的行为进行推论昨天保存时间顺序!今天明天?20%5%10%15%抽样数据的时间曲线图抽样数据的时间曲线图?以时间顺序排列的过程输出以时间顺序排列的过程输出统计培训教材抽样及样本容量抽样和改进项目v 确定过程周期和缺陷比率

3、的基准性能; (例如:在控制图上绘出样本数据)v 估计过程能力; (例如:计算一件样本中的缺陷)v 确定造成性能低下或数据变动的因素 (X); (利用样本数据绘制图表、进行假设测试或回归分析)v 验证建议的改进工作; (比较从过程中抽取的新数据与从该过程抽取的旧数据)v 监视过程性能、必要时采取补救措施、并预测未来的性能; (在控制图上绘出新过程的样本数据)改进项目一般是对过程情况进行抽样:改进项目一般是对过程情况进行抽样:统计培训教材抽样及样本容量为什么要区别总体抽样和过程抽样? 样本容量公式是为定义明确的静态(而且常常是理论上的) 总体情况设计的。 但是大多数抽样应用是针对动态的、尚未知的

4、过程情况。 将样本容量公式应用于过程抽样情况可能得出错误的结论、 除非满足一定的条件。 要使推论有效、样本必须真实地代表总体或过程。 总体所需的抽样策略不同于过程所需的抽样策略、 以确保样本具有代表性(在下一节中讨论)。统计培训教材抽样及样本容量从稳定的过程中抽样如果过程是稳定的、样本容量公式可应用于过程情况。 可获得具有特定精度的可靠估计值。 当进行比较时、如果存在的差异具有一定功效、便可找出它们。(稳定的、可预测的过程)4045505560651357911131517192123252729313335373941统计培训教材抽样及样本容量从不稳定的过程中抽样然而许多过程是不稳定的。无论

5、如何总要收集数据、并绘制控制图或时间曲线图。 识别特殊原因并清除之。使用样本容量公式求出的值是您应认为最小的数字; 可能的话,需要收集更多的数据。 存在特殊原因时,需要更大的样本容量,因为长期变动大于短期变异。 使用公式时,您必须估计s(或 p);您必须判断特殊原因如何 影响该估计值,并根据您认为过程将会是什么情况来调整它。统计培训教材抽样及样本容量从不稳定的过程中抽样(续) 当进行组之间的比较时: 尽量在相同时间内获取每组的样本。 当作结论或报告结论时、会存在这样一个风险、即这些结论可能 不适用于将来。 如果过程是不稳定的,可能的话,将一段很长的时间里得到的数据 绘制于一张控制图上,并圈出或

6、特别标示您的样本所代表的数据点 或时间区间。 允许您和他人可直接从曲线观察过程的行为。 帮助您判断这些结论在未来的可靠性。统计培训教材抽样及样本容量从过程中抽样对于过程情况,我们希望确保能够理解过程的行为。因此我们:在一段时间内进行系统或整群(非随机)抽样。 即使随机抽样能适用于稳定过程,我们仍采用系统或整群抽样,并保持时间顺序 以便能更好地表示过程行为。尽量从足够长的时间段中进行抽样,以便真实地表示过程中的变化源。 运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样 (每隔 10 个个体、每隔 7 个个体、每天、每月等)。一般情况下、更加频繁地收集小样本、可确保随着时间的过去能

7、真实地表示过程行为。绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、趋势或其它模式)。统计培训教材抽样及样本容量抽样方法统计培训教材抽样及样本容量代表性样本要使结论有效,样本必须具有代表性。 数据应真实地表示总体或过程 收集的数据与未收集的数据之间不应存在有系统性的差异。统计培训教材抽样及样本容量每个单元具有相同被选中的机会每个单元具有相同被选中的机会从每个组随机抽样一个成比例的数字从每个组随机抽样一个成比例的数字随机随机 抽样抽样分层分层随机随机抽样抽样样本样本总体总体样本样本总体总体AABBBBCDDDAAAABB BBBBBCCD D DD D DB概率抽样

8、概率抽样统计培训教材抽样及样本容量每隔每隔 n 个抽样(如每隔三个抽样)个抽样(如每隔三个抽样)每经过时间每经过时间 t 抽样抽样 n 个单元(例如,个单元(例如,每小时抽样三个单元)每小时抽样三个单元);然后计算每然后计算每个小组的平均值个小组的平均值 (比例)(比例)系统系统 抽样抽样整群整群 抽样抽样样本总体或过程保持时间顺序样本过程9:009:3010:3010:00保持时间顺序统计培训教材抽样及样本容量 统计调查的误差(抽样误差):是指调查所得结果与总体真实数值之间的差异。 可分 1、登记性误差:指在调查和汇总过程中,由于观察、测量、登记、计算等 方面的差错或被调查者提供虚假资料而造

9、成的误差。 (不是抽样调查独有的)尽量避免 2、代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构 不一致、样本不能完全代表总体而产生的误差。它又分 -2-1、系统误差:指由于非随机因素引起的样本代表性不足而产生的误差, 表现为样本估计量的值系统性偏高或偏低,故也称偏差,尽量避免 如抽样框与目标总体不一致、有意多选较好或较差的单位等; -2-2、随机误差:又称偶然性误差,指遵循随机抽样原则,由于随机因素 (偶然性因素)引起的代表性误差。不可避免,但需加以计算与控制 抽样估计中所谓的抽样误差,就是指这种随机误差, 即由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。抽样误

10、差抽样误差统计培训教材抽样及样本容量抽样误差的抽样误差的3个概念个概念 1 1、实际抽样误差:、实际抽样误差:-实际上总体参数实际上总体参数是未知数,不可计算是未知数,不可计算 2 2、抽样平均误差:、抽样平均误差:3 3、抽样极限误差:是指在一定的概率下抽样误差的可能范围,、抽样极限误差:是指在一定的概率下抽样误差的可能范围, 也称为允许误差。用表示抽样极限误差,即在一定概率下,也称为允许误差。用表示抽样极限误差,即在一定概率下, 抽样误差率抽样误差率= =(抽样极限误差(抽样极限误差/ /估计量)估计量)* *100%100% 抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样

11、误差率可能样本个数2如如|xxbar-X|xbar统计培训教材抽样及样本容量抽样总结本单元包括: 抽样是查看所有数据的一种有效率和效果的方法。 总体抽样与过程抽样有不同的目的和方法。 代表性是抽样最重要的一方面。 正确抽样使您对结论有信心。 总体抽样的样本容量公式可适用于稳定过程。统计培训教材抽样及样本容量样本容量样本容量(Sample Size)统计培训教材抽样及样本容量样本容量介绍人们常问的第一个问题是“我需要多少个样本?”该问题的答案由下列四个因素确定:1. 数据类型 离散数据和连续数据2. 您想做什么 描述整组的某个特征(平均值或比例) 在特定的精度内(在特定的精度内( _ 单位)单位

12、) 比较组的特征(找出组平均值或比例之间的差异) 以什么功效:希望检测到特定差异的概率以什么功效:希望检测到特定差异的概率3. 您估计的标准偏差(或比例)为多大4. 您希望的置信度为多高(通常为 95%)统计培训教材抽样及样本容量当样本容量太小 不能检验出差异n = 1n = 5 过程过程A过程过程A过程过程 B过程过程 BAxBxfromaway2thanlessisxAxBxfromaway3thanmoreisx统计培训教材抽样及样本容量当样本容量太大对平均值的漂移过于敏感 资源浪费统计培训教材抽样及样本容量第一步: 明确研究过程中的响应变量第二步: 选择合适的统计检验第三步: 决定可接

13、受的风险 和 第四步: 定出漂移敏感度第五步: 建立或估计当前过程中的参数 第六步: 决定合适的样本容量统计培训教材抽样及样本容量 是 H0 成立, 但结果却否定它的风险. 1- 是 H0 的置信系数. 观察值 1统计培训教材抽样及样本容量 是H0不成立, 但结果却肯定它的风险. (1-) 称为检验的功效, 它表示H0 不成立, 而结果也否定它的概率, 即当H0不成立时,作出正确结论的概率.观 察 值 1 2漂移 统计培训教材抽样及样本容量统计培训教材抽样及样本容量 H0 :无差异 H1 :有明显差异零假设零假设成立不成立决策决策接受 H0拒绝 H0正确正确1 正确正确1 统计培训教材抽样及样

14、本容量 实验之前需要预先指定反映明显差异的量 . 与标准差 之比 /称为漂移敏感度(drift sensitivity ). 统计培训教材抽样及样本容量单样本检验(1-Sample Tests)Stat Power and Sample Size 1-Sample ZStat Power and Sample Size 1-Sample t双样本检验(2-Sample Tests)Stat Power and Sample Size 2-Sample t统计培训教材抽样及样本容量样本容量公式取决于您的目的抽样目的抽样目的公式公式*Minitab 命令命令估计平均值估计平均值(例如、确定基准周期

15、)(其中 d = 精度: _ 单位)估计比例估计比例(例如、确定缺陷基准百分比)(其中 d = 精度: _ 单位)2d2sn p1pd2n2统计培训教材抽样及样本容量精度 (d) 精度是允许某个特征的估计值波动的范围。 估计上下不超过两天的周期。 估计上下不超过 3% 的缺陷百分比。 使用符号 d 表示精度。 传统的统计学称它为 “delta”、因此以d 表示。 精度等于置信区间 (CI) 的一半。 周期(单位为天)为 95% 时 CI = (48、 52) 意味着我们有 95% 的确信平均周期在 48 天至 52 天之间。 CI 的宽度 = 4 天。 精度 = d = 2 天(= 估计值上下

16、不超过 2 天)。统计培训教材抽样及样本容量精度 (d)(续) 决定您需要多大的精度。 精度与样本容量的平方根成反比。n1统计培训教材抽样及样本容量精度和样本容量 要提高精度、必须增加样本容量(但会增加成本)。 对于需要多大的精度没有明确的答案; 该答案取决于使用该估计值对业务产生多大的影响。 每种情况都是独特的;不要效仿别人的决定。统计培训教材抽样及样本容量估计平均值所需的样本容量2222/xzn95% 的置信度*意味着因子为 2 标准偏差的估计您希望的精度2d2snNzznx222/2222/不重复抽样不重复抽样重复抽样重复抽样统计培训教材抽样及样本容量练习:估计平均值所需的样本容量目的:

17、练习使用样本容量公式估计平均值。时间:3 分钟。要求: 使用样本容量公式计算平均值, 以便回答下列问题。 1. 假设您想估计 呼入 的平均通话时间 1 分钟。您需要多少样本? (历史数据显示典型的标准偏差 = 3 分钟。) 2. 您需要对多少次呼入抽样、以获得 1/8 分钟的精度?2d2sn统计培训教材抽样及样本容量练习:答案问题 1.问题 2.3042848132 n22)(3661(2)(3) n22统计培训教材抽样及样本容量如何估计标准偏差困难的选择: 要估计样本容量,您需要知道标准偏差。 您需对数据的变化量有一定了解,因为数据可变性加大, 需要的样本容量也要相应增加。 但是,如果您还没

18、有进行抽样,如何知道偏差呢?统计培训教材抽样及样本容量如何估计标准偏差(续)估计标准偏差的选择 查找现存的数据并计算 s。 使用类似过程的控制图(针对个体的)。 采集一个小的样本并计算 s。 根据您对过程的认识和记得的类似数据猜一猜(大多数人不擅长这样做)。3AverageUCL s or 6LCLUCL s统计培训教材抽样及样本容量估计比例所需的样本容量95% 的置信度意味着因子为 2猜 p 的值(样本大小随 P 变动较大、从 P=0.1 到 0.5,变化甚剧)您希望的精度 p1pd2n2统计培训教材抽样及样本容量使用精度调整样本容量您可使用确定样本容量的公式,来确定是否需要花更多的资金收集

19、更多的样本来得到更高的精度。在收集数据之前这样做可以帮助您决定多少样本可以符合您的项目和预算。1.确定您可以提供多少个样本 (n)。2.然后问: 该样本提供多高的精度? 即、精度的平均值在 d 单位之内 还是精度的比例在 d% 之内np)(p)(12 dn2s d统计培训教材抽样及样本容量使用精度调整样本容量(续)3. 该精度足够精确吗?4. 如果不够精确: 为各种样本容量绘制一个精度和成本表,以确定在样本上每花一美元在精度上提高了多少。 然后选择一个样本容量,再根据所提高的精度或您需要的精度来证明这是正确的选择。统计培训教材抽样及样本容量从有限的总体中进行抽样样本容量公式假设样本容量 (n)

20、 小于总体 (N)。如果 .05 您抽取的样本占总体的 5% 以上 您可以使用“有限总体”公式调整样本容量:Nn 1n nfiniteNn统计培训教材抽样及样本容量使用样本容量公式使用样本容量公式: 在置信度为 95% 的情况下,根据给定的期望精度以及 S 或 P 的估计值, 确定估计整组的某个特征(平均值或比例)所需的样本容量。 在收集数据之前,确定各种样本容量其估计值的精度。 确定估计值的精度与增加样本容量的成本之间的得失。 在收集数据之后,确定估计值的精度。统计培训教材抽样及样本容量状态:样本容量命令和公式抽样目的抽样目的公式公式*/ Minitab 命令命令估计平均值估计平均值(例如、

21、确定基准周期)(其中 d = 精度: _ 单位)估计比例估计比例(例如、确定缺陷基准百分比)(其中 d = 精度: _ 单位)比较两组平均值、找出差异比较两组平均值、找出差异(2 个样本的 t 测试)统计 功效和样本容量 2 个样本的 t比较两个以上的组的平均值、比较两个以上的组的平均值、找出差异找出差异(ANOVA)统计 功效和样本容量 单向 ANOVA比较两个(或更多)组的比比较两个(或更多)组的比例、找出差异例、找出差异(卡方测试)统计 功效和样本容量 2 个比例2d2sn p1pd2n2统计培训教材抽样及样本容量样本容量大经验法则统计值统计值 或图表或图表 建议应采用的最建议应采用的最

22、小样本容量小样本容量 (n) 平均值比例频率分布图(直方图) Pareto 排列图散布图控制图505024242d2sn p1pd2n2统计培训教材抽样及样本容量5个变量、和 N之间的关系可写出下面是公式: 注意如果我们知道了5个变量中的任意4个变量,就可以通过上式计算出第5个变量 利用Minitab, 我们现在将说明如何计算样本容量和检验功效: v样本容量 = Nv检验功效 = 1- )(2222/ZZn计算样本容量计算样本容量统计培训教材抽样及样本容量u一种新型的焊接机已经研制出来,出于对经济价值的考虑,新型焊接机的合格率必须要比现有类型的焊接机大5个百分点,现有设备的合格率约为80% u

23、为了比较这两种设备,要使用日常的数据,现有设备的历史日合格率的标准差为3%,要求新的焊接机有相同的日合格率散布。 u我们可接受的风险是0.01(指两台设备有差异而实际上并没有差异的机会) u我们可接受的风险是0.20(说两台设备合格率相同而实际上并不同的机会) 例题例题11: : 1-1-样本样本 t- t-检验时检验时的的样本容量的计算样本容量的计算统计培训教材抽样及样本容量零假设零假设 (Ho): 新设备的合格率新设备的合格率并不比并不比现有的设备现有的设备好好 备择假设备择假设 (Ha): 新设备的日合格率新设备的日合格率比比现有的设备现有的设备高高 焊接机焊接机: 假设假设统计培训教材

24、抽样及样本容量v 在在这两个假设之间需要选择多大的样本容量呢?这两个假设之间需要选择多大的样本容量呢? v 从所给的信息,我们得到从所给的信息,我们得到 显著水平显著水平, = 0.01 检验功效检验功效 = 1 = 0.80. 平均值间的差异平均值间的差异, = 85 80 = 5.标准差标准差, = 3备择假设备择假设 (Ha)为新设备的日合格率比现有的设备高为新设备的日合格率比现有的设备高 焊接机焊接机: 需要的样本容量需要的样本容量 统计培训教材抽样及样本容量选择选择 Stat Power and Sample Size 1-Sample t. 5. 输入 alpha, 2. 输入检验

25、功效, 1 1. 输入delta, 4. 选择备择假设 3. 输入 sigma, 填选项1- 3;然后点“Options” 再填选项4 和 5;最后, 在所有打开的窗口中点 OK 焊接机焊接机: 利用利用Minitab统计培训教材抽样及样本容量Minitab 告诉我们,至少要抽取7个样本,才能保证在我们的检验功效为0.80的情况下,把新焊接机是否比现有的设备高5个百分点准确检测出来 (注:N=7时,实际的检验功效为 0.8512)焊接机焊接机: Minitab 输出输出Power and Sample Size 1-Sample t TestTesting mean = null (versu

26、s null)Calculating power for mean = null + differenceAlpha = 0.01 Assumed standard deviation = 3 Sample TargetDifference Size Power Actual Power 5 7 0.8 0.851212统计培训教材抽样及样本容量F某工程师想通过实施一个全阶乘DOE (3因子,8运行),来研究恒温箱对温度、流体密度和液罐变化的动作灵敏度; F0.001英寸的动作就影响功能表现。设计队想探测这样或更高幅度的影响; F必须考虑恒温箱动作中的工程散布,SPC数据显示标准偏差约为0.0

27、01英寸; F可以接受的风险(说一个因子的两个水平不同,而实际上相同的风险)是0.03; F由于时间的限制,只能作两次再现(共16次运行), 有关该DOE计划的报告必须上报给工程主管。 例题例题2-检验功效计算:恒温箱检验功效计算:恒温箱 DOE706080D A Y&NI GH T统计培训教材抽样及样本容量零假设零假设 (Ho): 实验因子对恒温箱动作实验因子对恒温箱动作没有影响没有影响 备择假设备择假设 (Ha):实验因子对恒温箱动作实验因子对恒温箱动作有影响有影响 恒温箱恒温箱 DOE: 假设假设统计培训教材抽样及样本容量观察到观察到0.001英寸尺度影响(当此影响存在时)的概率

28、是多少?英寸尺度影响(当此影响存在时)的概率是多少?(即此计划完的(即此计划完的DOE 的检验功效是多少?)的检验功效是多少?) 从所给的信息,我们知道从所给的信息,我们知道 显著水平显著水平, = 0.03再现数再现数 = 2.影响差异影响差异, = 0.001 英寸英寸标准偏差标准偏差, = 0.001 英寸英寸备择假设备择假设 (Ha) 是,因子对恒温箱的动作有影响是,因子对恒温箱的动作有影响 恒温箱恒温箱 DOE: 检验功效检验功效 统计培训教材抽样及样本容量选择选择 Stat Power and Sample Size 2 Level Factorial Design6. 输入alp

29、ha, 2. 输入循环数 填写选项1-5。然后点 “Options” 并填选项6。最后,在所有打开的窗口中点 OK 1. 输入因子数4. 输入影响尺度, 5. 输入 sigma, 3. 输入再现数恒温箱恒温箱 DOE: 利用利用 Minitab统计培训教材抽样及样本容量Minitab 告诉我们,两次再现时的检验功效只有 0.3234,这意味着我们很可能不能看到0.001英寸尺度的影响,显然需要更多的再现数. 恒温箱恒温箱 DOE: Minitab 输出输出Power and Sample Size 2-Level Factorial DesignAlpha = 0.03 Assumed sta

30、ndard deviation = 0.001Factors: 3 Base Design: 3, 8Blocks: noneCenter TotalPoints Effect Reps Runs Power 0 0.001 2 16 0.323375统计培训教材抽样及样本容量i某公司正在考虑决定是否变更供应商; i供应商X是当前的供应商,其不良率约为10%;而供应商Y是一个新供应商,其许诺提供部品的不良率将小于10%; i顾客认为如果供应商Y比供应商X的不良率小1个百分点,则更换供应商就有经济利益; i用来决定是否值得采用供应商Y的样本容量是多少? i为了比较,分别计算获得检验功效为0.6、

31、0.7、0.8和0.9 所需要的样本容量;i假设a = 0.05 例题例题3-样本容量计算样本容量计算 : 拒绝部品比例拒绝部品比例 统计培训教材抽样及样本容量零假设零假设 (Ho): 供应商之间部品的不供应商之间部品的不良率没有差异良率没有差异 备择假设备择假设 (Ha):供应商供应商X的部品不的部品不良率要大于供应商良率要大于供应商Y的的拒绝部件的比例:假设拒绝部件的比例:假设 统计培训教材抽样及样本容量在检验功效分别为在检验功效分别为0.6、0.7、0.8和和0.9时,能计算并比较两个观察时,能计算并比较两个观察 的不良率所需样本容量是多少?的不良率所需样本容量是多少? 从所给的信息,我

32、们知道从所给的信息,我们知道 显著水平显著水平, = 0.05如果供应商如果供应商Y的部品不良率要比供应商的部品不良率要比供应商X低一个百分点,低一个百分点, 顾客将选择供应商顾客将选择供应商Y 比例的差异比例的差异 , d = 0.01备择假设备择假设 (Ha) 是供应商是供应商X的不良率大于供应商的不良率大于供应商Y的不良率的不良率 拒绝部品比例拒绝部品比例: 样本容量样本容量统计培训教材抽样及样本容量选择选择 Stat Power and Sample Size 2 Proportions5. 输入 alpha, 4. 指定供应商 X大于供应商 Y先填选项 1-3;然后点“Options” 并填选项 4和5;最后,在所有打开的窗口中点 OK 2. 输入检验功效3.输入供应商 Y 的比例 拒绝部品比例拒绝部品比例: 利用利用 Minitab1. 输入供应商 X 的不良率统计培训教材抽样及样本容量Power and Sample Size Test for Two ProportionsTesting proportion 1 = proportion 2 (versus )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论