统计培训教材22_抽样及样本容量_第1页
统计培训教材22_抽样及样本容量_第2页
统计培训教材22_抽样及样本容量_第3页
统计培训教材22_抽样及样本容量_第4页
统计培训教材22_抽样及样本容量_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样及样本容量(Sampling & Sample Size)什么是抽样及为何要进行抽样?抽样是收集所有数据的一部分。使用该部分数据得出结论(进行推论)。为什么要进行抽样?因为查看所有数据可能成本太高。费时太长。造成破坏(例如、品尝测试)。一般可从比较少量的数据得出可靠的结论。总体情况:在操作上您可以定义现存的总体的边界、以便可以认出 总体的每个个体、在理论上还可以进行编号。抽样目的: 描述该总体的特征。 示例:抽样调查(8 月 31 日以前毕业的)大学校友、以确定 在今后两年中他们至少将一个小孩送进大学的百分比。总体和过程样本使用样本对总体进行推论:例如。平均值 = X、比例 = p过程情况

2、:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、 因为某些个体尚不存在(如明天制造的那些个体)。 目的:了解过程、以便采取行动改进或预测过程未来的行为。示例:我们估计下月发票中有 5% 至 20% 有错误(除非更改该过程)。总体和过程(续)使用样本对过程未来的行为进行推论昨天保存时间顺序!今天明天?20%5%10%15%抽样数据的时间曲线图?以时间顺序排列的过程输出抽样和改进项目 确定过程周期和缺陷比率的基准性能; (例如:在控制图上绘出样本数据)估计过程能力; (例如:计算一件样本中的缺陷)确定造成性能低下或数据变动的因素 (X); (利用样本数据绘制图表、进行假设测试或回归分析

3、)验证建议的改进工作; (比较从过程中抽取的新数据与从该过程抽取的旧数据)监视过程性能、必要时采取补救措施、并预测未来的性能; (在控制图上绘出新过程的样本数据)改进项目一般是对过程情况进行抽样:为什么要区别总体抽样和过程抽样?样本容量公式是为定义明确的静态(而且常常是理论上的) 总体情况设计的。但是大多数抽样应用是针对动态的、尚未知的过程情况。将样本容量公式应用于过程抽样情况可能得出错误的结论、 除非满足一定的条件。要使推论有效、样本必须真实地代表总体或过程。总体所需的抽样策略不同于过程所需的抽样策略、 以确保样本具有代表性(在下一节中讨论)。从稳定的过程中抽样如果过程是稳定的、样本容量公式

4、可应用于过程情况。可获得具有特定精度的可靠估计值。当进行比较时、如果存在的差异具有一定功效、便可找出它们。(稳定的、可预测的过程)4045505560651357911131517192123252729313335373941从不稳定的过程中抽样然而许多过程是不稳定的。无论如何总要收集数据、并绘制控制图或时间曲线图。识别特殊原因并清除之。使用样本容量公式求出的值是您应认为最小的数字; 可能的话,需要收集更多的数据。存在特殊原因时,需要更大的样本容量,因为长期变动大于短期变异。使用公式时,您必须估计s(或 p);您必须判断特殊原因如何 影响该估计值,并根据您认为过程将会是什么情况来调整它。从不

5、稳定的过程中抽样(续)当进行组之间的比较时:尽量在相同时间内获取每组的样本。当作结论或报告结论时、会存在这样一个风险、即这些结论可能 不适用于将来。如果过程是不稳定的,可能的话,将一段很长的时间里得到的数据 绘制于一张控制图上,并圈出或特别标示您的样本所代表的数据点 或时间区间。允许您和他人可直接从曲线观察过程的行为。帮助您判断这些结论在未来的可靠性。从过程中抽样对于过程情况,我们希望确保能够理解过程的行为。因此我们:在一段时间内进行系统或整群(非随机)抽样。即使随机抽样能适用于稳定过程,我们仍采用系统或整群抽样,并保持时间顺序 以便能更好地表示过程行为。尽量从足够长的时间段中进行抽样,以便真

6、实地表示过程中的变化源。运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样 (每隔 10 个个体、每隔 7 个个体、每天、每月等)。一般情况下、更加频繁地收集小样本、可确保随着时间的过去能真实地表示过程行为。绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、趋势或其它模式)。抽样方法代表性样本要使结论有效,样本必须具有代表性。数据应真实地表示总体或过程收集的数据与未收集的数据之间不应存在有系统性的差异。每个单元具有相同被选中的机会从每个组随机抽样一个成比例的数字随机 抽样分层随机抽样样本总体样本总体AABBBBCDDDAAAABBBBBBBCCDDDD

7、DDB概率抽样每隔 n 个抽样(如每隔三个抽样)每经过时间 t 抽样 n 个单元(例如,每小时抽样三个单元);然后计算每个小组的平均值 (比例)系统 抽样整群 抽样样本总体或过程保持时间顺序样本过程9:009:3010:3010:00保持时间顺序 统计调查的误差(抽样误差):是指调查所得结果与总体真实数值之间的差异。 可分 1、登记性误差:指在调查和汇总过程中,由于观察、测量、登记、计算等 方面的差错或被调查者提供虚假资料而造成的误差。 (不是抽样调查独有的)尽量避免 2、代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构 不一致、样本不能完全代表总体而产生的误差。它又分 -2-1

8、、系统误差:指由于非随机因素引起的样本代表性不足而产生的误差, 表现为样本估计量的值系统性偏高或偏低,故也称偏差,尽量避免 如抽样框与目标总体不一致、有意多选较好或较差的单位等; -2-2、随机误差:又称偶然性误差,指遵循随机抽样原则,由于随机因素 (偶然性因素)引起的代表性误差。不可避免,但需加以计算与控制 抽样估计中所谓的抽样误差,就是指这种随机误差, 即由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。抽样误差抽样误差的3个概念 1、实际抽样误差:-实际上总体参数是未知数,不可计算2、抽样平均误差:3、抽样极限误差:是指在一定的概率下抽样误差的可能范围, 也称为允许误差。用表

9、示抽样极限误差,即在一定概率下, 抽样误差率=(抽样极限误差/估计量)*100% 抽样估计精度=100%-抽样误差率如|xxbar-X|xbar抽样总结本单元包括:抽样是查看所有数据的一种有效率和效果的方法。总体抽样与过程抽样有不同的目的和方法。代表性是抽样最重要的一方面。正确抽样使您对结论有信心。总体抽样的样本容量公式可适用于稳定过程。样本容量(Sample Size)样本容量介绍人们常问的第一个问题是“我需要多少个样本?”该问题的答案由下列四个因素确定:1.数据类型离散数据和连续数据2.您想做什么描述整组的某个特征(平均值或比例)在特定的精度内( _ 单位)比较组的特征(找出组平均值或比例

10、之间的差异)以什么功效:希望检测到特定差异的概率3.您估计的标准偏差(或比例)为多大4.您希望的置信度为多高(通常为 95%)假设检验中样本容量的重要性当样本容量太小 不能检验出差异n = 1n = 5过程A过程A过程 B过程 B假设检验中样本容量的重要性当样本容量太大对平均值的漂移过于敏感 资源浪费样本容量的选取过程第一步: 明确研究过程中的响应变量第二步: 选择合适的统计检验第三步: 决定可接受的风险 和 第四步: 定出漂移敏感度第五步: 建立或估计当前过程中的参数 第六步: 决定合适的样本容量抽样风险 是 H0 成立, 但结果却否定它的风险. 1- 是 H0 的置信系数.观察值1抽样风险

11、 是H0不成立, 但结果却肯定它的风险.(1-) 称为检验的功效, 它表示H0 不成立, 而结果也否定它的概率, 即当H0不成立时,作出正确结论的概率.观 察 值12漂移抽样风险抽样风险H0 :无差异H1 :有明显差异零假设成立不成立决策接受 H0拒绝 H0正确1 正确1 第一类错误 第二类错误 漂移敏感性实验之前需要预先指定反映明显差异的量 . 与标准差 之比 /称为漂移敏感度(drift sensitivity ). 关于均值的比较的检验单样本检验(1-Sample Tests)Stat Power and Sample Size 1-Sample ZStat Power and Samp

12、le Size 1-Sample t双样本检验(2-Sample Tests)Stat Power and Sample Size 2-Sample t样本容量公式取决于您的目的抽样目的公式*Minitab 命令估计平均值(例如、确定基准周期)(其中 d = 精度: _ 单位)估计比例(例如、确定缺陷基准百分比)(其中 d = 精度: _ 单位)精度 (d)精度是允许某个特征的估计值波动的范围。估计上下不超过两天的周期。估计上下不超过 3% 的缺陷百分比。使用符号 d 表示精度。传统的统计学称它为 “delta”、因此以d 表示。精度等于置信区间 (CI) 的一半。周期(单位为天)为 95%

13、时 CI = (48、 52) 意味着我们有 95% 的确信平均周期在 48 天至 52 天之间。CI 的宽度 = 4 天。精度 = d = 2 天(= 估计值上下不超过 2 天)。精度 (d)(续)决定您需要多大的精度。精度与样本容量的平方根成反比。精度和样本容量要提高精度、必须增加样本容量(但会增加成本)。对于需要多大的精度没有明确的答案; 该答案取决于使用该估计值对业务产生多大的影响。每种情况都是独特的;不要效仿别人的决定。估计平均值所需的样本容量95% 的置信度*意味着因子为 2 标准偏差的估计您希望的精度不重复抽样重复抽样目的:练习使用样本容量公式估计平均值。时间:3 分钟。要求:

14、使用样本容量公式计算平均值, 以便回答下列问题。 1. 假设您想估计 呼入电话的平均通话时间 1 分钟。您需要多少样本? (历史数据显示典型的标准偏差 = 3 分钟。) 2. 您需要对多少次呼入抽样、以获得 1/8 分钟的精度?练习:估计平均值所需的样本容量练习:答案问题 1.问题 2.如何估计标准偏差困难的选择:要估计样本容量,您需要知道标准偏差。您需对数据的变化量有一定了解,因为数据可变性加大, 需要的样本容量也要相应增加。但是,如果您还没有进行抽样,如何知道偏差呢?如何估计标准偏差(续)估计标准偏差的选择查找现存的数据并计算 s。使用类似过程的控制图(针对个体的)。采集一个小的样本并计算

15、 s。根据您对过程的认识和记得的类似数据猜一猜(大多数人不擅长这样做)。估计比例所需的样本容量95% 的置信度意味着因子为 2猜 p 的值(样本大小随 P 变动较大、从 P=0.1 到 0.5,变化甚剧)您希望的精度使用精度调整样本容量您可使用确定样本容量的公式,来确定是否需要花更多的资金收集更多的样本来得到更高的精度。在收集数据之前这样做可以帮助您决定多少样本可以符合您的项目和预算。1.确定您可以提供多少个样本 (n)。2.然后问: 该样本提供多高的精度? 即、精度的平均值在 d 单位之内还是精度的比例在 d% 之内使用精度调整样本容量(续)3.该精度足够精确吗?4.如果不够精确:为各种样本

16、容量绘制一个精度和成本表,以确定在样本上每花一美元在精度上提高了多少。然后选择一个样本容量,再根据所提高的精度或您需要的精度来证明这是正确的选择。从有限的总体中进行抽样样本容量公式假设样本容量 (n) 小于总体 (N)。如果 .05 您抽取的样本占总体的 5% 以上您可以使用“有限总体”公式调整样本容量:使用样本容量公式使用样本容量公式:在置信度为 95% 的情况下,根据给定的期望精度以及 S 或 P 的估计值, 确定估计整组的某个特征(平均值或比例)所需的样本容量。在收集数据之前,确定各种样本容量其估计值的精度。确定估计值的精度与增加样本容量的成本之间的得失。在收集数据之后,确定估计值的精度

17、。状态:样本容量命令和公式抽样目的公式*/ Minitab 命令估计平均值(例如、确定基准周期)(其中 d = 精度: _ 单位)估计比例(例如、确定缺陷基准百分比)(其中 d = 精度: _ 单位)比较两组平均值、找出差异(2 个样本的 t 测试)统计 功效和样本容量 2 个样本的 t比较两个以上的组的平均值、找出差异(ANOVA)统计 功效和样本容量 单向 ANOVA比较两个(或更多)组的比例、找出差异(卡方测试)统计 功效和样本容量 2 个比例样本容量大经验法则统计值 或图表建议应采用的最小样本容量 (n) 平均值比例频率分布图(直方图) Pareto 排列图散布图控制图50502424

18、5个变量、和 N之间的关系可写出下面是公式: 注意如果我们知道了5个变量中的任意4个变量,就可以通过上式计算出第5个变量 利用Minitab, 我们现在将说明如何计算样本容量和检验功效: 样本容量 = N检验功效 = 1-计算样本容量一种新型的焊接机已经研制出来,出于对经济价值的考虑,新型焊接机的合格率必须要比现有类型的焊接机大5个百分点,现有设备的合格率约为80% 为了比较这两种设备,要使用日常的数据,现有设备的历史日合格率的标准差为3%,要求新的焊接机有相同的日合格率散布。 我们可接受的风险是0.01(指两台设备有差异而实际上并没有差异的机会) 我们可接受的风险是0.20(说两台设备合格率

19、相同而实际上并不同的机会) 例题1: 1-样本 t-检验时的样本容量的计算零假设 (Ho): 新设备的合格率并不比现有的设备好 备择假设 (Ha): 新设备的日合格率比现有的设备高 焊接机: 假设 在这两个假设之间需要选择多大的样本容量呢? 从所给的信息,我们得到 显著水平, a = 0.01 检验功效 = 1-b = 0.80. 平均值间的差异, d = 85 - 80 = 5.标准差, s = 3备择假设 (Ha)为新设备的日合格率比现有的设备高 焊接机: 需要的样本容量 选择 Stat Power and Sample Size 1-Sample t. 5. 输入 alpha, a 2.

20、 输入检验功效, 1-b 1. 输入delta, d 4. 选择备择假设 3. 输入 sigma, s填选项1- 3;然后点“Options” 再填选项4 和 5;最后, 在所有打开的窗口中点 OK 焊接机: 利用MinitabMinitab 告诉我们,至少要抽取7个样本,才能保证在我们的检验功效为0.80的情况下,把新焊接机是否比现有的设备高5个百分点准确检测出来 (注:N=7时,实际的检验功效为 0.8512)焊接机: Minitab 输出Power and Sample Size 1-Sample t TestTesting mean = null (versus null)Calcul

21、ating power for mean = null + differenceAlpha = 0.01 Assumed standard deviation = 3 Sample TargetDifference Size Power Actual Power 5 7 0.8 0.851212某工程师想通过实施一个全阶乘DOE (3因子,8运行),来研究恒温箱对温度、流体密度和液罐变化的动作灵敏度; 0.001英寸的动作就影响功能表现。设计队想探测这样或更高幅度的影响; 必须考虑恒温箱动作中的工程散布,SPC数据显示标准偏差约为0.001英寸; 可以接受的风险(说一个因子的两个水平不同,而实

22、际上相同的风险)是0.03; 由于时间的限制,只能作两次再现(共16次运行), 有关该DOE计划的报告必须上报给工程主管。 例题2-检验功效计算:恒温箱 DOE零假设 (Ho): 实验因子对恒温箱动作没有影响 备择假设 (Ha):实验因子对恒温箱动作有影响 恒温箱 DOE: 假设观察到0.001英寸尺度影响(当此影响存在时)的概率是多少?(即此计划完的DOE 的检验功效是多少?) 从所给的信息,我们知道 显著水平, a = 0.03再现数 = 2.影响差异, d = 0.001 英寸标准偏差, s = 0.001 英寸备择假设 (Ha) 是,因子对恒温箱的动作有影响 恒温箱 DOE: 检验功效

23、 选择 Stat Power and Sample Size 2 Level Factorial Design6. 输入alpha, a 2. 输入循环数 填写选项1-5。然后点 “Options” 并填选项6。最后,在所有打开的窗口中点 OK 1. 输入因子数4. 输入影响尺度, d 5. 输入 sigma, s 3. 输入再现数恒温箱 DOE: 利用 MinitabMinitab 告诉我们,两次再现时的检验功效只有 0.3234,这意味着我们很可能不能看到0.001英寸尺度的影响,显然需要更多的再现数. 恒温箱 DOE: Minitab 输出Power and Sample Size 2-

24、Level Factorial DesignAlpha = 0.03 Assumed standard deviation = 0.001Factors: 3 Base Design: 3, 8Blocks: noneCenter TotalPoints Effect Reps Runs Power 0 0.001 2 16 0.323375某公司正在考虑决定是否变更供应商; 供应商X是当前的供应商,其不良率约为10%;而供应商Y是一个新供应商,其许诺提供部品的不良率将小于10%; 顾客认为如果供应商Y比供应商X的不良率小1个百分点,则更换供应商就有经济利益; 用来决定是否值得采用供应商Y的样

25、本容量是多少? 为了比较,分别计算获得检验功效为0.6、0.7、0.8和0.9 所需要的样本容量;假设a = 0.05 例题3-样本容量计算 : 拒绝部品比例 零假设 (Ho): 供应商之间部品的不良率没有差异 备择假设 (Ha):供应商X的部品不良率要大于供应商Y的拒绝部件的比例:假设 在检验功效分别为0.6、0.7、0.8和0.9时,能计算并比较两个观察 的不良率所需样本容量是多少? 从所给的信息,我们知道 显著水平, a = 0.05如果供应商Y的部品不良率要比供应商X低一个百分点, 顾客将选择供应商Y 比例的差异 , d = 0.01备择假设 (Ha) 是供应商X的不良率大于供应商Y的

26、不良率 拒绝部品比例: 样本容量选择 Stat Power and Sample Size 2 Proportions5. 输入 alpha, a4. 指定供应商 X大于供应商 Y先填选项 1-3;然后点“Options” 并填选项 4和5;最后,在所有打开的窗口中点 OK 2. 输入检验功效3.输入供应商 Y 的比例 拒绝部品比例: 利用 Minitab1. 输入供应商 X 的不良率Power and Sample Size Test for Two ProportionsTesting proportion 1 = proportion 2 (versus )Calculating power for proportion 2 = 0.09Alpha = 0.05 Sample TargetProportion 1 Size Power Actual Power 0.1 6196 0.6 0.600

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论