版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章抽样估计与样本容量确定第十二章抽样估计与样本容量确定1抽样估计的基本思路市场调查的目的就是通过样本的数据来推测总体参数,从而估计总体特征。例如我们想知道总体的平均值就可以用样本的平均值来估计。用样本均值来代替总体均值就是点估计,然而点估计虽然计算很简单,却只有在很少的情况下才完全正确,因此人们更偏向于区间估计。所谓区间估计就是对总体值落在某一范围内的可能性的推断。实例:××路,工作日日人流总量定值估计值为771356人,在95%的概率保证程度下的区间估计值为726235人~816478人;非工作日日人流总量定值估计值为712113人,在95%的概率保证程度下的区间估计值为652891人~771335人。抽样估计的基本思路市场调查的目的就是通过样本的数据来推测总体2要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差情况、置信度、抽样分布等等内容。下来我们以对总体均值的估计为研究对象,对这些基础知识进行一个简单的回顾。要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差3一、正态分布——重要的统计分布正态分布是一种钟形的、相对于其平均值对称的连续性分布。正态分布的统计特征在于:1.只有一个众数。2.相对于其平均值对称。3.正态分布由其平均值和标准差唯一确定。4.正态分布曲线下方的总面积等于1,正态分布曲线下任意两个变量值之间的区域面积等于观察值处于这两个变量值之间的概率。5.任何正态分布都可以通过简单的转化,变为标准正态分布。其转化公式为一、正态分布——重要的统计分布4
正态分布具有良好的统计性质,如果一个变量符合正态分布就可以很方便的对它进行估计。举例,利用标准正态分布进行区间估计:设待估的总体参数为,样本的平均值为假设符合标准正态分布,则:即正态分布具有良好的统计性质,如果一个变量符合正态分布就可以5正态分布在统计推断中处于特别重要的地位。原因在于:1.许多变量的概率分布都接近正态分布,如消费者消费掉的软饮料数量、爱吃快餐的人平均每月去快餐店的次数等。2.正态分布在理论上重要,根据中心极限定理,任何总体不论其分布如何,随着样本容量的增加,样本均值趋近于正态分布3.许多离散性概率分布也近似于正态分布。正态分布在统计推断中处于特别重要的地位。原因在于:6总体分布、样本分布和抽样分布总体分布是总体中所有单位的频率分布,总体的分布存在多种形式,一般情况下总体分布是未知的。总体分布的平均值用表示,总体分布的标准差用表示。样本分布是单个样本所有单位的频率分布。样本分布是已知的。样本均值用表示,标准差用S表示。样本均值的抽样分布是从一个特定总体中抽取的给定容量的所有可能样本的平均值的概率分布。总体分布、样本分布和抽样分布总体分布是总体中所有单位的频率分7总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定理,样本平均值的抽样分布必定是正态分布。对于正态分布来说管的是曲线的位置,管的是曲线的胖瘦。不同的样本量确定的样本平均值抽样分布其和不同,所以对于规定的置信区间来说,大样本的平均值的抽样分布更“集中”,误差也小;从另一方面,如果误差确定,大样本的平均值的置信度更高。总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定8计算总体均值的区间估计,就是想获得样本均值抽样分布的和,从而根据置信度确定置信区间,然后在点估计的基础上确定区间估计。例:从一个500人的总体中,采用简单随机抽样抽出一个10人的样本,每个入样单元的年龄见下表。求平均年龄估计值的抽样方差、标准差,并计算在95%的置信水平下的误差限于相应的置信区间。计算总体均值的区间估计,就是想获得样本均值抽样分布的9样本单元年龄估计值-平均数离差的平方121-13.4179.56226-8.470.56327-7.454.76432-2.45.76534-0.40.166372.66.767383.612.968405.631.369427.657.76104712.6158.76合计578.4样本单元年龄估计值-平均数离差的平方121-13.4179.101.计算点估计值:=(21+26+……+47)/10=34.42.计算抽样方差的估计值:计算每个人的年龄与其平均数的差;计算离差的平方;以离差的平方和除以样本量减1的值作为总体方差的估计值(64.27);以总体方差的估计值处以样本量得到抽样方差的估计值(6.4)。3.标准差为抽样方差的平方根(2.5)4.95%置信度下的误差限为1.96*2.5=4.95.置信区间为(34.4-4.9,34.4+4.9)即(29.5,39.3)市场调查与分析第十二章抽样估计与样本容量确定课件11样本量的确定在确定概率抽样样本容量的过程中涉及财务、统计和管理3个方面的问题。在其它条件相同的情况下,样本越大,抽样误差就越小。但样本越大,耗费的资金也越多。而且,虽然抽样成本随着样本容量的增加呈线性递增(样本容量增加一倍,成本也增加一倍),抽样误差却只以相当于相应样本容量增长幅度的平方根的速度递减。换句话说,如果样本容量增加到原来的4倍,数据收集成本也将增加到原来的4倍,但抽样误差将只减少1/2.最后,样本容量的确定还必须考虑管理问题:要求多高的估计精确度(抽样误差)?样本量的确定在确定概率抽样样本容量的过程中涉及财务、统计和管12样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义找出在限定费用范围内的最大样本容量样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本13确定样本容量的方法:可支配预算单凭经验的做法要分析的子群数传统的统计方法确定样本容量的方法:14影响样本容量的因素1.误差限2.总体的变异程度3.总体大小(如果样本容量占总体比例较小则影响不大)4.抽样设计5.调查的回答率影响样本容量的因素1.误差限15给定均值精度,计算简单随机抽样样本量总体方差的计算公式为:对于简单随机样本,S2的一个无偏估计量是:其中是样本均值。给定均值精度,计算简单随机抽样样本量16对于不放回简单随机抽样,可以证明样本均值的抽样方差公式为:当总体方差未知时,它可以用下式来估计:对于不放回简单随机抽样,可以证明样本均17设e为误差则:其中Z依赖于置信水平从上式中可以解得:
设e为误差则:18在通常情况下,总体规模比较大,则可以将以上计算公式简化为:如果使用的不是简单随机抽样,则可以通过设计系数调整样本量。如果回答率小于100%,也可以对回答率进行调整。在通常情况下,总体规模比较大,则可以将以上计算公式简化为:19给定估计比率精度,计算简单随机抽样样本量对于二元指标的总体,其总体方差的估计为:与给定均值一样的道理,其样本量的计算公式为:给定估计比率精度,计算简单随机抽样样本量对于二元指标的总体,20如果总体N很大,则计算公式可以简化为:容易观察到当P=0.5时,总体方差存在最大值。因此在计算样本量时,如果总体方差未知,可以从统计稳健性出发算出一个保守的样本量。如果总体N很大,则计算公式可以简化为:21例:某杂志出版商希望得到读者对该杂志综合满意度的估计值。通过邮寄调查,出版商可以联系到所有2500个订户,但由于时间限制,出版商决定使用简单随机抽样进行电话调查。出版商希望真实总体比例落在总体比例的样本估计值的正负0.1范围内;希望估计值的置信度为0.95;预计回答率为65%。则:请计算样本量。例:某杂志出版商希望得到读者对该杂志综合满意度的估计值。通过22解析:由于事先没有顾客满意度的估计比例,因此为留有余地,访查应取最大值,即P=0.5。计算出样本量为n1=92由于采用简单随机抽样所以不需要经过设计调整进行无回答调整得n=92/0.65=142解析:由于事先没有顾客满意度的估计比例,因此为留有余地,访查23决定样本规模的“信息价值”法置信区间法是计算样本规模的传统统计学方法。这种方法在营销调研中有明显的缺点:不能区分公司用自己的未来押赌的研究和只花一小部分费用的研究,不能区分对新产品的研究和对老产品的研究,不能区分每一项观测需要花费200美元的项目和只需要花费5美元的项目。诸如研究的成本和决策的价值等因素并不包括在计算中信息价值方式是决策导向型,它和“问题解决”研究配合最为恰当。决定样本规模的“信息价值”法置信区间法是计算样本规模的传统统241.为什么信息有价值信息价值就在于它可以使得经理能给做出更多正确的决定,从而提高公司的总体利润。与信息价值相关的因素:不确定性:确信的信息——没有任何价值;决策中的收益或损失:信息的价值不取决于支付能力,而是它能从好的决策中获得更多的利润,从坏的决策中遭受更大的损失。1.为什么信息有价值信息价值就在于它可以使得经理能给做出更多252.信息价值和样本规模信息是有价值的,但它也是要花钱来获得的。对所有经济商品而言,有必要使扣除成本后从信息中所得的净收益最大化。如何最大化?MR=MC2.信息价值和样本规模信息是有价值的,但它也是要花钱来获得的26第十二章抽样估计与样本容量确定第十二章抽样估计与样本容量确定27抽样估计的基本思路市场调查的目的就是通过样本的数据来推测总体参数,从而估计总体特征。例如我们想知道总体的平均值就可以用样本的平均值来估计。用样本均值来代替总体均值就是点估计,然而点估计虽然计算很简单,却只有在很少的情况下才完全正确,因此人们更偏向于区间估计。所谓区间估计就是对总体值落在某一范围内的可能性的推断。实例:××路,工作日日人流总量定值估计值为771356人,在95%的概率保证程度下的区间估计值为726235人~816478人;非工作日日人流总量定值估计值为712113人,在95%的概率保证程度下的区间估计值为652891人~771335人。抽样估计的基本思路市场调查的目的就是通过样本的数据来推测总体28要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差情况、置信度、抽样分布等等内容。下来我们以对总体均值的估计为研究对象,对这些基础知识进行一个简单的回顾。要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差29一、正态分布——重要的统计分布正态分布是一种钟形的、相对于其平均值对称的连续性分布。正态分布的统计特征在于:1.只有一个众数。2.相对于其平均值对称。3.正态分布由其平均值和标准差唯一确定。4.正态分布曲线下方的总面积等于1,正态分布曲线下任意两个变量值之间的区域面积等于观察值处于这两个变量值之间的概率。5.任何正态分布都可以通过简单的转化,变为标准正态分布。其转化公式为一、正态分布——重要的统计分布30
正态分布具有良好的统计性质,如果一个变量符合正态分布就可以很方便的对它进行估计。举例,利用标准正态分布进行区间估计:设待估的总体参数为,样本的平均值为假设符合标准正态分布,则:即正态分布具有良好的统计性质,如果一个变量符合正态分布就可以31正态分布在统计推断中处于特别重要的地位。原因在于:1.许多变量的概率分布都接近正态分布,如消费者消费掉的软饮料数量、爱吃快餐的人平均每月去快餐店的次数等。2.正态分布在理论上重要,根据中心极限定理,任何总体不论其分布如何,随着样本容量的增加,样本均值趋近于正态分布3.许多离散性概率分布也近似于正态分布。正态分布在统计推断中处于特别重要的地位。原因在于:32总体分布、样本分布和抽样分布总体分布是总体中所有单位的频率分布,总体的分布存在多种形式,一般情况下总体分布是未知的。总体分布的平均值用表示,总体分布的标准差用表示。样本分布是单个样本所有单位的频率分布。样本分布是已知的。样本均值用表示,标准差用S表示。样本均值的抽样分布是从一个特定总体中抽取的给定容量的所有可能样本的平均值的概率分布。总体分布、样本分布和抽样分布总体分布是总体中所有单位的频率分33总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定理,样本平均值的抽样分布必定是正态分布。对于正态分布来说管的是曲线的位置,管的是曲线的胖瘦。不同的样本量确定的样本平均值抽样分布其和不同,所以对于规定的置信区间来说,大样本的平均值的抽样分布更“集中”,误差也小;从另一方面,如果误差确定,大样本的平均值的置信度更高。总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定34计算总体均值的区间估计,就是想获得样本均值抽样分布的和,从而根据置信度确定置信区间,然后在点估计的基础上确定区间估计。例:从一个500人的总体中,采用简单随机抽样抽出一个10人的样本,每个入样单元的年龄见下表。求平均年龄估计值的抽样方差、标准差,并计算在95%的置信水平下的误差限于相应的置信区间。计算总体均值的区间估计,就是想获得样本均值抽样分布的35样本单元年龄估计值-平均数离差的平方121-13.4179.56226-8.470.56327-7.454.76432-2.45.76534-0.40.166372.66.767383.612.968405.631.369427.657.76104712.6158.76合计578.4样本单元年龄估计值-平均数离差的平方121-13.4179.361.计算点估计值:=(21+26+……+47)/10=34.42.计算抽样方差的估计值:计算每个人的年龄与其平均数的差;计算离差的平方;以离差的平方和除以样本量减1的值作为总体方差的估计值(64.27);以总体方差的估计值处以样本量得到抽样方差的估计值(6.4)。3.标准差为抽样方差的平方根(2.5)4.95%置信度下的误差限为1.96*2.5=4.95.置信区间为(34.4-4.9,34.4+4.9)即(29.5,39.3)市场调查与分析第十二章抽样估计与样本容量确定课件37样本量的确定在确定概率抽样样本容量的过程中涉及财务、统计和管理3个方面的问题。在其它条件相同的情况下,样本越大,抽样误差就越小。但样本越大,耗费的资金也越多。而且,虽然抽样成本随着样本容量的增加呈线性递增(样本容量增加一倍,成本也增加一倍),抽样误差却只以相当于相应样本容量增长幅度的平方根的速度递减。换句话说,如果样本容量增加到原来的4倍,数据收集成本也将增加到原来的4倍,但抽样误差将只减少1/2.最后,样本容量的确定还必须考虑管理问题:要求多高的估计精确度(抽样误差)?样本量的确定在确定概率抽样样本容量的过程中涉及财务、统计和管38样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义找出在限定费用范围内的最大样本容量样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本39确定样本容量的方法:可支配预算单凭经验的做法要分析的子群数传统的统计方法确定样本容量的方法:40影响样本容量的因素1.误差限2.总体的变异程度3.总体大小(如果样本容量占总体比例较小则影响不大)4.抽样设计5.调查的回答率影响样本容量的因素1.误差限41给定均值精度,计算简单随机抽样样本量总体方差的计算公式为:对于简单随机样本,S2的一个无偏估计量是:其中是样本均值。给定均值精度,计算简单随机抽样样本量42对于不放回简单随机抽样,可以证明样本均值的抽样方差公式为:当总体方差未知时,它可以用下式来估计:对于不放回简单随机抽样,可以证明样本均43设e为误差则:其中Z依赖于置信水平从上式中可以解得:
设e为误差则:44在通常情况下,总体规模比较大,则可以将以上计算公式简化为:如果使用的不是简单随机抽样,则可以通过设计系数调整样本量。如果回答率小于100%,也可以对回答率进行调整。在通常情况下,总体规模比较大,则可以将以上计算公式简化为:45给定估计比率精度,计算简单随机抽样样本量对于二元指标的总体,其总体方差的估计为:与给定均值一样的道理,其样本量的计算公式为:给定估计比率精度,计算简单随机抽样样本量对于二元指标的总体,46如果总体N很大,则计算公式可以简化为:容易观察到当P=0.5时,总体方差存在最大值。因此在计算样本量时,如果总体方差未知,可以从统计稳健性出发算出一个保守的样本量。如果总体N很大,则计算公式可以简化为:47例:某杂志出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024个人的简单借款合同
- 国际贸易协议样本
- 厂房租赁合同范例
- 特色农产品胡柚购销合同法律问题探讨
- 共同投资开设武术馆协议
- 标准入职协议书范例
- 旅行社与导游劳动合同范本
- 2023年高考地理第一次模拟考试卷-(湖南A卷)(全解全析)
- 房地产代理合同模板
- 2024年建筑渣土运输合同范文
- 安阳师范学院校级教学团队推荐表
- 收款确认单(新)(共4页)
- 企业中层管理人员素质测评(附答案)
- 国民经济动员中心申报材料
- 流式细胞术报告单解读
- 社区卫生服务中心公共卫生绩效考核及奖金分配制度
- 外贸_询盘的分析与回复(精)
- 数独骨灰级100题
- 基于HTML5技术的动漫宣传介绍网站的设计与实现
- 江苏省电力公司配电网管理规范实施细则
- 中山纪念堂英文导游词
评论
0/150
提交评论