




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、商学院工商管理系商学院工商管理系2022-3-202022-3-202 2 “一种客观测量报刊读者阅读兴趣的新方法一种客观测量报刊读者阅读兴趣的新方法”是乔是乔治治盖洛普(盖洛普(George Gallup)在艾奥瓦大学写博士)在艾奥瓦大学写博士论文时用的题目。论文时用的题目。 通过对通过对“Des Moines Register and Tribune”和瑞和瑞士数学家雅克布士数学家雅克布贝努里(贝努里(Jakob Bernonlli)具有)具有200年历史的概率统计理论的研究,盖洛普在抽样年历史的概率统计理论的研究,盖洛普在抽样技术领域取得了进展。技术领域取得了进展。 他指出,当抽样计划中
2、的调查对象涵盖广泛,涉及他指出,当抽样计划中的调查对象涵盖广泛,涉及不同地域、不同种族、不同经济层次的各种人时,不同地域、不同种族、不同经济层次的各种人时,你只需随机抽取而无需采访每个人。尽管当时他的你只需随机抽取而无需采访每个人。尽管当时他的方法不能为每个人理解和认同,但是现在,这已经方法不能为每个人理解和认同,但是现在,这已经被广泛使用。被广泛使用。2022-3-202022-3-203 3 盖洛普通常引出一些特例来解释他自己在说盖洛普通常引出一些特例来解释他自己在说什么或做什么。什么或做什么。 假设有假设有7000个白豆子和个白豆子和3000个黑豆子十分均个黑豆子十分均匀地混在一起,装在
3、一只桶里。当你舀出匀地混在一起,装在一只桶里。当你舀出100个时,你大约可以拿到个时,你大约可以拿到70个白的和个白的和30个黑的,个黑的,而且你失误的几率可以用数学方法计算出来。而且你失误的几率可以用数学方法计算出来。只要桶里的豆子多于一把,那么你出错的几只要桶里的豆子多于一把,那么你出错的几率就少于率就少于3%。2022-3-202022-3-204 4 20世纪世纪30年代早期,盖洛普在美国很受欢迎。他成年代早期,盖洛普在美国很受欢迎。他成为为Drake大学新闻系的系主任,然后转至西北大学。大学新闻系的系主任,然后转至西北大学。在些期间,他从事美国东北部报刊的读者调查。在些期间,他从事美
4、国东北部报刊的读者调查。 1932年的夏天,一家新的广告代理商电扬广告公司,年的夏天,一家新的广告代理商电扬广告公司,邀请他去纽约创立一个旨在评估广告效果的调查部邀请他去纽约创立一个旨在评估广告效果的调查部门,并制定一套调查方案。门,并制定一套调查方案。 同年,他利用他的民意测验法帮助他的岳母竞选艾同年,他利用他的民意测验法帮助他的岳母竞选艾奥瓦州议员。这使他确信他的抽样调查方法不仅在奥瓦州议员。这使他确信他的抽样调查方法不仅在数豆子和报刊读者调查方面有效,并有助于选举人。数豆子和报刊读者调查方面有效,并有助于选举人。2022-3-202022-3-205 5 只要你了解到抽样范围具有广泛性:
5、白人、只要你了解到抽样范围具有广泛性:白人、黑人,男性、女性,富有、贫穷,城市、郊黑人,男性、女性,富有、贫穷,城市、郊区,共和党、民主党。只要有一部分人代表区,共和党、民主党。只要有一部分人代表他们所属的总体,你就可以通过采访相对少他们所属的总体,你就可以通过采访相对少的一部分人,来预测选举结果或反映公众对的一部分人,来预测选举结果或反映公众对其关心问题的态度。其关心问题的态度。 盖洛普证实,通过科学抽样,可以准确地估盖洛普证实,通过科学抽样,可以准确地估测出总体的指标。同时,在抽样过程中,可测出总体的指标。同时,在抽样过程中,可节省大量资金。节省大量资金。2022-3-202022-3-2
6、06 6 乔治乔治盖洛普是个了不起的人。作为一个周游盖洛普是个了不起的人。作为一个周游各地的哲学家的儿子,他在高中时设法养了各地的哲学家的儿子,他在高中时设法养了一群乳牛,并因此摆脱了贫困。在爱荷华大一群乳牛,并因此摆脱了贫困。在爱荷华大学上学的时候,他成为学生杂志的主编,并学上学的时候,他成为学生杂志的主编,并把这本杂志变成一份日报,还发明了一种计把这本杂志变成一份日报,还发明了一种计算每一条新闻和每一篇特写的阅读人数的方算每一条新闻和每一篇特写的阅读人数的方法法一个将给新闻业和广告业带来革命性一个将给新闻业和广告业带来革命性变化的发明。变化的发明。2022-3-202022-3-207 7
7、 抽样设计概述抽样设计概述 抽样误差与样本量抽样误差与样本量 抽样调查的步骤抽样调查的步骤 抽样调查的实例抽样调查的实例 小结小结2022-3-202022-3-208 8.抽样调查的概念抽样调查的概念 抽样调查抽样调查是指从调研总体中抽选出一部分要素作为样本,对样是指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。的调查活动。.抽样调查的特点抽样调查的特点 优点:时间快,收效快。优点:时间快,收效快。 质量高、可信程度好。质量高、可信程度好。 费用省、易推广。费用省、易推广。 抽样调
8、查的不足:小范围、样本差别较的调查不适抽样调查的不足:小范围、样本差别较的调查不适合。合。2022-3-202022-3-209 9 对一个街道或一个乡内的个体商贩的零售额对一个街道或一个乡内的个体商贩的零售额调查是否适合采用抽样检查方法?调查是否适合采用抽样检查方法?【分析提示分析提示】由于被调查对象比较集中,个体之间又存在较大差异,由于被调查对象比较集中,个体之间又存在较大差异,抽样调查的优势不能得以充分发挥,这种情况下采用全抽样调查的优势不能得以充分发挥,这种情况下采用全面调查的方式可能更好。面调查的方式可能更好。所以总体规模越大,实施全面调查的难度越大,抽样调所以总体规模越大,实施全面
9、调查的难度越大,抽样调查的用武之地也就越大。查的用武之地也就越大。2022-3-202022-3-2010101.1.个体与总体个体与总体 个体也称为个案。组成总体的每个元素称为个体。有时也称具有某种统个体也称为个案。组成总体的每个元素称为个体。有时也称具有某种统计特征的每一个对象为个案。计特征的每一个对象为个案。 构成一个总体的个案,可以是人或物,也可以指个性,心理反应等。构成一个总体的个案,可以是人或物,也可以指个性,心理反应等。 总体也称为母体,一般总体等。具有某种特征的一类事物的全部个案,总体也称为母体,一般总体等。具有某种特征的一类事物的全部个案,在统计学上称为总体。也即是说,在统计
10、学上称为总体。也即是说,研究对象的全体称为总体研究对象的全体称为总体。 例如某批产品、某类病人、某个生产过程等。例如某批产品、某类病人、某个生产过程等。 总体的单位数常用符号总体的单位数常用符号N表示。表示。2.2. 样本、样本单位与抽样单位样本、样本单位与抽样单位样本也称为抽样总体、样本总体等。从总体中抽取一部分代表进行研究样本也称为抽样总体、样本总体等。从总体中抽取一部分代表进行研究分析时,这一部分被抽取的个案称为总体中的一个样本。也就是说,从分析时,这一部分被抽取的个案称为总体中的一个样本。也就是说,从总体中抽取的若干个案所组成的群体,称之为样本。可见,总体是大群总体中抽取的若干个案所组
11、成的群体,称之为样本。可见,总体是大群体,而样本是小群体。样本的单位数(即样本容量)常用符号体,而样本是小群体。样本的单位数(即样本容量)常用符号n表示。表示。样本单位是按一定的抽样方法从总体中抽取出来。样本单位的多寡又称样本单位是按一定的抽样方法从总体中抽取出来。样本单位的多寡又称样本容量的大小。样本容量的大小。抽样单位是指样本抽取过程中的单位形式。抽样单位是指样本抽取过程中的单位形式。样本单位与抽样单位的区别,样本单位与抽样单位的区别,见见P1052022-3-202022-3-2011113.抽样框抽样框 抽样框是供抽样所用的所有调查单位的名单。在抽样框中,抽样框是供抽样所用的所有调查单
12、位的名单。在抽样框中,可以对每个单位编上一个号码,由此可以按一定随机化程可以对每个单位编上一个号码,由此可以按一定随机化程序进行抽样。在抽样后,调查人员也可以根据抽样框上所序进行抽样。在抽样后,调查人员也可以根据抽样框上所提供的信息找到被选中的入样单位,从而实施调查。提供的信息找到被选中的入样单位,从而实施调查。 抽样框可以有多种形式,常用的有名录框,如企业名录、抽样框可以有多种形式,常用的有名录框,如企业名录、电话簿、人员名册等。抽样框也可以是一张地图或其他适电话簿、人员名册等。抽样框也可以是一张地图或其他适当形式。不管是什么形式,抽样框中的单位必须是有序的,当形式。不管是什么形式,抽样框中
13、的单位必须是有序的,便于编号。高质量的抽样框应当提供被调查单位更多的信便于编号。高质量的抽样框应当提供被调查单位更多的信息,并且没有重复和遗漏。息,并且没有重复和遗漏。4.抽样误差抽样误差 抽样误差是调研所得出的对总体某个特征的推断与抽样误差是调研所得出的对总体某个特征的推断与总体该特征最终实际结果之间的差距。总体该特征最终实际结果之间的差距。2022-3-202022-3-201212 有些事物在测量或试验时有破坏性,不可能有些事物在测量或试验时有破坏性,不可能进行全面调查进行全面调查 对某些有限总体,从理论上讲可以进行全面对某些有限总体,从理论上讲可以进行全面调查,但实际上根本无法进行调查
14、,但实际上根本无法进行 对于无限总体只能进行抽样调查,不可能进对于无限总体只能进行抽样调查,不可能进行全面调查行全面调查 有些调查任务需要在短时间内完成有些调查任务需要在短时间内完成 对全面调查统计资料的质量进行检查和修正对全面调查统计资料的质量进行检查和修正2022-3-202022-3-201313 抽样误差抽样误差抽样误差是指调查的结果和客观实际情况的抽样误差是指调查的结果和客观实际情况的出入和差数,一般有两种误差存在:出入和差数,一般有两种误差存在:非抽样误差非抽样误差是基于抽样之外的许多其它原因而产生的误差,其产是基于抽样之外的许多其它原因而产生的误差,其产生原因如下图所示:生原因如
15、下图所示:2022-3-202022-3-201414非抽样误差非抽样误差观测偏差观测偏差非观测偏差非观测偏差覆盖不周覆盖不周无回答无回答访问员责任访问员责任被访问者责任被访问者责任访问员过失访问员过失误解而错答误解而错答故意错答故意错答拒答拒答不在家不在家访问员作弊访问员作弊2022-3-202022-3-201515抽样误差抽样误差是用样本估计总体而产生的误差是用样本估计总体而产生的误差抽样平均误差的计算抽样平均误差的计算影响抽样误差的因素影响抽样误差的因素必要样本容量的确定必要样本容量的确定以简单随机抽样方式为例以简单随机抽样方式为例平均数的样本量确定公式:平均数的样本量确定公式:重复抽
16、样:重复抽样:n=不重复抽样:不重复抽样:n=t22Nt2 2N +t262222022-3-202022-3-201616成数的样本量确定公式:成数的样本量确定公式:重复抽样:重复抽样:n=不重复抽样:不重复抽样:n=t2PQ2Nt2PQN2+t2PQpp2022-3-202022-3-201717 对生产某型号电池进行电流强度检验。根据对生产某型号电池进行电流强度检验。根据以往正常生产的经验,电流强度的标准差以往正常生产的经验,电流强度的标准差=0.4安培,而合格率为安培,而合格率为90%,现在用重复抽,现在用重复抽样的方式,要求在样的方式,要求在95.45%的概率保证下,抽的概率保证下,
17、抽样平均电流强度的极限误差不超过样平均电流强度的极限误差不超过0.08安培,安培,抽样合格率的极限误差不超过抽样合格率的极限误差不超过5%,问必要的,问必要的样本单位数应该为多少?样本单位数应该为多少? 2022-3-202022-3-201818根据公式,在重复抽样条件下:根据公式,在重复抽样条件下:抽样平均数的单位数:抽样平均数的单位数:n= = =100抽样成数的单位数:抽样成数的单位数:n= = =144 抽样单位应该确定其中比较多的单位数,即抽抽样单位应该确定其中比较多的单位数,即抽取取144个单位加以检验,以满足共同的要求个单位加以检验,以满足共同的要求t22220.420.082
18、t2pQ p220.90.10.052222022-3-202022-3-201919例例2:某进出口公司出口一种名茶,为检查:某进出口公司出口一种名茶,为检查其每包规格的质量,抽取样本其每包规格的质量,抽取样本100包,检包,检验结果如下:验结果如下:每包重量(克)每包重量(克)包(包)包(包)148-14910149-15020150-15150151-15220合合 计计100按规定这种茶叶每包规格重量应不低按规定这种茶叶每包规格重量应不低 于于150150克。克。试以试以0.99730.9973的概率(的概率(t=3)t=3)估计这批茶叶每包平均重量估计这批茶叶每包平均重量的范围,确定
19、是否达到规格要求。的范围,确定是否达到规格要求。2022-3-202022-3-202020 解:解:每包重量每包重量(克)(克)组中值组中值(h)x包数包数(包)(包)fxfx-x(x-x)2(x-x)2f148-149148.5101485-1.83.2432.4149-150149.5202990-0.80.6412.8150-151150.55075250.20.042.0151-152151.52030301.21.4428.8合计合计-10015030-76.0茶叶抽样平均每包重量:茶叶抽样平均每包重量:茶叶重量抽样方差:茶叶重量抽样方差:注:这里注:这里2即抽样的即抽样的S2x
20、= xf f xf f=150.3(克克)2 = (x-x)2f f76100=0.762022-3-202022-3-202121抽样平均误差:抽样平均误差:极限误差极限误差:x x=t=tx x=3=3( (0.087)=0.087)=0.26(0.26(克克) )这批茶叶平均每包重量的范围这批茶叶平均每包重量的范围:x x x=150.3=150.30.260.26即即:150.04:150.04150.56(150.56(克克) )从计算可知从计算可知,这批茶叶达到了重量规格要求。这批茶叶达到了重量规格要求。 =2n0.76100=0.0872022-3-202022-3-202222
21、例例3:从某市所有职工家庭中随机抽:从某市所有职工家庭中随机抽400户户进行调查,调查得知,拥有计算机的家进行调查,调查得知,拥有计算机的家庭有庭有160户,试以户,试以95.45%的概率求该市的概率求该市所有职工家庭中拥有计算机家庭的比率所有职工家庭中拥有计算机家庭的比率区间。如果要求极限误差不超过区间。如果要求极限误差不超过1%,问,问最少应抽多少户家庭进行调查?最少应抽多少户家庭进行调查?解:解:p =n1n160400=40%q = 1-p =60%=2.4%p =pqn40%60%400=2022-3-202022-3-202323F(t)=95.45% 查表得查表得t=2p p=t
22、=tU Up p=2=22.4%=4.8%2.4%=4.8%下限:下限:p-p p=35.2%=35.2%上限:上限:p+p p=44.8%=44.8%所以,在所以,在95.45%95.45%的概率保证下,该市所有职工家的概率保证下,该市所有职工家庭中拥有计算机家庭的比率区间在庭中拥有计算机家庭的比率区间在35.2%35.2%44.8%44.8%之间。之间。最少应抽最少应抽96009600户家庭进行调查。户家庭进行调查。n =t2p(1-p)p p220.40.6(1%)2=960022022-3-202022-3-202424第一步第一步界定调查总体界定调查总体第二步第二步选择资料收集方式选
23、择资料收集方式第三步第三步选择抽样框选择抽样框第四步第四步确定抽样方法确定抽样方法第五步第五步决定样本大小决定样本大小第六步第六步抽取样本收集资料抽取样本收集资料第七步第七步评估样本正误评估样本正误2022-3-202022-3-202525 界定调查总体就是要清楚地说明研究对象的范围(时间、地界定调查总体就是要清楚地说明研究对象的范围(时间、地点、人物),如点、人物),如2006年年4月,月,A市市B区区C街道街道1835岁青年对岁青年对互联网发展的看法。互联网发展的看法。 为了满足研究目的的需要,注意详细说明可提供信息或所需为了满足研究目的的需要,注意详细说明可提供信息或所需信息有关的个体
24、或实体(譬如公司、商店等)所具有的特性。信息有关的个体或实体(譬如公司、商店等)所具有的特性。 调查总体可以从以下几个方面进行描述:地域特征、人口统调查总体可以从以下几个方面进行描述:地域特征、人口统计学的特征、产品或服务使用情况、认知程度等。计学的特征、产品或服务使用情况、认知程度等。 在调查中,从调查表开始部分的过滤性问题,就可以看出某在调查中,从调查表开始部分的过滤性问题,就可以看出某个体是否属于本次调查的总体范围。即使有总体和样本清单,个体是否属于本次调查的总体范围。即使有总体和样本清单,仍有必要使用过滤性问题识别合格的应答者。仍有必要使用过滤性问题识别合格的应答者。2022-3-20
25、2022-3-202626第一步第一步界定调查总体界定调查总体第二步第二步选择资料收集方式选择资料收集方式第三步第三步选择抽样框选择抽样框第四步第四步确定抽样方法确定抽样方法第五步第五步决定样本大小决定样本大小第六步第六步抽取样本收集资料抽取样本收集资料第七步第七步评估样本正误评估样本正误2022-3-202022-3-202727 资料收集方式对抽样过程有重要影响。例如资料收集方式对抽样过程有重要影响。例如采用入户面访、电话调查、街上拦截还是网采用入户面访、电话调查、街上拦截还是网上调查、邮寄调查对抽样结果都会有不同的上调查、邮寄调查对抽样结果都会有不同的影响。影响。2022-3-20202
26、2-3-202828 某商业中心一向注重服务,调查显示,顾客某商业中心一向注重服务,调查显示,顾客十分看重服务,而且公司自信在这方面的口十分看重服务,而且公司自信在这方面的口碑颇佳。他们想在良好的商誉基础上继续提碑颇佳。他们想在良好的商誉基础上继续提供更为出色的服务。然而,经营规模的不断供更为出色的服务。然而,经营规模的不断扩大,使得他们有点力不从心。根据经验,扩大,使得他们有点力不从心。根据经验,他们选择了两家供应商来设计和制作追踪消他们选择了两家供应商来设计和制作追踪消费者满意程度的系统。费者满意程度的系统。2022-3-202022-3-202929 这两家公司拟采用不同的资料收集方式。
27、第一家公这两家公司拟采用不同的资料收集方式。第一家公司建议用电话采访来建立一个调查系统,该公司提司建议用电话采访来建立一个调查系统,该公司提议电话号码随机抽取,全部采访由当地电话中心调议电话号码随机抽取,全部采访由当地电话中心调控。每月对控。每月对400名消费者进行采访,经计算,该抽名消费者进行采访,经计算,该抽样方式所提供的消费者满意程度评估的结果,有样方式所提供的消费者满意程度评估的结果,有95%的把握,误差不超过的把握,误差不超过5%。 第二家公司建议通过邮寄调研收集必要资料。他们第二家公司建议通过邮寄调研收集必要资料。他们的理由有两条:第一,此方法成本低、质量高;第的理由有两条:第一,
28、此方法成本低、质量高;第二,消费者在回信时比在接受电话访谈时更坦率。二,消费者在回信时比在接受电话访谈时更坦率。电话采访的月成本比邮寄方式的月成本要高。电话采访的月成本比邮寄方式的月成本要高。 问:如何评价这两种方法?问:如何评价这两种方法?2022-3-202022-3-203030 邮寄调查的回收率估计为邮寄调查的回收率估计为25%。显然,这表。显然,这表明明75%的收信人会不回信。如果回信的人与的收信人会不回信。如果回信的人与不回信的人观点截然不同,那么调查结果就不回信的人观点截然不同,那么调查结果就有偏差并且不能真实代表公司的顾客。有偏差并且不能真实代表公司的顾客。 电话采访的回答率估
29、计为电话采访的回答率估计为70%。这表明。这表明1/3以以下(下(30%)的被采访人联系不上或拒绝接受)的被采访人联系不上或拒绝接受采访。尽管电话采访仍存在很高的不回答率,采访。尽管电话采访仍存在很高的不回答率,但潜在的不回答者的不同意见要少得多。调但潜在的不回答者的不同意见要少得多。调查结果也更接近他们商业中心消费者的真实查结果也更接近他们商业中心消费者的真实观点。观点。2022-3-202022-3-203131 另外,电话采访更快捷,因为可以在大约两周内完另外,电话采访更快捷,因为可以在大约两周内完成调查、制表并提交报告。同样的程序,邮寄调查成调查、制表并提交报告。同样的程序,邮寄调查则
30、需差不多则需差不多6周时间,因为人们收信、填表、回收周时间,因为人们收信、填表、回收都需要时间。而且,邮寄方式如仅收到都需要时间。而且,邮寄方式如仅收到25%的回信,的回信,就需要进行二次调研。就需要进行二次调研。 从本案例可以看出,在进行抽样设计时,要反复比从本案例可以看出,在进行抽样设计时,要反复比较不同的资料收集之方式,争取做出最好的选择。较不同的资料收集之方式,争取做出最好的选择。2022-3-202022-3-203232第一步第一步界定调查总体界定调查总体第二步第二步选择资料收集方式选择资料收集方式第三步第三步选择抽样框选择抽样框第四步第四步确定抽样方法确定抽样方法第五步第五步决定
31、样本大小决定样本大小第六步第六步抽取样本收集资料抽取样本收集资料第七步第七步评估样本正误评估样本正误2022-3-202022-3-203333 抽样框又称为抽样范畴,是抽取样本的所有抽样框又称为抽样范畴,是抽取样本的所有单位的名单。例如,要调查某大学学生上网单位的名单。例如,要调查某大学学生上网的情况,这时抽样框就是该校全体大学生的的情况,这时抽样框就是该校全体大学生的花名册。花名册。 在一次抽样中,抽样框的数目是与抽样单位在一次抽样中,抽样框的数目是与抽样单位的层次相对应的。若有的层次相对应的。若有3个层次的抽样单位,个层次的抽样单位,如乡、村、家庭,则抽样框也应有如乡、村、家庭,则抽样框
32、也应有3个,全乡个,全乡的名单、乡样本中所有村的名单、村样本中的名单、乡样本中所有村的名单、村样本中所有家庭的名单。所有家庭的名单。2022-3-202022-3-203434 准确的抽样框包括两个涵义:准确的抽样框包括两个涵义:完整性与不重复性完整性与不重复性。 完整性是指不遗漏总体中的任意一个个体;不重复完整性是指不遗漏总体中的任意一个个体;不重复性是指任意一个个体不能重复列入抽样框。性是指任意一个个体不能重复列入抽样框。 在实际抽样操作中,满足这两项原则非常不容易。在实际抽样操作中,满足这两项原则非常不容易。例如,在城市居民户的抽样中,会经常出现一户有例如,在城市居民户的抽样中,会经常出
33、现一户有多处住房的情况,这样很容易把这一户重复列入抽多处住房的情况,这样很容易把这一户重复列入抽样框,使得他们在抽样中的中选概率高于其他居民,样框,使得他们在抽样中的中选概率高于其他居民,从而违背了随机抽样的等概率原则;同样,许多城从而违背了随机抽样的等概率原则;同样,许多城市居民居住条件较差,很多居民同住在一个门牌号市居民居住条件较差,很多居民同住在一个门牌号中,因此很容易遗漏。中,因此很容易遗漏。 在抽样领域,形成一个适当的抽样框经常是调查者在抽样领域,形成一个适当的抽样框经常是调查者面临的最有挑战性的问题。面临的最有挑战性的问题。2022-3-202022-3-203535 在上海,会有
34、在上海,会有10多个家庭居住在一个门牌号的情况,多个家庭居住在一个门牌号的情况,如果出现这种情况,被遗漏掉的户就没有可能被抽如果出现这种情况,被遗漏掉的户就没有可能被抽中,也就是说,他们中选概率为零,当然也就违背中,也就是说,他们中选概率为零,当然也就违背了随机抽取的等概率原则。了随机抽取的等概率原则。 还有郑州市内的还有郑州市内的“都市村庄都市村庄”等情况。等情况。 又如,电话号码本就可能是电话调查的抽样框。在又如,电话号码本就可能是电话调查的抽样框。在问卷中,调查总体很有可能是城市中的所有居民。问卷中,调查总体很有可能是城市中的所有居民。但是,电话号码本就不包括那些没有电话的居民和但是,电
35、话号码本就不包括那些没有电话的居民和那些没有公布他们号码的居民。那些没有公布他们号码的居民。2022-3-202022-3-203636 1936年总统大选时,年总统大选时,文学文摘文学文摘(Literary Digest)杂志)杂志社从电话簿和汽车主登记表中选出了一大批选民(超过社从电话簿和汽车主登记表中选出了一大批选民(超过200万人次)作抽样调查,基于这个调查的结果,它预言阿尔万人次)作抽样调查,基于这个调查的结果,它预言阿尔弗弗兰顿(兰顿(Alf London)会在竞选中击败富兰克林)会在竞选中击败富兰克林罗斯福。罗斯福。不幸的是,这份抽样框选择的(电话簿和汽车主登记表中)不幸的是,这
36、份抽样框选择的(电话簿和汽车主登记表中)选民并不能代表选民并不能代表1936年整个美国的所有选民。因为,当时大年整个美国的所有选民。因为,当时大多数人没有电话,没有汽车。并且这部分被忽略的选民收入多数人没有电话,没有汽车。并且这部分被忽略的选民收入很低。然而,抽样中作为重点的富裕阶层的选择,更倾向于很低。然而,抽样中作为重点的富裕阶层的选择,更倾向于投共和党的票。投共和党的票。 当时,盖洛普就对他们电话访问的可信度提出质疑,同时抽当时,盖洛普就对他们电话访问的可信度提出质疑,同时抽取了最具代表性的样本进行民意测验,并预测罗斯福将当选。取了最具代表性的样本进行民意测验,并预测罗斯福将当选。 竞选
37、结果出来后,竞选结果出来后,文学文摘文学文摘因其失误的预言使其可信度因其失误的预言使其可信度急剧下降,最终导致了破产的结局。盖洛普则名声大噪。急剧下降,最终导致了破产的结局。盖洛普则名声大噪。2022-3-202022-3-203737 某一个狗食品商在超级商场里对狗的主人进行了广泛的访问某一个狗食品商在超级商场里对狗的主人进行了广泛的访问调查,他们调查并估计顾客对包装式样和型号的要求,并试调查,他们调查并估计顾客对包装式样和型号的要求,并试探顾客对广告设计方案的反应。探顾客对广告设计方案的反应。 产品投入市场初期,经历了一个高销售额的阶段。但数月后,产品投入市场初期,经历了一个高销售额的阶段
38、。但数月后,销售额却停滞不前。销售额却停滞不前。 这家公司讨论研究后,把自己生这家公司讨论研究后,把自己生 产的狗食带到当地的流浪狗收容产的狗食带到当地的流浪狗收容 所,然后把狗食放在狗的面前,所,然后把狗食放在狗的面前, 但它们却连碰都不碰!但它们却连碰都不碰! 尽管访问调查所有的狗的主人,尽管访问调查所有的狗的主人, 但厂家却不知道自己的抽样框但厂家却不知道自己的抽样框 是错误的。是错误的。2022-3-202022-3-203838 您所选项目的抽样框应该是什么?为什么?您所选项目的抽样框应该是什么?为什么? 如何能够避免其不重复性,并能够形成一个如何能够避免其不重复性,并能够形成一个完
39、整的抽样框?完整的抽样框?2022-3-202022-3-203939第一步第一步界定调查总体界定调查总体第二步第二步选择资料收集方式选择资料收集方式第三步第三步选择抽样框选择抽样框第四步第四步确定抽样方法确定抽样方法第五步第五步决定样本大小决定样本大小第六步第六步抽取样本收集资料抽取样本收集资料第七步第七步评估样本正误评估样本正误2022-3-202022-3-204040抽样调查抽样调查概率抽样概率抽样非概率抽样非概率抽样简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样配额抽样配额抽样自愿抽样自愿抽样2022-3-
40、202022-3-204141 简单随机抽样又称纯随机抽样,它是按随机的原则简单随机抽样又称纯随机抽样,它是按随机的原则直接从总体直接从总体N个单位中抽取个单位中抽取n个单位作为样本,保证个单位作为样本,保证总体中每个单位在抽选时都有相等的机会。总体中每个单位在抽选时都有相等的机会。 有放回和不放回抽样两种方方法。有放回和不放回抽样两种方方法。 简单随机抽样的随机化抽样程序主要通过三种方式简单随机抽样的随机化抽样程序主要通过三种方式实现:实现:抽签法抽签法随机数字表法随机数字表法计算机抽取计算机抽取2022-3-202022-3-204242 适用于总体单位数较少的情况。 抽签方式在具体应用上
41、有多种方法,如抽纸签法、纸牌法等。基本步骤如下: (P109)将调查总体的每个单位编上号码将号码均匀打乱任意从中抽选,抽到一个号码,就作为一个单位直到抽足预先规定的样本数目为止2022-3-202022-3-204343(P109)随机数表(乱数表)基本步骤:调查总体中的所有单位加以编号,根据编号的位数确定适用若干位数字查乱数表直到抽足预定样本数目为止2022-3-202022-3-204444 要从要从9494家上市公司中抽取家上市公司中抽取1212家作为抽样样家作为抽样样本,可先将本,可先将9494家公司由家公司由1 1至至9494编号编号N=94N=94,然,然后在乱数表上任意一点一行(
42、或一列)中后在乱数表上任意一点一行(或一列)中一个数字作为起点数,从这个数字按上下一个数字作为起点数,从这个数字按上下或左右顺序读起,则所抽取单位是:或左右顺序读起,则所抽取单位是:9696 68 27 31 05 03 72 93 15 55 59 56 35 68 27 31 05 03 72 93 15 55 59 56 35?2022-3-202022-3-204545 在顺序抽取的过程中,遇到比编号大的数在顺序抽取的过程中,遇到比编号大的数字,应该舍去。此例中的字,应该舍去。此例中的96因大于因大于94,故,故舍去不用。舍去不用。2022-3-202022-3-204646 统计软件
43、中都有抽取随机样本的功能,其原统计软件中都有抽取随机样本的功能,其原理是利用软件中的相应程序生产管理随机数,理是利用软件中的相应程序生产管理随机数,然后由计算机完成抽取。然后由计算机完成抽取。 通常,抽样框中的信息都可以形成文件,存通常,抽样框中的信息都可以形成文件,存储于计算机中,因此这种方法抽取样本十分储于计算机中,因此这种方法抽取样本十分快捷。快捷。 需要指出的是,通过大量的模拟实验发现,需要指出的是,通过大量的模拟实验发现,计算机产生的随机数是伪随机数,其随机性计算机产生的随机数是伪随机数,其随机性并不特别理想,在使用中要意识到这一点。并不特别理想,在使用中要意识到这一点。2022-3
44、-202022-3-204747 简单随机抽样是最基本的随机抽样方法,操作简单,简单随机抽样是最基本的随机抽样方法,操作简单,且每个单位入样的概率是相同的,因而计算抽样误且每个单位入样的概率是相同的,因而计算抽样误差和对总体参数进行推断都有比较简单的形式。差和对总体参数进行推断都有比较简单的形式。 但是,简单随机抽样没有利用抽样框中更多的辅助但是,简单随机抽样没有利用抽样框中更多的辅助信息,所以用样本统计量估计总体参数的效率受到信息,所以用样本统计量估计总体参数的效率受到影响。同时,在简单随机抽样条件下,样本的分布影响。同时,在简单随机抽样条件下,样本的分布可能十分分散,这就增加了调查过程中的
45、费用和时可能十分分散,这就增加了调查过程中的费用和时间。间。 这种抽样方法的适用条件是:这种抽样方法的适用条件是:抽样框中没有更多可抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不很大。个体之间的差异不很大。2022-3-202022-3-204848 分层抽样又称类型抽样,它的特点是先对总体各单分层抽样又称类型抽样,它的特点是先对总体各单位按主要标志加以分组,然后再从各组中按随机的位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本原则抽选一定单位构成样本 设总体由设总体由N个单位组成,把总体划分为个单
46、位组成,把总体划分为K组,使组,使N=N1+N2+N3+NK,然后分别从,然后分别从N1、N2、N3NK中抽取中抽取n1、n2、n3nk个单位构成样本容量为个单位构成样本容量为n的样的样本总体,使本总体,使n=n1+n2+n3+nk,这种抽样方法称为,这种抽样方法称为分层抽样,分层抽样具体形式主要有两种:分层抽样,分层抽样具体形式主要有两种:2022-3-202022-3-204949(一)分层比例抽样(一)分层比例抽样即按各个层(或各类型)中的单位数占总体单位即按各个层(或各类型)中的单位数占总体单位数的比例分配各层的样本数量数的比例分配各层的样本数量各层样本单位数:各层样本单位数: =ni
47、=N NN Ni in ni iN NnNnNi in n2022-3-202022-3-205050 某地共有居民某地共有居民20000户,按经济收入高低进行户,按经济收入高低进行分类,其中高收入的居民为分类,其中高收入的居民为4000户,占总体户,占总体的的20%,中收入的居民为,中收入的居民为12000户,占总体户,占总体的的60%,低收入的居民为,低收入的居民为4000户,占总体的户,占总体的20%。要从中抽选。要从中抽选200户进行购买力调查,则户进行购买力调查,则各类型应抽取的样本单位数为?各类型应抽取的样本单位数为?2022-3-202022-3-205151经济收入高的样本数目
48、为:经济收入高的样本数目为:200*20%=40 (户(户) 经济收入中的样本数目为:经济收入中的样本数目为:200*60%=120(户(户) 经济收入低的样本数目为:经济收入低的样本数目为:200*20%=40 (户(户)样本单位数的抽取是按各种经济收入的单位数量占样本单位数的抽取是按各种经济收入的单位数量占总体单位数量的比例进行样本的抽选。总体单位数量的比例进行样本的抽选。这种方法这种方法简便易行,分配合理,计算方便。适用于各类型之间差异不大的分类抽样调查,如果各类差异过大,则不宜采用而应采用分层最佳抽样法。2022-3-202022-3-205252(二)分层最佳抽样(二)分层最佳抽样分
49、层最佳抽样是非比例抽样,它不仅是按各层占母体中分层最佳抽样是非比例抽样,它不仅是按各层占母体中的比例来分配样本数,而且还根据各层的样本标准差的的比例来分配样本数,而且还根据各层的样本标准差的大小,调整各层的样本数目的抽样法大小,调整各层的样本数目的抽样法计算公式为: ni=n*(NiSi/ NiSi)式中:ni各类型应抽选的样本单位数 n 样本单位数 Ni 各类型的调查单位数 Si 各类型调查单位数的样本标准差2022-3-202022-3-205353仍以上述居民收入与购买力之间关系为例。各层样本标准差仍以上述居民收入与购买力之间关系为例。各层样本标准差高收入为高收入为300元,中收入为元,
50、中收入为200元,低收入为元,低收入为100元,如:元,如: 调查单位数与样本标准差乘积计算表 各层次各层的调查单位数 (户) Ni各层的样本标准各层的样本标准差差 (元)(元)Si乘积乘积 NiSi高高中中低低400012000400030020010012000002400000400000 NiSi2000040000002022-3-202022-3-205454样本标准差样本标准差=离差的平方和离差的平方和/样本数目样本数目上例是假定的,也可通过计算公式。上例是假定的,也可通过计算公式。高收入样本单位数目为:高收入样本单位数目为:200*(1200000/4000000)=60中收入
51、样本单位数目为:中收入样本单位数目为:200*(2400000/4000000)=120低收入样本单位数目为:低收入样本单位数目为:200*(400000/4000000)=202022-3-202022-3-205555样本单位数是按各种经济收入下的样本标准差的样本单位数是按各种经济收入下的样本标准差的大小进行调整的,大小进行调整的, 按按ni=n*(NiSi/ NiSi)计算。计算。通过上述计算可以看出,用非比例抽样法与比例通过上述计算可以看出,用非比例抽样法与比例抽样法,抽取的样本各层次之间不同,特别是高抽样法,抽取的样本各层次之间不同,特别是高收入与低收入减少收入与低收入减少20户(户
52、(20户户40户),中收入户),中收入不变。由于购买力同家庭经济收入关系很大,因不变。由于购买力同家庭经济收入关系很大,因而要增加高收入的样本数,相应减少低收入层的而要增加高收入的样本数,相应减少低收入层的样本数,这种使所抽取的样本更具有代表性。样本数,这种使所抽取的样本更具有代表性。这种以调查单位数和样本标准差两个因素为依据这种以调查单位数和样本标准差两个因素为依据进行的抽样是最佳抽样法。进行的抽样是最佳抽样法。2022-3-202022-3-205656 设某学生宿舍共有设某学生宿舍共有6人,其中人,其中3名新生,名新生,3名老生。名老生。现欲估计该宿舍平均每人拥有书的数目。假设他们现欲估
53、计该宿舍平均每人拥有书的数目。假设他们拥有书的数目如下表所示:拥有书的数目如下表所示:表:表:6名学生拥有书的数目名学生拥有书的数目学生编号学生编号老生拥有书(本)老生拥有书(本)学生编号学生编号新生拥有书(本)新生拥有书(本)A20D2B22E4C24F6合计合计66合计合计122022-3-202022-3-205757 容易算出,总体均值为:容易算出,总体均值为:Y=(66+12)/6=13(本)(本) 现在用抽样方法随机抽取现在用抽样方法随机抽取2人为样本,并用样人为样本,并用样本数据对总体进行推断。本数据对总体进行推断。在简单随机抽样下,抽中拥有最少书的在简单随机抽样下,抽中拥有最少
54、书的2个人的个人的样本均值为样本均值为3本,即本,即y1=(2+4)/2=3本,最多书本,最多书的的2个人的样本均值为个人的样本均值为23本,即本,即y2=(22+24)/2=23,显然与总体均值,显然与总体均值13相比误差都比较大。相比误差都比较大。2022-3-202022-3-205858 老生中抽一人,新生中抽一人,共同组成样本。老生中抽一人,新生中抽一人,共同组成样本。 这时样本最小的可能值为这时样本最小的可能值为y1=(20+2)/2=11,最大的,最大的可能值为可能值为y2=(24+6)/2=15,它们与总体均值要接近,它们与总体均值要接近得多。如下图所示:得多。如下图所示:23
55、411101523 24简单随机抽样结果所在的范围简单随机抽样结果所在的范围分层抽样结果所在的范围分层抽样结果所在的范围2022-3-202022-3-205959 通过分类,可以把总体中标志值比较接近的单位归为一通过分类,可以把总体中标志值比较接近的单位归为一组,使各组的分布比较均匀,而且保证各组都有中选的组,使各组的分布比较均匀,而且保证各组都有中选的机会,这样计算的抽样平均指标变异程度也就比较小。机会,这样计算的抽样平均指标变异程度也就比较小。所以在总体各单位标志值大小悬殊的情况下,动用分层所以在总体各单位标志值大小悬殊的情况下,动用分层抽样比简单随机抽样可以得到比较准确的结果。抽样比简
56、单随机抽样可以得到比较准确的结果。 在实际中分层抽样应用广泛。例如,农产量抽样按地区在实际中分层抽样应用广泛。例如,农产量抽样按地区分组、家计调查按国民经部门分组、产品质量抽查按各分组、家计调查按国民经部门分组、产品质量抽查按各类按类型号的车床分组等类按类型号的车床分组等等,都能够得到显著的效果。等,都能够得到显著的效果。这种方法实质上是分层与单纯随机抽样的结合。这种方法实质上是分层与单纯随机抽样的结合。2022-3-202022-3-206060 等距抽样又称为机械抽样或系统抽样,它是等距抽样又称为机械抽样或系统抽样,它是事先将全部总体各单位按某一标志排列,然事先将全部总体各单位按某一标志排
57、列,然后依固定顺序和间隔来抽选调查单位的一种后依固定顺序和间隔来抽选调查单位的一种组织形式。如逢十抽一,每隔七抽一等。组织形式。如逢十抽一,每隔七抽一等。 K值指每隔多少个抽一个,计算公式是:值指每隔多少个抽一个,计算公式是:K=N(总体个案数)(总体个案数)/n(样本个案数)(样本个案数)2022-3-202022-3-206161 与简单抽样相比,等距抽样易于实施,工作与简单抽样相比,等距抽样易于实施,工作量小;而且样本在总体中分布更为均匀,抽量小;而且样本在总体中分布更为均匀,抽样误差小于简单抽样。因此,等距抽样成为样误差小于简单抽样。因此,等距抽样成为实际中广泛应用的一种抽样方法。实际
58、中广泛应用的一种抽样方法。 这种方法的一个弱点就是容易出现这种方法的一个弱点就是容易出现周期性偏周期性偏差差。为了防止这种情况,我们可以取一定数。为了防止这种情况,我们可以取一定数量的样本以后,打乱原来的秩序,建立新的量的样本以后,打乱原来的秩序,建立新的秩序,以纠正周期性偏差。秩序,以纠正周期性偏差。2022-3-202022-3-206262 某地区有零售店某地区有零售店110户,采用等距抽样方法抽取户,采用等距抽样方法抽取11进行调查。进行调查。 第一步,将总体调查对象(第一步,将总体调查对象(110户零售店)进行编户零售店)进行编号,即从号,即从1号至号至110号。号。 第二步,确定抽
59、样间隔。已知调查总体第二步,确定抽样间隔。已知调查总体N=110,样,样本数本数n=11户,故抽样间隔户,故抽样间隔=110/11=10户。户。 第三步,确定起抽号数。用第三步,确定起抽号数。用10张卡片(即抽样间隔)张卡片(即抽样间隔)从从1号至号至10号编号,然后从中随机抽取号编号,然后从中随机抽取1张作为抽数张作为抽数号。如果抽出的是号。如果抽出的是2号,号,2号则为抽号数。号则为抽号数。 第四步,确定被抽取单位。从起抽号开始,按照抽第四步,确定被抽取单位。从起抽号开始,按照抽样间隔选择样本,本例从样间隔选择样本,本例从2号起每隔号起每隔10号抽选一个,号抽选一个,直至抽足直至抽足11个
60、为止。计算方法如下:个为止。计算方法如下:2022-3-202022-3-206363 2 2+10=12 2+10*2=22 2+10*10=102 即所抽的单位是编号为即所抽的单位是编号为2,12,22,32,42,52,62,72,82,92,102的的11个零售店。个零售店。2022-3-202022-3-206464 整群抽样也有称聚类抽样、集团抽样,是将市场调查母体先整群抽样也有称聚类抽样、集团抽样,是将市场调查母体先分为若干群,然后按随机原则,成群地抽取样本单位,对抽分为若干群,然后按随机原则,成群地抽取样本单位,对抽中的群内所有单位进行调查的一种抽样组织形式。中的群内所有单位进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论